Medida de similaridade supervisionada

Em vez de comparar dados de atributos combinados manualmente, é possível reduzir o de dados a representações chamadas embeddings, depois compare o e embeddings. Os embeddings são gerados pelo treinamento de uma rede neural profunda supervisionada rede (DNN) no atributo os próprios dados. Os embeddings mapeiam os dados do atributo para um vetor em um embedding com menos dimensões do que os dados de atributos. Os embeddings são discutidos em Embeddings do curso intensivo de machine learning, enquanto as redes neurais são abordadas Redes neurais mais tarde neste módulo. Vetores de embedding para exemplos semelhantes, como vídeos do YouTube sobre temas semelhantes assistidos pelos mesmos usuários ficam próximos no embedding espaço. Uma medida de similaridade supervisionada usa essa "proximidade" quantificar a semelhança de pares de exemplos.

Lembre-se, estamos discutindo o aprendizado supervisionado apenas para criar nossa semelhança medir. A medida de similaridade, seja manual ou supervisionada, é usada por um algoritmo para executar o clustering não supervisionado.

Comparação de medidas manuais e supervisionadas

Esta tabela descreve quando usar uma similaridade manual ou supervisionada medir de acordo com seus requisitos.

RequisitoManualSupervisionado
Elimina informações redundantes em atributos correlacionados? Não, você precisa investigar as correlações entre os atributos. Sim, a DNN elimina informações redundantes.
Fornece insights sobre as semelhanças calculadas? Sim Não, os embeddings não podem ser decifrados.
Adequado para conjuntos de dados pequenos com poucos recursos? Sim. Não, conjuntos de dados pequenos não fornecem dados de treinamento suficientes para uma DNN.
Adequado para grandes conjuntos de dados com muitos recursos? Não, eliminar manualmente as informações redundantes de vários atributos e combiná-los é muito difícil. Sim, a DNN elimina automaticamente as informações redundantes e que combina atributos.

Como criar uma medida de similaridade supervisionada

Esta é uma visão geral do processo para criar uma medida de similaridade supervisionada:

Dados de atributos de entrada. Escolha DNN: codificador automático ou preditor.
      Extrair embeddings. Escolha a medida: produto escalar, cosseno ou
      distância euclidiana.
Figura 1: etapas para criar uma similaridade supervisionada medir.

Nesta página, abordamos as DNNs, enquanto as páginas a seguir abordam as etapas restantes.

Escolher DNN com base em rótulos de treinamento

Reduza os dados de atributos para embeddings de baixa dimensão treinando uma DNN que usa os mesmos dados de atributos como entrada e como rótulos. Por exemplo, em no caso de dados domésticos, a DNN usaria atributos como preço, tamanho ou CEP, para prever esses atributos.

Codificador automático

Uma DNN que aprende embeddings de dados de entrada prevendo os próprios dados de entrada é chamado de codificador automático. Como as camadas escondidas de um codificador automático são menores do que as camadas de entrada e saída, o codificador automático é forçado a aprender uma representação compacta dos dados do atributo de entrada. Depois de treinar a DNN, extrair os embeddings da menor camada escondida para calcular a similaridade.

Uma figura que mostra um grande número de nós para o mesmo
       os dados de entrada e saída, que são compactados em três nós centrais.
       de cinco camadas escondidas.
Figura 2: arquitetura de codificador automático.

Preditor

Um codificador automático é a escolha mais simples para gerar embeddings. No entanto, um o codificador automático não é a melhor escolha quando certos atributos podem ser mais importante que outros ao determinar a similaridade. Por exemplo, dados internos, presume que o preço é mais importante do que o código postal. Nesses casos, use apenas o atributo importante como rótulo de treinamento da DNN. Como essa DNN prevê um atributo de entrada específico em vez de prever todos os atributos de entrada, ela é chamada de DNN previsor. Os embeddings geralmente são extraídos do última camada de embedding.

Uma figura mostrando o grande número de nós no vetor de entrada
       sendo reduzido em três camadas escondidas para uma camada de três nós
       embeddings devem ser extraídos. A última camada de saída é a
       o valor do rótulo.
Figura 3: arquitetura do preditor.

Ao escolher um elemento para ser o marcador:

  • Prefira atributos numéricos a categóricos porque a perda é mais fácil de calcular e interpretar para atributos numéricos.

  • Remova o atributo usado como rótulo da entrada da DNN ou caso contrário, a DNN vai usar esse atributo para prever a saída perfeitamente. Isso é um exemplo extremo de vazamento de rótulos.

Dependendo da escolha dos rótulos, a DNN resultante é uma um codificador automático ou um preditor.