Mesure de similarité supervisée

Au lieu de comparer manuellement des données de caractéristiques combinées, vous pouvez réduire données aux représentations appelées représentations vectorielles continues, puis comparez les représentations vectorielles continues. Les représentations vectorielles continues sont générées par l'entraînement d'un neurone profond supervisé réseau (DNN) sur la caractéristique données proprement dites. Les représentations vectorielles continues mappent les données de caractéristiques à un vecteur dans une représentation vectorielle continue avec généralement moins de dimensions que les données de caractéristiques. Les représentations vectorielles continues sont abordés dans la section Représentations vectorielles continues du cours d'initiation au machine learning, tandis que les réseaux de neurones sont abordés dans le Réseaux de neurones de ce module. Vecteurs de représentation vectorielle continue pour des exemples similaires, comme des vidéos YouTube sur des sujets similaires regardés par les mêmes utilisateurs, se retrouvent très proches les uns des autres dans la représentation vectorielle continue l'espace de stockage. Une mesure de similarité supervisée utilise cette "proximité" pour quantifier la similarité entre exemples.

Rappelez-vous que nous ne parlons de l'apprentissage supervisé que pour créer notre similarité mesurer. La mesure de similarité, manuelle ou supervisée, est ensuite utilisée un algorithme pour effectuer un clustering non supervisé.

Comparaison des mesures manuelles et supervisées

Ce tableau indique quand utiliser une similarité manuelle ou supervisée en fonction de vos besoins.

ExigenceManuelSupervisé
Élimine les informations redondantes dans les caractéristiques corrélées ? Non, vous devez rechercher d'éventuelles corrélations entre les caractéristiques. Oui, le DNN élimine les informations redondantes.
Donne-t-il des informations sur les similitudes calculées ? Oui Non, les représentations vectorielles continues ne peuvent pas être déchiffrées.
Adapté aux petits ensembles de données avec peu de fonctionnalités ? Oui. Non, les petits ensembles de données ne fournissent pas assez de données d'entraînement pour un DNN.
Adapté aux grands ensembles de données avec de nombreuses fonctionnalités ? Non, en éliminant manuellement les informations redondantes de plusieurs fonctionnalités puis les combiner est très difficile. Oui, le DNN élimine automatiquement les informations redondantes et combine des caractéristiques.

Créer une mesure de similarité supervisée

Voici un aperçu du processus de création d'une mesure de similarité supervisée:

Données de caractéristiques d'entrée. Choisissez DNN: auto-encodeur ou prédicteur.
      Extraire les représentations vectorielles continues Choisissez une mesure: produit scalaire, cosinus ou
      Distance euclidienne.
Figure 1: Étapes pour créer une similarité supervisée mesurer.

Cette page traite des DNN, tandis que les pages suivantes couvrent les étapes restantes.

Choisir un DNN en fonction des étiquettes d'entraînement

Réduisez vos données de caractéristiques à des représentations vectorielles continues de dimensions inférieures en entraînant un DNN qui utilise les mêmes données de caractéristiques en entrée et en tant qu'étiquettes. Par exemple, dans Dans le cas des données d'auto-promotion, le DNN utilise les caractéristiques telles que le prix, la taille code postal) pour prédire ces caractéristiques.

Auto-encodeur

Un DNN qui apprend les représentations vectorielles continues des données d'entrée en prédisant les données d'entrée elles-mêmes s'appelle un auto-encodeur. Comme les couches cachées d'un auto-encodeur sont plus petites, que les couches d'entrée et de sortie, l'auto-encodeur est obligé d'apprendre représentation compressée des données de caractéristiques d'entrée. Une fois le DNN entraîné, extraire les représentations vectorielles continues de la plus petite couche cachée pour calculer la similarité.

Figure montrant un grand nombre de nœuds pour des
       d'entrée et de sortie, qui sont compressées
sur trois nœuds intermédiaires.
       de cinq couches cachées.
Figure 2: Architecture d'Autoencoder

Prédicteur

Un auto-encodeur est le choix le plus simple pour générer des représentations vectorielles continues. Toutefois, une l'auto-encodeur n'est pas le choix optimal alors que certaines caractéristiques plus important que d'autres pour déterminer la similarité. Par exemple, avec des données internes, supposent que le prix est plus important que le code postal. Dans ce cas, utilisez la caractéristique importante comme étiquette d'entraînement du DNN. Puisque ce DNN prédit une caractéristique d'entrée spécifique au lieu de prédire toutes les caractéristiques d'entrée, est appelé DNN prédicteur. Les représentations vectorielles continues doivent généralement être extraites de la dernière couche de représentation vectorielle continue.

Figure montrant le grand nombre de nœuds dans le vecteur d'entrée
       réduit sur trois couches cachées, pour en faire une couche à trois nœuds,
       les représentations vectorielles continues
doivent être extraites. La dernière couche de sortie correspond à la prédiction
       la valeur de l'étiquette.
Figure 3: Architecture du prédicteur

Lorsque vous choisissez une caractéristique comme étiquette:

  • Préférer les caractéristiques numériques aux caractéristiques catégorielles, car la perte est plus facile à calculer et à interpréter pour les caractéristiques numériques.

  • supprimer la caractéristique que vous utilisez comme étiquette de l'entrée du DNN ; ou sinon le DNN utilisera cette caractéristique pour prédire parfaitement la sortie. (Il s'agit un exemple extrême de fuite d'étiquette.)

En fonction de votre choix d'étiquettes, le DNN obtenu est soit un un auto-encodeur ou un prédicteur.