Au lieu de comparer manuellement des données de caractéristiques combinées, vous pouvez réduire données aux représentations appelées représentations vectorielles continues, puis comparez les représentations vectorielles continues. Les représentations vectorielles continues sont générées par l'entraînement d'un neurone profond supervisé réseau (DNN) sur la caractéristique données proprement dites. Les représentations vectorielles continues mappent les données de caractéristiques à un vecteur dans une représentation vectorielle continue avec généralement moins de dimensions que les données de caractéristiques. Les représentations vectorielles continues sont abordés dans la section Représentations vectorielles continues du cours d'initiation au machine learning, tandis que les réseaux de neurones sont abordés dans le Réseaux de neurones de ce module. Vecteurs de représentation vectorielle continue pour des exemples similaires, comme des vidéos YouTube sur des sujets similaires regardés par les mêmes utilisateurs, se retrouvent très proches les uns des autres dans la représentation vectorielle continue l'espace de stockage. Une mesure de similarité supervisée utilise cette "proximité" pour quantifier la similarité entre exemples.
Rappelez-vous que nous ne parlons de l'apprentissage supervisé que pour créer notre similarité mesurer. La mesure de similarité, manuelle ou supervisée, est ensuite utilisée un algorithme pour effectuer un clustering non supervisé.
Comparaison des mesures manuelles et supervisées
Ce tableau indique quand utiliser une similarité manuelle ou supervisée en fonction de vos besoins.
Exigence | Manuel | Supervisé |
---|---|---|
Élimine les informations redondantes dans les caractéristiques corrélées ? | Non, vous devez rechercher d'éventuelles corrélations entre les caractéristiques. | Oui, le DNN élimine les informations redondantes. |
Donne-t-il des informations sur les similitudes calculées ? | Oui | Non, les représentations vectorielles continues ne peuvent pas être déchiffrées. |
Adapté aux petits ensembles de données avec peu de fonctionnalités ? | Oui. | Non, les petits ensembles de données ne fournissent pas assez de données d'entraînement pour un DNN. |
Adapté aux grands ensembles de données avec de nombreuses fonctionnalités ? | Non, en éliminant manuellement les informations redondantes de plusieurs fonctionnalités puis les combiner est très difficile. | Oui, le DNN élimine automatiquement les informations redondantes et combine des caractéristiques. |
Créer une mesure de similarité supervisée
Voici un aperçu du processus de création d'une mesure de similarité supervisée:
Cette page traite des DNN, tandis que les pages suivantes couvrent les étapes restantes.
Choisir un DNN en fonction des étiquettes d'entraînement
Réduisez vos données de caractéristiques à des représentations vectorielles continues de dimensions inférieures en entraînant un DNN qui utilise les mêmes données de caractéristiques en entrée et en tant qu'étiquettes. Par exemple, dans Dans le cas des données d'auto-promotion, le DNN utilise les caractéristiques telles que le prix, la taille code postal) pour prédire ces caractéristiques.
Auto-encodeur
Un DNN qui apprend les représentations vectorielles continues des données d'entrée en prédisant les données d'entrée elles-mêmes s'appelle un auto-encodeur. Comme les couches cachées d'un auto-encodeur sont plus petites, que les couches d'entrée et de sortie, l'auto-encodeur est obligé d'apprendre représentation compressée des données de caractéristiques d'entrée. Une fois le DNN entraîné, extraire les représentations vectorielles continues de la plus petite couche cachée pour calculer la similarité.
Prédicteur
Un auto-encodeur est le choix le plus simple pour générer des représentations vectorielles continues. Toutefois, une l'auto-encodeur n'est pas le choix optimal alors que certaines caractéristiques plus important que d'autres pour déterminer la similarité. Par exemple, avec des données internes, supposent que le prix est plus important que le code postal. Dans ce cas, utilisez la caractéristique importante comme étiquette d'entraînement du DNN. Puisque ce DNN prédit une caractéristique d'entrée spécifique au lieu de prédire toutes les caractéristiques d'entrée, est appelé DNN prédicteur. Les représentations vectorielles continues doivent généralement être extraites de la dernière couche de représentation vectorielle continue.
Lorsque vous choisissez une caractéristique comme étiquette:
Préférer les caractéristiques numériques aux caractéristiques catégorielles, car la perte est plus facile à calculer et à interpréter pour les caractéristiques numériques.
supprimer la caractéristique que vous utilisez comme étiquette de l'entrée du DNN ; ou sinon le DNN utilisera cette caractéristique pour prédire parfaitement la sortie. (Il s'agit un exemple extrême de fuite d'étiquette.)
En fonction de votre choix d'étiquettes, le DNN obtenu est soit un un auto-encodeur ou un prédicteur.