Une embedding est un dans un espace de relativement faible dimension que l'on peut traduire des vecteurs de grande dimension. Pour une discussion entre les grandes dimensions et de données de faible dimension, consultez le document Catégorique Données de ce module.
Les représentations vectorielles continues facilitent l'exécution du machine learning sur de grands vecteurs de caractéristiques, tels que comme les vecteurs creux représentant les éléments du repas abordés dans le section précédente. Dans l'idéal, une représentation vectorielle continue capture une partie la sémantique des entrées en plaçant celles dont la signification est plus proche dans l'espace des représentations vectorielles continues. Par exemple, une bonne représentation vectorielle continue placerait mot "voiture" plus près du "garage" que d'« éléphant ». Une représentation vectorielle continue peut être entraînée et réutilisés d'un modèle à l'autre.
Pour vous faire une idée de la façon dont les vecteurs de représentation vectorielle continue représentent des informations, considérez le en suivant une représentation unidimensionnelle des plats hot dog pizza salade, shawarma bortsch, sur une échelle du "moins comme sandwich" à « plus comme un sandwich ». "Sandwicherie" est la dimension unique.
Où, sur cette ligne, il faudrait
strudel aux pommes
chute ? Il pourrait être placé entre hot dog
et shawarma
. Mais apple
le strudel semble également avoir une dimension supplémentaire de sucréité (comme
ou le dessert (comme un dessert) qui rend
c'est très différent
des autres options. La figure suivante illustre
en ajoutant un "dessert" dimension:
Une représentation vectorielle continue représente chaque élément dans un espace à n dimensions avec n Nombres à virgule flottante (généralement compris entre -1 et 1 ou entre 0 et 1). Par exemple, la représentation vectorielle continue de la figure 4 représente chaque plat de dans un espace bidimensionnel avec deux coordonnées. L'article "strudel aux pommes" se trouve dans le quadrant supérieur droit du graphique auquel on peut attribuer le point (0,5, 0,3), tandis que le terme "hot dog" se trouve dans le quadrant inférieur droit du graphique ; et se voit attribuer le point (0,2, -0,5).
Dans une représentation vectorielle continue, la distance entre deux éléments quelconques peut être calculée
mathématiquement,
et peut être interprétée comme la similitude relative de ces deux
éléments. Deux objets proches l'un de l'autre, comme shawarma
et hot dog
de la figure 4, sont plus étroitement liées que deux éléments plus éloignés l'un de l'autre
autres, comme apple strudel
et borscht
.
Notez également que dans l'espace bidimensionnel de la figure 4, apple strudel
est beaucoup plus éloigné.
entre shawarma
et hot dog
que dans l'espace unidimensionnel, ce qui correspond
Intuition: apple strudel
n'est pas aussi semblable à un hot dog ou shawarma qu'à un hot dog
chiens et shawarmas sont
l’un par rapport à l’autre.
Prenons maintenant le bortsch, qui est beaucoup plus liquide que les autres articles. Ce suggère une troisième dimension, le liquidité (le niveau de liquide des aliments). Une fois cette dimension ajoutée, les éléments pouvaient s'afficher en 3D comme suit:
Dans cet espace tridimensionnel, tangyuan ? Il est comme le bortsch, ou un dessert, comme le strudel aux pommes. pas un sandwich. Voici un emplacement possible:
Notez la quantité d'informations exprimées dans ces trois dimensions. Vous pouvez imaginer des dimensions supplémentaires, telles que la pertinence ou la participation.
Espaces de représentation vectorielle continue du monde réel
Comme vous l'avez vu dans les exemples d'aliments ci-dessus, même un petit espace multidimensionnel offre la liberté de regrouper des éléments sémantiquement similaires et de garder des éléments dissemblables éloignés les uns des autres. Position (distance et direction) dans le vecteur peut encoder la sémantique dans une bonne représentation vectorielle continue. Par exemple : les visualisations de représentations vectorielles continues réelles illustrent les relations géométriques entre les mots d’un pays et sa capitale. Vous pouvez voir que la distance dans "Canada" à "Ottawa" est à peu près identique à la distance depuis "Turquie" à "Ankara".
<ph type="x-smartling-placeholder">Un espace de représentation vectorielle continue utile aide un modèle de machine learning à détecter des schémas pendant l'entraînement.
Exercice
Dans cet exercice, vous allez utiliser la fonction Représentation vectorielle continue Projecteur pour visualiser un mot une représentation vectorielle continue appelée word2vec représente numériquement plus de 70 000 mots anglais dans l'espace vectoriel.
Tâche 1
Effectuez les tâches suivantes, puis répondez à la question ci-dessous.
Ouvrez l'outil Embedding Projector.
Dans le panneau de droite, saisissez atom dans le champ Search (Rechercher). Ensuite, Cliquez sur le mot atom dans les résultats ci-dessous (sous 4 correspondances). Votre l'écran doit ressembler à celui de la figure 8.
<ph type="x-smartling-placeholder">Là encore, dans le panneau de droite, cliquez sur le bouton Isolate 101 points (Isoler 101 points) au-dessus. le champ Search) pour afficher les 100 mots les plus proches de atom. Votre écran doit ressembler à la figure 9.
<ph type="x-smartling-placeholder">
Passez maintenant en revue les mots répertoriés sous Points les plus proches de l'espace d'origine. Comment décririez-vous ces mots ?
Cliquez ici pour consulter la réponse.
La majorité des mots les plus proches sont des mots couramment associés avec le mot "atome", comme la forme plurielle "atomes", et les mots "électron", « molécule », et « noyau ».
Tâche 2
Effectuez les tâches suivantes, puis répondez à la question ci-dessous:
Cliquez sur le bouton Show All Data (Afficher toutes les données) dans le panneau de droite pour réinitialiser les données. de visualisation de la tâche 1.
Dans le panneau de droite, saisissez uranium dans le champ Rechercher. Votre écran doit ressembler à la figure 10.
<ph type="x-smartling-placeholder">
Passez en revue les mots listés sous Points les plus proches de l'espace d'origine. Comment sont-ils différents des mots atom les plus proches ?
Cliquez ici pour consulter la réponse.
L'uranium est un élément radioactif spécifique élément chimique, et la plupart des mots les plus proches sont d'autres éléments, comme zinc, manganèse, cuivre et aluminium.
Tâche 3
Effectuez les tâches suivantes, puis répondez à la question ci-dessous:
Cliquez sur le bouton Show All Data (Afficher toutes les données) dans le panneau de droite pour réinitialiser les données. de visualisation de la tâche 2.
Dans le panneau de droite, saisissez le mot orange dans le champ Rechercher. Votre doit ressembler à la figure 11.
<ph type="x-smartling-placeholder">
Passez en revue les mots listés sous Points les plus proches de l'espace d'origine. Que remarquez-vous concernant les types de mots affichés ici et les types de mots n'apparaît pas ici ?
Cliquez ici pour consulter la réponse.
Presque tous les mots les plus proches sont d'autres couleurs, comme « jaune », « vert », "bleu", "Violet" et "rouge". Un seul des mots les plus proches ("jus de fruit") se référer à l'autre sens du mot (agrumes). Autres fruits que vous pourriez vous attendre à voir, comme "pomme" et « banane », n'a pas fait la liste des aux conditions les plus proches.
Cet exemple illustre l'une des principales lacunes des représentations vectorielles continues statiques comme word2vec. Toutes les significations possibles d'un mot sont représentées par un seul dans l'espace vectoriel. Ainsi, lorsque vous effectuez une analyse de similarité pour "orange", il fait impossible d'isoler les points les plus proches pour une désignation spécifique du mot, comme "orange" (fruit), mais pas "orange" (couleur).