Représentations vectorielles continues: traduction dans un espace de dimension inférieure

Vous pouvez résoudre les principaux problèmes liés aux données d'entrée creuses en mappant vos données à haute dimension dans un espace de dimension inférieure.

Comme vous l'avez vu précédemment dans les exercices sur les films, même un petit espace multidimensionnel permet de regrouper des éléments sémantiquement similaires et de les éloigner. La position (distance et direction) de l'espace vectoriel peut encoder la sémantique en une bonne représentation vectorielle continue. Par exemple, les visualisations suivantes de représentations vectorielles continues réelles montrent des relations géométriques qui capturent des relations sémantiques telles que la relation entre un pays et sa capitale:

Trois exemples de représentations vectorielles continues de mots représentant des relations de mots géométriquement: le genre (homme/femme et roi/reine), le verbe au pluriel (marche/marche et baignade/natation) et les majuscules (Turquie/Ankara et Vietnam/Hanoi)

Figure 4 Les représentations vectorielles continues peuvent produire des analogies remarquables.

Ce genre d'espace pertinent permet à votre système de machine learning de détecter des tendances qui peuvent faciliter la tâche d'apprentissage.

Réduire le réseau

Bien que nous souhaitons disposer de suffisamment de dimensions pour encoder des relations sémantiques riches, nous voulons également un espace de représentations vectorielles continues suffisamment petit pour nous permettre d'entraîner notre système plus rapidement. Une représentation vectorielle continue utile peut être de l'ordre de centaines de dimensions. Il s'agit probablement de plusieurs ordres de grandeur inférieurs à la taille de votre vocabulaire pour une tâche en langage naturel.