Cette page contient des termes du glossaire des modèles de séquence. Pour consulter tous les termes du glossaire, cliquez ici.
B
bigramme
Un N-gramme dans lequel N=2.
E
problème de gradient éclatant
Tendance des gradients dans les réseaux de neurones profonds (en particulier les réseaux de neurones récurrents) à devenir étonnamment abrupte (élevée). Les gradients escarpés entraînent souvent des mises à jour très importantes des pondérations de chaque nœud d'un réseau de neurones profond.
Les modèles présentant un problème de gradient éclatant deviennent difficiles, voire impossibles à entraîner. Le rognage de gradient peut atténuer ce problème.
À comparer au problème de disparition du gradient.
F
Oublier le portail
Partie d'une cellule de mémoire longue à court terme qui régule le flux d'informations dans la cellule. Les portes d'oubli conservent le contexte en déterminant quelles informations supprimer de l'état de la cellule.
G
bornement de la norme du gradient
Mécanisme couramment utilisé pour atténuer le problème de l'explosion du gradient en limitant artificiellement (rogner) la valeur maximale des gradients lorsque vous utilisez la descente de gradient pour entraîner un modèle.
L
Mémoire à court terme (LSTM)
Type de cellule dans un réseau de neurones récurrent utilisé pour traiter des séquences de données dans des applications telles que la reconnaissance de l'écriture manuscrite, la traduction automatique et les sous-titres d'images. Les LSTM résolvent le problème de disparition du gradient qui survient lors de l'entraînement de RNN en raison de longues séquences de données en conservant l'historique dans un état de mémoire interne basé sur les nouvelles entrées et le contexte des cellules précédentes du RNN.
LSTM
Abréviation de mémoire longue à court terme.
N
N-gramme
Séquence ordonnée de N mots. Par exemple, vraiment follement est un 2 grammes. L'ordre a une importance : follement vraiment est un 2-grammes différent de vraiment follement.
N | Nom(s) pour ce type de N-gramme | Exemples |
---|---|---|
2 | bigramme ou 2-gramme | à emporter, à venir, déjeuner, dîner |
3 | trigramme ou 3-gramme | pas trop mangé, trois souris aveugles, la cloche sonne |
4 | 4 grammes | marcher dans le parc, la poussière dans le vent, le garçon a mangé des lentilles |
De nombreux modèles de compréhension du langage naturel s'appuient sur les N-grammes pour prédire le prochain mot que l'utilisateur saisira ou énoncera. Par exemple, supposons qu'un utilisateur saisisse three blind. Un modèle NLU basé sur des trigrammes prédirait probablement que l'utilisateur saisira ensuite mice.
Faire la différence entre les N-grammes et les sacs de mots, qui sont des ensembles de mots non ordonnés.
R
réseau de neurones récurrent
Réseau de neurones exécuté intentionnellement plusieurs fois, et où des parties de chaque exécution alimentent la prochaine exécution. Plus précisément, les couches cachées de l'exécution précédente fournissent une partie de l'entrée à la même couche cachée lors de l'exécution suivante. Les réseaux de neurones récurrents sont particulièrement utiles pour évaluer les séquences, de sorte que les couches cachées puissent apprendre des exécutions précédentes du réseau de neurones sur les parties antérieures de la séquence.
Par exemple, la figure suivante montre un réseau de neurones récurrent qui s'exécute quatre fois. Notez que les valeurs apprises dans les couches cachées lors de la première exécution font partie de l'entrée des mêmes couches cachées lors de la deuxième exécution. De même, les valeurs apprises dans la couche cachée lors de la deuxième exécution font partie de l'entrée de la même couche cachée lors de la troisième exécution. De cette manière, le réseau de neurones récurrent s'entraîne et prédit progressivement la signification de la séquence entière plutôt que simplement la signification des mots individuels.
RNN
Abréviation de réseaux de neurones récurrents.
S
modèle de séquence
Modèle dont les entrées ont une dépendance séquentielle. Par exemple, prédire la prochaine vidéo visionnée à partir d'une séquence de vidéos précédemment regardées.
T
timestep
Une cellule "non déployée" dans un réseau de neurones récurrent. Par exemple, la figure suivante montre trois étapes temporelles (étiquetées avec les indices t-1, t et t+1):
trigramme
Un N-gramme dans lequel N=3.
V
problème de disparition du gradient
Tendance des gradients des premières couches cachées de certains réseaux de neurones profonds à devenir étonnamment plats (faibles). Des gradients de plus en plus bas entraînent des modifications de plus en plus mineures des pondérations sur les nœuds d'un réseau de neurones profond, ce qui entraîne un apprentissage faible ou inexistant. Les modèles qui souffrent du problème de disparition du gradient deviennent difficiles, voire impossibles à entraîner. Les cellules de mémoire longue à court terme permettent de résoudre ce problème.
À comparer au problème de gradient exponentiel.