Glossaire du machine learning: modèles de séquence

Cette page contient des termes du glossaire des modèles de séquence. Pour consulter tous les termes du glossaire, cliquez ici.

B

bigramme

#seq
#language

Un N-gramme dans lequel N=2.

E

problème de gradient éclatant

#seq

Tendance des gradients dans les réseaux de neurones profonds (en particulier les réseaux de neurones récurrents) à devenir étonnamment abrupte (élevée). Les gradients escarpés entraînent souvent des mises à jour très importantes des pondérations de chaque nœud d'un réseau de neurones profond.

Les modèles présentant un problème de gradient éclatant deviennent difficiles, voire impossibles à entraîner. Le rognage de gradient peut atténuer ce problème.

À comparer au problème de disparition du gradient.

F

Oublier le portail

#seq

Partie d'une cellule de mémoire longue à court terme qui régule le flux d'informations dans la cellule. Les portes d'oubli conservent le contexte en déterminant quelles informations supprimer de l'état de la cellule.

G

bornement de la norme du gradient

#seq

Mécanisme couramment utilisé pour atténuer le problème de l'explosion du gradient en limitant artificiellement (rogner) la valeur maximale des gradients lorsque vous utilisez la descente de gradient pour entraîner un modèle.

L

Mémoire à court terme (LSTM)

#seq

Type de cellule dans un réseau de neurones récurrent utilisé pour traiter des séquences de données dans des applications telles que la reconnaissance de l'écriture manuscrite, la traduction automatique et les sous-titres d'images. Les LSTM résolvent le problème de disparition du gradient qui survient lors de l'entraînement de RNN en raison de longues séquences de données en conservant l'historique dans un état de mémoire interne basé sur les nouvelles entrées et le contexte des cellules précédentes du RNN.

LSTM

#seq

Abréviation de mémoire longue à court terme.

N

N-gramme

#seq
#language

Séquence ordonnée de N mots. Par exemple, vraiment follement est un 2 grammes. L'ordre a une importance : follement vraiment est un 2-grammes différent de vraiment follement.

N Nom(s) pour ce type de N-gramme Exemples
2 bigramme ou 2-gramme à emporter, à venir, déjeuner, dîner
3 trigramme ou 3-gramme pas trop mangé, trois souris aveugles, la cloche sonne
4 4 grammes marcher dans le parc, la poussière dans le vent, le garçon a mangé des lentilles

De nombreux modèles de compréhension du langage naturel s'appuient sur les N-grammes pour prédire le prochain mot que l'utilisateur saisira ou énoncera. Par exemple, supposons qu'un utilisateur saisisse three blind. Un modèle NLU basé sur des trigrammes prédirait probablement que l'utilisateur saisira ensuite mice.

Faire la différence entre les N-grammes et les sacs de mots, qui sont des ensembles de mots non ordonnés.

R

réseau de neurones récurrent

#seq

Réseau de neurones exécuté intentionnellement plusieurs fois, et où des parties de chaque exécution alimentent la prochaine exécution. Plus précisément, les couches cachées de l'exécution précédente fournissent une partie de l'entrée à la même couche cachée lors de l'exécution suivante. Les réseaux de neurones récurrents sont particulièrement utiles pour évaluer les séquences, de sorte que les couches cachées puissent apprendre des exécutions précédentes du réseau de neurones sur les parties antérieures de la séquence.

Par exemple, la figure suivante montre un réseau de neurones récurrent qui s'exécute quatre fois. Notez que les valeurs apprises dans les couches cachées lors de la première exécution font partie de l'entrée des mêmes couches cachées lors de la deuxième exécution. De même, les valeurs apprises dans la couche cachée lors de la deuxième exécution font partie de l'entrée de la même couche cachée lors de la troisième exécution. De cette manière, le réseau de neurones récurrent s'entraîne et prédit progressivement la signification de la séquence entière plutôt que simplement la signification des mots individuels.

Un RNN qui s'exécute quatre fois pour traiter quatre mots d'entrée.

RNN

#seq

Abréviation de réseaux de neurones récurrents.

S

modèle de séquence

#seq

Modèle dont les entrées ont une dépendance séquentielle. Par exemple, prédire la prochaine vidéo visionnée à partir d'une séquence de vidéos précédemment regardées.

T

timestep

#seq

Une cellule "non déployée" dans un réseau de neurones récurrent. Par exemple, la figure suivante montre trois étapes temporelles (étiquetées avec les indices t-1, t et t+1):

Trois pas dans un réseau de neurones récurrent. La sortie du premier pas de temps devient une entrée de la deuxième étape. La sortie de la deuxième étape est devenue une entrée de la troisième étape.

trigramme

#seq
#language

Un N-gramme dans lequel N=3.

V

problème de disparition du gradient

#seq

Tendance des gradients des premières couches cachées de certains réseaux de neurones profonds à devenir étonnamment plats (faibles). Des gradients de plus en plus bas entraînent des modifications de plus en plus mineures des pondérations sur les nœuds d'un réseau de neurones profond, ce qui entraîne un apprentissage faible ou inexistant. Les modèles qui souffrent du problème de disparition du gradient deviennent difficiles, voire impossibles à entraîner. Les cellules de mémoire longue à court terme permettent de résoudre ce problème.

À comparer au problème de gradient exponentiel.