Glossaire du machine learning: modèles de séquence

Cette page contient les termes du glossaire des modèles de séquence. Pour connaître tous les termes du glossaire, cliquez ici.

B

bigramme

#seq
#language

Un N-gramme dans lequel N=2.

E

Problème d'explosion du gradient

#seq

Tendance des gradients dans les réseaux de neurones profonds (en particulier les réseaux de neurones récurrents) à devenir étonnamment raides (élevés). Les gradients raides entraînent souvent des mises à jour très importantes des pondérations de chaque nœud dans un réseau de neurones profond.

Les modèles qui souffrent du problème d'explosion du gradient deviennent difficiles ou impossibles à entraîner. La coupe du dégradé peut atténuer ce problème.

Comparez-le au problème de gradient qui disparaît.

F

porte d'oubli

#seq

Partie d'une cellule de mémoire à court terme à long terme qui régule le flux d'informations à travers la cellule. Les portes d'oubli maintiennent le contexte en décidant des informations à supprimer de l'état de la cellule.

G

bornement de la norme du gradient

#seq

Mécanisme couramment utilisé pour atténuer le problème d'explosion du gradient en limitant artificiellement (coupant) la valeur maximale des gradients lorsque vous utilisez la descente du gradient pour entraîner un modèle.

L

Mémoire à long terme (LSTM)

#seq

Type de cellule dans un réseau de neurones récurrent utilisé pour traiter des séquences de données dans des applications telles que la reconnaissance d'écriture manuscrite, la traduction automatique et le sous-titrage d'images. Les LSTM résolvent le problème de gradient qui disparaît lors de l'entraînement des RNN en raison de longues séquences de données en conservant l'historique dans un état de mémoire interne basé sur la nouvelle entrée et le contexte des cellules précédentes du RNN.

LSTM

#seq

Abréviation de mémoire à long court terme.

N

N-gramme

#seq
#language

Séquence ordonnée de N mots. Par exemple, vraiment follement est un 2-grammes. L'ordre a une importance : follement vraiment est un 2-grammes différent de vraiment follement.

N Nom(s) pour ce genre de N-gramme Exemples
2 bigramme ou 2-gramme to go, go to, eat lunch, eat dinner
3 trigramme ou 3-gramme ate too much, three blind mice, the bell tolls
4 4-gramme walk in the park, dust in the wind, the boy ate lentils

De nombreux modèles de compréhension du langage naturel reposent sur les N-grammes pour prédire le prochain mot que l'utilisateur saisira ou énoncera. Supposons qu'un utilisateur saisisse les mots three blind. Un modèle NLU basé sur des trigrammes prédira probablement que le prochain mot saisi sera mice.

Faire la distinction entre les N-grammes et les sacs de mots, qui sont des listes de mots non ordonnées.

R

réseau de neurones récurrent

#seq

Réseau de neurones exécuté intentionnellement à plusieurs reprises, où des parties de chaque exécution alimentent la prochaine exécution. Plus précisément, les couches cachées de l'exécution précédente fournissent une partie de l'entrée dans la même couche cachée lors de l'exécution suivante. Les réseaux de neurones récurrents sont particulièrement utiles pour évaluer les séquences, afin que les couches cachées puissent apprendre des exécutions précédentes du réseau de neurones sur les parties précédentes de la séquence.

Par exemple, la figure suivante illustre un réseau de neurones récurrent exécuté quatre fois. Notez que les valeurs apprises dans les couches cachées lors de la première exécution font partie de l'entrée des mêmes couches cachées lors de la deuxième exécution. De même, les valeurs apprises dans la couche caché lors de la deuxième exécution font partie de l'entrée de la même couche caché lors de la troisième exécution. De cette manière, le réseau de neurones récurrent s'entraîne progressivement et prédit la signification de la séquence complète plutôt que simplement la signification des mots individuels.

Un RNN qui s'exécute quatre fois pour traiter quatre mots d'entrée.

RNN

#seq

Abréviation de réseaux de neurones récurrents.

S

modèle de séquence

#seq

Modèle dont les entrées présentent une dépendance séquentielle. Par exemple, prévision de la prochaine vidéo visionnée à partir d'une séquence de vidéos précédemment regardées.

T

pas de temps

#seq

Une cellule "déroulée" dans un réseau de neurones récurrent. Par exemple, la figure suivante montre trois étapes temporelles (étiquetées avec les indices t-1, t et t+1):

Trois étapes temporelles dans un réseau de neurones récurrent. La sortie du premier pas de temps devient l'entrée du deuxième pas de temps. La sortie du deuxième pas de temps devient l'entrée du troisième pas de temps.

trigramme

#seq
#language

Un N-gramme dans lequel N=3.

V

problème de gradient qui disparaît

#seq

Tendance des gradients des premières couches cachées de certains réseaux de neurones profonds à devenir étonnamment plats (faibles). Des gradients de plus en plus faibles entraînent des modifications de plus en plus faibles des poids sur les nœuds d'un réseau de neurones profond, ce qui entraîne peu ou pas d'apprentissage. Les modèles souffrant du problème de la disparition du gradient deviennent difficiles ou impossibles à entraîner. Les cellules de la mémoire à court terme de longue durée résolvent ce problème.

Comparez-le au problème d'explosion du gradient.