Glossaire du machine learning: modèles de séquence

Cette page contient les termes du glossaire des modèles de séquence. Pour consulter tous les termes du glossaire, cliquez ici.

B

Biram

#seq
#language

N-gramme dans lequel N=2.

E

problème de gradient exponentiel

#seq

Tendance à ce que les gradients des réseaux de neurones profonds (en particulier les réseaux de neurones récurrents) deviennent étonnamment élevés (fort). Les gradients aigus entraînent souvent des mises à jour très importantes des pondérations de chaque nœud d'un réseau de neurones profond.

Les modèles présentant un problème de gradient éclatant deviennent difficiles ou impossibles à entraîner. Le rognage des gradients peut atténuer ce problème.

Comparer avec le problème de gradient manquant.

F

oublie la porte

#seq

Partie d'une cellule de mémoire à long terme qui régule le flux d'informations dans la cellule. Oubliez les portes d'entrée en fonction du contexte en déterminant quelles informations supprimer de l'état de la cellule.

G

bornement de la norme du gradient

#seq

Mécanisme couramment utilisé pour limiter le problème d'explosion du gradient en limitant artificiellement (écrêtage) la valeur maximale des gradients lors de l'utilisation de la descente de gradient pour entraîner un modèle.

L

Mémoire à long terme (LSTM)

#seq

Type de cellule d'un réseau de neurones récurrent utilisé pour traiter les séquences de données dans des applications telles que la reconnaissance d'écriture manuscrite, la traduction automatique et le sous-titrage d'images. Les LSTM permettent de résoudre le problème de disparition du gradient qui se produit lors de l'entraînement des RNN en raison de longues séquences de données en conservant l'historique dans un état de mémoire interne en fonction des nouvelles entrées et du contexte des cellules précédentes du RNN.

LSTM

#seq

Abréviation de Mémoire à court terme.

N

N-gramme

#seq
#language

Séquence ordonnée de N mots. Par exemple, folly madly est un 2-gramme. Étant donné que l'ordre est pertinent, le terme follement vraiment est un 2-grammes différent de vraiment follement.

N Nom(s) pour ce type de N-gramme Exemples
2 Biramique ou 2 grammes à aller, aller, manger, dîner
3 trigramme ou 3-gram pas trop, trois aveugles, les sonnettes
4 4 grammes dans le parc, dans la poussière, le vent a mangé des lentilles

De nombreux modèles de compréhension du langage naturel s'appuient sur les N-grammes pour prédire le prochain mot que l'utilisateur saisira ou énoncera. Supposons qu'un utilisateur saisisse le mot trois aveugles. Un modèle de NLU basé sur des trigrammes prédira probablement que l'utilisateur saisira le type souris.

Contraste des N-grammes avec le sac de mots, qui sont des ensembles de mots non ordonnés.

R

réseau de neurones récurrent

#seq

Réseau de neurones qui s'exécute intentionnellement à plusieurs reprises, où des parties de chaque exécution alimentent la prochaine exécution. Plus précisément, les couches masquées de l'exécution précédente fournissent une partie de l'entrée à la même couche cachée lors de l'exécution suivante. Les réseaux de neurones récurrents sont particulièrement utiles pour évaluer des séquences, afin que les couches cachées puissent apprendre des exécutions précédentes du réseau de neurones sur les parties antérieures de la séquence.

Par exemple, la figure suivante illustre un réseau de neurones récurrent exécuté quatre fois. Notez que les valeurs apprises dans les couches cachées lors de la première exécution font partie de l'entrée vers les mêmes couches cachées lors de la deuxième exécution. De même, les valeurs apprises dans la couche cachée lors de la deuxième exécution deviennent une partie de l'entrée de la même couche cachée lors de la troisième exécution. De cette manière, le réseau de neurones récurrent s'entraîne et prédit progressivement la signification de la séquence entière plutôt que uniquement la signification des mots individuels.

Un RNN qui s'exécute quatre fois pour traiter quatre mots d'entrée.

RNN

#seq

Abréviation de réseaux de neurones récurrents.

S

modèle de séquence

#seq

Modèle dont les entrées ont une dépendance séquentielle. Par exemple, prédire la prochaine vidéo regardée à partir d'une séquence de vidéos regardées précédemment.

M

pas de temps

#seq

Une cellule "dépliée" dans un réseau de neurones récurrent. Par exemple, la figure suivante illustre trois étapes temporelles (identifiées par les indices t-1, t et t+1):

Trois pas dans un réseau de neurones récurrent. La sortie de la première étape "timetime" devient une entrée pour la seconde. La sortie du deuxième timestep devient une entrée pour le troisième timestep.

trigramme

#seq
#language

N-gramme dans lequel N=3.

V

problème de disparition du gradient

#seq

Tendance à ce que les gradients des couches cachées de certains réseaux de neurones profonds deviennent étonnamment plats (bas). Les gradients de plus en plus faibles entraînent des changements de plus en plus faibles des pondérations sur les nœuds d'un réseau de neurones profond, ce qui entraîne peu ou pas d'apprentissage. Les modèles présentant le problème de la disparition du gradient deviennent difficiles, voire impossibles à entraîner. Les cellules de mémoire à long terme permettent de résoudre ce problème.

À comparer au problème de gradient exponentiel.