Grands modèles de langage

Qu'est-ce qu'un modèle de langage ?

Un modèle de langage estime la probabilité d'un jeton ou séquence de jetons se produisant dans une plus longue séquence de jetons. Un jeton Il peut s'agir d'un mot, d'un sous-mot (un sous-mot) ou même d'un seul caractère.

Examinez la phrase suivante et le ou les jetons qui pourraient la compléter:

When I hear rain on my roof, I _______ in my kitchen.

Un modèle de langage détermine les probabilités de différents jetons des séquences de jetons pour compléter cette zone vide. Par exemple : table de probabilités identifie certains jetons possibles et leurs probabilités:

Probabilité Jeton(s)
9,4% préparer une soupe
5,2 % réchauffer une bouilloire
3,6% recroquevillement
2,5 % sieste
2,2 % détends-toi

Dans certains cas, la séquence de jetons peut être une phrase entière, voire un dissertation entière.

Une application peut utiliser la table de probabilité pour effectuer des prédictions. La prédiction peut être la probabilité la plus élevée (par exemple, "cuisiner une soupe") ou une sélection aléatoire parmi des jetons dont la probabilité est supérieure à une certaine de sortie.

L'estimation de la probabilité de ce qui comble un blanc dans une séquence de texte peut être étendue à des tâches plus complexes, telles que:

  • Génération du texte...
  • Traduire du texte d'une langue à une autre.
  • Résumer des documents

En modélisant les modèles statistiques des jetons, les modèles de langage modernes développent des représentations internes extrêmement puissantes du langage et peut générer un langage plausible.

Modèles de langage à N-grammes

Les N-grammes sont des séquences de mots ordonnées utilisées pour créer des modèles de langage, où N est le nombre de mots dans la séquence. Par exemple, lorsque N est égal à 2, le N-gramme est appelé 2-gramme (ou bigram); lorsque N est égal à 5, le N-gramme est appelé 5-grammes. Prenons l'expression suivante dans un document d'entraînement:

you are very nice

Les 2 grammes obtenus sont les suivants:

  • tu es
  • sont très
  • très bien

Lorsque N est égal à 3, le N-gramme s'appelle un 3-gramme (ou un trigramme). À partir de cette même phrase, les 3-grammes obtenus sont:

  • tu es très
  • sont très sympas

Avec deux mots d'entrée, un modèle de langage basé sur trois grammes peut prédire le la probabilité du troisième mot. Prenons l'exemple des deux mots suivants:

orange is

Un modèle de langage examine les 3 grammes issus de son entraînement corpus qui commence par orange is pour déterminer le troisième mot le plus probable. Des centaines de 3 grammes peuvent commencer par les deux mots orange is, mais vous pouvez vous concentrer uniquement sur les deux possibilités suivantes:

orange is ripe
orange is cheerful

La première possibilité (orange is ripe) concerne l'orange du fruit, tandis que la deuxième possibilité (orange is cheerful) concerne la couleur orange.

Contexte

Les humains peuvent conserver des contextes relativement longs. En regardant l'acte 3 d'une pièce de théâtre, de conserver la connaissance des personnages présentés dans l'acte 1. De même, le la phrase d'une longue blague qui vous fait rire, car vous vous souvenez du contexte de la configuration de la blague.

Dans les modèles de langage, le contexte désigne les informations utiles avant ou après et le jeton cible. Le contexte peut aider un modèle de langage à déterminer si la couleur "orange" fait référence à un agrumes ou à une couleur.

Le contexte peut aider un modèle de langage à faire de meilleures prédictions, 3 grammes fournissent-ils suffisamment de contexte ? Malheureusement, le seul contexte qu'un 3-grammes fournit sont les deux premiers mots. Par exemple, les deux mots orange is fournissent suffisamment de contexte pour que le modèle de langage puisse prédire le troisième mot. En raison du manque de contexte, les modèles de langage basés sur des 3-grammes commettent beaucoup d'erreurs.

Des N-grammes plus longs fourniraient certainement plus de contexte que des N-grammes plus courts. Cependant, à mesure que N augmente, l'occurrence relative de chaque instance diminue. Lorsque N devient très grand, le modèle de langage n'a généralement qu'un seul instance de chaque occurrence de N jetons, ce qui n'est pas très utile à prédire le jeton cible.

Réseaux de neurones récurrents

None récurrent réseaux fournissent plus de contexte que les N-grammes. Un réseau de neurones récurrent est un type réseau de neurones qui s'entraîne sur une séquence de jetons. Par exemple, un réseau de neurones récurrent peut progressivement apprendre (et apprendre à ignorer) le contexte sélectionné pour chaque mot dans une phrase, un peu comme si vous écoutiez quelqu'un parler. Un grand réseau de neurones récurrent peut obtenir du contexte grâce au passage de plusieurs phrases.

Bien que les réseaux de neurones récurrents apprennent plus de contexte que les N-grammes, la quantité de contexte utile que les réseaux de neurones récurrents peuvent induire est encore relativement sont limitées. Les réseaux de neurones récurrents évaluent les informations jeton par jeton. À l'inverse, nous étudierons les grands modèles de langage, permet d'évaluer l'ensemble du contexte à la fois.

Notez que l'entraînement de réseaux de neurones récurrents pour de longs contextes est limité par le dégradé disparition le problème.

Exercice: tester vos connaissances

Quel modèle de langage permet d'obtenir de meilleures prédictions pour le texte en anglais ?
  • Un modèle de langage basé sur les 6 grammes
  • Un modèle de langage basé sur des 5 grammes
La réponse dépend de la taille et de la diversité de l'entraînement défini.
Si l'ensemble d'entraînement couvre des millions de documents différents, le modèle basé sur 6 grammes sera probablement plus performant que le modèle à partir de 5 grammes.
Le modèle de langage basé sur les 6 grammes.
Ce modèle de langage a plus de contexte, mais à moins a été entraîné sur un grand nombre de documents, la plupart des 6 grammes seront rares.
Le modèle de langage basé sur les 5 grammes.
Ce modèle de langage ayant moins de contexte, il est peu probable sont plus performantes que le modèle de langage basé sur les 6 grammes.