Cette page a été traduite par l'API Cloud Translation.

Présentation des grands modèles de langage

Vous ne connaissez pas les modèles de langage ou les grands modèles de langage ? Consultez les ressources ci-dessous.

Qu'est-ce qu'un modèle de langage ?

Un modèle de langage est un modèle modèle qui vise à prédire et à générer un langage plausible. La saisie semi-automatique le modèle de langage.

Ces modèles consistent à estimer la probabilité qu'un jeton ou une séquence de jetons se produise dans une séquence de jetons plus longue. Prenons l'exemple suivant :

When I hear rain on my roof, I _______ in my kitchen.

Supposons qu'un jeton soit un mot. Un modèle de langage détermine alors probabilités de différents mots ou séquences de mots pour les remplacer trait de soulignement. Par exemple, un modèle de langage peut déterminer les probabilités suivantes :

cook soup 9.4%
warm up a kettle 5.2%
cower 3.6%
nap 2.5%
relax 2.2%
...

Une "séquence de jetons" il peut s'agir d'une phrase entière ou d'une série de phrases. En d'autres termes, un modèle de langage peut calculer la probabilité de phrases ou de blocs de texte.

Estimer la probabilité de ce qui suit dans une séquence est utile pour toutes sortes de choses : générer du texte, traduire des langues et répondre à des questions, par exemple.

Qu'est-ce qu'un grand modèle de langage ?

La modélisation du langage humain à grande échelle est un processus très complexe et gourmand en ressources ce qu'il se passe. La voie à suivre pour atteindre les capacités actuelles des modèles de langage les grands modèles de langage s'étendent sur plusieurs décennies.

Plus les modèles sont de plus en plus grands, leur complexité et leur efficacité augmentent. Les premiers modèles de langage pouvaient prédire la probabilité d'un seul mot. moderne les grands modèles de langage peuvent prédire la probabilité de phrases, de paragraphes ou ou même des documents entiers.

La taille et les capacités des modèles de langage ont explosé au cours des derniers à mesure que la mémoire informatique, la taille des ensembles de données et la puissance de traitement augmentent, et des techniques plus efficaces pour modéliser des séquences de texte plus longues ont été développées.

Quelle est la taille de l'image ?

La définition est floue, mais "grand" a été utilisée pour décrire BERT (110 millions paramètres) et PaLM 2 (jusqu'à 340 milliards de paramètres).

Paramètres sont les pondérations le modèle appris lors de l'entraînement, utilisé pour prédire le jeton suivant dans séquence. "Grand" peut faire référence au nombre de paramètres du modèle ou parfois au nombre de mots dans l'ensemble de données.

Transformateurs

L'introduction en 2017 de la plate-forme Transformers, une architecture conçue autour de attention. Cela a permis de traiter des séquences plus longues en se concentrant sur la partie la plus importante de l'entrée, ce qui a permis de résoudre les problèmes de mémoire rencontrés dans les modèles précédents.

Les modèles Transformer sont l'architecture de pointe adaptée à une grande variété les applications de modèle de langage, comme les traducteurs.

Si l'entrée est "I am a good dog.", un traducteur basé sur Transformer transforme cette entrée en sortie "Je suis un bon chien". la même phrase traduite en français.

Les Transformers complets encoder et décodeur. Un encodeur convertit le texte d'entrée en représentation intermédiaire, et un décodeur convertit cette représentation intermédiaire en texte utile.

Attention à soi

Les modèles Transformer s'appuient fortement sur un concept appelé "auto-attention". La partie « self » de l’auto-attention fait référence à l’« égocentrique » le focus de chaque jeton dans un corpus. En effet, au nom de chaque jeton d'entrée, l'auto-attention se demande : est-ce que tout autre jeton d'entrée compte pour moi ?" Pour simplifier les choses, supposer que chaque jeton est un mot et que le contexte complet est un seul dans la phrase. Considérez la phrase suivante:

L'animal n'a pas traversé la rue parce qu'il était trop fatigué.

Il y a 11 mots dans la phrase précédente, chacun d'entre eux est donc payant on se demande à quel point chacun de ces 10 mots est important pour eux. Par exemple, notez que la phrase contient le pronom il. Les pronoms sont souvent ambigus. Le pronom il fait toujours référence à un nom récent, mais dans l'exemple de phrase, à quel nom récent il fait-il référence : à l'animal ou à la rue ?

Le mécanisme d'auto-attention détermine la pertinence de chaque mot à proximité du pronom il.

Quels sont les cas d'utilisation des LLM ?

Les LLM sont très efficaces pour la tâche à laquelle ils ont été conçus, à savoir générer le texte le plus plausible en réponse à une entrée. Ils commencent même à montrer d'excellentes performances pour d'autres tâches ; par exemple : synthèse, question la réponse et la classification de texte. On parle alors de compétences émergentes. Les LLM peuvent même résoudre certains problèmes mathématiques et écrire du code (bien qu'il soit conseillé de vérifier leur travail).

Les LLM sont excellents pour imiter les schémas de parole humains. Entre autres, ils sont très doués pour combiner des informations avec différents styles et tons.

Toutefois, les LLM peuvent être des composants de modèles qui font plus que de simples générer du texte. Les LLM récents ont été utilisés pour créer des détecteurs de sentiments, des classificateurs de toxicité et générer des légendes d'images.

Considérations concernant le LLM

Les modèles de cette taille ne sont pas sans inconvénients.

Les plus grands LLM sont chers. Leur entraînement peut prendre des mois et, par conséquent, consommer beaucoup de ressources.

Ils peuvent aussi généralement être réutilisés pour d'autres tâches, ce qui constitue un bon point de vue.

L'entraînement de modèles comportant plus d'un milliard de paramètres pose des défis d'ingénierie. Des techniques d'infrastructure et de programmation spéciales sont nécessaires pour coordonner le flux vers les puces et inversement.

Il existe des moyens de réduire les coûts de ces grands modèles. Deux approches sont possibles : l'inférence hors connexion et la distillation.

Les biais peuvent être problématiques pour les très grands modèles et doivent être pris en compte lors de l'entraînement et le déploiement.

Comme ces modèles sont entraînés sur le langage humain, cela peut introduire de nombreux les problèmes éthiques potentiels, comme l'usage abusif du langage et les préjugés concernant l'origine ethnique, le genre, la religion, etc.

Il doit être clair que ces modèles continuent à se développer et à enregistrer mieux, il est de plus en plus nécessaire de veiller à ce que en atténuant leurs inconvénients. En savoir plus sur l'approche de Google IA responsable.

En savoir plus sur les LLM

Vous souhaitez une présentation plus détaillée des grands modèles de langage ? Chèque le nouveau module Grands modèles de langage dans le Cours d'initiation au Machine Learning.