Introduction to Large Language Models

Vous découvrez les modèles linguistiques ou les modèles volumineux ? Consultez les ressources ci-dessous.

Qu'est-ce qu'un modèle linguistique ?

Un modèle de langage est un modèle de machine learning qui vise à prédire et à générer un langage plausible. La saisie semi-automatique est un modèle de langage, par exemple.

Ces modèles fonctionnent en estimant la probabilité qu'un jeton ou un jeton se produise dans une séquence de jetons plus longue. Prenons la phrase suivante:

When I hear rain on my roof, I _______ in my kitchen.

Si vous pensez qu'un jeton est un mot, un modèle de langage détermine les probabilités de différents mots ou séquences de mots pour remplacer ce trait de soulignement. Par exemple, un modèle de langage peut déterminer les probabilités suivantes:

cook soup 9.4%
warm up a kettle 5.2%
cower 3.6%
nap 2.5%
relax 2.2%
...

Une "séquence de jetons" peut être une phrase entière ou une série de phrases. Autrement dit, un modèle de langage peut calculer la probabilité de phrases entières ou de blocs de texte différents.

L'estimation de la probabilité de ce qui va suivre dans une séquence est utile pour toutes sortes de choses: générer du texte, traduire des langues et répondre à des questions, pour n'en citer que quelques-unes.

Qu'est-ce qu'un modèle linguistique volumineux ?

La modélisation du langage humain à grande échelle est une tâche très complexe et gourmande en ressources. Le parcours d'apprentissage des capacités actuelles des modèles linguistiques et des modèles de langage volumineux s'étend depuis plusieurs décennies.

Plus le modèle est développé, plus leur complexité et leur efficacité augmentent. Les premiers modèles de langage pourraient prédire la probabilité d'un seul mot. Les grands modèles modernes de langage peuvent prédire la probabilité de phrases, de paragraphes ou même de documents entiers.

Au cours des dernières années, la taille et les capacités des modèles de langage ont explosé à mesure que la mémoire de l'ordinateur, la taille de l'ensemble de données et la puissance de traitement augmentent. Des techniques plus efficaces pour modéliser les séquences de texte plus longues sont également développées.

Quelle est la taille ?

La définition est partielle, mais "grande" a été utilisée pour décrire BERT (110 millions de paramètres) et PaLM 2 (jusqu'à 340 milliards de paramètres).

Les paramètres sont les pondérations que le modèle a appris lors de l'entraînement. Ils permettent de prédire le jeton suivant dans la séquence. "Grand" peut faire référence au nombre de paramètres du modèle ou, parfois, au nombre de mots de l'ensemble de données.

Transformateurs

L'introduction en 2017 de "Transformers", une architecture conçue autour du concept d'attention, a été un développement clé de la modélisation du langage. Cela a permis de traiter des séquences plus longues en se concentrant sur la partie la plus importante des entrées, en résolvant les problèmes de mémoire rencontrés dans les modèles précédents.

Les transformateurs sont l'architecture de pointe pour une grande variété d'applications de modèles linguistiques, telles que des traducteurs.

Si l'entrée est "I am a good dog." (Je suis un bon chien), un traducteur (créateur) basé sur le transformateur transforme cette entrée en sortie Je suis un bon chien. C'est la même phrase traduite en français.

Les transformateurs complets se composent d'un encodeur et d'un décodeur. Un encodeur convertit le texte d'entrée en une représentation intermédiaire, et un décodeur convertit cette représentation intermédiaire en texte utile.

Soi-même

Les transformateurs s'appuient essentiellement sur un concept appelé "attention". La partie "auto-attention" fait référence à l'objectif "egocentrique" de chaque jeton dans un corpus. En effet, au nom de chaque jeton d'entrée, l'auto-attention demande : "Quelle est l'importance de chaque autre jeton d'entrée pour moi ?" Pour simplifier les choses, supposons que chaque jeton soit un mot et que le contexte complet soit une phrase unique. Prenons la phrase suivante:

L'animal ne traversait pas la rue, car il était trop fatigué.

Il y a 11 mots dans la phrase précédente. Chacun de ces 11 mots est donc attentif aux dix autres, en se demandant à quel point chacun de ces mots est important. Par exemple, notez que la phrase contient le pronom it. Les pronoms sont souvent ambigus. Le pronom it fait toujours référence à un nom récent, mais dans l'exemple de phrase, quel nom récent désigne-t-il l'animal ou la rue ?

Le mécanisme d'attention automatique détermine la pertinence de chaque mot proche par rapport au pronom it.

Quels sont les cas d'utilisation des LLM ?

Les LLM sont très efficaces pour la tâche pour laquelle ils ont été créés, ce qui génère le texte le plus plausible en réponse à une entrée. Ils commencent même à enregistrer de bonnes performances sur d'autres tâches, telles que la synthèse, la réponse aux questions et la classification de texte. Il s'agit des fonctionnalités émergentes. Les LLM peuvent même résoudre certains problèmes de mathématiques et écrire du code (bien qu'il soit recommandé de vérifier leur travail).

Les LLM sont excellentes pour imiter les schémas de voix humains. Ils sont utiles pour combiner des informations avec différents styles et tons, entre autres.

Toutefois, ils peuvent être des composants de modèles qui ne se contentent pas de générer du texte. Les LLM récents ont permis de créer des détecteurs de sentiments, des classificateurs de toxicité et de générer des légendes d'images.

Points à prendre en compte pour le LLM

Les modèles de cette taille ont néanmoins leurs inconvénients.

Les plus grandes quantités de LLM sont coûteuses. leur entraînement peut prendre des mois et, par conséquent, consomment de nombreuses ressources.

Ils peuvent également être réutilisés pour d'autres tâches, ce qui est intéressant.

L'entraînement de modèles d'au moins billion de paramètres entraîne des problèmes d'ingénierie. Des techniques spéciales d'infrastructure et de programmation sont nécessaires pour coordonner le flux vers les puces, puis inversement.

Il existe des moyens de limiter les coûts de ces grands modèles. Il existe deux approches : l'inférence hors ligne et la distillation.

Les biais peuvent être problématiques dans les très grands modèles et doivent être pris en compte lors de l'entraînement et du déploiement.

Ces modèles étant entraînés avec le langage humain, ils peuvent présenter de nombreux problèmes éthiques potentiels, y compris l'usage abusif de la langue et les biais liés à l'origine ethnique, au genre, à la religion, etc.

Il est clair que ces modèles continuent de s'agrandir et de fonctionner plus efficacement, mais ils doivent continuer à comprendre et à atténuer leurs inconvénients. Découvrez l'approche de Google concernant l'IA responsable.