Glossaire sur le machine learning: évaluation du langage

Cette page contient les termes du glossaire pour l'évaluation linguistique. Pour consulter tous les termes du glossaire, cliquez ici.

A

"Attention",

#language

Mécanisme utilisé dans un réseau de neurones qui indique l'importance d'un mot ou d'une partie de mot particulier. L'attention compresse la quantité d'informations dont un modèle a besoin pour prédire le jeton ou le mot suivant. Un mécanisme d'attention classique peut consister en une somme pondérée sur un ensemble d'entrées, où la pondération de chaque entrée est calculée par une autre partie du réseau de neurones.

Reportez-vous également aux concepts d'auto-attention et d'auto-attention multi-tête, qui sont les éléments de base des modèles Transformer.

auto-encodeur

#language
#image

Système qui apprend à extraire les informations les plus importantes de l'entrée. Les auto-encodeurs associent un encodeur et un décodeur. Les auto-encodeurs s'appuient sur le processus en deux étapes suivant:

  1. L'encodeur mappe l'entrée dans un format (généralement) de dimension inférieure (intermédiaire) avec pertes.
  2. Le décodeur crée une version avec pertes de l'entrée d'origine en mappant le format de dimension inférieure au format d'entrée d'origine de dimension supérieure.

Les auto-encodeurs sont entraînés de bout en bout lorsque le décodeur tente de reconstruire l'entrée d'origine à partir du format intermédiaire de l'encodeur aussi fidèlement que possible. Comme le format intermédiaire est plus petit (de dimension inférieure) que le format d'origine, l'auto-encodeur est obligé d'apprendre quelles informations d'entrée sont essentielles. La sortie ne sera donc pas parfaitement identique à l'entrée.

Exemple :

  • Si les données d'entrée sont un graphique, la copie non exacte est semblable au graphique d'origine, mais légèrement modifiée. La copie non exacte supprime peut-être le bruit de l'élément graphique d'origine ou remplace certains pixels manquants.
  • Si les données d'entrée sont du texte, un auto-encodeur génère un nouveau texte qui imite le texte d'origine, mais n'est pas identique.

Consultez également la page sur les auto-encodeurs variationnels.

modèle autorégressif

#language
#image
#IAgénérative

model qui infère une prédiction à partir de ses propres prédictions précédentes. Par exemple, les modèles de langage autorégressifs prédisent le jeton suivant en fonction des jetons précédemment prédits. Tous les grands modèles de langage basés sur Transformer sont autorégressifs.

En revanche, les modèles d'images basés sur le GAN ne sont généralement pas autorégressifs, car ils génèrent une image en une seule étape avant et non de manière itérative par étapes. Cependant, certains modèles de génération d'images sont autorégressifs, car ils génèrent une image par étapes.

B

sac de mots

#language

Représentation des mots d'une expression ou d'un passage, quel que soit leur ordre. Par exemple, un sac de mots représente les trois expressions suivantes à l'identique:

  • le chien saute
  • saute le chien
  • CANNOT TRANSLATE

Chaque mot est mappé à un indice dans un vecteur creux, où le vecteur possède un indice pour chaque mot du vocabulaire. Par exemple, la phrase the dog jumps est mappée dans un vecteur de caractéristiques avec des valeurs non nulles aux trois indices correspondant aux mots the, dog, et jumps. La valeur non nulle peut être l'une des suivantes:

  • 1 pour indiquer la présence d’un mot.
  • Nombre de fois où un mot apparaît dans le sac. Par exemple, si l'expression est the maroon dog is a dog with maroon fur, maroon et dog seront représentés par la valeur 2, tandis que les autres mots seront représentés par la valeur 1.
  • Une autre valeur, telle que le logarithme du nombre d'apparitions d'un mot dans le sac.

BERT (Bidirectional Encoder Representations from Transformers)

#language

Architecture de modèle pour la représentation de texte. Un modèle BERT entraîné peut faire partie d'un modèle plus vaste pour la classification de texte ou d'autres tâches de ML.

BERT présente les caractéristiques suivantes:

Les variantes de BERT sont les suivantes:

Pour en savoir plus sur BERT, consultez Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing (Open Sourcing BERT : pré-entraînement de pointe pour le traitement du langage naturel).

bidirectionnelle

#language

Terme utilisé pour décrire un système qui évalue le texte qui passe et suit une section de texte cible. En revanche, un système unidirectionnel n'évalue que le texte qui précédent une section de texte cible.

Prenons l'exemple d'un modèle de langage masqué qui doit déterminer les probabilités du ou des mots soulignés dans la question suivante:

Qu’est-ce que _____ avec vous ?

Un modèle de langage unidirectionnel ne devrait baser ses probabilités que sur le contexte fourni par les mots "Quoi", "est" et "la". En revanche, un modèle de langage bidirectionnel peut également obtenir du contexte grâce aux mots "avec" et "vous", ce qui peut l'aider à générer de meilleures prédictions.

modèle de langage bidirectionnel

#language

Modèle de langage qui détermine la probabilité qu'un jeton donné soit présent à un emplacement donné dans un extrait de texte basé sur le texte précédent et suivant.

bigramme

#seq
#language

Un N-gramme dans lequel N=2.

BLEU (Bilingual Evaluation Understudy)

#language

Score compris entre 0,0 et 1,0 inclus, indiquant la qualité d'une traduction entre deux langues humaines (par exemple, de l'anglais et du russe). Un score BLEU de 1,0 indique une traduction parfaite. Un score BLEU de 0,0 indique une traduction médiocre.

C

modèle de langage causal

#language

Synonyme de modèle de langage unidirectionnel.

Consultez la section Modèle de langage bidirectionnel pour différencier les différentes approches directionnelles de modélisation du langage.

requêtes en chaîne de pensée

#language
#IAgénérative

Technique d'ingénierie des requêtes qui encourage un grand modèle de langage (LLM) à expliquer son raisonnement pas à pas. Prenons l'exemple de l'invite suivante, en accordant une attention particulière à la deuxième phrase:

Combien de forces g un conducteur aurait-il dû subir dans une voiture qui passe de 0 à 60 miles par heure en 7 secondes ? Dans la réponse, affichez tous les calculs pertinents.

La réponse du LLM se présentera probablement comme suit:

  • Affichez une séquence de formules physiques en insérant les valeurs 0, 60 et 7 aux endroits appropriés.
  • Expliquez pourquoi il a choisi ces formules et ce que signifient les différentes variables.

Une requête en chaîne de pensée oblige le LLM à effectuer tous les calculs, ce qui peut conduire à une réponse plus correcte. En outre, l'invite en chaîne de pensée permet à l'utilisateur d'examiner les étapes du LLM afin de déterminer si la réponse a du sens.

chat

#language
#IAgénérative

Contenu d'un dialogue avec un système de ML, généralement un grand modèle de langage. L'interaction précédente dans un chat (ce que vous avez saisi et la réponse du grand modèle de langage) devient le contexte des parties suivantes du chat.

Un chatbot est une application d'un grand modèle de langage.

discussion

#language

Synonyme d'hallucination.

D'un point de vue technique, la conversation est probablement plus juste que l'hallucination. Toutefois, l'hallucination est d'abord devenue populaire.

analyse de la circonscription

#language

Diviser une phrase en structures grammaticales plus petites ("constituants"). Une partie ultérieure du système de ML, telle qu'un modèle de compréhension du langage naturel, peut analyser les constituants plus facilement que la phrase d'origine. Prenons l'exemple de la phrase suivante:

Mon ami a adopté deux chats.

Un analyseur de circonscriptions peut diviser cette phrase en deux:

  • Mon ami est un syntagme nominal.
  • adopted two cats est un syntagme verbal.

Ces composants peuvent être subdivisés en plus petits composants. Par exemple, le verbe

a adopté deux chats

peut être subdivisée comme suit:

  • adopted est un verbe.
  • deux chats est un autre syntagme nominal.

représentation vectorielle continue du langage contextualisé

#language
#IAgénérative

Représentation vectorielle continue qui se rapproche de la "compréhension" de mots et d'expressions comme le peut le faire pour les locuteurs natifs. Les représentations vectorielles continues de langage contextualisées permettent de comprendre la syntaxe, la sémantique et le contexte complexes.

Par exemple, considérons les représentations vectorielles continues du mot anglais cow. Les représentations vectorielles continues plus anciennes telles que word2vec peuvent représenter des mots anglais, de sorte que la distance dans l'espace de représentation vectorielle continue entre vache et bull est semblable à la distance entre ewe (mouton femelle) et ram (mouton mâle) ou entre femelle et mâle. Les représentations vectorielles continues de langues peuvent aller plus loin, car les anglophones utilisent parfois le mot vache pour désigner "vache" ou "taureau".

fenêtre de contexte

#language
#IAgénérative

Nombre de jetons qu'un modèle peut traiter dans une requête donnée. Plus la fenêtre de contexte est grande, plus le modèle peut utiliser d'informations pour fournir des réponses cohérentes et cohérentes à la requête.

émergence d'un plantage

#language

Phrase ou expression au sens ambigu. Les phrases équivoques posent un problème majeur pour la compréhension du langage naturel. Par exemple, le titre Red Tape Holds Up Skyscraper est une phrase équivoque, car un modèle NLU peut l'interpréter littéralement ou figurativement.

D

décodeur

#language

En général, tout système de ML qui convertit une représentation traitée, dense ou interne en une représentation plus brute, creuse ou externe.

Les décodeurs sont souvent un composant d'un modèle plus grand, dans lequel ils sont souvent associés à un encodeur.

Dans les tâches de séquence à séquence, un décodeur commence par l'état interne généré par l'encodeur pour prédire la séquence suivante.

Reportez-vous à Transformer pour obtenir la définition d'un décodeur dans l'architecture Transformer.

suppression du bruit

#language

Approche courante de l'apprentissage auto-supervisé dans laquelle:

  1. Le bruit est ajouté artificiellement à l'ensemble de données.
  2. Le model tente de supprimer le bruit.

La suppression du bruit permet d'apprendre à partir d'exemples sans étiquette. L'ensemble de données d'origine sert de cible ou d'étiquette, et les données comportant du bruit en entrée.

Certains modèles de langage masqué utilisent la suppression du bruit comme suit:

  1. Le bruit est ajouté artificiellement à une phrase non étiquetée en masquant certains des jetons.
  2. Le modèle tente de prédire les jetons d'origine.

requêtes directes

#language
#IAgénérative

Synonyme de requête zero-shot.

E

modifier la distance

#language

Mesure de la similitude entre deux chaînes de texte. En machine learning, la modification de la distance est utile, car elle est simple à calculer. C'est aussi un moyen efficace de comparer deux chaînes connues pour être similaires ou de trouver des chaînes semblables à une chaîne donnée.

Il existe plusieurs définitions de la distance de modification, chacune utilisant différentes opérations de chaîne. Par exemple, la distance de Levenshtein considère le plus petit nombre d'opérations de suppression, d'insertion et de substitution.

Par exemple, la distance de Levenshtein entre les mots "cœur" et "fléchettes" est de 3, car les trois modifications suivantes correspondent au minimum de modifications pour transformer un mot en un autre:

  1. cœur → affaiblir (remplacez "h" par "d")
  2. deart → dart (supprimer "e")
  3. fléchettes → fléchettes (insérer "s")

couche de représentation vectorielle continue

#language
#fundamentals

Une couche cachée spéciale qui s'entraîne sur une caractéristique catégorielle de grande dimension pour apprendre progressivement un vecteur de représentation vectorielle continue de dimension inférieure. Une couche d'intégration permet à un réseau de neurones d'effectuer un entraînement beaucoup plus efficace que sur la simple caractéristique catégorielle de grande dimension.

Par exemple, la Terre recense actuellement environ 73 000 espèces d'arbres. Supposons qu'une espèce d'arbre soit une caractéristique de votre modèle. La couche d'entrée de votre modèle inclut donc un vecteur one-hot d'une longueur de 73 000 éléments. Par exemple, baobab peut être représenté comme ceci:

Tableau de 73 000 éléments. Les 6 232 premiers éléments contiennent la valeur 0. L'élément suivant contient la valeur 1. Les 66 767 derniers éléments contiennent la valeur zéro.

Un tableau de 73 000 éléments est très long. Si vous n'ajoutez pas de couche de représentation vectorielle continue au modèle, l'entraînement va prendre beaucoup de temps,car vous multiplierez par 72 999 zéros. Vous pouvez choisir que la couche de représentation vectorielle continue soit composée de 12 dimensions. Par conséquent, la couche de représentation vectorielle continue apprend progressivement un nouveau vecteur de représentation vectorielle continue pour chaque espèce d'arbre.

Dans certains cas, le hachage est une alternative raisonnable à une couche de représentation vectorielle continue.

espace de représentation vectorielle continue

#language

Espace vectoriel à d dimensions auquel les caractéristiques d'un espace vectoriel de plus grande dimension sont mappées. Idéalement, l'espace de représentation vectorielle continue contient une structure qui donne des résultats mathématiques significatifs. Par exemple, dans un espace de représentation vectorielle idéale, l'addition et la soustraction de représentations vectorielles continues peuvent résoudre des tâches d'analogie de mots.

Le produit scalaire de deux représentations vectorielles continues est une mesure de leur similarité.

vecteur de représentation vectorielle continue

#language

De manière générale, il s'agit d'un tableau de nombres à virgule flottante provenant de n'importe quelle couche cachée décrivant les entrées de cette couche cachée. Souvent, un vecteur de représentation vectorielle continue est le tableau de nombres à virgule flottante entraîné dans une couche de représentations vectorielles continues. Par exemple, supposons qu'une couche de représentation vectorielle continue apprenne un vecteur de représentation vectorielle continue pour chacune des 73 000 espèces d'arbres sur Terre. Le tableau suivant est peut-être le vecteur de représentation vectorielle continue d'un baobab:

Tableau de 12 éléments, chacun contenant un nombre à virgule flottante compris entre 0,0 et 1,0.

Un vecteur de représentation vectorielle continue n'est pas un ensemble de nombres aléatoires. Une couche de représentations vectorielles continues détermine ces valeurs via l'entraînement, de la même manière qu'un réseau de neurones apprend d'autres pondérations pendant l'entraînement. Chaque élément du tableau correspond à une note correspondant à une caractéristique d'une espèce d'arbre. Quel élément représente la caractéristique de quelle espèce d'arbre ? C'est très difficile pour les humains de le déterminer.

La partie mathématique remarquable d'un vecteur de représentation vectorielle continue est que les éléments similaires ont des ensembles similaires de nombres à virgule flottante. Par exemple, les espèces d'arbres similaires ont un ensemble plus semblable de nombres à virgule flottante que les espèces d'arbres différentes. Les séquoias et les séquoias sont des espèces d'arbres similaires. Ils auront donc un ensemble de nombres à virgule flottante plus similaire que le séquoia et le cocotier. Les nombres du vecteur de représentation vectorielle continue changent chaque fois que vous entraînez le modèle à nouveau, même si vous le réentraînez avec une entrée identique.

encodeur

#language

En général, tout système de ML qui convertit d'une représentation brute, creuse ou externe en une représentation plus traitée, plus dense ou plus interne.

Les encodeurs font souvent partie d'un modèle plus grand, dans lequel ils sont souvent associés à un décodeur. Certains Transformer associent des encodeurs à des décodeurs, tandis que d'autres n'utilisent que l'encodeur ou uniquement le décodeur.

Certains systèmes utilisent la sortie de l'encodeur comme entrée d'un réseau de classification ou de régression.

Dans les tâches de séquence à séquence, un encodeur utilise une séquence d'entrée et renvoie un état interne (un vecteur). Le décodeur utilise ensuite cet état interne pour prédire la séquence suivante.

Reportez-vous à Transformer pour obtenir la définition d'un encodeur dans l'architecture Transformer.

F

requête few-shot

#language
#IAgénérative

Une requête contenant plusieurs (quelques exemples) montrant comment le grand modèle de langage doit répondre. Par exemple, la longue requête suivante contient deux exemples montrant à un grand modèle de langage comment répondre à une requête.

Composantes d'une requête Remarques
Quelle est la devise officielle du pays spécifié ? La question à laquelle le LLM doit répondre.
France: EUR Par exemple.
Royaume-Uni: GBP Voici un autre exemple.
Inde: Requête réelle.

Les requêtes few-shot produisent généralement des résultats plus souhaitables que les requêtes zero-shot et les requêtes one-shot. Cependant, les requêtes few-shot nécessitent une requête plus longue.

Une requête few-shot est une forme d'apprentissage few-shot appliquée à l'apprentissage par requête.

Violon

#language

Bibliothèque de configuration axée sur Python qui définit les valeurs des fonctions et des classes sans code ni infrastructure invasif. Dans le cas de Pax et d'autres codebases de ML, ces fonctions et classes représentent les modèles et les hyperparamètres d'entraînement.

Fiddle part du principe que le codebase de machine learning est généralement divisé comme suit:

  • Le code de bibliothèque, qui définit les couches et les optimiseurs.
  • Le code "glue" de l'ensemble de données, qui appelle les bibliothèques et relie tout ensemble

Fiddle capture la structure d'appel du code Glue sous une forme non évaluée et modifiable.

réglage

#language
#image
#IAgénérative

Une deuxième passe d'entraînement spécifique à une tâche effectuée sur un modèle pré-entraîné afin d'affiner ses paramètres pour un cas d'utilisation spécifique. Par exemple, la séquence d'entraînement complète pour certains grands modèles de langage est la suivante:

  1. Pré-entraînement:entraînez un grand modèle de langage sur un vaste ensemble de données général, comme toutes les pages Wikipédia en anglais.
  2. Ajustement:entraînez le modèle pré-entraîné à effectuer une tâche spécifique, comme répondre à des requêtes médicales. L'affinage implique généralement des centaines, voire des milliers d'exemples axés sur la tâche spécifique.

Dans cet autre exemple, la séquence d'entraînement complète pour un grand modèle d'images se présente comme suit:

  1. Pré-entraînement:entraînez un grand modèle d'images sur un vaste ensemble de données d'images génériques, tel que toutes les images de Wikimedia commons.
  2. Ajustement:entraînez le modèle pré-entraîné à effectuer une tâche spécifique, comme générer des images d'orques.

Pour l'optimiser, vous pouvez combiner les stratégies suivantes:

  • Modifier tous les paramètres existants du modèle pré-entraîné On parle parfois de réglage complet.
  • Ne modifier que certains des paramètres existants du modèle pré-entraîné (généralement, les couches les plus proches de la couche de sortie), tout en conservant les autres paramètres existants inchangés (en général, les couches les plus proches de la couche d'entrée) Consultez la section Optimiser l'efficacité des paramètres.
  • Ajout de couches, généralement au-dessus des couches existantes les plus proches de la couche de sortie.

L'affinage est une forme d'apprentissage par transfert. Ainsi, l'affinage peut utiliser une fonction de perte ou un type de modèle différents de ceux utilisés pour entraîner le modèle pré-entraîné. Par exemple, vous pouvez affiner un grand modèle d'images pré-entraîné pour produire un modèle de régression qui renvoie le nombre d'oiseaux dans une image d'entrée.

Comparer et différencier l'affinage avec les termes suivants:

Lin

#language

Bibliothèque Open Source hautes performances basée sur JAX, dédiée au deep learning. Flax fournit des fonctions pour l'entraînement des réseaux de neurones, ainsi que des méthodes d'évaluation de leurs performances.

Lin

#language

Une bibliothèque Open Source Transformer, basée sur Flax, conçue principalement pour le traitement du langage naturel et la recherche multimodale.

G

IA générative

#language
#image
#IAgénérative

Un domaine novateur en pleine transformation, sans définition formelle. Cela dit, la plupart des experts s'accordent à dire que les modèles d'IA générative peuvent créer ("générer") des contenus présentant tous les éléments suivants:

  • complexe
  • cohérentes
  • originale

Par exemple, un modèle d'IA générative peut créer des images ou des essais complexes.

Certaines technologies antérieures, telles que les LSTM et les RNN, peuvent également générer du contenu original et cohérent. Certains experts considèrent ces technologies antérieures comme de l'IA générative, tandis que d'autres estiment que la véritable IA générative nécessite des résultats plus complexes que ce que peuvent produire ces technologies antérieures.

À comparer au ML prédictif.

GPT (Generative Pre-trained Transformer)

#language

Famille de grands modèles de langage basés sur Transformer et développé par OpenAI.

Les variantes GPT peuvent s'appliquer à plusieurs modalités, dont les suivantes:

  • Génération d'images (ImageGPT, par exemple)
  • génération de texte en image (par exemple, DALL-E).

H

hallucination

#language

Production de résultats qui semblent plausibles, mais factuellement incorrects, par un modèle d'IA générative qui prétend faire une assertion concernant le monde réel. Par exemple, un modèle d'IA générative qui prétend que Barack Obama est décédé en 1865 est hallucinant.

I

apprentissage en contexte

#language
#IAgénérative

Synonyme de requête few-shot.

L

LaMDA (Language Model for Dialogue Applications)

#language

Un grand modèle de langage basé sur Transformer, développé par Google et entraîné sur un vaste ensemble de données de dialogue capable de générer des réponses conversationnelles réalistes

LaMDA, notre technologie conversationnelle révolutionnaire, vous offre un aperçu.

modèle de langage

#language

model qui estime la probabilité qu'un model ou une séquence de jetons se présente dans une séquence de jetons plus longue.

grand modèle de langage

#language

Terme informel sans définition stricte qui désigne généralement un modèle de langage comportant un grand nombre de paramètres. Certains grands modèles de langage contiennent plus de 100 milliards de paramètres.

espace latent

#language

Synonyme d'espace de représentation vectorielle continue.

LLM

#language

Abréviation de grand modèle de langage.

LoRA

#language
#IAgénérative

Abréviation de Adaptabilité de rang faible.

Adaptabilité de bas niveau (LoRA)

#language
#IAgénérative

Algorithme permettant d'effectuer un réglage efficace des paramètres, qui affine uniquement un sous-ensemble des paramètres d'un grand modèle de langage. La fonctionnalité LoRA offre les avantages suivants:

  • s'adapte plus rapidement que les techniques qui nécessitent d'ajuster tous les paramètres d'un modèle ;
  • Réduit le coût de calcul lié à l'inférence dans le modèle affiné.

Un modèle réglé avec LoRA maintient ou améliore la qualité de ses prédictions.

LoRA permet d'utiliser plusieurs versions spécialisées d'un modèle.

Lu

modèle de langage masqué

#language

Un modèle de langage qui prédit la probabilité que les jetons candidats remplissent les champs vides d'une séquence. Par exemple, un modèle de langage masqué peut calculer les probabilités que les mots candidats remplacent le soulignement dans la phrase suivante:

Le ____ dans le chapeau est revenu.

La littérature utilise généralement la chaîne "MASK" au lieu d'un trait de soulignement. Exemple :

Le "MASQUE" dans le chapeau est retourné.

La plupart des modèles de langage masqué modernes sont bidirectionnels.

méta-apprentissage

#language

Sous-ensemble du machine learning qui permet de découvrir ou d'améliorer un algorithme d'apprentissage. Un système de méta-apprentissage peut également viser à entraîner un modèle pour apprendre rapidement une nouvelle tâche à partir d'une petite quantité de données ou à partir de l'expérience acquise lors de tâches précédentes. Les algorithmes de méta-apprentissage essaient généralement d'obtenir les résultats suivants:

  • Améliorez ou apprenez des caractéristiques conçues manuellement (telles qu'un initialiseur ou un optimiseur).
  • Être plus efficace en termes de données et de calcul
  • Améliorez la généralisation.

Le méta-apprentissage est lié à l'apprentissage few-shot.

modality

#language

Catégorie de données générale. Par exemple, les nombres, le texte, les images, la vidéo et l'audio sont cinq modalités différentes.

parallélisme des modèles

#language

Moyen de scaling de l'entraînement ou de l'inférence pour placer différentes parties d'un model sur différents model. Le parallélisme des modèles permet d'utiliser des modèles trop volumineux pour tenir sur un seul appareil.

Pour implémenter le parallélisme des modèles, un système effectue généralement les opérations suivantes:

  1. Segment (divise) le modèle en parties plus petites.
  2. Distribue l'entraînement de ces petites pièces sur plusieurs processeurs. Chaque processeur entraîne sa propre partie du modèle.
  3. Les résultats sont combinés pour créer un modèle unique.

Le parallélisme des modèles ralentit l'entraînement.

Consultez également la page Parallélisme des données.

auto-attention multi-tête

#language

Extension de l'auto-attention qui applique le mécanisme d'auto-attention plusieurs fois pour chaque position de la séquence d'entrée.

Les modèles Transformer ont introduit l'auto-attention multi-tête.

modèle multimodal

#language

Modèle dont les entrées et/ou les sorties incluent plusieurs modalités. Prenons l'exemple d'un modèle qui utilise à la fois une image et une légende de texte (deux modalités) comme caractéristiques, et qui génère un score indiquant si la légende est appropriée pour l'image. Les entrées de ce modèle sont multimodales et la sortie est unimodale.

N

compréhension du langage naturel

#language

Déterminer les intentions d'un utilisateur en fonction de ce qu'il a saisi ou énoncé. Par exemple, un moteur de recherche utilise la compréhension du langage naturel pour déterminer ce que l'utilisateur recherche en fonction de ce qu'il a saisi ou énoncé.

N-gramme

#seq
#language

Séquence ordonnée de N mots. Par exemple, vraiment follement est un 2 grammes. L'ordre a une importance : follement vraiment est un 2-grammes différent de vraiment follement.

N Nom(s) pour ce type de N-gramme Exemples
2 bigramme ou 2-gramme à emporter, à venir, déjeuner, dîner
3 trigramme ou 3-gramme pas trop mangé, trois souris aveugles, la cloche sonne
4 4 grammes marcher dans le parc, la poussière dans le vent, le garçon a mangé des lentilles

De nombreux modèles de compréhension du langage naturel s'appuient sur les N-grammes pour prédire le prochain mot que l'utilisateur saisira ou énoncera. Par exemple, supposons qu'un utilisateur saisisse three blind. Un modèle NLU basé sur des trigrammes prédirait probablement que l'utilisateur saisira ensuite mice.

Faire la différence entre les N-grammes et les sacs de mots, qui sont des ensembles de mots non ordonnés.

NLU (Natural Language Understanding, compréhension du langage naturel) - 1st occurrence only, then use "NLU".

#language

Abréviation de compréhension du langage naturel.

O

requête one-shot

#language
#IAgénérative

Une requête contenant un exemple montrant comment le grand modèle de langage doit répondre. Par exemple, l'invite suivante contient un exemple montrant à un grand modèle de langage comment il doit répondre à une requête.

Composantes d'une requête Remarques
Quelle est la devise officielle du pays spécifié ? La question à laquelle le LLM doit répondre.
France: EUR Par exemple.
Inde: Requête réelle.

Comparez les requêtes one-shot avec les termes suivants:

P

optimisation du réglage des paramètres

#language
#IAgénérative

Ensemble de techniques permettant d'affiner un grand modèle de langage pré-entraîné (PLM) plus efficacement que l'affinage complet. Le réglage économe en paramètres affine généralement beaucoup moins de paramètres que l'affinage complet, mais produit généralement un grand modèle de langage qui fonctionne aussi bien (ou presque aussi) qu'un grand modèle de langage créé à partir d'un ajustement complet.

Indiquer les points communs et les différences entre le réglage efficace pour les paramètres et les éléments suivants:

Le réglage utilisant efficacement les paramètres est également appelé ajustement efficace des paramètres.

pipeline

#language

Forme de parallélisme de modèle dans laquelle le traitement d'un modèle est divisé en étapes consécutives, chacune étant exécutée sur un appareil différent. Lorsqu'une étape traite un lot, l'étape précédente peut fonctionner sur le lot suivant.

Consultez également la section Entraînement par étapes.

PLM

#language
#IAgénérative

Abréviation de modèle de langage pré-entraîné.

encodage de position

#language

Technique permettant d'ajouter des informations sur la position d'un jeton dans une séquence par rapport à sa représentation vectorielle continue. Les modèles Transformer utilisent l'encodage positionnel pour mieux comprendre la relation entre les différentes parties de la séquence.

Une implémentation courante de l'encodage positionnel utilise une fonction sinusoïdale. (Plus précisément, la fréquence et l'amplitude de la fonction sinusoïdale sont déterminées par la position du jeton dans la séquence.) Cette technique permet à un modèle Transformer d'apprendre à prendre en compte différentes parties de la séquence en fonction de leur position.

modèle pré-entraîné

#language
#image
#IAgénérative

Modèles ou composants de modèle (tels qu'un vecteur de représentation vectorielle continue) qui ont déjà été entraînés. Parfois, vous transmettez des vecteurs de représentation vectorielle continue pré-entraînés dans un réseau de neurones. D'autres fois, le modèle va entraîner lui-même les vecteurs de représentation vectorielle continue au lieu de s'appuyer sur les représentations vectorielles continues pré-entraînées.

Le terme modèle de langage pré-entraîné fait référence à un grand modèle de langage qui a fait l'objet d'un pré-entraînement.

pré-entraînement

#language
#image
#IAgénérative

Entraînement initial d'un modèle sur un ensemble de données volumineux. Certains modèles pré-entraînés sont des géants maladroites et doivent généralement être affinés par le biais d'un entraînement supplémentaire. Par exemple, les experts en ML peuvent pré-entraîner un grand modèle de langage sur un vaste ensemble de données de texte, comme toutes les pages en anglais de Wikipédia. À la suite du pré-entraînement, le modèle résultant peut être affiné davantage grâce à l'une des techniques suivantes:

requête

#language
#IAgénérative

Tout texte saisi en tant qu'entrée dans un grand modèle de langage pour conditionner le modèle afin qu'il se comporte d'une certaine manière. Les invites peuvent être aussi courtes qu'une expression ou arbitrairement longues (par exemple, l'intégralité du texte d'un roman). Les requêtes appartiennent à plusieurs catégories, y compris celles présentées dans le tableau suivant:

Catégorie d'invite Exemple Remarques
Question À quelle vitesse un pigeon vole-t-il ?
Instruction Écris un poème amusant sur les sites à contenu exclusivement publicitaire. Requête qui demande au grand modèle de langage d'effectuer une action.
Exemple Traduire le code Markdown au format HTML. Par exemple :
Markdown: * élément de liste
HTML: <ul> <li>élément de liste</li> </ul>
La première phrase de cet exemple de requête est une instruction. Le reste de la requête est l'exemple.
Rôle Expliquer pourquoi la descente de gradient est utilisée dans l'entraînement du machine learning jusqu'à un doctorat en physique. La première partie de la phrase est une instruction. L'expression "to un doctorat en physique" correspond au rôle.
Entrée partielle pour la finalisation du modèle Le Premier ministre du Royaume-Uni vit à Une invite d'entrée partielle peut se terminer brusquement (comme dans cet exemple) ou se terminer par un trait de soulignement.

Un modèle d'IA générative peut répondre à une requête avec du texte, du code, des images, des représentations vectorielles continues, des vidéos, etc.

apprentissage basé sur des requêtes

#language
#IAgénérative

Capacité de certains modèles qui leur permet d'adapter leur comportement en réponse à des entrées de texte arbitraires (invites). Dans un paradigme d'apprentissage classique basé sur des requêtes, un grand modèle de langage répond à une requête en générant du texte. Par exemple, supposons qu'un utilisateur entre l'invite suivante:

Résume la troisième loi du mouvement de Newton.

Un modèle compatible avec l'apprentissage basé sur des requêtes n'est pas spécifiquement entraîné pour répondre à l'invite précédente. Le modèle "connaît" de nombreux faits en physique, beaucoup de règles générales du langage et beaucoup de choses sur ce qui constitue des réponses généralement utiles. Ces connaissances sont suffisantes pour fournir une réponse utile, espérons-le. Des commentaires humains supplémentaires ("Cette réponse était trop compliquée" ou "Qu'est-ce qu'une réaction ?") permettent à certains systèmes d'apprentissage par requête d'améliorer progressivement l'utilité de leurs réponses.

conception de requête

#language
#IAgénérative

Synonyme d'ingénierie des requêtes.

ingénierie des requêtes

#language
#IAgénérative

Création d'invites qui génèrent les réponses souhaitées à partir d'un grand modèle de langage. Les êtres humains effectuent des opérations d'ingénierie des requêtes. Rédiger des requêtes bien structurées est essentiel pour garantir des réponses utiles d'un grand modèle de langage. L'ingénierie des requêtes dépend de nombreux facteurs, y compris:

  • Ensemble de données utilisé pour pré-entraîner et éventuellement affiner le grand modèle de langage.
  • température et autres paramètres de décodage utilisés par le modèle pour générer des réponses.

Pour en savoir plus sur la rédaction de requêtes utiles, consultez Présentation de la conception de requêtes.

La conception de requête est un synonyme d'ingénierie des requêtes.

réglage des invites

#language
#IAgénérative

Un mécanisme de réglage efficace des paramètres qui apprend un "préfixe" que le système ajoute à la requête réelle

Une variante du réglage des invites, parfois appelée réglage des préfixes, consiste à ajouter le préfixe au début de chaque couche. En revanche, la plupart des réglages d'invites n'ajoutent qu'un préfixe à la couche d'entrée.

R

requête de rôle

#language
#IAgénérative

Partie facultative d'une requête qui identifie une audience cible pour la réponse d'un modèle d'IA générative. Sans une invite de rôle, un grand modèle de langage fournit une réponse qui peut être utile ou non pour la personne qui pose les questions. Avec une invite de rôle, un grand modèle de langage peut répondre d'une manière plus appropriée et plus utile pour une audience cible spécifique. Par exemple, la partie d'invite de rôle des invites suivantes est en gras:

  • Résume cet article pour un doctorat en économie.
  • Décrire le fonctionnement des marées pour un enfant de dix ans.
  • Expliquer la crise financière de 2008 Parlez comme vous le feriez à un jeune enfant ou à un golden retriever.

S

auto-attention (également appelée couche d'auto-attention)

#language

Couche de réseau de neurones qui transforme une séquence de représentations vectorielles continues (par exemple, de représentations vectorielles continues jeton) en une autre séquence de représentations vectorielles continues Chaque représentation vectorielle continue de la séquence de sortie est construite en intégrant les informations provenant des éléments de la séquence d'entrée via un mécanisme d'attention.

La partie self de l'auto-attention fait référence à la séquence qui s'y prête plutôt qu'à un autre contexte. L'auto-attention est l'un des principaux éléments de base des transformateurs. Elle utilise une terminologie de recherche par dictionnaire, telle que "query", "key" et "value".

Une couche d'auto-attention commence par une séquence de représentations d'entrée, une pour chaque mot. La représentation d'entrée d'un mot peut être une simple représentation vectorielle continue. Pour chaque mot d'une séquence d'entrée, le réseau attribue un score à sa pertinence par rapport à chaque élément de la séquence de mots complète. Les scores de pertinence déterminent dans quelle mesure la représentation finale du mot intègre les représentations d'autres mots.

Prenons l'exemple de la phrase suivante:

L'animal n'a pas traversé la rue car il était trop fatigué.

L'illustration suivante (tirée du livre Transformer: A Novel Neural Network Architecture for Language Understanding) montre le modèle d'attention d'une couche d'auto-attention pour le pronom it. L'obscurité de chaque ligne indique dans quelle mesure chaque mot contribue à la représentation:

La phrase suivante apparaît deux fois: l&#39;animal n&#39;a pas traversé la rue, car il était trop fatigué. Des lignes relient le pronom en une phrase à cinq jetons (l&#39;animal, la rue, le point et le point) dans l&#39;autre phrase.  La ligne entre son pronom et le mot &quot;animal&quot; est la plus forte.

La couche d'auto-attention met en évidence les mots pertinents. Dans ce cas, la couche d'attention a appris à mettre en surbrillance les mots auxquels elle pourrait faire référence, attribuant la pondération la plus élevée à animal.

Pour une séquence de n jetons, l'auto-attention transforme une séquence de représentations vectorielles continues n fois distinctes, une fois à chaque position de la séquence.

Reportez-vous également aux fonctionnalités attention et auto-attention multi-tête.

analyse des sentiments

#language

Utilisation d'algorithmes statistiques ou de machine learning pour déterminer l'attitude globale d'un groupe (positive ou négative) vis-à-vis d'un service, d'un produit, d'une organisation ou d'un sujet. Par exemple, en utilisant la compréhension du langage naturel, un algorithme peut effectuer une analyse des sentiments sur les commentaires textuels d'un cours universitaire afin de déterminer dans quelle mesure les étudiants ont généralement aimé ou déplu le cours.

tâche "seq2seq"

#language

Tâche qui convertit une séquence d'entrée de jetons en séquence de sortie de jetons. Par exemple, deux types courants de tâches "seq2seq" sont les suivants:

  • Traducteurs :
    • Exemple de séquence d'entrée: "Je t'aime".
    • Exemple de séquence de sortie: "Je t'aime".
  • Systèmes de questions-réponses :
    • Exemple de séquence d'entrée: "Dois-je utiliser ma voiture à New York ?"
    • Exemple de séquence de sortie: "Non. Veuillez laisser votre voiture à la maison."

saut-gramme

#language

n-gramme qui peut omettre (ou "ignorer") des mots du contexte d'origine, ce qui signifie que les N mots peuvent ne pas être à l'origine adjacents. Plus précisément, un "k-skip-n-gramme" est un n-gramme dont jusqu'à k mots ont pu être ignorés.

Par exemple, "le renard brun hâtif" a les 2 grammes suivants:

  • "rapide"
  • "marron rapide"
  • "renard brun"

Un mot "1-skip-2-gramme" est une paire de mots séparés par un mot au maximum. Par conséquent, "le petit renard brun" présente les 2 grammes suivants, qui peuvent être ignorés:

  • "marron"
  • "Quick Fox"

De plus, tous les 2 grammes sont également 1-skip-2-grammes, car moins d'un mot peut être ignoré.

Les Skip-grammes sont utiles pour mieux comprendre le contexte environnant d'un mot. Dans l'exemple, "fox" est directement associé à "quick" dans l'ensemble de 1-skip-2-grammes, mais pas dans l'ensemble de 2-grammes.

Les Skip-grammes permettent d'entraîner des modèles de représentation vectorielle continue de mots.

réglage des invites douces

#language
#IAgénérative

Technique de réglage d'un grand modèle de langage pour une tâche particulière, sans affinage, qui utilise beaucoup de ressources. Au lieu de réentraîner toutes les pondérations du modèle, le réglage des invites douces ajuste automatiquement une invite pour atteindre le même objectif.

Avec une requête textuelle, le réglage de l'invite douce ajoute généralement des représentations vectorielles continues de jetons supplémentaires à l'invite et utilise la rétropropagation pour optimiser l'entrée.

Une invite "difficile" contient des jetons réels au lieu de représentations vectorielles continues de jetons.

caractéristique creuse

#language
#fundamentals

Une caractéristique dont les valeurs sont pour la plupart nulles ou vides. Par exemple, une caractéristique contenant une seule valeur 1 et un million de valeurs 0 est creuse. En revanche, une caractéristique dense comporte des valeurs qui ne sont principalement ni nulles ni vides.

Dans le domaine du machine learning, un nombre surprenant de caractéristiques sont des caractéristiques creuses. Les caractéristiques catégorielles sont généralement creuses. Par exemple, parmi les 300 espèces d'arbres possibles d'une forêt, un seul exemple peut n'identifier qu'un érable. Ou, parmi les millions de vidéos possibles d'une bibliothèque de vidéos, un seul exemple pourrait désigner "Casablanca".

Dans un modèle, vous représentez généralement des caractéristiques creuses avec encodage one-hot. Si l'encodage one-hot est volumineux, vous pouvez placer une couche de représentation vectorielle continue au-dessus de l'encodage one-hot pour plus d'efficacité.

représentation creuse

#language
#fundamentals

Ne stocke que la position des éléments non nuls dans une caractéristique creuse.

Par exemple, supposons qu'une caractéristique catégorielle nommée species identifie les 36 espèces d'arbres d'une forêt spécifique. Supposons également que chaque exemple n'identifie qu'une seule espèce.

Vous pouvez utiliser un vecteur one-hot pour représenter les espèces d'arbres dans chaque exemple. Un vecteur one-hot contiendrait une seule valeur 1 (pour représenter l'espèce d'arbre concernée dans cet exemple) et 35 0s (pour représenter les 35 espèces d'arbres qui ne sont pas dans cet exemple). Ainsi, la représentation one-hot de maple peut se présenter comme suit:

Un vecteur dans lequel les positions 0 à 23 contiennent la valeur 0, la position 24 contient la valeur 1 et les positions 25 à 35 contiennent la valeur 0.

La représentation creuse permet également d'identifier simplement la position de l'espèce concernée. Si maple se trouve à la position 24, la représentation creuse de maple est simplement:

24

Notez que la représentation creuse est beaucoup plus compacte que la représentation one-hot.

entraînement par étapes

#language

Stratégie d'entraînement d'un modèle selon une séquence d'étapes distinctes. L'objectif peut être d'accélérer le processus d'entraînement ou d'améliorer la qualité du modèle.

Voici une illustration de l'approche d'empilement progressif:

  • L'étape 1 contient trois couches cachées, l'étape 2 en contient six et l'étape 3 en contient 12.
  • L'étape 2 commence l'entraînement avec les pondérations apprises lors des trois couches cachées de l'étape 1. L'étape 3 commence l'entraînement avec les pondérations apprises dans les six couches cachées de l'étape 2.

Trois étapes, appelées &quot;Étape 1&quot;, &quot;Étape 2&quot; et &quot;Étape 3&quot;.
          Chaque étape contient un nombre différent de calques: l&#39;étape 1 en contient trois, l&#39;étape 2 en contient six et l&#39;étape 3 en contient 12.
          Les trois couches de l&#39;étape 1 deviennent les trois premières couches de l&#39;étape 2.
          De même, les six couches de l&#39;étape 2 deviennent les six premières couches de l&#39;étape 3.

Consultez également la section Pipelines.

jeton de sous-mot

#language

Dans les modèles de langage, il s'agit d'un jeton qui est une sous-chaîne d'un mot, qui peut correspondre au mot entier.

Par exemple, un mot tel que "itemize" peut être divisé en plusieurs parties, "item" (un mot racine) et "ize" (un suffixe), chacune étant représentée par son propre jeton. Le fractionnement de mots peu courants en ces éléments, appelés sous-mots, permet aux modèles de langage de fonctionner sur les éléments constitutifs les plus courants du mot, tels que les préfixes et les suffixes.

À l'inverse, les mots courants tels que "participer" ne peuvent pas être décomposés et peuvent être représentés par un seul jeton.

T

T5

#language

Modèle d'apprentissage par transfert texte-vers-texte introduit par l' IA de Google en 2020. T5 est un modèle encodeur/décodeur, basé sur l'architecture Transformer, entraîné sur un ensemble de données extrêmement volumineux. Il est efficace pour diverses tâches de traitement du langage naturel, telles que la génération de texte, la traduction de langues et la réponse à des questions de manière conversationnelle.

Le T5 tire son nom des cinq T de « Transformateur de transfert de texte en texte ».

T5X

#language

Framework de machine learning Open Source conçu pour créer et entraîner des modèles de traitement du langage naturel (TLN) à grande échelle. T5 est implémenté sur le codebase T5X (basé sur JAX et Flax).

température

#language
#image
#IAgénérative

Hyperparamètre qui contrôle le degré de hasard des résultats d'un modèle. Des températures plus élevées génèrent des résultats plus aléatoires, tandis que des températures plus basses génèrent des résultats moins aléatoires.

Le choix de la température optimale dépend de l'application spécifique et des propriétés préférées de la sortie du modèle. Par exemple, vous augmenteriez probablement la température lors de la création d'une application qui génère des résultats de création. À l'inverse, vous devriez probablement baisser la température lorsque vous créez un modèle qui classe les images ou le texte afin d'améliorer la précision et la cohérence du modèle.

La température est souvent utilisée avec softmax.

segment de texte

#language

Segment d'index de tableau associé à une sous-section spécifique d'une chaîne de texte. Par exemple, le mot good dans la chaîne Python s="Be good now" occupe l'intervalle de texte de 3 à 6.

jeton

#language

Dans un modèle de langage, il s'agit de l'unité atomique utilisée par le modèle pour l'entraînement et la réalisation de prédictions. Un jeton correspond généralement à l'un des éléments suivants:

  • Un mot (par exemple, l'expression "chiens comme des chats" est composée de trois jetons de mot: "chiens", "aime" et "chats").
  • Un caractère (par exemple, l'expression "poisson à vélo" se compose de neuf jetons de caractères). (Notez que l'espace vide compte comme l'un des jetons.)
  • dans lesquels un seul mot peut être un ou plusieurs jetons. Un sous-mot se compose d'un mot racine, d'un préfixe ou d'un suffixe. Par exemple, un modèle de langage qui utilise des sous-mots comme jetons peut considérer le mot "chiens" comme deux jetons (la racine "chien" et le suffixe pluriel "s"). Ce même modèle de langage peut considérer le mot "plus grand" comme deux sous-mots (le mot racine "grand" et le suffixe "er").

Dans les domaines en dehors des modèles de langage, les jetons peuvent représenter d'autres types d'unités atomiques. Par exemple, en vision par ordinateur, un jeton peut être un sous-ensemble d'une image.

Transformer

#language

Architecture de réseau de neurones développée par Google et reposant sur des mécanismes d'auto-attention, pour transformer une séquence de représentations vectorielles continues d'entrée en une séquence de représentations vectorielles continues de sortie sans s'appuyer sur des convolutions ou des réseaux de neurones récurrents. Un Transformer peut être considéré comme une pile de couches d'auto-attention.

Un transformateur peut inclure l'un des éléments suivants:

Un encodeur transforme une séquence de représentations vectorielles continues en une nouvelle séquence de même longueur. Un encodeur comprend N couches identiques, chacune contenant deux sous-couches. Ces deux sous-couches sont appliquées à chaque position de la séquence de représentations vectorielles continues d'entrée, transformant chaque élément de la séquence en une nouvelle représentation vectorielle continue. La première sous-couche d'encodeur regroupe les informations de la séquence d'entrée. La deuxième sous-couche d'encodeur transforme les informations agrégées en une représentation vectorielle continue de sortie.

Un décodeur transforme une séquence de représentations vectorielles continues d'entrée en séquence de représentations vectorielles continues de sortie, éventuellement d'une longueur différente. Un décodeur comprend également N couches identiques avec trois sous-couches, dont deux sont similaires aux sous-couches de l'encodeur. La troisième sous-couche de décodeur prend la sortie de l'encodeur et applique le mécanisme d'auto-attention pour recueillir des informations à partir de celle-ci.

L'article de blog Transformer: A Novel Neural Network Architecture for Language Understanding (Transformer : architecture de réseau de neurones pour la compréhension du langage) constitue une bonne introduction à Transformer.

trigramme

#seq
#language

Un N-gramme dans lequel N=3.

U

unidirectionnel

#language

Système qui évalue uniquement le texte qui précède une section de texte cible. En revanche, un système bidirectionnel évalue à la fois le texte qui passe et suit une section de texte cible. Pour en savoir plus, consultez la section Bidirectionnelle.

modèle de langage unidirectionnel

#language

Un modèle de langage qui base ses probabilités uniquement sur les jetons qui apparaissent avant, et non après, le ou les jetons cibles. À comparer au modèle de langage bidirectionnel.

V

Auto-encodeur variationnel (VAE, variational auto-encoder)

#language

Type d'auto-encodeur qui exploite l'écart entre les entrées et les sorties pour générer des versions modifiées des entrées. Les auto-encodeurs variationnels sont utiles pour l'IA générative.

Les VAE sont basées sur l'inférence variationnelle, une technique d'estimation des paramètres d'un modèle de probabilité.

L

représentation vectorielle continue de mots

#language

Représentation de chaque mot d'un ensemble de mots dans un vecteur de représentation vectorielle continue, c'est-à-dire représenter chaque mot comme un vecteur de valeurs à virgule flottante comprises entre 0,0 et 1,0. Les mots ayant des significations similaires ont des représentations plus similaires que les mots ayant des significations différentes. Par exemple, carottes, céramique et concombres auraient tous des représentations relativement similaires, très différentes de celles correspondant à avion, lunettes de soleil et dentifrice.

Z

requête zero-shot

#language
#IAgénérative

Une requête qui ne fournit pas d'exemple de la manière dont vous souhaitez que le grand modèle de langage réponde. Exemple :

Composantes d'une requête Remarques
Quelle est la devise officielle du pays spécifié ? La question à laquelle le LLM doit répondre.
Inde: Requête réelle.

Le grand modèle de langage peut répondre avec l'un des éléments suivants:

  • Roupie
  • INR
  • Roupie indienne
  • La roupie
  • Roupie indienne

Toutes les réponses sont correctes, mais vous préférerez peut-être un format en particulier.

Comparez les requêtes zero-shot avec les termes suivants: