Cette page a été traduite par l'API Cloud Translation.

Glossaire sur le machine learning: évaluation du langage

Cette page contient les termes du glossaire de l'évaluation linguistique. Pour connaître tous les termes du glossaire, cliquez ici.

A

"Attention",

#language

Mécanisme utilisé dans un réseau de neurones qui indique l'importance d'un mot ou d'une partie de mot spécifique. L'attention compresse la quantité d'informations dont un modèle a besoin pour prédire le prochain jeton/mot. Un mécanisme d'attention typique peut consister en une somme pondérée sur un ensemble d'entrées, où le poids de chaque entrée est calculé par une autre partie du réseau de neurones.

Consultez également la auto-attention et l'auto-attention multitête, qui sont les éléments de base des Transformers.

Pour en savoir plus sur l'attention automatique, consultez LLM: qu'est-ce qu'un grand modèle de langage ? dans le cours d'initiation au machine learning.

auto-encodeur

#language

#image

Système qui apprend à extraire les informations les plus importantes de l'entrée. Les autoencodeurs sont une combinaison d'un encodeur et d'un décodeur. Les autoencodeurs reposent sur le processus en deux étapes suivant:

L'encodeur mappe l'entrée sur un format (intermédiaire) à faible dimension (généralement avec perte).
Le décodeur crée une version avec perte de l'entrée d'origine en mappant le format à faible dimension sur le format d'entrée d'origine à dimension élevée.

Les autoencodeurs sont entraînés de bout en bout en demandant au décodeur de tenter de reconstruire l'entrée d'origine à partir du format intermédiaire de l'encodeur le plus fidèlement possible. Étant donné que le format intermédiaire est plus petit (de dimension inférieure) que le format d'origine, l'autoencodeur est contraint d'apprendre quelles informations de l'entrée sont essentielles, et la sortie ne sera pas parfaitement identique à l'entrée.

Exemple :

Si les données d'entrée sont un graphique, la copie non exacte sera semblable au graphique d'origine, mais quelque peu modifiée. Il est possible que la copie non exacte supprime le bruit de l'image originale ou remplisse certains pixels manquants.
Si les données d'entrée sont du texte, un autoencodeur génère un nouveau texte qui imite (mais n'est pas identique) au texte d'origine.

Voir également les auto-encodeurs variationnels.

évaluation automatique

#language

#generativeAI

Utiliser un logiciel pour évaluer la qualité de la sortie d'un modèle

Lorsque la sortie du modèle est relativement simple, un script ou un programme peut comparer la sortie du modèle à une réponse d'or. Ce type d'évaluation automatique est parfois appelé évaluation programmatique. Les métriques telles que ROUGE ou BLEU sont souvent utiles pour l'évaluation programmatique.

Lorsque la sortie du modèle est complexe ou qu'il n'existe pas de bonne réponse unique, un programme de ML distinct appelé auto-évaluateur effectue parfois l'évaluation automatique.

À comparer à l'évaluation humaine.

évaluation de l'outil d'évaluation automatique

#language

#generativeAI

Mécanisme hybride permettant d'évaluer la qualité de la sortie d'un modèle d'IA générative, qui combine une évaluation humaine et une évaluation automatique. Un outil d'évaluation automatique est un modèle de ML entraîné sur des données créées par une évaluation humaine. Dans l'idéal, un outil d'évaluation automatique apprend à imiter un évaluateur humain.

Des outils d'automatisation prédéfinis sont disponibles, mais les meilleurs d'entre eux sont affinés spécifiquement pour la tâche que vous évaluez.

modèle autorégressif

#language

#image

#generativeAI

Modèle qui infère une prédiction en fonction de ses propres prédictions précédentes. Par exemple, les modèles de langage autorégressifs prédisent le prochain jeton en fonction des jetons précédemment prédits. Tous les grands modèles de langage basés sur Transformer sont autorégressifs.

En revanche, les modèles d'image basés sur des GAN ne sont généralement pas autorégressifs, car ils génèrent une image en une seule passe avant et non de manière itérée par étapes. Toutefois, certains modèles de génération d'images sont autorégressifs, car ils génèrent une image par étapes.

précision moyenne à k

#language

#Metric

Métrique permettant de résumer les performances d'un modèle pour une seule invite qui génère des résultats classés, comme une liste numérotée de recommandations de livres. La précision moyenne à k correspond à la moyenne des valeurs de précision à k pour chaque résultat pertinent. La formule de la précision moyenne à k est donc la suivante:

\[{\text{average precision at k}} = \frac{1}{n} \sum_{i=1}^n {\text{precision at k for each relevant item} } \]

où :

$n$ correspond au nombre d'éléments pertinents dans la liste.

À comparer au rappel à k.

Cliquez sur l'icône pour voir un exemple.

Supposons qu'un grand modèle de langage reçoive la requête suivante:

List the 6 funniest movies of all time in order.

Le grand modèle de langage renvoie la liste suivante:

The General
Mean Girls
Un beau dimanche
Avatar
Citizen Kane
This is Spinal Tap

Quatre des films de la liste renvoyée sont très drôles (c'est-à-dire pertinents), mais deux sont des drames (non pertinents). Le tableau suivant détaille les résultats:

Position	Film	Est-elle pertinente ?	Précision à k
1	The General	Oui	1.0
2	Mean Girls	Oui	1.0
3	Un beau dimanche	Non	Non pertinent
4	Avatar	Oui	0,75
5	Citizen Kane	Non	Non pertinent
6	This is Spinal Tap	Oui	0,67

Le nombre de résultats pertinents est de quatre. Vous pouvez donc calculer la précision moyenne à 6 comme suit:

$${\text{average precision at 6}} = \frac{1}{4} {\text{(1.0 + 1.0 + 0.75 + 0.67)} } $$ $${\text{average precision at 6}} = {\text{~0.85} } $$

B

sac de mots

#language

Représentation des mots d'une expression ou d'un extrait, quel que soit leur ordre. Par exemple, un sac de mots représente les trois phrases suivantes à l'identique:

the dog jumps
jumps the dog
dog jumps the

Chaque mot est mappé à un indice dans un vecteur sparse, où le vecteur a un indice pour chaque mot du vocabulaire. Par exemple, la phrase the dog jumps est mappée dans un vecteur de caractéristiques dont les trois indices correspondant aux mots the, dog et jumps auront des valeurs non nulles. La valeur non nulle peut être l'une des suivantes:

1 pour indiquer la présence d'un mot.
Nombre d'apparitions d'un mot dans le sac. Par exemple, si l'expression est the maroon dog is a dog with maroon fur, les mots maroon et dog seront représentés par la valeur 2, tandis que les autres mots seront représentés par la valeur 1.
Une autre valeur, telle que le logarithme du nombre d'apparition d'un mot dans le sac.

BERT (Bidirectional Encoder Representations from Transformers)

#language

Architecture de modèle pour la représentation du texte. Un modèle BERT entraîné peut faire partie d'un modèle plus vaste pour la classification de texte ou d'autres tâches de ML.

BERT présente les caractéristiques suivantes:

Utilise l'architecture Transformer et s'appuie donc sur l'auto-attention.
Utilise la partie encodeur du Transformer. La tâche de l'encodeur est de produire de bonnes représentations textuelles, plutôt que d'effectuer une tâche spécifique comme la classification.
est bidirectionnel ;
Utilise le masquage pour l'entraînement non supervisé.

Voici quelques variantes de BERT:

ALBERT, qui est l'acronyme de A Light BERT.
LaBSE.

Pour en savoir plus sur BERT, consultez Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing (BERT en Open source : pré-entraînement de pointe pour le traitement du langage naturel).

bidirectionnel

#language

Terme utilisé pour décrire un système qui évalue le texte qui précède et suit une section cible de texte. En revanche, un système unidirectionnel n'évalue que le texte qui précède une section cible de texte.

Prenons l'exemple d'un modèle de langage masqué qui doit déterminer les probabilités pour le ou les mots représentant le soulignement dans la question suivante:

Qu'est-ce qui ne va pas chez vous ?

Un modèle de langage unidirectionnel ne devrait baser ses probabilités que sur le contexte fourni par les mots "quoi", "est" et "le". À l'inverse, un modèle de langage bidirectionnel peut également obtenir du contexte à partir de "avec" et de "vous", ce qui peut l'aider à générer de meilleures prédictions.

modèle de langage bidirectionnel

#language

Modèle de langage qui détermine la probabilité qu'un jeton donné soit présent à un emplacement donné dans un extrait de texte en fonction du texte précédent et suivant.

bigramme

#seq

#language

Un N-gramme dans lequel N=2.

BLEU (Bilingual Evaluation Understudy)

#language

Métrique comprise entre 0,0 et 1,0 pour évaluer les traductions automatiques, par exemple de l'espagnol vers le japonais.

Pour calculer un score, BLEU compare généralement la traduction d'un modèle de ML (texte généré) à celle d'un expert humain (texte de référence). Le degré de correspondance des n-grammes dans le texte généré et le texte de référence détermine le score BLEU.

L'article d'origine sur cette métrique est BLEU: a Method for Automatic Evaluation of Machine Translation (BLEU : une méthode d'évaluation automatique de la traduction automatique).

Voir également BLEURT.

BLEURT (Bilingual Evaluation Understudy from Transformers)

#language

Métrique permettant d'évaluer les traductions automatiques d'une langue à une autre, en particulier de l'anglais vers l'anglais et de l'anglais vers d'autres langues.

Pour les traductions vers et depuis l'anglais, BLEURT s'aligne plus étroitement sur les évaluations humaines que BLEU. Contrairement à BLEU, BLEURT met l'accent sur les similitudes sémantiques (de sens) et peut prendre en charge le paraphrasage.

BLEURT repose sur un grand modèle de langage pré-entraîné (BERT, pour être exact) qui est ensuite affiné sur le texte de traducteurs humains.

L'article d'origine sur cette métrique est BLEURT: Learning Robust Metrics for Text Generation.

C

modèle de langage causal

#language

Synonyme de modèle de langage unidirectionnel.

Consultez modèle de langage bidirectionnel pour comparer les différentes approches directionnelles dans le modèle de langage.

requêtes en chaîne de pensée

#language

#generativeAI

Technique d'ingénierie des requêtes qui encourage un grand modèle de langage (LLM) à expliquer son raisonnement, étape par étape. Prenons l'exemple de l'invite suivante, en accordant une attention particulière à la deuxième phrase:

Combien de g un conducteur ressentira-t-il dans une voiture qui passe de 0 à 96 km/h en 7 secondes ? Dans la réponse, indiquez tous les calculs pertinents.

La réponse du LLM est susceptible de:

Affichez une séquence de formules de physique, en insérant les valeurs 0, 60 et 7 aux endroits appropriés.
Expliquez pourquoi il a choisi ces formules et la signification des différentes variables.

Les requêtes en chaîne de pensée obligent le LLM à effectuer tous les calculs, ce qui peut conduire à une réponse plus correcte. De plus, les invites de la chaîne de pensée permettent à l'utilisateur d'examiner les étapes de la LLM pour déterminer si la réponse est logique ou non.

chat

#language

#generativeAI

Contenu d'un dialogue avec un système de ML, généralement un grand modèle de langage. L'interaction précédente dans une discussion (ce que vous avez saisi et la façon dont le grand modèle de langage a répondu) devient le contexte des parties suivantes de la discussion.

Un chatbot est une application d'un grand modèle de langage.

confabulation

#language

Synonyme de hallucination.

Le terme "confabulation" est probablement plus précis d'un point de vue technique que celui d'"hallucination". Cependant, l'hallucination est devenue populaire en premier.

Analyse des circonscriptions

#language

Divisez une phrase en structures grammaticales plus petites ("constituants"). Une partie ultérieure du système de ML, comme un modèle de compréhension du langage naturel, peut analyser les constituants plus facilement que la phrase d'origine. Prenons l'exemple de la phrase suivante:

Mon ami a adopté deux chats.

Un analyseur de constituants peut diviser cette phrase en deux constituants:

Mon ami est une expression nominale.
a adopté deux chats est un groupe verbal.

Ces constituants peuvent être subdivisés en constituants plus petits. Par exemple, la locution verbale

a adopté deux chats ;

peut être subdivisé en:

adopté est un verbe.
deux chats est un autre syntagme nominal.

embeddings de langage contextualisés

#language

#generativeAI

Ensemble d'éléments qui se rapproche de la "compréhension" des mots et des expressions comme le font les locuteurs humains. Les représentations vectorielles continues du langage contextualisées peuvent comprendre la syntaxe, la sémantique et le contexte complexes.

Prenons l'exemple des représentations vectorielles continues du mot anglais cow (vache). Les anciens représentations vectorielles continues, telles que word2vec, peuvent représenter des mots anglais de sorte que la distance dans l'espace d'embedding entre cow (vache) et bull (taureau) soit semblable à celle entre ewe (brebis) et ram (bélier) ou entre female (femelle) et male (mâle). Les représentations vectorielles continues de langage contextualisées peuvent aller plus loin en reconnaissant que les anglophones utilisent parfois le mot cow pour désigner une vache ou un taureau.

fenêtre de contexte

#language

#generativeAI

Nombre de jetons qu'un modèle peut traiter dans une invite donnée. Plus la fenêtre de contexte est grande, plus le modèle peut utiliser d'informations pour fournir des réponses cohérentes et cohérentes à la requête.

phrase équivoque

#language

Phrase ou expression au sens ambigu. Les phrases équivoques posent un problème majeur pour la compréhension du langage naturel. Par exemple, l'expression au pied de la lettre est une phrase équivoque, car un modèle NLU peut l'interpréter littéralement ou figurativement.

Cliquez sur l'icône pour ajouter des notes.

Pour clarifier ce titre mystérieux :

La paperasse peut désigner l'un des éléments suivants :
- Un adhésif
- Bureaucratie excessive
Holds Up peut désigner l'un des éléments suivants :
- Soutien structurel
- Retards

D

décodeur

#language

En général, tout système de ML qui convertit une représentation traitée, dense ou interne en une représentation plus brute, sporadique ou externe.

Les décodeurs sont souvent un composant d'un modèle plus vaste, où ils sont souvent associés à un encodeur.

Dans les tâches de séquence à séquence, un décodeur commence par l'état interne généré par l'encodeur pour prédire la séquence suivante.

Consultez Transformer pour connaître la définition d'un décodeur dans l'architecture Transformer.

Pour en savoir plus, consultez la section Grands modèles de langage dans le cours d'initiation au machine learning.

suppression du bruit

#language

Une approche courante de l'apprentissage autosupervisé:

Du bruit est ajouté artificiellement à l'ensemble de données.
Le modèle s'efforce de supprimer le bruit.

Le dénoyage permet d'apprendre à partir d'exemples non étiquetés. L'ensemble de données d'origine sert de cible ou de libellé, et les données bruyantes servent d'entrée.

Certains modèles de langage masqués utilisent le dénoising comme suit:

Du bruit est ajouté artificiellement à une phrase non annotée en masquant certains des jetons.
Le modèle tente de prédire les jetons d'origine.

requête directe

#language

#generativeAI

Synonyme de requête zero-shot.

E

distance de modification

#language

#Metric

Mesure du degré de similarité entre deux chaînes de texte. Dans le machine learning, la distance d'édition est utile pour les raisons suivantes:

La distance d'édition est facile à calculer.
La distance de modification peut comparer deux chaînes connues pour être similaires.
La distance de modification peut déterminer dans quelle mesure différentes chaînes sont similaires à une chaîne donnée.

Il existe plusieurs définitions de la distance d'édition, chacune utilisant des opérations de chaîne différentes. Pour en savoir plus, consultez Distance de Levenshtein.

couche d'embedding

#language

#fundamentals

Couche cachée spéciale qui s'entraîne sur une caractéristique catégorique à haute dimension pour apprendre progressivement un vecteur d'embedding de dimension inférieure. Une couche d'intégration permet à un réseau de neurones de s'entraîner beaucoup plus efficacement que de s'entraîner uniquement sur la caractéristique catégorielle haute dimensionnelle.

Par exemple, la Terre compte actuellement environ 73 000 espèces d'arbres. Supposons que les espèces d'arbres soient une fonctionnalité dans votre modèle. La couche d'entrée de votre modèle inclut donc un vecteur one-hot de 73 000 éléments. Par exemple, baobab pourrait être représenté comme suit:

Tableau de 73 000 éléments. Les 6 232 premiers éléments contiennent la valeur 0. L'élément suivant contient la valeur 1. Les 66 767 derniers éléments contiennent la valeur zéro.

Un tableau de 73 000 éléments est très long. Si vous n'ajoutez pas de couche d'encapsulation au modèle, l'entraînement sera très long,car vous devrez multiplier 72 999 zéros. Vous pouvez choisir que la couche d'embedding se compose de 12 dimensions. Par conséquent, la couche d'embedding apprendra progressivement un nouveau vecteur d'embedding pour chaque espèce d'arbre.

Dans certains cas, le hachage constitue une alternative raisonnable à une couche d'encapsulation.

Pour en savoir plus, consultez la section Embeddings dans le cours d'initiation au machine learning.

espace d'embedding

#language

Les espaces vectoriels à d dimensions auxquelles les caractéristiques d'un espace vectoriel de plus grande dimension sont mappés. L'espace d'encapsulation est entraîné pour capturer la structure qui est pertinente pour l'application prévue.

Le produit scalaire de deux espaces de représentation vectorielle est une mesure de leur similarité.

vecteur d'embedding

#language

De manière générale, il s'agit d'un tableau de nombres à virgule flottante extrait de n'importe quelle couche cachée qui décrit les entrées de cette couche cachée. Souvent, un vecteur d'embedding est le tableau de nombres à virgule flottante entraîné dans une couche d'embedding. Par exemple, supposons qu'une couche d'encapsulation doit apprendre un vecteur d'encapsulation pour chacune des 73 000 espèces d'arbres sur Terre. Le tableau suivant est peut-être le vecteur d'embedding d'un arbre baobab:

Tableau de 12 éléments, chacun contenant un nombre à virgule flottante compris entre 0,0 et 1,0.

Un vecteur d'embedding n'est pas un ensemble de nombres aléatoires. Une couche d'embedding détermine ces valeurs via l'entraînement, comme un réseau de neurones apprend d'autres poids pendant l'entraînement. Chaque élément du tableau correspond à une note attribuée à une caractéristique d'une espèce d'arbre. Quel élément représente la caractéristique de quelle espèce d'arbre ? C'est très difficile à déterminer pour les humains.

La partie mathématiquement remarquable d'un vecteur d'embedding est que les éléments similaires ont des ensembles de nombres à virgule flottante similaires. Par exemple, les espèces d'arbres similaires ont un ensemble de nombres à virgule flottante plus similaire que les espèces d'arbres dissemblables. Les séquoias et les séquoias géants sont des espèces d'arbres apparentées. Ils auront donc un ensemble de nombres à virgule flottante plus similaire que les séquoias géants et les cocotiers. Les nombres du vecteur d'embedding changent à chaque fois que vous réentraînez le modèle, même si vous le réentraînez avec une entrée identique.

encodeur

#language

En général, tout système de ML qui convertit une représentation brute, clairsemée ou externe en une représentation plus traitée, plus dense ou plus interne.

Les encodeurs sont souvent un composant d'un modèle plus vaste, où ils sont souvent associés à un décodeur. Certains transformateurs associent des encodeurs à des décodeurs, tandis que d'autres n'utilisent que l'encodeur ou que le décodeur.

Certains systèmes utilisent la sortie de l'encodeur comme entrée d'un réseau de classification ou de régression.

Dans les tâches de séquence à séquence, un encodeur prend une séquence d'entrée et renvoie un état interne (un vecteur). Ensuite, le décodeur utilise cet état interne pour prédire la séquence suivante.

Consultez Transformer pour connaître la définition d'un encodeur dans l'architecture Transformer.

Pour en savoir plus, consultez LLM: qu'est-ce qu'un grand modèle de langage dans le cours d'initiation au machine learning.

evals

#language

#generativeAI

#Metric

Abréviation principalement utilisée pour les évaluations de LLM. Plus largement, evals est une abréviation de toute forme d'évaluation.

hors connexion

#language

#generativeAI

#Metric

Processus consistant à mesurer la qualité d'un modèle ou à comparer différents modèles entre eux.

Pour évaluer un modèle de machine learning supervisé, vous le comparez généralement à un ensemble de validation et à un ensemble de test. Évaluer un LLM implique généralement des évaluations plus larges de la qualité et de la sécurité.

F

requêtes few-shot

#language

#generativeAI

Invite contenant plusieurs (quelques-uns) exemples montrant comment le grand modèle de langage doit répondre. Par exemple, l'invite longue suivante contient deux exemples montrant à un grand modèle de langage comment répondre à une requête.

Composants d'une requête	Remarques
`Quelle est la devise officielle du pays spécifié ?`	La question à laquelle vous souhaitez que le LLM réponde.
`France: EUR`	Voici un exemple.
`Royaume-Uni: GBP`	Autre exemple.
`Inde:`	Requête réelle.

Les requêtes few-shot génèrent généralement des résultats plus intéressants que les requêtes zero-shot et les requêtes one-shot. Toutefois, les requêtes few-shot nécessitent une requête plus longue.

Les requêtes few-shot sont une forme d'apprentissage few-shot appliquée à l'apprentissage basé sur les requêtes.

Pour en savoir plus, consultez la section Ingénierie des requêtes du cours d'initiation au machine learning.

Violon

#language

Bibliothèque de configuration Python first qui définit les valeurs des fonctions et des classes sans code ni infrastructure intrusifs. Dans le cas de Pax (et d'autres codebases de ML), ces fonctions et classes représentent des modèles et des hyperparamètres d'entraînement.

Fiddle part du principe que les codebases de machine learning sont généralement divisés en:

Code de bibliothèque, qui définit les couches et les optimiseurs.
Code de liaison de l'ensemble de données, qui appelle les bibliothèques et relie tous les éléments.

Fiddle capture la structure d'appel du code de liaison sous une forme non évaluée et modifiable.

affiner

#language

#image

#generativeAI

Deuxième passage d'entraînement spécifique à la tâche effectué sur un modèle pré-entraîné pour affiner ses paramètres pour un cas d'utilisation spécifique. Par exemple, la séquence d'entraînement complète de certains grands modèles de langage est la suivante:

Pré-entraînement:entraînez un grand modèle de langage sur un vaste ensemble de données général, comme toutes les pages de Wikipedia en anglais.
Ajustement:entraînez le modèle pré-entraîné pour qu'il effectue une tâche spécifique, comme répondre à des requêtes médicales. Le réglage fin implique généralement des centaines ou des milliers d'exemples axés sur la tâche spécifique.

Autre exemple : la séquence d'entraînement complète d'un grand modèle d'image se présente comme suit :

Pré-entraînement:entraînez un grand modèle d'image sur un vaste ensemble de données d'images générales, comme toutes les images de Wikimedia Commons.
Affinement:entraînez le modèle pré-entraîné pour qu'il effectue une tâche spécifique, comme générer des images d'orques.

Le réglage fin peut impliquer n'importe quelle combinaison des stratégies suivantes:

Modifier tous les paramètres existants du modèle pré-entraîné. On parle parfois de réglage fin complet.
Modifier seulement certains des paramètres existants du modèle pré-entraîné (généralement, les couches les plus proches de la couche de sortie), tout en laissant les autres paramètres existants inchangés (généralement, les couches les plus proches de la couche d'entrée). Consultez la section Réglage des paramètres avec optimisation.
Ajouter des calques, généralement au-dessus des calques existants les plus proches du calque de sortie.

L'optimisation est une forme d'apprentissage par transfert. Par conséquent, l'ajustement fin peut utiliser une fonction de perte ou un type de modèle différents de ceux utilisés pour entraîner le modèle pré-entraîné. Par exemple, vous pouvez affiner un grand modèle d'image pré-entraîné pour produire un modèle de régression qui renvoie le nombre d'oiseaux dans une image d'entrée.

Comparez l'ajustement fin aux termes suivants:

distillation
apprentissage par requête

Pour en savoir plus, consultez la section Ajustement du cours d'initiation au machine learning.

Lin

#language

Bibliothèque Open Source hautes performances pour le deep learning, basée sur JAX. Flax fournit des fonctions pour entraîner des réseaux de neurones, ainsi que des méthodes pour évaluer leurs performances.

Flaxformer

#language

Bibliothèque Transformer Open Source, basée sur Flax, conçue principalement pour le traitement du langage naturel et la recherche multimodale.

G

Gemini

#language

#image

#generativeAI

Écosystème composé de l'IA la plus avancée de Google. Voici quelques éléments de cet écosystème:

Différents modèles Gemini
Interface conversationnelle interactive pour un modèle Gemini. Les utilisateurs saisissent des requêtes, et Gemini y répond.
Diverses API Gemini
Divers produits professionnels basés sur des modèles Gemini, par exemple Gemini pour Google Cloud.

Modèles Gemini

#language

#image

#generativeAI

Les modèles multimodaux de pointe de Google basés sur Transformer Les modèles Gemini sont spécifiquement conçus pour s'intégrer aux agents.

Les utilisateurs peuvent interagir avec les modèles Gemini de différentes manières, y compris via une interface de boîte de dialogue interactive et via des SDK.

texte généré

#language

#generativeAI

En général, le texte généré par un modèle de ML. Lors de l'évaluation de grands modèles de langage, certaines métriques comparent le texte généré à un texte de référence. Par exemple, supposons que vous essayiez de déterminer l'efficacité d'un modèle de ML pour traduire du français vers le néerlandais. Dans ce cas :

Le texte généré correspond à la traduction néerlandaise générée par le modèle de ML.
Le texte de référence est la traduction néerlandaise créée par un traducteur humain (ou un logiciel).

Notez que certaines stratégies d'évaluation n'impliquent pas de texte de référence.

IA générative

#language

#image

#generativeAI

Champ émergent et transformateur sans définition formelle. Cela dit, la plupart des experts s'accordent à dire que les modèles d'IA générative peuvent créer ("générer") du contenu qui présente les caractéristiques suivantes:

complexe
cohérent
originale

Par exemple, un modèle d'IA générative peut créer des essais ou des images sophistiqués.

Certaines technologies antérieures, y compris les LSTM et les RNN, peuvent également générer des contenus originaux et cohérents. Certains experts considèrent ces technologies antérieures comme de l'IA générative, tandis que d'autres estiment que la véritable IA générative nécessite des résultats plus complexes que ces technologies antérieures ne peuvent produire.

À comparer au ML prédictif.

réponse dorée

#language

#generativeAI

Réponse connue comme étant correcte. Par exemple, avec l'invite suivante:

2 + 2

La réponse idéale est la suivante:

4

Cliquez ici pour en savoir plus sur la réponse clé et le texte de référence.

Certaines métriques d'évaluation, comme ROUGE, comparent le texte de référence au texte généré d'un modèle. Lorsqu'il n'existe qu'une seule bonne réponse à une invite, la réponse clé sert généralement de texte de référence.

Certaines invites n'ont pas de bonne réponse unique. Par exemple, l'invite Résumez ce document comporterait probablement de nombreuses bonnes réponses. Pour ces requêtes, le texte de référence est souvent peu pratique, car un modèle peut générer un très large éventail de résumés possibles. Toutefois, une réponse type peut être utile dans cette situation. Par exemple, une réponse d'or contenant un bon résumé de document peut aider à entraîner un outil d'évaluation automatique à découvrir des tendances de bons résumés de documents.

GPT (Generative Pre-trained Transformer)

#language

Famille de grands modèles de langage basés sur Transformer développés par OpenAI.

Les variantes GPT peuvent s'appliquer à plusieurs modalités, y compris les suivantes:

la génération d'images (par exemple, ImageGPT) ;
Génération de texte en image (par exemple, DALL-E).

H

hallucination

#language

Production de résultats qui semblent plausibles, mais qui sont en fait incorrects, par un modèle d'IA générative qui prétend faire une affirmation sur le monde réel. Par exemple, un modèle d'IA générative qui affirme que Barack Obama est mort en 1865 est hallucinant.

évaluation humaine

#language

#generativeAI

Processus par lequel des personnes évaluent la qualité de la sortie d'un modèle de ML (par exemple, en demandant à des personnes bilingues d'évaluer la qualité d'un modèle de traduction ML). L'évaluation humaine est particulièrement utile pour évaluer des modèles pour lesquels il n'existe pas de réponse unique.

À comparer à l'évaluation automatique et à l'évaluation par l'outil d'évaluation automatique.

I

apprentissage en contexte

#language

#generativeAI

Synonyme de requête few-shot.

L

LaMDA (Language Model for Dialogue Applications)

#language

Grand modèle de langage basé sur un transformateur développé par Google et entraîné sur un grand ensemble de données de dialogue capable de générer des réponses conversationnelles réalistes.

LaMDA: notre technologie conversationnelle révolutionnaire vous en donne un aperçu.

modèle de langage

#language

Modèle qui estime la probabilité qu'un jeton ou une séquence de jetons se produise dans une séquence de jetons plus longue.

Cliquez sur l'icône pour ajouter des notes.

Bien que cela puisse sembler contre-intuitif, de nombreux modèles qui évaluent du texte ne sont pas des modèles de langage. Par exemple, les modèles de classification de texte et les modèles d'analyse des sentiments ne sont pas des modèles de langage.

Pour en savoir plus, consultez la section Qu'est-ce qu'un modèle de langage ? dans le cours d'initiation au machine learning.

grand modèle de langage

#language

Au minimum, un modèle de langage comportant un très grand nombre de paramètres. Plus familièrement, tout modèle de langage basé sur un Transformer, comme Gemini ou GPT.

Pour en savoir plus, consultez la section Grands modèles de langage (LLM) dans le cours d'initiation au machine learning.

espace latent

#language

Synonyme de espace d'embedding.

Distance Levenshtein

#language

#metric

Métrique de distance de modification qui calcule le nombre minimal d'opérations de suppression, d'insertion et de substitution nécessaires pour remplacer un mot par un autre. Par exemple, la distance de Levenshtein entre les mots "cœur" et "fléchettes" est de trois, car les trois modifications suivantes sont les moins nombreuses à transformer un mot en l'autre:

cœur → deart (remplacez "h" par "d")
deart → dart (supprimez "e")
dart → darts (insérer "s")

Notez que la séquence précédente n'est pas le seul chemin de trois modifications.

LLM

#language

#generativeAI

Abréviation de grand modèle de langage.

Évaluations des LLM (évaluations)

#language

#generativeAI

#Metric

Ensemble de métriques et de benchmarks permettant d'évaluer les performances des grands modèles de langage (LLM). De manière générale, les évaluations des LLM:

Aidez les chercheurs à identifier les domaines dans lesquels les LLM doivent être améliorés.
Ils sont utiles pour comparer différents LLM et identifier le meilleur LLM pour une tâche donnée.
Assurez-vous que les LLM sont sûrs et éthiques.

Pour en savoir plus, consultez la section Grands modèles de langage (LLM) dans le cours d'initiation au machine learning.

LoRA

#language

#generativeAI

Abréviation de adaptabilité de faible rang.

Adaptabilité à faible rang (LoRA)

#language

#generativeAI

Technique efficace en termes de paramètres pour l'ajustement fin qui "gèle" les poids pré-entraînés du modèle (de sorte qu'ils ne puissent plus être modifiés), puis insère un petit ensemble de poids enregistrables dans le modèle. Cet ensemble de poids enregistrables (également appelés "matrices de mise à jour") est considérablement plus petit que le modèle de base et est donc beaucoup plus rapide à entraîner.

LoRA offre les avantages suivants:

Améliore la qualité des prédictions d'un modèle pour le domaine où le réglage fin est appliqué.
Il effectue un ajustement plus rapide que les techniques qui nécessitent d'ajuster tous les paramètres d'un modèle.
Réduit le coût de calcul de l'inférence en permettant la diffusion simultanée de plusieurs modèles spécialisés partageant le même modèle de base.

Cliquez sur l'icône pour en savoir plus sur les matrices de mise à jour dans LoRA.

Les matrices de mise à jour utilisées dans LoRA se composent de matrices de décomposition de rang, qui sont dérivées du modèle de base pour aider à filtrer le bruit et à concentrer l'entraînement sur les caractéristiques les plus importantes du modèle.

M

modèle de langage masqué

#language

Modèle de langage qui prédit la probabilité que des jetons candidats remplissent des espaces vides dans une séquence. Par exemple, un modèle de langage masqué peut calculer les probabilités des mots candidats pour remplacer le texte souligné dans la phrase suivante:

Le ____ dans le chapeau est revenu.

La littérature utilise généralement la chaîne "MASK" au lieu d'un trait de soulignement. Exemple :

Le mot "MASK" (MASQUE) est revenu dans le chapeau.

La plupart des modèles de langage masqués modernes sont bidirectionnels.

Précision moyenne à k (mAP@k)

#language

#generativeAI

#Metric

Moyenne statistique de tous les scores de précision moyenne à k dans un ensemble de données de validation. L'une des utilisations de la précision moyenne à k est d'évaluer la qualité des recommandations générées par un système de recommandation.

Bien que l'expression "moyenne moyenne" semble redondante, le nom de la métrique est approprié. Après tout, cette métrique calcule la moyenne de plusieurs valeurs de précision moyenne à k.

Cliquez sur l'icône pour voir un exemple.

Supposons que vous conceviez un système de recommandation qui génère une liste personnalisée de romans recommandés pour chaque utilisateur. Sur la base des commentaires d'utilisateurs sélectionnés, vous calculez les cinq précisions moyennes suivantes pour les scores k (un score par utilisateur):

0.73
0,77
0,67
0.82
0.76

La précision moyenne moyenne à K est donc:

$$\text{mean } = \frac{\text{0.73 + 0.77 + 0.67 + 0.82 + 0.76}} {\text{5}} = \text{0.75}$$

méta-apprentissage

#language

Sous-ensemble du machine learning qui découvre ou améliore un algorithme d'apprentissage. Un système de méta-apprentissage peut également viser à entraîner un modèle pour qu'il apprenne rapidement une nouvelle tâche à partir d'une petite quantité de données ou de l'expérience acquise lors de tâches précédentes. Les algorithmes de méta-apprentissage tentent généralement d'atteindre les objectifs suivants:

Améliorer ou apprendre des fonctionnalités conçues manuellement (telles qu'un initialiseur ou un optimiseur)
Améliorez l'efficacité des données et des calculs.
Améliorer la généralisation

Le méta-apprentissage est lié à l'apprentissage few-shot.

mélange d'experts

#language

#generativeAI

Méthode permettant d'augmenter l'efficacité d'un réseau de neurones en n'utilisant qu'un sous-ensemble de ses paramètres (appelé expert) pour traiter un jeton ou un exemple d'entrée donné. Un réseau de filtrage achemine chaque jeton d'entrée ou exemple vers le ou les experts appropriés.

Pour en savoir plus, consultez l'un des articles suivants:

MMIT

#language

#image

#generativeAI

Abréviation de multimodal instruction-tuned (multimodal tuned instruction).

modality

#language

Catégorie de données de haut niveau. Par exemple, les nombres, le texte, les images, les vidéos et l'audio sont cinq modalités différentes.

parallélisme de modèle

#language

Méthode permettant de faire évoluer l'entraînement ou l'inférence en répartissant les différentes parties d'un modèle sur différents appareils. Le parallélisme des modèles permet d'utiliser des modèles trop volumineux pour être traités par un seul appareil.

Pour implémenter le parallélisme de modèle, un système procède généralement comme suit:

Il divise le modèle en parties plus petites.
Répartit l'entraînement de ces petites parties sur plusieurs processeurs. Chaque processeur entraîne sa propre partie du modèle.
Combine les résultats pour créer un seul modèle.

Le parallélisme des modèles ralentit l'entraînement.

Voir également le parallélisme de données.

ME

#language

#image

#generativeAI

Abréviation de mélange d'experts.

auto-attention multi-tête

#language

Extension de l'auto-attention qui applique le mécanisme d'auto-attention plusieurs fois pour chaque position de la séquence d'entrée.

Les modèles Transformer ont introduit l'auto-attention multitête.

multimodal instruction-tuned

#language

Modèle adapté aux instructions capable de traiter des entrées autres que du texte, telles que des images, des vidéos et des contenus audio.

modèle multimodal

#language

Modèle dont les entrées, les sorties ou les deux incluent plusieurs modalités. Prenons l'exemple d'un modèle qui utilise à la fois une image et un sous-titre textuel (deux modalités) comme caractéristiques, et qui génère un score indiquant dans quelle mesure le sous-titre textuel est approprié pour l'image. Les entrées de ce modèle sont donc multimodales et la sortie est unimodale.

N

traitement du langage naturel

#language

Domaine qui consiste à apprendre aux ordinateurs à traiter ce qu'un utilisateur a dit ou saisi à l'aide de règles linguistiques. Presque tout le traitement du langage naturel moderne repose sur le machine learning.

compréhension du langage naturel

#language

Sous-ensemble du traitement du langage naturel qui détermine les intentions d'une déclaration ou d'une saisie. La compréhension du langage naturel peut aller au-delà du traitement du langage naturel pour prendre en compte des aspects complexes du langage, comme le contexte, le sarcasme et le sentiment.

N-gramme

#seq

#language

Séquence ordonnée de N mots. Par exemple, vraiment follement est un 2-grammes. L'ordre a une importance : follement vraiment est un 2-grammes différent de vraiment follement.

N	Nom(s) pour ce genre de N-gramme	Exemples
2	bigramme ou 2-gramme	to go, go to, eat lunch, eat dinner
3	trigramme ou 3-gramme	ate too much, happily ever after, the bell tolls
4	4-gramme	walk in the park, dust in the wind, the boy ate lentils

De nombreux modèles de compréhension du langage naturel reposent sur les N-grammes pour prédire le prochain mot que l'utilisateur saisira ou énoncera. Supposons qu'un utilisateur ait saisi happily ever. Un modèle NLU basé sur des trigrammes prédira probablement que l'utilisateur saisira ensuite le mot après.

Faire la distinction entre les N-grammes et les sacs de mots, qui sont des listes de mots non ordonnées.

Pour en savoir plus, consultez la section Grands modèles de langage dans le cours d'initiation au machine learning.

NLP

#language

Abréviation de traitement du langage naturel.

NLU (Natural Language Understanding, compréhension du langage naturel) - 1st occurrence only, then use "NLU".

#language

Abréviation de compréhension du langage naturel.

pas de réponse unique (NORA)

#language

#generativeAI

Invite avec plusieurs réponses appropriées. Par exemple, la requête suivante n'a pas de réponse unique:

Raconte-moi une blague sur les éléphants.

L'évaluation des invites sans bonne réponse peut s'avérer difficile.

NORA

#language

#generativeAI

Abréviation de pas de bonne réponse unique.

O

requêtes one-shot

#language

#generativeAI

Une invite contenant un exemple montrant comment le grand modèle de langage doit répondre. Par exemple, l'invite suivante contient un exemple montrant à un grand modèle de langage comment répondre à une requête.

Composants d'une requête	Remarques
`Quelle est la devise officielle du pays spécifié ?`	La question à laquelle vous souhaitez que le LLM réponde.
`France: EUR`	Voici un exemple.
`Inde:`	Requête réelle.

Comparez la invite ponctuelle aux termes suivants:

Requêtes zero-shot
requêtes few-shot

P

Réglage des paramètres avec optimisation

#language

#generativeAI

Ensemble de techniques permettant d'affiner un grand modèle de langage pré-entraîné (PLM) plus efficacement que l'affinage complet. L'optimisation des paramètres affine généralement beaucoup moins de paramètres que l'affinage complet, mais produit généralement un grand modèle de langage qui fonctionne aussi bien (ou presque) qu'un grand modèle de langage créé à partir d'un affinage complet.

Comparez et contrastez le réglage des paramètres avec optimisation avec:

Le réglage des paramètres avec optimisation est également appelé optimisation du réglage des paramètres.

pipeline

#language

Forme de parallélisme de modèle dans laquelle le traitement d'un modèle est divisé en étapes consécutives, et chaque étape est exécutée sur un appareil différent. Pendant qu'une étape traite un lot, l'étape précédente peut travailler sur le lot suivant.

Voir également entraînement par étapes.

PLM

#language

#generativeAI

Abréviation de modèle de langage pré-entraîné.

encodage en position

#language

Technique permettant d'ajouter des informations sur la position d'un jeton dans une séquence à l'encapsulation du jeton. Les modèles Transformer utilisent l'encodage de position pour mieux comprendre la relation entre les différentes parties de la séquence.

Une implémentation courante de l'encodage de position utilise une fonction sinusoïdale. (Plus précisément, la fréquence et l'amplitude de la fonction sinusoïdale sont déterminées par la position du jeton dans la séquence.) Cette technique permet à un modèle Transformer d'apprendre à s'intéresser à différentes parties de la séquence en fonction de leur position.

modèle post-entraîné

#language

#image

#generativeAI

Terme vaguement défini qui désigne généralement un modèle pré-entraîné ayant subi un post-traitement, tel qu'un ou plusieurs des éléments suivants:

Précision à k (precision@k)

#language

#Metric

Métrique permettant d'évaluer une liste d'éléments classés (triés). La précision à k identifie la fraction des premiers k éléments de cette liste qui sont "pertinents". Par exemple :

\[\text{precision at k} = \frac{\text{relevant items in first k items of the list}} {\text{k}}\]

La valeur de k doit être inférieure ou égale à la longueur de la liste renvoyée. Notez que la longueur de la liste renvoyée n'est pas prise en compte dans le calcul.

La pertinence est souvent subjective. Même les évaluateurs humains experts sont souvent en désaccord sur les éléments pertinents.

Comparer avec :

précision moyenne à k
précision moyenne à k

Cliquez sur l'icône pour voir un exemple.

Supposons qu'un grand modèle de langage reçoive la requête suivante:

List the 6 funniest movies of all time in order.

Le grand modèle de langage renvoie la liste affichée dans les deux premières colonnes du tableau suivant:

Position	Film	Est-elle pertinente ?
1	The General	Oui
2	Mean Girls	Oui
3	Un beau dimanche	Non
4	Avatar	Oui
5	Citizen Kane	Non
6	This is Spinal Tap	Oui

Deux des trois premiers films sont pertinents. La précision à trois est donc la suivante:

$$\text{precision at 3} = \frac{\text{2}} {\text{3}} = 0.67$$

Quatre des cinq premiers films sont très drôles. La précision à 5 est donc la suivante:

$$\text{precision at 5} = \frac{\text{4}} {\text{5}} = 0.8$$

modèle pré-entraîné

#language

#image

#generativeAI

Il s'agit généralement d'un modèle qui a déjà été entraîné. Le terme peut également désigner un vecteur d'encapsulation précédemment entraîné.

Le terme modèle de langage pré-entraîné désigne généralement un grand modèle de langage déjà entraîné.

pré-entraînement

#language

#image

#generativeAI

Entraînement initial d'un modèle sur un grand ensemble de données. Certains modèles pré-entraînés sont des géants maladroits et doivent généralement être affinés par un entraînement supplémentaire. Par exemple, les experts en ML peuvent pré-entraîner un grand modèle de langage sur un vaste ensemble de données textuelles, comme toutes les pages en anglais de Wikipédia. Après le pré-entraînement, le modèle obtenu peut être affiné à l'aide de l'une des techniques suivantes:

distillation
ajustement
réglage des instructions
Réglage des paramètres avec optimisation
prompt-tuning

requête

#language

#generativeAI

Tout texte saisi en entrée d'un grand modèle de langage pour conditionner le modèle à se comporter d'une certaine manière. Les requêtes peuvent être aussi courtes qu'une phrase ou aussi longues que vous le souhaitez (par exemple, le texte complet d'un roman). Les requêtes se répartissent en plusieurs catégories, y compris celles indiquées dans le tableau suivant:

Catégorie de requête	Exemple	Remarques
Question	`À quelle vitesse un pigeon peut-il voler ?`
Instruction	`Écris un poème amusant sur l'arbitrage.`	Requête demandant au grand modèle de langage de faire quelque chose.
Exemple	`Traduire le code Markdown en HTML Exemple : Markdown: * élément de liste HTML: <ul> <li>élément de liste</li> </ul>`	La première phrase de cet exemple d'invite est une instruction. Le reste de la requête est l'exemple.
Rôle	`Expliquez pourquoi la descente de gradient est utilisée dans l'entraînement de machine learning à un doctorat en physique.`	La première partie de la phrase est une instruction. La phrase "un doctorat en physique" correspond à la partie du rôle.
Entrée partielle que le modèle doit compléter	`Le Premier ministre du Royaume-Uni réside à`	Une invite d'entrée partielle peut se terminer brusquement (comme dans cet exemple) ou se terminer par un trait de soulignement.

Un modèle d'IA générative peut répondre à une requête avec du texte, du code, des images, des représentations vectorielles continues, des vidéos… presque n'importe quoi.

apprentissage basé sur des requêtes

#language

#generativeAI

Capacité de certains modèles qui leur permet d'adapter leur comportement en réponse à une entrée de texte arbitraire (invites). Dans un paradigme d'apprentissage basé sur des requêtes, un grand modèle de langage répond à une requête en générant du texte. Par exemple, supposons qu'un utilisateur saisisse la requête suivante:

Résumez la troisième loi du mouvement de Newton.

Un modèle capable d'apprendre à partir d'invites n'est pas spécifiquement entraîné pour répondre à l'invite précédente. Le modèle "sait" plutôt beaucoup de choses sur la physique, les règles générales du langage et ce qui constitue des réponses généralement utiles. Ces connaissances sont suffisantes pour fournir une réponse (espérons-le) utile. Des commentaires humains supplémentaires ("Cette réponse était trop compliquée" ou "Qu'est-ce qu'une réaction ?") permettent à certains systèmes d'apprentissage basés sur des invites d'améliorer progressivement l'utilité de leurs réponses.

conception de requête

#language

#generativeAI

Synonyme de ingénierie des requêtes.

prompt engineering

#language

#generativeAI

Art de créer des requêtes qui suscitent les réponses souhaitées d'un grand modèle de langage. Les humains effectuent une ingénierie rapide. Pour obtenir des réponses utiles à partir d'un grand modèle de langage, il est essentiel de rédiger des requêtes bien structurées. L'ingénierie des requêtes dépend de nombreux facteurs, parmi lesquels:

Ensemble de données utilisé pour pré-entraîner et éventuellement affiner le grand modèle de langage.
La température et d'autres paramètres de décodage que le modèle utilise pour générer des réponses.

La conception d'invites est synonyme d'ingénierie des requêtes.

Pour en savoir plus sur la rédaction de requêtes utiles, consultez la section Présentation de la conception de requête.

réglage des requêtes

#language

#generativeAI

Mécanisme de réglage des paramètres avec optimisation qui apprend un "préfixe" que le système ajoute au message d'invite réel.

Une variante du réglage des requêtes (parfois appelée réglage du préfixe) consiste à ajouter le préfixe à chaque couche. En revanche, la plupart des réglages d'invite n'ajoutent qu'un préfixe à la couche d'entrée.

Cliquez sur l'icône pour en savoir plus sur les préfixes.

Pour l'ajustement de la requête, le "préfixe" (également appelé "invite douce") est un petit nombre de vecteurs appris, spécifiques à la tâche, ajoutés au début des représentations vectorielles continues du jeton de texte de la requête réelle. Le système apprend l'invite douce en bloquant tous les autres paramètres du modèle et en effectuant un affinage sur une tâche spécifique.

R

rappel à k (recall@k)

#language

#Metric

Métrique permettant d'évaluer les systèmes qui génèrent une liste d'éléments classés (triés). Le rappel à k identifie la fraction d'éléments pertinents dans les k premiers éléments de cette liste par rapport au nombre total d'éléments pertinents renvoyés.

\[\text{recall at k} = \frac{\text{relevant items in first k items of the list}} {\text{total number of relevant items in the list}}\]

À comparer à la précision à k.

Cliquez sur l'icône pour voir un exemple.

Supposons qu'un grand modèle de langage reçoive la requête suivante:

List the 10 funniest movies of all time in order.

Le grand modèle de langage renvoie la liste affichée dans les deux premières colonnes:

Position	Film	Est-elle pertinente ?
1	The General	Oui
2	Mean Girls	Oui
3	Un beau dimanche	Non
4	Avatar	Oui
5	This is Spinal Tap	Oui
6	Avion !	Oui
7	Un jour sans fin	Oui
8	Monty Python and the Holy Grail	Oui
9	Oppenheimer	Non
10	Clueless	Oui

Huit des films de la liste précédente sont très drôles. Il s'agit donc d'éléments pertinents dans la liste. Par conséquent, 8 sera le dénominateur de tous les calculs de rappel à k. Qu'en est-il du dénominateur ? Trois des quatre premiers éléments sont pertinents. Le rappel à 4 est donc le suivant:

$$\text{recall at 4} = \frac{\text{3}} {\text{8}} = 0.375$$

Sept des huit premiers films sont très drôles. Le rappel à huit est donc le suivant:

$$\text{recall at 8} = \frac{\text{7}} {\text{8}} = 0.875$$

texte de référence

#language

#generativeAI

Réponse d'un expert à une invite. Par exemple, avec l'invite suivante:

Traduire la question "Quel est votre nom ?" de l'anglais vers le français.

Voici ce qu'un expert pourrait répondre:

Comment vous appelez-vous ?

Diverses métriques (telles que ROUGE) mesurent le degré de correspondance entre le texte de référence et le texte généré d'un modèle de ML.

invite de rôle

#language

#generativeAI

Partie facultative d'une requête qui identifie une audience cible pour la réponse d'un modèle d'IA générative. Sans requête de rôle, un grand modèle de langage fournit une réponse qui peut ou non être utile à la personne qui pose les questions. Avec une requête de rôle, un grand modèle de langage peut répondre de manière plus appropriée et plus utile pour une audience cible spécifique. Par exemple, la partie de l'invite de rôle des requêtes suivantes est en gras:

Résume ce document pour un doctorat en économie.
Expliquez le fonctionnement des marées à un enfant de 10 ans.
Expliquez la crise financière de 2008. Parlez comme vous le feriez avec un jeune enfant ou un golden retriever.

ROUGE (Recall-Oriented Understudy for Gisting Evaluation)

#language

#Metric

Famille de métriques qui évaluent les modèles de résumé automatique et de traduction automatique. Les métriques ROUGE déterminent le degré de chevauchement d'un texte de référence avec le texte généré d'un modèle de ML. Chaque membre de la famille ROUGE mesure le chevauchement d'une manière différente. Plus le score ROUGE est élevé, plus le texte généré est semblable au texte de référence.

Chaque membre de la famille ROUGE génère généralement les métriques suivantes:

Précision
Rappel
F₁

Pour en savoir plus et obtenir des exemples, consultez les pages suivantes:

ROUGE-L
ROUGE-N
ROUGE-S

ROUGE-L

#language

#Metric

Un membre de la famille ROUGE s'est concentré sur la longueur de la sous-séquence commune la plus longue dans le texte de référence et le texte généré. Les formules suivantes calculent le rappel et la précision pour ROUGE-L:

$$\text{ROUGE-L recall} = \frac{\text{longest common sequence}} {\text{number of words in the reference text} }$$

$$\text{ROUGE-L precision} = \frac{\text{longest common sequence}} {\text{number of words in the generated text} }$$

Vous pouvez ensuite utiliser F₁ pour regrouper le rappel ROUGE-L et la précision ROUGE-L dans une seule métrique:

$$\text{ROUGE-L F} {_1} = \frac{\text{2} * \text{ROUGE-L recall} * \text{ROUGE-L precision}} {\text{ROUGE-L recall} + \text{ROUGE-L precision} }$$

Cliquez sur l'icône pour voir un exemple de calcul de ROUGE-L.

Examinez le texte de référence et le texte généré suivants.

Catégorie	Qui a produit ?	Texte
Texte de référence	Traducteur humain	Je veux comprendre un grand nombre de choses.
Texte généré	Modèle de ML	Je veux apprendre beaucoup de choses.

Par conséquent :

La sous-séquence commune la plus longue est de 5 caractères (I want to of things)
Le texte de référence contient neuf mots.
Le nombre de mots dans le texte généré est de sept.

Par conséquent:

$$\text{ROUGE-L recall} = \frac{\text{5}} {\text{9} } = 0.56$$

$$\text{ROUGE-L precision} = \frac{\text{5}} {\text{7} } = 0.71$$

$$\text{ROUGE-L F} {_1} = \frac{\text{2} * \text{0.56} * \text{0.71}} {\text{0.56} + \text{0.71} } = 0.63$$

ROUGE-L ignore les sauts de ligne dans le texte de référence et le texte généré. Par conséquent, la sous-séquence commune la plus longue peut s'étendre sur plusieurs phrases. Lorsque le texte de référence et le texte généré comportent plusieurs phrases, une variante de ROUGE-L appelée ROUGE-Lsum est généralement une meilleure métrique. ROUGE-Lsum détermine la plus longue sous-séquence commune pour chaque phrase d'un passage, puis calcule la moyenne de ces sous-séquences communes.

Cliquez sur l'icône pour voir un exemple de calcul de ROUGE-Lsum.

Examinez le texte de référence et le texte généré suivants.

Catégorie	Qui a produit ?	Texte
Texte de référence	Traducteur humain	La surface de Mars est sèche. Presque toute l'eau se trouve profondément sous terre.
Texte généré	Modèle de ML	La surface de Mars est sèche. Cependant, la grande majorité de l'eau se trouve sous terre.

Par conséquent :

	Première phrase	Deuxième phrase
Séquence commune la plus longue	2 (Mars dry)	3 (l'eau est souterraine)
Longueur des phrases du texte de référence	6	7
Longueur des phrases du texte généré	5	8

Par conséquent :

$$\text{recall of first sentence} = \frac{\text{2}} {\text{6}} = 0.33 $$

$$\text{recall of second sentence} = \frac{\text{3}} {\text{7}} = 0.43 $$

$$\text{ROUGE-Lsum recall} = \frac{\text{0.33} + \text{0.43}} {\text{2}} = 0.38 $$

$$\text{precision of first sentence} = \frac{\text{2}} {\text{5}} = 0.4 $$

$$\text{precision of second sentence} = \frac{\text{3}} {\text{8}} = 0.38 $$

$$\text{ROUGE-Lsum precision} = \frac{\text{0.4} + \text{0.38}} {\text{2}} = 0.39 $$

$$\text{ROUGE-Lsum F}{_1} = \frac{\text{2} * \text{0.38} * \text{0.39}} {\text{0.38} + \text{0.39}} = 0.38 $$

ROUGE-N

#language

#Metric

Ensemble de métriques de la famille ROUGE qui compare les N-grammes partagés d'une certaine taille dans le texte de référence et le texte généré. Exemple :

ROUGE-1 mesure le nombre de jetons partagés dans le texte de référence et le texte généré.
ROUGE-2 mesure le nombre de bigrammes (2-grammes) partagés dans le texte de référence et le texte généré.
ROUGE-3 mesure le nombre de trigrammes (3-grammes) partagés dans le texte de référence et le texte généré.

Vous pouvez utiliser les formules suivantes pour calculer la précision et la récence ROUGE-N pour n'importe quel membre de la famille ROUGE-N:

$$\text{ROUGE-N recall} = \frac{\text{number of matching N-grams}} {\text{number of N-grams in the reference text} }$$

$$\text{ROUGE-N precision} = \frac{\text{number of matching N-grams}} {\text{number of N-grams in the generated text} }$$

Vous pouvez ensuite utiliser F₁ pour regrouper le rappel ROUGE-N et la précision ROUGE-N dans une seule métrique:

$$\text{ROUGE-N F}{_1} = \frac{\text{2} * \text{ROUGE-N recall} * \text{ROUGE-N precision}} {\text{ROUGE-N recall} + \text{ROUGE-N precision} }$$

Cliquez sur l'icône pour voir un exemple.

Supposons que vous décidiez d'utiliser ROUGE-2 pour mesurer l'efficacité de la traduction d'un modèle de ML par rapport à celle d'un traducteur humain.

Catégorie	Qui a produit ?	Texte	Bigrammes
Texte de référence	Traducteur humain	Je veux comprendre un grand nombre de choses.	Je veux, je veux comprendre, comprendre une, une grande, grande variété, variété de, de choses
Texte généré	Modèle de ML	Je veux apprendre beaucoup de choses.	Je veux, je veux, je veux apprendre, apprendre beaucoup, beaucoup de choses

Par conséquent :

Le nombre de bigrammes correspondants est de trois (je veux, vouloir et de choses).
Le nombre de bigrammes dans le texte de référence est de huit.
Le nombre de bigrammes dans le texte généré est de six.

Par conséquent:

$$\text{ROUGE-2 recall} = \frac{\text{3}} {\text{8} } = 0.375$$

$$\text{ROUGE-2 precision} = \frac{\text{3}} {\text{6} } = 0.5$$

$$\text{ROUGE-2 F}{_1} = \frac{\text{2} * \text{0.375} * \text{0.5}} {\text{0.375} + \text{0.5} } = 0.43$$

ROUGE-S

#language

#Metric

Forme tolérante de ROUGE-N qui permet la mise en correspondance de skip-gram. Autrement dit, ROUGE-N ne comptabilise que les n-grammes qui correspondent exactement, tandis que ROUGE-S comptabilise également les n-grammes séparés par un ou plusieurs mots. Nous vous conseillons, par exemple, de suivre les recommandations suivantes :

texte de référence: Nuages blancs
generated text: Des nuages blancs en forme de ballons

Lors du calcul de ROUGE-N, le 2-gramme nuages blancs ne correspond pas à nuages blancs en forme de volutes. Toutefois, lors du calcul de ROUGE-S, Nuages blancs correspond à Nuages blancs en forme de volutes.

S

auto-attention (également appelée couche d'auto-attention)

#language

Couche de réseau de neurones qui transforme une séquence d'embeddings (par exemple, des embeddings de jeton) en une autre séquence d'embeddings. Chaque imbrication de la séquence de sortie est construite en intégrant les informations des éléments de la séquence d'entrée via un mécanisme d'attention.

La partie auto-attention de l'auto-attention fait référence à la séquence qui s'occupe d'elle-même plutôt que d'un autre contexte. L'auto-attention est l'un des principaux composants des transformateurs et utilise la terminologie de recherche dans un dictionnaire, comme "requête", "clé" et "valeur".

Une couche d'auto-attention commence par une séquence de représentations d'entrée, une pour chaque mot. La représentation d'entrée d'un mot peut être un simple vecteur d'encapsulation. Pour chaque mot d'une séquence d'entrée, le réseau évalue la pertinence du mot par rapport à chaque élément de la séquence complète de mots. Les scores de pertinence déterminent dans quelle mesure la représentation finale du mot intègre les représentations d'autres mots.

Prenons l'exemple de la phrase suivante:

L'animal n'a pas traversé la rue, car il était trop fatigué.

L'illustration suivante (issue de Transformer: A Novel Neural Network Architecture for Language Understanding) montre le modèle d'attention d'une couche d'auto-attention pour le pronom it, l'intensité de chaque ligne indiquant dans quelle mesure chaque mot contribue à la représentation:

La phrase suivante apparaît deux fois: L'animal n'a pas traversé la rue, car il était trop fatigué. Les lignes relient le pronom "it" dans une phrase à cinq jetons ("The", "animal", "street", "it" et "the period") dans l'autre phrase. La ligne entre le pronom "il" et le mot "animal" est la plus forte.

La couche d'auto-attention met en avant les mots pertinents pour "it". Dans ce cas, la couche d'attention a appris à mettre en évidence les mots auxquels elle peut faire référence, en attribuant la pondération la plus élevée à animal.

Pour une séquence de n jetons, l'attention automatique transforme une séquence d'embeddings n fois, une fois à chaque position de la séquence.

Consultez également attention et attention auto-attentive multitête.

analyse des sentiments

#language

Utilisation d'algorithmes statistiques ou de machine learning pour déterminer l'attitude globale d'un groupe (positive ou négative) à l'égard d'un service, d'un produit, d'une organisation ou d'un sujet. Par exemple, en utilisant la compréhension du langage naturel, un algorithme pourrait effectuer une analyse des sentiments sur les commentaires textuels d'un cours universitaire afin de déterminer le degré d'appréciation des étudiants pour ce cours.

Pour en savoir plus, consultez le guide Classification du texte.

tâche de séquence à séquence

#language

Une tâche qui convertit une séquence d'entrée de jetons en séquence de jetons de sortie. Par exemple, voici deux types de tâches de séquence à séquence populaires:

Traducteurs :
- Exemple de séquence d'entrée: "Je t'aime."
- Exemple de séquence de sortie: "Je t'aime."
Systèmes de questions-réponses :
- Exemple de séquence d'entrée: "Ai-je besoin de ma voiture à New York ?"
- Exemple de séquence de sortie: "Non. Laissez votre voiture à la maison."

skip-gram

#language

N-gramme pouvant omettre (ou "sauter") des mots du contexte d'origine, ce qui signifie que les N mots n'étaient peut-être pas initialement adjacents. Plus précisément, un "k-skip-n-gram" est un n-gramme pour lequel jusqu'à k mots peuvent avoir été ignorés.

Par exemple, "the quick brown fox" présente les bigrammes suivants:

"the quick"
"quick brown"
"renard brun"

Un "1-skip-2-gram" est une paire de mots séparés par un maximum d'un mot. Par conséquent, "the quick brown fox" comporte les bigrammes à saut 1 suivants:

"the brown"
"quick fox"

De plus, tous les bigrammes sont également des bigrammes à saut unique, car un seul mot peut être ignoré.

Les skip-grams sont utiles pour mieux comprendre le contexte entourant un mot. Dans l'exemple, "renard" était directement associé à "rapide" dans l'ensemble des bigrammes à saut 1, mais pas dans l'ensemble des bigrammes.

Les skip-grams permettent d'entraîner des modèles d'embedding de mots.

réglage des requêtes douces

#language

#generativeAI

Technique permettant d'ajuster un grand modèle de langage pour une tâche spécifique, sans ajustement précis particulièrement gourmand en ressources. Au lieu de réentraîner tous les poids du modèle, l'ajustement doux de la requête ajuste automatiquement une requête pour atteindre le même objectif.

Lorsqu'une requête textuelle est fournie, le réglage de la requête douce ajoute généralement des embeddings de jetons supplémentaires à la requête et utilise la rétropropagation pour optimiser l'entrée.

Une requête "dure" contient des jetons réels au lieu d'embeddings de jetons.

caractéristique creuse

#language

#fundamentals

Élément géographique dont les valeurs sont pour la plupart nulles ou vides. Par exemple, une fonctionnalité contenant une seule valeur 1 et un million de valeurs 0 est sporadique. À l'inverse, une entité dense a des valeurs qui ne sont pas principalement nulles ou vides.

En machine learning, un nombre surprenant de caractéristiques sont des caractéristiques rares. Les caractéristiques catégorielles sont généralement des caractéristiques peu denses. Par exemple, parmi les 300 espèces d'arbres possibles dans une forêt, un seul exemple peut n'identifier qu'un érable. Ou, parmi les millions de vidéos possibles dans une bibliothèque vidéo, un seul exemple peut identifier uniquement "Casablanca".

Dans un modèle, vous représentez généralement des caractéristiques creuses avec un encodage one-hot. Si l'encodage one-hot est volumineux, vous pouvez placer une couche d'encapsulation au-dessus de l'encodage one-hot pour plus d'efficacité.

représentation creuse

#language

#fundamentals

Stocker uniquement la ou les positions des éléments non nuls dans une fonctionnalité sporadique.

Par exemple, supposons qu'une caractéristique catégorielle nommée species identifie les 36 espèces d'arbres d'une forêt donnée. Supposons en outre que chaque exemple n'identifie qu'une seule espèce.

Vous pouvez utiliser un vecteur à valeurs uniques pour représenter les espèces d'arbres dans chaque exemple. Un vecteur one-hot contiendrait un seul 1 (pour représenter l'espèce d'arbre particulière dans cet exemple) et 35 0 (pour représenter les 35 espèces d'arbres non dans cet exemple). Ainsi, la représentation one-hot de maple peut ressembler à ceci:

Vecteur dans lequel les positions 0 à 23 contiennent la valeur 0, la position 24 la valeur 1 et les positions 25 à 35 la valeur 0.

En revanche, la représentation sporadique identifie simplement la position de l'espèce en question. Si maple se trouve à la position 24, la représentation creuse de maple est simplement la suivante:

Notez que la représentation sparse est beaucoup plus compacte que la représentation one-hot.

Cliquez sur l'icône pour voir un exemple un peu plus complexe.

Supposons que chaque exemple de votre modèle doit représenter les mots (mais pas l'ordre de ces mots) dans une phrase en anglais. L'anglais comprend environ 170 000 mots. Il s'agit donc d'une caractéristique catégorielle avec environ 170 000 éléments. La plupart des phrases en anglais utilisent une fraction extrêmement faible de ces 170 000 mots. Par conséquent, l'ensemble de mots d'un seul exemple sera presque certainement des données peu denses.

Considérons la phrase suivante:

My dog is a great dog

Vous pouvez utiliser une variante du vecteur one-hot pour représenter les mots de cette phrase. Dans cette variante, plusieurs cellules du vecteur peuvent contenir une valeur non nulle. De plus, dans cette variante, une cellule peut contenir un entier autre que 1. Bien que les mots "mon", "est", "un" et "super" n'apparaissent qu'une seule fois dans la phrase, le mot "chien" apparaît deux fois. L'utilisation de cette variante de vecteurs one-hot pour représenter les mots de cette phrase donne le vecteur à 170 000 éléments suivant:

Une représentation sparse de la même phrase serait simplement la suivante:

Cliquez sur l'icône si vous avez un doute.

Le terme "représentation sparse" prête à confusion pour de nombreuses personnes, car la représentation sparse n'est pas un vecteur sparse. En réalité, la représentation creuse est une représentation dense d'un vecteur creux. Le synonyme représentation par indice est un peu plus clair que "représentation sparse".

Pour en savoir plus, consultez la section Utiliser des données catégorielles dans le cours d'initiation au machine learning.

entraînement par étapes

#language

Stratégie consistant à entraîner un modèle dans une séquence d'étapes distinctes. L'objectif peut être d'accélérer le processus d'entraînement ou d'obtenir une meilleure qualité de modèle.

Vous trouverez ci-dessous une illustration de l'approche d'empilement progressif:

L'étape 1 contient trois couches cachées, l'étape 2 contient six couches cachées et l'étape 3 contient 12 couches cachées.
L'étape 2 commence l'entraînement avec les poids appris dans les trois couches cachées de l'étape 1. L'étape 3 commence l'entraînement avec les poids appris dans les six couches cachées de l'étape 2.

Trois étapes, intitulées Étape 1, Étape 2 et Étape 3.
Chaque étape contient un nombre différent de couches: l'étape 1 contient trois couches, l'étape 2 six couches et l'étape 3 12 couches.
Les trois couches de l'étape 1 deviennent les trois premières couches de l'étape 2.
De même, les six couches de l'étape 2 deviennent les six premières couches de l'étape 3.

Voir également pipeline.

jeton de sous-mot

#language

Dans les modèles de langage, jeton qui est une sous-chaîne d'un mot, qui peut être l'ensemble du mot.

Par exemple, un mot comme "itemiser" peut être décomposé en "item" (un mot racine) et "iser" (un suffixe), chacun étant représenté par son propre jeton. En divisant les mots inhabituels en éléments tels que des sous-mots, les modèles de langage peuvent fonctionner sur les parties constituantes les plus courantes du mot, telles que les préfixes et les suffixes.

À l'inverse, les mots courants comme "aller" peuvent ne pas être divisés et être représentés par un seul jeton.

T

T5

#language

Modèle de transfert d'apprentissage texte-texte introduit par Google AI en 2020. T5 est un modèle encodeur-décodeur, basé sur l'architecture Transformer, entraîné sur un ensemble de données extrêmement volumineux. Il est efficace pour diverses tâches de traitement du langage naturel, telles que la génération de texte, la traduction de langues et la réponse à des questions de manière conversationnelle.

Le nom T5 vient des cinq T de "Text-to-Text Transfer Transformer" (transformateur de transfert texte-vers-texte).

T5X

#language

Framework de machine learning Open Source conçu pour créer et entraîner des modèles de traitement du langage naturel (TLN) à grande échelle. T5 est implémenté sur le codebase T5X (basé sur JAX et Flax).

température

#language

#image

#generativeAI

Hyperparamètre qui contrôle le degré de hasard de la sortie d'un modèle. Des températures plus élevées entraînent une sortie plus aléatoire, tandis que des températures plus basses entraînent une sortie moins aléatoire.

Le choix de la meilleure température dépend de l'application spécifique et des propriétés préférées de la sortie du modèle. Par exemple, vous augmenterez probablement la température lorsque vous créerez une application qui génère des résultats créatifs. À l'inverse, vous devriez probablement baisser la température lorsque vous créez un modèle qui classe des images ou du texte afin d'améliorer sa précision et sa cohérence.

La température est souvent utilisée avec la fonction softmax.

étendue de texte

#language

Intervalle d'indice de tableau associé à une sous-section spécifique d'une chaîne de texte. Par exemple, le mot good dans la chaîne Python s="Be good now" occupe la plage de texte de 3 à 6.

jeton

#language

Dans un modèle de langage, unité atomique sur laquelle le modèle effectue l'entraînement et les prédictions. Un jeton est généralement l'un des éléments suivants:

un mot : par exemple, l'expression "chiens aiment les chats" se compose de trois jetons de mot : "chiens", "aiment" et "chats".
un caractère (par exemple, l'expression "poisson vélo" se compose de neuf jetons de caractères). (Notez que l'espace vide compte comme l'un des jetons.)
sous-mots, dans lesquels un seul mot peut être un seul jeton ou plusieurs jetons. Un sous-mot se compose d'un mot racine, d'un préfixe ou d'un suffixe. Par exemple, un modèle de langage qui utilise des sous-mots comme jetons peut considérer le mot "chiens" comme deux jetons (le mot racine "chien" et le suffixe au pluriel "s"). Ce même modèle de langage peut considérer le mot unique "plus grand" comme deux sous-mots (le mot racine "grand" et le suffixe "er").

Dans les domaines autres que les modèles de langage, les jetons peuvent représenter d'autres types d'unités atomiques. Par exemple, dans les applications de vision par ordinateur, un jeton peut être un sous-ensemble d'une image.

Pour en savoir plus, consultez la section Grands modèles de langage dans le cours d'initiation au machine learning.

Précision top-k

#language

#Metric

Pourcentage de fois où un "libellé cible" apparaît dans les premières k positions des listes générées. Il peut s'agir de recommandations personnalisées ou d'une liste d'éléments triés par softmax.

La précision top-k est également appelée précision à k.

Cliquez sur l'icône pour voir un exemple.

Prenons l'exemple d'un système de machine learning qui utilise la fonction softmax pour identifier les probabilités d'arbres à partir d'une image de feuilles d'arbre. Le tableau suivant présente les listes de sortie générées à partir de cinq images d'arbres d'entrée. Chaque ligne contient une étiquette cible et les cinq arbres les plus probables. Par exemple, lorsque l'étiquette cible était érable, le modèle de machine learning a identifié frêne comme étant l'arbre le plus probable, chêne comme étant le deuxième arbre le plus probable, etc.

Étiquette de la cible	1	2	3	4	5
érable	orme	chêne	érable	hêtre	peuplier
cornouiller	chêne	cornouiller	peuplier	Hickory	érable
chêne	chêne	tilleul	criquet	aulne	Linden
Linden	érable	papaye	chêne	tilleul	peuplier
chêne	criquet	Linden	chêne	érable	papaye

Le libellé cible n'apparaît qu'une seule fois à la première position. La précision de la première position est donc la suivante:

$$\text{top-1 accuracy} = \frac{\text{1}} {\text{5}} = 0.2$$

Le libellé cible apparaît quatre fois dans l'une des trois premières positions. La précision des trois premières positions est donc la suivante:

$$\text{top-1 accuracy} = \frac{\text{4}} {\text{5}} = 0.8$$

toxique

#language

#Metric

Le degré d'abus, de menace ou d'incitation à la haine du contenu De nombreux modèles de machine learning peuvent identifier et mesurer la toxicité. La plupart de ces modèles identifient la toxicité en fonction de plusieurs paramètres, tels que le niveau de langage abusif et le niveau de langage menaçant.

Transformer

#language

Architecture de réseau de neurones développée chez Google, qui repose sur des mécanismes d'attention sélective pour transformer une séquence d'embeddings d'entrée en séquence d'embeddings de sortie sans s'appuyer sur des convolutions ni sur des réseaux de neurones récurrents. Un Transformer peut être considéré comme une pile de couches d'auto-attention.

Un transformateur peut inclure l'un des éléments suivants:

un encodeur
un décodeur
un encodeur et un décodeur

Un encodeur transforme une séquence d'embeddings en une nouvelle séquence de la même longueur. Un encodeur comprend N couches identiques, chacune contenant deux sous-couches. Ces deux sous-couches sont appliquées à chaque position de la séquence d'encapsulation d'entrée, transformant chaque élément de la séquence en un nouvel encapsulage. La première sous-couche de l'encodeur agrège les informations de la séquence d'entrée. La deuxième sous-couche de l'encodeur transforme les informations agrégées en un vecteur d'encapsulation de sortie.

Un décodeur transforme une séquence d'embeddings d'entrée en une séquence d'embeddings de sortie, éventuellement de longueur différente. Un décodeur comprend également N couches identiques avec trois sous-couches, dont deux sont similaires aux sous-couches de l'encodeur. La troisième sous-couche du décodeur prend la sortie de l'encodeur et applique le mécanisme d'auto-attention pour en extraire des informations.

L'article de blog Transformer: une nouvelle architecture de réseau de neurones pour la compréhension du langage fournit une bonne introduction aux Transformers.

Pour en savoir plus, consultez LLM: qu'est-ce qu'un grand modèle de langage ? dans le cours d'initiation au machine learning.

trigramme

#seq

#language

Un N-gramme dans lequel N=3.

U

unidirectionnel

#language

Système qui n'évalue que le texte qui précède une section cible de texte. À l'inverse, un système bidirectionnel évalue à la fois le texte qui précède et suit une section cible de texte. Pour en savoir plus, consultez la section bidirectionnel.

modèle de langage unidirectionnel

#language

Modèle de langage qui ne base ses probabilités que sur les jetons qui apparaissent avant, et non après, le ou les jetons cibles. À comparer au modèle de langage bidirectionnel.

V

un auto-encodeur variationnel (VAE) ;

#language

Type d'autoencodeur qui exploite la divergence entre les entrées et les sorties pour générer des versions modifiées des entrées. Les auto-encodeurs variationnels sont utiles pour l'IA générative.

Les VAEs sont basés sur l'inférence variationnelle, une technique permettant d'estimer les paramètres d'un modèle de probabilité.

W

embedding lexical

#language

Représentation de chaque mot d'un ensemble de mots dans un vecteur d'encapsulation, c'est-à-dire représentation de chaque mot sous la forme d'un vecteur de valeurs à virgule flottante comprises entre 0,0 et 1,0. Les mots ayant des significations similaires ont des représentations plus similaires que les mots ayant des significations différentes. Par exemple, les carottes, le céleri et les concombres ont des représentations relativement similaires, qui sont très différentes de celles d'un avion, de lunettes de soleil et de dentifrice.

Z

requêtes zero-shot

#language

#generativeAI

Une requête qui ne fournit pas d'exemple de la façon dont vous souhaitez que le grand modèle de langage réponde. Exemple :

Composants d'une requête	Remarques
`Quelle est la devise officielle du pays spécifié ?`	La question à laquelle vous souhaitez que le LLM réponde.
`Inde:`	Requête réelle.

Le grand modèle de langage peut répondre par l'une des réponses suivantes:

Roupie
INR
₹
Roupie indienne
La roupie
Roupie indienne

Toutes les réponses sont correctes, mais vous pouvez préférer un format particulier.

Comparez les invites sans entraînement aux termes suivants:

requêtes one-shot
requêtes few-shot