Cette page contient des termes du glossaire des métriques. Pour consulter tous les termes du glossaire, cliquez ici.
A
accuracy
Nombre de prédictions de classification correctes divisé par le nombre total de prédictions. Par exemple :
Par exemple, un modèle qui a effectué 40 prédictions correctes et 10 prédictions incorrectes aurait une précision de :
La classification binaire fournit des noms spécifiques pour les différentes catégories de prédictions correctes et de prédictions incorrectes. La formule de précision pour la classification binaire est la suivante :
où :
- VP correspond au nombre de vrais positifs (prédictions correctes).
- TN correspond au nombre de vrais négatifs (prédictions correctes).
- FP correspond au nombre de faux positifs (prédictions incorrectes).
- FN correspond au nombre de faux négatifs (prédictions incorrectes).
Comparer et opposer la justesse à la précision et au rappel.
Pour en savoir plus, consultez Classification : précision, rappel, exactitude et métriques associées dans le Cours d'initiation au Machine Learning.
aire sous la courbe de précision/rappel
Consultez AUC PR (aire sous la courbe de précision/rappel).
aire sous la courbe ROC
Consultez AUC (aire sous la courbe ROC).
AUC (aire sous la courbe ROC)
Nombre compris entre 0,0 et 1,0 représentant la capacité d'un modèle de classification binaire à séparer les classes positives des classes négatives. Plus l'AUC est proche de 1,0, plus le modèle est performant pour séparer les classes les unes des autres.
Par exemple, l'illustration suivante montre un modèle de classification qui sépare parfaitement les classes positives (ovales verts) des classes négatives (rectangles violets). Ce modèle parfait et irréaliste a une AUC de 1,0 :
À l'inverse, l'illustration suivante montre les résultats d'un modèle de classification qui a généré des résultats aléatoires. Ce modèle a une AUC de 0,5 :
Oui, le modèle précédent a une AUC de 0,5, et non de 0.
La plupart des modèles se situent entre ces deux extrêmes. Par exemple, le modèle suivant sépare plus ou moins les positifs des négatifs et présente donc une AUC comprise entre 0,5 et 1,0 :
L'AUC ignore toute valeur que vous définissez pour classification threshold. En revanche, l'AUC prend en compte tous les seuils de classification possibles.
Pour en savoir plus, consultez Classification : ROC et AUC dans le Cours d'initiation au machine learning.
précision moyenne à k
Métrique permettant de résumer les performances d'un modèle sur une seule invite qui génère des résultats classés, comme une liste numérotée de recommandations de livres. La précision moyenne à k correspond à la moyenne des valeurs de précision à k pour chaque résultat pertinent. La formule de la précision moyenne à k est donc la suivante :
\[{\text{average precision at k}} = \frac{1}{n} \sum_{i=1}^n {\text{precision at k for each relevant item} } \]
où :
- \(n\) correspond au nombre d'éléments pertinents dans la liste.
À comparer au rappel à k.
B
Valeur de référence
Modèle utilisé comme point de référence pour comparer les performances d'un autre modèle (généralement plus complexe). Par exemple, un modèle de régression logistique peut servir de bonne référence pour un modèle profond.
Pour un problème donné, la référence aide les développeurs de modèles à quantifier les performances minimales attendues qu'un nouveau modèle doit atteindre pour être utile.
Questions booléennes (BoolQ)
Ensemble de données permettant d'évaluer la capacité d'un LLM à répondre à des questions par "oui" ou "non". Chacun des défis de l'ensemble de données comporte trois éléments :
- Une requête
- Passage impliquant la réponse à la requête.
- La bonne réponse, qui est oui ou non.
Exemple :
- Requête : Y a-t-il des centrales nucléaires dans le Michigan ?
- Extrait : …trois centrales nucléaires fournissent environ 30 % de l'électricité du Michigan.
- Bonne réponse : Oui
Les chercheurs ont recueilli les questions à partir de requêtes de recherche Google anonymisées et agrégées, puis ont utilisé les pages Wikipédia pour ancrer les informations.
Pour en savoir plus, consultez BoolQ : Exploring the Surprising Difficulty of Natural Yes/No Questions.
BoolQ est un composant de l'ensemble SuperGLUE.
BoolQ
Abréviation de Boolean Questions (questions booléennes).
C
CB
Abréviation de CommitmentBank.
Score F de N-grammes de caractères (ChrF)
Métrique permettant d'évaluer les modèles de traduction automatique. Le score F des n-grammes de caractères détermine le degré de chevauchement des n-grammes dans le texte de référence avec les n-grammes dans le texte généré d'un modèle de ML.
Le score F de n-grammes de caractères est semblable aux métriques des familles ROUGE et BLEU, sauf que :
- Le score F des n-grammes de caractères fonctionne sur les n-grammes de caractères.
- ROUGE et BLEU fonctionnent sur des N-grammes de mots ou des jetons.
Choix d'alternatives plausibles (COPA)
Ensemble de données permettant d'évaluer la capacité d'un LLM à identifier la meilleure réponse parmi deux réponses alternatives à une hypothèse. Chacun des défis de l'ensemble de données se compose de trois éléments :
- Une hypothèse, qui est généralement une affirmation suivie d'une question
- Deux réponses possibles à la question posée dans le postulat, dont l'une est correcte et l'autre incorrecte
- La bonne réponse
Exemple :
- Hypothèse : l'homme s'est cassé un orteil. Quelle était la CAUSE de ce problème ?
- Réponses possibles :
- Il a un trou dans sa chaussette.
- Il s'est fait tomber un marteau sur le pied.
- Bonne réponse : 2
COPA est un composant de l'ensemble SuperGLUE.
CommitmentBank (CB)
Ensemble de données permettant d'évaluer la capacité d'un LLM à déterminer si l'auteur d'un passage croit en une clause cible dans ce passage. Chaque entrée de l'ensemble de données contient les éléments suivants :
- Un extrait
- Une clause cible dans ce passage
- Valeur booléenne indiquant si l'auteur du passage croit en la clause cible.
Exemple :
- Extrait : Quel plaisir d'entendre Artemis rire. Elle est tellement sérieuse. Je ne savais pas qu'elle avait de l'humour.
- Clause cible : elle avait le sens de l'humour
- Booléen : "True", ce qui signifie que l'auteur croit en la clause cible.
CommitmentBank est un composant de l'ensemble SuperGLUE.
COPA
Abréviation de Choice of Plausible Alternatives (choix d'alternatives plausibles).
coût
Synonyme de perte.
équité contrefactuelle
Une métrique d'équité qui vérifie si un modèle de classification produit le même résultat pour une personne que pour une autre qui lui est identique, sauf en ce qui concerne un ou plusieurs attributs sensibles. L'évaluation d'un modèle de classification pour l'équité contrefactuelle est une méthode permettant d'identifier les sources potentielles de biais dans un modèle.
Pour en savoir plus, consultez les ressources suivantes :
- Équité : équité contrefactuelle dans le cours d'initiation au machine learning
- Quand les mondes se rencontrent : intégrer différentes hypothèses contrefactuelles dans l'équité
entropie croisée
Généralisation de la perte logistique aux problèmes de classification à classes multiples. L'entropie croisée quantifie la différence entre deux distributions de probabilité. Voir aussi perplexité.
fonction de distribution cumulative (CDF)
Fonction qui définit la fréquence des échantillons inférieurs ou égaux à une valeur cible. Par exemple, considérons une distribution normale de valeurs continues. Une CDF vous indique qu'environ 50 % des échantillons doivent être inférieurs ou égaux à la moyenne et qu'environ 84 % des échantillons doivent être inférieurs ou égaux à un écart-type au-dessus de la moyenne.
D
parité démographique
Une métrique d'équité qui est satisfaite si les résultats de la classification d'un modèle ne dépendent pas d'un attribut sensible donné.
Par exemple, si les Lilliputiens et les Brobdingnags postulent à l'université de Glubbdubdrib, la parité démographique est atteinte si le pourcentage de Lilliputiens admis est le même que celui des Brobdingnags, que l'un des groupes soit en moyenne plus qualifié que l'autre ou non.
À l'inverse de l'égalité des chances et de l'égalité des opportunités, qui autorisent les résultats de classification agrégés à dépendre des attributs sensibles, mais pas les résultats de classification pour certains libellés de vérité terrain spécifiés. Consultez "Attacking discrimination with smarter machine learning" (Lutter contre la discrimination grâce à un machine learning plus intelligent) pour une visualisation explorant les compromis lors de l'optimisation pour la parité démographique.
Pour en savoir plus, consultez Équité : parité démographique dans le Cours d'initiation au Machine Learning.
E
Distance Earth Mover (EMD)
Mesure de la similarité relative de deux distributions. Plus la distance de déplacement de la Terre est faible, plus les distributions sont similaires.
distance d'édition
Mesure de la similarité entre deux chaînes de texte. Dans le machine learning, la distance d'édition est utile pour les raisons suivantes :
- La distance d'édition est facile à calculer.
- La distance d'édition peut comparer deux chaînes connues pour être similaires.
- La distance d'édition peut déterminer le degré de similarité entre différentes chaînes et une chaîne donnée.
Il existe plusieurs définitions de la distance d'édition, chacune utilisant des opérations de chaîne différentes. Pour obtenir un exemple, consultez Distance de Levenshtein.
fonction de distribution empirique (FDR ou FDE)
Fonction de distribution cumulative basée sur des mesures empiriques issues d'un ensemble de données réel. La valeur de la fonction à n'importe quel point de l'axe x correspond à la fraction des observations de l'ensemble de données qui sont inférieures ou égales à la valeur spécifiée.
entropie
Dans la théorie de l'information, l'entropie est une description du degré d'imprévisibilité d'une distribution de probabilité. Elle est également définie comme la quantité d'informations contenues dans chaque exemple. Une distribution présente l'entropie la plus élevée possible lorsque toutes les valeurs d'une variable aléatoire sont équiprobables.
L'entropie d'un ensemble avec deux valeurs possibles "0" et "1" (par exemple, les libellés dans un problème de classification binaire) a la formule suivante :
H = -p log p - q log q = -p log p - (1-p) * log (1-p)
où :
- H est l'entropie.
- p correspond à la fraction d'exemples "1".
- q correspond à la fraction d'exemples "0". Notez que q = (1 - p).
- log est généralement log2. Dans ce cas, l'unité d'entropie est un bit.
Par exemple, supposons les éléments suivants :
- 100 exemples contiennent la valeur "1"
- 300 exemples contiennent la valeur "0"
La valeur d'entropie est donc la suivante :
- p = 0,25
- q = 0,75
- H = (-0,25)log2(0,25) - (0,75)log2(0,75) = 0,81 bit par exemple
Un ensemble parfaitement équilibré (par exemple, 200 "0" et 200 "1") aurait une entropie de 1,0 bit par exemple. À mesure qu'un ensemble devient plus déséquilibré, son entropie tend vers 0.
Dans les arbres de décision, l'entropie permet de formuler le gain d'information pour aider le splitter à sélectionner les conditions lors de la croissance d'un arbre de décision de classification.
Comparer l'entropie avec :
- impureté de Gini
- Fonction de perte d'entropie croisée
L'entropie est souvent appelée entropie de Shannon.
Pour en savoir plus, consultez Splitter exact pour la classification binaire avec des caractéristiques numériques dans le cours sur les forêts de décision.
l'égalité des chances.
Une métrique d'équité permettant d'évaluer si un modèle prédit le résultat souhaitable aussi bien pour toutes les valeurs d'une caractéristique sensible. En d'autres termes, si le résultat souhaitable pour un modèle est la classe positive, l'objectif serait d'avoir le même taux de vrais positifs pour tous les groupes.
L'égalité des chances est liée à la parité des chances, qui exige que les taux de vrais positifs et les taux de faux positifs soient les mêmes pour tous les groupes.
Supposons que l'université Glubbdubdrib accepte les Lilliputiens et les Brobdingnags dans un programme de mathématiques rigoureux. Les établissements secondaires lilliputiens proposent un programme solide de cours de mathématiques, et la grande majorité des élèves sont qualifiés pour le programme universitaire. Les établissements secondaires de Brobdingnag ne proposent pas de cours de mathématiques. Par conséquent, beaucoup moins d'élèves sont qualifiés. L'égalité des chances est respectée pour le libellé préféré "admis" par rapport à la nationalité (Lilliputien ou Brobdingnagien) si les élèves qualifiés ont la même probabilité d'être admis, qu'ils soient Lilliputiens ou Brobdingnagiens.
Par exemple, supposons que 100 Lilliputiens et 100 Brobdingnagiens postulent à l'université de Glubbdubdrib, et que les décisions d'admission sont prises comme suit :
Tableau 1. Candidats lilliputiens (90 % sont qualifiés)
| Qualifié | Non défini | |
|---|---|---|
| Admis | 45 | 3 |
| Refusé | 45 | 7 |
| Total | 90 | 10 |
|
Pourcentage d'étudiants qualifiés admis : 45/90 = 50 % Pourcentage d'étudiants non qualifiés refusés : 7/10 = 70 % Pourcentage total d'étudiants lilliputiens admis : (45+3)/100 = 48 % |
||
Tableau 2. Candidats brobdingnagiens (10 % sont qualifiés) :
| Qualifié | Non défini | |
|---|---|---|
| Admis | 5 | 9 |
| Refusé | 5 | 81 |
| Total | 10 | 90 |
|
Pourcentage d'étudiants qualifiés admis : 5/10 = 50 % Pourcentage d'étudiants non qualifiés refusés : 81/90 = 90 % Pourcentage total d'étudiants brobdingnagiens admis : (5+9)/100 = 14 % |
||
Les exemples précédents satisfont l'égalité des chances pour l'acceptation des élèves qualifiés, car les Lilliputiens et les Brobdingnags qualifiés ont tous deux 50 % de chances d'être admis.
Bien que l'égalité des opportunités soit respectée, les deux métriques d'équité suivantes ne le sont pas :
- Parité démographique : les Lilliputiens et les Brobdingnagiens sont admis à l'université à des taux différents. 48 % des étudiants lilliputiens sont admis, mais seulement 14 % des étudiants brobdingnagiens.
- Parité des chances : bien que les étudiants lilliputiens et brobdingnagiens qualifiés aient la même chance d'être admis, la contrainte supplémentaire selon laquelle les lilliputiens et les brobdingnagiens non qualifiés ont la même chance d'être refusés n'est pas respectée. Le taux de refus est de 70 % pour les Lilliputiens non qualifiés et de 90 % pour les Brobdingnagiens non qualifiés.
Pour en savoir plus, consultez Équité : égalité des chances dans le cours d'initiation au machine learning.
Chances égales
Métrique d'équité permettant d'évaluer si un modèle prédit les résultats aussi bien pour toutes les valeurs d'un attribut sensible par rapport à la classe positive et à la classe négative, et non pas uniquement à l'une ou l'autre. En d'autres termes, le taux de vrais positifs et le taux de faux négatifs doivent être identiques pour tous les groupes.
L'égalité des chances est liée à l'égalité des opportunités, qui ne se concentre que sur les taux d'erreur pour une seule classe (positive ou négative).
Par exemple, supposons que l'université Glubbdubdrib accepte les Lilliputiens et les Brobdingnagiens dans un programme de mathématiques rigoureux. Les établissements secondaires lilliputiens proposent un programme solide de cours de mathématiques, et la grande majorité des élèves sont qualifiés pour le programme universitaire. Les établissements secondaires de Brobdingnag ne proposent pas de cours de mathématiques. Par conséquent, beaucoup moins de leurs élèves sont qualifiés. L'égalité des chances est respectée si, qu'un candidat soit lilliputien ou brobdingnagien, il a la même probabilité d'être admis au programme s'il est qualifié et la même probabilité d'être refusé s'il ne l'est pas.
Supposons que 100 Lilliputiens et 100 Brobdingnags postulent à l'université de Glubbdubdrib, et que les décisions d'admission sont prises comme suit :
Tableau 3 : Candidats lilliputiens (90 % sont qualifiés)
| Qualifié | Non défini | |
|---|---|---|
| Admis | 45 | 2 |
| Refusé | 45 | 8 |
| Total | 90 | 10 |
|
Pourcentage d'étudiants qualifiés admis : 45/90 = 50 % Pourcentage d'étudiants non qualifiés refusés : 8/10 = 80 % Pourcentage total d'étudiants lilliputiens admis : (45+2)/100 = 47 % |
||
Tableau 4. Candidats brobdingnagiens (10 % sont qualifiés) :
| Qualifié | Non défini | |
|---|---|---|
| Admis | 5 | 18 |
| Refusé | 5 | 72 |
| Total | 10 | 90 |
|
Pourcentage d'étudiants qualifiés admis : 5/10 = 50 % Pourcentage d'étudiants non qualifiés refusés : 72/90 = 80 % Pourcentage total d'étudiants brobdingnagiens admis : (5+18)/100 = 23 % |
||
Les chances égales sont respectées, car les étudiants lilliputiens et brobdingnagiens qualifiés ont tous deux 50 % de chances d'être admis, et les étudiants lilliputiens et brobdingnagiens non qualifiés ont 80 % de chances d'être refusés.
La parité des chances est formellement définie dans "Equality of Opportunity in Supervised Learning" comme suit : "Le prédicteur Ŷ satisfait à la parité des chances par rapport à l'attribut protégé A et au résultat Y si Ŷ et A sont indépendants, conditionnellement à Y."
evals
Principalement utilisé comme abréviation pour LLM evaluations (Évaluations LLM). Plus généralement, evals est l'abréviation de toute forme d'évaluation.
hors connexion
Processus de mesure de la qualité d'un modèle ou de comparaison de différents modèles.
Pour évaluer un modèle de machine learning supervisé, vous le comparez généralement à un ensemble de validation et à un ensemble de test. L'évaluation d'un LLM implique généralement des évaluations plus larges de la qualité et de la sécurité.
mots clés exacts
Il s'agit d'une métrique tout ou rien dans laquelle la sortie du modèle correspond exactement à la vérité terrain ou au texte de référence, ou pas du tout. Par exemple, si la vérité terrain est orange, la seule sortie de modèle qui satisfait à la correspondance exacte est orange.
La correspondance exacte peut également évaluer les modèles dont la sortie est une séquence (une liste d'éléments classés). En général, la correspondance exacte exige que la liste classée générée corresponde exactement à la vérité terrain, c'est-à-dire que chaque élément des deux listes doit être dans le même ordre. Cela dit, si la vérité terrain se compose de plusieurs séquences correctes, la correspondance exacte ne nécessite que la sortie du modèle corresponde à l'une des séquences correctes.
Synthèse extrême (xsum)
Ensemble de données permettant d'évaluer la capacité d'un LLM à résumer un seul document. Chaque entrée de l'ensemble de données se compose des éléments suivants :
- Document rédigé par la British Broadcasting Corporation (BBC).
- Un résumé d'une phrase de ce document.
Pour en savoir plus, consultez Don't Give Me the Details, Just the Summary! Topic-Aware Convolutional Neural Networks for Extreme Summarization.
F
F1
Métrique de classification binaire "cumulée" qui repose à la fois sur la précision et le rappel. Voici la formule :
métrique d'équité
Définition mathématique de l'équité qui est mesurable. Voici quelques métriques d'équité couramment utilisées :
De nombreuses métriques d'équité s'excluent mutuellement. Pour en savoir plus, consultez Incompatibilité des métriques d'équité.
Faux négatif (FN)
Exemple dans lequel le modèle a prédit à tort la classe négative. Par exemple, le modèle prédit qu'un e-mail particulier n'est pas du spam (classe négative), alors qu'en réalité, il l'est.
taux de faux négatifs
Proportion d'exemples positifs réels pour lesquels le modèle a prédit à tort la classe négative. La formule suivante permet de calculer le taux de faux négatifs :
Pour en savoir plus, consultez Seuils et matrice de confusion dans le Cours d'initiation au machine learning.
Faux positif (FP)
Exemple dans lequel le modèle prédit à tort la classe positive. Par exemple, le modèle prédit qu'un e-mail particulier est du spam (classe positive), alors qu'en réalité ce n'est pas un courrier indésirable.
Pour en savoir plus, consultez Seuils et matrice de confusion dans le Cours d'initiation au machine learning.
taux de faux positifs (TFP) (false positive rate (FPR))
Proportion d'exemples négatifs réels pour lesquels le modèle a prédit à tort la classe positive. La formule suivante permet de calculer le taux de faux positifs :
Le taux de faux positifs correspond à l'abscisse d'une courbe ROC.
Pour en savoir plus, consultez Classification : ROC et AUC dans le Cours d'initiation au machine learning.
importance des caractéristiques.
Synonyme de importance des variables.
modèle de fondation
Un très grand modèle pré-entraîné entraîné sur un ensemble d'entraînement énorme et diversifié. Un modèle de fondation peut effectuer les deux opérations suivantes :
- répondre correctement à un large éventail de requêtes ;
- Servir de modèle de base pour un affinage supplémentaire ou d'autres personnalisations.
En d'autres termes, un modèle de fondation est déjà très performant de manière générale, mais il peut être personnalisé davantage pour devenir encore plus utile pour une tâche spécifique.
fraction de succès
Métrique permettant d'évaluer le texte généré d'un modèle de ML. La fraction de succès correspond au nombre de résultats textuels générés "réussis" divisé par le nombre total de résultats textuels générés. Par exemple, si un grand modèle de langage a généré 10 blocs de code, dont cinq ont réussi, la fraction de réussite sera de 50 %.
Bien que la fraction de succès soit largement utile dans les statistiques, dans le ML, cette métrique est principalement utile pour mesurer les tâches vérifiables telles que la génération de code ou les problèmes mathématiques.
G
Impureté de Gini
Métrique semblable à l'entropie. Les splitters utilisent des valeurs dérivées de l'impureté de Gini ou de l'entropie pour composer des conditions pour les arbres de décision de classification. Le gain d'information est dérivé de l'entropie. Il n'existe pas de terme équivalent universellement accepté pour la métrique dérivée de l'impureté de Gini. Toutefois, cette métrique sans nom est tout aussi importante que le gain d'information.
L'impureté de Gini est également appelée indice de Gini ou simplement Gini.
H
perte de marge maximale
Famille de fonctions de perte pour la classification conçue pour trouver la frontière de décision la plus éloignée possible de chaque exemple d'entraînement, afin de maximiser la marge entre les exemples et la frontière. Les KSVMs utilisent la marge maximale (ou une fonction associée, par exemple le carré de la marge maximale). Dans le cas de la classification binaire, la fonction de perte de marge maximale est définie ainsi :
où y est l'étiquette réelle (-1 ou +1) et y' est la sortie brute du modèle de classification :
Par conséquent, le graphique de la marge maximale en fonction de (y * y') est de la forme suivante :
I
incompatibilité des métriques d'équité
L'idée que certaines notions d'équité sont mutuellement incompatibles et ne peuvent pas être satisfaites simultanément. Par conséquent, il n'existe pas de métrique universelle unique pour quantifier l'équité qui puisse être appliquée à tous les problèmes de ML.
Bien que cela puisse sembler décourageant, l'incompatibilité des métriques d'équité n'implique pas que les efforts d'équité sont vains. Au lieu de cela, il suggère que l'équité doit être définie de manière contextuelle pour un problème de ML donné, dans le but de prévenir les préjudices spécifiques à ses cas d'utilisation.
Pour en savoir plus sur l'incompatibilité des métriques d'équité, consultez On the (im)possibility of fairness.
équité individuelle
Métrique d'équité qui vérifie si des individus semblables sont classés de manière similaire. Par exemple, l'Académie Brobdingnagian peut vouloir satisfaire l'équité individuelle en s'assurant que deux élèves ayant obtenu des notes et des résultats de tests standardisés identiques ont la même probabilité d'être admis.
Notez que l'équité individuelle repose entièrement sur la façon dont vous définissez la "similarité" (dans ce cas, les notes et les résultats des tests). Vous risquez d'introduire de nouveaux problèmes d'équité si votre métrique de similarité manque des informations importantes (comme la rigueur du programme scolaire d'un élève).
Pour en savoir plus sur l'équité individuelle, consultez Fairness Through Awareness.
gain d'information
Dans les forêts de décision, il s'agit de la différence entre l'entropie d'un nœud et la somme pondérée (par nombre d'exemples) de l'entropie de ses nœuds enfants. L'entropie d'un nœud correspond à l'entropie des exemples de ce nœud.
Prenons par exemple les valeurs d'entropie suivantes :
- Entropie du nœud parent = 0,6
- L'entropie d'un nœud enfant avec 16 exemples pertinents est égale à 0,2.
- Entropie d'un autre nœud enfant avec 24 exemples pertinents = 0,1
Ainsi, 40 % des exemples se trouvent dans un nœud enfant et 60 % dans l'autre. Par conséquent :
- Somme pondérée de l'entropie des nœuds enfants = (0,4 * 0,2) + (0,6 * 0,1) = 0,14
Le gain d'information est donc le suivant :
- Gain d'information = entropie du nœud parent - somme pondérée de l'entropie des nœuds enfants
- gain d'information = 0,6 – 0,14 = 0,46
La plupart des splitters cherchent à créer des conditions qui maximisent le gain d'informations.
accord inter-évaluateurs
Mesure de la fréquence à laquelle les évaluateurs humains sont d'accord lorsqu'ils effectuent une tâche. Si les évaluateurs ne sont pas d'accord, il faudra peut-être améliorer les instructions de la tâche. Parfois également appelé accord inter-annotateurs ou fiabilité inter-évaluateurs. Voir aussi le kappa de Cohen, l'une des mesures de l'accord inter-évaluateurs les plus populaires.
Pour en savoir plus, consultez Données catégorielles : problèmes courants dans le Cours d'initiation au Machine Learning.
L
Perte L1
Fonction de perte qui calcule la valeur absolue de la différence entre les valeurs d'étiquette réelles et les valeurs prédites par un modèle. Par exemple, voici le calcul de la perte L1 pour un batch de cinq exemples :
| Valeur réelle de l'exemple | Valeur prédite du modèle | Valeur absolue du delta |
|---|---|---|
| 7 | 6 | 1 |
| 5 | 4 | 1 |
| 8 | 11 | 3 |
| 4 | 6 | 2 |
| 9 | 8 | 1 |
| 8 = perte L1 | ||
La perte L1 est moins sensible aux valeurs aberrantes que la perte L2.
L'erreur absolue moyenne correspond à la perte L1 moyenne par exemple.
Pour en savoir plus, consultez Régression linéaire : perte dans le cours d'initiation au machine learning.
Perte L2
Une fonction de perte qui calcule le carré de la différence entre les valeurs d'étiquette réelles et les valeurs prédites par un modèle. Par exemple, voici le calcul de la perte L2 pour un batch de cinq exemples :
| Valeur réelle de l'exemple | Valeur prédite du modèle | Carré du delta |
|---|---|---|
| 7 | 6 | 1 |
| 5 | 4 | 1 |
| 8 | 11 | 9 |
| 4 | 6 | 4 |
| 9 | 8 | 1 |
| 16 = perte L2 | ||
En raison de la mise au carré, la perte L2 amplifie l'influence des valeurs aberrantes. En d'autres termes, la perte L2 réagit plus fortement aux mauvaises prédictions que la perte L1. Par exemple, la perte L1 pour le lot précédent serait de 8 au lieu de 16. Notez qu'une seule valeur aberrante représente 9 des 16 valeurs.
Les modèles de régression utilisent généralement la perte L2 comme fonction de perte.
L'erreur quadratique moyenne correspond à la perte L2 moyenne par exemple. La perte quadratique est un autre nom pour la perte L2.
Pour en savoir plus, consultez Régression logistique : perte et régularisation dans le Cours d'initiation au machine learning.
Évaluations de LLM
Ensemble de métriques et de benchmarks permettant d'évaluer les performances des grands modèles de langage (LLM). De manière générale, les évaluations de LLM :
- Aider les chercheurs à identifier les domaines dans lesquels les LLM doivent être améliorés
- Elles sont utiles pour comparer différents LLM et identifier le meilleur LLM pour une tâche spécifique.
- Contribuer à garantir que les LLM sont sûrs et éthiques à utiliser
Pour en savoir plus, consultez Grands modèles de langage (LLM) dans le cours d'initiation au Machine Learning.
perte
Pendant l'entraînement d'un modèle supervisé, une mesure de l'écart entre la prédiction d'un modèle et son libellé.
Une fonction de perte calcule la perte.
Pour en savoir plus, consultez Régression linéaire : perte dans le cours d'initiation au machine learning.
fonction de perte
Pendant l'entraînement ou le test, une fonction mathématique qui calcule la perte sur un batch d'exemples. Une fonction de perte renvoie une perte plus faible pour les modèles qui font de bonnes prédictions que pour ceux qui font de mauvaises prédictions.
L'objectif de l'entraînement est généralement de minimiser la perte renvoyée par une fonction de perte.
Il existe de nombreux types de fonctions de perte. Choisissez la fonction de perte appropriée pour le type de modèle que vous créez. Exemple :
- La perte L2 (ou erreur quadratique moyenne) est la fonction de perte pour la régression linéaire.
- La perte logistique est la fonction de perte pour la régression logistique.
M
factorisation matricielle
En mathématiques, mécanisme pour trouver les matrices dont le produit scalaire se rapproche d'une matrice cible.
Dans les systèmes de recommandation, la matrice cible contient souvent les notes des utilisateurs sur les éléments. Par exemple, la matrice cible d'un système de recommandation de films peut ressembler au tableau ci-dessous, où les entiers positifs sont les notes des utilisateurs et où zéro signifie que l'utilisateur n'a pas évalué le film :
| Casablanca | Indiscrétions | Black Panther | Wonder Woman | Pulp Fiction | |
|---|---|---|---|---|---|
| Utilisateur 1 | 5.0 | 3,0 | 0,0 | 2.0 | 0,0 |
| Utilisateur 2 | 4.0 | 0,0 | 0,0 | 1.0 | 5.0 |
| Utilisateur 3 | 3,0 | 1.0 | 4.0 | 5,0 | 0,0 |
Le système de recommandation de films vise à prédire les notes des utilisateurs pour les films non évalués. Par exemple, l'utilisateur 1 va-t-il aimer Black Panther ?
Une approche pour les systèmes de recommandation consiste à utiliser la factorisation matricielle afin de générer les deux matrices suivantes :
- Une matrice utilisateur, définie sous la forme nombre d'utilisateurs X nombre de dimensions de la représentation vectorielle.
- Une matrice éléments, définie sous la forme nombre de dimensions de la représentation vectorielle X nombre d'éléments.
Par exemple, utiliser la factorisation matricielle sur nos trois utilisateurs et cinq éléments pourrait générer les matrices utilisateurs et les matrices éléments suivantes :
User Matrix Item Matrix 1.1 2.3 0.9 0.2 1.4 2.0 1.2 0.6 2.0 1.7 1.2 1.2 -0.1 2.1 2.5 0.5
Le produit scalaire de la matrice utilisateur et de la matrice élément génère une matrice de recommandations qui contient non seulement les notes originales des utilisateurs, mais également des prédictions pour les films que chaque utilisateur n'a pas vu. Prenons par exemple la note de l'utilisateur 1 pour Casablanca, qui était de 5, 0. Le produit scalaire correspondant à cette cellule dans la matrice de recommandations devrait normalement se situer autour de 5,0, et c'est bien le cas :
(1.1 * 0.9) + (2.3 * 1.7) = 4.9Plus important encore, l'utilisateur 1 va-t-il aimer Black Panther ? En prenant le produit scalaire correspondant à la première ligne et à la troisième colonne, on obtient une note de 4,3 :
(1.1 * 1.4) + (2.3 * 1.2) = 4.3La factorisation matricielle produit généralement une matrice utilisateur et une matrice élément qui, ensemble, sont nettement plus compactes que la matrice cible.
MBPP
Abréviation de Mostly Basic Python Problems.
Erreur absolue moyenne (EAM)
Perte moyenne par exemple lorsque la perte L1 est utilisée. Pour calculer l'erreur absolue moyenne :
- Calcule la perte L1 pour un lot.
- Divisez la perte L1 par le nombre d'exemples du lot.
Prenons l'exemple du calcul de la perte L1 sur le lot suivant de cinq exemples :
| Valeur réelle de l'exemple | Valeur prédite du modèle | Perte (différence entre la valeur réelle et la valeur prédite) |
|---|---|---|
| 7 | 6 | 1 |
| 5 | 4 | 1 |
| 8 | 11 | 3 |
| 4 | 6 | 2 |
| 9 | 8 | 1 |
| 8 = perte L1 | ||
La perte L1 est donc de 8 et le nombre d'exemples est de 5. L'erreur absolue moyenne est donc la suivante :
Mean Absolute Error = L1 loss / Number of Examples Mean Absolute Error = 8/5 = 1.6
Comparez l'erreur absolue moyenne à l'erreur quadratique moyenne et à la racine carrée de l'erreur quadratique moyenne.
Précision moyenne à k (mAP@k)
Moyenne statistique de tous les scores précision moyenne à k dans un ensemble de données de validation. La précision moyenne à k peut être utilisée pour évaluer la qualité des recommandations générées par un système de recommandation.
Bien que l'expression "moyenne moyenne" semble redondante, le nom de la métrique est approprié. En effet, cette métrique trouve la moyenne de plusieurs valeurs précision moyenne à k.
Erreur quadratique moyenne (MSE)
Perte moyenne par exemple lorsque la perte L2 est utilisée. Calculez l'erreur quadratique moyenne comme suit :
- Calcule la perte L2 pour un lot.
- Divisez la perte L2 par le nombre d'exemples du lot.
Par exemple, considérons la perte sur le lot suivant de cinq exemples :
| Valeur réelle | Prédiction du modèle | Perte | Perte quadratique |
|---|---|---|---|
| 7 | 6 | 1 | 1 |
| 5 | 4 | 1 | 1 |
| 8 | 11 | 3 | 9 |
| 4 | 6 | 2 | 4 |
| 9 | 8 | 1 | 1 |
| 16 = perte L2 | |||
L'erreur quadratique moyenne est donc la suivante :
Mean Squared Error = L2 loss / Number of Examples Mean Squared Error = 16/5 = 3.2
L'erreur quadratique moyenne est un optimiseur d'entraînement populaire, en particulier pour la régression linéaire.
Comparez l'erreur quadratique moyenne avec l'erreur absolue moyenne et la racine carrée de l'erreur quadratique moyenne.
TensorFlow Playground utilise l'erreur quadratique moyenne pour calculer les valeurs de perte.
metric
Une statistique qui vous intéresse.
Un objectif est une métrique qu'un système de machine learning tente d'optimiser.
API Metrics (tf.metrics)
API TensorFlow permettant d'évaluer des modèles. Par exemple, tf.metrics.accuracy détermine la fréquence à laquelle les prédictions d'un modèle correspondent aux libellés.
perte minimax
Fonction de perte pour les réseaux antagonistes génératifs, basée sur l'entropie croisée entre la distribution des données générées et des données réelles.
La perte minimax est utilisée dans le premier article pour décrire les réseaux antagonistes génératifs.
Pour en savoir plus, consultez Fonctions de perte dans le cours sur les réseaux antagonistes génératifs.
capacité du modèle
Complexité des problèmes à travers lesquels un modèle est capable d'apprendre. Plus un modèle est capable d'apprendre à travers des problèmes complexes, plus sa capacité est grande. La capacité d'un modèle augmente généralement avec le nombre de ses paramètres. Pour une définition formelle de la capacité d'un modèle de classification, consultez Dimension VC.
Momentum
Algorithme sophistiqué de descente de gradient dans lequel une étape d'apprentissage dépend non seulement de la dérivée de l'étape actuelle, mais aussi des dérivées de la ou des étapes qui la précèdent immédiatement. L'élan consiste à calculer une moyenne mobile pondérée de manière exponentielle des gradients au fil du temps, de manière analogue à l'élan en physique. L'élan empêche parfois l'apprentissage de rester bloqué dans des minimums locaux.
Mostly Basic Python Problems (MBPP)
Ensemble de données permettant d'évaluer la capacité d'un LLM à générer du code Python. Mostly Basic Python Problems propose environ 1 000 problèmes de programmation issus du crowdsourcing. Chaque problème de l'ensemble de données contient les éléments suivants :
- Description de la tâche
- Code de solution
- Trois cas de test automatisés
N
classe négative
Dans la classification binaire, une classe est dite positive et l'autre négative. La classe positive est l'élément ou l'événement que le modèle teste, et la classe négative est l'autre possibilité. Exemple :
- La classe négative d'un test médical pourrait être "pas une tumeur".
- La classe négative d'un modèle de classification d'e-mails peut être "non-spam".
À comparer à la classe positive.
O
objectif
Une métrique que votre algorithme tente d'optimiser.
fonction objectif
Formule mathématique ou métrique qu'un modèle vise à optimiser. Par exemple, la fonction objectif de la régression linéaire est généralement la perte quadratique moyenne. Par conséquent, lors de l'entraînement d'un modèle de régression linéaire, l'objectif est de minimiser la perte quadratique moyenne.
Dans certains cas, l'objectif est de maximiser la fonction objectif. Par exemple, si la fonction objectif est la précision, l'objectif est de maximiser la précision.
Voir aussi perte.
P
pass at k (pass@k)
Métrique permettant de déterminer la qualité du code (par exemple, Python) généré par un grand modèle de langage. Plus précisément, "pass@k" indique la probabilité qu'au moins un bloc de code généré sur k blocs de code générés réussisse tous ses tests unitaires.
Les grands modèles de langage ont souvent du mal à générer du code de qualité pour les problèmes de programmation complexes. Pour résoudre ce problème, les ingénieurs logiciels demandent au grand modèle de langage de générer plusieurs (k) solutions pour le même problème. Les ingénieurs logiciels testent ensuite chacune des solutions à l'aide de tests unitaires. Le calcul de la réussite à k dépend du résultat des tests unitaires :
- Si une ou plusieurs de ces solutions réussissent le test unitaire, le LLM réussit ce défi de génération de code.
- Si aucune des solutions ne réussit le test unitaire, le LLM échoue à ce défi de génération de code.
La formule pour le taux de réussite à k est la suivante :
\[\text{pass at k} = \frac{\text{total number of passes}} {\text{total number of challenges}}\]
En général, des valeurs k plus élevées produisent des scores "pass at k" plus élevés. Toutefois, des valeurs k plus élevées nécessitent davantage de ressources de grands modèles de langage et de tests unitaires.
performance
Terme complexe ayant plusieurs significations :
- Sens standard dans le génie logiciel, à savoir : à quelle vitesse, ou avec quelle efficacité, ce logiciel s'exécute-t-il ?
- Sens dans le machine learning, Ici, les performances répondent à la question suivante : quel est le degré d'exactitude de ce modèle ? Autrement dit, les prédictions du modèle sont-elles bonnes ?
Importance des variables de permutation
Type d'importance des variables qui évalue l'augmentation de l'erreur de prédiction d'un modèle après permutation des valeurs de la caractéristique. L'importance des variables de permutation est une métrique indépendante du modèle.
perplexité
Mesure de l'efficacité d'un modèle à exécuter une tâche. Par exemple, supposons que votre tâche consiste à lire les premières lettres d'un mot qu'un utilisateur saisit sur un clavier de téléphone et à proposer une liste de mots possibles pour compléter la saisie. La perplexité P pour cette tâche correspond approximativement au nombre de suggestions que vous devez proposer pour que votre liste contienne le mot que l'utilisateur essaie de saisir.
La perplexité est liée à l'entropie croisée par la formule suivante :
classe positive
Classe pour laquelle vous effectuez le test.
Par exemple, la classe positive d'un modèle de détection du cancer pourrait être "tumeur". La classe positive d'un modèle de classification d'e-mails peut être "spam".
À comparer à la classe négative.
AUC PR (aire sous la courbe de précision/rappel)
Aire sous la courbe de précision/rappel interpolée, obtenue en traçant les points (rappel, précision) pour différentes valeurs du seuil de classification.
precision
Statistique des modèles de classification qui répond à la question suivante :
Lorsque le modèle a prédit la classe positive, quel pourcentage de prédictions étaient correctes ?
Voici la formule :
où :
- Un vrai positif signifie que le modèle a prédit correctement la classe positive.
- Un faux positif signifie que le modèle a prédit à tort la classe positive.
Par exemple, supposons qu'un modèle a effectué 200 prédictions positives. Parmi ces 200 prédictions positives :
- 150 étaient des vrais positifs.
- 50 étaient des faux positifs.
Dans ce cas :
À comparer à la justesse et au rappel.
Pour en savoir plus, consultez Classification : précision, rappel, exactitude et métriques associées dans le Cours d'initiation au Machine Learning.
précision à k (precision@k)
Métrique permettant d'évaluer une liste d'éléments classés (ordonnés). La précision à k identifie la fraction des k premiers éléments de cette liste qui sont "pertinents". Par exemple :
\[\text{precision at k} = \frac{\text{relevant items in first k items of the list}} {\text{k}}\]
La valeur de k doit être inférieure ou égale à la longueur de la liste renvoyée. Notez que la longueur de la liste renvoyée ne fait pas partie du calcul.
La pertinence est souvent subjective. Même les évaluateurs humains experts ne sont pas toujours d'accord sur les éléments pertinents.
Comparer avec :
la courbe de précision/rappel
Courbe de précision par rapport au rappel à différents seuils de classification.
biais de prédiction
Valeur indiquant l'écart entre la moyenne des prédictions et la moyenne des libellés dans l'ensemble de données.
À ne pas confondre avec le biais des modèles de machine learning ni avec le biais en matière d'éthique et d'équité.
parité prédictive
Une métrique d'équité qui vérifie si, pour un modèle de classification donné, les taux de précision sont équivalents pour les sous-groupes considérés.
Par exemple, un modèle qui prédit l'acceptation dans une université respecterait la parité prédictive pour la nationalité si son taux de précision était le même pour les Lilliputiens et les Brobdingnags.
La parité prédictive est parfois appelée parité du taux de prédiction.
Pour en savoir plus sur la parité prédictive, consultez la section 3.2.1 de l'article Explication des définitions d'équité.
parité des taux prédictive
Autre nom pour parité prédictive.
fonction de densité de probabilité
Fonction qui identifie la fréquence des échantillons de données ayant exactement une valeur spécifique. Lorsque les valeurs d'un ensemble de données sont des nombres à virgule flottante continus, les correspondances exactes sont rares. Toutefois, l'intégration d'une fonction de densité de probabilité de la valeur x à la valeur y donne la fréquence attendue des échantillons de données entre x et y.
Prenons l'exemple d'une distribution normale dont la moyenne est de 200 et l'écart-type de 30. Pour déterminer la fréquence attendue des échantillons de données compris entre 211,4 et 218,7, vous pouvez intégrer la fonction de densité de probabilité pour une distribution normale de 211,4 à 218,7.
R
Ensemble de données pour la compréhension écrite avec raisonnement logique (ReCoRD)
Ensemble de données permettant d'évaluer la capacité d'un LLM à effectuer un raisonnement basé sur le bon sens. Chaque exemple de l'ensemble de données contient trois composants :
- Un ou deux paragraphes d'un article de presse
- Requête dans laquelle l'une des entités identifiées explicitement ou implicitement dans le passage est masquée.
- La réponse (nom de l'entité à insérer dans le masque)
Pour obtenir une liste complète d'exemples, consultez ReCoRD.
ReCoRD est un composant de l'ensemble SuperGLUE.
RealToxicityPrompts
Ensemble de données contenant un ensemble de débuts de phrases susceptibles de contenir du contenu toxique. Utilisez cet ensemble de données pour évaluer la capacité d'un LLM à générer du texte non toxique pour compléter la phrase. En règle générale, vous utilisez l'API Perspective pour déterminer dans quelle mesure le LLM a réussi cette tâche.
Pour en savoir plus, consultez RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language Models.
recall
Statistique des modèles de classification qui répond à la question suivante :
Lorsque la vérité terrain correspondait à la classe positive, quel pourcentage de prédictions le modèle a-t-il correctement identifié comme classe positive ?
Voici la formule :
\[\text{Recall} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}} \]
où :
- Un vrai positif signifie que le modèle a prédit correctement la classe positive.
- Un faux négatif signifie que le modèle a prédit à tort la classe négative.
Par exemple, supposons que votre modèle ait effectué 200 prédictions sur des exemples pour lesquels la vérité terrain était la classe positive. Sur ces 200 prédictions :
- 180 étaient des vrais positifs.
- 20 étaient des faux négatifs.
Dans ce cas :
\[\text{Recall} = \frac{\text{180}} {\text{180} + \text{20}} = 0.9 \]
Pour en savoir plus, consultez Classification : précision, rappel et métriques associées.
Rappel à k (recall@k)
Métrique permettant d'évaluer les systèmes qui génèrent une liste d'éléments classés (ordonnés). Le rappel à k identifie la fraction d'éléments pertinents dans les k premiers éléments de cette liste sur le nombre total d'éléments pertinents renvoyés.
\[\text{recall at k} = \frac{\text{relevant items in first k items of the list}} {\text{total number of relevant items in the list}}\]
À comparer à la précision à k.
Reconnaissance de l'implication textuelle (RTE, Recognizing Textual Entailment)
Ensemble de données permettant d'évaluer la capacité d'un LLM à déterminer si une hypothèse peut être déduite (logiquement tirée) d'un passage de texte. Chaque exemple d'évaluation RTE se compose de trois parties :
- Un extrait, généralement tiré d'articles d'actualités ou Wikipédia
- Une hypothèse
- La bonne réponse, qui est l'une des suivantes :
- Vrai, ce qui signifie que l'hypothèse peut être déduite du passage
- Faux, ce qui signifie que l'hypothèse ne peut pas être déduite du passage
Exemple :
- Extrait : L'euro est la monnaie de l'Union européenne.
- Hypothèse : la France utilise l'euro comme devise.
- Entailment : Vrai, car la France fait partie de l'Union européenne.
RTE est un composant de l'ensemble SuperGLUE.
ReCoRD
Abréviation de Reading Comprehension with Commonsense Reasoning Dataset (ensemble de données pour la compréhension de la lecture avec raisonnement logique).
Courbe ROC (receiver operating characteristic)
Graphique du taux de vrais positifs par rapport au taux de faux positifs pour différents seuils de classification dans la classification binaire.
La forme d'une courbe ROC suggère la capacité d'un modèle de classification binaire à séparer les classes positives des classes négatives. Supposons, par exemple, qu'un modèle de classification binaire sépare parfaitement toutes les classes négatives de toutes les classes positives :
La courbe ROC du modèle précédent se présente comme suit :
En revanche, l'illustration suivante représente les valeurs de régression logistique brutes pour un modèle médiocre qui ne peut pas du tout séparer les classes négatives des classes positives :
La courbe ROC de ce modèle se présente comme suit :
Dans le monde réel, la plupart des modèles de classification binaire séparent les classes positives et négatives dans une certaine mesure, mais généralement pas parfaitement. Par conséquent, une courbe ROC typique se situe quelque part entre les deux extrêmes :
Le point d'une courbe ROC le plus proche de (0.0,1.0) identifie théoriquement le seuil de classification idéal. Toutefois, plusieurs autres problèmes concrets influencent la sélection du seuil de classification idéal. Par exemple, les faux négatifs peuvent être beaucoup plus problématiques que les faux positifs.
Une métrique numérique appelée AUC résume la courbe ROC en une seule valeur à virgule flottante.
la racine carrée de l'erreur quadratique moyenne (RMSE, Root Mean Squared Error)
Racine carrée de l'erreur quadratique moyenne.
ROUGE (Recall-Oriented Understudy for Gisting Evaluation)
Famille de métriques qui évaluent les modèles de traduction automatique et de synthèse automatique. Les métriques ROUGE déterminent le degré de chevauchement d'un texte de référence avec le texte généré d'un modèle de ML. Chaque membre de la famille ROUGE mesure le chevauchement d'une manière différente. Plus les scores ROUGE sont élevés, plus le texte de référence et le texte généré sont semblables.
Chaque membre de la famille ROUGE génère généralement les métriques suivantes :
- Précision
- Rappel
- F1
Pour en savoir plus et obtenir des exemples, consultez :
ROUGE-L
Membre de la famille ROUGE axé sur la longueur de la plus longue sous-séquence commune dans le texte de référence et le texte généré. Les formules suivantes permettent de calculer le rappel et la précision pour ROUGE-L :
Vous pouvez ensuite utiliser F1 pour regrouper le rappel ROUGE-L et la précision ROUGE-L dans une seule métrique :
ROUGE-L ignore les sauts de ligne dans le texte de référence et le texte généré. La plus longue sous-séquence commune peut donc s'étendre sur plusieurs phrases. Lorsque le texte de référence et le texte généré comportent plusieurs phrases, une variante de ROUGE-L appelée ROUGE-Lsum est généralement une meilleure métrique. ROUGE-Lsum détermine la plus longue sous-séquence commune pour chaque phrase d'un passage, puis calcule la moyenne de ces plus longues sous-séquences communes.
ROUGE-N
Ensemble de métriques de la famille ROUGE qui compare les N-grammes partagés d'une certaine taille dans le texte de référence et le texte généré. Exemple :
- ROUGE-1 mesure le nombre de jetons partagés dans le texte de référence et le texte généré.
- ROUGE-2 mesure le nombre de bigrammes (2-grammes) partagés dans le texte de référence et le texte généré.
- ROUGE-3 mesure le nombre de trigrammes (3-grammes) partagés dans le texte de référence et le texte généré.
Vous pouvez utiliser les formules suivantes pour calculer le rappel ROUGE-N et la précision ROUGE-N pour n'importe quel membre de la famille ROUGE-N :
Vous pouvez ensuite utiliser F1 pour regrouper le rappel ROUGE-N et la précision ROUGE-N dans une seule métrique :
ROUGE-S
Forme tolérante de ROUGE-N qui permet la mise en correspondance des skip-grammes. Autrement dit, ROUGE-N ne compte que les N-grammes qui correspondent exactement, tandis que ROUGE-S compte également les N-grammes séparés par un ou plusieurs mots. Nous vous conseillons, par exemple, de suivre les recommandations suivantes :
- texte de référence : Nuages blancs
- generated text : White billowing clouds
Lors du calcul de ROUGE-N, le 2-gramme White clouds ne correspond pas à White billowing clouds. Toutefois, lors du calcul de ROUGE-S, White clouds correspond à White billowing clouds.
Coefficient de détermination
Il s'agit d'une métrique de régression qui indique la part de la variation d'un libellé due à une caractéristique individuelle ou à un ensemble de caractéristiques. Il s'agit d'une valeur comprise entre 0 et 1, que vous pouvez interpréter comme suit :
- Un coefficient de détermination de 0 signifie que la variance d'une étiquette n'est en rien due à l'ensemble de caractéristiques.
- Un coefficient de détermination de 1 signifie que la variance d'une étiquette est totalement due à l'ensemble de caractéristiques.
- Un coefficient de détermination compris entre 0 et 1 indique dans quelle mesure la variance de l'étiquette peut être prédite à partir d'une caractéristique particulière ou de l'ensemble de caractéristiques. Par exemple, un coefficient de détermination de 0,10 signifie que 10 % de la variance de l'étiquette est due à l'ensemble de caractéristiques, un coefficient de détermination de 0,20 signifie que 20 % est dû à l'ensemble de caractéristiques, et ainsi de suite.
Le R-carré correspond au carré du coefficient de corrélation de Pearson entre les valeurs prédites par un modèle et la vérité terrain.
RTE
Abréviation de Recognizing Textual Entailment (reconnaissance de l'implication textuelle).
S
notation
Partie d'un système de recommandation qui fournit une valeur ou un classement pour chaque élément produit par la phase de génération de candidats.
mesure de similarité
Dans les algorithmes de clustering, la métrique permettant de déterminer le degré de similarité entre deux exemples.
parcimonie
Nombre d'éléments définis sur zéro (ou null) dans un vecteur ou une matrice, divisé par le nombre total d'entrées dans ce vecteur ou cette matrice. Prenons l'exemple d'une matrice de 100 éléments dans laquelle 98 cellules contiennent la valeur zéro. La formule permettant de calculer la parcimonie est la suivante :
La rareté des caractéristiques fait référence à la rareté d'un vecteur de caractéristiques, tandis que la rareté du modèle fait référence à la rareté des pondérations du modèle.
SQuAD
Acronyme de Stanford Question Answering Dataset, introduit dans l'article SQuAD: 100,000+ Questions for Machine Comprehension of Text. Les questions de cet ensemble de données proviennent de personnes qui posent des questions sur des articles Wikipédia. Certaines questions de SQuAD ont des réponses, mais d'autres n'en ont intentionnellement pas. Vous pouvez donc utiliser SQuAD pour évaluer la capacité d'un LLM à effectuer les deux opérations suivantes :
- Répondez aux questions auxquelles il est possible de répondre.
- Identifier les questions auxquelles il n'est pas possible de répondre
La correspondance exacte associée à F1 sont les métriques les plus courantes pour évaluer les LLM par rapport à SQuAD.
marge maximale quadratique
Carré de la marge maximale. La marge maximale quadratique pénalise les valeurs aberrantes plus sévèrement que la marge maximale standard.
perte quadratique
Synonyme de perte L2.
SuperGLUE
Ensemble de données permettant d'évaluer la capacité globale d'un LLM à comprendre et à générer du texte. L'ensemble comprend les ensembles de données suivants :
- Questions booléennes (BoolQ)
- CommitmentBank (CB)
- Choix d'alternatives plausibles (COPA)
- Compréhension écrite multisentence (MultiRC)
- Ensemble de données pour la compréhension écrite avec raisonnement logique (ReCoRD)
- Reconnaissance de l'implication textuelle (RTE)
- Mots dans leur contexte (WiC)
- Winograd Schema Challenge (WSC)
Pour en savoir plus, consultez SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems.
T
perte de test
Une métrique représentant la perte d'un modèle par rapport à l'ensemble de test. Lorsque vous créez un modèle, vous essayez généralement de minimiser la perte de test. En effet, une faible perte de test est un signal de qualité plus fort qu'une faible perte d'entraînement ou une faible perte de validation.
Un écart important entre la perte de test et la perte d'entraînement ou de validation suggère parfois que vous devez augmenter le taux de régularisation.
Précision top-k
Pourcentage de fois où un "libellé cible" apparaît dans les k premières positions des listes générées. Les listes peuvent être des recommandations personnalisées ou une liste d'éléments classés par softmax.
La précision top-k est également appelée précision à k.
toxique
Degré de violence, de menace ou de caractère offensant du contenu. De nombreux modèles de machine learning peuvent identifier, mesurer et classer la toxicité. La plupart de ces modèles identifient la toxicité selon plusieurs paramètres, tels que le niveau de langage abusif et le niveau de langage menaçant.
perte d'entraînement
Métrique représentant la perte d'un modèle lors d'une itération d'entraînement spécifique. Par exemple, supposons que la fonction de perte soit Mean Squared Error. Par exemple, la perte d'entraînement (erreur quadratique moyenne) pour la 10e itération est de 2,2, et celle pour la 100e itération est de 1,9.
Une courbe de perte représente la perte d'entraînement par rapport au nombre d'itérations. Une courbe de perte fournit les indications suivantes sur l'entraînement :
- Une pente descendante signifie que le modèle s'améliore.
- Une pente ascendante signifie que le modèle se dégrade.
- Une pente plate implique que le modèle a atteint la convergence.
Par exemple, la courbe de perte suivante, quelque peu idéalisée, montre :
- Une pente descendante abrupte lors des itérations initiales, ce qui implique une amélioration rapide du modèle.
- Une pente qui s'aplatit progressivement (mais reste descendante) jusqu'à la fin de l'entraînement, ce qui implique une amélioration continue du modèle à un rythme un peu plus lent que lors des itérations initiales.
- Une pente plate vers la fin de l'entraînement, ce qui suggère une convergence.
Bien que la perte d'entraînement soit importante, consultez également la section Généralisation.
Questions-réponses sur des questions de culture générale
Ensembles de données permettant d'évaluer la capacité d'un LLM à répondre à des questions de culture générale. Chaque ensemble de données contient des paires de questions-réponses créées par des passionnés de quiz. Différents ensembles de données sont ancrés par différentes sources, y compris :
- Recherche sur le Web (TriviaQA)
- Wikipédia (TriviaQA_wiki)
Pour en savoir plus, consultez TriviaQA: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension.
vrai négatif (VN)
Exemple dans lequel le modèle prédit correctement la classe négative. Par exemple, le modèle déduit qu'un e-mail particulier n'est pas du spam, et cet e-mail n'est effectivement pas du spam.
vrai positif (VP)
Exemple dans lequel le modèle prédit correctement la classe positive. Par exemple, le modèle déduit qu'un e-mail particulier est du spam, ce qui est bien le cas.
taux de vrais positifs (TVP)
Synonyme de rappel. Par exemple :
Le taux de vrais positifs correspond à l'ordonnée d'une courbe ROC.
Typologically Diverse Question Answering (TyDi QA)
Ensemble de données volumineux permettant d'évaluer la capacité d'un LLM à répondre à des questions. L'ensemble de données contient des paires de questions/réponses dans de nombreuses langues.
Pour en savoir plus, consultez TyDi QA: A Benchmark for Information-Seeking Question Answering in Typologically Diverse Languages.
V
perte de validation
Métrique représentant la perte d'un modèle sur l'ensemble de validation au cours d'une itération d'entraînement spécifique.
Voir aussi courbe de généralisation.
importance des variables
Ensemble de scores indiquant l'importance relative de chaque caractéristique pour le modèle.
Prenons l'exemple d'un arbre de décision qui estime le prix des maisons. Supposons que cet arbre de décision utilise trois caractéristiques : la taille, l'âge et le style. Si un ensemble d'importances de variables pour les trois caractéristiques est calculé comme suit : {size=5.8, age=2.5, style=4.7}, alors la taille est plus importante pour l'arbre de décision que l'âge ou le style.
Il existe différentes métriques d'importance des variables, qui peuvent informer les experts en ML sur différents aspects des modèles.
W
Perte Wasserstein
Il s'agit de l'une des fonctions de perte couramment utilisées dans les réseaux antagonistes génératifs, basée sur la distance Earth Mover entre la distribution des données générées et des données réelles.
WiC
Abréviation de Words in Context (Mots en contexte).
WikiLingua (wiki_lingua)
Ensemble de données permettant d'évaluer la capacité d'un LLM à résumer des articles courts. WikiHow, une encyclopédie d'articles expliquant comment effectuer diverses tâches, est la source rédigée par des humains pour les articles et les résumés. Chaque entrée de l'ensemble de données se compose des éléments suivants :
- Un article, créé en ajoutant chaque étape de la version en prose (paragraphe) de la liste numérotée, sans la phrase d'introduction de chaque étape.
- Résumé de cet article, composé de la première phrase de chaque étape de la liste numérotée.
Pour en savoir plus, consultez WikiLingua: A New Benchmark Dataset for Cross-Lingual Abstractive Summarization.
Winograd Schema Challenge (WSC)
Format (ou ensemble de données conforme à ce format) permettant d'évaluer la capacité d'un LLM à déterminer le groupe nominal auquel un pronom fait référence.
Chaque entrée du Winograd Schema Challenge se compose des éléments suivants :
- Un court passage contenant un pronom cible
- Un pronom cible
- Groupes nominaux candidats, suivis de la bonne réponse (booléen). Si le pronom cible fait référence à ce candidat, la réponse est "True". Si le pronom cible ne fait pas référence à ce candidat, la réponse est "False" (Faux).
Exemple :
- Extrait : Mark a raconté de nombreux mensonges à Pete sur lui-même, que Pete a inclus dans son livre. Il aurait dû être plus honnête.
- Pronom cible : il
- Groupes nominaux candidats :
- Mark : "True" (Vrai), car le pronom cible fait référence à Mark
- Pete : Faux, car le pronom cible ne fait pas référence à Peter
Le Winograd Schema Challenge est un composant de l'ensemble SuperGLUE.
Mots en contexte (WiC)
Ensemble de données permettant d'évaluer la capacité d'un LLM à utiliser le contexte pour comprendre les mots ayant plusieurs significations. Chaque entrée de l'ensemble de données contient les éléments suivants :
- Deux phrases contenant chacune le mot cible
- Le mot cible
- La bonne réponse (valeur booléenne), où :
- "True" signifie que le mot cible a la même signification dans les deux phrases.
- "Faux" signifie que le mot cible a une signification différente dans les deux phrases.
Exemple :
- Deux phrases :
- Il y a beaucoup de déchets dans le lit de la rivière.
- Je garde un verre d'eau à côté de mon lit quand je dors.
- Mot cible : lit
- Bonne réponse : Faux, car le mot cible a une signification différente dans les deux phrases.
Pour en savoir plus, consultez WiC : l'ensemble de données Word-in-Context pour évaluer les représentations de sens sensibles au contexte.
Words in Context est un composant de l'ensemble SuperGLUE.
WSC
Abréviation de Winograd Schema Challenge.
X
XL-Sum (xlsum)
Ensemble de données permettant d'évaluer la capacité d'un LLM à résumer du texte. XL-Sum fournit des entrées dans de nombreuses langues. Chaque entrée de l'ensemble de données contient les éléments suivants :
- Article de la British Broadcasting Company (BBC).
- Résumé de l'article, rédigé par son auteur. Notez que ce résumé peut contenir des mots ou des expressions qui ne figurent pas dans l'article.
Pour en savoir plus, consultez XL-Sum : résumé abstrait multilingue à grande échelle pour 44 langues.