Cette page a été traduite par l'API Cloud Translation.

Glossaire du machine learning: métriques

Cette page contient des termes du glossaire des métriques. Pour consulter tous les termes du glossaire, cliquez ici.

A

accuracy

#fundamentals

#Metric

Nombre de prédictions de classification correctes divisé par le nombre total de prédictions. Par exemple :

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

Par exemple, un modèle qui a fait 40 prédictions correctes et 10 prédictions incorrectes aurait une précision de :

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

La classification binaire fournit des noms spécifiques pour les différentes catégories de prédictions correctes et de prédictions incorrectes. La formule de précision pour la classification binaire est la suivante :

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

où :

TP correspond au nombre de vrais positifs (prédictions correctes).
TN correspond au nombre de vrais négatifs (prédictions correctes).
FP correspond au nombre de faux positifs (prédictions incorrectes).
FN correspond au nombre de faux négatifs (prédictions incorrectes).

Comparer et opposer la justesse à la précision et au rappel.

Cliquez sur l'icône pour en savoir plus sur la précision et les ensembles de données déséquilibrés.

Bien qu'il s'agisse d'une métrique utile dans certaines situations, la précision est très trompeuse dans d'autres. En particulier, la précision est généralement une mauvaise métrique pour évaluer les modèles de classification qui traitent les ensembles de données déséquilibrés en termes de classes.

Par exemple, supposons qu'il ne neige que 25 jours par siècle dans une certaine ville subtropicale. Comme les jours sans neige (classe négative) sont beaucoup plus nombreux que les jours avec neige (classe positive), l'ensemble de données sur la neige pour cette ville est déséquilibré. Imaginez un modèle de classification binaire qui est censé prédire s'il va neiger ou non chaque jour, mais qui prédit simplement "pas de neige" tous les jours. Ce modèle est très précis, mais n'a aucun pouvoir prédictif. Le tableau suivant récapitule les résultats pour un siècle de prédictions :

Catégorie	Nombre
VP	0
TN	36499
FP	0
FN	25

La précision de ce modèle est donc la suivante :

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (0 + 36499) / (0 + 36499 + 0 + 25) = 0.9993 = 99.93%

Bien qu'une précision de 99,93 % semble très impressionnante, le modèle n'a en réalité aucun pouvoir prédictif.

La précision et le rappel sont généralement des métriques plus utiles que la justesse pour évaluer les modèles entraînés sur des ensembles de données aux classes déséquilibrées.

Pour en savoir plus, consultez Classification : précision, rappel, exactitude et métriques associées dans le Cours d'initiation au Machine Learning.

aire sous la courbe de précision/rappel

#Metric

Consultez AUC PR (aire sous la courbe de précision/rappel).

aire sous la courbe ROC

#Metric

Consultez AUC (aire sous la courbe ROC).

AUC (aire sous la courbe ROC)

#fundamentals

#Metric

Nombre compris entre 0,0 et 1,0 représentant la capacité d'un modèle de classification binaire à séparer les classes positives des classes négatives. Plus l'AUC est proche de 1,0, plus le modèle est performant pour séparer les classes les unes des autres.

Par exemple, l'illustration suivante montre un modèle de classification qui sépare parfaitement les classes positives (ovales verts) des classes négatives (rectangles violets). Ce modèle parfait et irréaliste a une AUC de 1,0 :

Une droite numérique avec huit exemples positifs d'un côté et neuf exemples négatifs de l'autre.

À l'inverse, l'illustration suivante montre les résultats d'un modèle de classification qui a généré des résultats aléatoires. Ce modèle a une AUC de 0,5 :

Une droite numérique avec six exemples positifs et six exemples négatifs.
La séquence d'exemples est la suivante : positif, négatif, positif, négatif, positif, négatif, positif, négatif, positif, négatif, positif, négatif.

Oui, le modèle précédent a une AUC de 0,5, et non de 0.

La plupart des modèles se situent entre ces deux extrêmes. Par exemple, le modèle suivant sépare plus ou moins les positifs des négatifs et présente donc une AUC comprise entre 0,5 et 1,0 :

Une droite numérique avec six exemples positifs et six exemples négatifs.
La séquence d'exemples est la suivante : négatif, négatif, négatif, négatif, positif, négatif, positif, positif, négatif, positif, positif, positif.

L'AUC ignore toute valeur que vous définissez pour classification threshold. L'AUC prend en compte tous les seuils de classification possibles.

Cliquez sur l'icône pour en savoir plus sur la relation entre les courbes AUC et ROC.

L'AUC représente l'aire sous une courbe ROC. Par exemple, la courbe ROC d'un modèle qui sépare parfaitement les positifs des négatifs se présente comme suit :

L'AUC correspond à la zone grise de l'illustration précédente. Dans ce cas inhabituel, la surface correspond simplement à la longueur de la région grise (1,0) multipliée par sa largeur (1,0). Ainsi, le produit de 1,0 et 1,0 donne une AUC de exactement 1,0, qui est le score AUC le plus élevé possible.

À l'inverse, la courbe ROC d'un modèle de classification qui ne peut pas du tout séparer les classes est la suivante. L'aire de cette région grise est de 0,5.

Une courbe ROC plus typique ressemble approximativement à ce qui suit :

Il serait fastidieux de calculer manuellement l'aire sous cette courbe. C'est pourquoi un programme calcule généralement la plupart des valeurs AUC.

Cliquez sur l'icône pour obtenir une définition plus formelle de l'AUC.

L'AUC correspond à la probabilité qu'un modèle de classification soit plus confiant qu'un exemple positif choisi aléatoirement soit effectivement positif par rapport à un exemple négatif choisi aléatoirement.

Pour en savoir plus, consultez Classification : ROC et AUC dans le Cours d'initiation au machine learning.

précision moyenne à k

#Metric

Métrique permettant de résumer les performances d'un modèle sur une seule invite qui génère des résultats classés, comme une liste numérotée de recommandations de livres. La précision moyenne à k correspond à la moyenne des valeurs de précision à k pour chaque résultat pertinent. La formule de la précision moyenne à k est donc la suivante :

\[{\text{average precision at k}} = \frac{1}{n} \sum_{i=1}^n {\text{precision at k for each relevant item} } \]

où :

$n$ correspond au nombre d'éléments pertinents dans la liste.

À comparer au rappel à k.

Cliquez sur l'icône pour voir un exemple.

Supposons qu'un grand modèle de langage reçoive la requête suivante :

List the 6 funniest movies of all time in order.

Le grand modèle de langage renvoie la liste suivante :

The General
Mean Girls
Un beau dimanche
Avatar
Citizen Kane
This is Spinal Tap

Quatre des films de la liste renvoyée sont très drôles (c'est-à-dire qu'ils sont pertinents), mais deux sont des drames (non pertinents). Le tableau suivant détaille les résultats :

Position	Film	Pertinent ?	Précision à k
1	The General	Oui	1.0
2	Mean Girls	Oui	1.0
3	Un beau dimanche	Non	non pertinent
4	Avatar	Oui	0,75
5	Citizen Kane	Non	non pertinent
6	This is Spinal Tap	Oui	0,67

Le nombre de résultats pertinents est de quatre. Vous pouvez donc calculer la précision moyenne à 6 comme suit :

$${\text{average precision at 6}} = \frac{1}{4} {\text{(1.0 + 1.0 + 0.75 + 0.67)} } $$ $${\text{average precision at 6}} = {\text{~0.85} } $$

B

Valeur de référence

#Metric

Un modèle utilisé comme point de référence pour comparer les performances d'un autre modèle (généralement plus complexe). Par exemple, un modèle de régression logistique peut servir de bonne référence pour un modèle profond.

Pour un problème donné, la référence aide les développeurs de modèles à quantifier les performances minimales attendues qu'un nouveau modèle doit atteindre pour être utile.

C

coût

#Metric

Synonyme de perte.

équité contrefactuelle

#responsible

#Metric

Une métrique d'équité qui vérifie si un modèle de classification produit le même résultat pour une personne que pour une autre qui est identique à la première, sauf en ce qui concerne un ou plusieurs attributs sensibles. L'évaluation d'un modèle de classification pour l'équité contrefactuelle est une méthode permettant d'identifier les sources potentielles de biais dans un modèle.

Pour en savoir plus, consultez les ressources suivantes :

Équité : équité contrefactuelle dans le cours d'initiation au machine learning
Quand les mondes se rencontrent : intégrer différentes hypothèses contrefactuelles dans l'équité

entropie croisée

#Metric

Généralisation de la perte logistique aux problèmes de classification à classes multiples. L'entropie croisée quantifie la différence entre deux distributions de probabilité. Voir aussi perplexité.

fonction de distribution cumulative (CDF)

#Metric

Fonction qui définit la fréquence des échantillons inférieurs ou égaux à une valeur cible. Par exemple, considérons une distribution normale de valeurs continues. Une CDF vous indique qu'environ 50 % des échantillons doivent être inférieurs ou égaux à la moyenne et qu'environ 84 % des échantillons doivent être inférieurs ou égaux à un écart-type au-dessus de la moyenne.

D

parité démographique

#responsible

#Metric

Une métrique d'équité qui est satisfaite si les résultats de la classification d'un modèle ne dépendent pas d'un attribut sensible donné.

Par exemple, si les Lilliputiens et les Brobdingnags postulent à l'université de Glubbdubdrib, la parité démographique est atteinte si le pourcentage de Lilliputiens admis est le même que celui des Brobdingnags, que l'un des groupes soit en moyenne plus qualifié que l'autre ou non.

À comparer avec l'égalité des chances et l'égalité des opportunités, qui permettent aux résultats de classification agrégés de dépendre des attributs sensibles, mais pas aux résultats de classification pour certains libellés de vérité terrain spécifiés. Consultez "Attacking discrimination with smarter machine learning" (Lutter contre la discrimination grâce à un machine learning plus intelligent) pour une visualisation explorant les compromis lors de l'optimisation pour la parité démographique.

Pour en savoir plus, consultez Équité : parité démographique dans le Cours d'initiation au Machine Learning.

E

Distance Earth Mover (EMD)

#Metric

Mesure de la similarité relative de deux distributions. Plus la distance de déplacement de la Terre est faible, plus les distributions sont similaires.

distance d'édition

#Metric

Mesure de la similarité entre deux chaînes de texte. Dans le machine learning, la distance d'édition est utile pour les raisons suivantes :

La distance d'édition est facile à calculer.
La distance d'édition peut comparer deux chaînes connues pour être similaires.
La distance d'édition peut déterminer le degré de similarité entre différentes chaînes et une chaîne donnée.

Il existe plusieurs définitions de la distance d'édition, chacune utilisant des opérations de chaîne différentes. Pour obtenir un exemple, consultez Distance de Levenshtein.

fonction de distribution empirique (FDR ou FDE)

#Metric

Fonction de répartition basée sur des mesures empiriques issues d'un ensemble de données réel. La valeur de la fonction à n'importe quel point de l'axe x correspond à la fraction des observations de l'ensemble de données qui sont inférieures ou égales à la valeur spécifiée.

entropie

#df

#Metric

Dans la théorie de l'information, l'entropie est une description du degré d'imprévisibilité d'une distribution de probabilité. Elle est également définie comme la quantité d'informations contenues dans chaque exemple. Une distribution présente l'entropie la plus élevée possible lorsque toutes les valeurs d'une variable aléatoire sont équiprobables.

L'entropie d'un ensemble avec deux valeurs possibles "0" et "1" (par exemple, les libellés dans un problème de classification binaire) a la formule suivante :

H = -p log p - q log q = -p log p - (1-p) * log (1-p)

où :

H est l'entropie.
p est la fraction d'exemples "1".
q correspond à la fraction d'exemples "0". Notez que q = (1 - p)
log est généralement log₂. Dans ce cas, l'unité d'entropie est un bit.

Par exemple, supposons les éléments suivants :

100 exemples contiennent la valeur "1"
300 exemples contiennent la valeur "0"

La valeur d'entropie est donc la suivante :

p = 0,25
q = 0,75
H = (-0,25)log₂(0,25) - (0,75)log₂(0,75) = 0,81 bit par exemple

Un ensemble parfaitement équilibré (par exemple, 200 "0" et 200 "1") aurait une entropie de 1,0 bit par exemple. À mesure qu'un ensemble devient plus déséquilibré, son entropie tend vers 0.

Dans les arbres de décision, l'entropie permet de formuler le gain d'information pour aider le splitter à sélectionner les conditions lors de la croissance d'un arbre de décision de classification.

Comparer l'entropie avec :

impureté de Gini
Fonction de perte d'entropie croisée

L'entropie est souvent appelée entropie de Shannon.

Pour en savoir plus, consultez Splitter exact pour la classification binaire avec des caractéristiques numériques dans le cours sur les forêts de décision.

l'égalité des chances.

#responsible

#Metric

Une métrique d'équité permettant d'évaluer si un modèle prédit le résultat souhaitable aussi bien pour toutes les valeurs d'une caractéristique sensible. En d'autres termes, si le résultat souhaitable pour un modèle est la classe positive, l'objectif serait d'avoir le même taux de vrais positifs pour tous les groupes.

L'égalité des chances est liée à la parité des chances, qui exige que les taux de vrais positifs et les taux de faux positifs soient les mêmes pour tous les groupes.

Supposons que l'université Glubbdubdrib accepte les Lilliputiens et les Brobdingnags dans un programme de mathématiques rigoureux. Les établissements secondaires lilliputiens proposent un programme solide de cours de mathématiques, et la grande majorité des élèves sont qualifiés pour le programme universitaire. Les établissements secondaires de Brobdingnag ne proposent pas de cours de mathématiques. Par conséquent, beaucoup moins d'élèves sont qualifiés. L'égalité des chances est respectée pour le libellé préféré "admis" par rapport à la nationalité (Lilliputien ou Brobdingnagien) si les élèves qualifiés ont la même probabilité d'être admis, qu'ils soient Lilliputiens ou Brobdingnagiens.

Par exemple, supposons que 100 Lilliputiens et 100 Brobdingnagiens postulent à l'université de Glubbdubdrib, et que les décisions d'admission sont prises comme suit :

Tableau 1. Candidats lilliputiens (90 % sont qualifiés)

	Qualifié	Non défini
Admis	45	3
Refusé	45	7
Total	90	10
Pourcentage d'étudiants qualifiés admis : 45/90 = 50 % Pourcentage d'étudiants non qualifiés refusés : 7/10 = 70 % Pourcentage total d'étudiants lilliputiens admis : (45+3)/100 = 48 %

Tableau 2. Candidats brobdingnagiens (10 % sont qualifiés) :

	Qualifié	Non défini
Admis	5	9
Refusé	5	81
Total	10	90
Pourcentage d'étudiants qualifiés admis : 5/10 = 50 % Pourcentage d'étudiants non qualifiés refusés : 81/90 = 90 % Pourcentage total d'étudiants brobdingnagiens admis : (5+9)/100 = 14 %

Les exemples précédents satisfont l'égalité des chances pour l'acceptation des élèves qualifiés, car les Lilliputiens et les Brobdingnagiens qualifiés ont tous deux 50 % de chances d'être admis.

Bien que l'égalité des chances soit respectée, les deux métriques d'équité suivantes ne le sont pas :

Parité démographique : les Lilliputiens et les Brobdingnagiens sont admis à l'université à des taux différents (48 % des Lilliputiens sont admis, contre seulement 14 % des Brobdingnagiens).
Parité des chances : bien que les étudiants lilliputiens et brobdingnagiens qualifiés aient la même chance d'être admis, la contrainte supplémentaire selon laquelle les lilliputiens et les brobdingnagiens non qualifiés ont la même chance d'être refusés n'est pas respectée. Le taux de refus est de 70 % pour les Lilliputiens non qualifiés et de 90 % pour les Brobdingnagiens non qualifiés.

Pour en savoir plus, consultez Équité : égalité des chances dans le Cours d'initiation au Machine Learning.

Chances égales

#responsible

#Metric

Métrique d'équité permettant d'évaluer si un modèle prédit les résultats aussi bien pour toutes les valeurs d'un attribut sensible par rapport à la classe positive et à la classe négative, et non pas uniquement à l'une ou l'autre. En d'autres termes, le taux de vrais positifs et le taux de faux négatifs doivent être identiques pour tous les groupes.

L'égalité des chances est liée à l'égalité des opportunités, qui ne se concentre que sur les taux d'erreur pour une seule classe (positive ou négative).

Par exemple, supposons que l'université Glubbdubdrib accepte les Lilliputiens et les Brobdingnagiens dans un programme de mathématiques rigoureux. Les établissements secondaires lilliputiens proposent un programme solide de cours de mathématiques, et la grande majorité des élèves sont qualifiés pour le programme universitaire. Les établissements secondaires de Brobdingnag ne proposent pas de cours de mathématiques. Par conséquent, beaucoup moins de leurs élèves sont qualifiés. L'égalité des chances est respectée si, qu'un candidat soit lilliputien ou brobdingnagien, il a la même probabilité d'être admis au programme s'il est qualifié, et la même probabilité d'être refusé s'il ne l'est pas.

Supposons que 100 Lilliputiens et 100 Brobdingnags postulent à l'université de Glubbdubdrib, et que les décisions d'admission sont prises comme suit :

Tableau 3 : Candidats lilliputiens (90 % sont qualifiés)

	Qualifié	Non défini
Admis	45	2
Refusé	45	8
Total	90	10
Pourcentage d'étudiants qualifiés admis : 45/90 = 50 % Pourcentage d'étudiants non qualifiés refusés : 8/10 = 80 % Pourcentage total d'étudiants lilliputiens admis : (45+2)/100 = 47 %

Tableau 4. Candidats brobdingnagiens (10 % sont qualifiés) :

	Qualifié	Non défini
Admis	5	18
Refusé	5	72
Total	10	90
Pourcentage d'étudiants qualifiés admis : 5/10 = 50 % Pourcentage d'étudiants non qualifiés refusés : 72/90 = 80 % Pourcentage total d'étudiants brobdingnagiens admis : (5+18)/100 = 23 %

Les chances égales sont respectées, car les étudiants lilliputiens et brobdingnagiens qualifiés ont tous deux 50 % de chances d'être admis, tandis que les étudiants lilliputiens et brobdingnagiens non qualifiés ont 80 % de chances d'être refusés.

La parité des chances est formellement définie dans "Equality of Opportunity in Supervised Learning" comme suit : "Le prédicteur Ŷ satisfait à la parité des chances par rapport à l'attribut protégé A et au résultat Y si Ŷ et A sont indépendants, conditionnellement à Y."

evals

#generativeAI

#Metric

Principalement utilisé comme abréviation pour LLM evaluations (Évaluations LLM). Plus généralement, evals est l'abréviation de toute forme d'évaluation.

hors connexion

#generativeAI

#Metric

Processus de mesure de la qualité d'un modèle ou de comparaison de différents modèles.

Pour évaluer un modèle de machine learning supervisé, vous le comparez généralement à un ensemble de validation et à un ensemble de test. L'évaluation d'un LLM implique généralement des évaluations plus larges de la qualité et de la sécurité.

F

F₁

#Metric

Métrique de classification binaire "cumulée" qui repose à la fois sur la précision et le rappel. Voici la formule :

$$F{_1} = \frac{\text{2 * precision * recall}} {\text{precision + recall}}$$

Cliquez sur l'icône pour voir des exemples.

Supposons que la précision et le rappel aient les valeurs suivantes :

precision = 0.6
recall = 0.4

Pour calculer F₁ :

$$F{_1} = \frac{\text{2 * 0.6 * 0.4}} {\text{0.6 + 0.4}} = 0.48$$

Lorsque la précision et le rappel sont assez similaires (comme dans l'exemple précédent), F₁ est proche de leur moyenne. Lorsque la précision et le rappel diffèrent de manière significative, F₁ est plus proche de la valeur la plus basse. Exemple :

précision = 0,9
recall = 0.1

$$F{_1} = \frac{\text{2 * 0.9 * 0.1}} {\text{0.9 + 0.1}} = 0.18$$

métrique d'équité

#responsible

#Metric

Définition mathématique de l'équité qui est mesurable. Voici quelques métriques d'équité couramment utilisées :

Parité des chances
parité prédictive
Équité contrefactuelle
Parité démographique

De nombreuses métriques d'équité s'excluent mutuellement. Pour en savoir plus, consultez Incompatibilité des métriques d'équité.

Faux négatif (FN)

#fundamentals

#Metric

Exemple dans lequel le modèle a prédit à tort la classe négative. Par exemple, le modèle prédit qu'un e-mail particulier n'est pas du spam (classe négative), alors qu'en réalité, il l'est.

taux de faux négatifs

#Metric

Proportion d'exemples positifs réels pour lesquels le modèle a prédit à tort la classe négative. La formule suivante permet de calculer le taux de faux négatifs :

$$\text{false negative rate} = \frac{\text{false negatives}}{\text{false negatives} + \text{true positives}}$$

Pour en savoir plus, consultez Seuils et matrice de confusion dans le Cours d'initiation au machine learning.

Faux positif (FP)

#fundamentals

#Metric

Exemple dans lequel le modèle prédit à tort la classe positive. Par exemple, le modèle prédit qu'un e-mail particulier est du spam (classe positive), alors qu'en réalité ce n'est pas un courrier indésirable.

Pour en savoir plus, consultez Seuils et matrice de confusion dans le Cours d'initiation au machine learning.

taux de faux positifs (TFP) (false positive rate (FPR))

#fundamentals

#Metric

Proportion d'exemples négatifs réels pour lesquels le modèle a prédit à tort la classe positive. La formule suivante permet de calculer le taux de faux positifs :

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

Le taux de faux positifs correspond à l'abscisse d'une courbe ROC.

Pour en savoir plus, consultez Classification : ROC et AUC dans le Cours d'initiation au machine learning.

importance des caractéristiques.

#df

#Metric

Synonyme de importance des variables.

modèle de fondation

#generativeAI

#Metric

Un modèle pré-entraîné très volumineux, entraîné sur un ensemble d'entraînement énorme et diversifié. Un modèle de fondation peut effectuer les deux opérations suivantes :

répondre correctement à un large éventail de requêtes ;
Servir de modèle de base pour un affinage supplémentaire ou d'autres personnalisations.

En d'autres termes, un modèle de fondation est déjà très performant de manière générale, mais il peut être personnalisé davantage pour devenir encore plus utile pour une tâche spécifique.

fraction de succès

#generativeAI

#Metric

Métrique permettant d'évaluer le texte généré d'un modèle de ML. La fraction de succès correspond au nombre de résultats textuels générés "réussis" divisé par le nombre total de résultats textuels générés. Par exemple, si un grand modèle de langage a généré 10 blocs de code, dont cinq ont réussi, la fraction de réussite sera de 50 %.

Bien que la fraction de succès soit largement utile dans les statistiques, dans le ML, cette métrique est principalement utile pour mesurer les tâches vérifiables telles que la génération de code ou les problèmes mathématiques.

G

Impureté de Gini

#df

#Metric

Métrique semblable à l'entropie. Les splitters utilisent des valeurs dérivées de l'impureté de Gini ou de l'entropie pour composer des conditions pour les arbres de décision de classification. Le gain d'information est dérivé de l'entropie. Il n'existe pas de terme équivalent universellement accepté pour la métrique dérivée de l'impureté de Gini. Toutefois, cette métrique sans nom est tout aussi importante que le gain d'information.

L'impureté de Gini est également appelée indice de Gini ou simplement Gini.

Cliquez sur l'icône pour obtenir des détails mathématiques sur l'impureté de Gini.

L'impureté de Gini correspond à la probabilité de mal classer une nouvelle donnée issue de la même distribution. L'impureté de Gini d'un ensemble avec deux valeurs possibles "0" et "1" (par exemple, les libellés dans un problème de classification binaire) est calculée à partir de la formule suivante :

I = 1 - (p² + q²) = 1 - (p² + (1-p)²)

où :

I est l'impureté de Gini.
p est la fraction d'exemples "1".
q correspond à la fraction d'exemples "0". Notez que q = 1-p

Prenons l'exemple de l'ensemble de données suivant :

100 libellés (0,25 % de l'ensemble de données) contiennent la valeur "1".
300 libellés (0,75 % de l'ensemble de données) contiennent la valeur "0".

L'impureté de Gini est donc la suivante :

p = 0,25
q = 0,75
I = 1 - (0,25² + 0,75²) = 0,375

Par conséquent, une étiquette aléatoire du même ensemble de données aurait 37,5 % de chances d'être mal classée et 62,5 % de chances d'être correctement classée.

Une étiquette parfaitement équilibrée (par exemple, 200 "0" et 200 "1") aurait une impureté de Gini de 0,5. Un libellé très déséquilibré aurait une impureté de Gini proche de 0.

H

perte de marge maximale

#Metric

Famille de fonctions de perte pour la classification conçue pour trouver la frontière de décision la plus éloignée possible de chaque exemple d'entraînement, afin de maximiser la marge entre les exemples et la frontière. Les KSVMs utilisent la marge maximale (ou une fonction associée, par exemple le carré de la marge maximale). Dans le cas de la classification binaire, la fonction de perte de marge maximale est définie ainsi :

$$\text{loss} = \text{max}(0, 1 - (y * y'))$$

où y est l'étiquette réelle (-1 ou +1) et y' est la sortie brute du modèle de classification :

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Par conséquent, le graphique de la marge maximale en fonction de (y * y') est de la forme suivante :

Graphique cartésien composé de deux segments de ligne reliés. Le premier segment de ligne commence à (-3, 4) et se termine à (1, 0). Le segment de la deuxième ligne commence à (1, 0) et se poursuit indéfiniment avec une pente de 0.

I

incompatibilité des métriques d'équité

#responsible

#Metric

L'idée que certaines notions d'équité sont mutuellement incompatibles et ne peuvent pas être satisfaites simultanément. Par conséquent, il n'existe pas de métrique universelle unique pour quantifier l'équité qui puisse être appliquée à tous les problèmes de ML.

Bien que cela puisse sembler décourageant, l'incompatibilité des métriques d'équité n'implique pas que les efforts d'équité sont vains. Au lieu de cela, il suggère que l'équité doit être définie selon un contexte et un problème de ML donnés, dans le but d'éviter les préjudices spécifiques à ses cas d'utilisation.

Pour en savoir plus sur l'incompatibilité des métriques d'équité, consultez On the (im)possibility of fairness.

équité individuelle

#responsible

#Metric

Métrique d'équité qui vérifie si des individus semblables sont classés de manière similaire. Par exemple, l'Académie Brobdingnagian peut souhaiter satisfaire l'équité individuelle en s'assurant que deux élèves ayant obtenu des notes et des résultats de tests standardisés identiques ont la même probabilité d'être admis.

Notez que l'équité individuelle repose entièrement sur la façon dont vous définissez la "similarité" (dans ce cas, les notes et les résultats des tests). Vous risquez d'introduire de nouveaux problèmes d'équité si votre métrique de similarité manque des informations importantes (comme la rigueur du programme scolaire d'un élève).

Pour en savoir plus sur l'équité individuelle, consultez Fairness Through Awareness.

gain d'information

#df

#Metric

Dans les forêts de décision, il s'agit de la différence entre l'entropie d'un nœud et la somme pondérée (par nombre d'exemples) de l'entropie de ses nœuds enfants. L'entropie d'un nœud correspond à l'entropie des exemples de ce nœud.

Prenons par exemple les valeurs d'entropie suivantes :

Entropie du nœud parent = 0,6
L'entropie d'un nœud enfant avec 16 exemples pertinents est égale à 0,2.
Entropie d'un autre nœud enfant avec 24 exemples pertinents = 0,1

Ainsi, 40 % des exemples se trouvent dans un nœud enfant et 60 % dans l'autre. Par conséquent :

Somme pondérée de l'entropie des nœuds enfants = (0,4 * 0,2) + (0,6 * 0,1) = 0,14

Le gain d'information est donc le suivant :

Gain d'information = entropie du nœud parent - somme pondérée de l'entropie des nœuds enfants
gain d'information = 0,6 – 0,14 = 0,46

La plupart des splitters cherchent à créer des conditions qui maximisent le gain d'information.

accord inter-évaluateurs

#Metric

Mesure de la fréquence à laquelle les évaluateurs humains sont d'accord lorsqu'ils effectuent une tâche. Si les évaluateurs ne sont pas d'accord, il faudra peut-être améliorer les instructions de la tâche. Parfois également appelé accord inter-annotateurs ou fiabilité inter-évaluateurs. Voir aussi le kappa de Cohen, l'une des mesures de l'accord inter-évaluateurs les plus populaires.

Pour en savoir plus, consultez Données catégorielles : problèmes courants dans le Cours d'initiation au Machine Learning.

L

Perte L₁

#fundamentals

#Metric

Fonction de perte qui calcule la valeur absolue de la différence entre les valeurs d'étiquette réelles et les valeurs prédites par un modèle. Par exemple, voici le calcul de la perte L₁ pour un batch de cinq exemples :

Valeur réelle de l'exemple	Valeur prédite du modèle	Valeur absolue du delta
7	6	1
5	4	1
8	11	3
4	6	2
9	8	1
		8 = perte L₁

La perte L₁ est moins sensible aux valeurs aberrantes que la perte L₂.

L'erreur absolue moyenne correspond à la perte L₁ moyenne par exemple.

Cliquez sur l'icône pour afficher la formule mathématique.

$$ L_1 loss = \sum_{i=0}^n | y_i - \hat{y}_i |$$

où :

$n$ correspond au nombre d'exemples.
$y$ est la valeur réelle du libellé.
$\hat{y}$ est la valeur que le modèle prédit pour $y$.

Pour en savoir plus, consultez Régression linéaire : perte dans le cours d'initiation au machine learning.

Perte L₂

#fundamentals

#Metric

Une fonction de perte qui calcule le carré de la différence entre les valeurs d'étiquette réelles et les valeurs prédites par un modèle. Par exemple, voici le calcul de la perte L₂ pour un batch de cinq exemples :

Valeur réelle de l'exemple	Valeur prédite du modèle	Carré du delta
7	6	1
5	4	1
8	11	9
4	6	4
9	8	1
		16 = perte L₂

En raison de la mise au carré, la perte L₂ amplifie l'influence des valeurs aberrantes. En d'autres termes, la perte L₂ réagit plus fortement aux mauvaises prédictions que la perte L₁. Par exemple, la perte L₁ pour le lot précédent serait de 8 au lieu de 16. Notez qu'une seule valeur aberrante représente 9 des 16 valeurs.

Les modèles de régression utilisent généralement la perte L₂ comme fonction de perte.

L'erreur quadratique moyenne correspond à la perte L₂ moyenne par exemple. La perte quadratique est un autre nom pour la perte L₂.

Cliquez sur l'icône pour afficher la formule mathématique.

$$ L_2 loss = \sum_{i=0}^n {(y_i - \hat{y}_i)}^2$$

où :

$n$ correspond au nombre d'exemples.
$y$ est la valeur réelle du libellé.
$\hat{y}$ est la valeur que le modèle prédit pour $y$.

Pour en savoir plus, consultez Régression logistique : perte et régularisation dans le Cours d'initiation au machine learning.

Évaluations de LLM

#generativeAI

#Metric

Ensemble de métriques et de benchmarks permettant d'évaluer les performances des grands modèles de langage (LLM). De manière générale, les évaluations de LLM :

Aidez les chercheurs à identifier les domaines dans lesquels les LLM doivent être améliorés.
Elles sont utiles pour comparer différents LLM et identifier le meilleur LLM pour une tâche spécifique.
Contribuez à garantir que les LLM sont sûrs et éthiques.

Pour en savoir plus, consultez Grands modèles de langage (LLM) dans le Cours d'initiation au Machine Learning.

perte

#fundamentals

#Metric

Pendant l'entraînement d'un modèle supervisé, une mesure de l'écart entre la prédiction d'un modèle et son libellé.

Une fonction de perte calcule la perte.

Pour en savoir plus, consultez Régression linéaire : perte dans le cours d'initiation au machine learning.

fonction de perte

#fundamentals

#Metric

Pendant l'entraînement ou le test, une fonction mathématique qui calcule la perte sur un batch d'exemples. Une fonction de perte renvoie une perte plus faible pour les modèles qui font de bonnes prédictions que pour ceux qui font de mauvaises prédictions.

L'objectif de l'entraînement est généralement de minimiser la perte renvoyée par une fonction de perte.

Il existe de nombreux types de fonctions de perte. Choisissez la fonction de perte appropriée pour le type de modèle que vous créez. Exemple :

La perte L₂ (ou erreur quadratique moyenne) est la fonction de perte pour la régression linéaire.
La perte logistique est la fonction de perte pour la régression logistique.

M

Erreur absolue moyenne (EAM)

#Metric

Perte moyenne par exemple lorsque la perte L₁ est utilisée. Pour calculer l'erreur absolue moyenne :

Calcule la perte L₁ pour un lot.
Divisez la perte L₁ par le nombre d'exemples du lot.

Cliquez sur l'icône pour afficher la formule mathématique.

$$\text{Mean Absolute Error} = \frac{1}{n}\sum_{i=0}^n | y_i - \hat{y}_i |$$

où :

$n$ correspond au nombre d'exemples.
$y$ est la valeur réelle du libellé.
$\hat{y}$ est la valeur que le modèle prédit pour $y$.

Prenons par exemple le calcul de la perte L₁ sur le lot de cinq exemples suivant :

Valeur réelle de l'exemple	Valeur prédite du modèle	Perte (différence entre la valeur réelle et la valeur prédite)
7	6	1
5	4	1
8	11	3
4	6	2
9	8	1
		8 = perte L₁

La perte L₁ est donc de 8 et le nombre d'exemples est de 5. L'erreur absolue moyenne est donc la suivante :

Mean Absolute Error = L₁ loss / Number of Examples
Mean Absolute Error = 8/5 = 1.6

Comparez l'erreur absolue moyenne à l'erreur quadratique moyenne et à la racine carrée de l'erreur quadratique moyenne.

Précision moyenne à k (mAP@k)

#generativeAI

#Metric

Moyenne statistique de tous les scores précision moyenne à k dans un ensemble de données de validation. La précision moyenne à k peut être utilisée pour évaluer la qualité des recommandations générées par un système de recommandation.

Bien que l'expression "moyenne moyenne" semble redondante, le nom de la métrique est approprié. En effet, cette métrique trouve la moyenne de plusieurs valeurs précision moyenne à k.

Cliquez sur l'icône pour voir un exemple.

Supposons que vous créez un système de recommandation qui génère une liste personnalisée de romans recommandés pour chaque utilisateur. En vous basant sur les commentaires de certains utilisateurs, vous calculez les cinq scores de précision moyenne à k suivants (un score par utilisateur) :

0.73
0,77
0,67
0.82
0.76

La précision moyenne à K est donc la suivante :

$$\text{mean } = \frac{\text{0.73 + 0.77 + 0.67 + 0.82 + 0.76}} {\text{5}} = \text{0.75}$$

Erreur quadratique moyenne (MSE)

#Metric

Perte moyenne par exemple lorsque la perte _L2 est utilisée. Calculez l'erreur quadratique moyenne comme suit :

Calcule la perte L₂ pour un lot.
Divisez la perte L₂ par le nombre d'exemples du lot.

Cliquez sur l'icône pour afficher la formule mathématique.

$$\text{Mean Squared Error} = \frac{1}{n}\sum_{i=0}^n {(y_i - \hat{y}_i)}^2$$ où :

$n$ correspond au nombre d'exemples.
$y$ est la valeur réelle du libellé.
$\hat{y}$ correspond à la prédiction du modèle pour $y$.

Par exemple, considérons la perte sur le lot suivant de cinq exemples :

Valeur réelle	Prédiction du modèle	Perte	Perte quadratique
7	6	1	1
5	4	1	1
8	11	3	9
4	6	2	4
9	8	1	1
			16 = perte L₂

L'erreur quadratique moyenne est donc la suivante :

Mean Squared Error = L₂ loss / Number of Examples
Mean Squared Error = 16/5 = 3.2

L'erreur quadratique moyenne est un optimiseur d'entraînement populaire, en particulier pour la régression linéaire.

Comparez l'erreur quadratique moyenne avec l'erreur absolue moyenne et la racine carrée de l'erreur quadratique moyenne.

TensorFlow Playground utilise l'erreur quadratique moyenne pour calculer les valeurs de perte.

Cliquez sur l'icône pour en savoir plus sur les valeurs aberrantes.

Les valeurs aberrantes ont une forte influence sur l'erreur quadratique moyenne. Par exemple, une perte de 1 correspond à une perte quadratique de 1, mais une perte de 3 correspond à une perte quadratique de 9. Dans le tableau précédent, l'exemple avec une perte de 3 représente environ 56 % de l'erreur quadratique moyenne, tandis que chacun des exemples avec une perte de 1 ne représente que 6 % de l'erreur quadratique moyenne.

Les valeurs aberrantes n'ont pas autant d'influence sur l'erreur absolue moyenne que sur l'erreur quadratique moyenne. Par exemple, une perte de trois comptes ne représente qu'environ 38 % de l'erreur absolue moyenne.

Le bornement est un moyen d'empêcher les valeurs aberrantes extrêmes de nuire à la capacité prédictive de votre modèle.

metric

#TensorFlow

#Metric

Statistique qui vous intéresse.

Un objectif est une métrique qu'un système de machine learning tente d'optimiser.

API Metrics (tf.metrics)

#Metric

API TensorFlow permettant d'évaluer des modèles. Par exemple, tf.metrics.accuracy détermine la fréquence à laquelle les prédictions d'un modèle correspondent aux libellés.

perte minimax

#Metric

Fonction de perte pour les réseaux antagonistes génératifs, basée sur l'entropie croisée entre la distribution des données générées et des données réelles.

La perte minimax est utilisée dans le premier article pour décrire les réseaux antagonistes génératifs.

Pour en savoir plus, consultez Fonctions de perte dans le cours sur les réseaux antagonistes génératifs.

capacité du modèle

#Metric

Complexité des problèmes à travers lesquels un modèle est capable d'apprendre. Plus un modèle est capable d'apprendre à travers des problèmes complexes, plus sa capacité est grande. La capacité d'un modèle augmente généralement avec le nombre de ses paramètres. Pour une définition formelle de la capacité d'un modèle de classification, consultez Dimension VC.

N

classe négative

#fundamentals

#Metric

Dans la classification binaire, une classe est dite positive et l'autre négative. La classe positive est l'élément ou l'événement que le modèle teste, et la classe négative est l'autre possibilité. Exemple :

La classe négative d'un test médical pourrait être "pas une tumeur".
La classe négative d'un modèle de classification d'e-mails peut être "non-spam".

À comparer à la classe positive.

O

objectif

#Metric

Une métrique que votre algorithme tente d'optimiser.

fonction objectif

#Metric

Formule mathématique ou métrique qu'un modèle vise à optimiser. Par exemple, la fonction objectif de la régression linéaire est généralement la perte quadratique moyenne. Par conséquent, lors de l'entraînement d'un modèle de régression linéaire, l'objectif est de minimiser la perte quadratique moyenne.

Dans certains cas, l'objectif est de maximiser la fonction objectif. Par exemple, si la fonction objectif est la précision, l'objectif est de maximiser la précision.

Voir aussi perte.

P

pass at k (pass@k)

#Metric

Métrique permettant de déterminer la qualité du code (par exemple, Python) généré par un grand modèle de langage. Plus précisément, "pass@k" indique la probabilité qu'au moins un bloc de code généré sur k blocs de code générés réussisse tous ses tests unitaires.

Les grands modèles de langage ont souvent du mal à générer du code de qualité pour les problèmes de programmation complexes. Pour résoudre ce problème, les ingénieurs logiciels demandent au grand modèle de langage de générer plusieurs (k) solutions pour le même problème. Les ingénieurs logiciels testent ensuite chacune des solutions à l'aide de tests unitaires. Le calcul de la réussite à k dépend du résultat des tests unitaires :

Si une ou plusieurs de ces solutions réussissent le test unitaire, le LLM réussit ce défi de génération de code.
Si aucune des solutions ne réussit le test unitaire, le LLM échoue à ce défi de génération de code.

La formule pour le taux de réussite à k est la suivante :

\[\text{pass at k} = \frac{\text{total number of passes}} {\text{total number of challenges}}\]

En général, des valeurs k plus élevées produisent des scores "pass at k" plus élevés. Toutefois, des valeurs k plus élevées nécessitent davantage de ressources de grands modèles de langage et de tests unitaires.

Cliquez sur l'icône pour afficher un exemple.

Supposons qu'un ingénieur logiciel demande à un grand modèle de langage de générer k=10 solutions pour n=50 problèmes de programmation complexes. Voici les résultats :

30 passages
20 échecs

Le score de réussite à 10 est donc le suivant :

$$\text{pass at 10} = \frac{\text{30}} {\text{50}} = 0.6$$

performance

#Metric

Terme complexe ayant plusieurs significations :

Sens standard dans le génie logiciel, à savoir : à quelle vitesse, ou avec quelle efficacité, ce logiciel s'exécute-t-il ?
Sens dans le machine learning, Ici, les performances répondent à la question suivante : quel est le degré d'exactitude de ce modèle ? Autrement dit, les prédictions du modèle sont-elles bonnes ?

Importance des variables de permutation

#df

#Metric

Type d'importance des variables qui évalue l'augmentation de l'erreur de prédiction d'un modèle après permutation des valeurs de la caractéristique. L'importance des variables de permutation est une métrique indépendante du modèle.

perplexité

#Metric

Mesure de l'efficacité d'un modèle à exécuter une tâche. Par exemple, supposons que votre tâche consiste à lire les premières lettres d'un mot qu'un utilisateur saisit sur un clavier de téléphone et à proposer une liste de mots possibles pour compléter la saisie. La perplexité P pour cette tâche correspond approximativement au nombre de suggestions que vous devez proposer pour que votre liste contienne le mot que l'utilisateur essaie de saisir.

La perplexité est liée à l'entropie croisée par la formule suivante :

$$P= 2^{-\text{cross entropy}}$$

classe positive

#fundamentals

#Metric

Classe pour laquelle vous effectuez le test.

Par exemple, la classe positive d'un modèle de détection du cancer pourrait être "tumeur". La classe positive d'un modèle de classification d'e-mails peut être "spam".

À comparer à la classe négative.

Cliquez sur l'icône pour afficher des notes supplémentaires.

Le terme classe positive peut être déroutant, car le résultat "positif" de nombreux tests est souvent indésirable. Par exemple, la classe positive de nombreux tests médicaux correspond aux tumeurs ou aux maladies. En général, vous souhaitez qu'un médecin vous dise : "Félicitations ! Les résultats de votre test sont négatifs." Dans tous les cas, la classe positive correspond à l'événement que le test cherche à identifier.

Certes, vous testez simultanément les classes positives et négatives.

AUC PR (aire sous la courbe de précision/rappel)

#Metric

Aire sous la courbe de précision/rappel interpolée, obtenue en traçant les points (rappel, précision) pour différentes valeurs du seuil de classification.

precision

#fundamentals

#Metric

Statistique des modèles de classification qui répond à la question suivante :

Lorsque le modèle a prédit la classe positive, quel pourcentage de prédictions étaient correctes ?

Voici la formule :

$$\text{Precision} = \frac{\text{true positives}} {\text{true positives} + \text{false positives}}$$

où :

Un vrai positif signifie que le modèle a prédit correctement la classe positive.
Un faux positif signifie que le modèle a prédit à tort la classe positive.

Par exemple, supposons qu'un modèle a effectué 200 prédictions positives. Parmi ces 200 prédictions positives :

150 étaient des vrais positifs.
50 étaient des faux positifs.

Dans ce cas :

$$\text{Precision} = \frac{\text{150}} {\text{150} + \text{50}} = 0.75$$

À comparer à la justesse et au rappel.

Pour en savoir plus, consultez Classification : précision, rappel, exactitude et métriques associées dans le Cours d'initiation au Machine Learning.

Précision à k (precision@k)

#Metric

Métrique permettant d'évaluer une liste d'éléments classés (ordonnés). La précision à k identifie la fraction des k premiers éléments de cette liste qui sont "pertinents". Par exemple :

\[\text{precision at k} = \frac{\text{relevant items in first k items of the list}} {\text{k}}\]

La valeur de k doit être inférieure ou égale à la longueur de la liste renvoyée. Notez que la longueur de la liste renvoyée ne fait pas partie du calcul.

La pertinence est souvent subjective. Même les évaluateurs humains experts ne sont pas toujours d'accord sur les éléments pertinents.

Comparer avec :

Précision moyenne à k
Précision moyenne à k

Cliquez sur l'icône pour voir un exemple.

Supposons qu'un grand modèle de langage reçoive la requête suivante :

List the 6 funniest movies of all time in order.

Le grand modèle de langage renvoie la liste affichée dans les deux premières colonnes du tableau suivant :

Position	Film	Pertinent ?
1	The General	Oui
2	Mean Girls	Oui
3	Un beau dimanche	Non
4	Avatar	Oui
5	Citizen Kane	Non
6	This is Spinal Tap	Oui

Deux des trois premiers films sont pertinents. La précision à 3 est donc la suivante :

$$\text{precision at 3} = \frac{\text{2}} {\text{3}} = 0.67$$

Trois des cinq premiers films sont très drôles. La précision à 5 est donc la suivante :

$$\text{precision at 5} = \frac{\text{3}} {\text{5}} = 0.6$$

la courbe de précision/rappel

#Metric

Courbe de précision par rapport au rappel à différents seuils de classification.

biais de prédiction

#Metric

Valeur indiquant l'écart entre la moyenne des prédictions et la moyenne des libellés dans l'ensemble de données.

À ne pas confondre avec le biais des modèles de machine learning ni avec le biais en matière d'éthique et d'équité.

parité prédictive

#responsible

#Metric

Une métrique d'équité qui vérifie si, pour un modèle de classification donné, les taux de précision sont équivalents pour les sous-groupes considérés.

Par exemple, un modèle qui prédit l'acceptation dans une université respecterait la parité prédictive pour la nationalité si son taux de précision était le même pour les Lilliputiens et les Brobdingnags.

La parité prédictive est parfois appelée parité du taux de prédiction.

Pour en savoir plus sur la parité prédictive, consultez la section 3.2.1 de l'article Explication des définitions d'équité.

parité des taux prédictive

#responsible

#Metric

Autre nom pour la parité prédictive.

fonction de densité de probabilité

#Metric

Fonction qui identifie la fréquence des échantillons de données ayant exactement une valeur spécifique. Lorsque les valeurs d'un ensemble de données sont des nombres à virgule flottante continus, les correspondances exactes sont rares. Toutefois, l'intégration d'une fonction de densité de probabilité de la valeur x à la valeur y donne la fréquence attendue des échantillons de données entre x et y.

Prenons l'exemple d'une distribution normale dont la moyenne est de 200 et l'écart-type de 30. Pour déterminer la fréquence attendue des échantillons de données compris entre 211,4 et 218,7, vous pouvez intégrer la fonction de densité de probabilité pour une distribution normale de 211,4 à 218,7.

R

recall (rappel)

#fundamentals

#Metric

Statistique des modèles de classification qui répond à la question suivante :

Lorsque la vérité terrain correspondait à la classe positive, quel pourcentage de prédictions le modèle a-t-il correctement identifié comme classe positive ?

Voici la formule :

\[\text{Recall} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}} \]

où :

Un vrai positif signifie que le modèle a prédit correctement la classe positive.
Un faux négatif signifie que le modèle a prédit à tort la classe négative.

Par exemple, supposons que votre modèle ait effectué 200 prédictions sur des exemples pour lesquels la vérité terrain était la classe positive. Sur ces 200 prédictions :

180 étaient des vrais positifs.
20 étaient des faux négatifs.

Dans ce cas :

\[\text{Recall} = \frac{\text{180}} {\text{180} + \text{20}} = 0.9 \]

Cliquez sur l'icône pour afficher des notes sur les ensembles de données avec déséquilibre des classes.

Le rappel est particulièrement utile pour déterminer le pouvoir prédictif des modèles de classification dans lesquels la classe positive est rare. Prenons l'exemple d'un ensemble de données déséquilibré dans lequel la classe positive pour une certaine maladie ne se produit que chez 10 patients sur un million. Supposons que votre modèle effectue cinq millions de prédictions qui donnent les résultats suivants :

30 vrais positifs
20 faux négatifs
4 999 000 vrais négatifs
950 faux positifs

Le rappel de ce modèle est donc le suivant :

recall = TP / (TP + FN)
recall = 30 / (30 + 20) = 0.6 = 60%

En revanche, la précision de ce modèle est la suivante :

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (30 + 4,999,000) / (30 + 4,999,000 + 950 + 20) = 99.98%

Cette valeur de précision élevée semble impressionnante, mais elle n'a en réalité aucune signification. Le rappel est une métrique beaucoup plus utile que la précision pour les ensembles de données avec déséquilibre des classes.

Pour en savoir plus, consultez Classification : précision, rappel et métriques associées.

Rappel à k (recall@k)

#Metric

Métrique permettant d'évaluer les systèmes qui génèrent une liste d'éléments classés (ordonnés). Le rappel à k identifie la fraction d'éléments pertinents dans les k premiers éléments de cette liste sur le nombre total d'éléments pertinents renvoyés.

\[\text{recall at k} = \frac{\text{relevant items in first k items of the list}} {\text{total number of relevant items in the list}}\]

À comparer à la précision à k.

Cliquez sur l'icône pour voir un exemple.

Supposons qu'un grand modèle de langage reçoive la requête suivante :

List the 10 funniest movies of all time in order.

Le grand modèle de langage renvoie la liste affichée dans les deux premières colonnes :

Position	Film	Pertinent ?
1	The General	Oui
2	Mean Girls	Oui
3	Un beau dimanche	Non
4	Avatar	Oui
5	This is Spinal Tap	Oui
6	Y a-t-il un pilote dans l'avion ?	Oui
7	Jour de la Marmotte	Oui
8	Monty Python et le Sacré Graal	Oui
9	Oppenheimer	Non
10	Clueless	Oui

Huit des films de la liste précédente sont très drôles. Ils sont donc considérés comme des "éléments pertinents de la liste". Par conséquent, 8 sera le dénominateur dans tous les calculs du rappel à k. Qu'en est-il du numérateur ? Eh bien, trois des quatre premiers éléments sont pertinents. Le rappel à 4 est donc le suivant :

$$\text{recall at 4} = \frac{\text{3}} {\text{8}} = 0.375$$

7 des 8 premiers films sont très amusants. Le rappel à 8 est donc le suivant :

$$\text{recall at 8} = \frac{\text{7}} {\text{8}} = 0.875$$

Courbe ROC (receiver operating characteristic)

#fundamentals

#Metric

Graphique du taux de vrais positifs par rapport au taux de faux positifs pour différents seuils de classification dans la classification binaire.

La forme d'une courbe ROC suggère la capacité d'un modèle de classification binaire à séparer les classes positives des classes négatives. Supposons, par exemple, qu'un modèle de classification binaire sépare parfaitement toutes les classes négatives de toutes les classes positives :

Une droite numérique avec huit exemples positifs à droite et sept exemples négatifs à gauche.

La courbe ROC du modèle précédent se présente comme suit :

Courbe ROC L'axe X correspond au taux de faux positifs et l'axe Y au taux de vrais positifs. La courbe a la forme d'un L inversé. La courbe commence à (0.0,0.0) et monte tout droit jusqu'à (0.0,1.0). La courbe passe ensuite de (0.0,1.0) à (1.0,1.0).

En revanche, l'illustration suivante représente les valeurs brutes de régression logistique pour un modèle médiocre qui ne peut pas du tout séparer les classes négatives des classes positives :

Une droite numérique avec des exemples positifs et des classes négatives complètement mélangés.

La courbe ROC de ce modèle se présente comme suit :

Une courbe ROC, qui est en fait une ligne droite allant de (0.0,0.0) à (1.0,1.0).

Dans le monde réel, la plupart des modèles de classification binaire séparent les classes positives et négatives dans une certaine mesure, mais généralement pas parfaitement. Par conséquent, une courbe ROC typique se situe quelque part entre les deux extrêmes :

Courbe ROC L'axe X correspond au taux de faux positifs et l'axe Y au taux de vrais positifs. La courbe ROC ressemble à un arc tremblant qui traverse les points cardinaux d'ouest en nord.

Le point d'une courbe ROC le plus proche de (0.0,1.0) identifie théoriquement le seuil de classification idéal. Toutefois, plusieurs autres problèmes concrets influencent la sélection du seuil de classification idéal. Par exemple, les faux négatifs peuvent être beaucoup plus problématiques que les faux positifs.

Une métrique numérique appelée AUC résume la courbe ROC en une seule valeur à virgule flottante.

la racine carrée de l'erreur quadratique moyenne (RMSE, Root Mean Squared Error)

#fundamentals

#Metric

Racine carrée de l'erreur quadratique moyenne.

ROUGE (Recall-Oriented Understudy for Gisting Evaluation)

#Metric

Famille de métriques qui évaluent les modèles de traduction automatique et de résumé automatique. Les métriques ROUGE déterminent le degré de chevauchement entre un texte de référence et le texte généré par un modèle de ML. Chaque membre de la famille ROUGE mesure le chevauchement d'une manière différente. Plus les scores ROUGE sont élevés, plus le texte de référence et le texte généré sont semblables.

Chaque membre de la famille ROUGE génère généralement les métriques suivantes :

Précision
Rappel
F₁

Pour en savoir plus et obtenir des exemples, consultez :

ROUGE-L
ROUGE-N
ROUGE-S

ROUGE-L

#Metric

Membre de la famille ROUGE axé sur la longueur de la plus longue sous-séquence commune dans le texte de référence et le texte généré. Les formules suivantes permettent de calculer le rappel et la précision pour ROUGE-L :

$$\text{ROUGE-L recall} = \frac{\text{longest common sequence}} {\text{number of words in the reference text} }$$

$$\text{ROUGE-L precision} = \frac{\text{longest common sequence}} {\text{number of words in the generated text} }$$

Vous pouvez ensuite utiliser F₁ pour regrouper le rappel ROUGE-L et la précision ROUGE-L dans une seule métrique :

$$\text{ROUGE-L F} {_1} = \frac{\text{2} * \text{ROUGE-L recall} * \text{ROUGE-L precision}} {\text{ROUGE-L recall} + \text{ROUGE-L precision} }$$

Cliquez sur l'icône pour obtenir un exemple de calcul de ROUGE-L.

Prenons l'exemple du texte de référence et du texte généré suivants.

Catégorie	Qui a produit le contenu ?	Texte
Texte de référence	Traducteur humain	Je veux comprendre une grande variété de choses.
Texte généré	Modèle de ML	Je veux apprendre beaucoup de choses.

Par conséquent :

La sous-séquence commune la plus longue est de 5 (I want to of things).
Le texte de référence contient neuf mots.
Le texte généré contient sept mots.

Par conséquent :

$$\text{ROUGE-L recall} = \frac{\text{5}} {\text{9} } = 0.56$$

$$\text{ROUGE-L precision} = \frac{\text{5}} {\text{7} } = 0.71$$

$$\text{ROUGE-L F} {_1} = \frac{\text{2} * \text{0.56} * \text{0.71}} {\text{0.56} + \text{0.71} } = 0.63$$

ROUGE-L ignore les sauts de ligne dans le texte de référence et le texte généré. La plus longue sous-séquence commune peut donc s'étendre sur plusieurs phrases. Lorsque le texte de référence et le texte généré comportent plusieurs phrases, une variante de ROUGE-L appelée ROUGE-Lsum est généralement une meilleure métrique. ROUGE-Lsum détermine la plus longue sous-séquence commune pour chaque phrase d'un passage, puis calcule la moyenne de ces plus longues sous-séquences communes.

Cliquez sur l'icône pour obtenir un exemple de calcul de ROUGE-Lsum.

Prenons l'exemple du texte de référence et du texte généré suivants.

Catégorie	Qui a produit le contenu ?	Texte
Texte de référence	Traducteur humain	La surface de Mars est sèche. La quasi-totalité de l'eau se trouve en profondeur sous terre.
Texte généré	Modèle de ML	La surface de Mars est sèche. Cependant, la grande majorité de l'eau se trouve sous terre.

Par conséquent :

	Première phrase	Deuxième phrase
Séquence commune la plus longue	2 (Mars sec)	3 (l'eau est souterraine)
Longueur des phrases du texte de référence	6	7
Longueur des phrases du texte généré	5	8

Par conséquent :

$$\text{recall of first sentence} = \frac{\text{2}} {\text{6}} = 0.33 $$

$$\text{recall of second sentence} = \frac{\text{3}} {\text{7}} = 0.43 $$

$$\text{ROUGE-Lsum recall} = \frac{\text{0.33} + \text{0.43}} {\text{2}} = 0.38 $$

$$\text{precision of first sentence} = \frac{\text{2}} {\text{5}} = 0.4 $$

$$\text{precision of second sentence} = \frac{\text{3}} {\text{8}} = 0.38 $$

$$\text{ROUGE-Lsum precision} = \frac{\text{0.4} + \text{0.38}} {\text{2}} = 0.39 $$

$$\text{ROUGE-Lsum F}{_1} = \frac{\text{2} * \text{0.38} * \text{0.39}} {\text{0.38} + \text{0.39}} = 0.38 $$

ROUGE-N

#Metric

Ensemble de métriques de la famille ROUGE qui compare les N-grammes partagés d'une certaine taille dans le texte de référence et le texte généré. Exemple :

ROUGE-1 mesure le nombre de jetons partagés dans le texte de référence et le texte généré.
ROUGE-2 mesure le nombre de bigrammes (2-grammes) partagés dans le texte de référence et le texte généré.
ROUGE-3 mesure le nombre de trigrammes (3-grammes) communs dans le texte de référence et le texte généré.

Vous pouvez utiliser les formules suivantes pour calculer le rappel ROUGE-N et la précision ROUGE-N pour n'importe quel membre de la famille ROUGE-N :

$$\text{ROUGE-N recall} = \frac{\text{number of matching N-grams}} {\text{number of N-grams in the reference text} }$$

$$\text{ROUGE-N precision} = \frac{\text{number of matching N-grams}} {\text{number of N-grams in the generated text} }$$

Vous pouvez ensuite utiliser F₁ pour regrouper le rappel ROUGE-N et la précision ROUGE-N dans une seule métrique :

$$\text{ROUGE-N F}{_1} = \frac{\text{2} * \text{ROUGE-N recall} * \text{ROUGE-N precision}} {\text{ROUGE-N recall} + \text{ROUGE-N precision} }$$

Cliquez sur l'icône pour afficher un exemple.

Supposons que vous décidiez d'utiliser ROUGE-2 pour mesurer l'efficacité de la traduction d'un modèle de ML par rapport à celle d'un traducteur humain.

Catégorie	Qui a produit le contenu ?	Texte	Bigrammes
Texte de référence	Traducteur humain	Je veux comprendre une grande variété de choses.	Je veux, veux comprendre, comprendre une, une grande, grande variété, variété de, de choses
Texte généré	Modèle de ML	Je veux apprendre beaucoup de choses.	Je veux, je veux, apprendre, apprendre beaucoup, beaucoup de, de choses

Par conséquent :

Le nombre de bigrammes correspondants est de trois (I want, want to et of things).
Le texte de référence contient huit 2-grammes.
Le texte généré contient six 2-grammes.

Par conséquent :

$$\text{ROUGE-2 recall} = \frac{\text{3}} {\text{8} } = 0.375$$

$$\text{ROUGE-2 precision} = \frac{\text{3}} {\text{6} } = 0.5$$

$$\text{ROUGE-2 F}{_1} = \frac{\text{2} * \text{0.375} * \text{0.5}} {\text{0.375} + \text{0.5} } = 0.43$$

ROUGE-S

#Metric

Forme tolérante de ROUGE-N qui permet la mise en correspondance skip-gram. Autrement dit, ROUGE-N ne compte que les N-grammes qui correspondent exactement, tandis que ROUGE-S compte également les N-grammes séparés par un ou plusieurs mots. Nous vous conseillons, par exemple, de suivre les recommandations suivantes :

texte de référence : Nuages blancs
generated text : White billowing clouds

Lors du calcul de ROUGE-N, le 2-gramme White clouds ne correspond pas à White billowing clouds. Toutefois, lors du calcul de ROUGE-S, Nuages blancs correspond à Nuages blancs et gonflés.

Coefficient de détermination

#Metric

Il s'agit d'une métrique de régression indiquant dans quelle mesure la variance d'un libellé est due à une caractéristique individuelle ou à un ensemble de caractéristiques. Il s'agit d'une valeur comprise entre 0 et 1, que vous pouvez interpréter comme suit :

Un coefficient de détermination de 0 signifie que la variance d'une étiquette n'est en rien due à l'ensemble de caractéristiques.
Un coefficient de détermination de 1 signifie que la variance d'une étiquette est totalement due à l'ensemble de caractéristiques.
Un coefficient de détermination compris entre 0 et 1 indique dans quelle mesure la variance de l'étiquette peut être prédite à partir d'une caractéristique particulière ou de l'ensemble de caractéristiques. Par exemple, un coefficient de détermination de 0,10 signifie que 10 % de la variance de l'étiquette est due à l'ensemble de caractéristiques, un coefficient de détermination de 0,20 signifie que 20 % est dû à l'ensemble de caractéristiques, et ainsi de suite.

Le R-carré correspond au carré du coefficient de corrélation de Pearson entre les valeurs prédites par un modèle et la vérité terrain.

S

notation

#Metric

Partie d'un système de recommandation qui fournit une valeur ou un classement pour chaque élément produit par la phase de génération de candidats.

mesure de similarité

#clustering

#Metric

Dans les algorithmes de clustering, la métrique permettant de déterminer le degré de similarité entre deux exemples.

parcimonie

#Metric

Nombre d'éléments définis sur zéro (ou null) dans un vecteur ou une matrice, divisé par le nombre total d'entrées dans ce vecteur ou cette matrice. Prenons l'exemple d'une matrice de 100 éléments dans laquelle 98 cellules contiennent la valeur zéro. La formule permettant de calculer la parcimonie est la suivante :

$$ {\text{sparsity}} = \frac{\text{98}} {\text{100}} = {\text{0.98}} $$

La rareté des caractéristiques fait référence à la rareté d'un vecteur de caractéristiques, tandis que la rareté du modèle fait référence à la rareté des pondérations du modèle.

marge maximale quadratique

#Metric

Carré de la marge maximale. La marge maximale quadratique pénalise les valeurs aberrantes plus sévèrement que la marge maximale standard.

perte quadratique

#fundamentals

#Metric

Synonyme de perte _L2.

T

perte de test

#fundamentals

#Metric

Une métrique représentant la perte d'un modèle par rapport à l'ensemble de test. Lorsque vous créez un modèle, vous essayez généralement de minimiser la perte de test. En effet, une faible perte de test est un signal de qualité plus fort qu'une faible perte d'entraînement ou une faible perte de validation.

Un écart important entre la perte de test et la perte d'entraînement ou de validation suggère parfois que vous devez augmenter le taux de régularisation.

Précision top-k

#Metric

Pourcentage de fois où un "libellé cible" apparaît dans les k premières positions des listes générées. Les listes peuvent être des recommandations personnalisées ou une liste d'éléments classés par softmax.

La précision top-k est également appelée précision à k.

Cliquez sur l'icône pour afficher un exemple.

Prenons l'exemple d'un système de machine learning qui utilise softmax pour identifier les probabilités d'arbres à partir d'une image de feuilles d'arbres. Le tableau suivant présente les listes de sortie générées à partir de cinq images d'arbres en entrée. Chaque ligne contient une étiquette cible et les cinq arbres les plus probables. Par exemple, lorsque l'étiquette cible était érable, le modèle de machine learning a identifié orme comme étant l'arbre le plus probable, chêne comme étant le deuxième arbre le plus probable, et ainsi de suite.

Étiquette de cible	1	2	3	4	5
érable	orme	chêne	maple	hêtre	peuplier
cornouiller	chêne	cornouiller	peuplier	Hickory	érable
chêne	chêne	tilleul	criquet	aulne	Linden
Linden	érable	paw-paw	chêne	tilleul	peuplier
chêne	criquet	Linden	chêne	érable	paw-paw

Le libellé cible n'apparaît qu'une seule fois en première position. La précision top-1 est donc la suivante :

$$\text{top-1 accuracy} = \frac{\text{1}} {\text{5}} = 0.2$$

Le libellé cible apparaît quatre fois dans les trois premières positions. La précision top 3 est donc la suivante :

$$\text{top-1 accuracy} = \frac{\text{4}} {\text{5}} = 0.8$$

toxique

#Metric

Degré de violence, de menace ou de caractère offensant du contenu. De nombreux modèles de machine learning peuvent identifier et mesurer la toxicité. La plupart de ces modèles identifient la toxicité selon plusieurs paramètres, tels que le niveau de langage abusif et le niveau de langage menaçant.

perte d'entraînement

#fundamentals

#Metric

Métrique représentant la perte d'un modèle lors d'une itération d'entraînement spécifique. Par exemple, supposons que la fonction de perte soit Mean Squared Error. Supposons que la perte d'entraînement (erreur quadratique moyenne) pour la 10e itération soit de 2,2 et que la perte d'entraînement pour la 100e itération soit de 1,9.

Une courbe de perte représente la perte d'entraînement par rapport au nombre d'itérations. Une courbe de perte fournit les indications suivantes sur l'entraînement :

Une pente descendante implique que le modèle s'améliore.
Une pente ascendante signifie que le modèle se dégrade.
Une pente plate signifie que le modèle a atteint la convergence.

Par exemple, la courbe de perte suivante, quelque peu idéalisée, montre :

Une pente descendante abrupte lors des itérations initiales, ce qui implique une amélioration rapide du modèle.
Une pente qui s'aplatit progressivement (mais reste descendante) jusqu'à la fin de l'entraînement, ce qui implique une amélioration continue du modèle à un rythme un peu plus lent que lors des itérations initiales.
Une pente plate vers la fin de l'entraînement, ce qui suggère une convergence.

Graphique de la perte d'entraînement par rapport aux itérations. Cette courbe de perte commence par une pente descendante abrupte. La pente s'aplatit progressivement jusqu'à devenir nulle.

Bien que la perte d'entraînement soit importante, consultez également la section Généralisation.

vrai négatif (VN)

#fundamentals

#Metric

Exemple dans lequel le modèle prédit correctement la classe négative. Par exemple, le modèle déduit qu'un e-mail particulier n'est pas du spam, ce qui est bien le cas.

vrai positif (VP)

#fundamentals

#Metric

Exemple dans lequel le modèle prédit correctement la classe positive. Par exemple, le modèle déduit qu'un e-mail particulier est du spam, ce qui est bien le cas.

taux de vrais positifs (TVP)

#fundamentals

#Metric

Synonyme de rappel. Par exemple :

$$\text{true positive rate} = \frac {\text{true positives}} {\text{true positives} + \text{false negatives}}$$

Le taux de vrais positifs correspond à l'ordonnée d'une courbe ROC.

V

perte de validation

#fundamentals

#Metric

Métrique représentant la perte d'un modèle sur l'ensemble de validation lors d'une itération d'entraînement spécifique.

Voir aussi courbe de généralisation.

importance des variables

#df

#Metric

Ensemble de scores indiquant l'importance relative de chaque caractéristique pour le modèle.

Prenons l'exemple d'un arbre de décision qui estime le prix des maisons. Supposons que cet arbre de décision utilise trois caractéristiques : la taille, l'âge et le style. Si un ensemble d'importances de variables pour les trois caractéristiques est calculé comme suit : {size=5.8, age=2.5, style=4.7}, alors la taille est plus importante pour l'arbre de décision que l'âge ou le style.

Il existe différentes métriques d'importance des variables, qui peuvent informer les experts en ML sur différents aspects des modèles.

W

Perte Wasserstein

#Metric

Il s'agit d'une des fonctions de perte couramment utilisées dans les réseaux antagonistes génératifs, basée sur la distance du déménageur de terre entre la distribution des données générées et des données réelles.

Glossaire du machine learning: métriques Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.

A

accuracy

Cliquez sur l'icône pour en savoir plus sur la précision et les ensembles de données déséquilibrés.

aire sous la courbe de précision/rappel

aire sous la courbe ROC

AUC (aire sous la courbe ROC)

Cliquez sur l'icône pour en savoir plus sur la relation entre les courbes AUC et ROC.

Cliquez sur l'icône pour obtenir une définition plus formelle de l'AUC.

précision moyenne à k

Cliquez sur l'icône pour voir un exemple.

B

Valeur de référence

C

coût

équité contrefactuelle

entropie croisée

fonction de distribution cumulative (CDF)

D

parité démographique

E

Distance Earth Mover (EMD)

distance d'édition

fonction de distribution empirique (FDR ou FDE)

entropie

l'égalité des chances.

Chances égales

evals

hors connexion

F

F1

Cliquez sur l'icône pour voir des exemples.

métrique d'équité

Faux négatif (FN)

taux de faux négatifs

Faux positif (FP)

taux de faux positifs (TFP) (false positive rate (FPR))

importance des caractéristiques.

modèle de fondation

fraction de succès

G

Impureté de Gini

Cliquez sur l'icône pour obtenir des détails mathématiques sur l'impureté de Gini.

H

perte de marge maximale

I

incompatibilité des métriques d'équité

équité individuelle

gain d'information

accord inter-évaluateurs

L

Perte L1

Cliquez sur l'icône pour afficher la formule mathématique.

Perte L2

Cliquez sur l'icône pour afficher la formule mathématique.

Évaluations de LLM

perte

fonction de perte

M

Erreur absolue moyenne (EAM)

Cliquez sur l'icône pour afficher la formule mathématique.

Précision moyenne à k (mAP@k)

Cliquez sur l'icône pour voir un exemple.

Erreur quadratique moyenne (MSE)

Cliquez sur l'icône pour afficher la formule mathématique.

Cliquez sur l'icône pour en savoir plus sur les valeurs aberrantes.

metric

API Metrics (tf.metrics)

perte minimax

capacité du modèle

N

classe négative

O

objectif

fonction objectif

P

pass at k (pass@k)

Cliquez sur l'icône pour afficher un exemple.

performance

Importance des variables de permutation

Glossaire du machine learning: métriques

F₁

Perte L₁

Perte L₂