Glossaire du machine learning: métriques

Cette page contient les termes du glossaire des métriques. Pour connaître tous les termes du glossaire, cliquez ici.

accuracy

#fundamentals
#Metric

Nombre de prédictions de classification correctes divisé par le nombre total de prédictions. Par exemple :

Accuracy=correct predictionscorrect predictions + incorrect predictions 

Par exemple, un modèle qui a effectué 40 prédictions correctes et 10 prédictions incorrectes aurait une précision de:

Accuracy=4040 + 10=80%

La classification binaire fournit des noms spécifiques aux différentes catégories de prédictions correctes et de prédictions incorrectes. La formule de précision pour la classification binaire est donc la suivante:

Accuracy=TP+TNTP+TN+FP+FN

où :

  • Le TP correspond au nombre de vrais positifs (prédictions correctes).
  • TN correspond au nombre de vrais négatifs (prédictions correctes).
  • Le FP correspond au nombre de faux positifs (prédictions incorrectes).
  • FN correspond au nombre de faux négatifs (prédictions incorrectes).

Comparez la justesse à la précision et au rappel.

Bien qu'elle soit une métrique utile dans certaines situations, la précision peut être très trompeuse dans d'autres. Plus précisément, la justesse est généralement une métrique médiocre pour évaluer les modèles de classification qui traitent des ensembles de données déséquilibrés par classe.

Par exemple, supposons que la neige ne tombe que 25 jours par siècle dans une certaine ville subtropicale. Étant donné que les jours sans neige (classe négative) sont beaucoup plus nombreux que les jours avec neige (classe positive), l'ensemble de données sur la neige de cette ville est déséquilibré. Imaginez un modèle de classification binaire censé prédire s'il y aura de la neige ou non chaque jour, mais qui prédit simplement "pas de neige" chaque jour. Ce modèle est très précis, mais n'a aucune capacité prédictive. Le tableau suivant récapitule les résultats d'un siècle de prédictions:

Catégorie Nombre
VP 0
TN 36499
FP 0
FN 25

La justesse de ce modèle est donc la suivante:

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (0 + 36499) / (0 + 36499 + 0 + 25) = 0.9993 = 99.93%

Bien que la précision de 99,93% semble être un pourcentage très impressionnant, le modèle n'a en réalité aucune capacité prédictive.

La précision et le rappel sont généralement des métriques plus utiles que la précision pour évaluer les modèles entraînés sur des ensembles de données déséquilibrés.


Pour en savoir plus, consultez Classification: précision, rappel, précision et métriques associées dans le cours d'initiation au machine learning.

aire sous la courbe PR

#Metric

Consultez AUC PR (aire sous la courbe PR).

aire sous la courbe ROC

#Metric

Consultez AUC (aire sous la courbe ROC).

AUC (aire sous la courbe ROC)

#fundamentals
#Metric

Valeur comprise entre 0,0 et 1,0 représentant la capacité d'un modèle de classification binaire à séparer les classes positives des classes négatives. Plus l'AUC est proche de 1,0, plus le modèle est capable de séparer les classes les unes des autres.

Par exemple, l'illustration suivante montre un modèle de classificateur qui sépare parfaitement les classes positives (ovales verts) des classes négatives (rectangles violets). Ce modèle irréalistement parfait a une AUC de 1,0:

Une ligne numérique avec huit exemples positifs d'un côté et neuf exemples négatifs de l'autre.

À l'inverse, l'illustration suivante montre les résultats d'un modèle de classificateur qui a généré des résultats aléatoires. Ce modèle a une AUC de 0,5:

Une ligne numérique avec six exemples positifs et six exemples négatifs.
          La séquence d'exemples est positive, négative, positive, négative, positive, négative, positive, négative, positive, négative, positive, négative.

Oui, le modèle précédent a une AUC de 0,5, et non de 0,0.

La plupart des modèles se situent entre les deux extrêmes. Par exemple, le modèle suivant sépare quelque peu les éléments positifs des éléments négatifs. Il a donc une AUC comprise entre 0,5 et 1,0:

Une ligne numérique avec six exemples positifs et six exemples négatifs.
          La séquence d'exemples est négative, négative, négative, négative, positive, négative, positive, positive, négative, positive, positive, positive.

L'AUC ignore toute valeur que vous définissez pour le seuil de classification. À la place, l'AUC tient compte de tous les seuils de classification possibles.

L'AUC représente l'aire sous une courbe ROC. Par exemple, la courbe ROC d'un modèle qui sépare parfaitement les résultats positifs des résultats négatifs se présente comme suit:

Graphique cartésien. L'axe X correspond au taux de faux positifs, et l'axe Y au taux de vrais positifs. Le graphique commence à 0,0, monte directement jusqu'à 0,1, puis se dirige directement vers la droite et se termine à 1,1.

L'AUC correspond à la zone de la région grise dans l'illustration précédente. Dans ce cas inhabituel, la surface correspond simplement à la longueur de la zone grise (1,0) multipliée par sa largeur (1,0). Ainsi, le produit de 1,0 et 1,0 donne une AUC de 1,0 exactement, ce qui correspond au score AUC le plus élevé possible.

À l'inverse, la courbe ROC d'un classificateur qui ne peut pas du tout séparer les classes est la suivante. La surface de cette zone grise est de 0,5.

Graphique cartésien. L'axe X correspond au taux de faux positifs, et l'axe Y au taux de vrais positifs. Le graphique commence à 0,0 et se termine en diagonale à 1,1.

Une courbe ROC plus typique se présente approximativement comme suit:

Graphique cartésien. L'axe X correspond au taux de faux positifs, et l'axe Y au taux de vrais positifs. Le graphique commence à 0,0 et suit un arc irrégulier jusqu'à 1,0.

Il serait fastidieux de calculer manuellement la zone sous cette courbe. C'est pourquoi un programme calcule généralement la plupart des valeurs AUC.


L'AUC correspond à la probabilité que le niveau de confiance d'un classificateur soit supérieur pour un exemple positif choisi aléatoirement comparé à un exemple négatif choisi aléatoirement.


Pour en savoir plus, consultez la section Classification: ROC et AUC du cours d'initiation au machine learning.

précision moyenne à k

#language
#Metric

Métrique permettant de résumer les performances d'un modèle pour une seule invite qui génère des résultats classés, comme une liste numérotée de recommandations de livres. La précision moyenne à k correspond à la moyenne des valeurs de précision à k pour chaque résultat pertinent. La formule de la précision moyenne à k est donc la suivante:

average precision at k=1ni=1nprecision at k for each relevant item

où :

  • n correspond au nombre d'éléments pertinents dans la liste.

À comparer au rappel à k.

Supposons qu'un grand modèle de langage reçoive la requête suivante:

List the 6 funniest movies of all time in order.

Le grand modèle de langage renvoie la liste suivante:

  1. The General
  2. Mean Girls
  3. Un beau dimanche
  4. Avatar
  5. Citizen Kane
  6. This is Spinal Tap
Quatre des films de la liste renvoyée sont très drôles (c'est-à-dire pertinents), mais deux sont des drames (non pertinents). Le tableau suivant détaille les résultats:
Position Film Est-elle pertinente ? Précision à k
1 The General Oui 1.0
2 Mean Girls Oui 1.0
3 Un beau dimanche Non Non pertinent
4 Avatar Oui 0,75
5 Citizen Kane Non Non pertinent
6 This is Spinal Tap Oui 0,67

Le nombre de résultats pertinents est de quatre. Vous pouvez donc calculer la précision moyenne à 6 comme suit:

average precision at 6=14(1.0 + 1.0 + 0.75 + 0.67)
average precision at 6=~0.85

B

Valeur de référence

#Metric

Modèle utilisé comme point de référence pour comparer les performances d'un autre modèle (généralement plus complexe). Par exemple, un modèle de régression logistique peut servir de référence pour un modèle profond.

Pour un problème particulier, la référence aide les développeurs de modèles à quantifier les performances minimales attendues qu'un nouveau modèle doit atteindre pour être utile.

C

coût

#Metric

Synonyme de perte.

équité contrefactuelle

#fairness
#Metric

Métrique d'équité qui vérifie si un classificateur produit le même résultat pour un individu que pour un autre qui est identique au premier, sauf en ce qui concerne un ou plusieurs attributs sensibles. Évaluer un classificateur pour l'impartialité contrefactuelle est une méthode permettant de mettre en évidence les sources potentielles de biais dans un modèle.

Pour en savoir plus, consultez l'une des ressources suivantes:

entropie croisée

#Metric

Généralisation de la perte de log aux problèmes de classification à classes multiples. L'entropie croisée quantifie la différence entre deux distributions de probabilité. Voir aussi la section Perplexité.

fonction de distribution cumulative (CDF)

#Metric

Fonction qui définit la fréquence des échantillons inférieurs ou égaux à une valeur cible. Prenons l'exemple d'une distribution normale de valeurs continues. Une fonction de distribution cumulative vous indique qu'environ 50% des échantillons doivent être inférieurs ou égaux à la moyenne et qu'environ 84% des échantillons doivent être inférieurs ou égaux à une déviation standard au-dessus de la moyenne.

D

parité démographique

#fairness
#Metric

Métrique d'équité qui est satisfaite si les résultats de la classification d'un modèle ne dépendent pas d'un attribut sensible donné.

Par exemple, si des Lilliputiens et des Brobdingnagiens postulent à l'université Glubbdubdrib, la parité démographique est atteinte si le pourcentage de Lilliputiens admis est le même que celui des Brobdingnagiens, que l'un des groupes soit en moyenne plus qualifié que l'autre.

Contrairement aux probabilités égales et à l'égalité des chances, qui permettent aux résultats de classification agrégés de dépendre d'attributs sensibles, les résultats de classification pour certains libellés de vérité terrain spécifiés ne peuvent pas dépendre d'attributs sensibles. Consultez Lutter contre les discriminations grâce à un machine learning plus intelligent pour découvrir une visualisation des compromis à prendre en compte lors de l'optimisation pour la parité démographique.

Pour en savoir plus, consultez la section Équité: parité démographique du cours d'initiation au machine learning.

E

distance de l'opérateur de machine de terrassement (EMD)

#Metric

Mesure de la similarité relative de deux distributions. Plus la distance du moteur de déplacement de la Terre est faible, plus les distributions sont similaires.

distance de modification

#language
#Metric

Mesure du degré de similarité entre deux chaînes de texte. Dans le machine learning, la distance d'édition est utile pour les raisons suivantes:

  • La distance d'édition est facile à calculer.
  • La distance de modification peut comparer deux chaînes connues pour être similaires.
  • La distance de modification peut déterminer dans quelle mesure différentes chaînes sont similaires à une chaîne donnée.

Il existe plusieurs définitions de la distance d'édition, chacune utilisant des opérations de chaîne différentes. Pour en savoir plus, consultez Distance de Levenshtein.

Fonction de distribution cumulative empirique (eCDF ou EDF)

#Metric

Fonction de distribution cumulative basée sur des mesures empiriques d'un ensemble de données réel. La valeur de la fonction à n'importe quel point de l'axe X correspond à la fraction des observations de l'ensemble de données qui sont inférieures ou égales à la valeur spécifiée.

entropie

#df
#Metric

Dans la théorie de l'information, description de l'imprévisibilité d'une distribution de probabilité. L'entropie est également définie comme la quantité d'informations contenue dans chaque exemple. Une distribution a l'entropie la plus élevée possible lorsque toutes les valeurs d'une variable aléatoire sont également probables.

L'entropie d'un ensemble avec deux valeurs possibles, "0" et "1" (par exemple, les libellés dans un problème de classification binaire) se calcule comme suit:

  H = -p log p - q log q = -p log p - (1-p) * log (1-p)

où :

  • H est l'entropie.
  • p est la fraction des exemples "1".
  • q est la fraction des exemples "0". Notez que q = (1 - p).
  • log est généralement log2. Dans ce cas, l'unité d'entropie est un bit.

Par exemple, supposons les éléments suivants :

  • 100 exemples contiennent la valeur "1"
  • 300 exemples contiennent la valeur "0"

La valeur d'entropie est donc la suivante:

  • p = 0,25
  • q = 0,75
  • H = (-0,25)log2(0,25) - (0,75)log2(0,75) = 0,81 bit par exemple

Un ensemble parfaitement équilibré (par exemple, 200 "0" et 200 "1") aurait une entropie de 1,0 bit par exemple. À mesure qu'un ensemble devient plus déséquilibré, son entropie tend vers 0,0.

Dans les arbres de décision, l'entropie permet de formuler le gain d'information pour aider le séparateur à sélectionner les conditions au cours de la croissance d'un arbre de décision de classification.

Comparez l'entropie à:

L'entropie est souvent appelée entropie de Shannon.

Pour en savoir plus, consultez la section Diviseur exact pour la classification binaire avec des caractéristiques numériques dans le cours sur les forêts de décision.

égalité des chances

#fairness
#Metric

Une métrique d'impartialité pour évaluer si un modèle prédit le résultat souhaité aussi bien pour toutes les valeurs d'un attribut sensible. En d'autres termes, si le résultat souhaitable pour un modèle est la classe positive, l'objectif est que le taux de vrais positifs soit le même pour tous les groupes.

L'égalité des chances est liée aux probabilités égales, ce qui nécessite que les deux taux de vrais positifs et les taux de faux positifs soient identiques pour tous les groupes.

Supposons que l'université Glubbdubdrib admette à un programme de mathématiques rigoureux des Lilliputiens et des Brobdingnagiens. Les établissements d'enseignement secondaire des Lilliputiens proposent un programme complet de cours de mathématiques, et la grande majorité des élèves sont qualifiés pour le programme universitaire. Les établissements d'enseignement secondaire des Brobdingnagiens n'offrent pas du tout de cours de mathématiques. Par conséquent, beaucoup moins de leurs élèves sont qualifiés. L'égalité des chances est respectée pour l'étiquette préférée "admissible" en fonction de la nationalité (Lilliputien ou Brobdingnagien) si les étudiants qualifiés ont autant de chances d'être admis, qu'ils soient Lilliputiens ou Brobdingnagiens.

Par exemple, supposons que 100 Lilliputiens et 100 Brobdingnagiens postulent à l'université Glubbdubdrib, et que les décisions d'admission soient prises comme suit:

Tableau 1. Candidats Lilliputiens (90% sont éligibles)

  Qualifié Non défini
Admis 45 3
Refusé 45 7
Total 90 10
Pourcentage d'étudiants qualifiés admis: 45/90 = 50%
Pourcentage d'étudiants non qualifiés refusés: 7/10 = 70%
Pourcentage total d'étudiants Lilliputiens admis: (45 + 3)/100 = 48%

 

Tableau 2. Candidats Brobdingnagiens (10% sont éligibles):

  Qualifié Non défini
Admis 5 9
Refusé 5 81
Total 10 90
Pourcentage d'étudiants qualifiés admis: 5/10 = 50%
Pourcentage d'étudiants non qualifiés refusés: 81/90 = 90%
Pourcentage total d'étudiants Brobdingnagiens admis: (5 + 9)/100 = 14%

Les exemples précédents respectent l'égalité des chances d'acceptation des étudiants qualifiés, car les Lilliputiens et les Brobdingnagiens qualifiés ont tous deux 50% de chances d'être admis.

Bien que l'égalité des chances soit respectée, les deux métriques d'équité suivantes ne le sont pas:

  • parité démographique : les Lilliputiens et les Brobdingnagiens sont admis à l'université à des taux différents : 48% des étudiants Lilliputiens sont admis, mais seulement 14% des étudiants Brobdingnagiens.
  • Chances égales: même si les élèves Lilliputiens et Brobdingnagiens qualifiés ont les mêmes chances d'être admis, la contrainte supplémentaire selon laquelle les Lilliputiens et les Brobdingnagiens non qualifiés ont les mêmes chances d'être refusés n'est pas satisfaite. Les Lilliputiens non qualifiés ont un taux de refus de 70 %, tandis que les Brobdingnagiens non qualifiés ont un taux de refus de 90 %.

Pour en savoir plus, consultez la section Équité: égalité des chances dans le cours d'initiation au machine learning.

cotes égalisées

#fairness
#Metric

Métrique d'équité permettant d'évaluer si un modèle prédit des résultats aussi bien pour toutes les valeurs d'un attribut sensible par rapport à la classe positive et à la classe négative, et non pas seulement pour une classe ou l'autre. En d'autres termes, le taux de vrais positifs et le taux de faux négatifs doivent être les mêmes pour tous les groupes.

Les chances égalisées sont liées à l'égalité des chances, qui ne se concentre que sur les taux d'erreur d'une seule classe (positive ou négative).

Par exemple, supposons que l'université Glubbdubdrib admette à la fois des Lilliputiens et des Brobdingnagiens dans un programme de mathématiques rigoureux. Les écoles secondaires des Lilliputiens proposent un programme complet de cours de mathématiques, et la grande majorité des élèves sont qualifiés pour le programme universitaire. Les écoles secondaires des Brobdingnagiens n'offrent pas du tout de cours de mathématiques. Par conséquent, beaucoup moins de leurs élèves sont qualifiés. Les chances égales sont respectées, que le demandeur soit un Lilliputien ou un Brobdingnagien. S'il est qualifié, il a autant de chances d'être admis au programme que s'il ne l'est pas.

Supposons que 100 Lilliputiens et 100 Brobdingnagiens postulent à l'université Glubbdubdrib, et que les décisions d'admission soient prises comme suit:

Tableau 3 : Candidats Lilliputiens (90% sont éligibles)

  Qualifié Non défini
Admis 45 2
Refusé 45 8
Total 90 10
Pourcentage d'étudiants qualifiés acceptés: 45/90 = 50%
Pourcentage d'étudiants non qualifiés refusés: 8/10 = 80%
Pourcentage total d'étudiants Lilliputiens acceptés: (45 + 2)/100 = 47%

 

Tableau 4. Candidats Brobdingnagiens (10% sont éligibles):

  Qualifié Non défini
Admis 5 18
Refusé 5 72
Total 10 90
Pourcentage d'étudiants qualifiés admis: 5/10 = 50%
Pourcentage d'étudiants non qualifiés refusés: 72/90 = 80%
Pourcentage total d'étudiants brobdingnagiens admis: (5 + 18)/100 = 23%

Les chances sont égales, car les étudiants Lilliputiens et Brobdingnagiens qualifiés ont tous deux 50% de chances d'être admis, et les Lilliputiens et Brobdingnagiens non qualifiés ont 80% de chances d'être refusés.

Les probabilités égalisées sont définies officiellement dans "Equality of Opportunity in Supervised Learning" (Égalité des chances dans l'apprentissage supervisé) comme suit : "Le prédicteur Ŷ satisfait les probabilités égalisées par rapport à l'attribut protégé A et au résultat Y si Ŷ et A sont indépendants, sous réserve de Y."

evals

#language
#generativeAI
#Metric

Abréviation principalement utilisée pour les évaluations de LLM. Plus largement, evals est une abréviation de toute forme d'évaluation.

hors connexion

#language
#generativeAI
#Metric

Processus consistant à mesurer la qualité d'un modèle ou à comparer différents modèles entre eux.

Pour évaluer un modèle de machine learning supervisé, vous le comparez généralement à un ensemble de validation et à un ensemble de test. Évaluer un LLM implique généralement des évaluations plus larges de la qualité et de la sécurité.

F

F1

#Metric

Métrique de classification binaire "récapitulative" qui repose à la fois sur la précision et le rappel. Voici la formule:

F1=2 * precision * recallprecision + recall

Supposons que la précision et le rappel aient les valeurs suivantes:

  • precision = 0,6
  • recall = 0.4

Vous calculez F1 comme suit:

F1=2 * 0.6 * 0.40.6 + 0.4=0.48

Lorsque la précision et le rappel sont assez similaires (comme dans l'exemple précédent), le score F1 est proche de leur moyenne. Lorsque la précision et le rappel diffèrent de manière significative, F1 est plus proche de la valeur la plus basse. Exemple :

  • precision = 0,9
  • recall = 0.1
F1=2 * 0.9 * 0.10.9 + 0.1=0.18

métrique d'équité

#fairness
#Metric

Une définition mathématique de l'équité qui est mesurable Voici quelques métriques d'équité couramment utilisées:

De nombreuses métriques d'équité sont mutuellement exclusives. Consultez la section Incompatibilité des métriques d'équité.

faux négatif (FN)

#fundamentals
#Metric

Exemple dans lequel le modèle prédit à tort la classe négative. Par exemple, le modèle prédit qu'un e-mail particulier n'est pas du spam (classe négative), alors qu'en réalité il l'est.

taux de faux négatifs

#Metric

Proportion d'exemples positifs réels pour lesquels le modèle a prédit à tort la classe négative. La formule suivante calcule le taux de faux négatifs:

false negative rate=false negativesfalse negatives+true positives

Pour en savoir plus, consultez la section Seuils et matrice de confusion du cours d'initiation au machine learning.

faux positif (FP)

#fundamentals
#Metric

Exemple dans lequel le modèle prédit à tort la classe positive. Par exemple, le modèle prédit qu'un e-mail particulier est du spam (classe positive), alors qu'en réalité ce n'est pas un courrier indésirable.

Pour en savoir plus, consultez la section Seuils et matrice de confusion du cours d'initiation au machine learning.

taux de faux positifs (TFP) (false positive rate (FPR))

#fundamentals
#Metric

Proportion d'exemples négatifs réels pour lesquels le modèle a prédit à tort la classe positive. La formule suivante calcule le taux de faux positifs:

false positive rate=false positivesfalse positives+true negatives

Le taux de faux positifs correspond à l'abscisse d'une courbe ROC.

Pour en savoir plus, consultez la section Classification: ROC et AUC du cours d'initiation au machine learning.

importance des caractéristiques

#df
#Metric

Synonyme de importance des variables.

fraction de succès

#generativeAI
#Metric

Métrique permettant d'évaluer le texte généré d'un modèle de ML. La fraction de succès correspond au nombre de sorties de texte générées "réussies" divisé par le nombre total de sorties de texte générées. Par exemple, si un grand modèle de langage a généré 10 blocs de code, dont cinq ont réussi, la fraction de réussite est de 50%.

Bien que la fraction de réussite soit généralement utile dans les statistiques, dans le ML, cette métrique est principalement utile pour mesurer des tâches vérifiables telles que la génération de code ou les problèmes mathématiques.

G

impureté de Gini

#df
#Metric

Métrique semblable à l'entropie. Les séparateurs utilisent des valeurs dérivées de l'impureté de Gini ou de l'entropie pour composer des conditions de classification des arbres de décision. Le gain d'information est dérivé de l'entropie. Il n'existe pas de terme équivalent universellement accepté pour la métrique dérivée de l'impureté de Gini. Toutefois, cette métrique sans nom est tout aussi importante que le gain d'informations.

L'impureté de Gini est également appelée indice de Gini ou simplement Gini.

L'impureté de Gini est la probabilité de mal classer une nouvelle donnée issue de la même distribution. L'impureté de Gini d'un ensemble avec deux valeurs possibles, "0" et "1" (par exemple, les libellés d'un problème de classification binaire) est calculée à partir de la formule suivante:

   I = 1 - (p2 + q2) = 1 - (p2 + (1-p)2)

où :

  • I est l'impureté de Gini.
  • p est la fraction des exemples "1".
  • q est la fraction des exemples "0". Notez que q = 1-p

Prenons l'exemple de l'ensemble de données suivant:

  • 100 libellés (0,25 de l'ensemble de données) contiennent la valeur "1".
  • 300 libellés (0,75 de l'ensemble de données) contiennent la valeur "0".

Par conséquent, l'impureté de Gini est la suivante:

  • p = 0,25
  • q = 0,75
  • I = 1 - (0,252 + 0,752) = 0,375

Par conséquent, une étiquette aléatoire de l'ensemble de données aura 37,5% de chances d'être mal classée et 62,5% de chances d'être correctement classée.

Un libellé parfaitement équilibré (par exemple, 200 "0" et 200 "1") aurait une impureté de Gini de 0,5. Un libellé très déséquilibré aurait une impureté de Gini proche de 0,0.


H

marge maximale

#Metric

Famille de fonctions de perte pour la classification conçue pour trouver la frontière de décision la plus éloignée possible de chaque exemple d'entraînement, afin de maximiser la marge entre les exemples et la frontière. Les KSVM utilisent la marge maximale (ou une fonction associée, par exemple le carré de la marge maximale). Dans le cas de la classification binaire, la fonction de marge maximale est définie ainsi:

loss=max(0,1(yy))

y est l'étiquette réelle, soit -1 ou +1, et y' est la sortie brute du modèle du classificateur:

y=b+w1x1+w2x2+wnxn

Par conséquent, le graphique de la perte en fonction de (y * y') est de la forme suivante:

Graphique cartésien composé de deux segments de ligne joints. Le premier segment de ligne commence à (-3, 4) et se termine à (1, 0). Le deuxième segment de ligne commence à (1, 0) et se poursuit indéfiniment avec une pente de 0.

I

Incompatibilité des critères d'équité

#fairness
#Metric

Idée selon laquelle certaines notions d'équité sont mutuellement incompatibles et ne peuvent pas être satisfaites simultanément. Par conséquent, il n'existe pas de métrique universelle unique pour quantifier l'équité qui puisse être appliquée à tous les problèmes de ML.

Bien que cela puisse sembler décourageant, l'incompatibilité des métriques d'équité n'implique pas que les efforts d'équité soient infructueux. Il suggère plutôt que l'équité doit être définie selon un contexte et un problème de ML donné, dans le but d'éviter les dommages spécifiques à ses cas d'utilisation.

Pour en savoir plus sur l'incompatibilité des métriques d'impartialité, consultez "On the (im)possibility of fairness" (Sur l'(im)possibilité de l'impartialité).

équité individuelle

#fairness
#Metric

Métrique d'équité qui vérifie si des individus similaires sont classés de manière similaire. Par exemple, l'Académie Brobdingnagian peut vouloir garantir l'équité individuelle en s'assurant que deux élèves ayant des notes et des résultats aux tests standardisés identiques ont autant de chances d'être admis.

Notez que l'équité individuelle repose entièrement sur la façon dont vous définissez la "similitude" (dans ce cas, les notes et les notes de test). Vous risquez d'introduire de nouveaux problèmes d'équité si votre métrique de similarité ne tient pas compte d'informations importantes (telles que la rigueur du programme d'un élève).

Pour en savoir plus sur l'équité individuelle, consultez "Équité grâce à la sensibilisation".

gain d'informations

#df
#Metric

Dans les forêts de décision, différence entre l'entropie d'un nœud et la somme pondérée (par le nombre d'exemples) de l'entropie de ses nœuds enfants. L'entropie d'un nœud correspond à l'entropie des exemples de ce nœud.

Prenons l'exemple des valeurs d'entropie suivantes:

  • Entropie du nœud parent = 0,6
  • Entropie d'un nœud enfant avec 16 exemples pertinents = 0,2
  • Entropie d'un autre nœud enfant avec 24 exemples pertinents = 0,1

Ainsi, 40% des exemples se trouvent dans un nœud enfant et 60% dans l'autre. Par conséquent :

  • Somme pondérée de l'entropie des nœuds enfants = (0,4 * 0,2) + (0,6 * 0,1) = 0,14

Le gain d'information est donc le suivant:

  • Gain d'information = entropie du nœud parent - somme pondérée de l'entropie des nœuds enfants
  • Gain d'information = 0,6 - 0,14 = 0,46

La plupart des séparateurs cherchent à créer des conditions qui maximisent le gain d'informations.

accord inter-évaluateurs

#Metric

Mesure de la fréquence à laquelle les évaluateurs humains sont d'accord lorsqu'ils effectuent une tâche. Si les évaluateurs ne sont pas d'accord, il est possible que les instructions de la tâche doivent être améliorées. Parfois également appelé accord inter-annotateurs ou fiabilité inter-évaluateurs. Voir aussi le kappa de Cohen, l'une des mesures de l'accord inter-évaluateurs les plus populaires.

Pour en savoir plus, consultez la section Données catégorielles: problèmes courants du cours d'initiation au machine learning.

L

Perte L1

#fundamentals
#Metric

Fonction de perte qui calcule la valeur absolue de la différence entre les valeurs réelles des étiquettes et les valeurs prédites par un modèle. Par exemple, voici le calcul de la perte L1 pour un lot de cinq exemples:

Valeur réelle de l'exemple Valeur prédite du modèle Valeur absolue de delta
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = perte L1

La perte L1 est moins sensible aux anomalies que la perte L2.

L'erreur absolue moyenne correspond à la perte L1 moyenne par exemple.

L1loss=i=0n|yiy^i|

où :
  • n correspond au nombre d'exemples.
  • y est la valeur réelle du libellé.
  • y^ est la valeur que le modèle prédit pour y.

Pour en savoir plus, consultez la section Régression linéaire: perte du cours d'initiation au machine learning.

Perte L2

#fundamentals
#Metric

Fonction de perte qui calcule le carré de la différence entre les valeurs réelles des étiquettes et les valeurs prédites par un modèle. Par exemple, voici le calcul de la perte L2 pour un lot de cinq exemples:

Valeur réelle de l'exemple Valeur prédite du modèle Carré de delta
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
  16 = perte L2

En raison de la mise au carré, la perte L2 amplifie l'influence des valeurs aberrantes. En d'autres termes, la perte L2 réagit plus fortement aux mauvaises prédictions que la perte L1. Par exemple, la perte L1 pour le lot précédent serait de 8 au lieu de 16. Notez qu'un seul point aberrant représente neuf des 16.

Les modèles de régression utilisent généralement la perte L2 comme fonction de perte.

L'erreur quadratique moyenne correspond à la perte L2 moyenne par exemple. La perte quadratique est un autre nom de la perte L2.

L2loss=i=0n(yiy^i)2

où :
  • n correspond au nombre d'exemples.
  • y est la valeur réelle du libellé.
  • y^ est la valeur que le modèle prédit pour y.

Pour en savoir plus, consultez la section Régression logistique: perte et régularisation du cours d'initiation au machine learning.

Évaluations des LLM (évaluations)

#language
#generativeAI
#Metric

Ensemble de métriques et de benchmarks permettant d'évaluer les performances des grands modèles de langage (LLM). De manière générale, les évaluations des LLM:

  • Aidez les chercheurs à identifier les domaines dans lesquels les LLM doivent être améliorés.
  • Ils sont utiles pour comparer différents LLM et identifier le meilleur LLM pour une tâche donnée.
  • Assurez-vous que les LLM sont sûrs et éthiques.

Pour en savoir plus, consultez la section Grands modèles de langage (LLM) dans le cours d'initiation au machine learning.

perte

#fundamentals
#Metric

Lors de l'entraînement d'un modèle supervisé, mesure de l'écart entre la prédiction d'un modèle et son étiquette.

Une fonction de perte calcule la perte.

Pour en savoir plus, consultez la section Régression linéaire: perte du cours d'initiation au machine learning.

fonction de perte

#fundamentals
#Metric

Lors de l'entraînement ou des tests, fonction mathématique qui calcule la perte sur un lot d'exemples. Une fonction de perte renvoie une perte plus faible pour les modèles qui effectuent de bonnes prédictions que pour ceux qui effectuent de mauvaises prédictions.

L'objectif de l'entraînement est généralement de minimiser la perte renvoyée par une fonction de perte.

Il existe de nombreux types de fonctions de perte. Choisissez la fonction de perte appropriée pour le type de modèle que vous créez. Exemple :

M

Erreur absolue moyenne (EAM)

#Metric

Perte moyenne par exemple lorsque la perte L1 est utilisée. Calculez l'erreur absolue moyenne comme suit:

  1. Calculez la perte L1 pour un lot.
  2. Divisez la perte L1 par le nombre d'exemples du lot.

Mean Absolute Error=1ni=0n|yiy^i|

où :

  • n correspond au nombre d'exemples.
  • y est la valeur réelle du libellé.
  • y^ est la valeur que le modèle prédit pour y.

Prenons l'exemple du calcul de la perte L1 sur le lot suivant de cinq exemples:

Valeur réelle de l'exemple Valeur prédite du modèle Perte (différence entre la valeur réelle et la valeur prévue)
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = perte L1

La perte L1 est donc de 8 et le nombre d'exemples est de 5. L'erreur absolue moyenne est donc la suivante:

Mean Absolute Error = L1 loss / Number of Examples
Mean Absolute Error = 8/5 = 1.6

Comparez l'erreur absolue moyenne à l'erreur quadratique moyenne et à la racine carrée de l'erreur quadratique moyenne.

Précision moyenne à k (mAP@k)

#language
#generativeAI
#Metric

Moyenne statistique de tous les scores de précision moyenne à k dans un ensemble de données de validation. L'une des utilisations de la précision moyenne à k est d'évaluer la qualité des recommandations générées par un système de recommandation.

Bien que l'expression "moyenne moyenne" semble redondante, le nom de la métrique est approprié. Après tout, cette métrique calcule la moyenne de plusieurs valeurs de précision moyenne à k.

Supposons que vous conceviez un système de recommandation qui génère une liste personnalisée de romans recommandés pour chaque utilisateur. Sur la base des commentaires d'utilisateurs sélectionnés, vous calculez les cinq précisions moyennes suivantes pour les scores k (un score par utilisateur):

  • 0.73
  • 0,77
  • 0,67
  • 0.82
  • 0.76

La précision moyenne moyenne à K est donc:

mean =0.73 + 0.77 + 0.67 + 0.82 + 0.765=0.75

Erreur quadratique moyenne (MSE)

#Metric

Perte moyenne par exemple lorsque la perte L2 est utilisée. Calculez l'erreur quadratique moyenne comme suit:

  1. Calculez la perte L2 pour un lot.
  2. Divisez la perte L2 par le nombre d'exemples du lot.
Mean Squared Error=1ni=0n(yiy^i)2
où :
  • n correspond au nombre d'exemples.
  • y est la valeur réelle du libellé.
  • y^ est la prédiction du modèle pour y.

Prenons l'exemple de la perte du lot suivant de cinq exemples:

Valeur réelle Prédiction du modèle Perte Perte quadratique
7 6 1 1
5 4 1 1
8 11 3 9
4 6 2 4
9 8 1 1
16 = perte L2

L'erreur quadratique moyenne est donc la suivante:

Mean Squared Error = L2 loss / Number of Examples
Mean Squared Error = 16/5 = 3.2

L'erreur quadratique moyenne est un optimiseur d'entraînement populaire, en particulier pour la régression linéaire.

Comparez l'erreur quadratique moyenne à l'erreur absolue moyenne et à la racine carrée de l'erreur quadratique moyenne.

TensorFlow Playground utilise l'erreur quadratique moyenne pour calculer les valeurs de perte.

Les valeurs aberrantes ont une forte influence sur l'erreur quadratique moyenne. Par exemple, une perte de 1 correspond à une perte au carré de 1, mais une perte de 3 correspond à une perte au carré de 9. Dans le tableau précédent, l'exemple avec une perte de 3 représente environ 56% de l'erreur quadratique moyenne, tandis que chacun des exemples avec une perte de 1 ne représente que 6% de l'erreur quadratique moyenne.

Les valeurs aberrantes n'influencent pas l'erreur absolue moyenne aussi fortement que l'erreur quadratique moyenne. Par exemple, une perte de trois comptes ne représente que 38% de l'erreur absolue moyenne.

Le clipping est un moyen d'empêcher les valeurs aberrantes extrêmes d'endommager la capacité prédictive de votre modèle.


métrique

#TensorFlow
#Metric

Statistique qui vous intéresse.

Un objectif est une métrique qu'un système de machine learning tente d'optimiser.

API Metrics (tf.metrics)

#Metric

API TensorFlow permettant d'évaluer des modèles. Par exemple, tf.metrics.accuracy détermine la fréquence à laquelle les prédictions d'un modèle correspondent aux étiquettes.

perte minimax

#Metric

Fonction de perte pour les réseaux génératifs antagonistes, basée sur la entropie croisée entre la distribution des données générées et les données réelles.

La perte minimax est utilisée dans le premier article pour décrire les réseaux génératifs antagonistes.

Pour en savoir plus, consultez la section Fonctions de perte du cours sur les réseaux génératifs antagonistes.

capacité du modèle

#Metric

Complexité des problèmes à travers lesquels un modèle est capable d'apprendre. Plus un modèle est capable d'apprendre à travers des problèmes complexes, plus sa capacité est grande. La capacité d'un modèle augmente généralement avec le nombre de ses paramètres. Pour une définition formelle de la capacité d'un classificateur, consultez la section Dimension VC.

N

classe négative

#fundamentals
#Metric

Dans la classification binaire, une classe est dite positive et l'autre négative. La classe positive est l'élément ou l'événement que le modèle teste, et la classe négative est l'autre possibilité. Exemple :

  • La classe négative d'un test médical pourrait être "pas une tumeur".
  • La classe négative d'un classificateur d'e-mails peut être "non-spam".

À comparer à la classe positive.

O

objectif

#Metric

métrique que votre algorithme tente d'optimiser.

fonction objectif

#Metric

Formule mathématique ou métrique qu'un modèle vise à optimiser. Par exemple, la fonction objectif de la régression linéaire est généralement l'erreur quadratique moyenne. Par conséquent, lors de l'entraînement d'un modèle de régression linéaire, l'entraînement vise à minimiser la perte quadratique moyenne.

Dans certains cas, l'objectif est de maximiser la fonction objectif. Par exemple, si la fonction objectif est la précision, l'objectif est de maximiser la précision.

Voir également perte.

P

carte à k (carte@k)

#Metric

Métrique permettant de déterminer la qualité du code (par exemple, Python) généré par un grand modèle de langage. Plus précisément, la valeur "pass at k" indique la probabilité qu'au moins un bloc de code généré sur k blocs de code générés réussisse tous ses tests unitaires.

Les grands modèles de langage ont souvent du mal à générer du bon code pour des problèmes de programmation complexes. Les ingénieurs logiciels s'adaptent à ce problème en demandant au grand modèle de langage de générer plusieurs (k) solutions pour le même problème. Ensuite, les ingénieurs logiciels testent chacune des solutions à l'aide de tests unitaires. Le calcul de la réussite à k dépend du résultat des tests unitaires:

  • Si une ou plusieurs de ces solutions réussissent le test unitaire, le LLM réussit ce défi de génération de code.
  • Si aucune des solutions ne passe le test unitaire, le LLM échoue à ce défi de génération de code.

La formule pour le pass à k est la suivante:

pass at k=total number of passestotal number of challenges

En règle générale, des valeurs plus élevées de k génèrent des scores de réussite plus élevés pour k. Toutefois, des valeurs plus élevées de k nécessitent des ressources plus importantes pour le modèle de langage et les tests unitaires.

Supposons qu'un ingénieur logiciel demande à un grand modèle de langage de générer k=10 solutions pour n=50 problèmes de codage difficiles. Voici les résultats:

  • 30 cartes
  • 20 échecs

La note d'admission à 10 est donc la suivante:

pass at 10=3050=0.6

performance

#Metric

Terme complexe ayant plusieurs significations:

  • Sens standard dans le génie logiciel. à savoir: à quelle vitesse, ou avec quelle efficacité, ce logiciel s'exécute-t-il ?
  • Sens dans le machine learning. Ici, les performances répondent à la question suivante: quel est le degré d'exactitude de ce modèle ? Autrement dit, les prédictions du modèle sont-elles bonnes ?

Importances des variables de permutation

#df
#Metric

Type d'importance des variables qui évalue l'augmentation de l'erreur de prédiction d'un modèle après avoir permuté les valeurs de la caractéristique. L'importance des variables de permutation est une métrique indépendante du modèle.

perplexité

#Metric

Mesure de l'efficacité d'un modèle à exécuter une tâche. Par exemple, supposons que votre tâche consiste à lire les premières lettres d'un mot qu'un utilisateur saisit sur le clavier d'un téléphone et à proposer une liste de mots de fin possibles. La perplexité, P, pour cette tâche correspond approximativement au nombre de suppositions que vous devez proposer pour que votre liste contienne le mot réel que l'utilisateur essaie de saisir.

La perplexité est liée à l'entropie croisée comme suit:

P=2cross entropy

classe positive

#fundamentals
#Metric

Classe pour laquelle vous effectuez le test.

Par exemple, la classe positive d'un modèle de cancer pourrait être "tumeur". La classe positive d'un classificateur d'e-mail pourrait être "spam".

À comparer à la classe négative.

Le terme classe positive peut prêter à confusion, car le résultat "positif" de nombreux tests est souvent un résultat indésirable. Par exemple, la classe positive de nombreux tests médicaux correspond à des tumeurs ou à des maladies. En général, vous voulez qu'un médecin vous dise : Les résultats de votre test sont négatifs." Quoi qu'il en soit, la classe positive est l'événement que le test cherche à trouver.

Certes, vous testez simultanément les classes positives et négatives.


AUC PR (aire sous la courbe PR)

#Metric

Aire sous la courbe de précision/rappel interpolée, obtenue en traçant des points (rappel, précision) pour différentes valeurs du seuil de classification.

precision

#Metric

Statistique des modèles de classification qui répond à la question suivante:

Lorsque le modèle a prédit la classe positive, quel pourcentage des prédictions étaient correctes ?

Voici la formule:

Precision=true positivestrue positives+false positives

où :

  • Un vrai positif signifie que le modèle a correctement prédit la classe positive.
  • Un faux positif signifie que le modèle a incorrectement prédit la classe positive.

Par exemple, supposons qu'un modèle ait effectué 200 prédictions positives. Sur ces 200 prédictions positives:

  • 150 étaient des vrais positifs.
  • 50 d'entre eux étaient des faux positifs.

Dans ce cas :

Precision=150150+50=0.75

À comparer à la précision et au rappel.

Pour en savoir plus, consultez Classification: précision, rappel, précision et métriques associées dans le cours d'initiation au machine learning.

Précision à k (precision@k)

#language
#Metric

Métrique permettant d'évaluer une liste d'éléments classés (triés). La précision à k identifie la fraction des premiers k éléments de cette liste qui sont "pertinents". Par exemple :

precision at k=relevant items in first k items of the listk

La valeur de k doit être inférieure ou égale à la longueur de la liste renvoyée. Notez que la longueur de la liste renvoyée n'est pas prise en compte dans le calcul.

La pertinence est souvent subjective. Même les évaluateurs humains experts sont souvent en désaccord sur les éléments pertinents.

Comparer avec :

Supposons qu'un grand modèle de langage reçoive la requête suivante:

List the 6 funniest movies of all time in order.

Le grand modèle de langage renvoie la liste affichée dans les deux premières colonnes du tableau suivant:

Position Film Est-elle pertinente ?
1 The General Oui
2 Mean Girls Oui
3 Un beau dimanche Non
4 Avatar Oui
5 Citizen Kane Non
6 This is Spinal Tap Oui

Deux des trois premiers films sont pertinents. La précision à trois est donc la suivante:

precision at 3=23=0.67

Quatre des cinq premiers films sont très drôles. La précision à 5 est donc la suivante:

precision at 5=45=0.8

la courbe de précision/rappel

#Metric

Courbe de précision par rapport au rappel à différents seuils de classification.

biais de prédiction

#Metric

Valeur indiquant l'écart entre la moyenne des prédictions et la moyenne des étiquettes dans l'ensemble de données.

À ne pas confondre avec le terme de biais dans les modèles de machine learning ni avec les biais en matière d'éthique et d'équité.

parité prédictive

#fairness
#Metric

Métrique d'équité qui vérifie si, pour un classifieur donné, les taux de précision sont équivalents pour les sous-groupes considérés.

Par exemple, un modèle qui prédit l'acceptation dans une université satisferait la parité prédictive pour la nationalité si son taux de précision est le même pour les Lilliputiens et les Brobdingnagiens.

La parité prédictive est parfois appelée parité tarifaire prédictive.

Pour en savoir plus sur la parité prédictive, consultez la section Définitions de l'équité (section 3.2.1).

parité tarifaire prédictive.

#fairness
#Metric

Autre nom de la parité prédictive.

fonction de densité de probabilité

#Metric

Fonction qui identifie la fréquence des échantillons de données ayant exactement une valeur particulière. Lorsque les valeurs d'un ensemble de données sont des nombres à virgule flottante continus, les correspondances exactes sont rares. Toutefois, l'intégration d'une fonction de densité de probabilité de la valeur x à la valeur y donne la fréquence attendue des échantillons de données entre x et y.

Prenons l'exemple d'une distribution normale ayant une moyenne de 200 et un écart-type de 30. Pour déterminer la fréquence attendue des échantillons de données compris entre 211,4 et 218,7, vous pouvez intégrer la fonction de densité de probabilité pour une distribution normale de 211,4 à 218,7.

R

recall (rappel)

#Metric

Statistique des modèles de classification qui répond à la question suivante:

Lorsque la vérité terrain était la classe positive, quel pourcentage de prédictions le modèle a-t-il correctement identifié comme étant la classe positive ?

Voici la formule:

Recall=true positivestrue positives+false negatives

où :

  • Un vrai positif signifie que le modèle a correctement prédit la classe positive.
  • Un faux négatif signifie que le modèle a à tort prédit la classe négative.

Par exemple, supposons que votre modèle ait effectué 200 prédictions sur des exemples pour lesquels la vérité terrain était la classe positive. Sur ces 200 prédictions:

  • 180 étaient des vrais positifs.
  • 20 étaient des faux négatifs.

Dans ce cas :

Recall=180180+20=0.9

Le rappel est particulièrement utile pour déterminer la puissance prédictive des modèles de classification dans lesquels la classe positive est rare. Prenons l'exemple d'un ensemble de données déséquilibré par classe dans lequel la classe positive pour une certaine maladie ne se produit que chez 10 patients sur un million. Supposons que votre modèle effectue cinq millions de prédictions qui génèrent les résultats suivants:

  • 30 vrais positifs
  • 20 faux négatifs
  • 4 999 000 vrais négatifs
  • 950 faux positifs

Le rappel de ce modèle est donc le suivant:

recall = TP / (TP + FN)
recall = 30 / (30 + 20) = 0.6 = 60%
À l'inverse, la précision de ce modèle est la suivante:
accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (30 + 4,999,000) / (30 + 4,999,000 + 950 + 20) = 99.98%

Cette valeur élevée de précision semble impressionnante, mais elle n'a aucune signification. Le rappel est une métrique beaucoup plus utile pour les ensembles de données déséquilibrés que la précision.


Pour en savoir plus, consultez Classification: précision, rappel, précision et métriques associées.

rappel à k (recall@k)

#language
#Metric

Métrique permettant d'évaluer les systèmes qui génèrent une liste d'éléments classés (triés). Le rappel à k identifie la fraction d'éléments pertinents dans les k premiers éléments de cette liste par rapport au nombre total d'éléments pertinents renvoyés.

recall at k=relevant items in first k items of the listtotal number of relevant items in the list

À comparer à la précision à k.

Supposons qu'un grand modèle de langage reçoive la requête suivante:

List the 10 funniest movies of all time in order.

Le grand modèle de langage renvoie la liste affichée dans les deux premières colonnes:

Position Film Est-elle pertinente ?
1 The General Oui
2 Mean Girls Oui
3 Un beau dimanche Non
4 Avatar Oui
5 This is Spinal Tap Oui
6 Avion ! Oui
7 Un jour sans fin Oui
8 Monty Python and the Holy GrailOui
9 Oppenheimer Non
10 Clueless Oui

Huit des films de la liste précédente sont très drôles. Il s'agit donc d'éléments pertinents dans la liste. Par conséquent, 8 sera le dénominateur de tous les calculs de rappel à k. Qu'en est-il du dénominateur ? Trois des quatre premiers éléments sont pertinents. Le rappel à 4 est donc le suivant:

recall at 4=38=0.375

Sept des huit premiers films sont très drôles. Le rappel à huit est donc le suivant:

recall at 8=78=0.875

courbe ROC (receiver operating characteristic) (courbe ROC (receiver operating characteristic))

#fundamentals
#Metric

Graphique du taux de vrais positifs par rapport au taux de faux positifs pour différents seuils de classification dans la classification binaire.

La forme d'une courbe ROC suggère la capacité d'un modèle de classification binaire à séparer les classes positives des classes négatives. Supposons, par exemple, qu'un modèle de classification binaire sépare parfaitement toutes les classes négatives de toutes les classes positives:

Une ligne de nombres avec huit exemples positifs à droite et sept exemples négatifs à gauche.

La courbe ROC du modèle précédent se présente comme suit:

Courbe ROC. L'axe X correspond au taux de faux positifs et l'axe Y au taux de vrais positifs. La courbe a la forme d'un L inversé. La courbe commence à (0,0,0) et monte directement jusqu'à (0,0,1). La courbe passe ensuite de (0,0,1,0) à (1,0,1,0).

À l'inverse, l'illustration suivante représente graphiquement les valeurs de régression logistique brutes d'un modèle terrible qui ne peut pas du tout séparer les classes négatives des classes positives:

Une ligne numérique avec des exemples positifs et des classes négatives complètement mélangées.

La courbe ROC de ce modèle se présente comme suit:

Une courbe ROC, qui est en réalité une ligne droite allant de (0,0) à (1,0).

En attendant, dans le monde réel, la plupart des modèles de classification binaire séparent les classes positives et négatives dans une certaine mesure, mais généralement pas de manière parfaite. Ainsi, une courbe ROC typique se situe quelque part entre les deux extrêmes:

Courbe ROC. L'axe X correspond au taux de faux positifs et l'axe Y au taux de vrais positifs. La courbe ROC est proche d'un arc irrégulier qui traverse les points cardinaux de l'ouest au nord.

Le point d'une courbe ROC le plus proche de (0,0,1,0) identifie théoriquement le seuil de classification idéal. Cependant, plusieurs autres problèmes concrets influencent la sélection du seuil de classification idéal. Par exemple, les faux négatifs sont peut-être beaucoup plus pénibles que les faux positifs.

Une métrique numérique appelée AUC résume la courbe ROC en une seule valeur à virgule flottante.

la racine carrée de l'erreur quadratique moyenne (RMSE, Root Mean Squared Error)

#fundamentals
#Metric

Racine carrée de l'erreur quadratique moyenne.

ROUGE (Recall-Oriented Understudy for Gisting Evaluation)

#language
#Metric

Famille de métriques qui évaluent les modèles de résumé automatique et de traduction automatique. Les métriques ROUGE déterminent le degré de chevauchement d'un texte de référence avec le texte généré d'un modèle de ML. Chaque membre de la famille ROUGE mesure le chevauchement d'une manière différente. Plus le score ROUGE est élevé, plus le texte généré est semblable au texte de référence.

Chaque membre de la famille ROUGE génère généralement les métriques suivantes:

  • Précision
  • Rappel
  • F1

Pour en savoir plus et obtenir des exemples, consultez les pages suivantes:

ROUGE-L

#language
#Metric

Un membre de la famille ROUGE s'est concentré sur la longueur de la sous-séquence commune la plus longue dans le texte de référence et le texte généré. Les formules suivantes calculent le rappel et la précision pour ROUGE-L:

ROUGE-L recall=longest common sequencenumber of words in the reference text
ROUGE-L precision=longest common sequencenumber of words in the generated text

Vous pouvez ensuite utiliser F1 pour regrouper le rappel ROUGE-L et la précision ROUGE-L dans une seule métrique:

ROUGE-L F1=2ROUGE-L recallROUGE-L precisionROUGE-L recall+ROUGE-L precision
Examinez le texte de référence et le texte généré suivants.
Catégorie Qui a produit ? Texte
Texte de référence Traducteur humain Je veux comprendre un grand nombre de choses.
Texte généré Modèle de ML Je veux apprendre beaucoup de choses.
Par conséquent :
  • La sous-séquence commune la plus longue est de 5 caractères (I want to of things)
  • Le texte de référence contient neuf mots.
  • Le nombre de mots dans le texte généré est de sept.
Par conséquent:
ROUGE-L recall=59=0.56
ROUGE-L precision=57=0.71
ROUGE-L F1=20.560.710.56+0.71=0.63

ROUGE-L ignore les sauts de ligne dans le texte de référence et le texte généré. Par conséquent, la sous-séquence commune la plus longue peut s'étendre sur plusieurs phrases. Lorsque le texte de référence et le texte généré comportent plusieurs phrases, une variante de ROUGE-L appelée ROUGE-Lsum est généralement une meilleure métrique. ROUGE-Lsum détermine la plus longue sous-séquence commune pour chaque phrase d'un passage, puis calcule la moyenne de ces sous-séquences communes.

Examinez le texte de référence et le texte généré suivants.
Catégorie Qui a produit ? Texte
Texte de référence Traducteur humain La surface de Mars est sèche. Presque toute l'eau se trouve profondément sous terre.
Texte généré Modèle de ML La surface de Mars est sèche. Cependant, la grande majorité de l'eau se trouve sous terre.
Par conséquent :
Première phrase Deuxième phrase
Séquence commune la plus longue2 (Mars dry) 3 (l'eau est souterraine)
Longueur des phrases du texte de référence 6 7
Longueur des phrases du texte généré 5 8
Par conséquent :
recall of first sentence=26=0.33
recall of second sentence=37=0.43
ROUGE-Lsum recall=0.33+0.432=0.38
precision of first sentence=25=0.4
precision of second sentence=38=0.38
ROUGE-Lsum precision=0.4+0.382=0.39
ROUGE-Lsum F1=20.380.390.38+0.39=0.38

ROUGE-N

#language
#Metric

Ensemble de métriques de la famille ROUGE qui compare les N-grammes partagés d'une certaine taille dans le texte de référence et le texte généré. Exemple :

  • ROUGE-1 mesure le nombre de jetons partagés dans le texte de référence et le texte généré.
  • ROUGE-2 mesure le nombre de bigrammes (2-grammes) partagés dans le texte de référence et le texte généré.
  • ROUGE-3 mesure le nombre de trigrammes (3-grammes) partagés dans le texte de référence et le texte généré.

Vous pouvez utiliser les formules suivantes pour calculer la précision et la récence ROUGE-N pour n'importe quel membre de la famille ROUGE-N:

ROUGE-N recall=number of matching N-gramsnumber of N-grams in the reference text
ROUGE-N precision=number of matching N-gramsnumber of N-grams in the generated text

Vous pouvez ensuite utiliser F1 pour regrouper le rappel ROUGE-N et la précision ROUGE-N dans une seule métrique:

ROUGE-N F1=2ROUGE-N recallROUGE-N precisionROUGE-N recall+ROUGE-N precision
Supposons que vous décidiez d'utiliser ROUGE-2 pour mesurer l'efficacité de la traduction d'un modèle de ML par rapport à celle d'un traducteur humain.
Catégorie Qui a produit ? Texte Bigrammes
Texte de référence Traducteur humain Je veux comprendre un grand nombre de choses. Je veux, je veux comprendre, comprendre une, une grande, grande variété, variété de, de choses
Texte généré Modèle de ML Je veux apprendre beaucoup de choses. Je veux, je veux, je veux apprendre, apprendre beaucoup, beaucoup de choses
Par conséquent :
  • Le nombre de bigrammes correspondants est de trois (je veux, vouloir et de choses).
  • Le nombre de bigrammes dans le texte de référence est de huit.
  • Le nombre de bigrammes dans le texte généré est de six.
Par conséquent:
ROUGE-2 recall=38=0.375
ROUGE-2 precision=36=0.5
ROUGE-2 F1=20.3750.50.375+0.5=0.43

ROUGE-S

#language
#Metric

Forme tolérante de ROUGE-N qui permet la mise en correspondance de skip-gram. Autrement dit, ROUGE-N ne comptabilise que les n-grammes qui correspondent exactement, tandis que ROUGE-S comptabilise également les n-grammes séparés par un ou plusieurs mots. Nous vous conseillons, par exemple, de suivre les recommandations suivantes :

Lors du calcul de ROUGE-N, le 2-gramme nuages blancs ne correspond pas à nuages blancs en forme de volutes. Toutefois, lors du calcul de ROUGE-S, Nuages blancs correspond à Nuages blancs en forme de volutes.

Coefficient de détermination

#Metric

Métrique de régression indiquant dans quelle mesure la variation d'un libellé est due à une caractéristique individuelle ou à un ensemble de caractéristiques. Le coefficient de détermination est une valeur comprise entre 0 et 1, que vous pouvez interpréter comme suit:

  • Un R-squared de 0 signifie qu'aucune variation d'un libellé n'est due à l'ensemble de caractéristiques.
  • Un R-squared de 1 signifie que toute la variation d'un libellé est due à l'ensemble de caractéristiques.
  • Un R-squared compris entre 0 et 1 indique dans quelle mesure la variation du libellé peut être prédite à partir d'une caractéristique particulière ou de l'ensemble de caractéristiques. Par exemple, un R-squared de 0,10 signifie que 10 % de la variance de l'étiquette est due à l'ensemble d'éléments, un R-squared de 0,20 signifie que 20 % est dû à l'ensemble d'éléments, etc.

Le coefficient de détermination correspond au carré du coefficient de corrélation de Pearson entre les valeurs prédites par un modèle et la vérité terrain.

S

notation

#recsystems
#Metric

Partie d'un système de recommandation qui fournit une valeur ou un classement pour chaque élément produit par la phase de génération de candidats.

mesure de similarité

#clustering
#Metric

Dans les algorithmes de clustering, la métrique permettant de déterminer le degré de similarité entre deux exemples.

parcimonie

#Metric

Nombre d'éléments définis sur zéro (ou nuls) dans un vecteur ou une matrice, divisé par le nombre total d'entrées de ce vecteur ou de cette matrice. Prenons l'exemple d'une matrice de 100 éléments dans laquelle 98 cellules contiennent zéro. La formule permettant de calculer la parcimonie est la suivante:

sparsity=98100=0.98

La spaticité des caractéristiques fait référence à la sparsité d'un vecteur de caractéristiques. La spaticité du modèle fait référence à la sparsité des poids du modèle.

marge maximale quadratique

#Metric

Carré de la perte de marge maximale. La perte de marge maximale quadratique pénalise les valeurs aberrantes plus sévèrement que la perte de marge maximale classique.

perte quadratique

#fundamentals
#Metric

Synonyme de perte L2.

T

perte de test

#fundamentals
#Metric

Métrique représentant la perte d'un modèle par rapport à l'ensemble de test. Lorsque vous créez un modèle, vous essayez généralement de minimiser la perte de test. En effet, une faible perte de test est un signal de qualité plus fort qu'une faible perte d'entraînement ou une faible perte de validation.

Un écart important entre la perte de test et la perte d'entraînement ou de validation suggère parfois que vous devez augmenter le taux de régularisation.

Précision top-k

#language
#Metric

Pourcentage de fois où un "libellé cible" apparaît dans les premières k positions des listes générées. Il peut s'agir de recommandations personnalisées ou d'une liste d'éléments triés par softmax.

La précision top-k est également appelée précision à k.

Prenons l'exemple d'un système de machine learning qui utilise la fonction softmax pour identifier les probabilités d'arbres à partir d'une image de feuilles d'arbre. Le tableau suivant présente les listes de sortie générées à partir de cinq images d'arbres d'entrée. Chaque ligne contient une étiquette cible et les cinq arbres les plus probables. Par exemple, lorsque l'étiquette cible était érable, le modèle de machine learning a identifié frêne comme étant l'arbre le plus probable, chêne comme étant le deuxième arbre le plus probable, etc.

Étiquette de la cible 1 2 3 4 5
érable orme chêne érable hêtre peuplier
cornouiller chêne cornouiller peuplier Hickory érable
chêne chêne tilleul criquet aulne Linden
Linden érable papaye chêne tilleul peuplier
chêne criquet Linden chêne érable papaye

Le libellé cible n'apparaît qu'une seule fois à la première position. La précision de la première position est donc la suivante:

top-1 accuracy=15=0.2

Le libellé cible apparaît quatre fois dans l'une des trois premières positions. La précision des trois premières positions est donc la suivante:

top-1 accuracy=45=0.8

toxique

#language
#Metric

Le degré d'abus, de menace ou d'incitation à la haine du contenu De nombreux modèles de machine learning peuvent identifier et mesurer la toxicité. La plupart de ces modèles identifient la toxicité en fonction de plusieurs paramètres, tels que le niveau de langage abusif et le niveau de langage menaçant.

perte d'entraînement

#fundamentals
#Metric

Métrique représentant la perte d'un modèle lors d'une itération d'entraînement spécifique. Par exemple, supposons que la fonction de perte soit l'erreur quadratique moyenne. La perte d'entraînement (l'erreur quadratique moyenne) pour la 10e itération est peut-être de 2,2, et la perte d'entraînement pour la 100e itération est de 1,9.

Une courbe de perte représente la perte d'entraînement en fonction du nombre d'itérations. Une courbe de perte fournit les indications suivantes sur l'entraînement:

  • Une pente descendante implique que le modèle s'améliore.
  • Une pente ascendante implique que le modèle se dégrade.
  • Une pente plate implique que le modèle a atteint la convergence.

Par exemple, la courbe de perte suivante, quelque peu idéalisée, montre:

  • Une pente descendante abrupte lors des itérations initiales, ce qui implique une amélioration rapide du modèle.
  • Une pente progressivement aplatie (mais toujours à la baisse) jusqu'à la fin de l'entraînement, ce qui implique une amélioration continue du modèle à un rythme un peu plus lent que lors des itérations initiales.
  • Une pente plate vers la fin de l'entraînement, ce qui suggère une convergence.

Graphique de la perte d'entraînement par rapport aux itérations. Cette courbe de perte commence par une pente descendante abrupte. La pente s'aplatit progressivement jusqu'à devenir nulle.

Bien que la perte d'entraînement soit importante, consultez également la généralisation.

vrai négatif (VN)

#fundamentals
#Metric

Exemple dans lequel le modèle prédit correctement la classe négative. Par exemple, le modèle déduit qu'un e-mail particulier n'est pas du spam, et qu'il n'est pas du spam.

vrai positif (VP)

#fundamentals
#Metric

Exemple dans lequel le modèle prédit correctement la classe positive. Par exemple, le modèle déduit qu'un e-mail particulier est du spam, ce qui était bien le cas.

taux de vrais positifs (TVP) (true positive rate (TPR))

#fundamentals
#Metric

Synonyme de rappel. Par exemple :

true positive rate=true positivestrue positives+false negatives

Le taux de vrais positifs correspond à l'ordonnée d'une courbe ROC.

V

perte de validation

#fundamentals
#Metric

Métrique représentant la perte d'un modèle sur l'ensemble de validation lors d'une itération spécifique de l'entraînement.

Voir également la courbe de généralisation.

importance des variables

#df
#Metric

Ensemble de scores qui indique l'importance relative de chaque caractéristique pour le modèle.

Prenons l'exemple d'un arbre de décision qui estime les prix des maisons. Supposons que cet arbre de décision utilise trois caractéristiques: la taille, l'âge et le style. Si un ensemble d'importances de variables pour les trois caractéristiques est calculé comme étant {taille=5,8, âge=2,5, style=4,7}, la taille est plus importante pour l'arbre de décision que l'âge ou le style.

Il existe différentes métriques d'importance des variables, qui peuvent renseigner les experts en ML sur différents aspects des modèles.

W

Perte Wasserstein

#Metric

L'une des fonctions de perte couramment utilisées dans les réseaux génératifs antagonistes, basée sur la distance de l'éleveur de terre entre la distribution des données générées et les données réelles.