Glossaire du machine learning: métriques

Cette page contient des termes du glossaire des métriques. Pour consulter tous les termes du glossaire, cliquez ici.

A

accuracy

#fundamentals
#Metric

Nombre de prédictions de classification correctes divisé par le nombre total de prédictions. Par exemple :

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

Par exemple, un modèle qui a fait 40 prédictions correctes et 10 prédictions incorrectes aurait une précision de :

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

La classification binaire fournit des noms spécifiques pour les différentes catégories de prédictions correctes et de prédictions incorrectes. La formule de précision pour la classification binaire est la suivante :

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

où :

Comparer et opposer la justesse à la précision et au rappel.

Pour en savoir plus, consultez Classification : précision, rappel, exactitude et métriques associées dans le Cours d'initiation au Machine Learning.

aire sous la courbe de précision/rappel

#Metric

Consultez AUC PR (aire sous la courbe de précision/rappel).

aire sous la courbe ROC

#Metric

Consultez AUC (aire sous la courbe ROC).

AUC (aire sous la courbe ROC)

#fundamentals
#Metric

Nombre compris entre 0,0 et 1,0 représentant la capacité d'un modèle de classification binaire à séparer les classes positives des classes négatives. Plus l'AUC est proche de 1,0, plus le modèle est performant pour séparer les classes les unes des autres.

Par exemple, l'illustration suivante montre un modèle de classification qui sépare parfaitement les classes positives (ovales verts) des classes négatives (rectangles violets). Ce modèle parfait et irréaliste a une AUC de 1,0 :

Une droite numérique avec huit exemples positifs d'un côté et neuf exemples négatifs de l'autre.

À l'inverse, l'illustration suivante montre les résultats d'un modèle de classification qui a généré des résultats aléatoires. Ce modèle a une AUC de 0,5 :

Une droite numérique avec six exemples positifs et six exemples négatifs.
          La séquence d'exemples est la suivante : positif, négatif, positif, négatif, positif, négatif, positif, négatif, positif, négatif, positif, négatif.

Oui, le modèle précédent a une AUC de 0,5, et non de 0.

La plupart des modèles se situent entre ces deux extrêmes. Par exemple, le modèle suivant sépare plus ou moins les positifs des négatifs et présente donc une AUC comprise entre 0,5 et 1,0 :

Une droite numérique avec six exemples positifs et six exemples négatifs.
          La séquence d'exemples est la suivante : négatif, négatif, négatif, négatif, positif, négatif, positif, positif, négatif, positif, positif, positif.

L'AUC ignore toute valeur que vous définissez pour classification threshold. L'AUC prend en compte tous les seuils de classification possibles.

Pour en savoir plus, consultez Classification : ROC et AUC dans le Cours d'initiation au machine learning.

précision moyenne à k

#Metric

Métrique permettant de résumer les performances d'un modèle sur une seule invite qui génère des résultats classés, comme une liste numérotée de recommandations de livres. La précision moyenne à k correspond à la moyenne des valeurs de précision à k pour chaque résultat pertinent. La formule de la précision moyenne à k est donc la suivante :

\[{\text{average precision at k}} = \frac{1}{n} \sum_{i=1}^n {\text{precision at k for each relevant item} } \]

où :

  • \(n\) correspond au nombre d'éléments pertinents dans la liste.

À comparer au rappel à k.

B

Valeur de référence

#Metric

Un modèle utilisé comme point de référence pour comparer les performances d'un autre modèle (généralement plus complexe). Par exemple, un modèle de régression logistique peut servir de bonne référence pour un modèle profond.

Pour un problème donné, la référence aide les développeurs de modèles à quantifier les performances minimales attendues qu'un nouveau modèle doit atteindre pour être utile.

C

coût

#Metric

Synonyme de perte.

équité contrefactuelle

#responsible
#Metric

Une métrique d'équité qui vérifie si un modèle de classification produit le même résultat pour une personne que pour une autre qui est identique à la première, sauf en ce qui concerne un ou plusieurs attributs sensibles. L'évaluation d'un modèle de classification pour l'équité contrefactuelle est une méthode permettant d'identifier les sources potentielles de biais dans un modèle.

Pour en savoir plus, consultez les ressources suivantes :

entropie croisée

#Metric

Généralisation de la perte logistique aux problèmes de classification à classes multiples. L'entropie croisée quantifie la différence entre deux distributions de probabilité. Voir aussi perplexité.

fonction de distribution cumulative (CDF)

#Metric

Fonction qui définit la fréquence des échantillons inférieurs ou égaux à une valeur cible. Par exemple, considérons une distribution normale de valeurs continues. Une CDF vous indique qu'environ 50 % des échantillons doivent être inférieurs ou égaux à la moyenne et qu'environ 84 % des échantillons doivent être inférieurs ou égaux à un écart-type au-dessus de la moyenne.

D

parité démographique

#responsible
#Metric

Une métrique d'équité qui est satisfaite si les résultats de la classification d'un modèle ne dépendent pas d'un attribut sensible donné.

Par exemple, si les Lilliputiens et les Brobdingnags postulent à l'université de Glubbdubdrib, la parité démographique est atteinte si le pourcentage de Lilliputiens admis est le même que celui des Brobdingnags, que l'un des groupes soit en moyenne plus qualifié que l'autre ou non.

À comparer avec l'égalité des chances et l'égalité des opportunités, qui permettent aux résultats de classification agrégés de dépendre des attributs sensibles, mais pas aux résultats de classification pour certains libellés de vérité terrain spécifiés. Consultez "Attacking discrimination with smarter machine learning" (Lutter contre la discrimination grâce à un machine learning plus intelligent) pour une visualisation explorant les compromis lors de l'optimisation pour la parité démographique.

Pour en savoir plus, consultez Équité : parité démographique dans le Cours d'initiation au Machine Learning.

E

Distance Earth Mover (EMD)

#Metric

Mesure de la similarité relative de deux distributions. Plus la distance de déplacement de la Terre est faible, plus les distributions sont similaires.

distance d'édition

#Metric

Mesure de la similarité entre deux chaînes de texte. Dans le machine learning, la distance d'édition est utile pour les raisons suivantes :

  • La distance d'édition est facile à calculer.
  • La distance d'édition peut comparer deux chaînes connues pour être similaires.
  • La distance d'édition peut déterminer le degré de similarité entre différentes chaînes et une chaîne donnée.

Il existe plusieurs définitions de la distance d'édition, chacune utilisant des opérations de chaîne différentes. Pour obtenir un exemple, consultez Distance de Levenshtein.

fonction de distribution empirique (FDR ou FDE)

#Metric

Fonction de répartition basée sur des mesures empiriques issues d'un ensemble de données réel. La valeur de la fonction à n'importe quel point de l'axe x correspond à la fraction des observations de l'ensemble de données qui sont inférieures ou égales à la valeur spécifiée.

entropie

#df
#Metric

Dans la théorie de l'information, l'entropie est une description du degré d'imprévisibilité d'une distribution de probabilité. Elle est également définie comme la quantité d'informations contenues dans chaque exemple. Une distribution présente l'entropie la plus élevée possible lorsque toutes les valeurs d'une variable aléatoire sont équiprobables.

L'entropie d'un ensemble avec deux valeurs possibles "0" et "1" (par exemple, les libellés dans un problème de classification binaire) a la formule suivante :

  H = -p log p - q log q = -p log p - (1-p) * log (1-p)

où :

  • H est l'entropie.
  • p est la fraction d'exemples "1".
  • q correspond à la fraction d'exemples "0". Notez que q = (1 - p)
  • log est généralement log2. Dans ce cas, l'unité d'entropie est un bit.

Par exemple, supposons les éléments suivants :

  • 100 exemples contiennent la valeur "1"
  • 300 exemples contiennent la valeur "0"

La valeur d'entropie est donc la suivante :

  • p = 0,25
  • q = 0,75
  • H = (-0,25)log2(0,25) - (0,75)log2(0,75) = 0,81 bit par exemple

Un ensemble parfaitement équilibré (par exemple, 200 "0" et 200 "1") aurait une entropie de 1,0 bit par exemple. À mesure qu'un ensemble devient plus déséquilibré, son entropie tend vers 0.

Dans les arbres de décision, l'entropie permet de formuler le gain d'information pour aider le splitter à sélectionner les conditions lors de la croissance d'un arbre de décision de classification.

Comparer l'entropie avec :

L'entropie est souvent appelée entropie de Shannon.

Pour en savoir plus, consultez Splitter exact pour la classification binaire avec des caractéristiques numériques dans le cours sur les forêts de décision.

l'égalité des chances.

#responsible
#Metric

Une métrique d'équité permettant d'évaluer si un modèle prédit le résultat souhaitable aussi bien pour toutes les valeurs d'une caractéristique sensible. En d'autres termes, si le résultat souhaitable pour un modèle est la classe positive, l'objectif serait d'avoir le même taux de vrais positifs pour tous les groupes.

L'égalité des chances est liée à la parité des chances, qui exige que les taux de vrais positifs et les taux de faux positifs soient les mêmes pour tous les groupes.

Supposons que l'université Glubbdubdrib accepte les Lilliputiens et les Brobdingnags dans un programme de mathématiques rigoureux. Les établissements secondaires lilliputiens proposent un programme solide de cours de mathématiques, et la grande majorité des élèves sont qualifiés pour le programme universitaire. Les établissements secondaires de Brobdingnag ne proposent pas de cours de mathématiques. Par conséquent, beaucoup moins d'élèves sont qualifiés. L'égalité des chances est respectée pour le libellé préféré "admis" par rapport à la nationalité (Lilliputien ou Brobdingnagien) si les élèves qualifiés ont la même probabilité d'être admis, qu'ils soient Lilliputiens ou Brobdingnagiens.

Par exemple, supposons que 100 Lilliputiens et 100 Brobdingnagiens postulent à l'université de Glubbdubdrib, et que les décisions d'admission sont prises comme suit :

Tableau 1. Candidats lilliputiens (90 % sont qualifiés)

  Qualifié Non défini
Admis 45 3
Refusé 45 7
Total 90 10
Pourcentage d'étudiants qualifiés admis : 45/90 = 50 %
Pourcentage d'étudiants non qualifiés refusés : 7/10 = 70 %
Pourcentage total d'étudiants lilliputiens admis : (45+3)/100 = 48 %

 

Tableau 2. Candidats brobdingnagiens (10 % sont qualifiés) :

  Qualifié Non défini
Admis 5 9
Refusé 5 81
Total 10 90
Pourcentage d'étudiants qualifiés admis : 5/10 = 50 %
Pourcentage d'étudiants non qualifiés refusés : 81/90 = 90 %
Pourcentage total d'étudiants brobdingnagiens admis : (5+9)/100 = 14 %

Les exemples précédents satisfont l'égalité des chances pour l'acceptation des élèves qualifiés, car les Lilliputiens et les Brobdingnagiens qualifiés ont tous deux 50 % de chances d'être admis.

Bien que l'égalité des chances soit respectée, les deux métriques d'équité suivantes ne le sont pas :

  • Parité démographique : les Lilliputiens et les Brobdingnagiens sont admis à l'université à des taux différents (48 % des Lilliputiens sont admis, contre seulement 14 % des Brobdingnagiens).
  • Parité des chances : bien que les étudiants lilliputiens et brobdingnagiens qualifiés aient la même chance d'être admis, la contrainte supplémentaire selon laquelle les lilliputiens et les brobdingnagiens non qualifiés ont la même chance d'être refusés n'est pas respectée. Le taux de refus est de 70 % pour les Lilliputiens non qualifiés et de 90 % pour les Brobdingnagiens non qualifiés.

Pour en savoir plus, consultez Équité : égalité des chances dans le Cours d'initiation au Machine Learning.

Chances égales

#responsible
#Metric

Métrique d'équité permettant d'évaluer si un modèle prédit les résultats aussi bien pour toutes les valeurs d'un attribut sensible par rapport à la classe positive et à la classe négative, et non pas uniquement à l'une ou l'autre. En d'autres termes, le taux de vrais positifs et le taux de faux négatifs doivent être identiques pour tous les groupes.

L'égalité des chances est liée à l'égalité des opportunités, qui ne se concentre que sur les taux d'erreur pour une seule classe (positive ou négative).

Par exemple, supposons que l'université Glubbdubdrib accepte les Lilliputiens et les Brobdingnagiens dans un programme de mathématiques rigoureux. Les établissements secondaires lilliputiens proposent un programme solide de cours de mathématiques, et la grande majorité des élèves sont qualifiés pour le programme universitaire. Les établissements secondaires de Brobdingnag ne proposent pas de cours de mathématiques. Par conséquent, beaucoup moins de leurs élèves sont qualifiés. L'égalité des chances est respectée si, qu'un candidat soit lilliputien ou brobdingnagien, il a la même probabilité d'être admis au programme s'il est qualifié, et la même probabilité d'être refusé s'il ne l'est pas.

Supposons que 100 Lilliputiens et 100 Brobdingnags postulent à l'université de Glubbdubdrib, et que les décisions d'admission sont prises comme suit :

Tableau 3 : Candidats lilliputiens (90 % sont qualifiés)

  Qualifié Non défini
Admis 45 2
Refusé 45 8
Total 90 10
Pourcentage d'étudiants qualifiés admis : 45/90 = 50 %
Pourcentage d'étudiants non qualifiés refusés : 8/10 = 80 %
Pourcentage total d'étudiants lilliputiens admis : (45+2)/100 = 47 %

 

Tableau 4. Candidats brobdingnagiens (10 % sont qualifiés) :

  Qualifié Non défini
Admis 5 18
Refusé 5 72
Total 10 90
Pourcentage d'étudiants qualifiés admis : 5/10 = 50 %
Pourcentage d'étudiants non qualifiés refusés : 72/90 = 80 %
Pourcentage total d'étudiants brobdingnagiens admis : (5+18)/100 = 23 %

Les chances égales sont respectées, car les étudiants lilliputiens et brobdingnagiens qualifiés ont tous deux 50 % de chances d'être admis, tandis que les étudiants lilliputiens et brobdingnagiens non qualifiés ont 80 % de chances d'être refusés.

La parité des chances est formellement définie dans "Equality of Opportunity in Supervised Learning" comme suit : "Le prédicteur Ŷ satisfait à la parité des chances par rapport à l'attribut protégé A et au résultat Y si Ŷ et A sont indépendants, conditionnellement à Y."

evals

#generativeAI
#Metric

Principalement utilisé comme abréviation pour LLM evaluations (Évaluations LLM). Plus généralement, evals est l'abréviation de toute forme d'évaluation.

hors connexion

#generativeAI
#Metric

Processus de mesure de la qualité d'un modèle ou de comparaison de différents modèles.

Pour évaluer un modèle de machine learning supervisé, vous le comparez généralement à un ensemble de validation et à un ensemble de test. L'évaluation d'un LLM implique généralement des évaluations plus larges de la qualité et de la sécurité.

F

F1

#Metric

Métrique de classification binaire "cumulée" qui repose à la fois sur la précision et le rappel. Voici la formule :

$$F{_1} = \frac{\text{2 * precision * recall}} {\text{precision + recall}}$$

métrique d'équité

#responsible
#Metric

Définition mathématique de l'équité qui est mesurable. Voici quelques métriques d'équité couramment utilisées :

De nombreuses métriques d'équité s'excluent mutuellement. Pour en savoir plus, consultez Incompatibilité des métriques d'équité.

Faux négatif (FN)

#fundamentals
#Metric

Exemple dans lequel le modèle a prédit à tort la classe négative. Par exemple, le modèle prédit qu'un e-mail particulier n'est pas du spam (classe négative), alors qu'en réalité, il l'est.

taux de faux négatifs

#Metric

Proportion d'exemples positifs réels pour lesquels le modèle a prédit à tort la classe négative. La formule suivante permet de calculer le taux de faux négatifs :

$$\text{false negative rate} = \frac{\text{false negatives}}{\text{false negatives} + \text{true positives}}$$

Pour en savoir plus, consultez Seuils et matrice de confusion dans le Cours d'initiation au machine learning.

Faux positif (FP)

#fundamentals
#Metric

Exemple dans lequel le modèle prédit à tort la classe positive. Par exemple, le modèle prédit qu'un e-mail particulier est du spam (classe positive), alors qu'en réalité ce n'est pas un courrier indésirable.

Pour en savoir plus, consultez Seuils et matrice de confusion dans le Cours d'initiation au machine learning.

taux de faux positifs (TFP) (false positive rate (FPR))

#fundamentals
#Metric

Proportion d'exemples négatifs réels pour lesquels le modèle a prédit à tort la classe positive. La formule suivante permet de calculer le taux de faux positifs :

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

Le taux de faux positifs correspond à l'abscisse d'une courbe ROC.

Pour en savoir plus, consultez Classification : ROC et AUC dans le Cours d'initiation au machine learning.

importance des caractéristiques.

#df
#Metric

Synonyme de importance des variables.

modèle de fondation

#generativeAI
#Metric

Un modèle pré-entraîné très volumineux, entraîné sur un ensemble d'entraînement énorme et diversifié. Un modèle de fondation peut effectuer les deux opérations suivantes :

  • répondre correctement à un large éventail de requêtes ;
  • Servir de modèle de base pour un affinage supplémentaire ou d'autres personnalisations.

En d'autres termes, un modèle de fondation est déjà très performant de manière générale, mais il peut être personnalisé davantage pour devenir encore plus utile pour une tâche spécifique.

fraction de succès

#generativeAI
#Metric

Métrique permettant d'évaluer le texte généré d'un modèle de ML. La fraction de succès correspond au nombre de résultats textuels générés "réussis" divisé par le nombre total de résultats textuels générés. Par exemple, si un grand modèle de langage a généré 10 blocs de code, dont cinq ont réussi, la fraction de réussite sera de 50 %.

Bien que la fraction de succès soit largement utile dans les statistiques, dans le ML, cette métrique est principalement utile pour mesurer les tâches vérifiables telles que la génération de code ou les problèmes mathématiques.

G

Impureté de Gini

#df
#Metric

Métrique semblable à l'entropie. Les splitters utilisent des valeurs dérivées de l'impureté de Gini ou de l'entropie pour composer des conditions pour les arbres de décision de classification. Le gain d'information est dérivé de l'entropie. Il n'existe pas de terme équivalent universellement accepté pour la métrique dérivée de l'impureté de Gini. Toutefois, cette métrique sans nom est tout aussi importante que le gain d'information.

L'impureté de Gini est également appelée indice de Gini ou simplement Gini.

H

perte de marge maximale

#Metric

Famille de fonctions de perte pour la classification conçue pour trouver la frontière de décision la plus éloignée possible de chaque exemple d'entraînement, afin de maximiser la marge entre les exemples et la frontière. Les KSVMs utilisent la marge maximale (ou une fonction associée, par exemple le carré de la marge maximale). Dans le cas de la classification binaire, la fonction de perte de marge maximale est définie ainsi :

$$\text{loss} = \text{max}(0, 1 - (y * y'))$$

y est l'étiquette réelle (-1 ou +1) et y' est la sortie brute du modèle de classification :

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Par conséquent, le graphique de la marge maximale en fonction de (y * y') est de la forme suivante :

Graphique cartésien composé de deux segments de ligne reliés. Le premier segment de ligne commence à (-3, 4) et se termine à (1, 0). Le segment de la deuxième ligne commence à (1, 0) et se poursuit indéfiniment avec une pente de 0.

I

incompatibilité des métriques d'équité

#responsible
#Metric

L'idée que certaines notions d'équité sont mutuellement incompatibles et ne peuvent pas être satisfaites simultanément. Par conséquent, il n'existe pas de métrique universelle unique pour quantifier l'équité qui puisse être appliquée à tous les problèmes de ML.

Bien que cela puisse sembler décourageant, l'incompatibilité des métriques d'équité n'implique pas que les efforts d'équité sont vains. Au lieu de cela, il suggère que l'équité doit être définie selon un contexte et un problème de ML donnés, dans le but d'éviter les préjudices spécifiques à ses cas d'utilisation.

Pour en savoir plus sur l'incompatibilité des métriques d'équité, consultez On the (im)possibility of fairness.

équité individuelle

#responsible
#Metric

Métrique d'équité qui vérifie si des individus semblables sont classés de manière similaire. Par exemple, l'Académie Brobdingnagian peut souhaiter satisfaire l'équité individuelle en s'assurant que deux élèves ayant obtenu des notes et des résultats de tests standardisés identiques ont la même probabilité d'être admis.

Notez que l'équité individuelle repose entièrement sur la façon dont vous définissez la "similarité" (dans ce cas, les notes et les résultats des tests). Vous risquez d'introduire de nouveaux problèmes d'équité si votre métrique de similarité manque des informations importantes (comme la rigueur du programme scolaire d'un élève).

Pour en savoir plus sur l'équité individuelle, consultez Fairness Through Awareness.

gain d'information

#df
#Metric

Dans les forêts de décision, il s'agit de la différence entre l'entropie d'un nœud et la somme pondérée (par nombre d'exemples) de l'entropie de ses nœuds enfants. L'entropie d'un nœud correspond à l'entropie des exemples de ce nœud.

Prenons par exemple les valeurs d'entropie suivantes :

  • Entropie du nœud parent = 0,6
  • L'entropie d'un nœud enfant avec 16 exemples pertinents est égale à 0,2.
  • Entropie d'un autre nœud enfant avec 24 exemples pertinents = 0,1

Ainsi, 40 % des exemples se trouvent dans un nœud enfant et 60 % dans l'autre. Par conséquent :

  • Somme pondérée de l'entropie des nœuds enfants = (0,4 * 0,2) + (0,6 * 0,1) = 0,14

Le gain d'information est donc le suivant :

  • Gain d'information = entropie du nœud parent - somme pondérée de l'entropie des nœuds enfants
  • gain d'information = 0,6 – 0,14 = 0,46

La plupart des splitters cherchent à créer des conditions qui maximisent le gain d'information.

accord inter-évaluateurs

#Metric

Mesure de la fréquence à laquelle les évaluateurs humains sont d'accord lorsqu'ils effectuent une tâche. Si les évaluateurs ne sont pas d'accord, il faudra peut-être améliorer les instructions de la tâche. Parfois également appelé accord inter-annotateurs ou fiabilité inter-évaluateurs. Voir aussi le kappa de Cohen, l'une des mesures de l'accord inter-évaluateurs les plus populaires.

Pour en savoir plus, consultez Données catégorielles : problèmes courants dans le Cours d'initiation au Machine Learning.

L

Perte L1

#fundamentals
#Metric

Fonction de perte qui calcule la valeur absolue de la différence entre les valeurs d'étiquette réelles et les valeurs prédites par un modèle. Par exemple, voici le calcul de la perte L1 pour un batch de cinq exemples :

Valeur réelle de l'exemple Valeur prédite du modèle Valeur absolue du delta
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = perte L1

La perte L1 est moins sensible aux valeurs aberrantes que la perte L2.

L'erreur absolue moyenne correspond à la perte L1 moyenne par exemple.

Pour en savoir plus, consultez Régression linéaire : perte dans le cours d'initiation au machine learning.

Perte L2

#fundamentals
#Metric

Une fonction de perte qui calcule le carré de la différence entre les valeurs d'étiquette réelles et les valeurs prédites par un modèle. Par exemple, voici le calcul de la perte L2 pour un batch de cinq exemples :

Valeur réelle de l'exemple Valeur prédite du modèle Carré du delta
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
  16 = perte L2

En raison de la mise au carré, la perte L2 amplifie l'influence des valeurs aberrantes. En d'autres termes, la perte L2 réagit plus fortement aux mauvaises prédictions que la perte L1. Par exemple, la perte L1 pour le lot précédent serait de 8 au lieu de 16. Notez qu'une seule valeur aberrante représente 9 des 16 valeurs.

Les modèles de régression utilisent généralement la perte L2 comme fonction de perte.

L'erreur quadratique moyenne correspond à la perte L2 moyenne par exemple. La perte quadratique est un autre nom pour la perte L2.

Pour en savoir plus, consultez Régression logistique : perte et régularisation dans le Cours d'initiation au machine learning.

Évaluations de LLM

#generativeAI
#Metric

Ensemble de métriques et de benchmarks permettant d'évaluer les performances des grands modèles de langage (LLM). De manière générale, les évaluations de LLM :

  • Aidez les chercheurs à identifier les domaines dans lesquels les LLM doivent être améliorés.
  • Elles sont utiles pour comparer différents LLM et identifier le meilleur LLM pour une tâche spécifique.
  • Contribuez à garantir que les LLM sont sûrs et éthiques.

Pour en savoir plus, consultez Grands modèles de langage (LLM) dans le Cours d'initiation au Machine Learning.

perte

#fundamentals
#Metric

Pendant l'entraînement d'un modèle supervisé, une mesure de l'écart entre la prédiction d'un modèle et son libellé.

Une fonction de perte calcule la perte.

Pour en savoir plus, consultez Régression linéaire : perte dans le cours d'initiation au machine learning.

fonction de perte

#fundamentals
#Metric

Pendant l'entraînement ou le test, une fonction mathématique qui calcule la perte sur un batch d'exemples. Une fonction de perte renvoie une perte plus faible pour les modèles qui font de bonnes prédictions que pour ceux qui font de mauvaises prédictions.

L'objectif de l'entraînement est généralement de minimiser la perte renvoyée par une fonction de perte.

Il existe de nombreux types de fonctions de perte. Choisissez la fonction de perte appropriée pour le type de modèle que vous créez. Exemple :

M

Erreur absolue moyenne (EAM)

#Metric

Perte moyenne par exemple lorsque la perte L1 est utilisée. Pour calculer l'erreur absolue moyenne :

  1. Calcule la perte L1 pour un lot.
  2. Divisez la perte L1 par le nombre d'exemples du lot.

Prenons par exemple le calcul de la perte L1 sur le lot de cinq exemples suivant :

Valeur réelle de l'exemple Valeur prédite du modèle Perte (différence entre la valeur réelle et la valeur prédite)
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = perte L1

La perte L1 est donc de 8 et le nombre d'exemples est de 5. L'erreur absolue moyenne est donc la suivante :

Mean Absolute Error = L1 loss / Number of Examples
Mean Absolute Error = 8/5 = 1.6

Comparez l'erreur absolue moyenne à l'erreur quadratique moyenne et à la racine carrée de l'erreur quadratique moyenne.

Précision moyenne à k (mAP@k)

#generativeAI
#Metric

Moyenne statistique de tous les scores précision moyenne à k dans un ensemble de données de validation. La précision moyenne à k peut être utilisée pour évaluer la qualité des recommandations générées par un système de recommandation.

Bien que l'expression "moyenne moyenne" semble redondante, le nom de la métrique est approprié. En effet, cette métrique trouve la moyenne de plusieurs valeurs précision moyenne à k.

Erreur quadratique moyenne (MSE)

#Metric

Perte moyenne par exemple lorsque la perte L2 est utilisée. Calculez l'erreur quadratique moyenne comme suit :

  1. Calcule la perte L2 pour un lot.
  2. Divisez la perte L2 par le nombre d'exemples du lot.

Par exemple, considérons la perte sur le lot suivant de cinq exemples :

Valeur réelle Prédiction du modèle Perte Perte quadratique
7 6 1 1
5 4 1 1
8 11 3 9
4 6 2 4
9 8 1 1
16 = perte L2

L'erreur quadratique moyenne est donc la suivante :

Mean Squared Error = L2 loss / Number of Examples
Mean Squared Error = 16/5 = 3.2

L'erreur quadratique moyenne est un optimiseur d'entraînement populaire, en particulier pour la régression linéaire.

Comparez l'erreur quadratique moyenne avec l'erreur absolue moyenne et la racine carrée de l'erreur quadratique moyenne.

TensorFlow Playground utilise l'erreur quadratique moyenne pour calculer les valeurs de perte.

metric

#TensorFlow
#Metric

Statistique qui vous intéresse.

Un objectif est une métrique qu'un système de machine learning tente d'optimiser.

API Metrics (tf.metrics)

#Metric

API TensorFlow permettant d'évaluer des modèles. Par exemple, tf.metrics.accuracy détermine la fréquence à laquelle les prédictions d'un modèle correspondent aux libellés.

perte minimax

#Metric

Fonction de perte pour les réseaux antagonistes génératifs, basée sur l'entropie croisée entre la distribution des données générées et des données réelles.

La perte minimax est utilisée dans le premier article pour décrire les réseaux antagonistes génératifs.

Pour en savoir plus, consultez Fonctions de perte dans le cours sur les réseaux antagonistes génératifs.

capacité du modèle

#Metric

Complexité des problèmes à travers lesquels un modèle est capable d'apprendre. Plus un modèle est capable d'apprendre à travers des problèmes complexes, plus sa capacité est grande. La capacité d'un modèle augmente généralement avec le nombre de ses paramètres. Pour une définition formelle de la capacité d'un modèle de classification, consultez Dimension VC.

N

classe négative

#fundamentals
#Metric

Dans la classification binaire, une classe est dite positive et l'autre négative. La classe positive est l'élément ou l'événement que le modèle teste, et la classe négative est l'autre possibilité. Exemple :

  • La classe négative d'un test médical pourrait être "pas une tumeur".
  • La classe négative d'un modèle de classification d'e-mails peut être "non-spam".

À comparer à la classe positive.

O

objectif

#Metric

Une métrique que votre algorithme tente d'optimiser.

fonction objectif

#Metric

Formule mathématique ou métrique qu'un modèle vise à optimiser. Par exemple, la fonction objectif de la régression linéaire est généralement la perte quadratique moyenne. Par conséquent, lors de l'entraînement d'un modèle de régression linéaire, l'objectif est de minimiser la perte quadratique moyenne.

Dans certains cas, l'objectif est de maximiser la fonction objectif. Par exemple, si la fonction objectif est la précision, l'objectif est de maximiser la précision.

Voir aussi perte.

P

pass at k (pass@k)

#Metric

Métrique permettant de déterminer la qualité du code (par exemple, Python) généré par un grand modèle de langage. Plus précisément, "pass@k" indique la probabilité qu'au moins un bloc de code généré sur k blocs de code générés réussisse tous ses tests unitaires.

Les grands modèles de langage ont souvent du mal à générer du code de qualité pour les problèmes de programmation complexes. Pour résoudre ce problème, les ingénieurs logiciels demandent au grand modèle de langage de générer plusieurs (k) solutions pour le même problème. Les ingénieurs logiciels testent ensuite chacune des solutions à l'aide de tests unitaires. Le calcul de la réussite à k dépend du résultat des tests unitaires :

  • Si une ou plusieurs de ces solutions réussissent le test unitaire, le LLM réussit ce défi de génération de code.
  • Si aucune des solutions ne réussit le test unitaire, le LLM échoue à ce défi de génération de code.

La formule pour le taux de réussite à k est la suivante :

\[\text{pass at k} = \frac{\text{total number of passes}} {\text{total number of challenges}}\]

En général, des valeurs k plus élevées produisent des scores "pass at k" plus élevés. Toutefois, des valeurs k plus élevées nécessitent davantage de ressources de grands modèles de langage et de tests unitaires.

performance

#Metric

Terme complexe ayant plusieurs significations :

  • Sens standard dans le génie logiciel, à savoir : à quelle vitesse, ou avec quelle efficacité, ce logiciel s'exécute-t-il ?
  • Sens dans le machine learning, Ici, les performances répondent à la question suivante : quel est le degré d'exactitude de ce modèle ? Autrement dit, les prédictions du modèle sont-elles bonnes ?

Importance des variables de permutation

#df
#Metric

Type d'importance des variables qui évalue l'augmentation de l'erreur de prédiction d'un modèle après permutation des valeurs de la caractéristique. L'importance des variables de permutation est une métrique indépendante du modèle.

perplexité

#Metric

Mesure de l'efficacité d'un modèle à exécuter une tâche. Par exemple, supposons que votre tâche consiste à lire les premières lettres d'un mot qu'un utilisateur saisit sur un clavier de téléphone et à proposer une liste de mots possibles pour compléter la saisie. La perplexité P pour cette tâche correspond approximativement au nombre de suggestions que vous devez proposer pour que votre liste contienne le mot que l'utilisateur essaie de saisir.

La perplexité est liée à l'entropie croisée par la formule suivante :

$$P= 2^{-\text{cross entropy}}$$

classe positive

#fundamentals
#Metric

Classe pour laquelle vous effectuez le test.

Par exemple, la classe positive d'un modèle de détection du cancer pourrait être "tumeur". La classe positive d'un modèle de classification d'e-mails peut être "spam".

À comparer à la classe négative.

AUC PR (aire sous la courbe de précision/rappel)

#Metric

Aire sous la courbe de précision/rappel interpolée, obtenue en traçant les points (rappel, précision) pour différentes valeurs du seuil de classification.

precision

#fundamentals
#Metric

Statistique des modèles de classification qui répond à la question suivante :

Lorsque le modèle a prédit la classe positive, quel pourcentage de prédictions étaient correctes ?

Voici la formule :

$$\text{Precision} = \frac{\text{true positives}} {\text{true positives} + \text{false positives}}$$

où :

  • Un vrai positif signifie que le modèle a prédit correctement la classe positive.
  • Un faux positif signifie que le modèle a prédit à tort la classe positive.

Par exemple, supposons qu'un modèle a effectué 200 prédictions positives. Parmi ces 200 prédictions positives :

  • 150 étaient des vrais positifs.
  • 50 étaient des faux positifs.

Dans ce cas :

$$\text{Precision} = \frac{\text{150}} {\text{150} + \text{50}} = 0.75$$

À comparer à la justesse et au rappel.

Pour en savoir plus, consultez Classification : précision, rappel, exactitude et métriques associées dans le Cours d'initiation au Machine Learning.

Précision à k (precision@k)

#Metric

Métrique permettant d'évaluer une liste d'éléments classés (ordonnés). La précision à k identifie la fraction des k premiers éléments de cette liste qui sont "pertinents". Par exemple :

\[\text{precision at k} = \frac{\text{relevant items in first k items of the list}} {\text{k}}\]

La valeur de k doit être inférieure ou égale à la longueur de la liste renvoyée. Notez que la longueur de la liste renvoyée ne fait pas partie du calcul.

La pertinence est souvent subjective. Même les évaluateurs humains experts ne sont pas toujours d'accord sur les éléments pertinents.

Comparer avec :

la courbe de précision/rappel

#Metric

Courbe de précision par rapport au rappel à différents seuils de classification.

biais de prédiction

#Metric

Valeur indiquant l'écart entre la moyenne des prédictions et la moyenne des libellés dans l'ensemble de données.

À ne pas confondre avec le biais des modèles de machine learning ni avec le biais en matière d'éthique et d'équité.

parité prédictive

#responsible
#Metric

Une métrique d'équité qui vérifie si, pour un modèle de classification donné, les taux de précision sont équivalents pour les sous-groupes considérés.

Par exemple, un modèle qui prédit l'acceptation dans une université respecterait la parité prédictive pour la nationalité si son taux de précision était le même pour les Lilliputiens et les Brobdingnags.

La parité prédictive est parfois appelée parité du taux de prédiction.

Pour en savoir plus sur la parité prédictive, consultez la section 3.2.1 de l'article Explication des définitions d'équité.

parité des taux prédictive

#responsible
#Metric

Autre nom pour la parité prédictive.

fonction de densité de probabilité

#Metric

Fonction qui identifie la fréquence des échantillons de données ayant exactement une valeur spécifique. Lorsque les valeurs d'un ensemble de données sont des nombres à virgule flottante continus, les correspondances exactes sont rares. Toutefois, l'intégration d'une fonction de densité de probabilité de la valeur x à la valeur y donne la fréquence attendue des échantillons de données entre x et y.

Prenons l'exemple d'une distribution normale dont la moyenne est de 200 et l'écart-type de 30. Pour déterminer la fréquence attendue des échantillons de données compris entre 211,4 et 218,7, vous pouvez intégrer la fonction de densité de probabilité pour une distribution normale de 211,4 à 218,7.

R

recall (rappel)

#fundamentals
#Metric

Statistique des modèles de classification qui répond à la question suivante :

Lorsque la vérité terrain correspondait à la classe positive, quel pourcentage de prédictions le modèle a-t-il correctement identifié comme classe positive ?

Voici la formule :

\[\text{Recall} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}} \]

où :

  • Un vrai positif signifie que le modèle a prédit correctement la classe positive.
  • Un faux négatif signifie que le modèle a prédit à tort la classe négative.

Par exemple, supposons que votre modèle ait effectué 200 prédictions sur des exemples pour lesquels la vérité terrain était la classe positive. Sur ces 200 prédictions :

  • 180 étaient des vrais positifs.
  • 20 étaient des faux négatifs.

Dans ce cas :

\[\text{Recall} = \frac{\text{180}} {\text{180} + \text{20}} = 0.9 \]

Pour en savoir plus, consultez Classification : précision, rappel et métriques associées.

Rappel à k (recall@k)

#Metric

Métrique permettant d'évaluer les systèmes qui génèrent une liste d'éléments classés (ordonnés). Le rappel à k identifie la fraction d'éléments pertinents dans les k premiers éléments de cette liste sur le nombre total d'éléments pertinents renvoyés.

\[\text{recall at k} = \frac{\text{relevant items in first k items of the list}} {\text{total number of relevant items in the list}}\]

À comparer à la précision à k.

Courbe ROC (receiver operating characteristic)

#fundamentals
#Metric

Graphique du taux de vrais positifs par rapport au taux de faux positifs pour différents seuils de classification dans la classification binaire.

La forme d'une courbe ROC suggère la capacité d'un modèle de classification binaire à séparer les classes positives des classes négatives. Supposons, par exemple, qu'un modèle de classification binaire sépare parfaitement toutes les classes négatives de toutes les classes positives :

Une droite numérique avec huit exemples positifs à droite et sept exemples négatifs à gauche.

La courbe ROC du modèle précédent se présente comme suit :

Courbe ROC L'axe X correspond au taux de faux positifs et l'axe Y au taux de vrais positifs. La courbe a la forme d'un L inversé. La courbe commence à (0.0,0.0) et monte tout droit jusqu'à (0.0,1.0). La courbe passe ensuite de (0.0,1.0) à (1.0,1.0).

En revanche, l'illustration suivante représente les valeurs brutes de régression logistique pour un modèle médiocre qui ne peut pas du tout séparer les classes négatives des classes positives :

Une droite numérique avec des exemples positifs et des classes négatives complètement mélangés.

La courbe ROC de ce modèle se présente comme suit :

Une courbe ROC, qui est en fait une ligne droite allant de (0.0,0.0) à (1.0,1.0).

Dans le monde réel, la plupart des modèles de classification binaire séparent les classes positives et négatives dans une certaine mesure, mais généralement pas parfaitement. Par conséquent, une courbe ROC typique se situe quelque part entre les deux extrêmes :

Courbe ROC L'axe X correspond au taux de faux positifs et l'axe Y au taux de vrais positifs. La courbe ROC ressemble à un arc tremblant qui traverse les points cardinaux d'ouest en nord.

Le point d'une courbe ROC le plus proche de (0.0,1.0) identifie théoriquement le seuil de classification idéal. Toutefois, plusieurs autres problèmes concrets influencent la sélection du seuil de classification idéal. Par exemple, les faux négatifs peuvent être beaucoup plus problématiques que les faux positifs.

Une métrique numérique appelée AUC résume la courbe ROC en une seule valeur à virgule flottante.

la racine carrée de l'erreur quadratique moyenne (RMSE, Root Mean Squared Error)

#fundamentals
#Metric

Racine carrée de l'erreur quadratique moyenne.

ROUGE (Recall-Oriented Understudy for Gisting Evaluation)

#Metric

Famille de métriques qui évaluent les modèles de traduction automatique et de résumé automatique. Les métriques ROUGE déterminent le degré de chevauchement entre un texte de référence et le texte généré par un modèle de ML. Chaque membre de la famille ROUGE mesure le chevauchement d'une manière différente. Plus les scores ROUGE sont élevés, plus le texte de référence et le texte généré sont semblables.

Chaque membre de la famille ROUGE génère généralement les métriques suivantes :

  • Précision
  • Rappel
  • F1

Pour en savoir plus et obtenir des exemples, consultez :

ROUGE-L

#Metric

Membre de la famille ROUGE axé sur la longueur de la plus longue sous-séquence commune dans le texte de référence et le texte généré. Les formules suivantes permettent de calculer le rappel et la précision pour ROUGE-L :

$$\text{ROUGE-L recall} = \frac{\text{longest common sequence}} {\text{number of words in the reference text} }$$
$$\text{ROUGE-L precision} = \frac{\text{longest common sequence}} {\text{number of words in the generated text} }$$

Vous pouvez ensuite utiliser F1 pour regrouper le rappel ROUGE-L et la précision ROUGE-L dans une seule métrique :

$$\text{ROUGE-L F} {_1} = \frac{\text{2} * \text{ROUGE-L recall} * \text{ROUGE-L precision}} {\text{ROUGE-L recall} + \text{ROUGE-L precision} }$$

ROUGE-L ignore les sauts de ligne dans le texte de référence et le texte généré. La plus longue sous-séquence commune peut donc s'étendre sur plusieurs phrases. Lorsque le texte de référence et le texte généré comportent plusieurs phrases, une variante de ROUGE-L appelée ROUGE-Lsum est généralement une meilleure métrique. ROUGE-Lsum détermine la plus longue sous-séquence commune pour chaque phrase d'un passage, puis calcule la moyenne de ces plus longues sous-séquences communes.

ROUGE-N

#Metric

Ensemble de métriques de la famille ROUGE qui compare les N-grammes partagés d'une certaine taille dans le texte de référence et le texte généré. Exemple :

  • ROUGE-1 mesure le nombre de jetons partagés dans le texte de référence et le texte généré.
  • ROUGE-2 mesure le nombre de bigrammes (2-grammes) partagés dans le texte de référence et le texte généré.
  • ROUGE-3 mesure le nombre de trigrammes (3-grammes) communs dans le texte de référence et le texte généré.

Vous pouvez utiliser les formules suivantes pour calculer le rappel ROUGE-N et la précision ROUGE-N pour n'importe quel membre de la famille ROUGE-N :

$$\text{ROUGE-N recall} = \frac{\text{number of matching N-grams}} {\text{number of N-grams in the reference text} }$$
$$\text{ROUGE-N precision} = \frac{\text{number of matching N-grams}} {\text{number of N-grams in the generated text} }$$

Vous pouvez ensuite utiliser F1 pour regrouper le rappel ROUGE-N et la précision ROUGE-N dans une seule métrique :

$$\text{ROUGE-N F}{_1} = \frac{\text{2} * \text{ROUGE-N recall} * \text{ROUGE-N precision}} {\text{ROUGE-N recall} + \text{ROUGE-N precision} }$$

ROUGE-S

#Metric

Forme tolérante de ROUGE-N qui permet la mise en correspondance skip-gram. Autrement dit, ROUGE-N ne compte que les N-grammes qui correspondent exactement, tandis que ROUGE-S compte également les N-grammes séparés par un ou plusieurs mots. Nous vous conseillons, par exemple, de suivre les recommandations suivantes :

Lors du calcul de ROUGE-N, le 2-gramme White clouds ne correspond pas à White billowing clouds. Toutefois, lors du calcul de ROUGE-S, Nuages blancs correspond à Nuages blancs et gonflés.

Coefficient de détermination

#Metric

Il s'agit d'une métrique de régression indiquant dans quelle mesure la variance d'un libellé est due à une caractéristique individuelle ou à un ensemble de caractéristiques. Il s'agit d'une valeur comprise entre 0 et 1, que vous pouvez interpréter comme suit :

  • Un coefficient de détermination de 0 signifie que la variance d'une étiquette n'est en rien due à l'ensemble de caractéristiques.
  • Un coefficient de détermination de 1 signifie que la variance d'une étiquette est totalement due à l'ensemble de caractéristiques.
  • Un coefficient de détermination compris entre 0 et 1 indique dans quelle mesure la variance de l'étiquette peut être prédite à partir d'une caractéristique particulière ou de l'ensemble de caractéristiques. Par exemple, un coefficient de détermination de 0,10 signifie que 10 % de la variance de l'étiquette est due à l'ensemble de caractéristiques, un coefficient de détermination de 0,20 signifie que 20 % est dû à l'ensemble de caractéristiques, et ainsi de suite.

Le R-carré correspond au carré du coefficient de corrélation de Pearson entre les valeurs prédites par un modèle et la vérité terrain.

S

notation

#Metric

Partie d'un système de recommandation qui fournit une valeur ou un classement pour chaque élément produit par la phase de génération de candidats.

mesure de similarité

#clustering
#Metric

Dans les algorithmes de clustering, la métrique permettant de déterminer le degré de similarité entre deux exemples.

parcimonie

#Metric

Nombre d'éléments définis sur zéro (ou null) dans un vecteur ou une matrice, divisé par le nombre total d'entrées dans ce vecteur ou cette matrice. Prenons l'exemple d'une matrice de 100 éléments dans laquelle 98 cellules contiennent la valeur zéro. La formule permettant de calculer la parcimonie est la suivante :

$$ {\text{sparsity}} = \frac{\text{98}} {\text{100}} = {\text{0.98}} $$

La rareté des caractéristiques fait référence à la rareté d'un vecteur de caractéristiques, tandis que la rareté du modèle fait référence à la rareté des pondérations du modèle.

marge maximale quadratique

#Metric

Carré de la marge maximale. La marge maximale quadratique pénalise les valeurs aberrantes plus sévèrement que la marge maximale standard.

perte quadratique

#fundamentals
#Metric

Synonyme de perte L2.

T

perte de test

#fundamentals
#Metric

Une métrique représentant la perte d'un modèle par rapport à l'ensemble de test. Lorsque vous créez un modèle, vous essayez généralement de minimiser la perte de test. En effet, une faible perte de test est un signal de qualité plus fort qu'une faible perte d'entraînement ou une faible perte de validation.

Un écart important entre la perte de test et la perte d'entraînement ou de validation suggère parfois que vous devez augmenter le taux de régularisation.

Précision top-k

#Metric

Pourcentage de fois où un "libellé cible" apparaît dans les k premières positions des listes générées. Les listes peuvent être des recommandations personnalisées ou une liste d'éléments classés par softmax.

La précision top-k est également appelée précision à k.

toxique

#Metric

Degré de violence, de menace ou de caractère offensant du contenu. De nombreux modèles de machine learning peuvent identifier et mesurer la toxicité. La plupart de ces modèles identifient la toxicité selon plusieurs paramètres, tels que le niveau de langage abusif et le niveau de langage menaçant.

perte d'entraînement

#fundamentals
#Metric

Métrique représentant la perte d'un modèle lors d'une itération d'entraînement spécifique. Par exemple, supposons que la fonction de perte soit Mean Squared Error. Supposons que la perte d'entraînement (erreur quadratique moyenne) pour la 10e itération soit de 2,2 et que la perte d'entraînement pour la 100e itération soit de 1,9.

Une courbe de perte représente la perte d'entraînement par rapport au nombre d'itérations. Une courbe de perte fournit les indications suivantes sur l'entraînement :

  • Une pente descendante implique que le modèle s'améliore.
  • Une pente ascendante signifie que le modèle se dégrade.
  • Une pente plate signifie que le modèle a atteint la convergence.

Par exemple, la courbe de perte suivante, quelque peu idéalisée, montre :

  • Une pente descendante abrupte lors des itérations initiales, ce qui implique une amélioration rapide du modèle.
  • Une pente qui s'aplatit progressivement (mais reste descendante) jusqu'à la fin de l'entraînement, ce qui implique une amélioration continue du modèle à un rythme un peu plus lent que lors des itérations initiales.
  • Une pente plate vers la fin de l'entraînement, ce qui suggère une convergence.

Graphique de la perte d'entraînement par rapport aux itérations. Cette courbe de perte commence par une pente descendante abrupte. La pente s'aplatit progressivement jusqu'à devenir nulle.

Bien que la perte d'entraînement soit importante, consultez également la section Généralisation.

vrai négatif (VN)

#fundamentals
#Metric

Exemple dans lequel le modèle prédit correctement la classe négative. Par exemple, le modèle déduit qu'un e-mail particulier n'est pas du spam, ce qui est bien le cas.

vrai positif (VP)

#fundamentals
#Metric

Exemple dans lequel le modèle prédit correctement la classe positive. Par exemple, le modèle déduit qu'un e-mail particulier est du spam, ce qui est bien le cas.

taux de vrais positifs (TVP)

#fundamentals
#Metric

Synonyme de rappel. Par exemple :

$$\text{true positive rate} = \frac {\text{true positives}} {\text{true positives} + \text{false negatives}}$$

Le taux de vrais positifs correspond à l'ordonnée d'une courbe ROC.

V

perte de validation

#fundamentals
#Metric

Métrique représentant la perte d'un modèle sur l'ensemble de validation lors d'une itération d'entraînement spécifique.

Voir aussi courbe de généralisation.

importance des variables

#df
#Metric

Ensemble de scores indiquant l'importance relative de chaque caractéristique pour le modèle.

Prenons l'exemple d'un arbre de décision qui estime le prix des maisons. Supposons que cet arbre de décision utilise trois caractéristiques : la taille, l'âge et le style. Si un ensemble d'importances de variables pour les trois caractéristiques est calculé comme suit : {size=5.8, age=2.5, style=4.7}, alors la taille est plus importante pour l'arbre de décision que l'âge ou le style.

Il existe différentes métriques d'importance des variables, qui peuvent informer les experts en ML sur différents aspects des modèles.

W

Perte Wasserstein

#Metric

Il s'agit d'une des fonctions de perte couramment utilisées dans les réseaux antagonistes génératifs, basée sur la distance du déménageur de terre entre la distribution des données générées et des données réelles.