Cette page contient les termes du glossaire des métriques. Pour connaître tous les termes du glossaire, cliquez ici.
A
accuracy
Nombre de prédictions de classification correctes divisé par le nombre total de prédictions. Par exemple :
Par exemple, un modèle qui a effectué 40 prédictions correctes et 10 prédictions incorrectes aurait une précision de:
La classification binaire fournit des noms spécifiques aux différentes catégories de prédictions correctes et de prédictions incorrectes. La formule de précision pour la classification binaire est donc la suivante:
où :
- Le TP correspond au nombre de vrais positifs (prédictions correctes).
- TN correspond au nombre de vrais négatifs (prédictions correctes).
- Le FP correspond au nombre de faux positifs (prédictions incorrectes).
- FN correspond au nombre de faux négatifs (prédictions incorrectes).
Comparez la justesse à la précision et au rappel.
Cliquez sur l'icône pour en savoir plus sur la précision et les ensembles de données déséquilibrés.
Pour en savoir plus, consultez Classification: précision, rappel, précision et métriques associées dans le cours d'initiation au machine learning.
aire sous la courbe PR
Consultez AUC PR (aire sous la courbe PR).
aire sous la courbe ROC
Consultez AUC (aire sous la courbe ROC).
AUC (aire sous la courbe ROC)
Valeur comprise entre 0,0 et 1,0 représentant la capacité d'un modèle de classification binaire à séparer les classes positives des classes négatives. Plus l'AUC est proche de 1,0, plus le modèle est capable de séparer les classes les unes des autres.
Par exemple, l'illustration suivante montre un modèle de classificateur qui sépare parfaitement les classes positives (ovales verts) des classes négatives (rectangles violets). Ce modèle irréalistement parfait a une AUC de 1,0:
À l'inverse, l'illustration suivante montre les résultats d'un modèle de classificateur qui a généré des résultats aléatoires. Ce modèle a une AUC de 0,5:
Oui, le modèle précédent a une AUC de 0,5, et non de 0,0.
La plupart des modèles se situent entre les deux extrêmes. Par exemple, le modèle suivant sépare quelque peu les éléments positifs des éléments négatifs. Il a donc une AUC comprise entre 0,5 et 1,0:
L'AUC ignore toute valeur que vous définissez pour le seuil de classification. À la place, l'AUC tient compte de tous les seuils de classification possibles.
Cliquez sur l'icône pour en savoir plus sur la relation entre les courbes AUC et ROC.
Cliquez sur l'icône pour obtenir une définition plus formelle de l'AUC.
Pour en savoir plus, consultez la section Classification: ROC et AUC du cours d'initiation au machine learning.
précision moyenne à k
Métrique permettant de résumer les performances d'un modèle pour une seule invite qui génère des résultats classés, comme une liste numérotée de recommandations de livres. La précision moyenne à k correspond à la moyenne des valeurs de précision à k pour chaque résultat pertinent. La formule de la précision moyenne à k est donc la suivante:
où :
- correspond au nombre d'éléments pertinents dans la liste.
À comparer au rappel à k.
Cliquez sur l'icône pour voir un exemple.
B
Valeur de référence
Modèle utilisé comme point de référence pour comparer les performances d'un autre modèle (généralement plus complexe). Par exemple, un modèle de régression logistique peut servir de référence pour un modèle profond.
Pour un problème particulier, la référence aide les développeurs de modèles à quantifier les performances minimales attendues qu'un nouveau modèle doit atteindre pour être utile.
C
coût
Synonyme de perte.
équité contrefactuelle
Métrique d'équité qui vérifie si un classificateur produit le même résultat pour un individu que pour un autre qui est identique au premier, sauf en ce qui concerne un ou plusieurs attributs sensibles. Évaluer un classificateur pour l'impartialité contrefactuelle est une méthode permettant de mettre en évidence les sources potentielles de biais dans un modèle.
Pour en savoir plus, consultez l'une des ressources suivantes:
- Équité: équité contrefactuelle dans le cours d'initiation au machine learning.
- When Worlds Collide: Integrating Different Counterfactual Assumptions in Fairness
entropie croisée
Généralisation de la perte de log aux problèmes de classification à classes multiples. L'entropie croisée quantifie la différence entre deux distributions de probabilité. Voir aussi la section Perplexité.
fonction de distribution cumulative (CDF)
Fonction qui définit la fréquence des échantillons inférieurs ou égaux à une valeur cible. Prenons l'exemple d'une distribution normale de valeurs continues. Une fonction de distribution cumulative vous indique qu'environ 50% des échantillons doivent être inférieurs ou égaux à la moyenne et qu'environ 84% des échantillons doivent être inférieurs ou égaux à une déviation standard au-dessus de la moyenne.
D
parité démographique
Métrique d'équité qui est satisfaite si les résultats de la classification d'un modèle ne dépendent pas d'un attribut sensible donné.
Par exemple, si des Lilliputiens et des Brobdingnagiens postulent à l'université Glubbdubdrib, la parité démographique est atteinte si le pourcentage de Lilliputiens admis est le même que celui des Brobdingnagiens, que l'un des groupes soit en moyenne plus qualifié que l'autre.
Contrairement aux probabilités égales et à l'égalité des chances, qui permettent aux résultats de classification agrégés de dépendre d'attributs sensibles, les résultats de classification pour certains libellés de vérité terrain spécifiés ne peuvent pas dépendre d'attributs sensibles. Consultez Lutter contre les discriminations grâce à un machine learning plus intelligent pour découvrir une visualisation des compromis à prendre en compte lors de l'optimisation pour la parité démographique.
Pour en savoir plus, consultez la section Équité: parité démographique du cours d'initiation au machine learning.
E
distance de l'opérateur de machine de terrassement (EMD)
Mesure de la similarité relative de deux distributions. Plus la distance du moteur de déplacement de la Terre est faible, plus les distributions sont similaires.
distance de modification
Mesure du degré de similarité entre deux chaînes de texte. Dans le machine learning, la distance d'édition est utile pour les raisons suivantes:
- La distance d'édition est facile à calculer.
- La distance de modification peut comparer deux chaînes connues pour être similaires.
- La distance de modification peut déterminer dans quelle mesure différentes chaînes sont similaires à une chaîne donnée.
Il existe plusieurs définitions de la distance d'édition, chacune utilisant des opérations de chaîne différentes. Pour en savoir plus, consultez Distance de Levenshtein.
Fonction de distribution cumulative empirique (eCDF ou EDF)
Fonction de distribution cumulative basée sur des mesures empiriques d'un ensemble de données réel. La valeur de la fonction à n'importe quel point de l'axe X correspond à la fraction des observations de l'ensemble de données qui sont inférieures ou égales à la valeur spécifiée.
entropie
Dans la théorie de l'information, description de l'imprévisibilité d'une distribution de probabilité. L'entropie est également définie comme la quantité d'informations contenue dans chaque exemple. Une distribution a l'entropie la plus élevée possible lorsque toutes les valeurs d'une variable aléatoire sont également probables.
L'entropie d'un ensemble avec deux valeurs possibles, "0" et "1" (par exemple, les libellés dans un problème de classification binaire) se calcule comme suit:
H = -p log p - q log q = -p log p - (1-p) * log (1-p)
où :
- H est l'entropie.
- p est la fraction des exemples "1".
- q est la fraction des exemples "0". Notez que q = (1 - p).
- log est généralement log2. Dans ce cas, l'unité d'entropie est un bit.
Par exemple, supposons les éléments suivants :
- 100 exemples contiennent la valeur "1"
- 300 exemples contiennent la valeur "0"
La valeur d'entropie est donc la suivante:
- p = 0,25
- q = 0,75
- H = (-0,25)log2(0,25) - (0,75)log2(0,75) = 0,81 bit par exemple
Un ensemble parfaitement équilibré (par exemple, 200 "0" et 200 "1") aurait une entropie de 1,0 bit par exemple. À mesure qu'un ensemble devient plus déséquilibré, son entropie tend vers 0,0.
Dans les arbres de décision, l'entropie permet de formuler le gain d'information pour aider le séparateur à sélectionner les conditions au cours de la croissance d'un arbre de décision de classification.
Comparez l'entropie à:
- impureté de Gini
- Fonction de perte entropie croisée
L'entropie est souvent appelée entropie de Shannon.
Pour en savoir plus, consultez la section Diviseur exact pour la classification binaire avec des caractéristiques numériques dans le cours sur les forêts de décision.
égalité des chances
Une métrique d'impartialité pour évaluer si un modèle prédit le résultat souhaité aussi bien pour toutes les valeurs d'un attribut sensible. En d'autres termes, si le résultat souhaitable pour un modèle est la classe positive, l'objectif est que le taux de vrais positifs soit le même pour tous les groupes.
L'égalité des chances est liée aux probabilités égales, ce qui nécessite que les deux taux de vrais positifs et les taux de faux positifs soient identiques pour tous les groupes.
Supposons que l'université Glubbdubdrib admette à un programme de mathématiques rigoureux des Lilliputiens et des Brobdingnagiens. Les établissements d'enseignement secondaire des Lilliputiens proposent un programme complet de cours de mathématiques, et la grande majorité des élèves sont qualifiés pour le programme universitaire. Les établissements d'enseignement secondaire des Brobdingnagiens n'offrent pas du tout de cours de mathématiques. Par conséquent, beaucoup moins de leurs élèves sont qualifiés. L'égalité des chances est respectée pour l'étiquette préférée "admissible" en fonction de la nationalité (Lilliputien ou Brobdingnagien) si les étudiants qualifiés ont autant de chances d'être admis, qu'ils soient Lilliputiens ou Brobdingnagiens.
Par exemple, supposons que 100 Lilliputiens et 100 Brobdingnagiens postulent à l'université Glubbdubdrib, et que les décisions d'admission soient prises comme suit:
Tableau 1. Candidats Lilliputiens (90% sont éligibles)
Qualifié | Non défini | |
---|---|---|
Admis | 45 | 3 |
Refusé | 45 | 7 |
Total | 90 | 10 |
Pourcentage d'étudiants qualifiés admis: 45/90 = 50% Pourcentage d'étudiants non qualifiés refusés: 7/10 = 70% Pourcentage total d'étudiants Lilliputiens admis: (45 + 3)/100 = 48% |
Tableau 2. Candidats Brobdingnagiens (10% sont éligibles):
Qualifié | Non défini | |
---|---|---|
Admis | 5 | 9 |
Refusé | 5 | 81 |
Total | 10 | 90 |
Pourcentage d'étudiants qualifiés admis: 5/10 = 50% Pourcentage d'étudiants non qualifiés refusés: 81/90 = 90% Pourcentage total d'étudiants Brobdingnagiens admis: (5 + 9)/100 = 14% |
Les exemples précédents respectent l'égalité des chances d'acceptation des étudiants qualifiés, car les Lilliputiens et les Brobdingnagiens qualifiés ont tous deux 50% de chances d'être admis.
Bien que l'égalité des chances soit respectée, les deux métriques d'équité suivantes ne le sont pas:
- parité démographique : les Lilliputiens et les Brobdingnagiens sont admis à l'université à des taux différents : 48% des étudiants Lilliputiens sont admis, mais seulement 14% des étudiants Brobdingnagiens.
- Chances égales: même si les élèves Lilliputiens et Brobdingnagiens qualifiés ont les mêmes chances d'être admis, la contrainte supplémentaire selon laquelle les Lilliputiens et les Brobdingnagiens non qualifiés ont les mêmes chances d'être refusés n'est pas satisfaite. Les Lilliputiens non qualifiés ont un taux de refus de 70 %, tandis que les Brobdingnagiens non qualifiés ont un taux de refus de 90 %.
Pour en savoir plus, consultez la section Équité: égalité des chances dans le cours d'initiation au machine learning.
cotes égalisées
Métrique d'équité permettant d'évaluer si un modèle prédit des résultats aussi bien pour toutes les valeurs d'un attribut sensible par rapport à la classe positive et à la classe négative, et non pas seulement pour une classe ou l'autre. En d'autres termes, le taux de vrais positifs et le taux de faux négatifs doivent être les mêmes pour tous les groupes.
Les chances égalisées sont liées à l'égalité des chances, qui ne se concentre que sur les taux d'erreur d'une seule classe (positive ou négative).
Par exemple, supposons que l'université Glubbdubdrib admette à la fois des Lilliputiens et des Brobdingnagiens dans un programme de mathématiques rigoureux. Les écoles secondaires des Lilliputiens proposent un programme complet de cours de mathématiques, et la grande majorité des élèves sont qualifiés pour le programme universitaire. Les écoles secondaires des Brobdingnagiens n'offrent pas du tout de cours de mathématiques. Par conséquent, beaucoup moins de leurs élèves sont qualifiés. Les chances égales sont respectées, que le demandeur soit un Lilliputien ou un Brobdingnagien. S'il est qualifié, il a autant de chances d'être admis au programme que s'il ne l'est pas.
Supposons que 100 Lilliputiens et 100 Brobdingnagiens postulent à l'université Glubbdubdrib, et que les décisions d'admission soient prises comme suit:
Tableau 3 : Candidats Lilliputiens (90% sont éligibles)
Qualifié | Non défini | |
---|---|---|
Admis | 45 | 2 |
Refusé | 45 | 8 |
Total | 90 | 10 |
Pourcentage d'étudiants qualifiés acceptés: 45/90 = 50% Pourcentage d'étudiants non qualifiés refusés: 8/10 = 80% Pourcentage total d'étudiants Lilliputiens acceptés: (45 + 2)/100 = 47% |
Tableau 4. Candidats Brobdingnagiens (10% sont éligibles):
Qualifié | Non défini | |
---|---|---|
Admis | 5 | 18 |
Refusé | 5 | 72 |
Total | 10 | 90 |
Pourcentage d'étudiants qualifiés admis: 5/10 = 50% Pourcentage d'étudiants non qualifiés refusés: 72/90 = 80% Pourcentage total d'étudiants brobdingnagiens admis: (5 + 18)/100 = 23% |
Les chances sont égales, car les étudiants Lilliputiens et Brobdingnagiens qualifiés ont tous deux 50% de chances d'être admis, et les Lilliputiens et Brobdingnagiens non qualifiés ont 80% de chances d'être refusés.
Les probabilités égalisées sont définies officiellement dans "Equality of Opportunity in Supervised Learning" (Égalité des chances dans l'apprentissage supervisé) comme suit : "Le prédicteur Ŷ satisfait les probabilités égalisées par rapport à l'attribut protégé A et au résultat Y si Ŷ et A sont indépendants, sous réserve de Y."
evals
Abréviation principalement utilisée pour les évaluations de LLM. Plus largement, evals est une abréviation de toute forme d'évaluation.
hors connexion
Processus consistant à mesurer la qualité d'un modèle ou à comparer différents modèles entre eux.
Pour évaluer un modèle de machine learning supervisé, vous le comparez généralement à un ensemble de validation et à un ensemble de test. Évaluer un LLM implique généralement des évaluations plus larges de la qualité et de la sécurité.
F
F1
Métrique de classification binaire "récapitulative" qui repose à la fois sur la précision et le rappel. Voici la formule:
Cliquez sur l'icône pour voir des exemples.
métrique d'équité
Une définition mathématique de l'équité qui est mesurable Voici quelques métriques d'équité couramment utilisées:
De nombreuses métriques d'équité sont mutuellement exclusives. Consultez la section Incompatibilité des métriques d'équité.
faux négatif (FN)
Exemple dans lequel le modèle prédit à tort la classe négative. Par exemple, le modèle prédit qu'un e-mail particulier n'est pas du spam (classe négative), alors qu'en réalité il l'est.
taux de faux négatifs
Proportion d'exemples positifs réels pour lesquels le modèle a prédit à tort la classe négative. La formule suivante calcule le taux de faux négatifs:
Pour en savoir plus, consultez la section Seuils et matrice de confusion du cours d'initiation au machine learning.
faux positif (FP)
Exemple dans lequel le modèle prédit à tort la classe positive. Par exemple, le modèle prédit qu'un e-mail particulier est du spam (classe positive), alors qu'en réalité ce n'est pas un courrier indésirable.
Pour en savoir plus, consultez la section Seuils et matrice de confusion du cours d'initiation au machine learning.
taux de faux positifs (TFP) (false positive rate (FPR))
Proportion d'exemples négatifs réels pour lesquels le modèle a prédit à tort la classe positive. La formule suivante calcule le taux de faux positifs:
Le taux de faux positifs correspond à l'abscisse d'une courbe ROC.
Pour en savoir plus, consultez la section Classification: ROC et AUC du cours d'initiation au machine learning.
importance des caractéristiques
Synonyme de importance des variables.
fraction de succès
Métrique permettant d'évaluer le texte généré d'un modèle de ML. La fraction de succès correspond au nombre de sorties de texte générées "réussies" divisé par le nombre total de sorties de texte générées. Par exemple, si un grand modèle de langage a généré 10 blocs de code, dont cinq ont réussi, la fraction de réussite est de 50%.
Bien que la fraction de réussite soit généralement utile dans les statistiques, dans le ML, cette métrique est principalement utile pour mesurer des tâches vérifiables telles que la génération de code ou les problèmes mathématiques.
G
impureté de Gini
Métrique semblable à l'entropie. Les séparateurs utilisent des valeurs dérivées de l'impureté de Gini ou de l'entropie pour composer des conditions de classification des arbres de décision. Le gain d'information est dérivé de l'entropie. Il n'existe pas de terme équivalent universellement accepté pour la métrique dérivée de l'impureté de Gini. Toutefois, cette métrique sans nom est tout aussi importante que le gain d'informations.
L'impureté de Gini est également appelée indice de Gini ou simplement Gini.
Cliquez sur l'icône pour en savoir plus sur l'impureté de Gini.
H
marge maximale
Famille de fonctions de perte pour la classification conçue pour trouver la frontière de décision la plus éloignée possible de chaque exemple d'entraînement, afin de maximiser la marge entre les exemples et la frontière. Les KSVM utilisent la marge maximale (ou une fonction associée, par exemple le carré de la marge maximale). Dans le cas de la classification binaire, la fonction de marge maximale est définie ainsi:
Où y est l'étiquette réelle, soit -1 ou +1, et y' est la sortie brute du modèle du classificateur:
Par conséquent, le graphique de la perte en fonction de (y * y') est de la forme suivante:
I
Incompatibilité des critères d'équité
Idée selon laquelle certaines notions d'équité sont mutuellement incompatibles et ne peuvent pas être satisfaites simultanément. Par conséquent, il n'existe pas de métrique universelle unique pour quantifier l'équité qui puisse être appliquée à tous les problèmes de ML.
Bien que cela puisse sembler décourageant, l'incompatibilité des métriques d'équité n'implique pas que les efforts d'équité soient infructueux. Il suggère plutôt que l'équité doit être définie selon un contexte et un problème de ML donné, dans le but d'éviter les dommages spécifiques à ses cas d'utilisation.
Pour en savoir plus sur l'incompatibilité des métriques d'impartialité, consultez "On the (im)possibility of fairness" (Sur l'(im)possibilité de l'impartialité).
équité individuelle
Métrique d'équité qui vérifie si des individus similaires sont classés de manière similaire. Par exemple, l'Académie Brobdingnagian peut vouloir garantir l'équité individuelle en s'assurant que deux élèves ayant des notes et des résultats aux tests standardisés identiques ont autant de chances d'être admis.
Notez que l'équité individuelle repose entièrement sur la façon dont vous définissez la "similitude" (dans ce cas, les notes et les notes de test). Vous risquez d'introduire de nouveaux problèmes d'équité si votre métrique de similarité ne tient pas compte d'informations importantes (telles que la rigueur du programme d'un élève).
Pour en savoir plus sur l'équité individuelle, consultez "Équité grâce à la sensibilisation".
gain d'informations
Dans les forêts de décision, différence entre l'entropie d'un nœud et la somme pondérée (par le nombre d'exemples) de l'entropie de ses nœuds enfants. L'entropie d'un nœud correspond à l'entropie des exemples de ce nœud.
Prenons l'exemple des valeurs d'entropie suivantes:
- Entropie du nœud parent = 0,6
- Entropie d'un nœud enfant avec 16 exemples pertinents = 0,2
- Entropie d'un autre nœud enfant avec 24 exemples pertinents = 0,1
Ainsi, 40% des exemples se trouvent dans un nœud enfant et 60% dans l'autre. Par conséquent :
- Somme pondérée de l'entropie des nœuds enfants = (0,4 * 0,2) + (0,6 * 0,1) = 0,14
Le gain d'information est donc le suivant:
- Gain d'information = entropie du nœud parent - somme pondérée de l'entropie des nœuds enfants
- Gain d'information = 0,6 - 0,14 = 0,46
La plupart des séparateurs cherchent à créer des conditions qui maximisent le gain d'informations.
accord inter-évaluateurs
Mesure de la fréquence à laquelle les évaluateurs humains sont d'accord lorsqu'ils effectuent une tâche. Si les évaluateurs ne sont pas d'accord, il est possible que les instructions de la tâche doivent être améliorées. Parfois également appelé accord inter-annotateurs ou fiabilité inter-évaluateurs. Voir aussi le kappa de Cohen, l'une des mesures de l'accord inter-évaluateurs les plus populaires.
Pour en savoir plus, consultez la section Données catégorielles: problèmes courants du cours d'initiation au machine learning.
L
Perte L1
Fonction de perte qui calcule la valeur absolue de la différence entre les valeurs réelles des étiquettes et les valeurs prédites par un modèle. Par exemple, voici le calcul de la perte L1 pour un lot de cinq exemples:
Valeur réelle de l'exemple | Valeur prédite du modèle | Valeur absolue de delta |
---|---|---|
7 | 6 | 1 |
5 | 4 | 1 |
8 | 11 | 3 |
4 | 6 | 2 |
9 | 8 | 1 |
8 = perte L1 |
La perte L1 est moins sensible aux anomalies que la perte L2.
L'erreur absolue moyenne correspond à la perte L1 moyenne par exemple.
Cliquez sur l'icône pour afficher les mathématiques formelles.
Pour en savoir plus, consultez la section Régression linéaire: perte du cours d'initiation au machine learning.
Perte L2
Fonction de perte qui calcule le carré de la différence entre les valeurs réelles des étiquettes et les valeurs prédites par un modèle. Par exemple, voici le calcul de la perte L2 pour un lot de cinq exemples:
Valeur réelle de l'exemple | Valeur prédite du modèle | Carré de delta |
---|---|---|
7 | 6 | 1 |
5 | 4 | 1 |
8 | 11 | 9 |
4 | 6 | 4 |
9 | 8 | 1 |
16 = perte L2 |
En raison de la mise au carré, la perte L2 amplifie l'influence des valeurs aberrantes. En d'autres termes, la perte L2 réagit plus fortement aux mauvaises prédictions que la perte L1. Par exemple, la perte L1 pour le lot précédent serait de 8 au lieu de 16. Notez qu'un seul point aberrant représente neuf des 16.
Les modèles de régression utilisent généralement la perte L2 comme fonction de perte.
L'erreur quadratique moyenne correspond à la perte L2 moyenne par exemple. La perte quadratique est un autre nom de la perte L2.
Cliquez sur l'icône pour afficher les mathématiques formelles.
Pour en savoir plus, consultez la section Régression logistique: perte et régularisation du cours d'initiation au machine learning.
Évaluations des LLM (évaluations)
Ensemble de métriques et de benchmarks permettant d'évaluer les performances des grands modèles de langage (LLM). De manière générale, les évaluations des LLM:
- Aidez les chercheurs à identifier les domaines dans lesquels les LLM doivent être améliorés.
- Ils sont utiles pour comparer différents LLM et identifier le meilleur LLM pour une tâche donnée.
- Assurez-vous que les LLM sont sûrs et éthiques.
Pour en savoir plus, consultez la section Grands modèles de langage (LLM) dans le cours d'initiation au machine learning.
perte
Lors de l'entraînement d'un modèle supervisé, mesure de l'écart entre la prédiction d'un modèle et son étiquette.
Une fonction de perte calcule la perte.
Pour en savoir plus, consultez la section Régression linéaire: perte du cours d'initiation au machine learning.
fonction de perte
Lors de l'entraînement ou des tests, fonction mathématique qui calcule la perte sur un lot d'exemples. Une fonction de perte renvoie une perte plus faible pour les modèles qui effectuent de bonnes prédictions que pour ceux qui effectuent de mauvaises prédictions.
L'objectif de l'entraînement est généralement de minimiser la perte renvoyée par une fonction de perte.
Il existe de nombreux types de fonctions de perte. Choisissez la fonction de perte appropriée pour le type de modèle que vous créez. Exemple :
- La perte L2 (ou erreur quadratique moyenne) est la fonction de perte de la régression linéaire.
- La perte logistique est la fonction de perte de la régression logistique.
M
Erreur absolue moyenne (EAM)
Perte moyenne par exemple lorsque la perte L1 est utilisée. Calculez l'erreur absolue moyenne comme suit:
- Calculez la perte L1 pour un lot.
- Divisez la perte L1 par le nombre d'exemples du lot.
Cliquez sur l'icône pour afficher les mathématiques formelles.
Prenons l'exemple du calcul de la perte L1 sur le lot suivant de cinq exemples:
Valeur réelle de l'exemple | Valeur prédite du modèle | Perte (différence entre la valeur réelle et la valeur prévue) |
---|---|---|
7 | 6 | 1 |
5 | 4 | 1 |
8 | 11 | 3 |
4 | 6 | 2 |
9 | 8 | 1 |
8 = perte L1 |
La perte L1 est donc de 8 et le nombre d'exemples est de 5. L'erreur absolue moyenne est donc la suivante:
Mean Absolute Error = L1 loss / Number of Examples Mean Absolute Error = 8/5 = 1.6
Comparez l'erreur absolue moyenne à l'erreur quadratique moyenne et à la racine carrée de l'erreur quadratique moyenne.
Précision moyenne à k (mAP@k)
Moyenne statistique de tous les scores de précision moyenne à k dans un ensemble de données de validation. L'une des utilisations de la précision moyenne à k est d'évaluer la qualité des recommandations générées par un système de recommandation.
Bien que l'expression "moyenne moyenne" semble redondante, le nom de la métrique est approprié. Après tout, cette métrique calcule la moyenne de plusieurs valeurs de précision moyenne à k.
Cliquez sur l'icône pour voir un exemple.
Erreur quadratique moyenne (MSE)
Perte moyenne par exemple lorsque la perte L2 est utilisée. Calculez l'erreur quadratique moyenne comme suit:
- Calculez la perte L2 pour un lot.
- Divisez la perte L2 par le nombre d'exemples du lot.
Cliquez sur l'icône pour afficher les mathématiques formelles.
Prenons l'exemple de la perte du lot suivant de cinq exemples:
Valeur réelle | Prédiction du modèle | Perte | Perte quadratique |
---|---|---|---|
7 | 6 | 1 | 1 |
5 | 4 | 1 | 1 |
8 | 11 | 3 | 9 |
4 | 6 | 2 | 4 |
9 | 8 | 1 | 1 |
16 = perte L2 |
L'erreur quadratique moyenne est donc la suivante:
Mean Squared Error = L2 loss / Number of Examples Mean Squared Error = 16/5 = 3.2
L'erreur quadratique moyenne est un optimiseur d'entraînement populaire, en particulier pour la régression linéaire.
Comparez l'erreur quadratique moyenne à l'erreur absolue moyenne et à la racine carrée de l'erreur quadratique moyenne.
TensorFlow Playground utilise l'erreur quadratique moyenne pour calculer les valeurs de perte.
Cliquez sur l'icône pour en savoir plus sur les valeurs aberrantes.
métrique
Statistique qui vous intéresse.
Un objectif est une métrique qu'un système de machine learning tente d'optimiser.
API Metrics (tf.metrics)
API TensorFlow permettant d'évaluer des modèles. Par exemple, tf.metrics.accuracy
détermine la fréquence à laquelle les prédictions d'un modèle correspondent aux étiquettes.
perte minimax
Fonction de perte pour les réseaux génératifs antagonistes, basée sur la entropie croisée entre la distribution des données générées et les données réelles.
La perte minimax est utilisée dans le premier article pour décrire les réseaux génératifs antagonistes.
Pour en savoir plus, consultez la section Fonctions de perte du cours sur les réseaux génératifs antagonistes.
capacité du modèle
Complexité des problèmes à travers lesquels un modèle est capable d'apprendre. Plus un modèle est capable d'apprendre à travers des problèmes complexes, plus sa capacité est grande. La capacité d'un modèle augmente généralement avec le nombre de ses paramètres. Pour une définition formelle de la capacité d'un classificateur, consultez la section Dimension VC.
N
classe négative
Dans la classification binaire, une classe est dite positive et l'autre négative. La classe positive est l'élément ou l'événement que le modèle teste, et la classe négative est l'autre possibilité. Exemple :
- La classe négative d'un test médical pourrait être "pas une tumeur".
- La classe négative d'un classificateur d'e-mails peut être "non-spam".
À comparer à la classe positive.
O
objectif
métrique que votre algorithme tente d'optimiser.
fonction objectif
Formule mathématique ou métrique qu'un modèle vise à optimiser. Par exemple, la fonction objectif de la régression linéaire est généralement l'erreur quadratique moyenne. Par conséquent, lors de l'entraînement d'un modèle de régression linéaire, l'entraînement vise à minimiser la perte quadratique moyenne.
Dans certains cas, l'objectif est de maximiser la fonction objectif. Par exemple, si la fonction objectif est la précision, l'objectif est de maximiser la précision.
Voir également perte.
P
carte à k (carte@k)
Métrique permettant de déterminer la qualité du code (par exemple, Python) généré par un grand modèle de langage. Plus précisément, la valeur "pass at k" indique la probabilité qu'au moins un bloc de code généré sur k blocs de code générés réussisse tous ses tests unitaires.
Les grands modèles de langage ont souvent du mal à générer du bon code pour des problèmes de programmation complexes. Les ingénieurs logiciels s'adaptent à ce problème en demandant au grand modèle de langage de générer plusieurs (k) solutions pour le même problème. Ensuite, les ingénieurs logiciels testent chacune des solutions à l'aide de tests unitaires. Le calcul de la réussite à k dépend du résultat des tests unitaires:
- Si une ou plusieurs de ces solutions réussissent le test unitaire, le LLM réussit ce défi de génération de code.
- Si aucune des solutions ne passe le test unitaire, le LLM échoue à ce défi de génération de code.
La formule pour le pass à k est la suivante:
En règle générale, des valeurs plus élevées de k génèrent des scores de réussite plus élevés pour k. Toutefois, des valeurs plus élevées de k nécessitent des ressources plus importantes pour le modèle de langage et les tests unitaires.
Cliquez sur l'icône pour voir un exemple.
performance
Terme complexe ayant plusieurs significations:
- Sens standard dans le génie logiciel. à savoir: à quelle vitesse, ou avec quelle efficacité, ce logiciel s'exécute-t-il ?
- Sens dans le machine learning. Ici, les performances répondent à la question suivante: quel est le degré d'exactitude de ce modèle ? Autrement dit, les prédictions du modèle sont-elles bonnes ?
Importances des variables de permutation
Type d'importance des variables qui évalue l'augmentation de l'erreur de prédiction d'un modèle après avoir permuté les valeurs de la caractéristique. L'importance des variables de permutation est une métrique indépendante du modèle.
perplexité
Mesure de l'efficacité d'un modèle à exécuter une tâche. Par exemple, supposons que votre tâche consiste à lire les premières lettres d'un mot qu'un utilisateur saisit sur le clavier d'un téléphone et à proposer une liste de mots de fin possibles. La perplexité, P, pour cette tâche correspond approximativement au nombre de suppositions que vous devez proposer pour que votre liste contienne le mot réel que l'utilisateur essaie de saisir.
La perplexité est liée à l'entropie croisée comme suit:
classe positive
Classe pour laquelle vous effectuez le test.
Par exemple, la classe positive d'un modèle de cancer pourrait être "tumeur". La classe positive d'un classificateur d'e-mail pourrait être "spam".
À comparer à la classe négative.
Cliquez sur l'icône pour ajouter des notes.
AUC PR (aire sous la courbe PR)
Aire sous la courbe de précision/rappel interpolée, obtenue en traçant des points (rappel, précision) pour différentes valeurs du seuil de classification.
precision
Statistique des modèles de classification qui répond à la question suivante:
Lorsque le modèle a prédit la classe positive, quel pourcentage des prédictions étaient correctes ?
Voici la formule:
où :
- Un vrai positif signifie que le modèle a correctement prédit la classe positive.
- Un faux positif signifie que le modèle a incorrectement prédit la classe positive.
Par exemple, supposons qu'un modèle ait effectué 200 prédictions positives. Sur ces 200 prédictions positives:
- 150 étaient des vrais positifs.
- 50 d'entre eux étaient des faux positifs.
Dans ce cas :
À comparer à la précision et au rappel.
Pour en savoir plus, consultez Classification: précision, rappel, précision et métriques associées dans le cours d'initiation au machine learning.
Précision à k (precision@k)
Métrique permettant d'évaluer une liste d'éléments classés (triés). La précision à k identifie la fraction des premiers k éléments de cette liste qui sont "pertinents". Par exemple :
La valeur de k doit être inférieure ou égale à la longueur de la liste renvoyée. Notez que la longueur de la liste renvoyée n'est pas prise en compte dans le calcul.
La pertinence est souvent subjective. Même les évaluateurs humains experts sont souvent en désaccord sur les éléments pertinents.
Comparer avec :
Cliquez sur l'icône pour voir un exemple.
la courbe de précision/rappel
Courbe de précision par rapport au rappel à différents seuils de classification.
biais de prédiction
Valeur indiquant l'écart entre la moyenne des prédictions et la moyenne des étiquettes dans l'ensemble de données.
À ne pas confondre avec le terme de biais dans les modèles de machine learning ni avec les biais en matière d'éthique et d'équité.
parité prédictive
Métrique d'équité qui vérifie si, pour un classifieur donné, les taux de précision sont équivalents pour les sous-groupes considérés.
Par exemple, un modèle qui prédit l'acceptation dans une université satisferait la parité prédictive pour la nationalité si son taux de précision est le même pour les Lilliputiens et les Brobdingnagiens.
La parité prédictive est parfois appelée parité tarifaire prédictive.
Pour en savoir plus sur la parité prédictive, consultez la section Définitions de l'équité (section 3.2.1).
parité tarifaire prédictive.
Autre nom de la parité prédictive.
fonction de densité de probabilité
Fonction qui identifie la fréquence des échantillons de données ayant exactement une valeur particulière. Lorsque les valeurs d'un ensemble de données sont des nombres à virgule flottante continus, les correspondances exactes sont rares. Toutefois, l'intégration d'une fonction de densité de probabilité de la valeur x
à la valeur y
donne la fréquence attendue des échantillons de données entre x
et y
.
Prenons l'exemple d'une distribution normale ayant une moyenne de 200 et un écart-type de 30. Pour déterminer la fréquence attendue des échantillons de données compris entre 211,4 et 218,7, vous pouvez intégrer la fonction de densité de probabilité pour une distribution normale de 211,4 à 218,7.
R
recall (rappel)
Statistique des modèles de classification qui répond à la question suivante:
Lorsque la vérité terrain était la classe positive, quel pourcentage de prédictions le modèle a-t-il correctement identifié comme étant la classe positive ?
Voici la formule:
où :
- Un vrai positif signifie que le modèle a correctement prédit la classe positive.
- Un faux négatif signifie que le modèle a à tort prédit la classe négative.
Par exemple, supposons que votre modèle ait effectué 200 prédictions sur des exemples pour lesquels la vérité terrain était la classe positive. Sur ces 200 prédictions:
- 180 étaient des vrais positifs.
- 20 étaient des faux négatifs.
Dans ce cas :
Cliquez sur l'icône pour obtenir des remarques sur les ensembles de données déséquilibrés.
Pour en savoir plus, consultez Classification: précision, rappel, précision et métriques associées.
rappel à k (recall@k)
Métrique permettant d'évaluer les systèmes qui génèrent une liste d'éléments classés (triés). Le rappel à k identifie la fraction d'éléments pertinents dans les k premiers éléments de cette liste par rapport au nombre total d'éléments pertinents renvoyés.
À comparer à la précision à k.
Cliquez sur l'icône pour voir un exemple.
courbe ROC (receiver operating characteristic) (courbe ROC (receiver operating characteristic))
Graphique du taux de vrais positifs par rapport au taux de faux positifs pour différents seuils de classification dans la classification binaire.
La forme d'une courbe ROC suggère la capacité d'un modèle de classification binaire à séparer les classes positives des classes négatives. Supposons, par exemple, qu'un modèle de classification binaire sépare parfaitement toutes les classes négatives de toutes les classes positives:
La courbe ROC du modèle précédent se présente comme suit:
À l'inverse, l'illustration suivante représente graphiquement les valeurs de régression logistique brutes d'un modèle terrible qui ne peut pas du tout séparer les classes négatives des classes positives:
La courbe ROC de ce modèle se présente comme suit:
En attendant, dans le monde réel, la plupart des modèles de classification binaire séparent les classes positives et négatives dans une certaine mesure, mais généralement pas de manière parfaite. Ainsi, une courbe ROC typique se situe quelque part entre les deux extrêmes:
Le point d'une courbe ROC le plus proche de (0,0,1,0) identifie théoriquement le seuil de classification idéal. Cependant, plusieurs autres problèmes concrets influencent la sélection du seuil de classification idéal. Par exemple, les faux négatifs sont peut-être beaucoup plus pénibles que les faux positifs.
Une métrique numérique appelée AUC résume la courbe ROC en une seule valeur à virgule flottante.
la racine carrée de l'erreur quadratique moyenne (RMSE, Root Mean Squared Error)
Racine carrée de l'erreur quadratique moyenne.
ROUGE (Recall-Oriented Understudy for Gisting Evaluation)
Famille de métriques qui évaluent les modèles de résumé automatique et de traduction automatique. Les métriques ROUGE déterminent le degré de chevauchement d'un texte de référence avec le texte généré d'un modèle de ML. Chaque membre de la famille ROUGE mesure le chevauchement d'une manière différente. Plus le score ROUGE est élevé, plus le texte généré est semblable au texte de référence.
Chaque membre de la famille ROUGE génère généralement les métriques suivantes:
- Précision
- Rappel
- F1
Pour en savoir plus et obtenir des exemples, consultez les pages suivantes:
ROUGE-L
Un membre de la famille ROUGE s'est concentré sur la longueur de la sous-séquence commune la plus longue dans le texte de référence et le texte généré. Les formules suivantes calculent le rappel et la précision pour ROUGE-L:
Vous pouvez ensuite utiliser F1 pour regrouper le rappel ROUGE-L et la précision ROUGE-L dans une seule métrique:
Cliquez sur l'icône pour voir un exemple de calcul de ROUGE-L.
ROUGE-L ignore les sauts de ligne dans le texte de référence et le texte généré. Par conséquent, la sous-séquence commune la plus longue peut s'étendre sur plusieurs phrases. Lorsque le texte de référence et le texte généré comportent plusieurs phrases, une variante de ROUGE-L appelée ROUGE-Lsum est généralement une meilleure métrique. ROUGE-Lsum détermine la plus longue sous-séquence commune pour chaque phrase d'un passage, puis calcule la moyenne de ces sous-séquences communes.
Cliquez sur l'icône pour voir un exemple de calcul de ROUGE-Lsum.
ROUGE-N
Ensemble de métriques de la famille ROUGE qui compare les N-grammes partagés d'une certaine taille dans le texte de référence et le texte généré. Exemple :
- ROUGE-1 mesure le nombre de jetons partagés dans le texte de référence et le texte généré.
- ROUGE-2 mesure le nombre de bigrammes (2-grammes) partagés dans le texte de référence et le texte généré.
- ROUGE-3 mesure le nombre de trigrammes (3-grammes) partagés dans le texte de référence et le texte généré.
Vous pouvez utiliser les formules suivantes pour calculer la précision et la récence ROUGE-N pour n'importe quel membre de la famille ROUGE-N:
Vous pouvez ensuite utiliser F1 pour regrouper le rappel ROUGE-N et la précision ROUGE-N dans une seule métrique:
Cliquez sur l'icône pour voir un exemple.
ROUGE-S
Forme tolérante de ROUGE-N qui permet la mise en correspondance de skip-gram. Autrement dit, ROUGE-N ne comptabilise que les n-grammes qui correspondent exactement, tandis que ROUGE-S comptabilise également les n-grammes séparés par un ou plusieurs mots. Nous vous conseillons, par exemple, de suivre les recommandations suivantes :
- texte de référence: Nuages blancs
- generated text: Des nuages blancs en forme de ballons
Lors du calcul de ROUGE-N, le 2-gramme nuages blancs ne correspond pas à nuages blancs en forme de volutes. Toutefois, lors du calcul de ROUGE-S, Nuages blancs correspond à Nuages blancs en forme de volutes.
Coefficient de détermination
Métrique de régression indiquant dans quelle mesure la variation d'un libellé est due à une caractéristique individuelle ou à un ensemble de caractéristiques. Le coefficient de détermination est une valeur comprise entre 0 et 1, que vous pouvez interpréter comme suit:
- Un R-squared de 0 signifie qu'aucune variation d'un libellé n'est due à l'ensemble de caractéristiques.
- Un R-squared de 1 signifie que toute la variation d'un libellé est due à l'ensemble de caractéristiques.
- Un R-squared compris entre 0 et 1 indique dans quelle mesure la variation du libellé peut être prédite à partir d'une caractéristique particulière ou de l'ensemble de caractéristiques. Par exemple, un R-squared de 0,10 signifie que 10 % de la variance de l'étiquette est due à l'ensemble d'éléments, un R-squared de 0,20 signifie que 20 % est dû à l'ensemble d'éléments, etc.
Le coefficient de détermination correspond au carré du coefficient de corrélation de Pearson entre les valeurs prédites par un modèle et la vérité terrain.
S
notation
Partie d'un système de recommandation qui fournit une valeur ou un classement pour chaque élément produit par la phase de génération de candidats.
mesure de similarité
Dans les algorithmes de clustering, la métrique permettant de déterminer le degré de similarité entre deux exemples.
parcimonie
Nombre d'éléments définis sur zéro (ou nuls) dans un vecteur ou une matrice, divisé par le nombre total d'entrées de ce vecteur ou de cette matrice. Prenons l'exemple d'une matrice de 100 éléments dans laquelle 98 cellules contiennent zéro. La formule permettant de calculer la parcimonie est la suivante:
La spaticité des caractéristiques fait référence à la sparsité d'un vecteur de caractéristiques. La spaticité du modèle fait référence à la sparsité des poids du modèle.
marge maximale quadratique
Carré de la perte de marge maximale. La perte de marge maximale quadratique pénalise les valeurs aberrantes plus sévèrement que la perte de marge maximale classique.
perte quadratique
Synonyme de perte L2.
T
perte de test
Métrique représentant la perte d'un modèle par rapport à l'ensemble de test. Lorsque vous créez un modèle, vous essayez généralement de minimiser la perte de test. En effet, une faible perte de test est un signal de qualité plus fort qu'une faible perte d'entraînement ou une faible perte de validation.
Un écart important entre la perte de test et la perte d'entraînement ou de validation suggère parfois que vous devez augmenter le taux de régularisation.
Précision top-k
Pourcentage de fois où un "libellé cible" apparaît dans les premières k positions des listes générées. Il peut s'agir de recommandations personnalisées ou d'une liste d'éléments triés par softmax.
La précision top-k est également appelée précision à k.
Cliquez sur l'icône pour voir un exemple.
toxique
Le degré d'abus, de menace ou d'incitation à la haine du contenu De nombreux modèles de machine learning peuvent identifier et mesurer la toxicité. La plupart de ces modèles identifient la toxicité en fonction de plusieurs paramètres, tels que le niveau de langage abusif et le niveau de langage menaçant.
perte d'entraînement
Métrique représentant la perte d'un modèle lors d'une itération d'entraînement spécifique. Par exemple, supposons que la fonction de perte soit l'erreur quadratique moyenne. La perte d'entraînement (l'erreur quadratique moyenne) pour la 10e itération est peut-être de 2,2, et la perte d'entraînement pour la 100e itération est de 1,9.
Une courbe de perte représente la perte d'entraînement en fonction du nombre d'itérations. Une courbe de perte fournit les indications suivantes sur l'entraînement:
- Une pente descendante implique que le modèle s'améliore.
- Une pente ascendante implique que le modèle se dégrade.
- Une pente plate implique que le modèle a atteint la convergence.
Par exemple, la courbe de perte suivante, quelque peu idéalisée, montre:
- Une pente descendante abrupte lors des itérations initiales, ce qui implique une amélioration rapide du modèle.
- Une pente progressivement aplatie (mais toujours à la baisse) jusqu'à la fin de l'entraînement, ce qui implique une amélioration continue du modèle à un rythme un peu plus lent que lors des itérations initiales.
- Une pente plate vers la fin de l'entraînement, ce qui suggère une convergence.
Bien que la perte d'entraînement soit importante, consultez également la généralisation.
vrai négatif (VN)
Exemple dans lequel le modèle prédit correctement la classe négative. Par exemple, le modèle déduit qu'un e-mail particulier n'est pas du spam, et qu'il n'est pas du spam.
vrai positif (VP)
Exemple dans lequel le modèle prédit correctement la classe positive. Par exemple, le modèle déduit qu'un e-mail particulier est du spam, ce qui était bien le cas.
taux de vrais positifs (TVP) (true positive rate (TPR))
Synonyme de rappel. Par exemple :
Le taux de vrais positifs correspond à l'ordonnée d'une courbe ROC.
V
perte de validation
Métrique représentant la perte d'un modèle sur l'ensemble de validation lors d'une itération spécifique de l'entraînement.
Voir également la courbe de généralisation.
importance des variables
Ensemble de scores qui indique l'importance relative de chaque caractéristique pour le modèle.
Prenons l'exemple d'un arbre de décision qui estime les prix des maisons. Supposons que cet arbre de décision utilise trois caractéristiques: la taille, l'âge et le style. Si un ensemble d'importances de variables pour les trois caractéristiques est calculé comme étant {taille=5,8, âge=2,5, style=4,7}, la taille est plus importante pour l'arbre de décision que l'âge ou le style.
Il existe différentes métriques d'importance des variables, qui peuvent renseigner les experts en ML sur différents aspects des modèles.
W
Perte Wasserstein
L'une des fonctions de perte couramment utilisées dans les réseaux génératifs antagonistes, basée sur la distance de l'éleveur de terre entre la distribution des données générées et les données réelles.