Classification: justesse, rappel, précision et métriques associées

Les vrais et faux positifs et négatifs sont utilisés pour calculer plusieurs métriques utiles pour l'évaluation des modèles. Les métriques d'évaluation les plus pertinentes dépendent du modèle et de la tâche spécifiques, du coût des différentes erreurs de classification, et si l'ensemble de données est équilibré ou déséquilibré.

Toutes les métriques de cette section sont calculées selon un seul seuil fixe et changent lorsque ce seuil change. Très souvent, l'utilisateur ajuste le seuil pour optimiser l'une de ces métriques.

Précision

La précision est la proportion de toutes les classifications qui étaient correctes, qu'elles soient positives ou négatives. Il est défini mathématiquement comme suit :

\[\text{Accuracy} = \frac{\text{correct classifications}}{\text{total classifications}} = \frac{TP+TN}{TP+TN+FP+FN}\]

Dans l'exemple de classification du spam, la justesse mesure la fraction de tous les e-mails correctement classés.

Un modèle parfait ne comporterait aucun faux positif ni aucun faux négatif, et aurait donc une précision de 1,0, soit 100 %.

Étant donné qu'elle intègre les quatre résultats de la matrice de confusion (VP, FP, TN, FN), pour un ensemble de données équilibré, avec un nombre d'exemples similaire dans les deux classes, la précision peut servir de mesure grossière de la qualité du modèle. C'est pourquoi il s'agit souvent de la métrique d'évaluation par défaut utilisée pour les modèles génériques ou non spécifiés effectuant des tâches génériques ou non spécifiées.

Toutefois, lorsque l'ensemble de données est déséquilibré ou qu'un type d'erreur (FN ou FP) est plus coûteux que l'autre, ce qui est le cas dans la plupart des applications réelles, il est préférable d'optimiser pour l'une des autres métriques.

Pour les ensembles de données très déséquilibrés, où une classe apparaît très rarement, disons 1 % du temps, un modèle qui prédit une valeur négative 100 % du temps obtiendrait un score de justesse de 99 %, bien qu'il soit inutile.

Rappel ou taux de vrais positifs

Le taux de vrais positifs (TVP), ou la proportion de tous les résultats positifs réels qui ont été correctement classés comme tels, est également appelé rappel.

Mathématiquement, le rappel est défini comme suit :

\[\text{Recall (or TPR)} = \frac{\text{correctly classified actual positives}}{\text{all actual positives}} = \frac{TP}{TP+FN}\]

Les faux négatifs sont des éléments positifs réels qui ont été classés à tort comme négatifs. C'est pourquoi ils apparaissent dans le dénominateur. Dans l'exemple de classification du spam, le rappel mesure la fraction d'e-mails de spam correctement classés comme spam. C'est pourquoi le rappel est également appelé probabilité de détection : il répond à la question "Quelle fraction des e-mails de spam sont détectés par ce modèle ?".

Un modèle parfait hypothétique ne comporterait aucun faux négatif et aurait donc un rappel (TPR) de 1,0, c'est-à-dire un taux de détection de 100 %.

Dans un ensemble de données déséquilibré où le nombre de résultats positifs réels est très, très faible (par exemple, un à deux exemples au total), le rappel est moins pertinent et moins utile en tant que métrique.

Taux de faux positifs

Le taux de faux positifs (FPR) est la proportion de tous les négatifs réels qui ont été incorrectement classés comme positifs. Il est également appelé probabilité de fausse alarme. Il est défini mathématiquement comme suit :

\[\text{FPR} = \frac{\text{incorrectly classified actual negatives}} {\text{all actual negatives}} = \frac{FP}{FP+TN}\]

Les faux positifs sont des négatifs réels qui ont été mal classés. C'est pourquoi ils apparaissent au dénominateur. Dans l'exemple de classification du spam, le FPR mesure la fraction d'e-mails légitimes classés à tort comme spam, ou le taux de fausses alarmes du modèle.

Un modèle parfait ne comporterait aucun faux positif et donc un taux de faux positifs de 0,0, c'est-à-dire un taux de fausses alarmes de 0 %.

Dans un ensemble de données déséquilibré où le nombre de négatifs réels est très, très faible (par exemple, un à deux exemples au total), la FPR est moins pertinente et moins utile en tant que métrique.

Précision

La précision correspond à la proportion de toutes les classifications positives du modèle qui sont réellement positives. Elle est définie mathématiquement comme suit:

\[\text{Precision} = \frac{\text{correctly classified actual positives}} {\text{everything classified as positive}} = \frac{TP}{TP+FP}\]

Dans l'exemple de classification du spam, la précision mesure la fraction des e-mails classés comme spam qui étaient effectivement du spam.

Un modèle parfait hypothétique ne comporterait aucun faux positif et aurait donc une précision de 1,0.

Dans un ensemble de données déséquilibré où le nombre de résultats positifs réels est très, très faible (par exemple, un à deux exemples au total), la précision est moins pertinente et moins utile en tant que métrique.

La précision s'améliore à mesure que les faux positifs diminuent, tandis que le rappel s'améliore lorsque les faux négatifs diminuent. Toutefois, comme nous l'avons vu dans la section précédente, l'augmentation du seuil de classification a tendance à réduire le nombre de faux positifs et à augmenter le nombre de faux négatifs, tandis que la diminution du seuil a les effets inverses. Par conséquent, la précision et le rappel présentent souvent une relation inverse, où l'amélioration de l'un dégrade l'autre.

Essayez par vous-même :

Que signifie NaN dans les métriques ?

NaN, ou "non un nombre", s'affiche lors d'une division par 0, ce qui peut se produire avec n'importe laquelle de ces métriques. Par exemple, lorsque les valeurs VP et FP sont toutes deux égales à 0, la formule de précision contient 0 au dénominateur, ce qui donne NaN. Dans certains cas, NaN peut indiquer des performances parfaites et peut être remplacé par un score de 1,0. Il peut également provenir d'un modèle pratiquement inutilisable. Par exemple, un modèle qui ne prédit jamais de résultat positif n'aurait aucun TP ni aucun FP. Le calcul de sa précision donnerait donc NaN.

Choix de la métrique et compromis

La ou les métriques que vous choisissez de prioriser lors de l'évaluation du modèle et du choix d'un seuil dépendent des coûts, des avantages et des risques du problème spécifique. Dans l'exemple de classification du spam, il est souvent judicieux de donner la priorité au rappel, en détectant tous les e-mails de spam, ou à la précision, en s'assurant que les e-mails marqués comme spam sont en fait du spam, ou à un équilibre entre les deux, au-dessus d'un certain niveau de précision minimal.

Métrique Conseils
Précision

À utiliser comme indicateur approximatif de la progression/convergence de l'entraînement du modèle pour les ensembles de données équilibrés.

Pour optimiser les performances du modèle, n'utilisez cette option qu'avec d'autres métriques.

À éviter pour les ensembles de données déséquilibrés. Envisagez d'utiliser une autre métrique.

Rappel
(taux de vrais positifs)
À utiliser lorsque les faux négatifs sont plus coûteux que les faux positifs.
Taux de faux positifs À utiliser lorsque les faux positifs sont plus coûteux que les faux négatifs.
Précision À utiliser lorsque la précision des prédictions positives est très importante.

(Facultatif, avancé) Score F1

Le score F1 correspond à la moyenne harmonique (une sorte de moyenne) de la précision et du rappel.

Mathématiquement, elle est calculée comme suit:

\[\text{F1}=2*\frac{\text{precision * recall}}{\text{precision + recall}} = \frac{2\text{TP}}{2\text{TP + FP + FN}}\]

Cette métrique équilibre l'importance de la précision et du rappel, et est préférable à la précision pour les ensembles de données déséquilibrés. Lorsque la précision et le rappel atteignent tous deux un score parfait de 1,0, le score F1 est également parfait, soit 1,0. Plus généralement, lorsque la valeur de précision et de rappel est proche, F1 est proche de leur valeur. Lorsque la précision et le rappel sont très éloignés, le score F1 est semblable à la métrique la moins bonne.

Exercice: tester vos connaissances

Un modèle génère 5 VP, 6 TN, 3 FP et 2 FN. Calculez le rappel.
0,714
Le rappel est calculé comme suit : \(\frac{TP}{TP+FN}=\frac{5}{7}\).
0,455
Le rappel tient compte de tous les cas positifs réels, et non de toutes les classifications correctes. La formule de rappel est \(\frac{TP}{TP+FN}\).
0,625
Le rappel prend en compte tous les positifs réels, et non toutes les classifications positives. La formule de rappel est \(\frac{TP}{TP+FN}\)
Un modèle génère 3 VP, 4 TN, 2 FP et 1 FN. Calculez la précision.
0,6
La précision est calculée comme suit : \(\frac{TP}{TP+FP}=\frac{3}{5}\).
0,75
La précision tient compte de toutes les classifications positives, et non de toutes les valeurs positives réelles. La formule de précision est \(\frac{TP}{TP+FP}\).
0,429
La précision tient compte de toutes les classifications positives, et non de toutes les classifications correctes. La formule de précision est \(\frac{TP}{TP+FP}\)
Vous créez un classificateur binaire qui vérifie si une espèce invasive dangereuse est présente dans des photos de pièges à insectes. Si le modèle détecte l'espèce, l'entomologiste (scientifique spécialiste des insectes) de service en est informé. La détection précoce de cet insecte est essentielle pour éviter une infestation. Une fausse alarme (faux positif) est facile à gérer: l'entomologiste voit que la photo a été mal classée et la marque comme telle. En supposant un niveau de justesse acceptable, pour quelle métrique ce modèle doit-il être optimisé ?
Rappel
Dans ce scénario, les fausses alarmes (FA) sont peu coûteuses, et les faux négatifs sont très coûteux. Il est donc logique de maximiser le rappel, ou la probabilité de détection.
Taux de faux positifs (TFP)
Dans ce scénario, les fausses alarmes sont peu coûteuses. Essayer de les minimiser au risque de manquer des résultats positifs réels n'a pas de sens.
Précision
Dans ce scénario, les fausses alarmes ne sont pas particulièrement dangereuses. Il n'est donc pas judicieux d'essayer d'améliorer l'exactitude des classifications positives.