Classification: justesse, rappel, précision et métriques associées

Les vrais et faux positifs et négatifs sont utilisés pour calculer plusieurs valeurs pour évaluer les modèles. Quelles métriques d'évaluation dépend du modèle et de la tâche en question, du coût de classifications erronées, et si l'ensemble de données est équilibré ou déséquilibré.

Toutes les métriques de cette section sont calculées selon un seuil fixe unique, et lorsque le seuil change. Très souvent, l'utilisateur règle pour optimiser l'une de ces métriques.

Précision

La précision est la proportion de tous et les classifications correctes, qu'elles soient positives ou négatives. Il est défini mathématiquement comme suit:

\[\text{Accuracy} = \frac{\text{correct classifications}}{\text{total classifications}} = \frac{TP+TN}{TP+TN+FP+FN}\]

Dans l'exemple de classification en tant que spam, la précision mesure la fraction de tous correctement classés.

Un modèle parfait n'aurait aucun faux positif ni aucun faux négatif, soit une précision de 1, 0 ou 100%.

Parce qu'elle intègre les quatre résultats matrice de confusion (VP, FP, TN, FN), à condition que avec des nombres d'exemples similaires dans les deux classes, la justesse peut qui servent de mesure grossière de la qualité du modèle. Pour cette raison, il est souvent la métrique d'évaluation par défaut utilisée pour les modèles génériques ou non spécifiés l'exécution de tâches génériques ou non spécifiées.

Cependant, lorsque l'ensemble de données est déséquilibré, ou lorsqu'un type d'erreur ("FN" ou "FP") coûte plus cher que l'autre, dans la plupart des applications réelles, il est préférable d'optimiser les autres métriques à la place.

Pour les ensembles de données très déséquilibrés, où une classe apparaît très rarement, disons 1% des un modèle qui prédit une valeur négative à 100% du temps obtiendrait un score de 99 % la justesse, bien qu’elle soit inutile.

Rappel ou taux de vrais positifs

Le taux de vrais positifs (TVP), ou la proportion de tous les positifs réels qui ont été correctement classés comme positifs, rappel.

Le rappel est mathématiquement défini comme suit:

\[\text{Recall (or TPR)} = \frac{\text{correctly classified actual positives}}{\text{all actual positives}} = \frac{TP}{TP+FN}\]

Les faux négatifs sont des positifs réels qui ont été classés à tort en tant que négatifs, c'est pourquoi elles apparaissent au dénominateur. Dans l'exemple de classification en tant que spam, le rappel mesure la fraction des spams qui ont été correctement classés comme du spam. C'est pourquoi le rappel est également appelé probabilité de détection: il répond à la question "Quelle est la proportion de spams détectés par ce modèle ?"

Un modèle parfait hypothétique n'aurait aucun faux négatif, de 1, 0, soit un taux de détection de 100 %.

Dans un ensemble de données déséquilibré où le nombre réel de positifs faible (un à deux exemples au total), le rappel est moins significatif et moins utile en tant que métrique.

Taux de faux positifs

Le taux de faux positifs (TFP) correspond à la proportion de tous les négatifs réels qui ont été classés de manière incorrecte. comme les positifs, ou probabilité d'une fausse alerte. Il est défini mathématiquement comme suit:

\[\text{FPR} = \frac{\text{incorrectly classified actual negatives}} {\text{all actual negatives}} = \frac{FP}{FP+TN}\]

Les faux positifs sont des négatifs réels qui ont été mal classés. C'est pourquoi ils apparaissent au dénominateur. Dans l'exemple de classification en tant que spam, TFP mesure le des e-mails légitimes classés à tort comme spam le taux de fausses alertes du modèle.

Un modèle parfait n'aurait aucun faux positif, et donc un TFP de 0,0. soit un taux de fausses alertes de 0 %.

Dans un ensemble de données déséquilibré où le nombre réel de négatifs est très, très élevé faible (un à deux exemples au total), le TFP est moins significatif et moins utile en tant que métrique.

Précision

Précision est la proportion de toutes les classifications positives du modèle qui sont réellement positives. Elle est définie mathématiquement comme suit:

\[\text{Precision} = \frac{\text{correctly classified actual positives}} {\text{everything classified as positive}} = \frac{TP}{TP+FP}\]

Dans l'exemple de classification en tant que spam, la précision mesure la fraction des e-mails classés comme spam, mais en réalité.

Un modèle parfait hypothétique n'aurait aucun faux positif. une précision de 1,0.

Dans un ensemble de données déséquilibré où le nombre réel de positifs faible (un à deux exemples au total), la précision est moins significative et moins utile en tant que métrique.

Plus les faux positifs diminuent, plus la précision s'améliore, alors que le rappel s'améliore quand diminue le nombre de faux négatifs. Mais comme nous l'avons vu dans la section précédente, l'augmentation le seuil de classification a tendance à réduire le nombre de faux positifs augmenter le nombre de faux négatifs, tandis que la réduction du seuil a la valeur les effets inverses. Par conséquent, la précision et le rappel présentent souvent un inverse et améliorer l'une d'elles empire l'autre.

Essayez par vous-même:

Que signifie NaN dans les métriques ?

NaN, ou « pas un nombre », s'affiche lors de la division par 0, ce qui peut se produire avec l'une de ces métriques. Par exemple, lorsque VP et FP sont tous les deux nuls, Le dénominateur de la formule de précision est 0, ce qui donne "NaN". Alors que dans certains cas, NaN peut indiquer des performances parfaites et peut être remplacé par un score de 1,0, il peut aussi provenir d'un modèle pratiquement inutile. Par exemple, un modèle qui ne prédit jamais de valeurs positives ne présentera aucun VP. et 0 FP. Ainsi, le calcul de sa précision donnerait une valeur NaN.

Choix de la métrique et compromis

La ou les métriques que vous choisissez de prioriser lors de l'évaluation du modèle le choix d'un seuil dépendent des coûts, des avantages et des risques problème spécifique. Dans l'exemple de classification en tant que spam, donner la priorité au rappel, à la réduction de tous les spams, ou à la précision, pour s'assurer que les e-mails identifiés comme spam sont bien des spams équilibre entre les deux, au-dessus d'un certain niveau de précision minimal.

Métrique Conseils
Précision

Utiliser comme indicateur approximatif du modèle la progression/convergence de l'entraînement pour les ensembles de données équilibrés.

Pour optimiser les performances du modèle, n'utilisez cette option qu'avec d'autres métriques.

À éviter pour les ensembles de données déséquilibrés. Envisagez d'utiliser une autre métrique.

Rappel
(taux de vrais positifs)
À utiliser lorsque les faux négatifs sont plus plus cher que les faux positifs.
Taux de faux positifs À utiliser lorsque les faux positifs sont plus chers que les faux négatifs.
Précision À utiliser lorsque c'est très important pour pour garantir la précision des prédictions positives.

(Facultatif, avancé) Score F1

Le score F1 correspond à la moyenne harmonique (une (moyenne) de précision et de rappel.

Mathématiquement, elle est calculée comme suit:

\[\text{F1}=2*\frac{\text{precision * recall}}{\text{precision + recall}} = \frac{2\text{TP}}{2\text{TP + FP + FN}}\]

Cette métrique équilibre l'importance de la précision et du rappel. plutôt que la justesse pour les ensembles de données avec déséquilibre des classes. Lorsque la précision et rappelez-vous, la F1 obtiendra un score parfait de 1,0. de 1,0. De façon plus générale, lorsque la valeur de précision et de rappel est proche, F1 être proches de leur valeur. Lorsque la précision et le rappel sont éloignés l'un de l'autre, F1 seront semblables à la métrique la moins bonne.

Exercice: tester vos connaissances

Un modèle génère 5 VP, 6 TN, 3 FP et 2 FN. Calculez le rappel.
0,714
Le rappel est calculé comme suit : [\frac{TP}{TP+FN}=\frac{5}{7}].
0,455
Le rappel prend en compte tous les positifs réels, mais pas tous les bons classifications. La formule du rappel est [\frac{VP}{VP+FN}].
0,625
Le rappel prend en compte tous les positifs réels, et non tous les positifs classifications. La formule du rappel est [\frac{VP}{VP+FN}].
Un modèle génère 3 VP, 4 TN, 2 FP et 1 FN. Calculez la précision.
0,6
La précision est calculée comme suit : [\frac{VP}{VP+FP}=\frac{3}{5}].
0,75
La précision prend en compte toutes les classifications positives, mais pas toutes réels positifs. La formule de précision est [\frac{VP}{VP+FP}].
0,429
La précision prend en compte toutes les classifications positives, mais pas toutes les classifications correctes. La formule de précision est [\frac{VP}{VP+FP}].
Vous créez un classificateur binaire qui vérifie les photos de pièges à insectes pour déterminer si une espèce invasive dangereuse est présente. Si le modèle détecte l'entomologue (spécialiste en insectes) en service en est informée. En avance il est essentiel de détecter ces insectes afin d'empêcher une infestation. A une fausse alerte (faux positif) est facile à gérer: l'entomologiste la photo n'a pas été classée correctement et la marque comme telle. En supposant qu'une le niveau de précision, pour quelle métrique ce modèle doit-il être optimisé ?
Rappel
Dans ce scénario, les fausses alertes (FP) sont peu coûteuses et les fausses les négatifs sont très coûteux, il est donc logique de maximiser le rappel, ou la probabilité de la détection automatique.
Taux de faux positifs (TFP)
Dans ce scénario, les fausses alertes (FP) sont peu coûteuses. Tentative afin de les minimiser, car ils risquent de passer à côté de vrais positifs. sens.
Précision
Dans ce scénario, les fausses alertes (FP) ne sont pas particulièrement nuisibles, et nous essayons d'améliorer l'exactitude des classifications positives. n'a aucun sens.