Les vrais et faux positifs et négatifs sont utilisés pour calculer plusieurs valeurs pour évaluer les modèles. Quelles métriques d'évaluation dépend du modèle et de la tâche en question, du coût de classifications erronées, et si l'ensemble de données est équilibré ou déséquilibré.
Toutes les métriques de cette section sont calculées selon un seuil fixe unique, et lorsque le seuil change. Très souvent, l'utilisateur règle pour optimiser l'une de ces métriques.
Précision
La précision est la proportion de tous et les classifications correctes, qu'elles soient positives ou négatives. Il est défini mathématiquement comme suit:
\[\text{Accuracy} = \frac{\text{correct classifications}}{\text{total classifications}} = \frac{TP+TN}{TP+TN+FP+FN}\]
Dans l'exemple de classification en tant que spam, la précision mesure la fraction de tous correctement classés.
Un modèle parfait n'aurait aucun faux positif ni aucun faux négatif, soit une précision de 1, 0 ou 100%.
Parce qu'elle intègre les quatre résultats matrice de confusion (VP, FP, TN, FN), à condition que avec des nombres d'exemples similaires dans les deux classes, la justesse peut qui servent de mesure grossière de la qualité du modèle. Pour cette raison, il est souvent la métrique d'évaluation par défaut utilisée pour les modèles génériques ou non spécifiés l'exécution de tâches génériques ou non spécifiées.
Cependant, lorsque l'ensemble de données est déséquilibré, ou lorsqu'un type d'erreur ("FN" ou "FP") coûte plus cher que l'autre, dans la plupart des applications réelles, il est préférable d'optimiser les autres métriques à la place.
Pour les ensembles de données très déséquilibrés, où une classe apparaît très rarement, disons 1% des un modèle qui prédit une valeur négative à 100% du temps obtiendrait un score de 99 % la justesse, bien qu’elle soit inutile.
Rappel ou taux de vrais positifs
Le taux de vrais positifs (TVP), ou la proportion de tous les positifs réels qui ont été correctement classés comme positifs, rappel.
Le rappel est mathématiquement défini comme suit:
\[\text{Recall (or TPR)} = \frac{\text{correctly classified actual positives}}{\text{all actual positives}} = \frac{TP}{TP+FN}\]
Les faux négatifs sont des positifs réels qui ont été classés à tort en tant que négatifs, c'est pourquoi elles apparaissent au dénominateur. Dans l'exemple de classification en tant que spam, le rappel mesure la fraction des spams qui ont été correctement classés comme du spam. C'est pourquoi le rappel est également appelé probabilité de détection: il répond à la question "Quelle est la proportion de spams détectés par ce modèle ?"
Un modèle parfait hypothétique n'aurait aucun faux négatif, de 1, 0, soit un taux de détection de 100 %.
Dans un ensemble de données déséquilibré où le nombre réel de positifs faible (un à deux exemples au total), le rappel est moins significatif et moins utile en tant que métrique.
Taux de faux positifs
Le taux de faux positifs (TFP) correspond à la proportion de tous les négatifs réels qui ont été classés de manière incorrecte. comme les positifs, ou probabilité d'une fausse alerte. Il est défini mathématiquement comme suit:
\[\text{FPR} = \frac{\text{incorrectly classified actual negatives}} {\text{all actual negatives}} = \frac{FP}{FP+TN}\]
Les faux positifs sont des négatifs réels qui ont été mal classés. C'est pourquoi ils apparaissent au dénominateur. Dans l'exemple de classification en tant que spam, TFP mesure le des e-mails légitimes classés à tort comme spam le taux de fausses alertes du modèle.
Un modèle parfait n'aurait aucun faux positif, et donc un TFP de 0,0. soit un taux de fausses alertes de 0 %.
Dans un ensemble de données déséquilibré où le nombre réel de négatifs est très, très élevé faible (un à deux exemples au total), le TFP est moins significatif et moins utile en tant que métrique.
Précision
Précision est la proportion de toutes les classifications positives du modèle qui sont réellement positives. Elle est définie mathématiquement comme suit:
\[\text{Precision} = \frac{\text{correctly classified actual positives}} {\text{everything classified as positive}} = \frac{TP}{TP+FP}\]
Dans l'exemple de classification en tant que spam, la précision mesure la fraction des e-mails classés comme spam, mais en réalité.
Un modèle parfait hypothétique n'aurait aucun faux positif. une précision de 1,0.
Dans un ensemble de données déséquilibré où le nombre réel de positifs faible (un à deux exemples au total), la précision est moins significative et moins utile en tant que métrique.
Plus les faux positifs diminuent, plus la précision s'améliore, alors que le rappel s'améliore quand diminue le nombre de faux négatifs. Mais comme nous l'avons vu dans la section précédente, l'augmentation le seuil de classification a tendance à réduire le nombre de faux positifs augmenter le nombre de faux négatifs, tandis que la réduction du seuil a la valeur les effets inverses. Par conséquent, la précision et le rappel présentent souvent un inverse et améliorer l'une d'elles empire l'autre.
Essayez par vous-même:
Que signifie NaN dans les métriques ?
NaN, ou « pas un nombre », s'affiche lors de la division par 0, ce qui peut se produire avec l'une de ces métriques. Par exemple, lorsque VP et FP sont tous les deux nuls, Le dénominateur de la formule de précision est 0, ce qui donne "NaN". Alors que dans certains cas, NaN peut indiquer des performances parfaites et peut être remplacé par un score de 1,0, il peut aussi provenir d'un modèle pratiquement inutile. Par exemple, un modèle qui ne prédit jamais de valeurs positives ne présentera aucun VP. et 0 FP. Ainsi, le calcul de sa précision donnerait une valeur NaN.
Choix de la métrique et compromis
La ou les métriques que vous choisissez de prioriser lors de l'évaluation du modèle le choix d'un seuil dépendent des coûts, des avantages et des risques problème spécifique. Dans l'exemple de classification en tant que spam, donner la priorité au rappel, à la réduction de tous les spams, ou à la précision, pour s'assurer que les e-mails identifiés comme spam sont bien des spams équilibre entre les deux, au-dessus d'un certain niveau de précision minimal.
Métrique | Conseils |
---|---|
Précision | Utiliser comme indicateur approximatif du modèle la progression/convergence de l'entraînement pour les ensembles de données équilibrés. Pour optimiser les performances du modèle, n'utilisez cette option qu'avec d'autres métriques. À éviter pour les ensembles de données déséquilibrés. Envisagez d'utiliser une autre métrique. |
Rappel (taux de vrais positifs) |
À utiliser lorsque les faux négatifs sont plus plus cher que les faux positifs. |
Taux de faux positifs | À utiliser lorsque les faux positifs sont plus chers que les faux négatifs. |
Précision | À utiliser lorsque c'est très important pour pour garantir la précision des prédictions positives. |
(Facultatif, avancé) Score F1
Le score F1 correspond à la moyenne harmonique (une (moyenne) de précision et de rappel.
Mathématiquement, elle est calculée comme suit:
Cette métrique équilibre l'importance de la précision et du rappel. plutôt que la justesse pour les ensembles de données avec déséquilibre des classes. Lorsque la précision et rappelez-vous, la F1 obtiendra un score parfait de 1,0. de 1,0. De façon plus générale, lorsque la valeur de précision et de rappel est proche, F1 être proches de leur valeur. Lorsque la précision et le rappel sont éloignés l'un de l'autre, F1 seront semblables à la métrique la moins bonne.