Classification: Justesse

La justesse est l'une des métriques permettant d'évaluer les modèles de classification. De manière informelle, la justesse est la fraction des prédictions correctement identifiées par notre modèle. Officiellement, la justesse a la définition suivante:

$$\text{Accuracy} = \frac{\text{Number of correct predictions}}{\text{Total number of predictions}}$$

Pour la classification binaire, la justesse peut également être calculée en termes de positifs et négatifs:

$$\text{Accuracy} = \frac{TP+TN}{TP+TN+FP+FN}$$

VP = Vrais positifs, VN = Vrais négatifs, FP = Faux positifs et FN = Faux négatifs.

Essayons de calculer la justesse pour le modèle suivant, qui a classifié 100 tumeurs comme malignes (la classe positive) ou bénignes (la classe négative):

Vrai positif (VP) :
  • Réalité: maligne
  • Modèle de ML prédit: maligne
  • Nombre de résultats de VP: 1
Faux positif (FP):
  • Réalité: bénigne
  • Modèle de ML prédit: maligne
  • Nombre de résultats FP: 1
Faux négatif (FN) :
  • Réalité: maligne
  • Modèle de ML prédit: bénin
  • Nombre de résultats FN: 8
Vrai négatif (VN):
  • Réalité: bénigne
  • Modèle de ML prédit: bénin
  • Nombre de résultats TN: 90
$$\text{Accuracy} = \frac{TP+TN}{TP+TN+FP+FN} = \frac{1+90}{1+90+1+8} = 0.91$$

La justesse est de 0,91, soit 91% (91 prédictions correctes sur 100 exemples au total). Cela signifie que notre classificateur de tumeurs est très efficace pour identifier les formes malignes, n'est-ce pas ?

Examinons de plus près les positifs et les négatifs pour mieux comprendre les performances de notre modèle.

Sur les 100 exemples de tumeurs, 91 sont bénins (90 TN et 1 FP) et 9 sont malignes (1 VP et 8 FN).

Sur les 91 tumeurs bénignes, le modèle en a identifié 90 comme bénignes. C'est vraiment bien, Toutefois, sur les 9 tumeurs malignes, le modèle n'en a identifié qu'une comme maligne, ce qui est très mauvais, car 8 tumeurs malignes sur 9 n'ont pas été diagnostiquées.

Si la précision de 91% peut sembler satisfaisante à première vue, un autre modèle de classificateur de tumeur prédisant systématiquement "bénin" pourrait atteindre exactement la même justesse (91/100 prédictions correctes) sur nos exemples. En d'autres termes, notre modèle n'est pas meilleur qu'un modèle n'ayant aucune capacité prédictive de distinguer les tumeurs malignes des tumeurs bénignes.

La justesse seule ne permet pas de tout dire lorsque vous utilisez un ensemble de données avec déséquilibre des classes, comme celui-ci, dans lequel il existe une disparité importante entre le nombre d'étiquettes positives et négatives.

Dans la section suivante, nous allons examiner deux métriques plus efficaces pour évaluer les problèmes de classes déséquilibrées: la précision et le rappel.