Classification: seuil

La régression logistique renvoie une probabilité. Vous pouvez utiliser la probabilité renvoyée telle quelle (par exemple, la probabilité que l'utilisateur clique sur cette annonce soit 0,00023) ou convertir la probabilité renvoyée en une valeur binaire (par exemple, cet e-mail est un spam).

Un modèle de régression logistique renvoyant 0,9995 pour un e-mail particulier prédit qu'il est très probable qu'il s'agisse de spam. Inversement, un autre e-mail avec un score de prédiction de 0,0003 sur ce même modèle de régression logistique n'est très probablement pas du spam. Mais qu'en est-il des e-mails dont le score de prédiction est de 0, 6 ? Pour mapper une valeur de régression logistique à une catégorie binaire, vous devez définir un seuil de classification (également appelé seuil de décision). Une valeur supérieure à ce seuil indique un "spam" tandis qu'une valeur inférieure indique un "pas de spam". Il est tentant de partir du principe que le seuil de classification doit toujours être de 0,5, mais les seuils dépendent des problèmes et sont donc des valeurs que vous devez régler.

Les sections suivantes examinent de plus près les métriques que vous pouvez utiliser pour évaluer les prédictions d'un modèle de classification, ainsi que l'impact de la modification du seuil de classification sur ces prédictions.