Évaluer des modèles à l'aide de métriques

Même si le débogage d'un modèle de ML peut sembler intimidant, les métriques vous montrent par où commencer. Les sections suivantes expliquent comment évaluer les performances à l'aide de métriques.

Évaluer la qualité à l'aide des métriques du modèle

Pour évaluer la qualité de votre modèle, les métriques couramment utilisées sont les suivantes:

Pour obtenir des conseils sur l'interprétation de ces métriques, consultez le contenu associé dans le contenu relatif au plantage du machine learning. Pour obtenir des conseils supplémentaires sur des problèmes spécifiques, consultez le tableau suivant.

Problème Évaluation de la qualité
Régression Outre la réduction absolue de votre erreur quadratique moyenne, vous devez réduire votre MSE par rapport aux valeurs de vos étiquettes. Par exemple, supposons que vous prédisez le prix de deux articles dont le prix moyen est de 5 et 100. Dans les deux cas, supposons que votre MSE soit de 5. Dans le premier cas, la MSE correspond à 100% du prix moyen, ce qui est clairement une erreur importante. Dans le second cas, la MSE correspond à 5% du prix moyen, ce qui est une erreur raisonnable.
Classification multiclasse Si vous prédisez un petit nombre de classes, examinez les métriques par classe individuellement. Lorsque vous effectuez des prédictions sur de nombreuses classes, vous pouvez calculer la moyenne des métriques par classe pour suivre les métriques de classification globales. Vous pouvez également donner la priorité à des objectifs de qualité spécifiques en fonction de vos besoins. Par exemple, si vous classez des objets dans des images, vous pouvez privilégier la qualité de la classification pour les personnes plutôt que pour d'autres objets.

Vérifier les métriques pour les secteurs de données importants

Une fois que vous disposez d'un modèle de haute qualité, celui-ci peut encore être peu performant sur des sous-ensembles de données. Par exemple, le prédicteur de votre licorne doit être efficace à la fois dans le désert du Sahara et de New York, et à toutes les heures de la journée. Cependant, vous disposez de moins de données d'entraînement pour le désert du Sahara. Par conséquent, vous voulez suivre la qualité du modèle spécifiquement pour le désert du Sahara. Ces sous-ensembles de données, tels que le sous-ensemble correspondant au désert du Sahara, sont appelés tranches de données. Vous devez surveiller séparément les tranches de données dans lesquelles les performances sont particulièrement importantes ou les performances de votre modèle.

Utilisez vos connaissances pour identifier les segments de données qui vous intéressent. Comparez ensuite les métriques du modèle pour les tranches de données à celles de l'ensemble de données. Vérifier les performances de votre modèle pour toutes les tranches de données permet d'éliminer les biais. Pour en savoir plus, consultez la section Équité: évaluer pour les biais.

Utiliser des métriques réelles

Les métriques de modèle ne mesurent pas nécessairement l'impact réel de votre modèle. Par exemple, vous pouvez modifier un hyperparamètre et augmenter votre AUC, mais quel a été l'impact de ce changement sur l'expérience utilisateur ? Pour mesurer l'impact réel, vous devez définir des métriques distinctes. Par exemple, vous pouvez interroger les utilisateurs qui voient une prédiction d'apparence de licorne pour vérifier s'ils ont vu une licorne. Mesurer l'impact réel permet de comparer la qualité des différentes itérations de votre modèle.