Comment saurez-vous si votre implémentation du ML en valait la peine ? Quand devez-vous vous féliciter: juste après la mise en production du modèle et la diffusion de sa première prédiction, ou seulement après qu'une métrique métier quantitative a commencé à avancer dans la bonne direction ?
Avant de démarrer un projet, il est essentiel de définir vos métriques de réussite et de vous mettre d'accord sur les produits livrables. Vous devez définir et suivre les deux types de métriques suivants:
Métriques métier. Métriques permettant de quantifier les performances commerciales, telles que le chiffre d'affaires, le taux de clics ou le nombre d'utilisateurs.
Métriques du modèle. Métriques pour quantifier la qualité du modèle, par exemple la racine carrée de l'erreur quadratique moyenne, la précision ou le rappel.
Métriques commerciales
Les métriques métier sont les plus importantes. C'est pour cela que vous utilisez le ML: vous voulez améliorer votre activité.
Commencez par des mesures quantifiables du produit ou de l’entreprise. La métrique doit être aussi précise et ciblée que possible. Voici des exemples de métriques commerciales ciblées et quantifiables:
- Réduire de 30 % les coûts mensuels d'électricité d'un centre de données
- Augmenter les revenus issus des recommandations de produits de 12 %
- Augmenter le taux de clics de 9 %
- Augmenter de 20 % le sentiment des clients issus des enquêtes volontaires
- Augmenter le temps passé sur la page de 4 %
Suivi des métriques d'entreprise
Si vous ne suivez pas la métrique métier que vous souhaitez améliorer, commencez par implémenter l'infrastructure pour le faire. Se fixer un objectif d'augmentation du taux de clics de 15% n'est pas logique si vous ne mesurez pas actuellement les taux de clics.
Plus important encore, veillez à mesurer la bonne métrique pour votre problème. Par exemple, ne passez pas de temps à écrire une instrumentation pour suivre les taux de clics si la métrique la plus importante est le revenu généré par les recommandations.
Au fur et à mesure de l'avancement de votre projet, vous constaterez que le critère de réussite cible est réellement un objectif réaliste. Dans certains cas, vous pouvez déterminer que le projet n'est pas viable en fonction des critères de réussite définis.
Métriques du modèle
Quand devez-vous mettre le modèle en production ? Quand la valeur d'AUC est égale à une certaine valeur ? Lorsque le modèle atteint un score F1 particulier ? La réponse à cette question dépend du type de problème que vous résolvez et de la qualité de la prédiction dont vous pensez avoir besoin pour améliorer la métrique métier.
Pour déterminer les métriques à utiliser pour l'évaluation de votre modèle, tenez compte des points suivants:
Déterminez une seule métrique à optimiser. Par exemple, les modèles de classification peuvent être évalués par rapport à différentes métriques (AUC, AUC-PR, etc.). Choisir le meilleur modèle peut s'avérer difficile lorsque différentes métriques favorisent différents modèles. Par conséquent, convenez d'une seule métrique par rapport à laquelle évaluer les modèles.
Déterminez les objectifs d'acceptabilité à atteindre. Les objectifs d'acceptabilité sont différents des métriques d'évaluation du modèle. Elles font référence aux objectifs qu'un modèle doit atteindre pour être considéré comme acceptable pour un cas d'utilisation prévu. Par exemple, un objectif d'acceptabilité peut être "la sortie incorrecte est inférieure à 0,1 %" ou "le rappel pour les cinq principales catégories est supérieur à 97 %".
Par exemple, supposons qu'un modèle de classification binaire détecte des transactions frauduleuses. Sa métrique d'optimisation peut être le rappel, tandis que son objectif d'acceptabilité peut être la précision. En d'autres termes, nous donnerons la priorité au rappel (identifier correctement la fraude la plupart du temps) tout en veillant à ce que la précision reste égale ou supérieure à une valeur donnée (identifier les transactions frauduleuses réelles).
Connexion entre les métriques du modèle et les métriques métier
Vous essayez de développer un modèle dont la qualité de prédiction est liée de manière causale à votre métrique métier. Un modèle efficace n'est pas synonyme d'améliorations des métriques métier. Votre équipe peut développer un modèle avec des métriques impressionnantes, mais les prédictions du modèle peuvent ne pas améliorer la métrique métier.
Lorsque vous êtes satisfait de la qualité des prédictions de votre modèle, essayez de déterminer l'impact des métriques du modèle sur la métrique métier. En règle générale, les équipes déploient le modèle auprès de 1% des utilisateurs, puis surveillent les métriques métier.
Par exemple, supposons que votre équipe développe un modèle pour augmenter les revenus en prédisant la perte de clients. En théorie, si vous pouvez prédire si un client est susceptible ou non de quitter la plate-forme, vous pouvez l'encourager à rester.
Votre équipe crée un modèle avec une qualité de prédiction de 95% et le teste sur un petit échantillon d'utilisateurs. Toutefois, les revenus n'augmentent pas. La perte de clients augmente. Voici quelques explications possibles:
Les prédictions ne sont pas réalisables suffisamment tôt pour être exploitables. Le modèle ne peut prédire la perte de clients que sur une période de sept jours, ce qui n'est pas assez tôt pour proposer des incitations pour les garder sur la plate-forme.
Fonctionnalités incomplètes. D'autres facteurs qui ne figuraient pas dans l'ensemble de données d'entraînement peuvent augmenter la perte de clients.
Le seuil n'est pas assez élevé. Le modèle peut nécessiter une qualité de prédiction d'au moins 97% pour être utile.
Cet exemple simple met en évidence les deux points:
- Il est important d'effectuer les premiers tests utilisateur pour prouver (et comprendre) le lien entre les métriques du modèle et les métriques métier.
- Des métriques de modèle efficaces ne garantissent pas de meilleures métriques métier.
IA générative
L'évaluation des résultats de l'IA générative présente des défis uniques. Dans de nombreux cas, comme les résultats ouverts ou créatifs, il est plus difficile que d'évaluer les sorties de ML traditionnelles.
Les LLM peuvent être mesurés et évalués par rapport à différentes métriques. Déterminer les métriques sur lesquelles évaluer votre modèle dépend de votre cas d'utilisation. Pour en savoir plus, consultez l'article Introduction to Evaluating LLMs.
À retenir
Ne confondez pas la réussite d'un modèle avec la réussite de l'entreprise. En d'autres termes, un modèle avec des métriques exceptionnelles ne garantit pas le succès de l'entreprise.
De nombreux ingénieurs expérimentés sont capables de créer des modèles avec des métriques impressionnantes. L'entraînement d'un modèle suffisamment performant n'est généralement pas le problème. En effet, le modèle n'améliore pas la métrique métier. Un projet de ML peut être affecté à l'échec en raison d'un désalignement entre les métriques métier et les métriques du modèle.