Systèmes de ML de production: questions à se poser

Cette leçon se concentre sur les questions que vous devez vous poser sur vos données et votre modèle dans les systèmes de production.

Chaque fonctionnalité est-elle utile ?

Vous devez surveiller en permanence votre modèle pour supprimer les fonctionnalités qui contribuent peu ou pas à sa capacité prédictive. Si les données d'entrée de cette fonctionnalité changent brusquement, le comportement de votre modèle peut également changer brusquement de manière indésirable.

Posez-vous également la question suivante:

  • L'utilité de la fonctionnalité justifie-t-elle le coût de son inclusion ?

Il est toujours tentant d'ajouter des fonctionnalités au modèle. Par exemple, supposons que vous trouviez une nouvelle fonctionnalité dont l'ajout améliore légèrement les prédictions de votre modèle. Des prédictions légèrement meilleures semblent certainement mieux que des prédictions légèrement moins bonnes. Toutefois, la fonctionnalité supplémentaire alourdit votre charge de maintenance.

Votre source de données est-elle fiable ?

Voici quelques questions à vous poser sur la fiabilité de vos données d'entrée:

  • Le signal sera-t-il toujours disponible ou provient-il d'une source non fiable ? Exemple :
    • Le signal provient-il d'un serveur qui plante sous une charge importante ?
    • Le signal provient-il d'humains qui partent en vacances en août ?
  • Le système qui calcule les données d'entrée de votre modèle change-t-il parfois ? Si c'est le cas :
    • À quelle fréquence ?
    • Comment saurez-vous quand ce système changera ?

Envisagez de créer votre propre copie des données que vous recevez du processus en amont. Ensuite, ne passez à la version suivante des données en amont que lorsque vous êtes certain de pouvoir le faire en toute sécurité.

Votre modèle fait-il partie d'une boucle de rétroaction ?

Parfois, un modèle peut affecter ses propres données d'entraînement. Par exemple, les résultats de certains modèles deviennent (directement ou indirectement) des caractéristiques d'entrée de ce même modèle.

Parfois, un modèle peut affecter un autre modèle. Prenons l'exemple de deux modèles de prédiction des cours boursiers:

  • Modèle A, qui est un mauvais modèle prédictif.
  • Modèle B.

Comme le modèle A comporte des bugs, il décide par erreur d'acheter des actions de l'action X. Ces achats font grimper le cours de l'action X. Le modèle B utilise le prix de l'action X comme caractéristique d'entrée. Il peut donc tirer de fausses conclusions sur la valeur de l'action X. Le modèle B peut donc acheter ou vendre des actions de l'action X en fonction du comportement défectueux du modèle A. Le comportement du modèle B peut à son tour affecter le modèle A, ce qui peut déclencher une manie des tulipes ou une baisse du cours de l'action de l'entreprise X.

Exercice: Vérifiez votre compréhension

Parmi les modèles suivants, trois sont susceptibles d'entraîner une boucle de rétroaction.
Un modèle de prévision de trafic qui prédit les bouchons sur les sorties d'autoroute près de la plage en utilisant la fréquentation de la plage comme caractéristique
Un modèle de détermination de la valeur immobilière qui prédit le prix d'un logement en fonction de sa taille (superficie en mètres carrés), du nombre de chambres et de son emplacement
Un modèle de recommandation de livres qui suggère des romans que les utilisateurs sont susceptibles d'aimer en fonction de leur popularité (c'est-à-dire du volume d'achat des livres)
Modèle de classement des universités qui évalue les établissements, en partie sur la base de leur sélectivité, c'est-à-dire du pourcentage d'étudiants acceptés.
Un modèle de résultats d'élection qui prédit le vainqueur d'une élection municipale en sondant 2% des votants après la fermeture des bureaux de vote
Un modèle d'expressions faciales qui détecte si une personne sourit sur une photo, et dont l'entraînement est réalisé régulièrement à partir d'une banque de photos mise à jour automatiquement tous les mois.