Systèmes de ML de production: questions à se poser

Cette leçon porte sur les questions que vous devez vous poser au sujet de vos données. dans les systèmes de production.

Toutes les fonctionnalités sont-elles utiles ?

Vous devez surveiller en permanence votre modèle pour supprimer les caractéristiques qui contribuent ou presque rien à la capacité prédictive du modèle. Si les données d'entrée pour qui changent brusquement, le comportement de votre modèle peut aussi changent de manière indésirable.

Réfléchissez également à la question connexe suivante:

  • L'utilité de la caractéristique justifie-t-elle le coût de son inclusion ?

Il est toujours tentant d'ajouter des caractéristiques au modèle. Par exemple, supposons que vous trouviez une nouvelle caractéristique dont l'ajout permet d'obtenir les prédictions de votre modèle. un peu mieux. Des prédictions légèrement meilleures semblent certainement meilleures des prédictions légèrement moins bonnes. Cette fonctionnalité supplémentaire s'ajoute de la maintenance.

Votre source de données est-elle fiable ?

Voici quelques questions à vous poser sur la fiabilité de vos données d'entrée:

  • Le signal sera-t-il toujours disponible ou provient-il d'une source peu fiable ? Exemple :
    • Le signal provient-il d'un serveur qui plante en cas de forte charge ?
    • Le signal provient-il de personnes qui partent en vacances chaque année au mois d'août ?
  • Le système qui calcule les données d'entrée de votre modèle change-t-il un jour ? Si oui:
    • À quelle fréquence ?
    • Comment saurez-vous quand ce système changera ?

Pensez à créer votre propre copie des données que vous recevez du processus en amont. Ne passez ensuite qu'à la version suivante de la requête des données lorsque vous êtes certain que vous pouvez le faire sans risque.

Votre modèle fait-il partie d'une boucle de rétroaction ?

Parfois, un modèle peut influer sur ses propres données d'entraînement. Par exemple, les résultats de certains modèles deviennent à leur tour des entrées (directement ou indirectement) des caractéristiques à ce même modèle.

Parfois, un modèle peut avoir une incidence sur un autre modèle. Prenons deux exemples. permettant de prédire le cours d'une action:

  • Le modèle A, qui est un mauvais modèle prédictif.
  • Modèle B.

Comme le modèle A comporte des bugs, il décide à tort d'acheter des actions de l'action X. Ces achats font augmenter le cours de l'action X. Le modèle B utilise le prix de la bourse X en tant que caractéristique d'entrée. Le modèle B peut donc donner conclusions sur la valeur de l'action X. Le modèle B pourrait donc acheter ou vendre des actions de l'action X en se basant sur le comportement problématique du modèle A. Le comportement du modèle B, à son tour, peut affecter le modèle A, déclenchant éventuellement une tulipomanie Action de l'entreprise X.

Exercice: tester vos connaissances

Parmi les modèles suivants, trois sont susceptibles une boucle de rétroaction ?
Un modèle de prévision de trafic qui prédit les embouteillages aux sorties d'autoroute près de la plage, en utilisant la fréquentation de ce lieu comme caractéristique.
Certains adeptes de la baignade ont tendance à décider de ce qu'ils vont faire en fonction des conditions de circulation. des prévisions. Si la fréquentation est importante et que le trafic devrait être lourde, beaucoup de gens peuvent adopter d’autres plans. Cela peut réduire ce qui entraîne des prévisions de trafic plus fluide, qui peuvent alors augmenter la fréquentation et le cycle se répète.
Un modèle de recommandation de livres qui suggère des romans susceptibles d'intéresser les utilisateurs en fonction de leur popularité (c'est-à-dire du nombre de fois où les livres ont été acheté).
Les recommandations de livres sont susceptibles de générer des achats. des ventes supplémentaires sont réinjectées dans le modèle en tant qu'entrée, ce qui augmente les chances de recommander ces mêmes livres à venir.
Un modèle de classement des universités qui évalue les établissements en partie en fonction de leur la sélectivité : le pourcentage d'étudiants qui ont postulé et qui ont été admis.
Le classement du modèle peut accroître l'intérêt des modèles scolaires, ce qui augmente le nombre de candidatures qu'ils reçoivent. Si ces les établissements continuent à accepter le même nombre d'étudiants, la sélectivité augmentera (le pourcentage d'étudiants acceptés diminuera). Ce va faire évoluer l'expérience du classement, ce qui augmentera encore l'intérêt des futurs étudiants, etc.
Un modèle de résultats d'élection qui prédit le vainqueur d'une l’élection municipale en sondant 2% des votants après la fermeture des bureaux de vote.
Si le modèle ne publie pas ses prévisions fermée, ses prédictions ne peuvent pas affecter les électeurs comportemental.
Un modèle de détermination de la valeur immobilière qui prédit le prix d'un logement en utilisant taille (superficie en mètres carrés), nombre de chambres et emplacement géographique en tant que caractéristiques.
Il n'est pas possible de changer rapidement l'emplacement d'une maison, ou le nombre de chambres en réponse à des prévisions de prix, ce qui rendrait une boucle de rétroaction peu probable. Cependant, il est possible une corrélation entre la taille et le nombre de chambres (grands logements sont susceptibles d'avoir plus de pièces).
Un modèle d'expressions faciales qui détecte si une personne sourit sur une photo, qui est régulièrement entraîné à l'aide d'une base de données de banques de photos. qui est automatiquement mis à jour tous les mois.
Il n'y a pas de boucle de rétroaction dans ce cas, car les prédictions du modèle n'ont pas aucun impact sur la base de données photo. Toutefois, la gestion des versions de données est un sujet de préoccupation, car ces mises à jour mensuelles ont des effets imprévus sur le modèle.