Comprendre le problème

Pour comprendre le problème, effectuez les tâches suivantes:

  • Énoncez l'objectif du produit que vous développez ou refactorisez.
  • Déterminez si l'objectif est le mieux résolu à l'aide du ML prédictif, de l'IA générative ou d'une solution autre que le ML.
  • Vérifiez que vous disposez des données nécessaires pour entraîner un modèle si vous utilisez une approche de ML prédictive.

Indiquer l'objectif

Commencez par énoncer votre objectif en des termes autres que le ML. L'objectif est la réponse à la question « Qu'est-ce que j'essaie d'accomplir ? »

Le tableau suivant indique clairement les objectifs pour les applications fictives:

Application Objectif
Application Météo Calculez les précipitations par incréments de six heures pour une région géographique.
Application de mode Générer une variété de modèles de chemises.
Application vidéo recommander des vidéos utiles ;
Application de messagerie Détecter le spam
Application financière Résumer des informations financières provenant de plusieurs sources d'actualités
Cartes Calculer le temps de trajet
Application bancaire Identifier les transactions frauduleuses
Application de restauration Identifiez les types de cuisine en fonction du menu d'un restaurant.
Application d'e-commerce Répondez aux avis en fournissant des réponses utiles.

Cas d'utilisation clair du ML

Certains considèrent le ML comme un outil universel qui peut être appliqué à tous les problèmes. En réalité, le ML est un outil spécialisé qui ne convient qu'à des problèmes particuliers. Il est déconseillé de mettre en œuvre une solution de ML complexe lorsqu'une solution autre que le ML fonctionne.

Les systèmes de ML peuvent être divisés en deux grandes catégories : le ML prédictif et l'IA générative. Le tableau suivant présente les caractéristiques qui les définissent:

Entrée Sortie Technique d'entraînement
ML prédictif Texte
Image
Audio
Vidéo
Numérique
Effectue une prédiction, par exemple en classant un e-mail comme spam ou non-spam, en devinant les précipitations de demain ou en prédisant le cours d'une action. Le résultat peut généralement être vérifié par rapport à la réalité. Utilise généralement beaucoup de données pour entraîner un modèle d'apprentissage supervisé, non supervisé ou par renforcement à exécuter une tâche spécifique.
Generative AI Texte
Image
Audio
Vidéo
Numérique
Génère une sortie en fonction de l'intention de l'utilisateur (par exemple, résumer un article, ou produire un clip audio ou une courte vidéo). Utilise généralement de nombreuses données non étiquetées pour entraîner un grand modèle de langage ou un générateur d'images à remplir les données manquantes. Le modèle peut ensuite être utilisé pour des tâches pouvant être formulées comme des tâches à compléter, ou pour l'améliorer en l'entraînant sur des données étiquetées pour une tâche spécifique, telle que la classification.

Pour confirmer que le ML est la bonne approche, commencez par vérifier que votre solution non-ML actuelle est optimisée. Si vous n'avez pas implémenté de solution autre que le ML, essayez de résoudre le problème manuellement à l'aide d'une heuristique.

La solution autre que le ML est le benchmark que vous utiliserez pour déterminer si le ML est un bon cas d'utilisation pour votre problème. Lorsque vous comparez une approche non basée sur le ML à une approche de ML, posez-vous les questions suivantes:

  • Qualité. Selon vous, dans quelle mesure une solution de ML pourrait-elle être améliorée ? Si vous pensez qu'une solution de ML n'est qu'une légère amélioration, cela peut indiquer que la solution actuelle est la meilleure.

  • Coûts et maintenance. Combien coûte la solution de ML à court et à long terme ? Dans certains cas, les ressources de calcul et le temps de mise en œuvre du ML coûtent beaucoup plus cher. Posez-vous les questions suivantes :

    • La solution de ML peut-elle justifier cette augmentation des coûts ? Notez que de légères améliorations dans les grands systèmes peuvent facilement justifier les coûts et la maintenance liés à la mise en œuvre d'une solution de ML.
    • Combien de maintenance la solution nécessitera-t-elle ? Dans de nombreux cas, les mises en œuvre de ML nécessitent une maintenance dédiée à long terme.
    • Votre produit dispose-t-il des ressources nécessaires pour former ou recruter des experts en ML ?

Testez vos connaissances

Pourquoi est-il important de mettre en place une solution heuristique ou autre que le ML avant d'analyser une solution de ML ?
Une solution autre que le ML sert de benchmark pour mesurer une solution de ML.
Les solutions autres que le ML vous aident à déterminer le coût d'une solution de ML.

ML et données prédictifs

Les données sont le moteur du ML prédictif. Pour effectuer des prédictions de qualité, vous avez besoin de données contenant des caractéristiques à la puissance prédictive. Vos données doivent présenter les caractéristiques suivantes:

  • Abondante. Plus les exemples sont pertinents et utiles dans votre ensemble de données, meilleur sera votre modèle.

  • Cohérentes et fiables. Le fait d'avoir des données collectées de manière cohérente et fiable produira un meilleur modèle. Par exemple, un modèle météo basé sur le ML bénéficiera de données collectées pendant de nombreuses années à partir des mêmes instruments fiables.

  • Approuvée. Comprenez d'où proviendront vos données. Les données proviendront-elles de sources de confiance que vous contrôlez, comme les journaux de votre produit, ou de sources pour lesquelles vous n'avez pas beaucoup d'informations, comme la sortie d'un autre système de ML ?

  • Disponible. Assurez-vous que toutes les entrées sont disponibles au moment de la prédiction au bon format. S'il est difficile d'obtenir certaines valeurs de caractéristiques au moment de la prédiction, omettez-les de vos ensembles de données.

  • Bonne réponse. Dans les grands ensembles de données, il est inévitable que certains libellés aient des valeurs incorrectes, mais si plus d'un faible pourcentage d'étiquettes sont incorrects, le modèle produit des prédictions médiocres.

  • Représentant : Les ensembles de données doivent être aussi représentatifs que possible du monde réel. En d'autres termes, les ensembles de données doivent refléter avec précision les événements, les comportements des utilisateurs et/ou les phénomènes du monde réel modélisé. L'entraînement sur des ensembles de données non représentatifs peut nuire aux performances lorsque le modèle est invité à effectuer des prédictions réelles.

Si vous ne pouvez pas obtenir les données dont vous avez besoin dans le format requis, les prédictions de votre modèle seront de mauvaise qualité.

Puissance prédictive

Pour qu'un modèle puisse faire de bonnes prédictions, les caractéristiques de votre ensemble de données doivent disposer d'une puissance prédictive. Plus une caractéristique est corrélée à une étiquette, plus elle est susceptible de la prédire.

Certaines fonctionnalités ont plus de performances prédictives que d'autres. Par exemple, dans un ensemble de données météorologiques, des éléments tels que cloud_coverage, temperature et dew_point seraient de meilleurs prédicteurs de la pluie que moon_phase ou day_of_week. Pour l'exemple de l'application vidéo, vous pouvez supposer que des caractéristiques telles que video_description, length et views peuvent constituer de bons prédicteurs pour les vidéos qu'un utilisateur voudrait regarder.

Sachez que les performances prédictives d'une caractéristique peuvent changer en fonction du contexte ou du domaine. Par exemple, dans l'application vidéo, une fonctionnalité telle que upload_date peut, en général, être faiblement corrélée au libellé. Toutefois, dans le sous-domaine des vidéos de jeux, upload_date peut être fortement corrélé au libellé.

Déterminer quelles caractéristiques ont des performances prédictives peut prendre beaucoup de temps. Vous pouvez explorer manuellement les performances prédictives d'une caractéristique en la supprimant, puis en l'ajoutant lors de l'entraînement d'un modèle. Vous pouvez automatiser la recherche de la puissance prédictive d'une caractéristique à l'aide d'algorithmes tels que la corrélation de Pearson, l'information mutuelle ajustée (AMI) et la valeur de Shapley, qui fournissent une évaluation numérique permettant d'analyser la puissance prédictive d'une caractéristique.

Testez vos connaissances

Lorsque vous analysez vos ensembles de données, quels sont les trois attributs clés à prendre en compte ?
Ils sont représentatifs du monde réel.
Contient des valeurs correctes.
Les caractéristiques ont une puissance prédictive pour l'étiquette.
Assez petit pour être chargé sur une machine locale.
Recueillies à partir de diverses sources imprévisibles.

Pour en savoir plus sur l'analyse et la préparation des ensembles de données, consultez la page Préparation des données et extraction de caractéristiques pour le machine learning.

Prédictions et actions

Prédire quelque chose ne présente aucun intérêt si vous ne pouvez pas transformer la prédiction en une action utile pour les utilisateurs. Autrement dit, votre produit doit agir à partir de la sortie du modèle.

Par exemple, un modèle qui prédit si un utilisateur trouvera une vidéo utile doit alimenter une application qui recommande des vidéos utiles. Un modèle qui prédit s'il va pleuvoir doit alimenter une application météo.

Testez vos connaissances

En vous basant sur le scénario suivant, déterminez si le ML est la meilleure approche pour résoudre le problème.

Une équipe d'ingénieurs au sein d'une grande organisation est chargée de gérer les appels téléphoniques entrants.

Objectif: informer les appelants du temps d'attente compte tenu du volume d'appels actuel.

Bien qu'il n'ait pas de solution en place, il pense qu'une heuristique consisterait à diviser le nombre de clients actuellement en attente par le nombre d'employés qui répondent au téléphone, puis à le multiplier par 10 minutes. Cependant, elle sait que certains clients ont des problèmes résolus en deux minutes, tandis que d'autres peuvent prendre jusqu'à 45 minutes ou plus.

Leur heuristique ne leur permettra probablement pas d'obtenir un nombre assez précis. Il peut créer un ensemble de données contenant les colonnes suivantes : number_of_callcenter_phones, user_issue, time_to_resolve, call_time, time_on_hold.

Utiliser le ML : L'équipe d'ingénierie a un objectif clairement défini. Leur heuristique ne convient pas à leur cas d'utilisation. L'ensemble de données semble comporter des caractéristiques prédictives pour le libellé time_on_hold.
N'utilisez pas le ML. Bien qu'il ait un objectif clairement défini, il doit d'abord mettre en œuvre et optimiser une solution autre que le ML. En outre, son ensemble de données ne semble pas contenir suffisamment de caractéristiques présentant des performances prédictives.