Comprendre le problème

Pour comprendre le problème, procédez comme suit :

  • Indiquez l'objectif du produit que vous développez ou refactorisez.
  • Déterminer si l'objectif est mieux résolu à l'aide du ML prédictif l'IA générative ou une solution autre que le ML.
  • Vérifiez que vous disposez des données requises pour entraîner un modèle si vous utilisez une approche de ML prédictif.

Définir l'objectif

Commencez par définir votre objectif en termes non liés au ML. L'objectif est la réponse à la question "Qu'est-ce que j'essaie d'accomplir ?".

Le tableau suivant indique clairement les objectifs d'applications hypothétiques :

Application Objectif
Application Météo Calculer les précipitations par incréments de six heures pour une région géographique.
Application de mode Générez différentes conceptions de chemises.
Application vidéo Recommandez des vidéos utiles.
Application Mail Détecter le spam.
Application financière Résumer des informations financières provenant de plusieurs sources d'actualités
Cartes Calculez le temps de trajet.
Application bancaire Identifier les transactions frauduleuses
Application de restauration Identifier la cuisine par le menu d'un restaurant.
Application d'e-commerce Répondez aux avis en fournissant des réponses utiles.

Cas d'utilisation clair du ML

Pour certains, le ML est un outil universel pouvant être appliqué à tous les problèmes. Dans en réalité, le ML est un outil spécialisé qui ne convient qu'à des problèmes particuliers. Vous ne voulez pas implémenter une solution de ML complexe alors qu'une solution non ML plus simple peut fonctionner.

Les systèmes de ML peuvent être divisés en deux grandes catégories: le ML prédictif et IA générative. Le tableau suivant présente leurs caractéristiques :

Entrée Sortie Technique d'entraînement
ML prédictif Texte
Image
Audio
Vidéo
Numérique
Effectue une prédiction, en classant par exemple comme spam ou non-spam, deviner les précipitations de demain ou prédire le cours d'une action. Le résultat peut généralement être vérifié par rapport à la réalité. Utilise généralement de nombreuses données pour entraîner un modèle d'apprentissage supervisé, non supervisé ou par renforcement afin d'effectuer une tâche spécifique.
Generative AI Texte
Image
Audio
Vidéo
Numérique
Génère une sortie en fonction de l'intention de l'utilisateur, par exemple en résumant un article, ou en produisant un extrait audio ou une courte vidéo. Utilise généralement de nombreuses données non étiquetées pour entraîner un grand modèle de langage ou un générateur d'images pour compléter les données manquantes. Le modèle peut ensuite être utilisé pour des tâches qui peuvent être définies comme des tâches à remplir affinées en l'entraînant sur des données étiquetées pour une tâche spécifique, comme la classification.

Pour confirmer que le ML est la bonne approche, commencez par vérifier que vos ressources hors ML actuelles est optimisée. Si vous n'avez implémenté aucune autre solution de ML, de résoudre le problème manuellement à l'aide d'un heuristique.

La solution non ML est le benchmark que vous utiliserez pour déterminer si le ML est un bon cas d'utilisation pour votre problème. Tenez compte des questions suivantes lorsque vous comparez une approche non basée sur le ML à une approche de ML:

  • Qualité : Selon vous, dans quelle mesure une solution de ML peut-elle être améliorée ? Si vous vous pensez qu'une solution de ML ne représente peut-être qu'une légère amélioration, ce qui peut indiquer la solution actuelle est la meilleure.

  • Coûts et maintenance. Quel est le coût de la solution de ML à la fois à court et à long terme ? Dans certains cas, cela coûte beaucoup plus cher des ressources de calcul et du temps pour implémenter le ML. Posez-vous les questions suivantes :

    • La solution de ML peut-elle justifier cette augmentation des coûts ? Notez que de petites améliorations dans de grands systèmes peuvent facilement justifier le coût et la maintenance de l'implémentation d'une solution de ML.
    • Quelle maintenance la solution nécessitera-t-elle ? Dans de nombreux cas, les implémentations de ML nécessitent une maintenance dédiée à long terme.
    • Votre produit dispose-t-il des ressources nécessaires pour former ou embaucher des personnes ayant une expertise en ML ?

Testez vos connaissances

Pourquoi est-il important d'avoir une solution ou une heuristique non ML en place avant d'analyser une solution ML ?
Une solution autre que le ML est un benchmark par rapport auquel une solution de ML doit se mesurer.
Les solutions autres que le ML vous aident à déterminer le coût d'une solution de ML.

ML et données prédictifs

Les données sont le moteur du ML prédictif. Pour réparer prédictions, vous avez besoin de données contient des caractéristiques avec . Vos données doivent présenter les caractéristiques suivantes :

  • Abondante Plus votre ensemble de données contient d'exemples pertinents et utiles, meilleur sera votre modèle.

  • Cohérentes et fiables. Des données collectées de manière cohérente et fiable permettent de produire un meilleur modèle. Par exemple, un modèle météorologique basé sur l'apprentissage automatique bénéficiera des données collectées pendant de nombreuses années à partir des mêmes instruments fiables.

  • Approuvée : Découvrez d'où viennent vos données. Les données seront-elles provenant de sources fiables que vous contrôlez, telles que les journaux de votre produit, provenant de sources que vous n'avez pas beaucoup de connaissances, comme les résultats d'une autre un système de ML ?

  • Disponible Assurez-vous que toutes les entrées sont disponibles au moment de la prédiction dans le le bon format. Si l'obtention de certaines valeurs de caractéristiques au moment de la prédiction est difficile, omettez ces caractéristiques de vos ensembles de données.

  • Bonne réponse. Dans les grands ensembles de données, il est inévitable étiquettes auront des valeurs incorrectes, mais si plus d'un faible pourcentage d'étiquettes sont incorrectes, le modèle de mauvaises prédictions.

  • Représentatif Les jeux de données doivent être aussi représentatifs que possible. En d'autres termes, les jeux de données doivent refléter avec précision les événements, les comportements des utilisateurs et/ou les phénomènes du monde réel modélisés. L'entraînement sur des ensembles de données non représentatifs peut entraîner de mauvaises performances lorsque le modèle est invité à effectuer des prédictions dans le monde réel.

Si vous ne parvenez pas à obtenir les données dont vous avez besoin au format requis, votre modèle de mauvaises prédictions.

Puissance prédictive

Pour qu'un modèle puisse effectuer de bonnes prédictions, les caractéristiques de votre ensemble de données doivent avoir une puissance prédictive. Plus une caractéristique est corrélée à une étiquette, plus elle est susceptible de la prédire.

Certaines fonctionnalités offriront des performances prédictives plus élevées que d'autres. Par exemple, dans un ensemble de données météorologiques, des caractéristiques telles que cloud_coverage, temperature et dew_point fournirait de meilleurs prévisions de pluie que moon_phase ou day_of_week Pour l'exemple d'application vidéo, vous pouvez émettre l'hypothèse que des fonctionnalités telles que video_description, length et views peuvent être de bons prédicteurs des vidéos qu'un utilisateur souhaite regarder.

Sachez que les performances prédictives d'une caractéristique peuvent changer parce que le contexte ou les modifications de domaine. Par exemple, dans l'application vidéo, une fonctionnalité comme upload_date pourrait, en général, être faiblement corrélée à l'étiquette. Toutefois, dans sous-domaine des vidéos de jeux, upload_date peut être fortement corrélé avec le libellé.

Déterminer quelles caractéristiques ont des capacités prédictives peut être chronophage processus. Vous pouvez explorer manuellement la puissance prédictive d'une fonctionnalité en la supprimant et en l'ajoutant lors de l'entraînement d'un modèle. Vous pouvez automatiser la recherche de la puissance prédictive d'une fonctionnalité à l'aide d'algorithmes tels que la corrélation de Pearson, l'information mutuelle ajustée (AMI) et la valeur Shapley, qui fournissent une évaluation numérique pour analyser la puissance prédictive d'une fonctionnalité.

Testez vos connaissances

Lors de l'analyse de vos ensembles de données, quels sont les trois attributs clés à privilégier recherchez-vous ?
Représentatif du monde réel.
Contient les valeurs correctes.
Les caractéristiques ont un pouvoir prédictif pour l'étiquette.
Il est suffisamment petit pour être chargé sur une machine locale.
Recueillies à partir de diverses sources imprévisibles.

Pour plus de conseils sur l'analyse et la préparation de vos ensembles de données, consultez Data Preparation and Feature Engineering for Machine Learning (Préparation des données et ingénierie des caractéristiques pour le machine learning).

Prédictions et actions

Il n'y a aucun intérêt à prédire quelque chose si vous ne pouvez pas transformer cette prédiction en action qui aide les utilisateurs. Autrement dit, votre produit doit prendre des mesures à partir de la sortie du modèle.

Par exemple, un modèle qui prédit si un utilisateur trouvera une vidéo utile doit alimenter une application qui recommande des vidéos utiles. Un modèle qui prédit s'il va pleuvoir doit être alimenté par une application météo.

Testez vos connaissances

À partir du scénario suivant, déterminez si l'utilisation du ML est la meilleure approche du problème.

Une équipe d'ingénieurs d'une grande entreprise est chargée de gérer les appels téléphoniques entrants.

Objectif : informer les appelants du temps d'attente en fonction du volume d'appels actuel.

Il n'a pas de solution en place, mais il pense qu'une heuristique consisterait à diviser le nombre actuel de clients en attente par le nombre d'employés qui répondent au téléphone, puis à multiplier le résultat par 10 minutes. Toutefois, il sait que certains clients voient leur problème résolu en deux minutes, tandis que d'autres peuvent attendre jusqu'à 45 minutes ou plus.

Son heuristique ne lui donnera probablement pas un nombre suffisamment précis. Il peut créer un ensemble de données avec les colonnes suivantes : number_of_callcenter_phones, user_issue, time_to_resolve, call_time et time_on_hold.

Utilisez le ML. L'équipe d'ingénieurs a un objectif clairement défini. Leur heuristique ne sera pas assez bonne pour leur cas d'utilisation. L'ensemble de données s'affiche afin de disposer de caractéristiques prédictives pour l'étiquette time_on_hold.
N'utilisez pas le ML. Bien qu'il ait un objectif clairement défini, il doit d'abord implémenter et optimiser une solution non ML. De plus, leur ensemble de données ne semble pas contenir suffisamment de fonctionnalités avec une puissance prédictive.