Les questions suivantes vous aideront à consolider votre compréhension des concepts fondamentaux du ML.
Puissance prédictive
Les modèles de ML supervisés sont entraînés à l'aide d'ensembles de données contenant des exemples étiquetés. Le modèle apprend à prédire l'étiquette à partir des caractéristiques. Cependant, toutes les caractéristiques d'un ensemble
de données ne possèdent pas de performances prédictives. Dans certains cas, seules quelques caractéristiques servent de prédicteurs de l'étiquette. Dans l'ensemble de données ci-dessous, utilisez "price" comme étiquette et les colonnes restantes comme caractéristiques.
Selon vous, quels sont les trois principaux indicateurs du prix d'une voiture ?
Make_model, year, miles.
La marque, le modèle, l'année et le kilométrage sont susceptibles de faire partie des principaux indicateur de prix.
Color, height, make_model.
La hauteur et la couleur d'une voiture ne sont pas des indicateurs fiables pour son prix.
Miles, boîte de vitesse, make_model.
La boîte de vitesse n'est pas un facteur clé de prédiction du prix.
Tire_size, wheel_base, year.
La taille des pneus et la base des roues ne sont pas des indicateurs fiables du prix d'une voiture.
Apprentissage supervisé et non supervisé
En fonction du problème, optez pour une approche supervisée ou non supervisée.
Par exemple, si vous connaissez au préalable la valeur ou la catégorie que vous souhaitez prédire, vous devez utiliser l'apprentissage supervisé. Toutefois, si vous souhaitez savoir si votre ensemble de données contient des segmentations ou des regroupements d'exemples liés, vous devez utiliser l'apprentissage non supervisé.
Supposons que vous disposiez d’un jeu de données d’utilisateurs pour un site Web d’achat en ligne et qu’il contienne les colonnes suivantes:
Pour comprendre les types d'utilisateurs qui consultent le site, utiliseriez-vous l'apprentissage supervisé ou non supervisé ?
Apprentissage non supervisé.
Pour que le modèle regroupe des clients apparentés,
nous devons utiliser l'apprentissage non supervisé. Une fois que le modèle a rassemblé les utilisateurs, nous devons créer nos propres noms pour chaque groupe, par exemple "chercheurs de réductions","chasseurs d'offres", "surfeurs", "fidèles" et "errants".
Apprentissage supervisé, car j'essaie de prédire à quelle classe appartient un utilisateur.
Dans l'apprentissage supervisé, l'ensemble de données doit contenir l'étiquette que vous essayez de prédire. Dans l'ensemble de données, aucune étiquette ne fait référence à une catégorie d'utilisateurs.
Supposons que vous disposiez d'un ensemble de données sur la consommation d'énergie pour les logements comportant les colonnes suivantes:
Quel type de ML utiliseriez-vous pour prédire la quantité de kilowattheures consommés par an pour une maison nouvellement construite ?
Apprentissage supervisé
L'apprentissage supervisé se base sur des exemples étiquetés. Dans cet ensemble de données, l'étiquette serait "kilowattheures utilisées par an", car il s'agit de la valeur que le modèle doit prédire. Il s'agit des caractéristiques suivantes : "superficie", "lieu" et "année de construction".
Apprentissage non supervisé.
L'apprentissage non supervisé utilise des exemples sans étiquette. Dans cet exemple, l'étiquette est "kilowattheures utilisées par an", car il s'agit de la valeur que le modèle doit prédire.
Supposons que vous disposiez d'un ensemble de données sur les vols contenant les colonnes suivantes:
Si vous vouliez prédire le coût d'un billet en car, utiliseriez-vous la régression ou la classification ?
Régression
La sortie d'un modèle de régression est une valeur numérique.
Classification
La sortie d'un modèle de classification est une valeur discrète, généralement un mot. Dans ce cas, le coût d'un billet en car est une valeur numérique.
Sur la base de l'ensemble de données, pourriez-vous entraîner un modèle de classification pour déterminer si le coût d'un billet d'autocar est élevé, moyen ou faible ?
Oui, mais nous devons d'abord convertir les valeurs numériques de la colonne coach_ticket_cost
en valeurs catégorielles.
Il est possible de créer un modèle de classification à partir de l'ensemble de données.
Vous devez procéder comme suit :
- Trouvez le coût moyen d'un billet de l'aéroport de départ à l'aéroport de destination.
- Déterminez les seuils qui constitueraient des seuils "élevé", "moyen" et "faible".
- Comparez le coût prévu aux seuils et générez la catégorie dans laquelle se trouve la valeur.
Non. Il n'est pas possible de créer un modèle de classification. Les valeurs coach_ticket_cost
sont numériques et non catégorielles.
Avec un peu de travail, vous pourriez créer un modèle de classification.
Non. Les modèles de classification ne prédisent que deux catégories, comme spam
ou not_spam
. Ce modèle devrait prédire trois catégories.
Les modèles de classification peuvent prédire plusieurs catégories. On les appelle "modèles de classification à classes multiples".
Entraînement et évaluation
Après avoir entraîné un modèle, nous l'évaluons à l'aide d'un ensemble de données avec des exemples étiquetés, puis comparons la valeur prédite du modèle à la valeur réelle de l'étiquette.
Sélectionnez les deux meilleures réponses à la question.
Si les prédictions du modèle sont très éloignées, que pouvez-vous faire pour les améliorer ?
Réentraînez le modèle, mais utilisez uniquement les caractéristiques qui, selon vous, ont les meilleures performances prédictives pour l'étiquette.
Le réentraînement d'un modèle avec moins de caractéristiques, mais plus de puissance prédictive, peut produire un modèle qui permet d'obtenir de meilleures prédictions.
Vous ne pouvez pas corriger un modèle dont les prédictions sont éloignées.
Il est possible de corriger un modèle dont les prédictions sont incorrectes. La plupart des modèles nécessitent plusieurs cycles d'entraînement jusqu'à ce qu'ils produisent des prédictions utiles.
Réentraîner le modèle à l'aide d'un ensemble de données plus grand et plus diversifié
Les modèles entraînés sur des ensembles de données comportant plus d'exemples et une gamme de valeurs plus étendue peuvent produire de meilleures prédictions, car le modèle dispose d'une solution plus généralisée pour la relation entre les caractéristiques et l'étiquette.
Essayez une autre approche d'entraînement. Par exemple, si vous avez utilisé une approche supervisée, essayez une approche non supervisée.
Une approche différente de l'entraînement ne produira pas de meilleures prédictions.
Vous êtes maintenant prêt à passer à l'étape suivante de votre transition vers le ML:
People + AI Guidebook (Guide People + IA). Vous recherchez un ensemble de méthodes, de bonnes pratiques et d'exemples présentés par des Googleurs, des experts du secteur et des recherches universitaires sur l'utilisation du ML.
Définition du problème. Si vous recherchez une approche testée sur le terrain pour créer des modèles de ML et éviter les pièges les plus courants.
Cours d'initiation au machine learning. Si vous êtes prêt pour une approche pratique et approfondie de l'apprentissage du ML,