Testez vos connaissances
Restez organisé à l'aide des collections
Enregistrez et classez les contenus selon vos préférences.
Les questions suivantes vous aideront à mieux comprendre les concepts de base du ML.
Puissance prédictive
Les modèles de ML supervisés sont entraînés à l'aide d'ensembles de données comportant des exemples étiquetés. Le modèle apprend à prédire l'étiquette à partir des caractéristiques. Cependant, toutes les caractéristiques d'un ensemble de données n'ont pas de pouvoir prédictif. Dans certains cas, seules quelques caractéristiques servent de prédicteurs de l'étiquette. Dans l'ensemble de données ci-dessous, utilisez le prix comme libellé et les autres colonnes comme caractéristiques.
Selon vous, quelles sont les trois caractéristiques les plus prédictives du prix d'une voiture ?
Make_model, year, miles.
La marque/modèle, l'année et le kilométrage d'une voiture sont probablement parmi les meilleurs prédicteurs de son prix.
Couleur, hauteur, make_model.
La hauteur et la couleur d'une voiture ne sont pas de bons prédicteurs de son prix.
Miles, gearbox, make_model.
La boîte de vitesses n'est pas un prédicteur principal du prix.
Tire_size, wheel_base, year.
La taille des pneus et l'empattement ne sont pas de bons prédicteurs du prix d'une voiture.
L'apprentissage supervisé et non supervisé
En fonction du problème, vous utiliserez une approche supervisée ou non supervisée.
Par exemple, si vous connaissez à l'avance la valeur ou la catégorie que vous souhaitez prédire, vous utiliserez l'apprentissage supervisé. Toutefois, si vous souhaitez savoir si votre ensemble de données contient des segmentations ou des regroupements d'exemples associés, vous devez utiliser l'apprentissage non supervisé.
Supposons que vous disposiez d'un ensemble de données d'utilisateurs pour un site Web d'achat en ligne, qui contenait les colonnes suivantes:
Si vous souhaitez comprendre les types d'utilisateurs qui visitent le site, utiliseriez-vous l'apprentissage supervisé ou non supervisé ?
Apprentissage non supervisé
Comme nous voulons que le modèle regroupe des groupes de clients associés, nous allons utiliser l'apprentissage non supervisé. Une fois que le modèle a regroupé les utilisateurs, nous avons créé nos propres noms pour chaque cluster, par exemple "chercheurs de remises", "chasseurs de bonnes affaires", "surfeurs", "fidèles" et "errants".
L'apprentissage supervisé, car j'essaie de prédire à quelle classe un utilisateur appartient.
En apprentissage supervisé, l'ensemble de données doit contenir l'étiquette que vous essayez de prédire. Dans l'ensemble de données, aucun libellé ne fait référence à une catégorie d'utilisateurs.
Supposons que vous disposiez d'un ensemble de données sur la consommation d'énergie des foyers avec les colonnes suivantes:
Quel type de ML utiliseriez-vous pour prédire les kilowattheures consommés par an pour une maison nouvellement construite ?
Apprentissage supervisé
L'apprentissage supervisé s'entraîne sur des exemples étiquetés. Dans cet ensemble de données, "kilowattheures utilisés par an" serait le libellé, car il s'agit de la valeur que vous souhaitez que le modèle prédise. Les caractéristiques sont "superficie en pieds carrés", "emplacement" et "année de construction".
Apprentissage non supervisé
L'apprentissage non supervisé utilise des exemples sans étiquette. Dans cet exemple, "kilowattheures utilisés par an" serait le libellé, car il s'agit de la valeur que vous souhaitez que le modèle prédise.
Supposons que vous disposiez d'un ensemble de données de vols avec les colonnes suivantes:
Si vous souhaitez prédire le coût d'un billet d'avion, utiliseriez-vous une régression ou une classification ?
Régression
La sortie d'un modèle de régression est une valeur numérique.
Classification
La sortie d'un modèle de classification est une valeur discrète, généralement un mot. Dans ce cas, le coût d'un billet d'avion est une valeur numérique.
Sur la base de l'ensemble de données, pourriez-vous entraîner un modèle de classification afin de classer le coût d'un billet d'avion en "élevé", "moyen" ou "faible" ?
Oui, mais nous devons d'abord convertir les valeurs numériques de la colonne airplane_ticket_cost
en valeurs catégorielles.
Vous pouvez créer un modèle de classification à partir de l'ensemble de données.
Vous devez procéder comme suit :
- Déterminez le coût moyen d'un billet entre l'aéroport de départ et l'aéroport de destination.
- Déterminez les seuils qui correspondent à "élevé", "moyen" et "faible".
- Comparez le coût prévu aux seuils et affichez la catégorie dans laquelle la valeur se situe.
Non. Il n'est pas possible de créer un modèle de classification. Les valeurs airplane_ticket_cost
sont numériques et non catégorielles.
Avec un peu d'effort, vous pouvez créer un modèle de classification.
Non. Les modèles de classification ne prédisent que deux catégories, comme spam
ou not_spam
. Ce modèle doit prédire trois catégories.
Les modèles de classification peuvent prédire plusieurs catégories. Il s'agit de modèles de classification à classes multiples.
Entraînement et évaluation
Une fois un modèle entraîné, nous l'évaluons à l'aide d'un ensemble de données avec des exemples étiquetés et comparons la valeur prédite du modèle à la valeur réelle de l'étiquette.
Sélectionnez les deux meilleures réponses à la question.
Si les prédictions du modèle sont très éloignées, que pouvez-vous faire pour les améliorer ?
Réentraînez le modèle, mais n'utilisez que les caractéristiques qui, selon vous, ont le plus de pouvoir prédictif pour le libellé.
En réentraînant le modèle avec moins de caractéristiques, mais avec une plus grande puissance prédictive, vous pouvez obtenir un modèle qui effectue de meilleures prédictions.
Vous ne pouvez pas corriger un modèle dont les prédictions sont très éloignées de la réalité.
Il est possible de corriger un modèle dont les prédictions sont inexactes. La plupart des modèles nécessitent plusieurs cycles d'entraînement avant de pouvoir effectuer des prédictions utiles.
Réentraîner le modèle à l'aide d'un ensemble de données plus volumineux et plus diversifié
Les modèles entraînés sur des ensembles de données comportant plus d'exemples et une plage de valeurs plus large peuvent produire de meilleures prédictions, car ils disposent d'une solution plus généralisée pour la relation entre les caractéristiques et l'étiquette.
Essayez une autre approche d'entraînement. Par exemple, si vous avez utilisé une approche supervisée, essayez une approche non supervisée.
Une autre approche d'entraînement ne produirait pas de meilleures prédictions.
Vous êtes maintenant prêt à passer à l'étape suivante de votre parcours de ML:
Guide People + AI Si vous recherchez un ensemble de méthodes, de bonnes pratiques et d'exemples présentés par des Googleurs, des experts du secteur et des chercheurs universitaires pour utiliser le ML.
Cadrage du problème Si vous recherchez une approche éprouvée pour créer des modèles de ML et éviter les écueils courants,
Cours d'initiation au machine learning Si vous êtes prêt à suivre une approche approfondie et pratique pour en savoir plus sur le ML.
Sauf indication contraire, le contenu de cette page est régi par une licence Creative Commons Attribution 4.0, et les échantillons de code sont régis par une licence Apache 2.0. Pour en savoir plus, consultez les Règles du site Google Developers. Java est une marque déposée d'Oracle et/ou de ses sociétés affiliées.
Dernière mise à jour le 2025/07/27 (UTC).
[null,null,["Dernière mise à jour le 2025/07/27 (UTC)."],[[["\u003cp\u003eThis page tests your understanding of core machine learning (ML) concepts through interactive questions.\u003c/p\u003e\n"],["\u003cp\u003eIt covers fundamental ML topics such as predictive power of features, supervised and unsupervised learning, and model training and evaluation.\u003c/p\u003e\n"],["\u003cp\u003eYou'll learn how to choose the right ML approach for different problems and assess the effectiveness of a trained model.\u003c/p\u003e\n"],["\u003cp\u003eLinks to further resources are provided to deepen your understanding of ML and its practical applications.\u003c/p\u003e\n"]]],[],null,["# Test Your Understanding\n\n\u003cbr /\u003e\n\nThe following questions help you solidify your understanding of core ML concepts.\n\nPredictive power\n----------------\n\nSupervised ML models are trained using datasets with labeled examples. The model\nlearns how to predict the label from the features. However, not every feature in\na dataset has predictive power. In some instances, only a few features act as\npredictors of the label. In the dataset below, use price as the label\nand the remaining columns as the features.\n\nWhich three features do you think are likely the greatest predictors for a car's price? \nMake_model, year, miles. \nA car's make/model, year, and miles are likely to be among the strongest predictors for its price. \nColor, height, make_model. \nA car's height and color are not strong predictors for a car's price. \nMiles, gearbox, make_model. \nThe gearbox isn't a main predictor of price. \nTire_size, wheel_base, year. \nTire size and wheel base aren't strong predictors for a car's price.\n\nSupervised and unsupervised learning\n------------------------------------\n\nBased on the problem, you'll use either a supervised or unsupervised approach.\nFor example, if you know beforehand the value or category you want to predict,\nyou'd use supervised learning. However, if you wanted to learn if your dataset\ncontains any segmentations or groupings of related examples, you'd use\nunsupervised learning.\n\nSuppose you had a dataset of users for an online shopping website, and it contained the following columns:\n\nIf you wanted to understand the types of users that visit the site, would you use supervised or unsupervised learning? \nUnsupervised learning. \nBecause we want the model to cluster groups of related customers, we'd use unsupervised learning. After the model clustered the users, we'd create our own names for each cluster, for example, \"discount seekers,\" \"deal hunters,\" \"surfers,\" \"loyal,\" and \"wanderers.\" \nSupervised learning because I'm trying to predict which class a user belongs to. \nIn supervised learning, the dataset must contain the label you're trying to predict. In the dataset, there is no label that refers to a category of user.\n\nSuppose you had an energy usage dataset for homes with the following columns:\n\nWhat type of ML would you use to predict the kilowatt hours used per year for a newly constructed house? \nSupervised learning. \nSupervised learning trains on labeled examples. In this dataset \"kilowatt hours used per year\" would be the label because this is the value you want the model to predict. The features would be \"square footage,\" \"location,\" and \"year built.\" \nUnsupervised learning. \nUnsupervised learning uses unlabeled examples. In this example, \"kilowatt hours used per year\" would be the label because this is the value you want the model to predict.\n\nSuppose you had a flight dataset with the following columns:\n\nIf you wanted to predict the cost of an airplane ticket, would you use regression or classification? \nRegression \nA regression model's output is a numeric value. \nClassification \nA classification model's output is a discrete value, normally a word. In this case, the cost of an airplane ticket is a numeric value. \nBased on the dataset, could you train a classification model to classify the cost of an airplane ticket as \"high,\" \"average,\" or \"low\"? \nYes, but we'd first need to convert the numeric values in the `airplane_ticket_cost` column to categorical values. \nIt's possible to create a classification model from the dataset. You would do something like the following:\n\n1. Find the average cost of a ticket from the departure airport to the destination airport.\n2. Determine the thresholds that would constitute \"high,\" \"average,\" and \"low\".\n3. Compare the predicted cost to the thresholds and output the category the value falls within. \nNo. It's not possible to create a classification model. The `airplane_ticket_cost` values are numeric not categorical. \nWith a little bit of work, you could create a classification model. \nNo. Classification models only predict two categories, like `spam` or `not_spam`. This model would need to predict three categories. \nClassification models can predict multiple categories. They're called multiclass classification models.\n\nTraining and evaluating\n-----------------------\n\nAfter we've trained a model, we evaluate it by using a dataset with labeled examples\nand compare the model's predicted value to the label's actual value.\n\nSelect the two best answers for the question. \nIf the model's predictions are far off, what might you do to make them better? \nRetrain the model, but use only the features you believe have the strongest predictive power for the label. \nRetraining the model with fewer features, but that have more predictive power, can produce a model that makes better predictions. \nYou can't fix a model whose predictions are far off. \nIt's possible to fix a model whose predictions are off. Most models require multiple rounds of training until they make useful predictions. \nRetrain the model using a larger and more diverse dataset. \nModels trained on datasets with more examples and a wider range of values can produce better predictions because the model has a better generalized solution for the relationship between the features and the label. \nTry a different training approach. For example, if you used a supervised approach, try an unsupervised approach. \nA different training approach would not produce better predictions.\n\nYou're now ready to take the next step in your ML journey:\n\n- [People + AI Guidebook](https://pair.withgoogle.com/guidebook/). If you're\n looking for a set of methods, best practices and examples presented by\n Googlers, industry experts, and academic research for using ML.\n\n- [Problem Framing](/machine-learning/problem-framing). If you're looking for\n a field-tested approach for creating ML models and avoiding common pitfalls\n along the way.\n\n- [Machine Learning Crash Course](/machine-learning/crash-course). If you're\n ready for an in-depth and hands-on approach to learning more about ML."]]