Ensembles de données, généralisation et surapprentissage: tester vos connaissances

  1. Lequel des éléments suivants est un exemple de jeu de données fixe ?

  2. Vous vous apprêtez à entraîner un modèle pour prédire le prix de vente de voitures d'occasion à l'aide d'un ensemble de données qui contient les caractéristiques suivantes: year, model et mileage. Lorsque vous examinez le jeu de données, vous découvrez que les valeurs de kilométrage sont manquantes pour 150 exemples sur 2 500. Parmi les options suivantes, laquelle serait raisonnable ? (Sélectionnez toutes les réponses qui s'appliquent.)

    Choisissez autant de réponses que vous jugez nécessaires.

  3. Vous entraînez le modèle de recommandation de films d'un service de streaming pour prédire si un utilisateur appréciera un film donné. Parmi les étiquettes de proxy suivantes, lesquelles seraient raisonnables pour « L'utilisateur a apprécié le film » ? (Sélectionnez toutes les réponses qui s'appliquent.)

    Choisissez autant de réponses que vous jugez nécessaires.

  4. Vrai ou faux: entraîner votre modèle jusqu'à ce qu'il atteigne une faible valeur de perte sur vos données de test est un bon moyen d'éviter le surapprentissage.

  5. Complétez la phrase suivante:
    La régularisation améliore la capacité de votre modèle à se généraliser à de nouvelles données en pénalisant ___ pendant l'entraînement.