Ensembles de données, généralisation et surapprentissage: tester vos connaissances

Lequel des éléments suivants est un exemple de jeu de données fixe ?

Taux de précipitations à Seattle, Washington

Catalogue de notes de musique des symphonies de Beethoven

Mots les plus fréquemment utilisés dans les e-mails de spam

Billetterie quotidienne dans un cinéma

Vous vous apprêtez à entraîner un modèle pour prédire le prix de vente de voitures d'occasion à l'aide d'un ensemble de données qui contient les caractéristiques suivantes: `year`, `model` et `mileage`. Lorsque vous examinez le jeu de données, vous découvrez que les valeurs de kilométrage sont manquantes pour 150 exemples sur 2 500. Parmi les options suivantes, laquelle serait raisonnable ? (Sélectionnez toutes les réponses qui s'appliquent.)

Choisissez autant de réponses que vous jugez nécessaires.

Supprimer ces 150 exemples de l'ensemble de données

Suppression de la colonne mileage de l'ensemble de données, et entraînement du modèle uniquement sur l'année et le modèle

Insertion d'une valeur 0 dans tous les champs de kilométrage vides

Déduire une estimation mileage pour chaque champ vide en multipliant l'âge de la voiture par le kilométrage annuel moyen de toutes les voitures de l'ensemble de données

Vous entraînez le modèle de recommandation de films d'un service de streaming pour prédire si un utilisateur appréciera un film donné. Parmi les étiquettes de proxy suivantes, lesquelles seraient raisonnables pour « L'utilisateur a apprécié le film » ? (Sélectionnez toutes les réponses qui s'appliquent.)

Choisissez autant de réponses que vous jugez nécessaires.

L'utilisateur a enregistré le film dans sa liste "À regarder".

L'utilisateur a cliqué sur "Commencer à regarder le film".

L'utilisateur a recommandé le film à un autre utilisateur.

L'utilisateur a attribué 5 étoiles au film.

Vrai ou faux: entraîner votre modèle jusqu'à ce qu'il atteigne une faible valeur de perte sur vos données de test est un bon moyen d'éviter le surapprentissage.

Vrai

Faux

Complétez la phrase suivante:
La régularisation améliore la capacité de votre modèle à se généraliser à de nouvelles données en pénalisant ___ pendant l'entraînement.

Prédictions incorrectes

Taux d'apprentissage

Complexité

Descente de gradient

Lequel des éléments suivants est un exemple de jeu de données fixe ?

Vrai ou faux: entraîner votre modèle jusqu'à ce qu'il atteigne une faible valeur de perte sur vos données de test est un bon moyen d'éviter le surapprentissage.

Complétez la phrase suivante: La régularisation améliore la capacité de votre modèle à se généraliser à de nouvelles données en pénalisant ___ pendant l'entraînement.

Complétez la phrase suivante:
La régularisation améliore la capacité de votre modèle à se généraliser à de nouvelles données en pénalisant ___ pendant l'entraînement.