Ensembles de données, généralisation et surapprentissage
Restez organisé à l'aide des collections
Enregistrez et classez les contenus selon vos préférences.
Introduction
Ce module commence par une question suggestive.
Choisissez l'une des réponses suivantes:
Si vous deviez donner la priorité à l'amélioration de l'un des aspects suivants de votre projet de machine learning, lequel aurait le plus d'impact ?
Améliorer la qualité de votre ensemble de données
Les données l'emportent sur tout.
La qualité et la taille de l'ensemble de données sont beaucoup plus importantes
que vous utilisez pour créer votre modèle.
Appliquer une fonction de perte plus intelligente à l'entraînement de votre modèle
Certes, une meilleure fonction de perte
peut accélérer l'entraînement d'un modèle,
il s'agit toujours d'une seconde lointaine
par rapport à un autre élément de cette liste.
Et voici une question encore plus tendancieuse:
Faites une estimation : dans votre projet de machine learning, combien de temps passez-vous généralement à préparer et à transformer les données ?
Plus de la moitié de la durée du projet
Oui, les professionnels du ML passent la majeure partie de leur temps à créer des ensembles de données et à effectuer l'ingénierie des caractéristiques.
Moins de la moitié du temps du projet
Préparez-vous à en profiter davantage ! En règle générale, 80 % du temps d'un projet de machine learning est consacré à la création d'ensembles de données et à la transformation des données.
Dans ce module, vous allez en savoir plus sur les caractéristiques des ensembles de données de machine learning et découvrir comment préparer vos données pour obtenir des résultats de haute qualité lors de l'entraînement et de l'évaluation de votre modèle.
Sauf indication contraire, le contenu de cette page est régi par une licence Creative Commons Attribution 4.0, et les échantillons de code sont régis par une licence Apache 2.0. Pour en savoir plus, consultez les Règles du site Google Developers. Java est une marque déposée d'Oracle et/ou de ses sociétés affiliées.
Dernière mise à jour le 2025/07/27 (UTC).
[null,null,["Dernière mise à jour le 2025/07/27 (UTC)."],[],[],null,[]]