Ensembles de données, généralisation et surapprentissage
Introduction
Ce module commence par une question suggestive.
Choisissez l'une des réponses suivantes:
Si vous deviez prioriser l'amélioration de l'un des domaines suivants
de votre projet de machine learning,
impact?
Améliorer la qualité de votre ensemble de données
Les données l'emportent sur tout.
La qualité et la taille de l'ensemble de données sont beaucoup plus importantes
que vous utilisez pour créer votre modèle.
Appliquer une fonction de perte plus intelligente pour entraîner le modèle
Certes, une meilleure fonction de perte
peut accélérer l'entraînement d'un modèle,
il s'agit toujours d'une seconde lointaine
par rapport à un autre élément de cette liste.
Et voici une question encore plus tendancieuse:
Devinez: dans votre projet de machine learning, combien de temps
consacrez-vous généralement à la préparation et à la transformation des données ?
Plus de la moitié du temps du projet
Oui, les professionnels du ML passent la majorité de leur temps
la construction d'ensembles de données
et l'ingénierie des caractéristiques.
Moins de la moitié du temps du projet
Prévoyez plus ! En général, 80% du temps
projet est consacré à la construction d'ensembles de données et à la transformation des données.
Dans ce module, vous en apprendrez plus sur les caractéristiques du machine learning
des ensembles de données, et comment préparer vos données pour garantir des résultats de haute qualité
l'entraînement et l'évaluation de votre modèle.
Sauf indication contraire, le contenu de cette page est régi par une licence Creative Commons Attribution 4.0, et les échantillons de code sont régis par une licence Apache 2.0. Pour en savoir plus, consultez les Règles du site Google Developers. Java est une marque déposée d'Oracle et/ou de ses sociétés affiliées.
Dernière mise à jour le 2024/08/13 (UTC).
[null,null,["Dernière mise à jour le 2024/08/13 (UTC)."],[[["This module emphasizes the critical role of data quality in machine learning projects, highlighting that it significantly impacts model performance more than algorithm choice."],["Machine learning practitioners typically dedicate a substantial portion of their project time (around 80%) to data preparation and transformation, including tasks like dataset construction and feature engineering."],["The module covers key concepts in data preparation, such as identifying data characteristics, handling unreliable data, understanding data labels, and splitting datasets for training and evaluation."],["Learners will gain insights into techniques for improving data quality, mitigating issues like overfitting, and interpreting loss curves to assess model performance."],["This module builds upon foundational machine learning concepts, assuming familiarity with topics like linear regression, numerical and categorical data handling, and basic machine learning principles."]]],[]]