Ensembles de données, généralisation et surapprentissage

Objectifs de la formation

Identifiez quatre caractéristiques différentes des données et des ensembles de données.
Identifiez au moins quatre causes différentes de manque de fiabilité des données.
Déterminez quand supprimer les données manquantes et quand les imputer.
Faire la différence entre les étiquettes directes et dérivées.
Identifier deux façons différentes d'améliorer la qualité des évaluations étiquettes.
Expliquer pourquoi subdiviser un ensemble de données en un ensemble d'entraînement, un ensemble de validation et ensemble de test. identifier un problème potentiel dans les divisions de données.
Expliquez le surapprentissage et identifiez trois causes possibles.
Expliquer le concept de régularisation En particulier, expliquez suivantes:
- Biais par rapport à la variance (adaptation aux valeurs aberrantes, etc.)
- Régularisation L₂, y compris lambda (régularisation taux)
- Arrêt prématuré
Interpréter différents types de courbes de perte ; détecter la convergence et le surapprentissage dans les courbes de perte.

Introduction

Ce module commence par une question suggestive. Choisissez l'une des réponses suivantes:

Si vous deviez donner la priorité à l'amélioration de l'un des aspects suivants de votre projet de machine learning, lequel aurait le plus d'impact ?

Améliorer la qualité de votre ensemble de données

Les données l'emportent sur tout. La qualité et la taille de l'ensemble de données sont beaucoup plus importantes que vous utilisez pour créer votre modèle.

Appliquer une fonction de perte plus intelligente à l'entraînement de votre modèle

Certes, une meilleure fonction de perte peut accélérer l'entraînement d'un modèle, il s'agit toujours d'une seconde lointaine par rapport à un autre élément de cette liste.

Et voici une question encore plus tendancieuse:

Faites une estimation : dans votre projet de machine learning, combien de temps passez-vous généralement à préparer et à transformer les données ?

Plus de la moitié de la durée du projet

Oui, les professionnels du ML passent la majeure partie de leur temps à créer des ensembles de données et à effectuer l'ingénierie des caractéristiques.

Moins de la moitié du temps du projet

Préparez-vous à en profiter davantage ! En règle générale, 80 % du temps d'un projet de machine learning est consacré à la création d'ensembles de données et à la transformation des données.

Dans ce module, vous allez en savoir plus sur les caractéristiques des ensembles de données de machine learning et découvrir comment préparer vos données pour obtenir des résultats de haute qualité lors de l'entraînement et de l'évaluation de votre modèle.

Testez vos connaissances (10 min)

Caractéristiques des données (10 min)

Ensembles de données, généralisation et surapprentissage Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.

Introduction

Ensembles de données, généralisation et surapprentissage