Ensembles de données, généralisation et surapprentissage

Introduction

Ce module commence par une question suggestive. Choisissez l'une des réponses suivantes:

Si vous deviez prioriser l'amélioration de l'un des domaines suivants de votre projet de machine learning, impact?
Améliorer la qualité de votre ensemble de données
Les données l'emportent sur tout. La qualité et la taille de l'ensemble de données sont beaucoup plus importantes que vous utilisez pour créer votre modèle.
Appliquer une fonction de perte plus intelligente pour entraîner le modèle
Certes, une meilleure fonction de perte peut accélérer l'entraînement d'un modèle, il s'agit toujours d'une seconde lointaine par rapport à un autre élément de cette liste.

Et voici une question encore plus tendancieuse:

Devinez: dans votre projet de machine learning, combien de temps consacrez-vous généralement à la préparation et à la transformation des données ?
Plus de la moitié du temps du projet
Oui, les professionnels du ML passent la majorité de leur temps la construction d'ensembles de données et l'ingénierie des caractéristiques.
Moins de la moitié du temps du projet
Prévoyez plus ! En général, 80% du temps projet est consacré à la construction d'ensembles de données et à la transformation des données.

Dans ce module, vous en apprendrez plus sur les caractéristiques du machine learning des ensembles de données, et comment préparer vos données pour garantir des résultats de haute qualité l'entraînement et l'évaluation de votre modèle.