Conjuntos de datos, generalización y sobreajuste

Introducción

Este módulo comienza con una pregunta sugestiva. Elige una de las siguientes respuestas:

Si tuvieras que priorizar la mejora de una de las siguientes áreas en tu proyecto de aprendizaje automático, que tendría impacto?
Mejora la calidad de tu conjunto de datos
Los datos tienen prioridad sobre todo. La calidad y el tamaño del conjunto de datos son mucho más importantes de lo que el algoritmo más brillante que usas para crear tu modelo.
Aplicar una función de pérdida más inteligente para entrenar tu modelo
Una mejor función de pérdida puede ayudar a que un modelo se entrene más rápido, sigue siendo un segundo elemento de esta lista.

Y aquí hay una pregunta aún más sugerente:

Adivina: En tu proyecto de aprendizaje automático, ¿cuánto tiempo sueles invertir en la preparación y transformación de los datos?
Más de la mitad del tiempo del proyecto
Sí, los profesionales del AA pasan la mayor parte de su tiempo. en la construcción de conjuntos de datos y la ingeniería de atributos.
Menos de la mitad del tiempo del proyecto
Planifica más. Por lo general, un 80% de las veces se dedica al aprendizaje el proyecto se dedica a crear conjuntos de datos y transformar datos.

En este módulo, obtendrás más información sobre las características del aprendizaje automático. conjuntos de datos y cómo prepararlos para garantizar resultados de alta calidad cuando entrenar y evaluar tu modelo.