Conjuntos de datos, generalización y sobreajuste

Objetivos de aprendizaje

Identifica cuatro características diferentes de los datos y los conjuntos de datos.
Identifica al menos cuatro causas diferentes de la falta de confiabilidad de los datos.
Determina cuándo descartar los datos faltantes y cuándo imputarlos.
Diferenciar entre etiquetas directas y derivadas
Identifica dos maneras diferentes de mejorar la calidad de las etiquetas asignadas por personas.
Explicar por qué subdividir un conjunto de datos en conjunto de entrenamiento, conjunto de validación y el conjunto de prueba; identificar un posible problema en las divisiones de datos.
Explica el sobreajuste y, luego, identifica tres posibles causas.
Explicar el concepto de regularización En particular, explica el lo siguiente:
- Sesgo frente a varianza (adaptación a valores extremos…)
- Regularización L₂, incluida Lambda (porcentaje de regularización)
- Interrupción anticipada
Interpretar diferentes tipos de curvas de pérdida detectar la convergencia y el sobreajuste en las curvas de pérdida.

Introducción

Este módulo comienza con una pregunta guía. Elige una de las siguientes respuestas:

Si tuvieras que priorizar la mejora de una de las siguientes áreas en tu proyecto de aprendizaje automático, ¿cuál tendría el mayor impacto?

Mejora la calidad de tu conjunto de datos

Los datos tienen prioridad sobre todo. La calidad y el tamaño del conjunto de datos son mucho más importantes de lo que el algoritmo más brillante que usas para crear tu modelo.

Aplicar una función de pérdida más inteligente para entrenar tu modelo

Una mejor función de pérdida puede ayudar a que un modelo se entrene más rápido, sigue siendo un segundo elemento de esta lista.

Esta es una pregunta aún más sugestiva:

Adivina: En tu proyecto de aprendizaje automático, ¿cuánto tiempo sueles invertir en la preparación y transformación de los datos?

Más de la mitad del tiempo del proyecto

Sí, quienes practican el AA dedican la mayor parte de su tiempo a la construcción de conjuntos de datos y a la ingeniería de atributos.

Menos de la mitad del tiempo del proyecto

Planifica más. Por lo general, el 80% del tiempo de un proyecto de aprendizaje automático se dedica a la construcción de conjuntos de datos y a la transformación de datos.

En este módulo, aprenderás más sobre las características de los conjuntos de datos del aprendizaje automático y cómo preparar tus datos para garantizar resultados de alta calidad cuando entrenes y evalúes tu modelo.

Pon a prueba tus conocimientos (10 min)

Características de los datos (10 min)

Conjuntos de datos, generalización y sobreajuste Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.

Introducción

Conjuntos de datos, generalización y sobreajuste