En agosto de 2024, se lanzará una versión nueva y mejorada del Curso intensivo de aprendizaje automático. ¡No te pierdas ninguna novedad!

Se usó la API de Cloud Translation para traducir esta página.

Generalización

La generalización hace referencia a la capacidad de tu modelo para adaptarse de forma adecuada a datos nuevos nunca antes vistos, obtenidos de la misma distribución utilizada para crear el modelo.

Generalización

Panorama general

Ciclo de modelo, predicción, muestra, descubrimiento de una distribución verdadera, más muestreo

Objetivo: Predecir bien sobre los datos nuevos obtenidos de una distribución verdadera (oculta).
Problema: No vemos la verdad.

Solo podemos tomar muestras de él.

Panorama general

Objetivo: Predecir bien sobre los datos nuevos obtenidos de una distribución verdadera (oculta).
Problema: No vemos la verdad.

Solo podemos tomar muestras de él.

Si el modelo h se ajusta bien a nuestra muestra actual, ¿cómo podemos confiar en que predecirá bien en otras muestras nuevas?

¿Cómo sabemos si nuestro modelo es bueno?

Teóricamente:

Campo interesante: teoría de la generalización
Según las ideas de medir la simplicidad o complejidad del modelo

Intuición: formalización del principio de la navaja de Ockham

Cuanto menos complejo sea un modelo, más probable será que un buen resultado empírico no se deba simplemente a las peculiaridades de nuestra muestra

¿Cómo sabemos si nuestro modelo es bueno?

Empíricamente:
- Preguntar: ¿A nuestro modelo le va bien en una nueva muestra de datos?
- Evaluar: Obtener una nueva muestra de datos; llamarla "conjunto de prueba"
- Un buen rendimiento del conjunto de prueba es un indicador útil del buen rendimiento de los datos nuevos en general:

Las condiciones del AA

Tres suposiciones básicas respecto de todo lo anterior:

Los ejemplos se obtienen independiente e idénticamente (es decir, p.ej.) de manera aleatoria de la distribución.
La distribución es estática: no cambia con el tiempo.
Siempre extraemos datos de la misma distribución, incluidos los conjuntos de entrenamiento, validación y prueba.

Ejercicios de programación

Riesgo de sobreajuste