Sobreajuste significa crear un modelo. que coincida (memoriza) el conjunto de entrenamiento de cerca que el modelo no haga predicciones correctas con datos nuevos. Un modelo sobreajustado es análogo a una invención que funciona bien en el laboratorio, pero vale la pena en el mundo real.
En la Figura 11, imagina que cada forma geométrica representa la posición de un árbol. en un bosque cuadrado. Los diamantes azules marcan las ubicaciones de árboles sanos, mientras que los círculos naranjas indican la ubicación de los árboles enfermos.
Dibuja mentalmente cualquier forma (líneas, curvas, óvalos, etc.) para separar las árboles sanos de los árboles enfermos. Luego, expande la siguiente línea para examinar una posible separación.
Las formas complejas que se muestran en la Figura 12 categorizaron con éxito todas menos dos los árboles. Si pensamos en las formas como un modelo, entonces esta es una un modelo de responsabilidad compartida.
¿O no? Un modelo realmente excelente clasifica con éxito los ejemplos nuevos. En la Figura 13, se muestra lo que ocurre cuando ese mismo modelo hace predicciones ejemplos del conjunto de prueba:
Por lo tanto, el modelo complejo que se muestra en la Figura 12 hizo un gran trabajo con el conjunto de entrenamiento. pero es un mal trabajo en el conjunto de prueba. Este es un caso clásico de un modelo sobreajustar los datos del conjunto de entrenamiento.
Ajuste, sobreajuste y subajuste
Un modelo debe realizar buenas predicciones con datos nuevos. Es decir, su objetivo es crear un modelo que “se ajuste” con datos nuevos.
Como viste, un modelo con sobreajuste hace excelentes predicciones sobre el proceso pero malas predicciones sobre los datos nuevos. Los modelo de subajuste ni siquiera hace buenas predicciones con los datos de entrenamiento. Si un modelo sobreajustado como un producto que funciona bien en el laboratorio, pero mal en el mundo real, un modelo con subajuste es como un producto que ni siquiera funciona bien en el lab.
La generalización es la opuesto al sobreajuste. Es decir, un modelo que generaliza bien predicciones con base en datos nuevos. El objetivo es crear un modelo que generalice bien a los nuevos datos.
Cómo detectar el sobreajuste
Las siguientes curvas te ayudan a detectar el sobreajuste:
- curvas de pérdida
- curvas de generalización
Una curva de pérdida traza la pérdida de un modelo. con la cantidad de iteraciones de entrenamiento. Un gráfico que muestra dos o más curvas de pérdida se denomina generalización. con una curva. Lo siguiente La curva de generalización muestra dos curvas de pérdida:
![Figura 15: La función de pérdida para el conjunto de entrenamiento de forma gradual
rechaza. La función de pérdida para el conjunto de validación también se rechaza,
pero, luego, empieza a subir
después de una cierta cantidad de iteraciones.](https://developers.google.cn/static/machine-learning/crash-course/images/RegularizationTwoLossFunctions.png?authuser=3&hl=es)
Observa que las dos curvas de pérdida se comportan de manera similar al principio y luego divergen. Es decir, después de un cierto número de iteraciones, la pérdida se reduce o se mantiene estable (convergencia) para el conjunto de entrenamiento, pero aumenta para el conjunto de validación. Esto sugiere un sobreajuste.
En cambio, una curva de generalización para un modelo bien ajustado muestra dos curvas de pérdida. que tienen formas similares.
¿Qué causa el sobreajuste?
En términos muy generales, el sobreajuste se debe a uno o ambos de los siguientes problemas:
- El conjunto de entrenamiento no representa de forma adecuada datos de la vida real (o el conjunto de validación o prueba).
- El modelo es demasiado complejo.
Condiciones de generalización
Un modelo se entrena con un conjunto de entrenamiento, pero la prueba real del valor de un modelo es cuánto que realiza predicciones sobre nuevos ejemplos, sobre todo con datos del mundo real. Mientras se desarrolla un modelo, el conjunto de prueba sirve como proxy de los datos del mundo real. Entrenar un modelo que generaliza bien implica las siguientes condiciones del conjunto de datos:
- Los ejemplos deben ser independiente e idénticamente distribuidos; que es una forma elegante de decir que tu los ejemplos no pueden influirse entre sí.
- El conjunto de datos es stationary, es decir, el conjunto de datos no cambia significativamente con el tiempo.
- Las particiones del conjunto de datos tienen la misma distribución. Es decir, los ejemplos en el conjunto de entrenamiento son estadísticamente similares a los ejemplos en el conjunto de validación, el conjunto de prueba y los datos del mundo real.
Explora las condiciones anteriores a través de los siguientes ejercicios.
Ejercicios: Verifica tus conocimientos
![Una barra horizontal dividida en tres partes: el 70% de la barra
es el conjunto de entrenamiento, 15% el conjunto de validación y 15%
el conjunto de prueba](https://developers.google.cn/static/machine-learning/crash-course/images/PartitionThreeSets.png?authuser=3&hl=es)
Ejercicio de desafío
Estás creando un modelo que predice la fecha ideal para que los pasajeros compren un boleto de tren para una ruta en particular. Por ejemplo, el modelo podría recomendar que los usuarios compren el boleto el 8 de julio para un tren que sale el 23 de julio. La empresa de trenes actualiza los precios cada hora y basa sus actualizaciones en una variedad de factores, pero más que nada con la cantidad actual de cupos disponibles. Es decir:
- Si hay muchos asientos disponibles, los precios de las entradas suelen ser bajos.
- Si hay muy pocos asientos disponibles, los precios de las entradas suelen ser altos.
Respuesta: El modelo del mundo real tiene dificultades con un bucle de retroalimentación.
Por ejemplo, supongamos que el modelo recomienda que los usuarios compren entradas el 8 de julio. Algunos pasajeros que usan la recomendación del modelo compran sus boletos a las 8:30 a.m. el 8 de julio por la mañana. A las 9:00 a.m., la empresa de trenes sube los precios porque ahora hay menos asientos disponibles. Los pasajeros que usan la recomendación del modelo los precios alterados. Por la noche, los precios de las entradas podrían ser mucho más altos que en el por la mañana.