Sobreajuste

Sobreajuste significa crear un modelo. que coincida (memoriza) el conjunto de entrenamiento de cerca que el modelo no haga predicciones correctas con datos nuevos. Un modelo sobreajustado es análogo a una invención que funciona bien en el laboratorio, pero vale la pena en el mundo real.

En la Figura 11, imagina que cada forma geométrica representa la posición de un árbol. en un bosque cuadrado. Los diamantes azules marcan las ubicaciones de árboles sanos, mientras que los círculos naranjas indican la ubicación de los árboles enfermos.

Figura 11: Esta figura contiene alrededor de 60 puntos, de los cuales la mitad son
            árboles sanos y la otra mitad de árboles enfermos.
            Los árboles sanos se encuentran principalmente en el cuadrante noreste, aunque algunos
            árboles sanos se cuelan en los cuadrantes noroeste. Los árboles enfermos
            están mayormente en el cuadrante sureste, pero algunos de los árboles
            se desborde en otros cuadrantes.
Figura 11: Conjunto de entrenamiento: ubicaciones de árboles sanos y enfermos en un bosque cuadrado.

 

Dibuja mentalmente cualquier forma (líneas, curvas, óvalos, etc.) para separar las árboles sanos de los árboles enfermos. Luego, expande la siguiente línea para examinar una posible separación.

Las formas complejas que se muestran en la Figura 12 categorizaron con éxito todas menos dos los árboles. Si pensamos en las formas como un modelo, entonces esta es una un modelo de responsabilidad compartida.

¿O no? Un modelo realmente excelente clasifica con éxito los ejemplos nuevos. En la Figura 13, se muestra lo que ocurre cuando ese mismo modelo hace predicciones ejemplos del conjunto de prueba:

Figura 13. Un nuevo lote de árboles sanos y enfermos superpuestos sobre la
            como el que se muestra en la Figura 12. El modelo categoriza erróneamente muchos de los
            árboles.
Figura 13. Conjunto de pruebas: modelo complejo para distinguir los árboles enfermos de los sanos.

 

Por lo tanto, el modelo complejo que se muestra en la Figura 12 hizo un gran trabajo con el conjunto de entrenamiento. pero es un mal trabajo en el conjunto de prueba. Este es un caso clásico de un modelo sobreajustar los datos del conjunto de entrenamiento.

Ajuste, sobreajuste y subajuste

Un modelo debe realizar buenas predicciones con datos nuevos. Es decir, su objetivo es crear un modelo que “se ajuste” con datos nuevos.

Como viste, un modelo con sobreajuste hace excelentes predicciones sobre el proceso pero malas predicciones sobre los datos nuevos. Los modelo de subajuste ni siquiera hace buenas predicciones con los datos de entrenamiento. Si un modelo sobreajustado como un producto que funciona bien en el laboratorio, pero mal en el mundo real, un modelo con subajuste es como un producto que ni siquiera funciona bien en el lab.

Figura 14. Representación cartesiana. El eje X está etiquetado como “calidad de las predicciones
            del conjunto de entrenamiento”. El eje Y está etiquetado como “calidad de las predicciones
            datos del mundo real”. Una curva comienza en el origen y aumenta gradualmente,
            pero luego cae
igual de rápido. La parte inferior izquierda de la curva
            (baja calidad de las predicciones de los datos del mundo real y baja calidad de
            predicciones con el conjunto de entrenamiento) está etiquetado como “modelos de subajuste”. El
            en la parte inferior derecha de la curva (baja calidad de las predicciones en
            datos del mundo real, pero de alta calidad en las predicciones del conjunto de entrenamiento)
            se denomina “modelos sobreajustados”. El pico de la curva (alta calidad
            de predicciones con datos
del mundo real y predicciones de calidad media
            con un conjunto de entrenamiento) está etiquetado como “ajuste de modelos”.
Figura 14: Modelos de subajuste, ajuste y sobreajuste

 

La generalización es la opuesto al sobreajuste. Es decir, un modelo que generaliza bien predicciones con base en datos nuevos. El objetivo es crear un modelo que generalice bien a los nuevos datos.

Cómo detectar el sobreajuste

Las siguientes curvas te ayudan a detectar el sobreajuste:

  • curvas de pérdida
  • curvas de generalización

Una curva de pérdida traza la pérdida de un modelo. con la cantidad de iteraciones de entrenamiento. Un gráfico que muestra dos o más curvas de pérdida se denomina generalización. con una curva. Lo siguiente La curva de generalización muestra dos curvas de pérdida:

Figura 15: La función de pérdida para el conjunto de entrenamiento de forma gradual
            rechaza. La función de pérdida para el conjunto de validación también se rechaza,
            pero, luego, empieza a subir
después de una cierta cantidad de iteraciones.
Figura 15: Curva de generalización que implica fuertemente sobreajuste.

 

Observa que las dos curvas de pérdida se comportan de manera similar al principio y luego divergen. Es decir, después de un cierto número de iteraciones, la pérdida se reduce o se mantiene estable (convergencia) para el conjunto de entrenamiento, pero aumenta para el conjunto de validación. Esto sugiere un sobreajuste.

En cambio, una curva de generalización para un modelo bien ajustado muestra dos curvas de pérdida. que tienen formas similares.

¿Qué causa el sobreajuste?

En términos muy generales, el sobreajuste se debe a uno o ambos de los siguientes problemas:

  • El conjunto de entrenamiento no representa de forma adecuada datos de la vida real (o el conjunto de validación o prueba).
  • El modelo es demasiado complejo.

Condiciones de generalización

Un modelo se entrena con un conjunto de entrenamiento, pero la prueba real del valor de un modelo es cuánto que realiza predicciones sobre nuevos ejemplos, sobre todo con datos del mundo real. Mientras se desarrolla un modelo, el conjunto de prueba sirve como proxy de los datos del mundo real. Entrenar un modelo que generaliza bien implica las siguientes condiciones del conjunto de datos:

  • Los ejemplos deben ser independiente e idénticamente distribuidos; que es una forma elegante de decir que tu los ejemplos no pueden influirse entre sí.
  • El conjunto de datos es stationary, es decir, el conjunto de datos no cambia significativamente con el tiempo.
  • Las particiones del conjunto de datos tienen la misma distribución. Es decir, los ejemplos en el conjunto de entrenamiento son estadísticamente similares a los ejemplos en el conjunto de validación, el conjunto de prueba y los datos del mundo real.

Explora las condiciones anteriores a través de los siguientes ejercicios.

Ejercicios: Verifica tus conocimientos

Considera las siguientes particiones del conjunto de datos.
Una barra horizontal dividida en tres partes: el 70% de la barra
                     es el conjunto de entrenamiento, 15% el conjunto de validación y 15%
                     el conjunto de prueba
¿Qué debes hacer para asegurarte de que los ejemplos del conjunto de entrenamiento tienen una distribución estadística similar a los ejemplos de el conjunto de validación y el de prueba?
Distribuye los ejemplos del conjunto de datos ampliamente antes de su partición.
Sí. Una buena mezcla de ejemplos hace que las particiones sean mucho más sean similares estadísticamente.
Ordena los ejemplos del más antiguo al más reciente.
Si los ejemplos del conjunto de datos no son fijos, el ordenamiento hace que las particiones sean menos similares.
No realizar ninguna acción. Dados suficientes ejemplos, la ley de los promedios naturalmente, garantiza que las distribuciones sean estadísticamente similares.
Desafortunadamente, no es el caso. Los ejemplos en ciertas secciones del conjunto de datos puede diferir de las de otras secciones.
Un servicio de transmisión está desarrollando un modelo para predecir la popularidad de posibles programas de televisión nuevos para los próximos tres años. El planes de servicios de transmisión para entrenar el modelo en un conjunto de datos con cientos de millones de ejemplos, que abarcan el período anterior diez años. ¿Este modelo encontrará un problema?
Probablemente. Espectadores que sus gustos cambian de maneras que el comportamiento pasado predecir.
Sí. Los gustos de los usuarios no son fijos. Cambian constantemente.
Definitivamente no. El conjunto de datos es lo suficientemente grande como para corregir predicciones.
Lamentablemente, la opinión de los usuarios los gustos no son estacionarios.
Probablemente no. Espectadores los gustos cambian de formas cíclicas predecibles. Diez años de datos permitirán que el modelo haga buenas predicciones en tendencias futuras.
Aunque algunos aspectos del entretenimiento son, en cierto modo, cíclicos, modelo entrenado a partir de la historia de entretenimiento tienen problemas para hacer predicciones sobre los próximos años.
Un modelo tiene como objetivo predecir el tiempo que tarda las personas en caminar una milla basadas en datos meteorológicos (temperatura, punto de rocío y precipitaciones) recopiladas durante un año en una ciudad cuyo clima varía significativamente según la temporada. ¿Se puede compilar y probar un modelo a partir de esto? aunque las lecturas del clima cambian drásticamente por la temporada?
Sí, es posible crear y probar un modelo a partir de este conjunto de datos. Solo tienes que asegurarte de que los datos se particionan de forma equitativa, por los datos de las cuatro estaciones se distribuyen de forma equitativa distintas particiones.
No
Si suponemos que este conjunto de datos contiene suficientes ejemplos de temperatura, rocío y precipitaciones, puedes crear y probar un modelo este conjunto de datos. Solo debes asegurarte de que los datos estén particionados de forma equitativa, para que los datos de las cuatro estaciones se distribuyan en las diferentes particiones.

Ejercicio de desafío

Estás creando un modelo que predice la fecha ideal para que los pasajeros compren un boleto de tren para una ruta en particular. Por ejemplo, el modelo podría recomendar que los usuarios compren el boleto el 8 de julio para un tren que sale el 23 de julio. La empresa de trenes actualiza los precios cada hora y basa sus actualizaciones en una variedad de factores, pero más que nada con la cantidad actual de cupos disponibles. Es decir:

  • Si hay muchos asientos disponibles, los precios de las entradas suelen ser bajos.
  • Si hay muy pocos asientos disponibles, los precios de las entradas suelen ser altos.
El modelo exhibe baja pérdida en el conjunto de validación y el conjunto de prueba, pero a veces predicciones pésimas con datos del mundo real. ¿Por qué?
Haz clic aquí para ver la respuesta