Se usó la API de Cloud Translation para traducir esta página.

Sobreajuste: Interpretación de curvas de pérdida

El aprendizaje automático sería mucho más sencillo si todas tus curvas de pérdida se vieran así la primera vez que entrenas tu modelo:

Figura 20. Gráfico que muestra la curva de pérdida ideal cuando se entrena un

modelo de aprendizaje automático. La curva de pérdida traza la pérdida en el eje y
en función de la cantidad de pasos de entrenamiento en el eje x. A medida que aumenta la cantidad de pasos de entrenamiento, la pérdida comienza alta, luego disminuye de forma exponencial y, en última instancia, se aplana para alcanzar una pérdida mínima. — **Figura 20:** Una curva de pérdida ideal.

Lamentablemente, las curvas de pérdidas suelen ser difíciles de interpretar. Usa tu intuición sobre las curvas de pérdidas para resolver los ejercicios de esta página.

Ejercicio 1: Curva de pérdida oscilante

Figura 21. Una curva de pérdida (pérdida en el eje y; cantidad de pasos de entrenamiento en el eje x) en la que la pérdida no se aplana.
En cambio, la pérdida oscila de forma errática. — **Figura 21:** Curva de pérdida oscilante.

¿Qué tres medidas podrías tomar para intentar mejorar la curva de pérdidas que se muestra en la Figura 21?

Compara tus datos con un esquema de datos para detectar ejemplos incorrectos y, luego, quítalos del conjunto de entrenamiento.

Sí, esta es una práctica recomendada para todos los modelos.

Reduce la tasa de aprendizaje.

Sí, reducir la tasa de aprendizaje suele ser una buena idea cuando se depura un problema de entrenamiento.

Reduce el conjunto de entrenamiento a una pequeña cantidad de ejemplos confiables.

Si bien esta técnica suena artificial, en realidad es una buena idea. Suponiendo que el modelo converja en el pequeño conjunto de ejemplos confiables, puedes agregar gradualmente más ejemplos y, tal vez, descubrir qué ejemplos hacen que la curva de pérdida oscile.

Aumenta la cantidad de ejemplos en el conjunto de entrenamiento.

Esta es una idea tentadora, pero es muy poco probable que solucione el problema.

Aumentar la tasa de aprendizaje

En general, evita aumentar la tasa de aprendizaje cuando la curva de aprendizaje de un modelo indique un problema.

Ejercicio 2. Curva de pérdida con un salto pronunciado

Figura 22. Un gráfico de curva de pérdida que muestra que la pérdida disminuye hasta una
cierta cantidad de pasos de entrenamiento y, luego, aumenta de forma repentina
con más pasos de entrenamiento. — **Figura 22:** Aumento repentino de la pérdida.

¿Cuáles son las dos de las siguientes afirmaciones que identifican posibles motivos de la pérdida explosiva que se muestra en la Figura 22?

Los datos de entrada contienen uno o más NaN, por ejemplo, un valor causado por una división por cero.

Esto es más común de lo que crees.

Los datos de entrada contienen una gran cantidad de valores atípicos.

A veces, debido a una mezcla incorrecta de lotes, un lote puede contener muchos valores atípicos.

La tasa de aprendizaje es demasiado baja.

Una tasa de aprendizaje muy baja podría aumentar el tiempo de entrenamiento, pero no es la causa de la curva de pérdida extraña.

La tasa de regularización es demasiado alta.

Es cierto que una regularización muy alta podría impedir que un modelo converja. Sin embargo, no provocará la curva de pérdida extraña que se muestra en la Figura 22.

Ejercicio 3. La pérdida de prueba diverge de la pérdida de entrenamiento

Figura 23. La curva de pérdida de entrenamiento parece converger, pero la pérdida de validación comienza a aumentar después de una cierta cantidad de pasos de entrenamiento. — **Figura 23:** Aumento repentino de la pérdida de validación.

¿Cuál de las siguientes afirmaciones identifica mejor el motivo de esta diferencia entre las curvas de pérdida de los conjuntos de entrenamiento y de prueba?

El modelo tiene un sobreajuste del conjunto de entrenamiento.

Sí, es probable. Soluciones posibles:

Hacer que el modelo sea más simple, posiblemente reduciendo la cantidad de atributos
Aumentar la tasa de regularización
Asegúrate de que el conjunto de entrenamiento y el conjunto de prueba sean equivalentes estadísticamente.

La tasa de aprendizaje es demasiado alta.

Si la tasa de aprendizaje fuera demasiado alta, es probable que la curva de pérdida del conjunto de entrenamiento no se haya comportado como lo hizo.

Ejercicio 4. La curva de pérdida se bloquea

Figura 24. Gráfico de una curva de pérdida que muestra que la pérdida comienza a convergir con el entrenamiento, pero luego muestra patrones repetidos que parecen una onda rectangular. — **Figura 24:** Pérdida caótica después de una cierta cantidad de pasos.

¿Cuál de las siguientes afirmaciones es la explicación más probable para la curva de pérdidas erráticas que se muestra en la Figura 24?

El conjunto de entrenamiento contiene secuencias repetitivas de ejemplos.

Es una posibilidad. Asegúrate de mezclar los ejemplos lo suficiente.

La tasa de regularización es demasiado alta.

Es poco probable que esta sea la causa.

El conjunto de entrenamiento contiene demasiadas características.

Es poco probable que esta sea la causa.

Regularización L2 (10 min)

Pon a prueba tus conocimientos (10 min)