Sobreajuste: Interpretación de curvas de pérdida

El aprendizaje automático sería mucho más sencillo si todas tus curvas de pérdida se vieran así la primera vez que entrenas tu modelo:

Figura 20. Gráfico que muestra la curva de pérdida ideal cuando se entrena un

            modelo de aprendizaje automático. La curva de pérdida traza la pérdida en el eje y
            en función de la cantidad de pasos de entrenamiento en el eje x. A medida que aumenta la cantidad de pasos de entrenamiento, la pérdida comienza alta, luego disminuye de forma exponencial y, en última instancia, se aplana para alcanzar una pérdida mínima.
Figura 20: Una curva de pérdida ideal.

Lamentablemente, las curvas de pérdidas suelen ser difíciles de interpretar. Usa tu intuición sobre las curvas de pérdidas para resolver los ejercicios de esta página.

Ejercicio 1: Curva de pérdida oscilante

Figura 21. Una curva de pérdida (pérdida en el eje y; cantidad de pasos de entrenamiento en el eje x) en la que la pérdida no se aplana.
            En cambio, la pérdida oscila de forma errática.
Figura 21: Curva de pérdida oscilante.
¿Qué tres medidas podrías tomar para intentar mejorar la curva de pérdidas que se muestra en la Figura 21?
Aumentar la tasa de aprendizaje
Reduce el conjunto de entrenamiento a una pequeña cantidad de ejemplos confiables.
Aumenta la cantidad de ejemplos en el conjunto de entrenamiento.
Reduce la tasa de aprendizaje.
Compara tus datos con un esquema de datos para detectar ejemplos incorrectos y, luego, quítalos del conjunto de entrenamiento.

Ejercicio 2. Curva de pérdida con un salto pronunciado

Figura 22. Un gráfico de curva de pérdida que muestra que la pérdida disminuye hasta una
            cierta cantidad de pasos de entrenamiento y, luego, aumenta de forma repentina
            con más pasos de entrenamiento.
Figura 22: Aumento repentino de la pérdida.
¿Cuáles son las dos de las siguientes afirmaciones que identifican posibles motivos de la pérdida explosiva que se muestra en la Figura 22?
La tasa de regularización es demasiado alta.
La tasa de aprendizaje es demasiado baja.
Los datos de entrada contienen una gran cantidad de valores atípicos.
Los datos de entrada contienen uno o más NaN, por ejemplo, un valor causado por una división por cero.

Ejercicio 3. La pérdida de prueba diverge de la pérdida de entrenamiento

Figura 23. La curva de pérdida de entrenamiento parece converger, pero la pérdida de validación comienza a aumentar después de una cierta cantidad de pasos de entrenamiento.
Figura 23: Aumento repentino de la pérdida de validación.
¿Cuál de las siguientes afirmaciones identifica mejor el motivo de esta diferencia entre las curvas de pérdida de los conjuntos de entrenamiento y de prueba?
El modelo tiene un sobreajuste del conjunto de entrenamiento.
La tasa de aprendizaje es demasiado alta.

Ejercicio 4. La curva de pérdida se bloquea

Figura 24. Gráfico de una curva de pérdida que muestra que la pérdida comienza a convergir con el entrenamiento, pero luego muestra patrones repetidos que parecen una onda rectangular.
Figura 24: Pérdida caótica después de una cierta cantidad de pasos.
¿Cuál de las siguientes afirmaciones es la explicación más probable para la curva de pérdidas erráticas que se muestra en la Figura 24?
La tasa de regularización es demasiado alta.
El conjunto de entrenamiento contiene secuencias repetitivas de ejemplos.
El conjunto de entrenamiento contiene demasiadas características.