Sobreajuste: Interpretación de curvas de pérdida

El aprendizaje automático sería mucho más sencillo si curvas de pérdida la primera vez que entrenaste el modelo:

Figura 20. Un gráfico que muestra la curva de pérdida ideal cuando se entrena un
            de aprendizaje automático. La curva de pérdida representa la pérdida en el eje Y.
            con la cantidad de pasos
de entrenamiento en el eje x. Como el número
            de pasos de entrenamiento aumenta, la pérdida
comienza con un alto y luego disminuye
            exponencialmente y, en última instancia, se aplana para alcanzar un mínimo
            pérdida de reputación y de talento.
Figura 20: Una curva de pérdida ideal.

Lamentablemente, las curvas de pérdida suelen ser difíciles de interpretar. Usa tu intuición sobre las curvas de pérdida para resolver los ejercicios de esta página.

Ejercicio 1: Curva de pérdida oscilante

Figura 21. Una curva de pérdida (pérdida en el eje Y; cantidad de entrenamientos
            pasos en el eje x) en los que la pérdida no se aplana.
            En cambio, la pérdida oscila de forma errática.
Figura 21: Curva de pérdida oscilante.
¿Cuáles son las tres acciones que podrías hacer para mejorar la curva de pérdida como se muestra en la Figura 21.
Comparar los datos con un esquema de datos para detectar ejemplos incorrectos y, luego, quite los ejemplos incorrectos del conjunto de entrenamiento.
Sí, esta es una práctica recomendada para todos los modelos.
Reducir la tasa de aprendizaje
Sí. Reducir la tasa de aprendizaje suele ser una buena idea cuando se depura un problema de entrenamiento.
Reduce el conjunto de entrenamiento a una cantidad pequeña de ejemplos confiables.
Aunque esta técnica suena artificial, en realidad es una buena idea. Suponer que el modelo converge en el pequeño conjunto ejemplos confiables, puedes agregar gradualmente más ejemplos quizás descubrir qué ejemplos causan que la curva de pérdida oscilar.
Aumentar la cantidad de ejemplos en el conjunto de entrenamiento
Esta idea es tentadora, pero es muy poco probable que se arregle el problema.
Aumentar la tasa de aprendizaje
En general, evita aumentar la tasa de aprendizaje cuando cuando la curva de aprendizaje indica un problema.

Ejercicio 2. Curva de pérdida con un salto brusco

Figura 22. Un gráfico de curva de pérdida que muestra la pérdida de hasta un
            cierta cantidad de pasos de entrenamiento y, luego, aumenta repentinamente
            con más pasos de entrenamiento.
Figura 22: Aumento acentuado de la pérdida.
¿Cuáles son las dos de las siguientes afirmaciones que identifican la posible las razones de la pérdida explosiva que se muestran en la Figura 22.
Los datos de entrada contienen uno o más NaN (por ejemplo, un valor causada por una división por cero.
Esto es más común de lo que crees.
Los datos de entrada contienen un aumento de actividad de valores atípicos.
A veces, debido a la redistribución incorrecta de lotes, un lote puede contienen muchos valores atípicos.
La tasa de aprendizaje es demasiado baja.
Una tasa de aprendizaje muy baja puede aumentar el tiempo de entrenamiento, pero es no la causa de la curva de pérdida extraña.
La tasa de regularización es demasiado alta.
Verdadero. Una regularización muy alta podría impedir que un modelo converging; sin embargo, no causará la extraña curva de pérdida como se muestra en la Figura 22.

Ejercicio 3. La pérdida de prueba difiere de la pérdida de entrenamiento

Figura 23. La curva de pérdida de entrenamiento parece converger,
            la pérdida de validación empieza a aumentar
después de cierto número de entrenamiento
            pasos.
Figura 23: Aumento significativo en la pérdida de validación.
¿Cuál de las siguientes afirmaciones identifica mejor la el motivo de esta diferencia entre las curvas de pérdida del entrenamiento y conjuntos de prueba?
El modelo sobreajusta el conjunto de entrenamiento.
Sí, probablemente lo sea. Soluciones posibles:
  • Simplificar el modelo, posiblemente reduciendo la cantidad de atributos.
  • Aumentar la tasa de regularización
  • Asegúrate de que los conjuntos de entrenamiento y de prueba sean estadísticamente equivalente.
La tasa de aprendizaje es demasiado alta.
Si la tasa de aprendizaje fuera demasiado alta, la curva de pérdida del conjunto de entrenamiento probablemente no se habría comportado como antes.

Ejercicio 4. La curva de pérdida no avanza.

Figura 24. Un gráfico de una curva de pérdida que muestra cómo la pérdida comienza a
            convergen con el entrenamiento, pero luego muestran patrones repetidos que
            parecerse a una onda rectangular.
Figura 24: Pérdida caótica después de una cierta cantidad de pasos.
¿Cuál de las siguientes afirmaciones es la más probable? para la curva de pérdida errática que se muestra en la Figura 24?
El conjunto de entrenamiento contiene secuencias repetitivas de ejemplos.
Es una posibilidad. Asegúrate de mezclar los ejemplos lo suficiente.
La tasa de regularización es demasiado alta.
Es poco probable que esta sea la causa.
El conjunto de entrenamiento contiene demasiados atributos.
Es poco probable que esta sea la causa.