Reducción de la pérdida: Optimización de la tasa de aprendizaje
Ejercicio 1
Establece una tasa de aprendizaje de 0.03 en el control deslizante. Sigue presionando el botón STEP hasta que el algoritmo de descenso de gradientes alcance el punto mínimo de la curva de pérdida. ¿Cuántos pasos tomó?
Solución
El descenso de gradientes alcanza el mínimo de la curva en 40 pasos.
Ejercicio 2
¿Puedes alcanzar el mínimo con mayor rapidez si tienes una tasa de aprendizaje más alta? Establece una tasa de aprendizaje de 0.1 y sigue presionando STEP (PASO) hasta que el descenso de gradientes alcance el mínimo. ¿Cuántos pasos tomó esta vez?
Solución
El descenso de gradientes alcanza el mínimo de la curva en 11 pasos.
Ejercicio 3
Imagina una tasa de aprendizaje aún mayor. Restablece el gráfico, establece una tasa de aprendizaje de 1 y trata de alcanzar el mínimo de la curva de pérdida. ¿Qué ocurrió esta vez?
Solución
El descenso de gradientes nunca llega al mínimo. Como resultado, el tamaño de los pasos aumenta progresivamente. Cada paso salta de un lado a otro a través del tazón y sube la curva en lugar de bajar hasta la parte inferior.
Desafío opcional
¿Puedes encontrar la tasa de aprendizaje con valor dorado para esta curva, donde el descenso de gradientes llega al punto mínimo en la menor cantidad de pasos? ¿Cuál es la menor cantidad de pasos necesarios para alcanzar el mínimo?
Solución
La tasa de aprendizaje con valor dorado para estos datos es de entre 0.2 y 0.3, que alcanzaría el mínimo en tres o cuatro pasos.
NOTA: En la práctica, encontrar una tasa de aprendizaje "perfecta" (o casi perfecta) no es esencial para un entrenamiento de modelos exitoso. El objetivo es encontrar una tasa de aprendizaje lo suficientemente grande como para que el descenso de gradientes converja de manera eficiente, pero no tan grande que nunca converja.