En este apéndice, se incluyen algunos detalles adicionales sobre la tasa de aprendizaje.
Programa de decaimiento de la tasa de aprendizaje
La familia de programas de mejor disminución de la tasa de aprendizaje es un problema abierto; no está claro cómo construir un conjunto de experimentos rigurosos para responder esta pregunta con seguridad. Si bien no conocemos la mejor familia de horarios, tenemos confianza en lo siguiente:
- Es importante tener un programa (no constante).
- Es importante que ajustes el programa.
Las diferentes tasas de aprendizaje funcionan mejor en diferentes momentos durante el proceso de optimización. Con algún tipo de programación, es más probable que el modelo alcance una buena tasa de aprendizaje.
Mejor decaimiento predeterminado de la tasa de aprendizaje
Te recomendamos que uses cualquiera de las siguientes opciones de disminución de la tasa de aprendizaje de forma predeterminada:
- Decaimiento lineal
- Deterioro del coseno
Es probable que muchas otras familias de programas también sean buenas.
¿Por qué algunos documentos tienen complicados horarios de tasa de aprendizaje?
Muchos artículos académicos usan complicados programas de disminución de la tasa de aprendizaje por partes (LR). Los lectores suelen preguntarse cómo llegaron los autores con una agenda tan complicada. Muchas programaciones de disminución de LR complicadas son el resultado de ajustar la programación como una función del rendimiento del conjunto de validación de manera ad hoc. Es decir:
- Inicia una única ejecución de entrenamiento con un decaimiento de LR simple (o una tasa de aprendizaje constante).
- Sigue ejecutando el entrenamiento hasta que el rendimiento parezca estar estancado. Si esto sucede, pause el entrenamiento. Luego, reanúdala con un programa de disminución de la LR más estable (o una tasa de aprendizaje constante más pequeña) a partir de este punto. Repite este proceso (hasta la conferencia o la fecha límite de lanzamiento).
Por lo general, copiar la programación resultante no es una buena idea, ya que la mejor programación en particular es sensible a un host de otras opciones de hiperparámetros. Recomendamos copiar el algoritmo que produjo el programa, aunque esto rara vez es posible cuando el criterio humano arbitrario lo produjo. Este tipo de programación sensible a los errores de validación puede usarse si se puede automatizar por completo, pero los programas con interacción humana que son una función de error de validación son frágiles y no se pueden reproducir con facilidad, por lo que recomendamos evitarlos. Antes de publicar resultados que usaron una programación de este tipo, intenta que sea totalmente reproducible.
¿Cómo se deben ajustar los hiperparámetros de Adam?
No todos los hiperparámetros en Adam son igualmente importantes. Las siguientes reglas generales corresponden a diferentes “presupuestos” para la cantidad de pruebas de un estudio.
- Si hay menos de 10 pruebas en un estudio, ajuste la tasa de aprendizaje (base).
- Si en un estudio se realizan 10 a 25 pruebas, ajuste la tasa de aprendizaje y
beta_1
. - Si hay más de 25 pruebas, ajusta la tasa de aprendizaje,
beta_1
yepsilon
. - Si es significativamente más de 25 pruebas, ajusta
beta_2
.
Dada la dificultad de proporcionar reglas generales sobre los espacios de búsqueda y la cantidad de puntos que debes muestrear del espacio de búsqueda, consulta las reglas básicas que se indican en esta sección como pautas generales.