Esta unidad se centra en la búsqueda cuasialeatoria.
¿Por qué usar la búsqueda cuasialeatoria?
Nuestra preferencia es realizar búsquedas cuasialeatorias (basadas en secuencias de baja discrepancia) frente a herramientas más sofisticadas de optimización de la caja negra cuando se usan como parte de un proceso de ajuste con el fin de maximizar la información sobre el problema de ajuste (¿qué a las que nos referimos como la "fase de exploración"). Optimización bayesiana y similares son más apropiadas para la fase de explotación. La búsqueda cuasialeatoria basada en secuencias de baja discrepancia desplazadas al azar puede como "búsqueda por cuadrícula inestable y mezclada", ya que es uniforme, de forma aleatoria, explora un espacio de búsqueda determinado y distribuye los puntos de búsqueda más que una búsqueda aleatoria.
Las ventajas de la búsqueda cuasialeatoria frente a una caja negra más sofisticada herramientas de optimización (p.ej., optimización bayesiana, algoritmos evolutivos) incluyen:
- El muestreo del espacio de búsqueda no adaptable permite cambiar el objetivo de ajuste en análisis post-hoc sin volver a ejecutar experimentos. Por ejemplo, normalmente queremos encontrar la mejor prueba en términos de validación en cualquier punto del entrenamiento. Sin embargo, los modelos no adaptables la naturaleza de la búsqueda cuasialeatoria permite encontrar la mejor prueba basado en el error de validación final, el error de entrenamiento o alguna alternativa sin volver a ejecutar ningún experimento.
- La búsqueda cuasialeatoria se comporta de un modo coherente y reproducible de una nueva manera. Debería ser posible reproducir un estudio de hace seis meses si la implementación del algoritmo de búsqueda cambia, siempre mantiene las mismas propiedades de uniformidad. Si se usan funciones bayesianas sofisticadas de optimización, la implementación podría cambiar en un punto entre versiones, lo que dificulta mucho la reproducción de una búsqueda anterior. No siempre es posible revertir a una implementación anterior (p.ej., si la herramienta de optimización se ejecuta como un servicio).
- La exploración uniforme del espacio de búsqueda facilita el razonamiento sobre los resultados y lo que podrían sugerir sobre el espacio de búsqueda. Por ejemplo, si el mejor punto en el recorrido de una búsqueda cuasialeatoria está en el límite del espacio de búsqueda, este es un buen (pero no infalible) indica que se deben cambiar los límites del espacio de búsqueda. Sin embargo, un algoritmo adaptable de optimización de caja negra podría haber descuido el centro del espacio de búsqueda debido a incluso si contiene puntos igualmente buenos, ya que ¿Es este tipo exacto de falta de uniformidad que un buen algoritmo de optimización debe emplear para acelerar la búsqueda.
- Ejecutar distintas cantidades de pruebas en paralelo, en comparación con las que se hacen de forma secuencial no producen resultados estadísticamente diferentes cuando se usan búsqueda (o cualquier otro algoritmo de búsqueda no adaptable), a diferencia de lo que ocurre con algoritmos criptográficos eficaces.
- Es posible que los algoritmos de búsqueda más sofisticados no siempre resuelvan problemas de forma correcta, especialmente si no están diseñados con modelos el ajuste de hiperparámetros.
- La búsqueda cuasialeatoria es simple y funciona muy bien cuando se realizan muchas las pruebas se ejecutan en paralelo. De manera anecdótica1, es muy difícil que un algoritmo adaptable supere un una búsqueda cuasialeatoria que duplica su presupuesto, especialmente cuando muchas pruebas se deben ejecutar en paralelo (y, por lo tanto, hay muy pocas oportunidades el uso de resultados de pruebas anteriores al iniciar pruebas nuevas). Sin experiencia en optimización bayesiana ni otras soluciones avanzadas de optimización, puede que no tenga los beneficios que son, en principio, sea capaz de proporcionar. Es difícil comparar los niveles de Algoritmos de optimización de caja negra en un ajuste realista de aprendizaje profundo condiciones. Son un área de investigación actual muy activa. los algoritmos más sofisticados tienen sus propias dificultades para usuarios inexpertos. Los expertos en estos métodos pueden obtener buenos resultados, pero en condiciones de alto paralelismo, el espacio de búsqueda y el presupuesto tienden a importan mucho más.
Dicho esto, si tus recursos de procesamiento solo permiten una pequeña cantidad se ejecuten en paralelo, y puedes permitirte ejecutar muchas pruebas en secuencia, La optimización bayesiana se vuelve mucho más atractiva a pesar de que tu del ajuste de escala automático son más difíciles de interpretar.
¿Dónde puedo encontrar una implementación de la búsqueda cuasialeatoria?
Vizier de código abierto cuenta con
una implementación de modelos
la búsqueda.
Establece algorithm="QUASI_RANDOM_SEARCH"
en este uso de Vizier.
ejemplo.
Existe una implementación alternativa en esta tarea de barrido de hiperparámetros,
ejemplo.
Ambas implementaciones generan una secuencia de Halton para una búsqueda determinada.
espacio (destinado a implementar una secuencia de Halton desplazada y desordenada)
recomendado en
Hiperparámetros críticos: No aleatorio, No
Llorar
Si un algoritmo de búsqueda cuasialeatorio basado en una secuencia de baja discrepancia no es disponibles, es posible sustituir por la búsqueda uniforme pseudoaleatoria aunque es probable que sea un poco menos eficaz. En 1 o 2 dimensiones, también se acepta la búsqueda de cuadrícula, aunque no en dimensiones más altas. (Consulta Bergstra y Bengio, 2012).
¿Cuántas pruebas se necesitan para obtener buenos resultados con la búsqueda cuasialeatoria?
No hay forma de determinar cuántas pruebas se necesitan para obtener resultados con búsquedas cuasialeatorias en general, pero puedes ver ejemplos específicos. Como se muestra en la Figura 3, la cantidad de pruebas en un estudio tienen un impacto significativo en los resultados:
Figura 3: ResNet-50 ajustado en ImageNet con 100 pruebas Con el arranque, se simularon diferentes cantidades de presupuesto de ajuste. Se trazan diagramas de cajas de los mejores rendimientos para cada presupuesto de prueba.
Observa lo siguiente en la Figura 3:
- Los rangos intercuartiles en los que se muestrearon 6 ensayos son mucho más grandes que cuando se muestrearon 20 ensayos.
- Incluso con 20 pruebas, la diferencia entre la suerte y la mala suerte es probable que sea mayor que la variación típica entre los reentrenamientos de este modelo en valores iniciales aleatorios, con hiperparámetros fijos, que para esta carga de trabajo podría ser de alrededor de +/- 0.1% en un y la tasa de error de validación es de alrededor del 23%.
-
Ben Recht y Kevin Jamieson señaló la solidez El presupuesto es del doble que la búsqueda aleatoria es como referencia (el Papel de hiperbanda tiene argumentos similares), pero es posible encontrar resultados de la espacios y problemas en los que la optimización bayesiana de vanguardia técnicas de búsqueda aleatorias que superan el doble del presupuesto. Sin embargo, en nuestra superar el doble del presupuesto en la búsqueda aleatoria es mucho más difícil un régimen de alto paralelismo, ya que la optimización bayesiana no tiene los resultados de las pruebas anteriores. ↩