Pesquisa quase aleatória

Esta unidade se concentra na pesquisa quase aleatória.

Por que usar a pesquisa quase aleatória?

Nossa preferência é a pesquisa quase aleatória (baseada em sequências de baixa discrepância). ferramentas mais sofisticadas de otimização blackbox quando usadas como parte de um processo de ajuste destinado a maximizar os insights sobre o problema de ajuste (o que chamamos de "fase de exploração"). Otimização bayesiana e similares ferramentas são mais apropriadas para a fase de exploração. Uma pesquisa quase aleatória com base em sequências de baixa discrepância alteradas aleatoriamente pode ser considerada uma "pesquisa de grade embaralhada e instável", já que de maneira uniforme, mas aleatoriamente, explora um determinado espaço de pesquisa e distribui os pontos de pesquisa mais do que uma busca aleatória.

As vantagens da pesquisa quase aleatória sobre a caixa preta mais sofisticada ferramentas de otimização (por exemplo, otimização bayesiana, algoritmos evolutivos) incluem:

  • A amostragem não adaptativa do espaço de pesquisa possibilita mudanças o objetivo de ajuste na análise post-hoc sem executar os experimentos novamente. Por exemplo, geralmente queremos encontrar o melhor teste em termos de validação de erro ocorridos em qualquer ponto do treinamento. No entanto, o modelo não adaptativo a natureza da pesquisa quase aleatória possibilita encontrar o melhor teste com base no erro de validação final, de treinamento ou em alguma alternativa métrica de avaliação sem precisar executar os experimentos novamente.
  • A pesquisa quase aleatória se comporta de maneira consistente e estatisticamente reproduzível de alguma maneira. Deve ser possível reproduzir um estudo de seis meses atrás mesmo se a implementação do algoritmo de pesquisa mudar, desde que mantém as mesmas propriedades de uniformidade. Se estiver usando bayesiana sofisticada de otimização de custos, a implementação pode mudar de forma entre as versões, dificultando a reprodução de uma pesquisa antiga. Nem sempre é possível reverter para uma implementação antiga (por exemplo, se a ferramenta de otimização é executada como um serviço).
  • Sua exploração uniforme do espaço de pesquisa facilita o raciocínio sobre os resultados e o que podem sugerir sobre o espaço de pesquisa. Por exemplo, se o melhor ponto na travessia de uma pesquisa quase aleatória estiver no limite do espaço de pesquisa, esta é uma boa solução sinalizam que os limites do espaço de pesquisa precisam ser alterados. No entanto, um algoritmo de otimização de caixa preta adaptável pode ter negligenciado o meio do espaço de busca por causa de alguns testes iniciais, mesmo que contenham pontos igualmente bons, uma vez que é a não uniformidade que um bom algoritmo de otimização precisa empregar para acelerar a pesquisa.
  • A execução de números diferentes de testes em paralelo e sequencial não produzir resultados estatisticamente diferentes ao usar semi-aleatórios (ou outros algoritmos de pesquisa não adaptativos), ao contrário dos algoritmos adaptativos algoritmos.
  • Algoritmos de pesquisa mais sofisticados nem sempre processam inviáveis corretamente os pontos de dados, especialmente se eles não forem projetados com e ajustar os hiperparâmetros.
  • A pesquisa quase aleatória é simples e funciona especialmente bem quando muitos ajustes os testes sejam executados em paralelo. Curiosamente1, é muito difícil para um algoritmo adaptável superar uma pesquisa quase aleatória que dobrou o orçamento, especialmente quando muitos testes precisam ser executadas em paralelo (e, portanto, há poucas chances de fazer uso de resultados de testes anteriores ao lançar novos testes). Sem experiência em otimização bayesiana e outros processos de blackbox avançados métodos de otimização, talvez não consiga os benefícios que são, é capaz de fornecer. É difícil comparar os níveis avançados algoritmos de otimização de blackbox em ajustes realistas de aprendizado profundo pelas condições Eles são uma área muito ativa de pesquisa atual, e a algoritmos mais sofisticados têm suas próprias armadilhas para usuários inexperientes. Os especialistas nesses métodos conseguem bons resultados, mas, em condições de alto paralelismo, o espaço de pesquisa e o orçamento tendem importam muito mais.

Se seus recursos computacionais permitirem apenas um pequeno número de sejam feitas em paralelo e execute vários testes em sequência, A otimização bayesiana torna-se muito mais atrativa apesar de tornar e o ajuste dos resultados são mais difíceis de interpretar.

O Open-Source Vizier uma implementação de modelo quase aleatório, pesquisa. Definir algorithm="QUASI_RANDOM_SEARCH" neste uso do Vizier exemplo. Existe uma implementação alternativa nessas varreduras de hiperparâmetros exemplo. Essas duas implementações geram uma sequência Halton para uma determinada pesquisa espaço (destinado a implementar uma sequência Halton deslocada e embaralhada como recomendado em Hiperparâmetros críticos: sem aleatório, não "Choro".

Se um algoritmo de pesquisa quase aleatório baseado em uma sequência de baixa discrepância não for é possível substituir a pesquisa uniforme pseudoaleatória, embora seja provável que seja um pouco menos eficiente. Em 1 ou 2 dimensões, a pesquisa de grade também é aceitável, mas não em dimensões mais altas. Consulte Bergstra e Bengio, 2012.

Quantos testes são necessários para obter bons resultados com a pesquisa quase aleatória?

Não há como determinar quantos testes são necessários para obter resultados com pesquisas quase aleatórias em geral, mas é possível analisar exemplos específicos. Como mostra a Figura 3, o número de tentativas em um estudo pode têm um impacto significativo nos resultados:

Diagrama de caixa que mostra a taxa de erro de validação (eixo Y) em comparação ao ajuste do orçamento (eixo X)
          em que o orçamento de ajuste é o número de testes. A validação média
          a taxa de erro geralmente caía à medida que o orçamento de ajuste aumentava.

Figura 3:ResNet-50 ajustado no ImageNet com 100 testes. Com o bootstrapping, foram simulados diferentes valores de ajuste do orçamento. Há diagramas de caixa dos melhores desempenhos para cada orçamento de teste.

 

Observe o seguinte sobre a Figura 3:

  • Os intervalos interquartil quando a amostragem de seis testes foi muito maior do que quando foram coletados 20 testes.
  • Mesmo com 20 tentativas, a diferença entre sorte e azar, os estudos provavelmente são maiores do que a variação típica entre as retreinamentos desse modelo em diferentes sementes aleatórias, com hiperparâmetros fixos, o que para esta carga de trabalho pode ser de cerca de +/- 0,1% em um taxa de erro de validação de aproximadamente 23%.

  1. Ben Recht e Kevin Jamieson destacou o quão forte O valor de referência de uma pesquisa aleatória com orçamento duplo (o valor Papel Hyperband faz argumentos semelhantes), mas certamente é possível encontrar e problemas em que a otimização bayesiana de ponta superam as pesquisas aleatórias que têm o dobro do orçamento. No entanto, em nossa experiência de superar o dobro do orçamento de pesquisas aleatórias fica muito mais difícil no de alto paralelismo, já que a otimização bayesiana não tem oportunidade de observar os resultados de testes anteriores.