Pesquisa quase aleatória

Esta unidade se concentra na pesquisa quase aleatória.

Por que usar a pesquisa quase aleatória?

A pesquisa quase aleatória, com base em sequências de baixa discrepância, é nossa preferência em relação a ferramentas de otimização de caixa preta mais sofisticadas quando usadas como parte de um processo de ajuste iterativo destinado a maximizar o insight sobre o problema de ajuste (o que chamamos de "fase de análise detalhada"). A otimização bayesiana e ferramentas semelhantes são mais apropriadas para a fase de exploração. A pesquisa quase aleatória com base em sequências de baixa discrepância com deslocamento aleatório pode ser considerada "pesquisa de grade irregular e aleatória", já que explora de maneira uniforme, mas aleatória, um determinado espaço de pesquisa e espalha os pontos de pesquisa mais do que a pesquisa aleatória.

As vantagens da pesquisa quase aleatória em relação a ferramentas de otimização de caixa preta mais sofisticadas (por exemplo, otimização bayesiana e algoritmos evolutivos) incluem:

  • A amostragem não adaptativa do espaço de pesquisa possibilita alterar o objetivo do ajuste na análise post-hoc sem fazer novos experimentos. Por exemplo, geralmente queremos encontrar o melhor teste em termos de erros de validação alcançados em qualquer ponto do treinamento. No entanto, a natureza não adaptativa da pesquisa quase aleatória possibilita encontrar o melhor teste com base no erro final de validação, no erro de treinamento ou em alguma métrica de avaliação alternativa, sem executar nenhum experimento novamente.
  • A pesquisa quase aleatória se comporta de maneira consistente e estatisticamente reproduzível. Deve ser possível reproduzir um estudo de seis meses atrás, mesmo que a implementação do algoritmo de pesquisa mude, desde que ele mantenha as mesmas propriedades de uniformidade. Se você usar um software sofisticado de otimização bayesiana, a implementação poderá mudar de forma importante entre as versões, dificultando muito a reprodução de uma pesquisa antiga. Nem sempre é possível reverter para uma implementação antiga (por exemplo, se a ferramenta de otimização for executada como um serviço).
  • Sua exploração uniforme do espaço de pesquisa facilita o raciocínio sobre os resultados e o que eles podem sugerir sobre o espaço de pesquisa. Por exemplo, se o melhor ponto na travessia da pesquisa quase aleatória está no limite do espaço de pesquisa, esse é um bom sinal (mas não infalível) de que os limites do espaço de pesquisa precisam ser alterados. No entanto, um algoritmo de otimização de caixa preta adaptável pode ter negligenciado o meio do espaço de pesquisa por causa de alguns testes iniciais sem sorte, mesmo que contenha pontos igualmente bons, já que é esse tipo exato de não uniformidade que um bom algoritmo de otimização precisa empregar para acelerar a pesquisa.
  • A execução de números diferentes de testes em paralelo ou sequencial não produz resultados estatisticamente diferentes ao usar a pesquisa quase aleatória (ou outros algoritmos de pesquisa não adaptativos), ao contrário dos algoritmos adaptáveis.
  • Algoritmos de pesquisa mais sofisticados nem sempre podem processar pontos inviáveis corretamente, especialmente se não forem projetados com o ajuste de hiperparâmetros da rede neural em mente.
  • A pesquisa quase aleatória é simples e funciona especialmente bem quando muitos testes de ajuste são executados em paralelo. Por acaso1, é muito difícil para um algoritmo adaptável superar uma pesquisa quase aleatória com o dobro do orçamento, especialmente quando muitos testes precisam ser executados em paralelo. Portanto, há poucas chances de usar os resultados de testes anteriores ao lançar novos testes. Sem experiência em otimização bayesiana e outros métodos avançados de otimização de caixa preta, talvez você não tenha os benefícios que eles são, em princípio, capazes de oferecer. É difícil comparar algoritmos avançados de otimização de caixa preta em condições realistas de ajuste de aprendizado profundo. Elas são uma área de pesquisa muito ativa, e os algoritmos mais sofisticados têm as próprias armadilhas para usuários inexperientes. Os especialistas nesses métodos conseguem bons resultados, mas, em condições de paralelismo, o espaço de pesquisa e o orçamento tendem a ser muito mais importantes.

Sendo assim, se os seus recursos computacionais permitirem que apenas um pequeno número de testes sejam executados em paralelo e você possa executar muitos testes em sequência, a otimização bayesiana se tornará muito mais atraente, apesar de dificultar a interpretação dos resultados de ajuste.

O Vizier de código aberto tem uma implementação de pesquisa quasi-aleatória. Defina algorithm="QUASI_RANDOM_SEARCH" neste exemplo de uso do Vizier. Há uma implementação alternativa neste exemplo de varreduras de hiperparâmetro. Essas duas implementações geram uma sequência Halton para um determinado espaço de pesquisa. Ela tem como objetivo implementar uma sequência Halton deslocada e embaralhada, conforme recomendado em Hiperparâmetros críticos: não aleatório, sem Cry.

Se um algoritmo de pesquisa quase aleatório com base em uma sequência de baixa discrepância não estiver disponível, será possível substituir a pesquisa uniforme pseudoaleatória, embora isso seja um pouco menos eficiente. Em dimensões de 1 ou 2, a pesquisa de grade também é aceitável, mas não em dimensões maiores. (Consulte Bergstra & Bengio, 2012).

Quantos testes são necessários para se conseguir bons resultados com a pesquisa quase aleatória?

Não há como determinar quantos testes são necessários para conseguir resultados com a pesquisa quase aleatória em geral, mas é possível analisar exemplos específicos. Como mostrado na Figura 3, o número de testes em um estudo pode ter um impacto significativo nos resultados:

Diagrama em caixa da taxa de erro de validação (eixo y) x orçamento de ajuste (eixo X), em que o orçamento de ajuste é o número de tentativas. A taxa de erro média de validação geralmente caiu à medida que o orçamento de ajuste aumentava.

Figura 3:ResNet-50 ajustado no ImageNet com 100 testes. Usando o bootstrap, diferentes valores de ajuste do orçamento foram simulados. São traçados gráficos em caixa dos melhores desempenhos para cada orçamento de teste.

 

Observe o seguinte sobre a Figura 3:

  • Os intervalos interquartis de amostragem de seis testes são muito maiores do que com a amostragem de 20 testes.
  • Mesmo com 20 testes, a diferença entre estudos especialmente com sorte e sem sorte provavelmente é maior do que a variação típica entre retreinações desse modelo em diferentes sementes aleatórias com hiperparâmetros fixos, que para essa carga de trabalho pode ser cerca de +/- 0,1% em uma taxa de erro de validação de aproximadamente 23%.

  1. Ben Recht e Kevin Jamieson apontaram como a pesquisa aleatória que tem o dobro de orçamento é um valor de referência (o documento Hyperband tem argumentos semelhantes), mas é certamente possível encontrar espaços de pesquisa e problemas em que técnicas de otimização bayesianas de última geração superam pesquisas aleatórias que têm o dobro do orçamento. No entanto, nossa experiência é muito mais difícil superar o dobro do orçamento da pesquisa aleatória no regime de alto paralelismo, já que a otimização bayesiana não tem a oportunidade de observar os resultados de testes anteriores.