Este apêndice contém alguns detalhes adicionais sobre a taxa de aprendizado.
Programação da redução da taxa de aprendizado
A melhor família de programação de deterioração da taxa de aprendizado é um problema aberto. Não está claro como construir um conjunto rigoroso de experimentos rigorosos para responder com segurança a essa pergunta. Apesar de não conhecermos a melhor programação, estamos confiantes do seguinte:
- É importante ter uma programação (não constante).
- É importante ajustar essa programação.
Diferentes taxas de aprendizado funcionam melhor em momentos distintos durante o processo de otimização. Ter algum tipo de programação torna mais provável que o modelo atinja uma boa taxa de aprendizado.
Melhor redução de taxa de aprendizado padrão
Recomendamos uma das seguintes famílias de redução de taxa de aprendizado como padrão:
- Decaimento linear
- Decaimento de cosseno
Muitas outras famílias de programações provavelmente também são boas.
Por que alguns artigos têm programações de taxas de aprendizado complicadas?
Muitos artigos acadêmicos usam programações de taxa de aprendizado (LR, na sigla em inglês) complicadas em peças, em declínio. Os leitores muitas vezes se perguntam como os autores chegam a uma programação tão complicada. Muitas programações complicadas de redução de LR são o resultado do ajuste da programação como uma função do desempenho do conjunto de validação de maneira ad-hoc. Ou seja:
- Inicie uma única execução de treinamento com um decaimento LR simples ou uma taxa de aprendizado constante.
- Continue treinando até que o desempenho pareça estagnado. Se isso acontecer, pause o treinamento. Em seguida, retome-o com uma programação de redução de LR possivelmente mais severa (ou taxa de aprendizado constante menor) a partir desse ponto. Repita esse processo (até a conferência ou o prazo de lançamento).
Geralmente, não é uma boa ideia copiar a programação resultante porque a melhor programação em particular é sensível a várias outras opções de hiperparâmetros. Recomendamos copiar o algoritmo que produziu a programação, embora isso raramente seja possível quando o julgamento humano arbitrário produziu a programação. Esse tipo de programação sensível a erros de validação pode ser usado se puder ser totalmente automatizado, mas as programações humanas com repetição no loop que são uma função do erro de validação são frágeis e não podem ser facilmente reproduzidas. Portanto, recomendamos evitá-las. Antes de publicar os resultados que usaram essa programação, tente torná-la totalmente reproduzível.
Como ajustar os hiperparâmetros de Adam?
Nem todos os hiperparâmetros no Adam são igualmente importantes. As regras gerais a seguir correspondem a "orçamentos" diferentes para o número de testes em um estudo.
- Se for < 10 testes em um estudo, ajuste somente a taxa de aprendizado (base).
- Se houver 10 a 25 testes em um estudo, ajuste a taxa de aprendizado e
beta_1
. - Se houver mais de 25 testes, ajuste a taxa de aprendizado,
beta_1
eepsilon
. - Se houver mais de 25 testes, ajuste o
beta_2
também.
Considerando a dificuldade de fornecer regras gerais sobre espaços de pesquisa e quantos pontos você precisa coletar no espaço de pesquisa, veja as regras gerais descritas nesta seção como diretrizes aproximadas."