Este apêndice contém mais alguns detalhes sobre a taxa de aprendizado.
Programação de redução da taxa de aprendizado
A melhor família de programação de decaimento da taxa de aprendizado é um problema em aberto. Não está claro como construir um conjunto de experimentos rigorosos para responder a essa pergunta com confiança. Embora não saibamos qual é a melhor família de programação, temos certeza do seguinte:
- É importante ter uma programação (não constante).
- É importante ajustar essa programação.
Taxas de aprendizado diferentes funcionam melhor em momentos diferentes durante o processo de otimização. Ter algum tipo de programação aumenta a probabilidade de o modelo atingir uma boa taxa de aprendizado.
Melhor decaimento da taxa de aprendizado padrão
Recomendamos uma das seguintes famílias de decaimento da taxa de aprendizado como padrão:
- Decaimento linear
- Decaimento do cosseno
Muitas outras famílias de programação também são boas.
Por que alguns artigos têm programações de taxa de aprendizado complicadas?
Muitos artigos acadêmicos usam cronogramas complicados de redução da taxa de aprendizado (LR, na sigla em inglês) por partes. Os leitores costumam se perguntar como os autores chegaram a uma programação tão complicada. Muitos cronogramas complicados de decaimento da taxa de aprendizado são o resultado do ajuste do cronograma como uma função da performance do conjunto de validação de maneira ad hoc. Ou seja:
- Inicie uma única execução de treinamento com um decaimento simples da taxa de aprendizado (ou uma taxa de aprendizado constante).
- Continue treinando até que o desempenho pareça estagnar. Se isso acontecer, pause o treinamento. Em seguida, retome com uma programação de decaimento de LR talvez mais acentuada (ou uma taxa de aprendizado constante menor) a partir desse ponto. Repita esse processo até o prazo da conferência ou do lançamento.
Copiar sem pensar a programação resultante geralmente não é uma boa ideia, já que a melhor programação específica é sensível a várias outras opções de hiperparâmetros. Recomendamos copiar o algoritmo que produziu a programação, embora isso raramente seja possível quando o julgamento humano arbitrário produziu a programação. Esse tipo de programação sensível a erros de validação pode ser usado se for totalmente automatizado, mas as programações com humanos no loop que são uma função do erro de validação são frágeis e não são facilmente reproduzidas. Por isso, recomendamos evitá-las. Antes de publicar resultados que usaram esse tipo de programação, tente tornar o processo totalmente reproduzível.
Como os hiperparâmetros do Adam devem ser ajustados?
Nem todos os hiperparâmetros do Adam são igualmente importantes. As regras práticas a seguir correspondem a diferentes "orçamentos" para o número de testes em um estudo.
- Se houver menos de 10 testes em um estudo, ajuste apenas a taxa de aprendizado (básica).
- Se um estudo tiver de 10 a 25 testes, ajuste a taxa de aprendizado e
beta_1
. - Se houver mais de 25 testes, ajuste a taxa de aprendizado,
beta_1
eepsilon
. - Se houver muito mais do que 25 testes, ajuste também
beta_2
.
Como é difícil fornecer regras gerais sobre espaços de pesquisa e quantos pontos você deve amostrar do espaço de pesquisa, considere as regras práticas declaradas nesta seção como diretrizes aproximadas."