Reduzir perdas: como otimizar a taxa de aprendizado
Exercício 1
Defina uma taxa de aprendizado de 0,03 no controle deslizante. Continue pressionando o botão ETAPA até que o algoritmo de gradiente descendente atinja o ponto mínimo da curva de perda. Quantos passos foram necessários?
Solução
O gradiente descendente atinge o mínimo da curva em 40 passos.
Exercício 2
Você pode alcançar o mínimo mais rapidamente com uma taxa de aprendizado mais alta? Defina uma taxa de aprendizado de 0, 1 e continue pressionando Step até que o gradiente descendente atinja o mínimo. Quantos passos você completou desta vez?
Solução
O gradiente descendente atinge o mínimo da curva em 11 passos.
Exercício 3
Que tal uma taxa de aprendizado ainda maior. Redefina o gráfico, defina uma taxa de aprendizado de 1 e tente alcançar o mínimo da curva de perda. O que aconteceu dessa vez?
Solução
O gradiente descendente nunca atinge o mínimo. Como resultado, o tamanho das etapas aumenta progressivamente. Cada passo pula para frente e para trás no bowl, subindo a curva em vez de descer até o fundo.
Desafio opcional
Você pode encontrar a taxa de aprendizado de Goldilocks para essa curva, em que o gradiente descendente atinge o ponto mínimo no menor número de etapas? Qual é o menor número de etapas necessárias para alcançar o valor mínimo?
Solução
A taxa de aprendizado da Goldilocks para esses dados está entre 0,2 e 0,3, o que atingiria o mínimo em 3 ou 4 etapas.
OBSERVAÇÃO:na prática, encontrar uma taxa de aprendizado "perfeita" (ou perfeita) não é essencial para um treinamento de modelo bem-sucedido. O objetivo é encontrar uma taxa de aprendizado grande o suficiente para que o gradiente descendente chegue com eficiência, mas não tão grande que nunca converja.