Zmniejszanie strat: tempo uczenia się

Jak już wspomniano, wektor gradientu ma zarówno kierunek, jak i moc. Algorytmy gradientu zejścia na dół mnożą gradient przez skalarny szybkość uczenia się (czasami nazywany też rozmiarem kroku), aby określić kolejny punkt. Jeśli na przykład natężenie gradientu wynosi 2,5, a szybkość uczenia się – 0,01, algorytm malejącego gradientu wybierze następny punkt o 0,025 od poprzedniego punktu.

Hiperparametry to elementy obsługiwane przez programistów w algorytmach systemów uczących się. Większość programistów korzystających z systemów uczących się poświęca sporo czasu na dostosowywanie tempa uczenia się. Jeśli wybierzesz za małe tempo uczenia się, będzie ono zbyt długie:

Ta sama krzywa w kształcie litery U. Wiele punktów jest bardzo blisko siebie, a szlak przebiega bardzo wolno w dół u dołu U.

Rysunek 6. Tempo uczenia się jest za małe.

I odwrotnie – jeśli określisz zbyt duże tempo uczenia się, kolejny punkt będzie stale nieregularnie odbijać się na dole dobrze, jak to było w przypadku eksperymentu z mechanizmem kwantowym, który strasznie się powiódł:

Ta sama krzywa w kształcie litery U. To pytanie zawiera bardzo mało punktów. Szlak punktów skacze w czystości wzdłuż dolnej krawędzi litery U, po czym znów przeskakuje.

Rysunek 7. Tempo uczenia się jest za duże.

W przypadku każdego problemu regresji występuje szybkość uczenia się Goldilocks. Wartość Goldilocks jest związana z tym, jak płaska jest funkcja straty. Jeśli wiesz, że gradient funkcji straty jest niewielki, możesz wypróbować większe tempo uczenia się, które kompensuje mały gradient i zwiększa rozmiar kroku.

Ta sama krzywa w kształcie litery U. Szlak punktów prowadzi do minimum po około 8 krokach.

Rysunek 8. Tempo uczenia się jest odpowiednie.