Jak już wspomniano, wektor gradientu ma zarówno kierunek, jak i moc. Algorytmy gradientu zejścia na dół mnożą gradient przez skalarny szybkość uczenia się (czasami nazywany też rozmiarem kroku), aby określić kolejny punkt. Jeśli na przykład natężenie gradientu wynosi 2,5, a szybkość uczenia się – 0,01, algorytm malejącego gradientu wybierze następny punkt o 0,025 od poprzedniego punktu.
Hiperparametry to elementy obsługiwane przez programistów w algorytmach systemów uczących się. Większość programistów korzystających z systemów uczących się poświęca sporo czasu na dostosowywanie tempa uczenia się. Jeśli wybierzesz za małe tempo uczenia się, będzie ono zbyt długie:
Rysunek 6. Tempo uczenia się jest za małe.
I odwrotnie – jeśli określisz zbyt duże tempo uczenia się, kolejny punkt będzie stale nieregularnie odbijać się na dole dobrze, jak to było w przypadku eksperymentu z mechanizmem kwantowym, który strasznie się powiódł:
Rysunek 7. Tempo uczenia się jest za duże.
W przypadku każdego problemu regresji występuje szybkość uczenia się Goldilocks. Wartość Goldilocks jest związana z tym, jak płaska jest funkcja straty. Jeśli wiesz, że gradient funkcji straty jest niewielki, możesz wypróbować większe tempo uczenia się, które kompensuje mały gradient i zwiększa rozmiar kroku.
Rysunek 8. Tempo uczenia się jest odpowiednie.