W sierpniu 2024 r. udostępnimy nową, ulepszoną wersję kursu Crash Course poświęconego systemom uczącym się. Śledź ten temat

Ta strona została przetłumaczona przez Cloud Translation API.

Zmniejszanie strat: optymalizacja współczynnika uczenia się

Ćwiczenie 1

Ustaw tempo uczenia się 0,03 na suwaku. Naciskaj przycisk KROK, aż algorytm gradientu spadnie do minimalnego punktu krzywej. Ile kroków udało Ci się zebrać?

Rozwiązanie

Zmniejszenie gradientu pozwala osiągnąć minimalny poziom krzywej w 40 krokach.

Ćwiczenie 2

Czy możesz szybciej osiągnąć minimalne cele dzięki wyższym wskaźnikom nauczania? Ustaw szybkość uczenia się na 0,1 i powtarzaj tę czynność, aż spadek gradientu osiągnie minimalną wartość. Ile kroków zostało zrobionych tym razem?

Rozwiązanie

Spadek gradientowy osiągnie minimalną krzywą w 11 krokach.

Ćwiczenie 3

A może nawet jeszcze więcej? Zresetuj wykres, ustaw tempo uczenia się 1 i spróbuj osiągnąć minimalną krzywą. Co tym razem się stało?

Rozwiązanie

Gradient gradientowy nigdy nie osiąga wartości minimalnej. W związku z tym kroki rośnie. Każdy krok przeskakuje nad misą i wchodzi w górę zamiast maleć do dołu.

Opcjonalne wyzwanie

Czy w przypadku tej krzywej współczynnik uczenia się Złotych jest taki, gdzie spadek gradientowy prowadzi do minimalnej liczby punktów w najmniejszej liczbie kroków? Minimalna liczba kroków wymagana do osiągnięcia minimalnej liczby kroków?

Rozwiązanie

Wskaźnik Goldilocks dla tych danych mieści się w przedziale od 0,2 do 0,3, co powinno osiągnąć minimum w 3 lub 4 krokach.

UWAGA: w praktyce znalezienie „idealnego” (lub prawie idealnego) współczynnika nauki nie jest niezbędne, aby trenowanie modelu przebiegało sprawnie. Celem jest znalezienie takiej wielkości współczynnika uczenia się, która wystarczająco zbiega się w czasie gradientu, ale nie jest tak duża, że nigdy się nie zbiega.

Wstecz

Współczynnik uczenia się

Dalej

Stochastyczne wprowadzenie do gradientu