W sierpniu 2024 r. udostępnimy nową, ulepszoną wersję kursu Crash Course poświęconego systemom uczącym się. Śledź ten temat

Ta strona została przetłumaczona przez Cloud Translation API.

Zmniejszanie strat

Aby wytrenować model, musimy znaleźć dobry sposób na zmniejszenie jego strat. Podejście iteratyczne to jedna z powszechnie stosowanych metod zmniejszania straty. Jest równie łatwa i skuteczna jak zejście ze zbocza.

Zmniejszanie strat

Jak możemy zmniejszyć straty?

Hiperparametry to ustawienia konfiguracji używane do dostrajania sposobu trenowania modelu.
Pochodna funkcji (y–y')² w odniesieniu do wag i odchylenia mówi nam, jak zmienia się utrata w danym przykładzie

Proste do obliczenia i wypukłe

Dlatego regularnie podejmujemy małe kroki w kierunku zminimalizowanym

Nazywamy je krokami z gradientem (ale są to bardzo negatywne kroki gradientowe).
Strategia ta nosi nazwę Spadek gradientu.

Schemat blokowy gradientu malejącego

Cykl przechodzenia od cech i etykiet do modeli i prognoz.

Wykonaj ćwiczenie ze spadkiem gradientu.
Po zakończeniu ćwiczenia naciśnij play ▶, aby kontynuować

Inicjowanie wagi

W przypadku problemów wypukłych wagi mogą zaczynać się w dowolnym miejscu (np. wszystkie zera)

Wypukła: wyobraź sobie kształt miski
Tylko jedna wartość minimalna

Inicjowanie wagi

W przypadku problemów wypukłych wagi mogą zaczynać się w dowolnym miejscu (np. wszystkie zera)

Wypukła: wyobraź sobie kształt miski
Tylko jedna wartość minimalna

Zapowiedzi: nieprawda w przypadku sieci neuronowych

Niewypukłe: pomyśl o skrzynce na jajka
Więcej niż jedna wartość minimalna
Duża zależność od wartości początkowych

Wykres w kształcie misy wypukłej z wieloma lokalnymi minima

SGD i miniaturowe gradienty

Możliwe, że w każdym kroku gradient może obejmować cały zbiór danych, ale okazuje się, że nie jest to konieczne.
Obliczanie gradientu na małych próbkach danych działa dobrze

Na każdym kroku pobieraj nową próbkę losową

Stopień gradientu szstokastycznego: przykład po jednym naraz.
Mini-Batch Gradient Descent: partie po 10–1000 znaków

Straty i gradienty są uśredniane w wsadzie