Aby wytrenować model, musimy znaleźć dobry sposób na zmniejszenie jego strat. Podejście iteratyczne to jedna z powszechnie stosowanych metod zmniejszania straty. Jest równie łatwa i skuteczna jak zejście ze zbocza.
Zmniejszanie strat
Jak możemy zmniejszyć straty?
- Hiperparametry to ustawienia konfiguracji używane do dostrajania sposobu trenowania modelu.
- Pochodna funkcji (y–y')2 w odniesieniu do wag i odchylenia mówi nam, jak zmienia się utrata w danym przykładzie
- Proste do obliczenia i wypukłe
- Dlatego regularnie podejmujemy małe kroki w kierunku zminimalizowanym
- Nazywamy je krokami z gradientem (ale są to bardzo negatywne kroki gradientowe).
- Strategia ta nosi nazwę Spadek gradientu.
Schemat blokowy gradientu malejącego
- Wykonaj ćwiczenie ze spadkiem gradientu.
- Po zakończeniu ćwiczenia naciśnij play ▶, aby kontynuować
Inicjowanie wagi
- W przypadku problemów wypukłych wagi mogą zaczynać się w dowolnym miejscu (np. wszystkie zera)
- Wypukła: wyobraź sobie kształt miski
- Tylko jedna wartość minimalna
Inicjowanie wagi
- W przypadku problemów wypukłych wagi mogą zaczynać się w dowolnym miejscu (np. wszystkie zera)
- Wypukła: wyobraź sobie kształt miski
- Tylko jedna wartość minimalna
- Zapowiedzi: nieprawda w przypadku sieci neuronowych
- Niewypukłe: pomyśl o skrzynce na jajka
- Więcej niż jedna wartość minimalna
- Duża zależność od wartości początkowych
SGD i miniaturowe gradienty
- Możliwe, że w każdym kroku gradient może obejmować cały zbiór danych, ale okazuje się, że nie jest to konieczne.
- Obliczanie gradientu na małych próbkach danych działa dobrze
- Na każdym kroku pobieraj nową próbkę losową
- Stopień gradientu szstokastycznego: przykład po jednym naraz.
- Mini-Batch Gradient Descent: partie po 10–1000 znaków
- Straty i gradienty są uśredniane w wsadzie