Uczenie maszynowe byłoby znacznie prostsze, krzywych strat przy pierwszym trenowaniu modelu wyglądało tak:
Niestety krzywe utraty są często trudne do interpretacji. Użyj możesz obliczyć krzywą utraty, aby rozwiązać znajdujące się na tej stronie ćwiczenia.
Ćwiczenie 1: Krzywa utraty oscylacyjnej
Jakie 3 rzeczy możesz zrobić, aby poprawić krzywą strat
na rys. 21.
Porównaj dane ze schematem danych, aby wykryć nieprawidłowe przykłady.
a potem usuń nieprawidłowe przykłady ze zbioru treningowego.
Tak, jest to dobra metoda w przypadku wszystkich modeli.
Zmniejszenie tempa uczenia się.
Tak. Zmniejszenie tempa uczenia się jest często dobrym pomysłem przy debugowaniu
podczas trenowania.
Ogranicz zbiór treningowy do niewielkiej liczby wiarygodnych przykładów.
Choć ta technika brzmi sztucznie, w rzeczywistości jest dobrym
i pomysłu. Zakładając, że model jest zbieżny na małym zbiorze danych
wiarygodnych przykładów, następnie możesz stopniowo dodawać ich więcej,
np. odkryć, które przykłady powodują
oscylacji.
Zwiększ liczbę przykładów w zbiorze treningowym.
To kuszący pomysł, ale raczej nie uda się go rozwiązać
i rozpoznają problem.
Przyspieszanie uczenia się.
Ogólnie unikaj zwiększania tempa uczenia się, gdy model
krzywa uczenia się wskazuje na problem.
Ćwiczenie 2. Krzywa straty przy gwałtownym skoku
Które 2 z tych stwierdzeń określają możliwe
przyczyny straty wybuchowej, które przedstawiono na rys. 22.
Dane wejściowe zawierają co najmniej jeden NaN, np. wartość
powodowane przez dzielenie przez zero.
Dzieje się tak częściej, niż mogłoby się wydawać.
Dane wejściowe zawierają zbiór wartości odstających.
Czasami z powodu nieprawidłowego tasowania partii wsadów
zawierają wiele odstawień.
Tempo uczenia się jest za niskie.
Bardzo niskie tempo uczenia się może wydłużyć czas trenowania, ale
nie jest przyczyną dziwnej krzywej straty.
Współczynnik regularyzacji jest za wysoki.
Prawda, bardzo duża regularyzacja może uniemożliwić modelowi
converging; jednak nie spowoduje to pojawienia się dziwnej krzywej utraty
na rys. 22.
Ćwiczenie 3. Przegrana testowa różni się od utraty treningowej
Które jedno z tych stwierdzeń najlepiej określa
przyczynę tej różnicy między krzywymi straty trenowania
i zbiory testowe?
Model zaniża dopasowanie do zbioru treningowego.
Prawdopodobnie nie jest. Możliwe rozwiązania:
- Uprość model, na przykład przez zmniejszenie liczby funkcje.
- Zwiększ współczynnik regularyzacji.
- Upewnij się, że zbiór treningowy i zbiór testowy są statystycznie ujęte. odpowiednik.
Tempo uczenia się jest za wysokie.
Jeśli tempo uczenia się było zbyt wysokie, krzywa straty dla zbioru treningowego
prawdopodobnie nie zachowałaby się tak, jakby to było.
Ćwiczenie 4. Krzywa straty zatrzymuje się
Które jedno z tych stwierdzeń jest najbardziej prawdopodobne
wyjaśnienie krzywej straty nieregularnej przedstawionej na rys. 24.
Zbiór treningowy zawiera powtarzające się sekwencje przykładów.
Jest to możliwe. Pamiętaj, aby losowo odtwarzać przykłady
w odpowiednim stopniu.
Współczynnik regularyzacji jest za wysoki.
Raczej nie jest to jego przyczyna.
Zbiór treningowy zawiera zbyt wiele funkcji.
Raczej nie jest to jego przyczyna.