Nadmierne dopasowanie: interpretacja krzywych straty

Uczenie maszynowe byłoby znacznie prostsze, krzywych strat przy pierwszym trenowaniu modelu wyglądało tak:

Rysunek 20. Wykres pokazujący krzywą idealnej straty podczas trenowania
            przez systemy uczące się. Krzywa straty pokazuje stratę na osi Y.
            względem liczby kroków trenowania na osi X. Jako liczba
            kroków trenowania rośnie, zaczyna się duży spadek, a potem spada
            wykładniczy i w końcu spłaszcza się, by osiągnąć minimalną wartość
            straty.
Rysunek 20. Idealna krzywa straty.

Niestety krzywe utraty są często trudne do interpretacji. Użyj możesz obliczyć krzywą utraty, aby rozwiązać znajdujące się na tej stronie ćwiczenia.

Ćwiczenie 1: Krzywa utraty oscylacyjnej

Rysunek 21. Krzywa utraty (strata na osi Y, liczba treningów
            kroki na osi x), w których strata się nie znika.
            Zamiast tego strata zmienia się nieregularnie.
Rysunek 21. Oscylająca krzywa straty.
Jakie 3 rzeczy możesz zrobić, aby poprawić krzywą strat na rys. 21.
Porównaj dane ze schematem danych, aby wykryć nieprawidłowe przykłady. a potem usuń nieprawidłowe przykłady ze zbioru treningowego.
Tak, jest to dobra metoda w przypadku wszystkich modeli.
Zmniejszenie tempa uczenia się.
Tak. Zmniejszenie tempa uczenia się jest często dobrym pomysłem przy debugowaniu podczas trenowania.
Ogranicz zbiór treningowy do niewielkiej liczby wiarygodnych przykładów.
Choć ta technika brzmi sztucznie, w rzeczywistości jest dobrym i pomysłu. Zakładając, że model jest zbieżny na małym zbiorze danych wiarygodnych przykładów, następnie możesz stopniowo dodawać ich więcej, np. odkryć, które przykłady powodują oscylacji.
Zwiększ liczbę przykładów w zbiorze treningowym.
To kuszący pomysł, ale raczej nie uda się go rozwiązać i rozpoznają problem.
Przyspieszanie uczenia się.
Ogólnie unikaj zwiększania tempa uczenia się, gdy model krzywa uczenia się wskazuje na problem.

Ćwiczenie 2. Krzywa straty przy gwałtownym skoku

Rysunek 22. Wykres krzywej straty, przedstawiający stratę malejącą do
            określonej liczby kroków trenowania, a potem nagle wzrasta
            z dalszymi krokami trenowania.
Rysunek 22. Gwałtowny wzrost straty.
Które 2 z tych stwierdzeń określają możliwe przyczyny straty wybuchowej, które przedstawiono na rys. 22.
Dane wejściowe zawierają co najmniej jeden NaN, np. wartość powodowane przez dzielenie przez zero.
Dzieje się tak częściej, niż mogłoby się wydawać.
Dane wejściowe zawierają zbiór wartości odstających.
Czasami z powodu nieprawidłowego tasowania partii wsadów zawierają wiele odstawień.
Tempo uczenia się jest za niskie.
Bardzo niskie tempo uczenia się może wydłużyć czas trenowania, ale nie jest przyczyną dziwnej krzywej straty.
Współczynnik regularyzacji jest za wysoki.
Prawda, bardzo duża regularyzacja może uniemożliwić modelowi converging; jednak nie spowoduje to pojawienia się dziwnej krzywej utraty na rys. 22.

Ćwiczenie 3. Przegrana testowa różni się od utraty treningowej

Rysunek 23. Krzywa utraconych treningów wydaje się być zbieżna,
            utrata walidacji zaczyna rosnąć po określonej liczbie trenowania
            kroków.
Rysunek 23. Znaczny wzrost utraty walidacji.
Które jedno z tych stwierdzeń najlepiej określa przyczynę tej różnicy między krzywymi straty trenowania i zbiory testowe?
Model zaniża dopasowanie do zbioru treningowego.
Prawdopodobnie nie jest. Możliwe rozwiązania:
  • Uprość model, na przykład przez zmniejszenie liczby funkcje.
  • Zwiększ współczynnik regularyzacji.
  • Upewnij się, że zbiór treningowy i zbiór testowy są statystycznie ujęte. odpowiednik.
Tempo uczenia się jest za wysokie.
Jeśli tempo uczenia się było zbyt wysokie, krzywa straty dla zbioru treningowego prawdopodobnie nie zachowałaby się tak, jakby to było.

Ćwiczenie 4. Krzywa straty zatrzymuje się

Rysunek 24. Wykres krzywej straty, pokazująca stratę zaczynającą się od
            są zbieżne ze trenowaniem, a potem pokazują powtarzające się wzorce,
            wyglądają jak prostokątne fale.
Rysunek 24. Chaotyczna utrata po określonej liczbie kroków.
Które jedno z tych stwierdzeń jest najbardziej prawdopodobne wyjaśnienie krzywej straty nieregularnej przedstawionej na rys. 24.
Zbiór treningowy zawiera powtarzające się sekwencje przykładów.
Jest to możliwe. Pamiętaj, aby losowo odtwarzać przykłady w odpowiednim stopniu.
Współczynnik regularyzacji jest za wysoki.
Raczej nie jest to jego przyczyna.
Zbiór treningowy zawiera zbyt wiele funkcji.
Raczej nie jest to jego przyczyna.