L2 regularyzacja to popularny rodzaj danych regularyzacji wykorzystujący następujący wzór:
Na przykład w tej tabeli pokazano obliczenie L2 regularyzacja modelu o 6 wagach:
Wartość | Wartość do kwadratu | |
---|---|---|
t1 | 0,2 | 0,04 |
t2 | –0,5 | 0,25 |
t3 | 5,0 | 25,0 |
t4 | –1,2 | 1,44 |
t5 | 0,3 | 0,09 |
t6 | –0,1 | 0,01 |
26,83 = łącznie |
Zwróć uwagę, że wagi bliskie zera nie mają wpływu na regularyzację L2. ale duże ciężary mogą mieć ogromny wpływ. Na przykład w tagu poprzedzające obliczenia:
- Pojedyncza waga (W3) odpowiada za około 93% i ogólnej złożoności.
- Pozostałe 5 wag łącznie odpowiada za około 7% i ogólnej złożoności.
Regularyzacja L2 zachęca do wyznaczania wag w kierunku 0, ale nigdy nie popycha waży aż do zera.
Ćwiczenia: sprawdź swoją wiedzę
Współczynnik regularyzacji (lambda)
Jak już wspomniano, trenowanie ma na celu zminimalizowanie pewnej kombinacji strat i złożoności:
Programiści modeli dostrajają ogólny wpływ złożoności na trenowanie modelu mnożąc jego wartość przez wartość skalarną, która nazywa się częstotliwość regularyzacji. Grecka litera lambda zazwyczaj symbolizuje szybkość regularyzacji.
Oznacza to, że deweloperzy modeli starają się:
Wysoki współczynnik regularyzacji:
- Wzmacnia wpływ regularyzacji, zmniejszając w ten sposób szanse na nadmiernego dopasowania.
- Zwykle generuje histogram wag modelu o następujących wartościach:
cechy:
- rozkład normalny
- średnia waga 0.
Niski współczynnik regularyzacji:
- Zmniejsza wpływ regularyzacji, co zwiększa szanse na nadmiernego dopasowania.
- Zwykle generuje histogram wag modelu o płaskim rozkładzie.
Na przykład histogram wag modelu dla wysokiego współczynnika regularyzacji może wyglądać tak, jak na rys. 18.
Niski współczynnik regularyzacji zwykle pozwala natomiast uzyskać płaski histogram, na rys. 19.
Wybieranie współczynnika regularyzacji
Idealna szybkość regularyzacji daje model, który dobrze uogólnia nowych, niewyświetlanych wcześniej danych. Ta idealna wartość zależy jednak od danych, dlatego musisz i dostrajania.
Wcześniejsze zatrzymanie: alternatywa dla regularyzacji na podstawie złożoności
Wczesne zatrzymanie to metoda regularyzacji, która nie obejmuje obliczania złożoności. Zamiast tego wczesne zatrzymanie oznacza po prostu zakończenie trenowania modelu przed modelem są całkowicie zgodne. Na przykład trenowanie kończy się, gdy krzywa strat dla zestawu do walidacji zaczyna rosnąć (nachylenie staje się dodatnie).
Chociaż wczesne zatrzymanie zazwyczaj zwiększa utratę treningów, może jednak się zmniejszyć straty testu.
Wczesne zatrzymanie to szybka, ale rzadko optymalna forma regularyzacji. Jest mało prawdopodobne, że wynikowy model będzie tak dobry jak model wytrenowany na idealnym tempie regularyzacji.
Znalezienie równowagi między tempem uczenia się a tempem regularyzacji
Tempo uczenia się oraz współczynnik regularyzacji przyciąga wagi na odwrót wskazówek dojazdu. Wysokie tempo uczenia się powoduje często odejmowanie od zera; wysoki współczynnik regularyzacji powoduje pobieranie wagi w stronę 0.
Jeśli współczynnik regularyzacji jest wysoki w odniesieniu do tempa uczenia się, niskie wagi zwykle generują model, który nie zgadza się z nimi. Jeśli natomiast tempo uczenia się jest wysokie w odniesieniu do regularyzacji, duże ciężary powodują zwykle niedopasowany model.
Twoim celem jest znalezienie równowagi między szybkością uczenia się jest współczynnik regularyzacji. To może być trudne. A najgorsze, że gdy znajdziesz aby znaleźć równowagę, być może trzeba będzie zmienić tempo uczenia się. Przy zmianie tempa uczenia się znowu trzeba znaleźć jest współczynnik regularyzacji.