Regularyzacja L2to popularny rodzaj regularyzacji, który wykorzystuje ten wzór:
Na przykład w tabeli poniżej przedstawiono obliczenie regularyzacji L2 w przypadku modelu z 6 wagami:
Wartość | Wartość kwadratowa | |
---|---|---|
w1 | 0,2 | 0,04 |
w 2 | -0,5 | 0,25 |
w 3 | 5,0 | 25,0 |
w4 | -1,2 | 1.44 |
w5 | 0,3 | 0,09 |
w 6 | -0,1 | 0,01 |
26,83 = razem |
Zwróć uwagę, że wagi zbliżone do zera nie mają większego wpływu na regularyzację L2, ale duże wagi mogą mieć ogromny wpływ. Na przykład w poprzednim obliczeniu:
- Pojedyncza waga (w3) odpowiada za około 93% całkowitej złożoności.
- Pozostałe 5 wag łącznie stanowi tylko około 7% łącznej złożoności.
Regularyzacja L2 powoduje, że wagi zmierzają do 0, ale nigdy nie dążą do zera.
Ćwiczenia: sprawdź swoją wiedzę
Współczynnik regularyzacji (lambda)
Jak już wspomnieliśmy, trenowanie próbuje zminimalizować pewną kombinację straty i złożoności:
Deweloperzy modeli dostosowują ogólny wpływ złożoności na trenowanie modelu, mnożąc jej wartość przez wektor skalarny o nazwie stopień regularyzacji. Grecka litera lambda zazwyczaj symbolizuje współczynnik regularyzacji.
Oznacza to, że twórcy modeli starają się:
Wysoki współczynnik regularyzacji:
- Zwiększa wpływ regularyzacji, co zmniejsza ryzyko przetrenowania.
- Zwykle generuje histogram wag modelu o tych cechach:
- rozkładu normalnego.
- średnia waga 0.
Niski współczynnik regularyzacji:
- Zmniejsza wpływ regularyzacji, zwiększając tym samym ryzyko przetrenowania.
- Zwykle generuje histogram wag modelu o płaskiej dystrybucji.
Na przykład histogram wag modelu przy wysokiej regularyzacji może wyglądać jak na rysunku 18.
Natomiast niska stopa regularyzacji powoduje, że histogram jest bardziej płaski, jak widać na rysunku 19.
Wybór szybkości regularyzacji
Idealna stopa regularyzacji tworzy model, który dobrze generalizuje nowe, wcześniej niewidziane dane. Ta idealna wartość zależy jednak od danych, więc musisz ją dostosować dostrajanie.
Wczesne zatrzymywanie: alternatywa dla regularyzacji opartej na złożoności
Wczesne zatrzymywanie to metoda regularyzacji, która nie wymaga obliczania złożoności. Wczesne zatrzymanie oznacza po prostu zakończenie trenowania przed pełnym zbieżnym dopasowaniem modelu. Na przykład kończysz trenowanie, gdy krzywa utraty dla zbioru walidacyjnego zaczyna rosnąć (nachylenie staje się dodatnie).
Wczesne zatrzymanie zwykle zwiększa stratę na etapie trenowania, ale może zmniejszyć stratę na etapie testowania.
Wczesne zatrzymywanie jest szybką, ale rzadko optymalną formą regularyzacji. Wygenerowany model raczej nie będzie tak dobry jak model wytrenowany przy użyciu optymalnej wartości współczynnika regularyzacji.
Znajdowanie równowagi między szybkością uczenia się a szybkością regularyzacji
Tempo uczenia się i tempo regularyzacji mają tendencję do przesuwania wag w przeciwnych kierunkach. Wysokie tempo uczenia się często odciąga wagi od zera, a wysoka regularyzacja powoduje, że wagi zbliżają się do zera.
Jeśli stopień regularyzacji jest wysoki w stosunku do szybkości uczenia się, słabe wagi mają tendencję do tworzenia modelu, który generuje słabe prognozy. Natomiast jeśli tempo uczenia się jest wysokie w stosunku do szybkości regularyzacji, duże wagi mają tendencję do tworzenia modelu nadmiernie dopasowanego.
Twoim celem jest znalezienie równowagi między szybkością uczenia się a szybkością regularyzacji. Może to być trudne. Co gorsza, gdy już znajdziesz ten trudny do osiągnięcia balans, możesz ostatecznie zmienić szybkość uczenia się. Po zmianie szybkości uczenia się ponownie trzeba będzie znaleźć optymalną szybkość regularyzacji.