Nadmierne dopasowanie: regularyzacja L2

Regularyzacja L2to popularny rodzaj regularyzacji, który wykorzystuje ten wzór:

$$L_2\text{ regularization } = {w_1^2 + w_2^2 + ... + w_n^2}$$

Na przykład w tabeli poniżej przedstawiono obliczenie regularyzacji L2 w przypadku modelu z 6 wagami:

Wartość Wartość kwadratowa
w1 0,2 0,04
2 -0,5 0,25
3 5,0 25,0
w4 -1,2 1.44
w5 0,3 0,09
6 -0,1 0,01
    26,83 = razem

Zwróć uwagę, że wagi zbliżone do zera nie mają większego wpływu na regularyzację L2, ale duże wagi mogą mieć ogromny wpływ. Na przykład w poprzednim obliczeniu:

  • Pojedyncza waga (w3) odpowiada za około 93% całkowitej złożoności.
  • Pozostałe 5 wag łącznie stanowi tylko około 7% łącznej złożoności.

Regularyzacja L2 powoduje, że wagi zmierzają do 0, ale nigdy nie dążą do zera.

Ćwiczenia: sprawdź swoją wiedzę

Jeśli podczas trenowania modelu używasz regularyzacji L2, co zazwyczaj dzieje się z ogólną złożonością modelu?
Ogólna złożoność systemu prawdopodobnie spadnie.
Regularyzacja L2 powoduje, że wagi zbliżają się do 0, a ogólna złożoność prawdopodobnie spadnie.
Ogólna złożoność modelu prawdopodobnie pozostanie niezmienna.
Jest to mało prawdopodobne.
Ogólna złożoność modelu prawdopodobnie wzrośnie.
Jest to mało prawdopodobne. Pamiętaj, że regularyzacja L2 powoduje, że wagi zbliżają się do 0.
Jeśli podczas trenowania modelu użyjesz regularyzacji L2, niektóre cechy zostaną z niego usunięte.
Prawda
Chociaż regularyzacja L2 może sprawić, że niektóre wagi będą bardzo małe, nigdy nie spowoduje, że wagi będą równe zeru. W rezultacie wszystkie cechy będą nadal w jakimś stopniu wpływać na model.
Fałsz
Regularyzacja L2 nigdy nie powoduje, że wagi są ustawiane na zero.

Współczynnik regularyzacji (lambda)

Jak już wspomnieliśmy, trenowanie próbuje zminimalizować pewną kombinację straty i złożoności:

$$\text{minimize(loss} + \text{ complexity)}$$

Deweloperzy modeli dostosowują ogólny wpływ złożoności na trenowanie modelu, mnożąc jej wartość przez wektor skalarny o nazwie stopień regularyzacji. Grecka litera lambda zazwyczaj symbolizuje współczynnik regularyzacji.

Oznacza to, że twórcy modeli starają się:

$$\text{minimize(loss} + \lambda \text{ complexity)}$$

Wysoki współczynnik regularyzacji:

  • Zwiększa wpływ regularyzacji, co zmniejsza ryzyko przetrenowania.
  • Zwykle generuje histogram wag modelu o tych cechach:
    • rozkładu normalnego.
    • średnia waga 0.

Niski współczynnik regularyzacji:

  • Zmniejsza wpływ regularyzacji, zwiększając tym samym ryzyko przetrenowania.
  • Zwykle generuje histogram wag modelu o płaskiej dystrybucji.

Na przykład histogram wag modelu przy wysokiej regularyzacji może wyglądać jak na rysunku 18.

Rysunek 18. Histogram wag modelu ze średnią równą 0 i rozkładem normalnym.
Rysunek 18. Histogram wag przy wysokim współczynniku regularyzacji. Średnia wynosi 0. Rozkład normalny.

 

Natomiast niska stopa regularyzacji powoduje, że histogram jest bardziej płaski, jak widać na rysunku 19.

Rysunek 19. Histogram wag modelu ze średnią 0, który jest gdzieś pomiędzy rozkładem płaskim a rozkładem normalnym.
Rysunek 19. Histogram wag dla niskiego współczynnika regularyzacji. Średnia może, ale nie musi być równa zeru.

 

Wybór szybkości regularyzacji

Idealna stopa regularyzacji tworzy model, który dobrze generalizuje nowe, wcześniej niewidziane dane. Ta idealna wartość zależy jednak od danych, więc musisz ją dostosować dostrajanie.

Wczesne zatrzymywanie: alternatywa dla regularyzacji opartej na złożoności

Wczesne zatrzymywanie to metoda regularyzacji, która nie wymaga obliczania złożoności. Wczesne zatrzymanie oznacza po prostu zakończenie trenowania przed pełnym zbieżnym dopasowaniem modelu. Na przykład kończysz trenowanie, gdy krzywa utraty dla zbioru walidacyjnego zaczyna rosnąć (nachylenie staje się dodatnie).

Wczesne zatrzymanie zwykle zwiększa stratę na etapie trenowania, ale może zmniejszyć stratę na etapie testowania.

Wczesne zatrzymywanie jest szybką, ale rzadko optymalną formą regularyzacji. Wygenerowany model raczej nie będzie tak dobry jak model wytrenowany przy użyciu optymalnej wartości współczynnika regularyzacji.

Znajdowanie równowagi między szybkością uczenia się a szybkością regularyzacji

Tempo uczenia się i tempo regularyzacji mają tendencję do przesuwania wag w przeciwnych kierunkach. Wysokie tempo uczenia się często odciąga wagi od zera, a wysoka regularyzacja powoduje, że wagi zbliżają się do zera.

Jeśli stopień regularyzacji jest wysoki w stosunku do szybkości uczenia się, słabe wagi mają tendencję do tworzenia modelu, który generuje słabe prognozy. Natomiast jeśli tempo uczenia się jest wysokie w stosunku do szybkości regularyzacji, duże wagi mają tendencję do tworzenia modelu nadmiernie dopasowanego.

Twoim celem jest znalezienie równowagi między szybkością uczenia się a szybkością regularyzacji. Może to być trudne. Co gorsza, gdy już znajdziesz ten trudny do osiągnięcia balans, możesz ostatecznie zmienić szybkość uczenia się. Po zmianie szybkości uczenia się ponownie trzeba będzie znaleźć optymalną szybkość regularyzacji.