Nadmierne dopasowanie: regularyzacja L2

Regularyzacja L2 to popularna miara regularyzacji, która korzysta z tego wzoru:

$$L_2\text{ regularization } = {w_1^2 + w_2^2 + ... + w_n^2}$$

Na przykład w tabeli poniżej pokazano obliczenia regularyzacji L2 w przypadku modelu z 6 wagami:

Wartość Wartość podniesiona do kwadratu
w1 0,2 0,04
w2 -0,5 0,25
w3 5,0 25,0
w4 -1,2 1,44
w5 0,3 0,09
w6 -0,1 0,01
    26,83 = łącznie

Zwróć uwagę, że wagi bliskie zera nie mają dużego wpływu na regularyzację L2, ale duże wagi mogą mieć ogromny wpływ. Na przykład w obliczeniach powyżej:

  • Pojedyncza waga (w3) stanowi około 93% całkowitej złożoności.
  • Pozostałe 5 wag ma łącznie tylko około 7% udziału w całkowitej złożoności.

Regularyzacja L2 zachęca wagi do zbliżania się do zera, ale nigdy nie sprowadza ich do zera.

Ćwiczenia: sprawdź swoją wiedzę

Jeśli podczas trenowania modelu używasz regularyzacji L2, co zwykle dzieje się z ogólną złożonością modelu?
Ogólna złożoność systemu prawdopodobnie się zmniejszy.
Regularyzacja L2 zachęca wagi do zbliżania się do 0, więc ogólna złożoność prawdopodobnie się zmniejszy.
Ogólna złożoność modelu prawdopodobnie pozostanie stała.
Jest to bardzo mało prawdopodobne.
Ogólna złożoność modelu prawdopodobnie wzrośnie.
Jest to mało prawdopodobne. Pamiętaj, że regularyzacja L2 zachęca do stosowania wag bliskich 0.
Jeśli podczas trenowania modelu używasz regularyzacji L2, niektóre cechy zostaną z niego usunięte.
Prawda
Regularyzacja L2 może sprawić, że niektóre wagi będą bardzo małe, ale nigdy nie spowoduje, że będą równe zero. W rezultacie wszystkie cechy będą miały pewien wpływ na model.
Fałsz
Regularyzacja L2 nigdy nie sprowadza wag do zera.

Współczynnik regularyzacji (lambda)

Jak wspomnieliśmy, trenowanie ma na celu zminimalizowanie pewnej kombinacji straty i złożoności:

$$\text{minimize(loss} + \text{ complexity)}$$

Twórcy modelu dostosowują ogólny wpływ złożoności na trenowanie modelu, mnożąc jego wartość przez skalar zwany współczynnikiem regularyzacji. Grecka litera lambda zwykle symbolizuje współczynnik regularyzacji.

Oznacza to, że twórcy modeli dążą do:

$$\text{minimize(loss} + \lambda \text{ complexity)}$$

Wysoki współczynnik regularyzacji:

  • Wzmacnia wpływ regularyzacji, a tym samym zmniejsza prawdopodobieństwo przetrenowania.
  • Zwykle tworzy histogram wag modelu o tych cechach:
    • rozkład normalny,
    • średnią wagę 0.

Niski współczynnik regularyzacji:

  • Zmniejsza wpływ regularyzacji, zwiększając tym samym prawdopodobieństwo przetrenowania.
  • Zwykle tworzy histogram wag modelu o płaskim rozkładzie.

Na przykład histogram wag modelu przy wysokim współczynniku regularyzacji może wyglądać tak, jak na rysunku 18.

Rysunek 18. Histogram wag modelu ze średnią równą zero i rozkładem normalnym.
Rysunek 18. Histogram wag przy wysokim współczynniku regularyzacji. Średnia wynosi zero. Rozkład normalny.

 

Z kolei niski współczynnik regularyzacji zwykle daje bardziej płaski histogram, jak pokazano na rysunku 19.

Rysunek 19. Histogram wag modelu ze średnią równą zero, który znajduje się gdzieś pomiędzy rozkładem płaskim a rozkładem normalnym.
Rysunek 19. Histogram wag przy niskim współczynniku regularyzacji. Wartość średnia może być zerowa lub nie.

 

Wybieranie współczynnika regularyzacji

Idealny współczynnik regularyzacji tworzy model, który dobrze uogólnia nowe, wcześniej niewidziane dane. Niestety ta idealna wartość zależy od danych, więc musisz przeprowadzić pewne dostrajanie.

Wczesne zatrzymanie: alternatywa dla regularyzacji opartej na złożoności

Wczesne zatrzymanie to metoda regularyzacji, która nie wymaga obliczania złożoności. Wczesne zatrzymanie oznacza po prostu zakończenie trenowania, zanim model w pełni zbiegnie się do optymalnego rozwiązania. Na przykład trenowanie kończy się, gdy krzywa funkcji straty dla zbioru walidacyjnego zaczyna rosnąć (nachylenie staje się dodatnie).

Wczesne zatrzymanie zwykle zwiększa stratę trenowania, ale może zmniejszyć stratę testowania.

Wczesne zatrzymanie to szybka, ale rzadko optymalna forma regularyzacji. Uzyskany model prawdopodobnie nie będzie tak dobry jak model dokładnie wytrenowany przy użyciu idealnego współczynnika regularyzacji.

Znajdowanie równowagi między tempem uczenia się a współczynnikiem regularyzacji

Tempo uczenia się i tempo regularyzacji zwykle zmieniają wagi w przeciwnych kierunkach. Wysokie tempo uczenia się często odciąga wagi od zera, a wysoki współczynnik regularyzacji przyciąga wagi do zera.

Jeśli współczynnik regularyzacji jest wysoki w stosunku do tempa uczenia się, słabe wagi zwykle prowadzą do powstania modelu, który generuje słabe prognozy. Z kolei jeśli tempo uczenia się jest wysokie w stosunku do tempa regularyzacji, duże wagi mogą prowadzić do nadmiernego dopasowania modelu.

Twoim celem jest znalezienie równowagi między tempem uczenia się a współczynnikiem regularyzacji. Może to być trudne. Co gorsza, gdy znajdziesz tę upragnioną równowagę, może się okazać, że musisz zmienić tempo uczenia się. A gdy zmienisz tempo uczenia się, ponownie musisz znaleźć idealny współczynnik regularyzacji.