Nadmierne dopasowanie: regularyzacja L2

L2 regularyzacja to popularny rodzaj danych regularyzacji wykorzystujący następujący wzór:

$$L_2\text{ regularization } = {w_1^2 + w_2^2 + ... + w_n^2}$$

Na przykład w tej tabeli pokazano obliczenie L2 regularyzacja modelu o 6 wagach:

Wartość Wartość do kwadratu
t1 0,2 0,04
t2 –0,5 0,25
t3 5,0 25,0
t4 –1,2 1,44
t5 0,3 0,09
t6 –0,1 0,01
    26,83 = łącznie

Zwróć uwagę, że wagi bliskie zera nie mają wpływu na regularyzację L2. ale duże ciężary mogą mieć ogromny wpływ. Na przykład w tagu poprzedzające obliczenia:

  • Pojedyncza waga (W3) odpowiada za około 93% i ogólnej złożoności.
  • Pozostałe 5 wag łącznie odpowiada za około 7% i ogólnej złożoności.

Regularyzacja L2 zachęca do wyznaczania wag w kierunku 0, ale nigdy nie popycha waży aż do zera.

Ćwiczenia: sprawdź swoją wiedzę

Jeśli podczas trenowania modelu używasz regularyzacji L2, zwykle dotyczy ogólnej złożoności modelu?
Ogólna złożoność systemu prawdopodobnie się zmniejszy.
Ponieważ regularyzacja L2 zachęca do przypisywania wag do wartości 0, i ich złożoność.
Ogólna złożoność modelu prawdopodobnie się nie zmieni. jest stała.
Jest to mało prawdopodobne.
Ogólna złożoność modelu prawdopodobnie wzrośnie.
To mało prawdopodobne. Pamiętaj, że regularyzacja L2 zachęca do ważenia w kierunku 0.
Jeśli podczas trenowania modelu używasz regularyzacji L2, Niektóre funkcje zostaną usunięte z modelu.
Prawda
Chociaż regularyzacja L2 może powodować, że niektóre wagi nie przekroczy nigdy żadnych ciężarów do zera. Oznacza to, że wszystkie funkcje nadal będą miały swój wkład w modelu.
Fałsz
Regularyzacja L2 nigdy nie przenosi ciężarów do poziomu zero.

Współczynnik regularyzacji (lambda)

Jak już wspomniano, trenowanie ma na celu zminimalizowanie pewnej kombinacji strat i złożoności:

$$\text{minimize(loss} + \text{ complexity)}$$

Programiści modeli dostrajają ogólny wpływ złożoności na trenowanie modelu mnożąc jego wartość przez wartość skalarną, która nazywa się częstotliwość regularyzacji. Grecka litera lambda zazwyczaj symbolizuje szybkość regularyzacji.

Oznacza to, że deweloperzy modeli starają się:

$$\text{minimize(loss} + \lambda \text{ complexity)}$$

Wysoki współczynnik regularyzacji:

  • Wzmacnia wpływ regularyzacji, zmniejszając w ten sposób szanse na nadmiernego dopasowania.
  • Zwykle generuje histogram wag modelu o następujących wartościach: cechy:
    • rozkład normalny
    • średnia waga 0.

Niski współczynnik regularyzacji:

  • Zmniejsza wpływ regularyzacji, co zwiększa szanse na nadmiernego dopasowania.
  • Zwykle generuje histogram wag modelu o płaskim rozkładzie.

Na przykład histogram wag modelu dla wysokiego współczynnika regularyzacji może wyglądać tak, jak na rys. 18.

Rysunek 18. Histogram ze średnią wagową modelu ze średnią zerową
            rozkładu normalnego.
Rysunek 18. Histogram wagowy dla wysokiego współczynnika regularyzacji. Średnia wynosi 0. Rozkład normalny.

 

Niski współczynnik regularyzacji zwykle pozwala natomiast uzyskać płaski histogram, na rys. 19.

Rysunek 19. Histogram ze średnią wagową modelu ze średnią zerową,
            jest gdzieś pomiędzy rozkładem płaskim a normalnym
            dystrybucji danych.
Rysunek 19. Histogram wagowy dla niskiej szybkości regularyzacji. Średnia może wynosić zero, ale nie musi.

 

Wybieranie współczynnika regularyzacji

Idealna szybkość regularyzacji daje model, który dobrze uogólnia nowych, niewyświetlanych wcześniej danych. Ta idealna wartość zależy jednak od danych, dlatego musisz i dostrajania.

Wcześniejsze zatrzymanie: alternatywa dla regularyzacji na podstawie złożoności

Wczesne zatrzymanie to metoda regularyzacji, która nie obejmuje obliczania złożoności. Zamiast tego wczesne zatrzymanie oznacza po prostu zakończenie trenowania modelu przed modelem są całkowicie zgodne. Na przykład trenowanie kończy się, gdy krzywa strat dla zestawu do walidacji zaczyna rosnąć (nachylenie staje się dodatnie).

Chociaż wczesne zatrzymanie zazwyczaj zwiększa utratę treningów, może jednak się zmniejszyć straty testu.

Wczesne zatrzymanie to szybka, ale rzadko optymalna forma regularyzacji. Jest mało prawdopodobne, że wynikowy model będzie tak dobry jak model wytrenowany na idealnym tempie regularyzacji.

Znalezienie równowagi między tempem uczenia się a tempem regularyzacji

Tempo uczenia się oraz współczynnik regularyzacji przyciąga wagi na odwrót wskazówek dojazdu. Wysokie tempo uczenia się powoduje często odejmowanie od zera; wysoki współczynnik regularyzacji powoduje pobieranie wagi w stronę 0.

Jeśli współczynnik regularyzacji jest wysoki w odniesieniu do tempa uczenia się, niskie wagi zwykle generują model, który nie zgadza się z nimi. Jeśli natomiast tempo uczenia się jest wysokie w odniesieniu do regularyzacji, duże ciężary powodują zwykle niedopasowany model.

Twoim celem jest znalezienie równowagi między szybkością uczenia się jest współczynnik regularyzacji. To może być trudne. A najgorsze, że gdy znajdziesz aby znaleźć równowagę, być może trzeba będzie zmienić tempo uczenia się. Przy zmianie tempa uczenia się znowu trzeba znaleźć jest współczynnik regularyzacji.