Ta strona została przetłumaczona przez Cloud Translation API.

Regularyzacja dla prostoty: lambda

Deweloperzy modeli dostosowują ogólny wpływ warunku regularyzacji, mnożąc jego wartość przez wartość skalarną znaną jako lambda (zwaną też częstotliwością regularyzacji). Oznacza to, że deweloperzy modeli dążą do:

$$\text{minimize(Loss(Data|Model)} + \lambda \text{ complexity(Model))}$$

Regularyzacja L₂ ma następujący wpływ na model:

Zachęcają do wartości wagi do 0 (ale nie dokładnie 0)
Zachęca do średniej wagi w kierunku 0 z rozkładem normalnym (dzwonka lub Gaussa).

Zwiększenie wartości parametru lambda wzmacnia efekt regularyzacji. Na przykład histogram wag dla wysokiej wartości parametru lambda może wyglądać tak, jak na rys. 2.

Histogram wag modelu ze średnią zerową i rozkładem normalnym.

Rysunek 2. Histogram wag.

Obniżenie wartości parametru lambda pozwala zwykle uzyskać płaski histogram, jak to widać na Rysunku 3.

Histogram wag modelu ze średnią zerową, która znajduje się gdzieś między rozkładem płaskim a rozkładem normalnym.

Rysunek 3. Histogram wag uzyskany przy niższej wartości lambda.

Wybierając wartość lambda, należy zachować odpowiednią równowagę między prostotą korzystania z danych treningowych a dopasowaniem danych treningowych:

Jeśli wartość parametru lambda jest za wysoka, model będzie prosty, ale ryzykujesz niedopasowanie danych. Model nie będzie miał wystarczająco dużo informacji o danych treningowych, aby wygenerować przydatne prognozy.
Jeśli wartość lambda będzie za niska, model będzie bardziej złożony i będzie się wtedy ryzyko nadmiernego dopasowania danych. Model nauczy się zbyt wiele o szczegółach danych treningowych i nie będzie w stanie uogólnić ich na nowe dane.

Idealna wartość funkcji lambda tworzy model, który dobrze się uogólnia do nowych, wcześniej niewidocznych danych. Ta idealna wartość funkcji lambda zależy od danych, więc musisz.

Kliknij ikonę plusa, aby dowiedzieć się więcej o regularizacji i tempie uczenia się L₂.

Tempo uczenia się i lambda są ze sobą ściśle powiązane. Silne wartości regularyzacji L₂ zazwyczaj zwiększają wagę cech zbliżoną do zera. Niższe wskaźniki uczenia się (z wcześniejszym zatrzymywaniem) często dają taki sam efekt, ponieważ kroki od zera nie są tak duże. W rezultacie jednoczesne dostosowywanie tempa uczenia się i lambda może mieć skomplikowane efekty.

Wczesne zatrzymanie oznacza zakończenie trenowania, zanim model w pełni osiągnie zbieżność. W praktyce często kończymy z większym wyprzedzeniem uczenie się online w trybie ciągłym. Oznacza to, że w przypadku niektórych nowych trendów nie udało się jeszcze zebrać wystarczająco dużo danych, by je połączyć.

Jak już wspomnieliśmy, efekty zmian parametrów regularyzacji mogą być wynikiem zmian tempa uczenia się lub liczby iteracji. Jedną z przydatnych metod (przy trenowaniu na stałej porcji danych) jest zapewnienie tak dużej liczby iteracji, że wczesne zatrzymywanie nie ma znaczenia.

Wstecz

Regularizacja L2

Dalej

Ćwiczenie na placu zabaw: regularyzacja L2

wcześniejsze zatrzymywanie	lambda
częstotliwość regularnej

Regularyzacja dla prostoty: lambda

Kliknij ikonę plusa, aby dowiedzieć się więcej o regularizacji i tempie uczenia się L2.

Kliknij ikonę plusa, aby dowiedzieć się więcej o regularizacji i tempie uczenia się L₂.