Regularyzacja dla prostoty: lambda

Deweloperzy modeli dostosowują ogólny wpływ warunku regularyzacji, mnożąc jego wartość przez wartość skalarną znaną jako lambda (zwaną też częstotliwością regularyzacji). Oznacza to, że deweloperzy modeli dążą do:

$$\text{minimize(Loss(Data|Model)} + \lambda \text{ complexity(Model))}$$

Regularyzacja L2 ma następujący wpływ na model:

  • Zachęcają do wartości wagi do 0 (ale nie dokładnie 0)
  • Zachęca do średniej wagi w kierunku 0 z rozkładem normalnym (dzwonka lub Gaussa).

Zwiększenie wartości parametru lambda wzmacnia efekt regularyzacji. Na przykład histogram wag dla wysokiej wartości parametru lambda może wyglądać tak, jak na rys. 2.

Histogram wag modelu ze średnią zerową i rozkładem normalnym.

Rysunek 2. Histogram wag.

Obniżenie wartości parametru lambda pozwala zwykle uzyskać płaski histogram, jak to widać na Rysunku 3.

Histogram wag modelu ze średnią zerową, która znajduje się gdzieś między rozkładem płaskim a rozkładem normalnym.

Rysunek 3. Histogram wag uzyskany przy niższej wartości lambda.

Wybierając wartość lambda, należy zachować odpowiednią równowagę między prostotą korzystania z danych treningowych a dopasowaniem danych treningowych:

  • Jeśli wartość parametru lambda jest za wysoka, model będzie prosty, ale ryzykujesz niedopasowanie danych. Model nie będzie miał wystarczająco dużo informacji o danych treningowych, aby wygenerować przydatne prognozy.

  • Jeśli wartość lambda będzie za niska, model będzie bardziej złożony i będzie się wtedy ryzyko nadmiernego dopasowania danych. Model nauczy się zbyt wiele o szczegółach danych treningowych i nie będzie w stanie uogólnić ich na nowe dane.

Idealna wartość funkcji lambda tworzy model, który dobrze się uogólnia do nowych, wcześniej niewidocznych danych. Ta idealna wartość funkcji lambda zależy od danych, więc musisz.