Регуляризация для простоты: лямбда

Разработчики моделей настраивают общее влияние термина регуляризации, умножая его значение на скаляр, известный как лямбда (также называемый коэффициентом регуляризации ). То есть разработчики модели стремятся сделать следующее:

$$\text{minimize(Loss(Data|Model)} + \lambda \text{ complexity(Model))}$$

Выполнение регуляризации L 2 оказывает на модель следующий эффект:

  • Поощряет значения веса приближаться к 0 (но не точно к 0)
  • Поощряет среднее значение весов приближаться к 0 с нормальным (колокольчатым или гауссовским) распределением.

Увеличение значения лямбды усиливает эффект регуляризации. Например, гистограмма весов для высокого значения лямбда может выглядеть, как показано на рисунке 2.

Гистограмма весов модели со средним значением, равным нулю, и нормальным распределением.

Рисунок 2. Гистограмма весов.

Уменьшение значения лямбды приводит к более плоской гистограмме, как показано на рисунке 3.

Гистограмма весов модели со средним значением, равным нулю, что находится где-то между плоским и нормальным распределением.

Рисунок 3. Гистограмма весов, полученная по более низкому значению лямбды.

При выборе значения лямбда цель состоит в том, чтобы найти правильный баланс между простотой и соответствием обучающих данных:

  • Если значение лямбды слишком велико, ваша модель будет простой, но вы рискуете не соответствовать своим данным. Ваша модель не будет знать достаточно данных обучения, чтобы делать полезные прогнозы.

  • Если значение лямбды слишком низкое, ваша модель будет более сложной, и вы рискуете переопределить свои данные. Ваша модель узнает слишком много об особенностях обучающих данных и не сможет обобщать новые данные.

Идеальное значение лямбды создает модель, которая хорошо обобщается на новые, ранее невидимые данные. К сожалению, идеальное значение лямбды зависит от данных, поэтому вам придется выполнить некоторую настройку.