Эта страница переведена с помощью Cloud Translation API.

Регуляризация для простоты: лямбда

Разработчики моделей настраивают общее влияние термина регуляризации, умножая его значение на скаляр, известный как лямбда (также называемый коэффициентом регуляризации ). То есть разработчики модели стремятся сделать следующее:

$$\text{minimize(Loss(Data|Model)} + \lambda \text{ complexity(Model))}$$

Выполнение регуляризации L ₂ оказывает на модель следующий эффект:

Поощряет значения веса приближаться к 0 (но не точно к 0)
Поощряет среднее значение весов приближаться к 0 с нормальным (колокольчатым или гауссовским) распределением.

Увеличение значения лямбды усиливает эффект регуляризации. Например, гистограмма весов для высокого значения лямбда может выглядеть, как показано на рисунке 2.

Гистограмма весов модели со средним значением, равным нулю, и нормальным распределением.

Рисунок 2. Гистограмма весов.

Уменьшение значения лямбды приводит к более плоской гистограмме, как показано на рисунке 3.

Гистограмма весов модели со средним значением, равным нулю, что находится где-то между плоским и нормальным распределением.

Рисунок 3. Гистограмма весов, полученная по более низкому значению лямбды.

При выборе значения лямбда цель состоит в том, чтобы найти правильный баланс между простотой и соответствием обучающих данных:

Если значение лямбды слишком велико, ваша модель будет простой, но вы рискуете не соответствовать своим данным. Ваша модель не будет знать достаточно данных обучения, чтобы делать полезные прогнозы.
Если значение лямбды слишком низкое, ваша модель будет более сложной, и вы рискуете переопределить свои данные. Ваша модель узнает слишком много об особенностях обучающих данных и не сможет обобщать новые данные.

Идеальное значение лямбды создает модель, которая хорошо обобщается на новые, ранее невидимые данные. К сожалению, идеальное значение лямбды зависит от данных, поэтому вам придется выполнить некоторую настройку.

Нажмите значок плюса, чтобы узнать о регуляризации _L2 и скорости обучения.

Существует тесная связь между скоростью обучения и лямбдой. Сильные значения регуляризации L ₂ имеют тенденцию приближать веса функций к 0. Более низкие скорости обучения (с ранней остановкой) часто дают тот же эффект, поскольку шаги от 0 не такие большие. Следовательно, одновременная настройка скорости обучения и лямбды может иметь смешанный эффект.

Ранняя остановка означает прекращение обучения до того, как модель полностью достигнет сходимости. На практике мы часто сталкиваемся с некоторой неявной ранней остановкой при обучении онлайн (непрерывно). То есть по некоторым новым тенденциям просто еще недостаточно данных, чтобы сойтись воедино.

Как уже отмечалось, эффекты от изменений параметров регуляризации можно смешивать с эффектами от изменений скорости обучения или количества итераций. Одна полезная практика (при обучении на фиксированном пакете данных) — давать себе достаточно большое количество итераций, чтобы ранняя остановка не влияла на ситуацию.

Регуляризация L2

Упражнение на игровой площадке: регуляризация L2

ранняя остановка	лямбда
ставка регуляризации

Регуляризация для простоты: лямбда

Нажмите значок плюса, чтобы узнать о регуляризации L2 и скорости обучения.

Нажмите значок плюса, чтобы узнать о регуляризации _L2 и скорости обучения.