Переобучение: регуляризация L2

Регуляризация L 2 — это популярная метрика регуляризации, которая использует следующую формулу:

$$L_2\text{ regularization } = {w_1^2 + w_2^2 + ... + w_n^2}$$

Например, в следующей таблице показан расчет регуляризации L 2 для модели с шестью весами:

Ценить Квадратное значение
ш 1 0,2 0,04
ш 2 -0,5 0,25
ш 3 5.0 25,0
ш 4 -1,2 1.44
ш 5 0,3 0,09
ш 6 -0,1 0,01
26,83 = всего

Обратите внимание, что веса, близкие к нулю, не сильно влияют на регуляризацию L2 , но большие веса могут иметь огромное влияние. Например, в предыдущем расчете:

  • Один вес (w 3 ) составляет около 93% общей сложности.
  • Остальные пять весов в совокупности составляют лишь около 7% общей сложности.

Регуляризация L2 поощряет веса к 0, но никогда не доводит веса до нуля.

Упражнения: проверьте свое понимание

Если вы используете регуляризацию L2 при обучении модели, что обычно происходит с общей сложностью модели?
Общая сложность системы, вероятно, снизится.
Поскольку регуляризация L2 способствует тому, что веса приближаются к 0, общая сложность, вероятно, снизится.
Общая сложность модели, вероятно, останется постоянной.
Это очень маловероятно.
Общая сложность модели, вероятно, увеличится.
Это маловероятно. Помните, что регуляризация L2 способствует тому, что веса приближаются к 0.
Если вы используете регуляризацию L 2 во время обучения модели, некоторые функции будут удалены из модели.
Истинный
Хотя регуляризация L2 может сделать некоторые веса очень маленькими, она никогда не доведет никакие веса до нуля. Следовательно, все функции по-прежнему будут вносить свой вклад в модель.
ЛОЖЬ
Регуляризация L2 никогда не доводит веса до нуля.

Скорость регуляризации (лямбда)

Как уже отмечалось, обучение пытается минимизировать некоторую комбинацию потерь и сложности:

$$\text{minimize(loss} + \text{ complexity)}$$

Разработчики моделей настраивают общее влияние сложности на обучение модели, умножая ее значение на скаляр, называемый коэффициентом регуляризации . Греческий символ лямбда обычно символизирует степень регуляризации.

То есть разработчики модели стремятся сделать следующее:

$$\text{minimize(loss} + \lambda \text{ complexity)}$$

Высокий уровень регуляризации:

  • Усиливает влияние регуляризации, тем самым снижая вероятность переобучения.
  • Имеет тенденцию создавать гистограмму весов модели, имеющую следующие характеристики:
    • нормальное распределение
    • средний вес 0.

Низкий уровень регуляризации:

  • Снижает влияние регуляризации, тем самым увеличивая вероятность переобучения.
  • Имеет тенденцию создавать гистограмму весов модели с плоским распределением.

Например, гистограмма весов модели для высокой степени регуляризации может выглядеть так, как показано на рисунке 18.

Рисунок 18. Гистограмма весов модели со средним значением, равным нулю, и нормальным распределением.
Рисунок 18. Весовая гистограмма для высокой степени регуляризации. Среднее значение равно нулю. Нормальное распределение.

Напротив, низкий уровень регуляризации имеет тенденцию давать более плоскую гистограмму, как показано на рисунке 19.

Рисунок 19. Гистограмма весов модели со средним значением, равным нулю, что находится где-то между плоским и нормальным распределением.
Рисунок 19. Весовая гистограмма для низкой степени регуляризации. Среднее значение может быть равно нулю, а может и не быть.

Выбор ставки регуляризации

Идеальная скорость регуляризации создает модель, которая хорошо обобщается на новые, ранее невидимые данные. К сожалению, это идеальное значение зависит от данных, поэтому вам придется выполнить некоторую настройку.

Ранняя остановка: альтернатива регуляризации на основе сложности

Ранняя остановка — это метод регуляризации, который не требует расчета сложности. Вместо этого ранняя остановка просто означает прекращение обучения до того, как модель полностью сходится. Например, вы завершаете обучение, когда кривая потерь для набора проверки начинает увеличиваться (наклон становится положительным).

Хотя ранняя остановка обычно увеличивает потери при обучении, она может уменьшить потери при тестировании.

Ранняя остановка — это быстрая, но редко оптимальная форма регуляризации. Полученная модель вряд ли будет так же хороша, как модель, тщательно обученная на идеальной скорости регуляризации.

Нахождение равновесия между скоростью обучения и скоростью регуляризации

Скорость обучения и скорость регуляризации имеют тенденцию тянуть веса в противоположных направлениях. Высокая скорость обучения часто отклоняет веса от нуля; высокий уровень регуляризации приближает веса к нулю.

Если уровень регуляризации высок по сравнению со скоростью обучения, слабые веса имеют тенденцию создавать модель, которая дает плохие прогнозы. И наоборот, если скорость обучения высока по сравнению со скоростью регуляризации, сильные веса имеют тенденцию создавать модель переобучения.

Ваша цель — найти равновесие между скоростью обучения и скоростью регуляризации. Это может быть непросто. Хуже всего то, что как только вы найдете этот неуловимый баланс, вам, возможно, придется в конечном итоге изменить скорость обучения. И когда вы измените скорость обучения, вам снова придется найти идеальную скорость регуляризации.