Переобучение: регуляризация L2

L2- регуляризация — это популярная метрика регуляризации, использующая следующую формулу:

$$L_2\text{ regularization } = {w_1^2 + w_2^2 + ... + w_n^2}$$

Например, в следующей таблице показан расчет L2- регуляризации для модели с шестью весами:

Ценить Квадрат значения
в 1 0.2 0,04
w 2 -0.5 0,25
в 3 5.0 25.0
w 4 -1.2 1.44
w 5 0.3 0,09
w 6 -0.1 0,01
26,83 = всего

Обратите внимание, что веса, близкие к нулю, не сильно влияют на L2- регуляризацию, но большие веса могут оказать огромное влияние. Например, в приведенном выше расчете:

  • Один весовой коэффициент (w 3 ) составляет около 93% от общей сложности.
  • Остальные пять весовых коэффициентов в совокупности составляют лишь около 7% от общей сложности.

L2- регуляризация способствует приближению весов к нулю, но никогда не обнуляет их полностью.

Упражнения: Проверьте свои знания

Что обычно происходит с общей сложностью модели при использовании L2- регуляризации во время обучения?
Общая сложность системы, вероятно, снизится.
Поскольку L2- регуляризация способствует приближению весов к нулю, общая сложность, вероятно, снизится.
Общая сложность модели, вероятно, останется неизменной.
Это крайне маловероятно.
Общая сложность модели, вероятно, возрастет.
Это маловероятно. Помните, что L2- регуляризация способствует приближению весов к нулю.
При использовании L2- регуляризации во время обучения модели некоторые признаки будут удалены из модели.
Истинный
Хотя L2- регуляризация может сделать некоторые веса очень малыми, она никогда не обнулит ни один из весов. Следовательно, все признаки по-прежнему будут вносить свой вклад в модель.
ЛОЖЬ
L2 - регуляризация никогда не обнуляет веса полностью.

Коэффициент регуляризации (лямбда)

Как уже отмечалось, обучение направлено на минимизацию определенного сочетания потерь и сложности:

$$\text{minimize(loss} + \text{ complexity)}$$

Разработчики моделей регулируют общее влияние сложности на обучение модели, умножая её значение на скалярную величину, называемую коэффициентом регуляризации . Греческий символ лямбда обычно обозначает коэффициент регуляризации.

То есть разработчики моделей стремятся к следующему:

$$\text{minimize(loss} + \lambda \text{ complexity)}$$

Высокий уровень регуляризации:

  • Усиливает влияние регуляризации, тем самым снижая вероятность переобучения.
  • Как правило, это приводит к созданию гистограммы весовых коэффициентов модели, обладающей следующими характеристиками:
    • нормальное распределение
    • средний вес равен 0.

Низкий уровень регуляризации:

  • Снижает влияние регуляризации, тем самым увеличивая вероятность переобучения.
  • Как правило, это приводит к получению гистограммы весов модели с равномерным распределением.

Например, гистограмма весов модели для высокой степени регуляризации может выглядеть так, как показано на рисунке 18.

Рисунок 18. Гистограмма весов модели со средним значением, равным нулю, и нормальным распределением.
Рисунок 18. Гистограмма весов для высокой степени регуляризации. Среднее значение равно нулю. Нормальное распределение.

Напротив, низкий уровень регуляризации, как правило, приводит к более плоской гистограмме, как показано на рисунке 19.

Рисунок 19. Гистограмма весов модели со средним значением, равным нулю, которая находится где-то между плоским распределением и нормальным распределением.
Рисунок 19. Гистограмма весов для низкой степени регуляризации. Среднее значение может быть равно нулю, а может и не быть.

Выбор коэффициента регуляризации

Идеальный уровень регуляризации позволяет получить модель, хорошо обобщающую на новые, ранее не встречавшиеся данные. К сожалению, это идеальное значение зависит от данных, поэтому необходимо провести некоторые дополнительные измерения.настройка.

Ранняя остановка: альтернатива регуляризации, основанной на сложности.

Ранняя остановка — это метод регуляризации, не требующий вычисления сложности. Вместо этого ранняя остановка просто означает завершение обучения до того, как модель полностью сойдется. Например, обучение завершается, когда кривая потерь для валидационного набора данных начинает расти (наклон становится положительным).

Хотя преждевременное прекращение тренировок обычно увеличивает потери в результатах, они могут уменьшить потери в результатах тестов.

Ранняя остановка — это быстрый, но редко оптимальный способ регуляризации. Полученная модель вряд ли будет так же хороша, как модель, тщательно обученная на идеальном уровне регуляризации.

Нахождение равновесия между скоростью обучения и скоростью регуляризации.

Скорость обучения и скорость регуляризации, как правило, перемещают веса в противоположных направлениях. Высокая скорость обучения часто отдаляет веса от нуля; высокая скорость регуляризации приближает веса к нулю.

Если коэффициент регуляризации высок по отношению к скорости обучения, слабые веса, как правило, приводят к созданию модели с плохими прогнозами. И наоборот, если скорость обучения высока по отношению к коэффициенту регуляризации, сильные веса, как правило, приводят к созданию модели с переобучением.

Ваша цель — найти равновесие между скоростью обучения и скоростью регуляризации. Это может быть непросто. Хуже всего то, что, найдя этот неуловимый баланс, вам, возможно, в конечном итоге придется изменить скорость обучения. А когда вы измените скорость обучения, вам снова придется найти идеальную скорость регуляризации.