Регуляризация L 2 — это популярная метрика регуляризации, которая использует следующую формулу:
Например, в следующей таблице показан расчет регуляризации L 2 для модели с шестью весами:
Ценить | Квадратное значение | |
---|---|---|
ш 1 | 0,2 | 0,04 |
ш 2 | -0,5 | 0,25 |
ш 3 | 5.0 | 25,0 |
ш 4 | -1,2 | 1.44 |
ш 5 | 0,3 | 0,09 |
ш 6 | -0,1 | 0,01 |
26,83 = всего |
Обратите внимание, что веса, близкие к нулю, не сильно влияют на регуляризацию L2 , но большие веса могут иметь огромное влияние. Например, в предыдущем расчете:
- Один вес (w 3 ) составляет около 93% общей сложности.
- Остальные пять весов в совокупности составляют лишь около 7% общей сложности.
Регуляризация L2 поощряет веса к 0, но никогда не доводит веса до нуля.
Упражнения: проверьте свое понимание
Скорость регуляризации (лямбда)
Как уже отмечалось, обучение пытается минимизировать некоторую комбинацию потерь и сложности:
Разработчики моделей настраивают общее влияние сложности на обучение модели, умножая ее значение на скаляр, называемый коэффициентом регуляризации . Греческий символ лямбда обычно символизирует степень регуляризации.
То есть разработчики модели стремятся сделать следующее:
Высокий уровень регуляризации:
- Усиливает влияние регуляризации, тем самым снижая вероятность переобучения.
- Имеет тенденцию создавать гистограмму весов модели, имеющую следующие характеристики:
- нормальное распределение
- средний вес 0.
Низкий уровень регуляризации:
- Снижает влияние регуляризации, тем самым увеличивая вероятность переобучения.
- Имеет тенденцию создавать гистограмму весов модели с плоским распределением.
Например, гистограмма весов модели для высокой степени регуляризации может выглядеть так, как показано на рисунке 18.
Напротив, низкий уровень регуляризации имеет тенденцию давать более плоскую гистограмму, как показано на рисунке 19.
Выбор ставки регуляризации
Идеальная скорость регуляризации создает модель, которая хорошо обобщается на новые, ранее невидимые данные. К сожалению, это идеальное значение зависит от данных, поэтому вам придется сделать некоторыетюнинг.
Ранняя остановка: альтернатива регуляризации на основе сложности
Ранняя остановка — это метод регуляризации, который не требует расчета сложности. Вместо этого ранняя остановка просто означает прекращение обучения до того, как модель полностью сходится. Например, вы завершаете обучение, когда кривая потерь для набора проверки начинает увеличиваться (наклон становится положительным).
Хотя ранняя остановка обычно увеличивает потери при обучении, она может уменьшить потери при тестировании.
Ранняя остановка — это быстрая, но редко оптимальная форма регуляризации. Полученная модель вряд ли будет так же хороша, как модель, тщательно обученная на идеальной скорости регуляризации.
Нахождение равновесия между скоростью обучения и скоростью регуляризации
Скорость обучения и скорость регуляризации имеют тенденцию тянуть веса в противоположных направлениях. Высокая скорость обучения часто отклоняет веса от нуля; высокий уровень регуляризации приближает веса к нулю.
Если уровень регуляризации высок по сравнению со скоростью обучения, слабые веса имеют тенденцию создавать модель, которая дает плохие прогнозы. И наоборот, если скорость обучения высока по сравнению со скоростью регуляризации, сильные веса имеют тенденцию создавать модель переобучения.
Ваша цель — найти баланс между скоростью обучения и скоростью регуляризации. Это может быть непросто. Хуже всего то, что как только вы найдете этот неуловимый баланс, вам, возможно, придется в конечном итоге изменить скорость обучения. И когда вы измените скорость обучения, вам снова придется найти идеальную скорость регуляризации.