L2 – популярний показник регуляризації з такою формулою:
Наприклад, у таблиці нижче наведено значення регуляризації L2, обчислені для моделі із шістьма коефіцієнтами ваги.
Значення | Значення у квадраті | |
---|---|---|
w1 | 0,2 | 0,04 |
w2 | –0,5 | 0,25 |
w3 | 5,0 | 25,0 |
w4 | –1,2 | 1,44 |
w5 | 0,3 | 0,09 |
w6 | –0,1 | 0,01 |
Усього: 26,83 |
Зверніть увагу, що значення ваги, близькі до нуля, не сильно впливають на регуляризацію L2, а от великі можуть мати значний вплив. Наприклад, зі значень ваги, наведених у таблиці вище:
- одне (w3) становить приблизно 93% від загальної складності;
- інші п’ять разом складають лише близько 7% від неї.
Регуляризація L2 сприяє наближенню значень ваги до 0, але не перетворює їх на це число.
Вправи. Перевірте свої знання
Коефіцієнт регуляризації (лямбда)
Як уже зазначалося, у процесі навчання модель намагається мінімізувати комбінацію втрат і складності:
Розробники налаштовують загальний вплив складності на навчання моделі, множачи її значення на скаляр, який називається коефіцієнтом регуляризації. Його зазвичай символізує грецький символ лямбда.
Тобто розробники моделі прагнуть застосувати ось що:
Високий коефіцієнт регуляризації
- Посилює вплив регуляризації, тим самим зменшуючи ймовірність надмірного навчання.
- Має тенденцію створювати гістограму значень ваги моделі з такими характеристиками:
- нормальний розподіл;
- середня вага становить 0.
Низький коефіцієнт регуляризації
- Зменшує вплив регуляризації, тим самим збільшуючи ймовірність надмірного навчання.
- Має тенденцію створювати гістограму значень ваги моделі з плоским розподілом.
Наприклад, гістограма значень ваги моделі для високого коефіцієнта регуляризації може виглядати так, як показано на рисунку 18.
А низький коефіцієнт регуляризації має тенденцію давати більш плоску гістограму, як показано на рисунку 19.
Вибір коефіцієнта регуляризації
Якщо правильно вибрати коефіцієнт регуляризації, створена модель добре узагальнюватиме нові, раніше невідомі дані. На жаль, ідеальне значення залежить від даних, тому слід виконати налаштування.
Рання зупинка: альтернатива регуляризації на основі складності
Рання зупинка – це метод регуляризації, який не передбачає обчислення складності. Натомість рання зупинка – це просто завершення навчання до того, як модель досягне повної збіжності. Наприклад, можна завершити навчання, коли крива втрат для набору даних для перевірки починає зростати (нахил стає позитивним).
Рання зупинка зазвичай збільшує втрати під час навчання, проте може зменшити їх при тестуванні.
Рання зупинка – це швидка, але рідко оптимальна форма регуляризації. Отримана модель навряд чи демонструватиме настільки гарні результати, як модель, що пройшла ретельне навчання з ідеальним коефіцієнтом регуляризації.
Пошук балансу між швидкістю навчання й коефіцієнтом регуляризації
Швидкість навчання й коефіцієнт регуляризації мають тенденцію тягнути значення ваги в протилежних напрямках. Висока швидкість навчання часто віддаляє значення ваги від нуля, тоді як високий коефіцієнт регуляризації наближає їх до нього.
Якщо коефіцієнт регуляризації високий відносно швидкості навчання, малі значення ваги зазвичай формують модель, яка робить погані прогнози. І навпаки, якщо швидкість навчання висока відносно коефіцієнта регуляризації, через великі значення ваги модель зазвичай надмірно навчається.
Мета – знайти баланс між швидкістю навчання й коефіцієнтом регуляризації. Це може бути складним завданням. Найгірше те, що вам може знадобитися радикально змінити швидкість навчання після того, як ви знайдете цей невловимий баланс. Через що доведеться знову шукати ідеальний коефіцієнт регуляризації.