Надмірне навчання: регуляризація L2

L2 – популярний показник регуляризації з такою формулою:

$$L_2\text{ regularization } = {w_1^2 + w_2^2 + ... + w_n^2}$$

Наприклад, у таблиці нижче наведено значення регуляризації L2, обчислені для моделі із шістьма коефіцієнтами ваги.

Значення Значення у квадраті
w1 0,2 0,04
w2 –0,5 0,25
w3 5,0 25,0
w4 –1,2 1,44
w5 0,3 0,09
w6 –0,1 0,01
    Усього: 26,83

Зверніть увагу, що значення ваги, близькі до нуля, не сильно впливають на регуляризацію L2, а от великі можуть мати значний вплив. Наприклад, зі значень ваги, наведених у таблиці вище:

  • одне (w3) становить приблизно 93% від загальної складності;
  • інші п’ять разом складають лише близько 7% від неї.

Регуляризація L2 сприяє наближенню значень ваги до 0, але не перетворює їх на це число.

Вправи. Перевірте свої знання

Якщо використовувати регуляризацію L2 під час навчання моделі, що, найімовірніше, станеться з її загальною складністю?
Імовірно, загальна складність моделі знизиться.
Оскільки регуляризація L2 сприяє наближенню значень ваги до 0, загальна складність, імовірно, знизиться.
Імовірно, загальна складність моделі залишиться незмінною.
Це дуже малоймовірно.
Вірогідно, загальна складність моделі підвищиться.
Це малоймовірно. Пам’ятайте, що регуляризація L2 сприяє наближенню значень ваги до 0.
Якщо використовувати регуляризацію L2 під час навчання моделі, деякі ознаки буде видалено з неї.
Правда
Через регуляризацію L2 деякі значення ваги можуть стати дуже малими, проте ніколи не зрівняються з нулем. Отже, модель усе одно враховуватиме всі ознаки.
Неправда
Через регуляризацію L2 значення ваги ніколи не зрівняються з нулем.

Коефіцієнт регуляризації (лямбда)

Як уже зазначалося, у процесі навчання модель намагається мінімізувати комбінацію втрат і складності:

$$\text{minimize(loss} + \text{ complexity)}$$

Розробники налаштовують загальний вплив складності на навчання моделі, множачи її значення на скаляр, який називається коефіцієнтом регуляризації. Його зазвичай символізує грецький символ лямбда.

Тобто розробники моделі прагнуть застосувати ось що:

$$\text{minimize(loss} + \lambda \text{ complexity)}$$

Високий коефіцієнт регуляризації

  • Посилює вплив регуляризації, тим самим зменшуючи ймовірність надмірного навчання.
  • Має тенденцію створювати гістограму значень ваги моделі з такими характеристиками:
    • нормальний розподіл;
    • середня вага становить 0.

Низький коефіцієнт регуляризації

  • Зменшує вплив регуляризації, тим самим збільшуючи ймовірність надмірного навчання.
  • Має тенденцію створювати гістограму значень ваги моделі з плоским розподілом.

Наприклад, гістограма значень ваги моделі для високого коефіцієнта регуляризації може виглядати так, як показано на рисунку 18.

Рисунок 18. Гістограма коефіцієнтів ваги моделі із середнім значенням, що дорівнює нулю, і нормальним розподілом.
Рисунок 18. Гістограма значень ваги для високого коефіцієнта регуляризації. Середнє значення дорівнює нулю. Нормальний розподіл.

 

А низький коефіцієнт регуляризації має тенденцію давати більш плоску гістограму, як показано на рисунку 19.

Рисунок 19. Гістограма коефіцієнтів ваги моделі із середнім значенням, що дорівнює нулю, і поєднанням плоского й нормального розподілу.
Рисунок 19. Гістограма значень ваги для низького коефіцієнта регуляризації. Середнє значення може дорівнювати нулю, але не обов’язково.

 

Вибір коефіцієнта регуляризації

Якщо правильно вибрати коефіцієнт регуляризації, створена модель добре узагальнюватиме нові, раніше невідомі дані. На жаль, ідеальне значення залежить від даних, тому слід виконати налаштування.

Рання зупинка: альтернатива регуляризації на основі складності

Рання зупинка – це метод регуляризації, який не передбачає обчислення складності. Натомість рання зупинка – це просто завершення навчання до того, як модель досягне повної збіжності. Наприклад, можна завершити навчання, коли крива втрат для набору даних для перевірки починає зростати (нахил стає позитивним).

Рання зупинка зазвичай збільшує втрати під час навчання, проте може зменшити їх при тестуванні.

Рання зупинка – це швидка, але рідко оптимальна форма регуляризації. Отримана модель навряд чи демонструватиме настільки гарні результати, як модель, що пройшла ретельне навчання з ідеальним коефіцієнтом регуляризації.

Пошук балансу між швидкістю навчання й коефіцієнтом регуляризації

Швидкість навчання й коефіцієнт регуляризації мають тенденцію тягнути значення ваги в протилежних напрямках. Висока швидкість навчання часто віддаляє значення ваги від нуля, тоді як високий коефіцієнт регуляризації наближає їх до нього.

Якщо коефіцієнт регуляризації високий відносно швидкості навчання, малі значення ваги зазвичай формують модель, яка робить погані прогнози. І навпаки, якщо швидкість навчання висока відносно коефіцієнта регуляризації, через великі значення ваги модель зазвичай надмірно навчається.

Мета – знайти баланс між швидкістю навчання й коефіцієнтом регуляризації. Це може бути складним завданням. Найгірше те, що вам може знадобитися радикально змінити швидкість навчання після того, як ви знайдете цей невловимий баланс. Через що доведеться знову шукати ідеальний коефіцієнт регуляризації.