Надмірне навчання: інтерпретація кривих втрат

Процес машинного навчання був би значно простішим, якби всі ваші криві втрат мали такий вигляд, коли ви вперше навчали свою модель:

Рисунок 20. Графік, що показує ідеальну криву втрат для тренування моделі машинного навчання. На кривій втрат по осі "y" відображаються втрати порівняно з кількістю навчальних кроків по осі "х". Зі збільшенням кількості навчальних кроків втрати спочатку значні, потім зменшуються в геометричній прогресії і, зрештою, досягають мінімальних значень, при цьому лінія графіка вирівнюється. — **Рисунок 20.** Ідеальна крива втрат.

Криві втрат часто важко інтерпретувати. Виконуючи вправи на цій сторінці, покладайтеся на свою інтуїцію.

Вправа 1. Коливальна крива втрат

Рисунок 21. Крива втрат (втрати по осі y; кількість навчальних кроків по осі x), лінія графіка яких не вирівнюється.
Натомість втрати коливаються хаотично. — **Рисунок 21.** Коливальна крива втрат.

Які три дії можна зробити, щоб покращити криву втрат, показану на рисунку 21?

Порівняти відомості зі схемою даних, щоб виявити погані приклади, а потім видалити їх із навчального набору.

Так, це гарний метод для всіх моделей.

Знизити швидкість навчання.

Так, зниження швидкості навчання часто допомагає налагодити його процес.

Скоротити навчальний набір даних до невеликої кількості надійних прикладів.

Хоча здається, що це штучний метод, насправді це хороша ідея. Якщо модель досягає збіжності, коли використовується невеликий набір надійних прикладів, можна поступово додавати їх більшу кількість. Тоді, імовірно, удасться виявити, які з них спричиняють коливання кривої втрат.

Збільшити кількість прикладів у навчальному наборі даних.

Це приваблива ідея, але вона навряд чи вирішить проблему.

Підвищити швидкість навчання.

Зазвичай краще не збільшувати швидкість навчання моделі, якщо відповідна крива вказує на проблему.

Вправа 2. Крива втрат із різким стрибком

Рисунок 22. Графік кривої втрат, на якому видно, що втрати зменшуються до певної кількості навчальних кроків, а потім раптово зростають із кожним наступним навчальним кроком. — **Рисунок 22.** Різке зростання втрат.

Які два з наведених нижче тверджень – можливі причини різкого зростання втрат, показаного на рисунку 22?

Вхідні дані містять одне або кілька значень NaN (наприклад, значення, отримане в результаті ділення на нуль).

Це трапляється частіше, ніж можна було б очікувати.

Вхідні дані містять велику кількість викидів.

Іноді через неправильне перемішування пакетів в одному з них може бути багато викидів.

Швидкість навчання занизька.

Через занизьку швидкість навчання може збільшитися його тривалість, але це не є причиною дивної кривої втрат.

Коефіцієнт регуляризації зависокий.

Дійсно, дуже сильна регуляризація може перешкодити збіжності моделі, але через неї не виникне дивна крива втрат, показана на рисунку 22.

Вправа 3. Втрати при тестуванні відрізняються від втрат при навчанні

Рисунок 23. Здається, що крива втрат при навчанні збігається, але втрати при перевірці починають зростати після певної кількості навчальних кроків. — **Рисунок 23.** Різке зростання втрат при перевірці.

Яке одне з тверджень, наведених нижче, найкраще пояснює, чому криві втрат навчальних і тестових наборів даних так відрізняються?

Модель надмірно пристосовується до навчального набору даних.

Так, це можливо. Нижче наведено варіанти рішень.

Спростіть модель, наприклад, зменшивши кількість ознак.
Збільште коефіцієнт регуляризації.
Переконайтеся, що навчальний і тестовий набори даних статистично рівноцінні.

Швидкість навчання зависока.

Якби швидкість навчання була зависокою, імовірно, крива втрат для навчального набору даних поводилася б інакше.

Вправа 4. Крива втрат зупиняється

Рисунок 24. Графік кривої втрат, на якому видно, що спочатку втрати збігаються під час навчання, але потім з’являються повторювані закономірності, які нагадують прямокутну хвилю. — **Рисунок 24.** Хаотична втрата після певної кількості кроків.

Яке одне з тверджень, наведених нижче, – найімовірніша причина нестабільної кривої втрат, показаної на рисунку 24?

Навчальний набір даних містить послідовності прикладів, що повторюються.

Це можливо. Переконайтеся, що ви ретельно перемішуєте приклади.

Коефіцієнт регуляризації зависокий.

Навряд чи це є причиною.

Навчальний набір даних містить забагато ознак.

Навряд чи це є причиною.

Регуляризація L2 (10 хв)

Далі

Перевірте свої знання (10 хв)