Надмірне навчання: інтерпретація кривих втрат

Процес машинного навчання був би значно простішим, якби всі ваші криві втрат мали такий вигляд, коли ви вперше навчали свою модель:

Рисунок 20. Графік, що показує ідеальну криву втрат для тренування моделі машинного навчання. На кривій втрат по осі "y" відображаються втрати порівняно з кількістю навчальних кроків по осі "х". Зі збільшенням кількості навчальних кроків втрати спочатку значні, потім зменшуються в геометричній прогресії і, зрештою, досягають мінімальних значень, при цьому лінія графіка вирівнюється.
Рисунок 20. Ідеальна крива втрат.

Криві втрат часто важко інтерпретувати. Виконуючи вправи на цій сторінці, покладайтеся на свою інтуїцію.

Вправа 1. Коливальна крива втрат

Рисунок 21. Крива втрат (втрати по осі y; кількість навчальних кроків по осі x), лінія графіка яких не вирівнюється.
            Натомість втрати коливаються хаотично.
Рисунок 21. Коливальна крива втрат.
Які три дії можна зробити, щоб покращити криву втрат, показану на рисунку 21?
Підвищити швидкість навчання.
Порівняти відомості зі схемою даних, щоб виявити погані приклади, а потім видалити їх із навчального набору.
Збільшити кількість прикладів у навчальному наборі даних.
Знизити швидкість навчання.
Скоротити навчальний набір даних до невеликої кількості надійних прикладів.

Вправа 2. Крива втрат із різким стрибком

Рисунок 22. Графік кривої втрат, на якому видно, що втрати зменшуються до певної кількості навчальних кроків, а потім раптово зростають із кожним наступним навчальним кроком.
Рисунок 22. Різке зростання втрат.
Які два з наведених нижче тверджень – можливі причини різкого зростання втрат, показаного на рисунку 22?
Вхідні дані містять велику кількість викидів.
Швидкість навчання занизька.
Коефіцієнт регуляризації зависокий.
Вхідні дані містять одне або кілька значень NaN (наприклад, значення, отримане в результаті ділення на нуль).

Вправа 3. Втрати при тестуванні відрізняються від втрат при навчанні

Рисунок 23. Здається, що крива втрат при навчанні збігається, але втрати при перевірці починають зростати після певної кількості навчальних кроків.
Рисунок 23. Різке зростання втрат при перевірці.
Яке одне з тверджень, наведених нижче, найкраще пояснює, чому криві втрат навчальних і тестових наборів даних так відрізняються?
Швидкість навчання зависока.
Модель надмірно пристосовується до навчального набору даних.

Вправа 4. Крива втрат зупиняється

Рисунок 24. Графік кривої втрат, на якому видно, що спочатку втрати збігаються під час навчання, але потім з’являються повторювані закономірності, які нагадують прямокутну хвилю.
Рисунок 24. Хаотична втрата після певної кількості кроків.
Яке одне з тверджень, наведених нижче, – найімовірніша причина кривої непостійних втрат, показаної на рисунку 24?
Навчальний набір даних містить забагато ознак.
Коефіцієнт регуляризації зависокий.
Навчальний набір даних містить послідовності прикладів, що повторюються.