Процес машинного навчання був би значно простішим, якби всі ваші криві втрат мали такий вигляд, коли ви вперше навчали свою модель:
Рисунок 20. Ідеальна крива втрат.
Криві втрат часто важко інтерпретувати. Виконуючи вправи на цій сторінці, покладайтеся на свою інтуїцію.
Вправа 1. Коливальна крива втрат
Рисунок 21. Коливальна крива втрат.
Які три дії можна зробити, щоб покращити криву втрат, показану на рисунку 21?
Підвищити швидкість навчання.
Зазвичай краще не збільшувати швидкість навчання моделі, якщо відповідна крива вказує на проблему.
Порівняти відомості зі схемою даних, щоб виявити погані приклади, а потім видалити їх із навчального набору.
Так, це гарний метод для всіх моделей.
Збільшити кількість прикладів у навчальному наборі даних.
Це приваблива ідея, але вона навряд чи вирішить проблему.
Знизити швидкість навчання.
Так, зниження швидкості навчання часто допомагає налагодити його процес.
Скоротити навчальний набір даних до невеликої кількості надійних прикладів.
Хоча здається, що це штучний метод, насправді це хороша ідея. Якщо модель досягає збіжності, коли використовується невеликий набір надійних прикладів, можна поступово додавати їх більшу кількість. Тоді, імовірно, удасться виявити, які з них спричиняють коливання кривої втрат.
Вправа 2. Крива втрат із різким стрибком
Рисунок 22. Різке зростання втрат.
Які два з наведених нижче тверджень – можливі причини різкого зростання втрат, показаного на рисунку 22?
Вхідні дані містять велику кількість викидів.
Іноді через неправильне перемішування пакетів в одному з них може бути багато викидів.
Швидкість навчання занизька.
Через занизьку швидкість навчання може збільшитися його тривалість, але це не є причиною дивної кривої втрат.
Коефіцієнт регуляризації зависокий.
Дійсно, дуже сильна регуляризація може перешкодити збіжності моделі, але через неї не виникне дивна крива втрат, показана на рисунку 22.
Вхідні дані містять одне або кілька значень NaN (наприклад, значення, отримане в результаті ділення на нуль).
Це трапляється частіше, ніж можна було б очікувати.
Вправа 3. Втрати при тестуванні відрізняються від втрат при навчанні
Рисунок 23. Різке зростання втрат при перевірці.
Яке одне з тверджень, наведених нижче, найкраще пояснює, чому криві втрат навчальних і тестових наборів даних так відрізняються?
Швидкість навчання зависока.
Якби швидкість навчання була зависокою, імовірно, крива втрат для навчального набору даних поводилася б інакше.
Модель надмірно пристосовується до навчального набору даних.
Так, це можливо. Нижче наведено варіанти рішень.
Спростіть модель, наприклад, зменшивши кількість ознак.
Збільште коефіцієнт регуляризації.
Переконайтеся, що навчальний і тестовий набори даних статистично рівноцінні.
Вправа 4. Крива втрат зупиняється
Рисунок 24. Хаотична втрата після певної кількості кроків.
Яке одне з тверджень, наведених нижче, – найімовірніша причина кривої непостійних втрат, показаної на рисунку 24?
Навчальний набір даних містить забагато ознак.
Навряд чи це є причиною.
Коефіцієнт регуляризації зависокий.
Навряд чи це є причиною.
Навчальний набір даних містить послідовності прикладів, що повторюються.
Це можливо. Переконайтеся, що ви ретельно перемішуєте приклади.
[null,null,["Останнє оновлення: 2025-01-28 (UTC)."],[[["This document helps you understand and interpret Machine Learning loss curves through a series of exercises and visual examples."],["You will learn how to identify common issues like oscillating loss, exploding loss, overfitting, and erratic behavior in your models."],["Solutions are provided for each exercise, along with explanations for various loss curve patterns."],["Techniques to address these issues are discussed, including adjusting learning rate, cleaning training data, and applying regularization."],["A glossary of key Machine Learning terminology related to loss curves and model training is included for quick reference."]]],[]]