Процес машинного навчання був би значно простішим, якби всі ваші криві втрат мали такий вигляд, коли ви вперше навчали свою модель:
Криві втрат часто важко інтерпретувати. Виконуючи вправи на цій сторінці, покладайтеся на свою інтуїцію.
Вправа 1. Коливальна крива втрат
Які три дії можна зробити, щоб покращити криву втрат, показану на рисунку 21?
Порівняти відомості зі схемою даних, щоб виявити погані приклади, а потім видалити їх із навчального набору.
Так, це гарний метод для всіх моделей.
Знизити швидкість навчання.
Так, зниження швидкості навчання часто допомагає налагодити його процес.
Скоротити навчальний набір даних до невеликої кількості надійних прикладів.
Хоча здається, що цей метод не має нічого спільного з дійсністю, насправді це хороша ідея. Якщо модель досягає збіжності, коли використовується невеликий набір надійних прикладів, можна поступово додавати їх більшу кількість. Тоді, імовірно, удасться виявити, які з них спричиняють коливання кривої втрат.
Збільшити кількість прикладів у навчальному наборі даних.
Це приваблива ідея, але вона навряд чи вирішить проблему.
Підвищити швидкість навчання.
Зазвичай краще не збільшувати швидкість навчання моделі, якщо відповідна крива вказує на проблему.
Вправа 2. Крива втрат із різким стрибком
Які два з наведених нижче тверджень – можливі причини різкого зростання втрат, показаного на рисунку 22?
Вхідні дані містять одне або кілька значень NaN (наприклад, значення, отримане в результаті ділення на нуль).
Це трапляється частіше, ніж можна було б очікувати.
Вхідні дані містять велику кількість викидів.
Іноді через неправильне перемішування пакетів в одному з них може бути багато викидів.
Швидкість навчання занизька.
Через занизьку швидкість навчання може збільшитися його тривалість, але це не є причиною дивної кривої втрат.
Коефіцієнт регуляризації зависокий.
Дійсно, дуже сильна регуляризація може перешкодити збіжності моделі, але через неї не виникне дивна крива втрат, показана на рисунку 22.
Вправа 3. Втрати при тестуванні відрізняються від втрат при навчанні
Яке одне з тверджень, наведених нижче, найкраще пояснює, чому криві втрат навчальних і тестових наборів даних так відрізняються?
Модель надмірно пристосовується до навчального набору даних.
Так, це можливо. Нижче наведено варіанти рішень.
- Спростіть модель, наприклад, зменшивши кількість ознак.
- Збільште коефіцієнт регуляризації.
- Переконайтеся, що навчальний і тестовий набори даних статистично рівноцінні.
Швидкість навчання зависока.
Якби швидкість навчання була зависокою, імовірно, крива втрат для навчального набору даних поводилася б інакше.
Вправа 4. Крива втрат зупиняється
Яке одне з тверджень, наведених нижче, – найімовірніша причина кривої непостійних втрат, показаної на рисунку 24?
Навчальний набір даних містить послідовності прикладів, що повторюються.
Це можливо. Переконайтеся, що ви ретельно перемішуєте приклади.
Коефіцієнт регуляризації зависокий.
Навряд чи це є причиною.
Навчальний набір даних містить забагато ознак.
Навряд чи це є причиною.