Переобучение: интерпретация кривых потерь

Машинное обучение было бы намного проще, если бы все ваши кривые потерь выглядели так при первом обучении модели:

Рисунок 20. График, показывающий идеальную кривую потерь при обучении модели машинного обучения. Кривая потерь отображает потери по оси Y в зависимости от количества шагов обучения по оси X. По мере увеличения количества этапов обучения потери начинаются с высоких значений, затем экспоненциально уменьшаются и в конечном итоге выравниваются, достигая минимальных потерь.
Рисунок 20. Идеальная кривая потерь.

К сожалению, кривые потерь часто сложно интерпретировать. Используйте свою интуицию в отношении кривых потерь, чтобы решить упражнения на этой странице.

Упражнение 1. Осциллирующая кривая потерь

Рисунок 21. Кривая потерь (потери по оси Y; количество шагов обучения по оси X), на которой потери не выравниваются.             Вместо этого потери колеблются хаотично.
Рисунок 21. Осциллирующая кривая потерь.
Какие три вещи вы могли бы сделать, чтобы попытаться улучшить кривую потерь, показанную на рисунке 21?
Уменьшите скорость обучения.
Сократите обучающий набор до небольшого количества заслуживающих доверия примеров.
Увеличьте скорость обучения.
Сравните свои данные со схемой данных, чтобы обнаружить плохие примеры, а затем удалите плохие примеры из обучающего набора.
Увеличьте количество примеров в обучающем наборе.

Упражнение 2. Кривая потерь с резким скачком

Рисунок 22. График кривой потерь, показывающий, что потери уменьшаются до определенного количества шагов обучения, а затем внезапно увеличиваются при дальнейших шагах обучения.
Рисунок 22. Резкий рост убытков.
Какие два из следующих утверждений определяют возможные причины резких потерь, показанных на рисунке 22.
Входные данные содержат набор выбросов.
Уровень регуляризации слишком высок.
Входные данные содержат одно или несколько NaN — например, значение, полученное в результате деления на ноль.
Скорость обучения слишком низкая.

Упражнение 3. Проигрыш теста отличается от проигрыша обучения

Рисунок 23. Кривая потерь при обучении кажется сходящейся, но потери при проверке начинают расти после определенного количества шагов обучения.
Рисунок 23. Резкий рост потерь при проверке.
Какое из следующих утверждений лучше всего определяет причину этой разницы между кривыми потерь обучающего и тестового наборов?
Скорость обучения слишком высока.
Модель переоснащает обучающий набор.

Упражнение 4. Кривая потерь застревает

Рисунок 24. График кривой потерь, показывающий, что потери начинают сходиться по мере обучения, но затем отображают повторяющиеся шаблоны, похожие на прямоугольную волну.
Рисунок 24. Хаотическая потеря после определенного количества шагов.
Какое из следующих утверждений является наиболее вероятным объяснением неустойчивой кривой потерь, показанной на рисунке 24?
Обучающий набор содержит повторяющиеся последовательности примеров.
Обучающий набор содержит слишком много функций.
Уровень регуляризации слишком высок.