Переобучение: интерпретация кривых потерь

Машинное обучение было бы намного проще, если бы все ваши кривые потерь выглядели так при первом обучении модели:

Рисунок 20. График, показывающий идеальную кривую потерь при обучении модели машинного обучения. Кривая потерь отображает потери по оси Y в зависимости от количества шагов обучения по оси X. По мере увеличения количества этапов обучения потери начинаются с высоких значений, затем экспоненциально уменьшаются и в конечном итоге выравниваются, достигая минимальных потерь.
Рисунок 20. Идеальная кривая потерь.

К сожалению, кривые потерь часто сложно интерпретировать. Используйте свою интуицию в отношении кривых потерь, чтобы решить упражнения на этой странице.

Упражнение 1. Осциллирующая кривая потерь

Рисунок 21. Кривая потерь (потери по оси Y; количество шагов обучения по оси X), на которой потери не выравниваются.             Вместо этого потери колеблются хаотично.
Рисунок 21. Осциллирующая кривая потерь.
Какие три вещи вы могли бы сделать, чтобы попытаться улучшить кривую потерь, показанную на рисунке 21?
Сравните свои данные со схемой данных, чтобы обнаружить плохие примеры, а затем удалите плохие примеры из обучающего набора.
Да, это хорошая практика для всех моделей.
Уменьшите скорость обучения.
Да, снижение скорости обучения часто является хорошей идеей при отладке задачи обучения.
Сократите обучающий набор до небольшого количества заслуживающих доверия примеров.
Хотя этот метод звучит искусственно, на самом деле это хорошая идея. Предполагая, что модель сходится на небольшом наборе заслуживающих доверия примеров, вы можете затем постепенно добавлять больше примеров, возможно, обнаруживая, какие примеры вызывают колебания кривой потерь.
Увеличьте количество примеров в обучающем наборе.
Это заманчивая идея, но она вряд ли решит проблему.
Увеличьте скорость обучения.
В общем, избегайте увеличения скорости обучения, когда кривая обучения модели указывает на проблему.

Упражнение 2. Кривая потерь с резким скачком

Рисунок 22. График кривой потерь, показывающий, что потери уменьшаются до определенного количества шагов обучения, а затем внезапно увеличиваются при дальнейших шагах обучения.
Рисунок 22. Резкий рост убытков.
Какие два из следующих утверждений определяют возможные причины резких потерь, показанных на рисунке 22.
Входные данные содержат одно или несколько NaN — например, значение, полученное в результате деления на ноль.
Это встречается чаще, чем вы могли ожидать.
Входные данные содержат набор выбросов.
Иногда из-за неправильной перетасовки партий партия может содержать много выбросов.
Скорость обучения слишком низкая.
Очень низкая скорость обучения может увеличить время обучения, но это не является причиной странной кривой потерь.
Уровень регуляризации слишком высок.
Действительно, очень высокая регуляризация может помешать модели сходиться; однако это не приведет к появлению странной кривой потерь, показанной на рисунке 22.

Упражнение 3. Проигрыш теста отличается от проигрыша обучения

Рисунок 23. Кривая потерь при обучении кажется сходящейся, но потери при проверке начинают расти после определенного количества шагов обучения.
Рисунок 23. Резкий рост потерь при проверке.
Какое из следующих утверждений лучше всего определяет причину этой разницы между кривыми потерь обучающего и тестового наборов?
Модель переоснащает обучающий набор.
Да, возможно, это так. Возможные решения:
  • Упростите модель, возможно, уменьшив количество признаков.
  • Увеличьте уровень регуляризации.
  • Убедитесь, что обучающий набор и тестовый набор статистически эквивалентны.
Скорость обучения слишком высока.
Если бы скорость обучения была слишком высокой, кривая потерь для обучающего набора, вероятно, вела бы себя не так, как раньше.

Упражнение 4. Кривая потерь застревает

Рисунок 24. График кривой потерь, показывающий, что потери начинают сходиться по мере обучения, но затем отображают повторяющиеся шаблоны, похожие на прямоугольную волну.
Рисунок 24. Хаотическая потеря после определенного количества шагов.
Какое из следующих утверждений является наиболее вероятным объяснением неустойчивой кривой потерь, показанной на рисунке 24?
Обучающий набор содержит повторяющиеся последовательности примеров.
Это возможно. Убедитесь, что вы достаточно перетасовываете примеры.
Уровень регуляризации слишком высок.
Вряд ли это является причиной.
Обучающий набор содержит слишком много функций.
Вряд ли это является причиной.