Эта страница переведена с помощью Cloud Translation API.

Переобучение: интерпретация кривых потерь

Машинное обучение было бы намного проще, если бы все ваши кривые потерь выглядели так при первом обучении модели:

Рисунок 20. График, показывающий идеальную кривую потерь при обучении модели машинного обучения. Кривая потерь отображает потери по оси Y в зависимости от количества шагов обучения по оси X. По мере увеличения количества этапов обучения потери начинаются с высоких значений, затем экспоненциально уменьшаются и в конечном итоге выравниваются, достигая минимальных потерь. — **Рисунок 20.** Идеальная кривая потерь.

К сожалению, кривые потерь часто сложно интерпретировать. Используйте свою интуицию в отношении кривых потерь, чтобы решить упражнения на этой странице.

Упражнение 1. Осциллирующая кривая потерь

Рисунок 21. Кривая потерь (потери по оси Y; количество шагов обучения по оси X), на которой потери не выравниваются. Вместо этого потери колеблются хаотично. — **Рисунок 21.** Осциллирующая кривая потерь.

Какие три вещи вы могли бы сделать, чтобы попытаться улучшить кривую потерь, показанную на рисунке 21?

Сравните свои данные со схемой данных, чтобы обнаружить плохие примеры, а затем удалите плохие примеры из обучающего набора.

Да, это хорошая практика для всех моделей.

Уменьшите скорость обучения.

Да, снижение скорости обучения часто является хорошей идеей при отладке задачи обучения.

Сократите обучающий набор до небольшого количества заслуживающих доверия примеров.

Хотя этот метод звучит искусственно, на самом деле это хорошая идея. Предполагая, что модель сходится на небольшом наборе заслуживающих доверия примеров, вы можете затем постепенно добавлять больше примеров, возможно, обнаруживая, какие примеры вызывают колебания кривой потерь.

Увеличьте количество примеров в обучающем наборе.

Это заманчивая идея, но она вряд ли решит проблему.

Увеличьте скорость обучения.

В общем, избегайте увеличения скорости обучения, когда кривая обучения модели указывает на проблему.

Упражнение 2. Кривая потерь с резким скачком

Рисунок 22. График кривой потерь, показывающий, что потери уменьшаются до определенного количества шагов обучения, а затем внезапно увеличиваются при дальнейших шагах обучения. — **Рисунок 22.** Резкий рост убытков.

Какие два из следующих утверждений определяют возможные причины резких потерь, показанных на рисунке 22.

Входные данные содержат одно или несколько NaN — например, значение, полученное в результате деления на ноль.

Это встречается чаще, чем вы могли ожидать.

Входные данные содержат набор выбросов.

Иногда из-за неправильной перетасовки партий партия может содержать много выбросов.

Скорость обучения слишком низкая.

Очень низкая скорость обучения может увеличить время обучения, но это не является причиной странной кривой потерь.

Уровень регуляризации слишком высок.

Действительно, очень высокая регуляризация может помешать модели сходиться; однако это не приведет к появлению странной кривой потерь, показанной на рисунке 22.