Машинное обучение было бы намного проще, если бы все ваши кривые потерь выглядели так при первом обучении модели:
Рисунок 20. Идеальная кривая потерь.
К сожалению, кривые потерь часто сложно интерпретировать. Используйте свою интуицию в отношении кривых потерь, чтобы решить упражнения на этой странице.
Упражнение 1. Осциллирующая кривая потерь
Рисунок 21. Осциллирующая кривая потерь.
Какие три вещи вы могли бы сделать, чтобы попытаться улучшить кривую потерь, показанную на рисунке 21?
Уменьшите скорость обучения.
Да, снижение скорости обучения часто является хорошей идеей при отладке задачи обучения.
Сократите обучающий набор до небольшого количества заслуживающих доверия примеров.
Хотя этот метод звучит искусственно, на самом деле это хорошая идея. Предполагая, что модель сходится на небольшом наборе заслуживающих доверия примеров, вы можете затем постепенно добавлять больше примеров, возможно, обнаруживая, какие примеры вызывают колебания кривой потерь.
Увеличьте скорость обучения.
В общем, избегайте увеличения скорости обучения, когда кривая обучения модели указывает на проблему.
Сравните свои данные со схемой данных, чтобы обнаружить плохие примеры, а затем удалите плохие примеры из обучающего набора.
Да, это хорошая практика для всех моделей.
Увеличьте количество примеров в обучающем наборе.
Это заманчивая идея, но она вряд ли решит проблему.
Упражнение 2. Кривая потерь с резким скачком
Рисунок 22. Резкий рост убытков.
Какие два из следующих утверждений определяют возможные причины резких потерь, показанных на рисунке 22.
Входные данные содержат набор выбросов.
Иногда из-за неправильной перетасовки партий партия может содержать много выбросов.
Уровень регуляризации слишком высок.
Действительно, очень высокая регуляризация может помешать модели сходиться; однако это не приведет к появлению странной кривой потерь, показанной на рисунке 22.
Входные данные содержат одно или несколько NaN — например, значение, полученное в результате деления на ноль.
Это встречается чаще, чем вы могли ожидать.
Скорость обучения слишком низкая.
Очень низкая скорость обучения может увеличить время обучения, но это не является причиной странной кривой потерь.
Упражнение 3. Проигрыш теста отличается от проигрыша обучения
Рисунок 23. Резкий рост потерь при проверке.
Какое из следующих утверждений лучше всего определяет причину этой разницы между кривыми потерь обучающего и тестового наборов?
Скорость обучения слишком высока.
Если бы скорость обучения была слишком высокой, кривая потерь для обучающего набора, вероятно, вела бы себя не так, как раньше.
Модель переоснащает обучающий набор.
Да, возможно, это так. Возможные решения:
Упростите модель, возможно, уменьшив количество признаков.
Увеличьте уровень регуляризации.
Убедитесь, что обучающий набор и тестовый набор статистически эквивалентны.
Упражнение 4. Кривая потерь застревает
Рисунок 24. Хаотическая потеря после определенного количества шагов.
Какое из следующих утверждений является наиболее вероятным объяснением неустойчивой кривой потерь, показанной на рисунке 24?
Обучающий набор содержит повторяющиеся последовательности примеров.
Это возможно. Убедитесь, что вы достаточно перетасовываете примеры.
[null,null,["Последнее обновление: 2024-11-07 UTC."],[[["This document helps you understand and interpret Machine Learning loss curves through a series of exercises and visual examples."],["You will learn how to identify common issues like oscillating loss, exploding loss, overfitting, and erratic behavior in your models."],["Solutions are provided for each exercise, along with explanations for various loss curve patterns."],["Techniques to address these issues are discussed, including adjusting learning rate, cleaning training data, and applying regularization."],["A glossary of key Machine Learning terminology related to loss curves and model training is included for quick reference."]]],[]]