В предыдущем модуле было представлено разделение набора данных на обучающий и тестовый набор. Такое разделение позволило вам обучаться на одном наборе примеров, а затем тестировать модель на другом наборе примеров. С двумя разделами рабочий процесс может выглядеть следующим образом:
Рисунок 1. Возможный рабочий процесс?
На рисунке «Настройка модели» означает корректировку всего, что вы можете придумать в модели, — от изменения скорости обучения до добавления или удаления функций до разработки совершенно новой модели с нуля. В конце этого рабочего процесса вы выбираете модель, которая лучше всего работает на тестовом наборе .
Разделение набора данных на два набора — хорошая идея, но не панацея. Вы можете значительно снизить вероятность переобучения, разделив набор данных на три подмножества, показанных на следующем рисунке:
Рисунок 2. Разделение одного набора данных на три подмножества.
Используйте набор проверки , чтобы оценить результаты обучающего набора. Затем используйте набор тестов, чтобы перепроверить свою оценку после того, как модель «прошла» набор проверки. На следующем рисунке показан этот новый рабочий процесс:
Рисунок 3. Улучшенный рабочий процесс.
В этом улучшенном рабочем процессе:
- Выберите модель, которая лучше всего работает в проверочном наборе.
- Дважды проверьте эту модель на тестовом наборе.
Это лучший рабочий процесс, поскольку он создает меньшее воздействие на набор тестов.