Наборы данных, обобщение и переобучение,Наборы данных, обобщение и переобучение

Введение

Этот модуль начинается с наводящего вопроса. Выберите один из следующих ответов:

Если бы вам пришлось уделить приоритетное внимание улучшению одной из следующих областей вашего проекта по машинному обучению, какая из них окажет наибольшее влияние?
Улучшение качества вашего набора данных
Данные превосходят все. Качество и размер набора данных имеют гораздо большее значение, чем какой блестящий алгоритм вы используете для построения своей модели.
Применение более умной функции потерь для обучения вашей модели
Да, лучшая функция потерь может помочь модели обучаться быстрее, но она все равно уступает другому элементу в этом списке.

И вот еще более наводящий вопрос:

Угадайте: сколько времени вы обычно тратите в своем проекте машинного обучения на подготовку и преобразование данных?
Более половины времени проекта
Да, специалисты по машинному обучению тратят большую часть своего времени на создание наборов данных и разработку функций.
Менее половины времени проекта
Планируйте больше! Обычно 80% времени в проекте машинного обучения тратится на создание наборов данных и преобразование данных.

В этом модуле вы узнаете больше о характеристиках наборов данных машинного обучения и о том, как подготовить данные, чтобы обеспечить высококачественные результаты при обучении и оценке вашей модели.