Процесс подготовки данных и разработки признаков

Каков процесс?

Как упоминалось ранее, этот курс посвящен созданию набора данных и преобразованию ваших данных.

Создание набора данных состоит из следующих задач: 1. Сбор исходных данных. 2. Определите функции и пометьте источники. 3. Выберите стратегию выборки. 4. Разделите данные. Преобразование данных состоит из следующих задач: 1. Исследование и очистка ваших данных. 2. Выполните проектирование функций.

Иметь ввиду:

  • На рисунке показан типичный процесс, который может подойти не для каждого проекта. Этот курс относится в первую очередь к линейной регрессии и нейронным сетям.
  • Показанный процесс не всегда последователен. Например, вы можете разделить данные после их преобразования. Возможно, вам потребуется собрать больше данных. Вам может потребоваться изменить набор функций даже после начала обучения, поскольку вы эмпирически узнаете, что работает, а что нет.

Сколько времени это занимает?

Для следующего вопроса щелкните нужную стрелку, чтобы проверить свой ответ:

Угадайте: сколько времени в вашем проекте по машинному обучению вы обычно тратите на подготовку и преобразование данных?
Более половины времени проекта
Правильно: вы потратите большую часть времени на проект машинного обучения, создавая наборы данных и преобразовывая данные.
Менее половины времени проекта
Планируйте больше! Как правило, 80% времени в проекте машинного обучения тратится на создание наборов данных и преобразование данных.