Специалисты по машинному обучению тратят гораздо больше времени на оценку, очистку и преобразование данных, чем на построение моделей. Данные настолько важны, что в этом курсе этой теме посвящено целых три раздела:
- Работа с числовыми данными (данный модуль)
- Работа с категориальными данными
- Наборы данных, обобщение и переобучение
В этом модуле основное внимание уделяется числовым данным , то есть целым числам или значениям с плавающей запятой, которые ведут себя как числа. То есть они аддитивны, счетны, упорядочены и так далее. Следующий модуль посвящен категориальным данным , которые могут включать числа, ведущие себя как категории. Третий блок посвящен тому, как подготовить данные, чтобы обеспечить высококачественные результаты при обучении и оценке вашей модели.
Примеры числовых данных включают в себя:
- Температура
- Масса
- Численность оленей, зимующих в заповеднике
Напротив, почтовые индексы США, несмотря на то, что они состоят из пяти или девяти цифр, не ведут себя как числа и не представляют собой математические отношения. Почтовый индекс 40004 (в округе Нельсон, штат Кентукки) не в два раза превышает почтовый индекс 20002 (в Вашингтоне, округ Колумбия). Эти числа представляют категории, в частности географические области, и считаются категориальными данными.