Модели машинного обучения могут обучаться только на значениях с плавающей запятой. Однако многие функции набора данных не являются естественными значениями с плавающей запятой. Таким образом, одной из важных частей машинного обучения является преобразование функций без плавающей запятой в представления с плавающей запятой.
Например, предположим, что street names
являются объектом. Большинство названий улиц представляют собой строки, например «Бродвей» или «Вилакази». Ваша модель не может тренироваться на «Бродвее», поэтому вам необходимо преобразовать «Бродвей» в число с плавающей запятой. Модуль Категориальные данные объясняет, как это сделать.
Кроме того, вам следует даже преобразовать большинство функций с плавающей запятой. Этот процесс преобразования, называемый нормализацией , преобразует числа с плавающей запятой в ограниченный диапазон, что улучшает обучение модели. Модуль «Числовые данные» объясняет, как это сделать.
Выборка данных, когда их слишком много
Некоторым организациям повезло иметь обилие данных.Если набор данных содержит слишком много примеров, необходимо выбрать подмножество примеров для обучения. По возможности выберите подмножество, которое наиболее соответствует прогнозам вашей модели.
Примеры фильтров, содержащие персональные данные
В хороших наборах данных отсутствуют примеры, содержащие личную информацию (PII). Эта политика помогает защитить конфиденциальность, но может повлиять на модель.
Дополнительную информацию по этим темам см. в модуле «Безопасность и конфиденциальность» далее в курсе.