Состояние модели машинного обучения (ML) определяется ее данными. Обеспечьте свою модель здоровыми данными, и она будет процветать; дайте вашей модели мусор, и ее прогнозы станут бесполезными.
Рекомендации по работе с числовыми данными:
- Помните, что ваша модель машинного обучения взаимодействует с данными в векторе признаков , а не с данными в наборе данных .
- Нормализовать большинство числовых характеристик .
- Если ваша первая стратегия нормализации не увенчалась успехом, рассмотрите другой способ нормализации данных.
- Биннинг , также называемый группировкой , иногда лучше, чем нормализация.
- Обдумывая, как должны выглядеть ваши данные, напишите проверочные тесты, чтобы подтвердить эти ожидания. Например:
- Абсолютное значение широты никогда не должно превышать 90. Вы можете написать тест, чтобы проверить, появляется ли в ваших данных значение широты, превышающее 90.
- Если ваши данные ограничены штатом Флорида, вы можете написать тесты, чтобы проверить, что широта попадает в диапазон от 24 до 31 включительно.
- Визуализируйте свои данные с помощью диаграмм рассеяния и гистограмм. Ищите аномалии.
- Собирайте статистику не только по всему набору данных, но и по меньшим подмножествам набора данных. Это связано с тем, что совокупная статистика иногда скрывает проблемы в небольших разделах набора данных.
- Документируйте все преобразования данных.
Данные — ваш самый ценный ресурс, поэтому обращайтесь с ними осторожно.
Дополнительная информация
- Руководство «Правила машинного обучения» содержит ценный раздел «Разработка функций» .
Что дальше
Поздравляем с завершением этого модуля!
Мы рекомендуем вам изучать различные модули MLCC в удобном для вас темпе и в соответствии с вашими интересами. Если вы хотите следовать рекомендуемому порядку, мы предлагаем вам перейти к следующему модулю: Представление категориальных данных .