Численные данные: Заключение

Состояние модели машинного обучения (ML) определяется ее данными. Обеспечьте свою модель здоровыми данными, и она будет процветать; скормите свою модель мусором, и ее прогнозы станут бесполезными.

Рекомендации по работе с числовыми данными:

  • Помните, что ваша модель машинного обучения взаимодействует с данными в векторе признаков , а не с данными в наборе данных .
  • Нормализовать большинство числовых характеристик .
  • Если ваша первая стратегия нормализации не увенчалась успехом, рассмотрите другой способ нормализации данных.
  • Биннинг , также называемый группировкой , иногда лучше, чем нормализация.
  • Обдумывая, как должны выглядеть ваши данные, напишите проверочные тесты, чтобы подтвердить эти ожидания. Например:
    • Абсолютное значение широты никогда не должно превышать 90. Вы можете написать тест, чтобы проверить, появляется ли в ваших данных значение широты, превышающее 90.
    • Если ваши данные ограничены штатом Флорида, вы можете написать тесты, чтобы проверить, что широта попадает в диапазон от 24 до 31 включительно.
  • Визуализируйте свои данные с помощью диаграмм рассеяния и гистограмм. Ищите аномалии.
  • Собирайте статистику не только по всему набору данных, но и по меньшим подмножествам набора данных. Это связано с тем, что совокупная статистика иногда скрывает проблемы в небольших разделах набора данных.
  • Документируйте все преобразования данных.

Данные — ваш самый ценный ресурс, поэтому обращайтесь с ними осторожно.

Дополнительная информация

Что дальше

Поздравляем с завершением этого модуля!

Мы рекомендуем вам изучать различные модули MLCC в удобном для вас темпе и в соответствии с вашими интересами. Если вы хотите следовать рекомендуемому порядку, мы предлагаем вам перейти к следующему модулю: Представление категориальных данных .