Численные данные: первые шаги

Прежде чем создавать векторы признаков, мы рекомендуем изучить числовые данные двумя способами:

  • Визуализируйте свои данные в виде графиков или графиков.
  • Получите статистику о ваших данных.

Визуализируйте свои данные

Графики могут помочь вам найти аномалии или закономерности, скрывающиеся в данных. Поэтому, прежде чем углубляться в анализ, посмотрите на свои данные графически: в виде диаграмм рассеяния или гистограмм. Просматривайте графики не только в начале конвейера данных, но и на протяжении всего преобразования данных. Визуализации помогают вам постоянно проверять свои предположения.

Рекомендуем работать с пандами для визуализации:

Обратите внимание, что некоторые инструменты визуализации оптимизированы для определенных форматов данных. Инструмент визуализации, который помогает вам оценить буферы протокола, может помочь вам оценить данные CSV, а может и не помочь.

Статистическая оценка ваших данных

Помимо визуального анализа, мы также рекомендуем математически оценивать потенциальные функции и метки, собирая базовые статистические данные, такие как:

  • среднее и медианное
  • стандартное отклонение
  • значения в квартильных делениях: 0-й, 25-й, 50-й, 75-й и 100-й процентили. 0-й процентиль — это минимальное значение этого столбца; 100-й процентиль — это максимальное значение этого столбца. (50-й процентиль является медианой.)

Найдите выбросы

Выброс — это значение , отдаленное от большинства других значений объекта или метки. Выбросы часто вызывают проблемы при обучении модели, поэтому важно находить выбросы.

Если дельта между 0-м и 25-м процентилями значительно отличается от дельты между 75-м и 100-м процентилями, набор данных, вероятно, содержит выбросы.

Выбросы могут относиться к любой из следующих категорий:

  • Выброс вызван ошибкой . Например, возможно, экспериментатор по ошибке ввел лишний ноль или прибор, собиравший данные, вышел из строя. Обычно вы удаляете примеры, содержащие выбросы ошибок.
  • Выброс — это достоверная точка данных, а не ошибка . В этом случае понадобится ли вашей обученной модели в конечном итоге делать хорошие прогнозы по этим выбросам?
    • Если да, сохраните эти выбросы в своем обучающем наборе. В конце концов, выбросы в определенных функциях иногда отражают выбросы в метке, поэтому выбросы действительно могут помочь вашей модели делать более точные прогнозы. Будьте осторожны: экстремальные выбросы могут повредить вашу модель.
    • Если нет, удалите выбросы или примените более инвазивные методы проектирования признаков, такие как обрезка .