Прежде чем создавать векторы признаков, мы рекомендуем изучить числовые данные двумя способами:
- Визуализируйте свои данные в виде графиков или графиков.
- Получите статистику о ваших данных.
Визуализируйте свои данные
Графики могут помочь вам найти аномалии или закономерности, скрывающиеся в данных. Поэтому, прежде чем углубляться в анализ, посмотрите на свои данные графически: в виде диаграмм рассеяния или гистограмм. Просматривайте графики не только в начале конвейера данных, но и на протяжении всего преобразования данных. Визуализации помогают вам постоянно проверять свои предположения.
Рекомендуем работать с пандами для визуализации:
Обратите внимание, что некоторые инструменты визуализации оптимизированы для определенных форматов данных. Инструмент визуализации, который помогает вам оценить буферы протокола, может помочь вам оценить данные CSV, а может и не помочь.
Статистическая оценка ваших данных
Помимо визуального анализа, мы также рекомендуем математически оценивать потенциальные функции и метки, собирая базовые статистические данные, такие как:
- среднее и медианное
- стандартное отклонение
- значения в квартильных делениях: 0-й, 25-й, 50-й, 75-й и 100-й процентили. 0-й процентиль — это минимальное значение этого столбца; 100-й процентиль — это максимальное значение этого столбца. (50-й процентиль является медианой.)
Найдите выбросы
Выброс — это значение , отдаленное от большинства других значений объекта или метки. Выбросы часто вызывают проблемы при обучении модели, поэтому важно находить выбросы.
Если дельта между 0-м и 25-м процентилями значительно отличается от дельты между 75-м и 100-м процентилями, набор данных, вероятно, содержит выбросы.
Выбросы могут относиться к любой из следующих категорий:
- Выброс вызван ошибкой . Например, возможно, экспериментатор по ошибке ввел лишний ноль или прибор, собиравший данные, вышел из строя. Обычно вы удаляете примеры, содержащие выбросы ошибок.
- Выброс — это достоверная точка данных, а не ошибка . В этом случае понадобится ли вашей обученной модели в конечном итоге делать хорошие прогнозы по этим выбросам?
- Если да, сохраните эти выбросы в своем обучающем наборе. В конце концов, выбросы в определенных функциях иногда отражают выбросы в метке, поэтому выбросы действительно могут помочь вашей модели делать более точные прогнозы. Будьте осторожны: экстремальные выбросы могут повредить вашу модель.
- Если нет, удалите выбросы или примените более инвазивные методы проектирования признаков, такие как обрезка .