Перед створенням векторів ознак рекомендуємо дослідити числові дані двома способами.
- Візуалізувати дані, створивши графіки або діаграми.
- Отримати статистику про дані.
Візуалізуйте дані
За допомогою графіків можна знайти аномалії або закономірності, що ховаються в даних. Тому, перш ніж заглиблюватися в аналіз, подивіться на графічне представлення своїх даних: точкові діаграми або гістограми. Переглядайте графіки не лише на початковому етапі конвеєра даних, але й під час їх трансформації. Візуалізації допомагають постійно перевіряти свої припущення.
Для візуалізації рекомендуємо працювати з pandas.
Зверніть увагу, що деякі інструменти візуалізації оптимізовано для певних форматів даних. Інструмент візуалізації для оцінки даних у форматі Protocol Buffers може допомогти вам із даними у форматі CSV або не підтримувати їх взагалі.
Статистично оцінюйте свої дані
На додаток до візуального аналізу, рекомендуємо оцінити потенційні ознаки й мітки математичним способом, зібравши базові статистичні дані, такі як:
- середні значення й медіана;
- стандартні відхилення;
- значення з квартильним розподілом: 0-й, 25-й, 50-й, 75-й і 100-й процентилі (0-й процентиль – мінімальне значення цього стовпця, 100-й – максимальне, а 50-й – серединне значення).
Знайдіть викиди
Викид – це значення, віддалене від більшості інших значень ознаки або мітки. Викиди часто спричиняють проблеми під час навчання моделі, тому важливо знаходити їх.
Якщо дельта між 0-м і 25-м процентилями значно відрізняється від дельти між 75-м і 100-м процентилями, набір даних, імовірно, містить викиди.
Викиди можуть належати до будь-якої з категорій, наведених нижче.
- Викид пов’язаний із помилкою. Можливо, експериментатор помилково ввів зайвий нуль або інструмент, який збирав дані, вийшов із ладу. Приклади, у яких є помилкові викиди, зазвичай видаляються.
- Викид – це легітимна точка даних, а не помилка.
У такому разі чи потрібно буде вашій навченій моделі зрештою робити хороші прогнози на основі таких викидів?
- Якщо так, збережіть ці викиди у своєму навчальному наборі даних. Усе-таки викиди певних ознак іноді відображають викиди мітки, тому такі дані можуть допомогти вашій моделі робити кращі прогнози. Не забувайте, що вкрай відмінні викиди все одно можуть зашкодити моделі.
- Якщо ні, видаліть викиди або застосуйте агресивніші методи конструювання ознак, наприклад обрізання.