Числові дані: перші кроки

Перед створенням векторів ознак рекомендуємо дослідити числові дані двома способами.

  • Візуалізувати дані, створивши графіки або діаграми.
  • Отримати статистику про дані.

Візуалізуйте дані

За допомогою графіків можна знайти аномалії або закономірності, що ховаються в даних. Тому, перш ніж заглиблюватися в аналіз, подивіться на графічне представлення своїх даних: точкові діаграми або гістограми. Переглядайте графіки не лише на початковому етапі конвеєра даних, але й під час їх трансформації. Візуалізації допомагають постійно перевіряти свої припущення.

Для візуалізації рекомендуємо працювати з pandas.

Зверніть увагу, що деякі інструменти візуалізації оптимізовано для певних форматів даних. Інструмент візуалізації для оцінки даних у форматі Protocol Buffers може допомогти вам із даними у форматі CSV або не підтримувати їх взагалі.

Статистично оцінюйте свої дані

На додаток до візуального аналізу, рекомендуємо оцінити потенційні ознаки й мітки математичним способом, зібравши базові статистичні дані, такі як:

  • середні значення й медіана;
  • стандартні відхилення;
  • значення з квартильним розподілом: 0-й, 25-й, 50-й, 75-й і 100-й процентилі (0-й процентиль – мінімальне значення цього стовпця, 100-й – максимальне, а 50-й – серединне значення).

Знайдіть викиди

Викид – це значення, віддалене від більшості інших значень ознаки або мітки. Викиди часто спричиняють проблеми під час навчання моделі, тому важливо знаходити їх.

Якщо дельта між 0-м і 25-м процентилями значно відрізняється від дельти між 75-м і 100-м процентилями, набір даних, імовірно, містить викиди.

Викиди можуть належати до будь-якої з категорій, наведених нижче.

  • Викид пов’язаний із помилкою. Можливо, експериментатор помилково ввів зайвий нуль або інструмент, який збирав дані, вийшов із ладу. Приклади, у яких є помилкові викиди, зазвичай видаляються.
  • Викид – це легітимна точка даних, а не помилка. У такому разі чи потрібно буде вашій навченій моделі зрештою робити хороші прогнози на основі таких викидів?
    • Якщо так, збережіть ці викиди у своєму навчальному наборі даних. Усе-таки викиди певних ознак іноді відображають викиди мітки, тому такі дані можуть допомогти вашій моделі робити кращі прогнози. Не забувайте, що вкрай відмінні викиди все одно можуть зашкодити моделі.
    • Якщо ні, видаліть викиди або застосуйте агресивніші методи конструювання ознак, наприклад обрізання.