Числові дані: перші кроки

Перед створенням векторних представлень ознак рекомендуємо дослідити числові дані двома способами.

Візуалізувати дані, створивши графіки або діаграми.
Отримати статистику про дані.

Візуалізуйте дані

За допомогою графіків можна знайти аномалії або закономірності, що ховаються в даних. Тому, перш ніж заглиблюватися в аналіз, подивіться на графічне представлення своїх даних: точкові діаграми або гістограми. Переглядайте графіки не лише на початковому етапі конвеєра даних, але й під час їх трансформації. Візуалізації допомагають постійно перевіряти свої припущення.

Для візуалізації рекомендуємо працювати з pandas.

Зверніть увагу, що деякі інструменти візуалізації оптимізовано для певних форматів даних. Інструмент візуалізації для оцінки даних у форматі Protocol Buffers може допомогти вам із даними у форматі CSV або не підтримувати їх взагалі.

Статистично оцінюйте свої дані

На додаток до візуального аналізу, рекомендуємо оцінити потенційні ознаки й мітки математичним способом, зібравши базові статистичні дані, такі як:

середнє арифметичне й медіана;
стандартні відхилення;
значення з квартильним розподілом: 0-й, 25-й, 50-й, 75-й і 100-й процентилі (0-й процентиль – мінімальне значення цього стовпця, 100-й – максимальне, а 50-й – медіана).

Знайдіть викиди

Викид – це значення, віддалене від більшості інших значень ознаки або мітки. Викиди часто спричиняють проблеми під час навчання моделі, тому важливо знаходити їх.

Якщо дельта між 0-м і 25-м процентилями значно відрізняється від дельти між 75-м і 100-м процентилями, набір даних, імовірно, містить викиди.

Викиди можуть належати до будь-якої з категорій, наведених нижче.

Викид пов’язаний із помилкою. Можливо, експериментатор помилково ввів зайвий нуль або інструмент, який збирав дані, вийшов із ладу. Приклади, у яких є помилкові викиди, зазвичай видаляються.
Викид – це легітимна точка даних, а не помилка. У такому разі чи потрібно буде вашій навченій моделі зрештою робити хороші прогнози на основі таких викидів?
- Якщо так, збережіть ці викиди у своєму навчальному наборі даних. Усе-таки викиди певних ознак іноді відображають викиди мітки, тому такі дані можуть допомогти вашій моделі робити кращі прогнози. Не забувайте, що вкрай відмінні викиди все одно можуть зашкодити моделі.
- Якщо ні, видаліть викиди або застосуйте агресивніші методи конструювання ознак, наприклад обрізання.

Як модель отримує і імпортує дані за допомогою векторних представлень ознак (5 хв)

Далі

Вправи з програмування (10 хв)