Числові дані: висновок

Якість моделі машинного навчання визначають її дані. Доречні дані сприяють належній роботі моделі, а невідповідні призводять до хибних прогнозів.

Нижче наведено рекомендації щодо роботи із числовими даними.

Пам’ятайте, що модель машинного навчання взаємодіє з даними, які містяться у векторі ознак, а не в наборі даних.
Нормалізуйте більшість числових ознак.
Якщо перша стратегія нормалізації даних не принесла бажаного результату, виберіть іншу.
Групування (інша назва – сегментація) іноді є кращим методом, ніж нормалізація.
Подумайте, як мають виглядати ваші дані, і напишіть тести для перевірки, щоб підтвердити очікування. Перегляньте приклади нижче.
- Абсолютне значення широти ніколи не має перевищувати 90. Можна написати тест, щоб перевірити, чи є у ваших даних значення широти, більше за 90.
- Якщо дані стосуються лише штату Флорида, можна написати тести, щоб перевірити, чи широти знаходяться в межах від 24 до 31 включно.
Візуалізуйте дані за допомогою точкових діаграм і гістограм. Шукайте відхилення.
Збирайте статистичні дані не лише для цілого набору даних, але й для його менших підмножин. Це потрібно тому, що сукупна статистика іноді не показує проблеми, наявні в менших розділах набору даних.
Документуйте всі трансформації даних.

Дані – ваш найцінніший ресурс, тому ставтеся до них дбайливо.

Додаткова інформація

У посібнику Правила машинного навчання є корисний розділ Конструювання ознак.

Що далі?

Вітаємо із завершенням модуля!

Радимо переглядати різні модулі Інтенсивного курсу з машинного навчання у власному темпі й порядку. Якщо ви хочете дотримуватися рекомендованого порядку, пропонуємо перейти до наступного модуля, що називається Представлення категорійних даних.

Перевірте свої знання (10 хв)

Далі

Вступ (10 хв)

Числові дані: висновок Тримайте все під контролем за допомогою колекцій Зберігайте контент і організовуйте його за категоріями відповідно до своїх потреб.

Додаткова інформація

Що далі?

Числові дані: висновок