Числові дані: висновок

Якість моделі машинного навчання визначають її дані. Доречні дані сприяють належній роботі моделі, а невідповідні призводять до хибних прогнозів.

Нижче наведено рекомендації щодо роботи із числовими даними.

  • Пам’ятайте, що модель машинного навчання взаємодіє з даними, які містяться у векторі ознак, а не в наборі даних.
  • Нормалізуйте більшість числових ознак.
  • Якщо перша стратегія нормалізації даних не принесла бажаного результату, виберіть іншу.
  • Групування (інша назва – сегментація) іноді є кращим методом, ніж нормалізація.
  • Подумайте, як мають виглядати ваші дані, і напишіть тести для перевірки, щоб підтвердити очікування. Перегляньте приклади нижче.
    • Абсолютне значення широти ніколи не має перевищувати 90. Можна написати тест, щоб перевірити, чи є у ваших даних значення широти, більше за 90.
    • Якщо дані стосуються лише штату Флорида, можна написати тести, щоб перевірити, чи широти знаходяться в межах від 24 до 31 включно.
  • Візуалізуйте дані за допомогою точкових діаграм і гістограм. Шукайте відхилення.
  • Збирайте статистичні дані не лише для цілого набору даних, але й для його менших підмножин. Це потрібно тому, що сукупна статистика іноді не показує проблеми, наявні в менших розділах набору даних.
  • Документуйте всі трансформації даних.

Дані – ваш найцінніший ресурс, тому ставтеся до них дбайливо.

Додаткова інформація

Що далі?

Вітаємо із завершенням модуля!

Радимо переглядати різні модулі курсу MLCC у власному темпі, коли з’являється бажання. Якщо ви хочете дотримуватися рекомендованого порядку, пропонуємо перейти до наступного модуля, що називається Представлення категорійних даних.