Якість моделі машинного навчання визначають її дані. Доречні дані сприяють належній роботі моделі, а невідповідні призводять до хибних прогнозів.
Нижче наведено рекомендації щодо роботи із числовими даними.
- Пам’ятайте, що модель машинного навчання взаємодіє з даними, які містяться у векторі ознак, а не в наборі даних.
- Нормалізуйте більшість числових ознак.
- Якщо перша стратегія нормалізації даних не принесла бажаного результату, виберіть іншу.
- Групування (інша назва – сегментація) іноді є кращим методом, ніж нормалізація.
- Подумайте, як мають виглядати ваші дані, і напишіть тести для перевірки, щоб підтвердити очікування. Перегляньте приклади нижче.
- Абсолютне значення широти ніколи не має перевищувати 90. Можна написати тест, щоб перевірити, чи є у ваших даних значення широти, більше за 90.
- Якщо дані стосуються лише штату Флорида, можна написати тести, щоб перевірити, чи широти знаходяться в межах від 24 до 31 включно.
- Візуалізуйте дані за допомогою точкових діаграм і гістограм. Шукайте відхилення.
- Збирайте статистичні дані не лише для цілого набору даних, але й для його менших підмножин. Це потрібно тому, що сукупна статистика іноді не показує проблеми, наявні в менших розділах набору даних.
- Документуйте всі трансформації даних.
Дані – ваш найцінніший ресурс, тому ставтеся до них дбайливо.
Додаткова інформація
- У посібнику Правила машинного навчання є корисний розділ Конструювання ознак.
Що далі?
Вітаємо із завершенням модуля!
Радимо переглядати різні модулі курсу MLCC у власному темпі, коли з’являється бажання. Якщо ви хочете дотримуватися рекомендованого порядку, пропонуємо перейти до наступного модуля, що називається Представлення категорійних даних.