Числові дані: висновок
Тримайте все під контролем за допомогою колекцій
Зберігайте контент і організовуйте його за категоріями відповідно до своїх потреб.
Якість моделі машинного навчання визначають її дані. Доречні дані сприяють належній роботі моделі, а невідповідні призводять до хибних прогнозів.
Нижче наведено рекомендації щодо роботи із числовими даними.
- Пам’ятайте, що модель машинного навчання взаємодіє з даними, які містяться у векторі ознак, а не в наборі даних.
- Нормалізуйте більшість числових ознак.
- Якщо перша стратегія нормалізації даних не принесла бажаного результату, виберіть іншу.
- Групування (інша назва – сегментація) іноді є кращим методом, ніж нормалізація.
- Подумайте, як мають виглядати ваші дані, і напишіть тести для перевірки, щоб підтвердити очікування. Перегляньте приклади нижче.
- Абсолютне значення широти ніколи не має перевищувати 90. Можна написати тест, щоб перевірити, чи є у ваших даних значення широти, більше за 90.
- Якщо дані стосуються лише штату Флорида, можна написати тести, щоб перевірити, чи широти знаходяться в межах від 24 до 31 включно.
- Візуалізуйте дані за допомогою точкових діаграм і гістограм. Шукайте відхилення.
- Збирайте статистичні дані не лише для цілого набору даних, але й для його менших підмножин. Це потрібно тому, що сукупна статистика іноді не показує проблеми, наявні в менших розділах набору даних.
- Документуйте всі трансформації даних.
Дані – ваш найцінніший ресурс, тому ставтеся до них дбайливо.
Що далі?
Вітаємо із завершенням модуля!
Радимо переглядати різні модулі Інтенсивного курсу з машинного навчання у власному темпі й порядку. Якщо ви хочете дотримуватися рекомендованого порядку, пропонуємо перейти до наступного модуля, що називається Представлення категорійних даних.
Якщо не вказано інше, вміст на цій сторінці надається за ліцензією Creative Commons Зазначення Авторства 4.0, а приклади коду – за ліцензією Apache 2.0. Щоб дізнатися більше, перегляньте Правила сайту Google Developers. Java – це зареєстрована торговельна марка компанії Oracle і/або її філій.
Останнє оновлення: 2025-04-22 (UTC).
[null,null,["Останнє оновлення: 2025-04-22 (UTC)."],[[["\u003cp\u003eA machine learning model's predictive ability is directly dependent on the quality of data it's trained on.\u003c/p\u003e\n"],["\u003cp\u003eNumerical features often benefit from normalization or binning to improve model performance.\u003c/p\u003e\n"],["\u003cp\u003eData validation through verification tests and visualizations is crucial for identifying and addressing potential issues.\u003c/p\u003e\n"],["\u003cp\u003eUnderstanding data distribution through statistics on both the entire dataset and its subsets is essential for identifying hidden problems.\u003c/p\u003e\n"],["\u003cp\u003eMaintaining thorough documentation of all data transformations ensures reproducibility and facilitates model understanding.\u003c/p\u003e\n"]]],[],null,["# Numerical data: Conclusion\n\nA machine learning (ML) model's health is determined by its data. Feed your\nmodel healthy data and it will thrive; feed your model junk and its\npredictions will be worthless.\n\nBest practices for working with numerical data:\n\n- Remember that your ML model interacts with the data in the [**feature vector**](/machine-learning/glossary#feature_vector), not the data in the [**dataset**](/machine-learning/glossary#dataset).\n- [**Normalize**](/machine-learning/glossary#normalization) most numerical [**features**](/machine-learning/glossary#feature).\n- If your first normalization strategy doesn't succeed, consider a different way to normalize your data.\n- [**Binning**](/machine-learning/glossary#binning), also referred to as [**bucketing**](/machine-learning/glossary#bucketing), is sometimes better than normalizing.\n- Considering what your data *should* look like, write verification tests to validate those expectations. For example:\n - The absolute value of latitude should never exceed 90. You can write a test to check if a latitude value greater than 90 appears in your data.\n - If your data is restricted to the state of Florida, you can write tests to check that the latitudes fall between 24 through 31, inclusive.\n- Visualize your data with scatter plots and histograms. Look for anomalies.\n- Gather statistics not only on the entire dataset but also on smaller subsets of the dataset. That's because aggregate statistics sometimes obscure problems in smaller sections of a dataset.\n- Document all your data transformations.\n\nData is your most valuable resource, so treat it with care.\n\nAdditional Information\n----------------------\n\n- The *Rules of Machine Learning* guide contains a valuable [Feature Engineering](https://developers.google.com/machine-learning/rules-of-ml/#ml_phase_ii_feature_engineering) section.\n\nWhat's next\n-----------\n\nCongratulations on finishing this module!\n\nWe encourage you to explore the various [MLCC modules](/machine-learning/crash-course)\nat your own pace and interest. If you'd like to follow a recommended order,\nwe suggest that you move to the following module next:\n**[Representing categorical data](/machine-learning/crash-course/categorical-data)**.\n\n*** ** * ** ***\n\n| **Key terms:**\n|\n| - [Binning](/machine-learning/glossary#binning)\n| - [Bucketing](/machine-learning/glossary#bucketing)\n| - [Dataset](/machine-learning/glossary#dataset)\n| - [Feature](/machine-learning/glossary#feature)\n| - [Feature vector](/machine-learning/glossary#feature_vector)\n- [Normalization](/machine-learning/glossary#normalization) \n[Help Center](https://support.google.com/machinelearningeducation)"]]