Dane liczbowe: podsumowanie
Zadbaj o dobrą organizację dzięki kolekcji
Zapisuj i kategoryzuj treści zgodnie ze swoimi preferencjami.
Jakość modelu systemów uczących się zależy od jego danych. Jeśli model będzie otrzymywać dobre dane, będzie się rozwijał, ale jeśli będzie otrzymywać śmieciowe dane, jego prognozy będą bezwartościowe.
Sprawdzone metody pracy z danymi liczbowymi:
- Pamiętaj, że model ML współpracuje z danymi w wektorze cech, a nie z danymi w zbiorze danych.
- Znormalizuj większość funkcji numerycznych.
- Jeśli pierwsza strategia normalizacji nie przyniesie oczekiwanych rezultatów, spróbuj innej metody normalizacji danych.
- Zbiory, czyli zbiory danych, są czasami lepsze od normalizacji.
- Biorąc pod uwagę, jak powinny wyglądać Twoje dane, napisz testy weryfikacyjne, aby sprawdzić, czy spełniają one oczekiwania. Na przykład:
- Wartość bezwzględna szerokości geograficznej nie powinna przekraczać 90. Możesz napisać test, aby sprawdzić, czy w danych pojawia się wartość szerokości geograficznej większa niż 90.
- Jeśli Twoje dane są ograniczone do stanu Floryda, możesz napisać testy, aby sprawdzić, czy szerokości geograficzne mieszczą się w zakresie od 24 do 31 włącznie.
- Wizualizuj dane za pomocą wykresów punktowych i histogramów. Poszukaj anomalii.
- Zbieraj statystyki nie tylko dla całego zbioru danych, ale też dla mniejszych podzbiorów. Dzieje się tak, ponieważ statystyki zbiorcze czasami ukrywają problemy w mniejszych częściach zbioru danych.
- Udokumentuj wszystkie przekształcenia danych.
Dane są Twoim najcenniejszym zasobem, dlatego należy o nie dbać.
-
Przewodnik Reguły dotyczące systemów uczących się zawiera przydatną sekcję
Feature Engineering.
Co dalej?
Gratulujemy ukończenia tego modułu.
Zachęcamy do samodzielnego odkrywania różnych modułów MLCC. Jeśli chcesz zachować zalecaną kolejność, przejdź do następnego modułu: Przedstawianie danych kategorialnych.
O ile nie stwierdzono inaczej, treść tej strony jest objęta licencją Creative Commons – uznanie autorstwa 4.0, a fragmenty kodu są dostępne na licencji Apache 2.0. Szczegółowe informacje na ten temat zawierają zasady dotyczące witryny Google Developers. Java jest zastrzeżonym znakiem towarowym firmy Oracle i jej podmiotów stowarzyszonych.
Ostatnia aktualizacja: 2024-11-10 UTC.
[null,null,["Ostatnia aktualizacja: 2024-11-10 UTC."],[[["\u003cp\u003eA machine learning model's predictive ability is directly dependent on the quality of data it's trained on.\u003c/p\u003e\n"],["\u003cp\u003eNumerical features often benefit from normalization or binning to improve model performance.\u003c/p\u003e\n"],["\u003cp\u003eData validation through verification tests and visualizations is crucial for identifying and addressing potential issues.\u003c/p\u003e\n"],["\u003cp\u003eUnderstanding data distribution through statistics on both the entire dataset and its subsets is essential for identifying hidden problems.\u003c/p\u003e\n"],["\u003cp\u003eMaintaining thorough documentation of all data transformations ensures reproducibility and facilitates model understanding.\u003c/p\u003e\n"]]],[],null,["# Numerical data: Conclusion\n\nA machine learning (ML) model's health is determined by its data. Feed your\nmodel healthy data and it will thrive; feed your model junk and its\npredictions will be worthless.\n\nBest practices for working with numerical data:\n\n- Remember that your ML model interacts with the data in the [**feature vector**](/machine-learning/glossary#feature_vector), not the data in the [**dataset**](/machine-learning/glossary#dataset).\n- [**Normalize**](/machine-learning/glossary#normalization) most numerical [**features**](/machine-learning/glossary#feature).\n- If your first normalization strategy doesn't succeed, consider a different way to normalize your data.\n- [**Binning**](/machine-learning/glossary#binning), also referred to as [**bucketing**](/machine-learning/glossary#bucketing), is sometimes better than normalizing.\n- Considering what your data *should* look like, write verification tests to validate those expectations. For example:\n - The absolute value of latitude should never exceed 90. You can write a test to check if a latitude value greater than 90 appears in your data.\n - If your data is restricted to the state of Florida, you can write tests to check that the latitudes fall between 24 through 31, inclusive.\n- Visualize your data with scatter plots and histograms. Look for anomalies.\n- Gather statistics not only on the entire dataset but also on smaller subsets of the dataset. That's because aggregate statistics sometimes obscure problems in smaller sections of a dataset.\n- Document all your data transformations.\n\nData is your most valuable resource, so treat it with care.\n\nAdditional Information\n----------------------\n\n- The *Rules of Machine Learning* guide contains a valuable [Feature Engineering](https://developers.google.com/machine-learning/rules-of-ml/#ml_phase_ii_feature_engineering) section.\n\nWhat's next\n-----------\n\nCongratulations on finishing this module!\n\nWe encourage you to explore the various [MLCC modules](/machine-learning/crash-course)\nat your own pace and interest. If you'd like to follow a recommended order,\nwe suggest that you move to the following module next:\n**[Representing categorical data](/machine-learning/crash-course/categorical-data)**.\n\n*** ** * ** ***\n\n| **Key terms:**\n|\n| - [Binning](/machine-learning/glossary#binning)\n| - [Bucketing](/machine-learning/glossary#bucketing)\n| - [Dataset](/machine-learning/glossary#dataset)\n| - [Feature](/machine-learning/glossary#feature)\n| - [Feature vector](/machine-learning/glossary#feature_vector)\n- [Normalization](/machine-learning/glossary#normalization) \n[Help Center](https://support.google.com/machinelearningeducation)"]]