수치 데이터: 결론
컬렉션을 사용해 정리하기
내 환경설정을 기준으로 콘텐츠를 저장하고 분류하세요.
머신러닝 (ML) 모델의 상태는 데이터에 따라 결정됩니다. 모델에 유효한 데이터를 제공하면 모델이 잘 작동합니다. 모델에 무의미한 데이터를 제공하면 예측이 무용지물이 됩니다.
숫자 데이터 작업을 위한 권장사항:
- ML 모델은 데이터 세트의 데이터가 아닌 특성 벡터의 데이터와 상호작용합니다.
- 대부분의 숫자 특성을 정규화합니다.
- 첫 번째 정규화 전략이 성공하지 못하면 다른 방법으로 데이터를 정규화해 보세요.
- 분류라고도 하는 비닝은 정규화보다 나을 때가 있습니다.
- 데이터가 어떻게 표시되어야 하는지 고려하여 확인 테스트를 작성하여 이러한 기대치를 검증합니다. 예를 들면 다음과 같습니다.
- 위도의 절대값은 90을 초과해서는 안 됩니다. 테스트를 작성하여 데이터에 90보다 큰 위도 값이 표시되는지 확인할 수 있습니다.
- 데이터가 플로리다주로 제한되는 경우 위도가 24~31(포함) 사이에 속하는지 확인하는 테스트를 작성할 수 있습니다.
- 산점도와 히스토그램으로 데이터를 시각화합니다. 이상치를 찾습니다.
- 전체 데이터 세트뿐만 아니라 데이터 세트의 작은 하위 집합에 대한 통계도 수집합니다. 집계 통계는 데이터 세트의 작은 섹션에서 발생하는 문제를 가릴 수 있기 때문입니다.
- 모든 데이터 변환을 문서화합니다.
데이터는 가장 중요한 리소스이므로 신중하게 처리하세요.
-
머신러닝 규칙 가이드에는 유용한
특성 추출 섹션이 포함되어 있습니다.
다음 단계
이 모듈을 완료하신 것을 축하합니다.
나에게 맞는 속도와 관심분야에 맞춰 다양한 MLCC 모듈을 살펴보는 것이 좋습니다. 권장 순서를 따르려면 다음 모듈인 범주형 데이터 표현으로 이동하세요.
달리 명시되지 않는 한 이 페이지의 콘텐츠에는 Creative Commons Attribution 4.0 라이선스에 따라 라이선스가 부여되며, 코드 샘플에는 Apache 2.0 라이선스에 따라 라이선스가 부여됩니다. 자세한 내용은 Google Developers 사이트 정책을 참조하세요. 자바는 Oracle 및/또는 Oracle 계열사의 등록 상표입니다.
최종 업데이트: 2024-11-10(UTC)
[null,null,["최종 업데이트: 2024-11-10(UTC)"],[[["\u003cp\u003eA machine learning model's predictive ability is directly dependent on the quality of data it's trained on.\u003c/p\u003e\n"],["\u003cp\u003eNumerical features often benefit from normalization or binning to improve model performance.\u003c/p\u003e\n"],["\u003cp\u003eData validation through verification tests and visualizations is crucial for identifying and addressing potential issues.\u003c/p\u003e\n"],["\u003cp\u003eUnderstanding data distribution through statistics on both the entire dataset and its subsets is essential for identifying hidden problems.\u003c/p\u003e\n"],["\u003cp\u003eMaintaining thorough documentation of all data transformations ensures reproducibility and facilitates model understanding.\u003c/p\u003e\n"]]],[],null,["# Numerical data: Conclusion\n\nA machine learning (ML) model's health is determined by its data. Feed your\nmodel healthy data and it will thrive; feed your model junk and its\npredictions will be worthless.\n\nBest practices for working with numerical data:\n\n- Remember that your ML model interacts with the data in the [**feature vector**](/machine-learning/glossary#feature_vector), not the data in the [**dataset**](/machine-learning/glossary#dataset).\n- [**Normalize**](/machine-learning/glossary#normalization) most numerical [**features**](/machine-learning/glossary#feature).\n- If your first normalization strategy doesn't succeed, consider a different way to normalize your data.\n- [**Binning**](/machine-learning/glossary#binning), also referred to as [**bucketing**](/machine-learning/glossary#bucketing), is sometimes better than normalizing.\n- Considering what your data *should* look like, write verification tests to validate those expectations. For example:\n - The absolute value of latitude should never exceed 90. You can write a test to check if a latitude value greater than 90 appears in your data.\n - If your data is restricted to the state of Florida, you can write tests to check that the latitudes fall between 24 through 31, inclusive.\n- Visualize your data with scatter plots and histograms. Look for anomalies.\n- Gather statistics not only on the entire dataset but also on smaller subsets of the dataset. That's because aggregate statistics sometimes obscure problems in smaller sections of a dataset.\n- Document all your data transformations.\n\nData is your most valuable resource, so treat it with care.\n\nAdditional Information\n----------------------\n\n- The *Rules of Machine Learning* guide contains a valuable [Feature Engineering](https://developers.google.com/machine-learning/rules-of-ml/#ml_phase_ii_feature_engineering) section.\n\nWhat's next\n-----------\n\nCongratulations on finishing this module!\n\nWe encourage you to explore the various [MLCC modules](/machine-learning/crash-course)\nat your own pace and interest. If you'd like to follow a recommended order,\nwe suggest that you move to the following module next:\n**[Representing categorical data](/machine-learning/crash-course/categorical-data)**.\n\n*** ** * ** ***\n\n| **Key terms:**\n|\n| - [Binning](/machine-learning/glossary#binning)\n| - [Bucketing](/machine-learning/glossary#bucketing)\n| - [Dataset](/machine-learning/glossary#dataset)\n| - [Feature](/machine-learning/glossary#feature)\n| - [Feature vector](/machine-learning/glossary#feature_vector)\n- [Normalization](/machine-learning/glossary#normalization) \n[Help Center](https://support.google.com/machinelearningeducation)"]]