ข้อมูลตัวเลข: สรุป
จัดทุกอย่างให้เป็นระเบียบอยู่เสมอด้วยคอลเล็กชัน
บันทึกและจัดหมวดหมู่เนื้อหาตามค่ากำหนดของคุณ
สถานภาพของโมเดลแมชชีนเลิร์นนิง (ML) จะกำหนดโดยข้อมูล ป้อนข้อมูลที่ดีให้กับโมเดลเพื่อให้โมเดลทำงานได้ดี แต่หากป้อนข้อมูลที่ไม่มีประโยชน์ การทำนายของโมเดลจะไร้ค่า
แนวทางปฏิบัติแนะนำสำหรับการทำงานกับข้อมูลตัวเลข
- โปรดทราบว่าโมเดล ML จะโต้ตอบกับข้อมูลในเวกเตอร์องค์ประกอบ ไม่ใช่ข้อมูลในชุดข้อมูล
- ทำให้เป็นมาตรฐานฟีเจอร์ที่เป็นตัวเลขส่วนใหญ่
- หากกลยุทธ์การปรับข้อมูลให้เป็นมาตรฐานเป็นครั้งแรกไม่สำเร็จ ให้ลองใช้วิธีอื่นในการปรับข้อมูลให้เป็นมาตรฐาน
- บางครั้ง Binning หรือที่เรียกว่า bucketing อาจดีกว่าการทำให้เป็นมาตรฐาน
- พิจารณาว่าข้อมูลของคุณควรมีลักษณะอย่างไร แล้วเขียนการทดสอบการยืนยันเพื่อตรวจสอบความคาดหวังเหล่านั้น เช่น
- ค่าสัมบูรณ์ของละติจูดต้องไม่เกิน 90 คุณสามารถเขียนการทดสอบเพื่อตรวจสอบว่าค่าละติจูดมากกว่า 90 ปรากฏในข้อมูลหรือไม่
- หากข้อมูลของคุณจํากัดอยู่ในรัฐฟลอริดา คุณสามารถเขียนการทดสอบเพื่อตรวจสอบว่าละติจูดอยู่ในช่วง 24 ถึง 31
- แสดงข้อมูลด้วยแผนภูมิกระจายและฮิสโตแกรม มองหาความผิดปกติ
- รวบรวมสถิติทั้งชุดข้อมูลและชุดย่อยที่เล็กลงของชุดข้อมูล เนื่องจากสถิติรวมบางครั้งอาจบดบังปัญหาในส่วนเล็กๆ ของชุดข้อมูล
- บันทึกการเปลี่ยนรูปแบบข้อมูลทั้งหมด
ข้อมูลคือทรัพยากรที่มีค่าที่สุดของคุณ ดังนั้นโปรดใช้ข้อมูลอย่างระมัดระวัง
ขั้นตอนถัดไป
ยินดีด้วยที่ผ่านโมดูลนี้
เราขอแนะนำให้คุณสำรวจข้อบังคับ MLCC ต่างๆ ตามความสนใจและในแบบของคุณ หากต้องการทําตามลําดับที่แนะนํา เราขอแนะนําให้ไปที่ข้อบังคับต่อไปนี้การนําเสนอข้อมูลเชิงหมวดหมู่
เนื้อหาของหน้าเว็บนี้ได้รับอนุญาตภายใต้ใบอนุญาตที่ต้องระบุที่มาของครีเอทีฟคอมมอนส์ 4.0 และตัวอย่างโค้ดได้รับอนุญาตภายใต้ใบอนุญาต Apache 2.0 เว้นแต่จะระบุไว้เป็นอย่างอื่น โปรดดูรายละเอียดที่นโยบายเว็บไซต์ Google Developers Java เป็นเครื่องหมายการค้าจดทะเบียนของ Oracle และ/หรือบริษัทในเครือ
อัปเดตล่าสุด 2024-11-10 UTC
[null,null,["อัปเดตล่าสุด 2024-11-10 UTC"],[[["\u003cp\u003eA machine learning model's predictive ability is directly dependent on the quality of data it's trained on.\u003c/p\u003e\n"],["\u003cp\u003eNumerical features often benefit from normalization or binning to improve model performance.\u003c/p\u003e\n"],["\u003cp\u003eData validation through verification tests and visualizations is crucial for identifying and addressing potential issues.\u003c/p\u003e\n"],["\u003cp\u003eUnderstanding data distribution through statistics on both the entire dataset and its subsets is essential for identifying hidden problems.\u003c/p\u003e\n"],["\u003cp\u003eMaintaining thorough documentation of all data transformations ensures reproducibility and facilitates model understanding.\u003c/p\u003e\n"]]],[],null,["# Numerical data: Conclusion\n\nA machine learning (ML) model's health is determined by its data. Feed your\nmodel healthy data and it will thrive; feed your model junk and its\npredictions will be worthless.\n\nBest practices for working with numerical data:\n\n- Remember that your ML model interacts with the data in the [**feature vector**](/machine-learning/glossary#feature_vector), not the data in the [**dataset**](/machine-learning/glossary#dataset).\n- [**Normalize**](/machine-learning/glossary#normalization) most numerical [**features**](/machine-learning/glossary#feature).\n- If your first normalization strategy doesn't succeed, consider a different way to normalize your data.\n- [**Binning**](/machine-learning/glossary#binning), also referred to as [**bucketing**](/machine-learning/glossary#bucketing), is sometimes better than normalizing.\n- Considering what your data *should* look like, write verification tests to validate those expectations. For example:\n - The absolute value of latitude should never exceed 90. You can write a test to check if a latitude value greater than 90 appears in your data.\n - If your data is restricted to the state of Florida, you can write tests to check that the latitudes fall between 24 through 31, inclusive.\n- Visualize your data with scatter plots and histograms. Look for anomalies.\n- Gather statistics not only on the entire dataset but also on smaller subsets of the dataset. That's because aggregate statistics sometimes obscure problems in smaller sections of a dataset.\n- Document all your data transformations.\n\nData is your most valuable resource, so treat it with care.\n\nAdditional Information\n----------------------\n\n- The *Rules of Machine Learning* guide contains a valuable [Feature Engineering](https://developers.google.com/machine-learning/rules-of-ml/#ml_phase_ii_feature_engineering) section.\n\nWhat's next\n-----------\n\nCongratulations on finishing this module!\n\nWe encourage you to explore the various [MLCC modules](/machine-learning/crash-course)\nat your own pace and interest. If you'd like to follow a recommended order,\nwe suggest that you move to the following module next:\n**[Representing categorical data](/machine-learning/crash-course/categorical-data)**.\n\n*** ** * ** ***\n\n| **Key terms:**\n|\n| - [Binning](/machine-learning/glossary#binning)\n| - [Bucketing](/machine-learning/glossary#bucketing)\n| - [Dataset](/machine-learning/glossary#dataset)\n| - [Feature](/machine-learning/glossary#feature)\n| - [Feature vector](/machine-learning/glossary#feature_vector)\n- [Normalization](/machine-learning/glossary#normalization) \n[Help Center](https://support.google.com/machinelearningeducation)"]]