สถานภาพของโมเดลแมชชีนเลิร์นนิง (ML) จะกำหนดโดยข้อมูล ป้อนข้อมูลที่ดีให้กับโมเดลเพื่อให้โมเดลทำงานได้ดี แต่หากป้อนข้อมูลที่ไม่มีประโยชน์ การทำนายของโมเดลจะไร้ค่า
แนวทางปฏิบัติแนะนำสำหรับการทำงานกับข้อมูลตัวเลข
- โปรดทราบว่าโมเดล ML จะโต้ตอบกับข้อมูลในเวกเตอร์องค์ประกอบ ไม่ใช่ข้อมูลในชุดข้อมูล
- ทำให้เป็นมาตรฐานฟีเจอร์ที่เป็นตัวเลขส่วนใหญ่
- หากกลยุทธ์การปรับข้อมูลให้เป็นมาตรฐานเป็นครั้งแรกไม่สำเร็จ ให้ลองใช้วิธีอื่นในการปรับข้อมูลให้เป็นมาตรฐาน
- บางครั้ง Binning หรือที่เรียกว่า bucketing อาจดีกว่าการทำให้เป็นมาตรฐาน
- พิจารณาว่าข้อมูลของคุณควรมีลักษณะอย่างไร แล้วเขียนการทดสอบการยืนยันเพื่อตรวจสอบความคาดหวังเหล่านั้น เช่น
- ค่าสัมบูรณ์ของละติจูดต้องไม่เกิน 90 คุณสามารถเขียนการทดสอบเพื่อตรวจสอบว่าค่าละติจูดมากกว่า 90 ปรากฏในข้อมูลหรือไม่
- หากข้อมูลของคุณจํากัดอยู่ในรัฐฟลอริดา คุณสามารถเขียนการทดสอบเพื่อตรวจสอบว่าละติจูดอยู่ในช่วง 24 ถึง 31
- แสดงข้อมูลด้วยแผนภูมิกระจายและฮิสโตแกรม มองหาความผิดปกติ
- รวบรวมสถิติทั้งชุดข้อมูลและชุดย่อยที่เล็กลงของชุดข้อมูล เนื่องจากสถิติรวมบางครั้งอาจบดบังปัญหาในส่วนเล็กๆ ของชุดข้อมูล
- บันทึกการเปลี่ยนรูปแบบข้อมูลทั้งหมด
ข้อมูลคือทรัพยากรที่มีค่าที่สุดของคุณ ดังนั้นโปรดใช้ข้อมูลอย่างระมัดระวัง
ข้อมูลเพิ่มเติม
- คู่มือกฎของแมชชีนเลิร์นนิงมีส่วน การสร้างฟีเจอร์ที่เป็นประโยชน์
ขั้นตอนถัดไป
ยินดีด้วยที่ผ่านโมดูลนี้
เราขอแนะนำให้คุณสำรวจข้อบังคับ MLCC ต่างๆ ตามความสนใจและในแบบของคุณ หากต้องการทําตามลําดับที่แนะนํา เราขอแนะนําให้ไปที่ข้อบังคับต่อไปนี้การนําเสนอข้อมูลเชิงหมวดหมู่