ประสิทธิภาพของโมเดลแมชชีนเลิร์นนิง (ML) จะกำหนดโดยข้อมูล ป้อน สร้างแบบจำลองข้อมูลที่มีประสิทธิภาพดี และจะเติบโตต่อไป ป้อนขยะโมเดลของคุณ การคาดคะเนก็จะไม่มีค่า
แนวทางปฏิบัติแนะนำในการทำงานกับข้อมูลตัวเลข
- โปรดทราบว่าโมเดล ML ของคุณมีการโต้ตอบกับข้อมูลใน เวกเตอร์ของฟีเจอร์ ไม่ใช่ข้อมูลใน ชุดข้อมูล
- ทำให้เป็นมาตรฐานมากที่สุด ฟีเจอร์ที่เป็นตัวเลข
- หากกลยุทธ์การปรับรูปแบบมาตรฐานเป็นครั้งแรกไม่สำเร็จ ให้ลองใช้ ในการทำให้ข้อมูลเป็นมาตรฐาน
- Binning หรือที่เรียกว่า bucketing บางครั้งคือ ดีกว่าการทำให้เป็นรูปแบบมาตรฐาน
- เขียนการยืนยันเมื่อพิจารณาว่าข้อมูลควรมีลักษณะอย่างไร
เพื่อยืนยันความคาดหวังเหล่านั้น ดังตัวอย่างต่อไปนี้
- ค่าสัมบูรณ์ของละติจูดไม่ควรเกิน 90 คุณสามารถเขียน ทดสอบเพื่อตรวจสอบว่าค่าละติจูดมากกว่า 90 ปรากฏในข้อมูลของคุณหรือไม่
- หากจำกัดข้อมูลไว้เฉพาะรัฐฟลอริดา คุณเขียนการทดสอบได้ เพื่อตรวจสอบว่าละติจูดอยู่ระหว่าง 24 ถึง 31 (รวมค่าแรกและค่าสุดท้าย)
- แสดงข้อมูลด้วยแผนภูมิกระจายและฮิสโตแกรม มองหา ความผิดปกติ
- รวบรวมสถิติไม่เพียงแต่ในชุดข้อมูลทั้งหมดแต่ยังรวบรวมสถิติในปริมาณน้อยลงด้วย ของชุดข้อมูลแต่ละชุด นั่นเป็นเพราะในบางครั้งสถิติรวม ซ่อนปัญหาในชุดข้อมูลขนาดเล็ก
- บันทึกการเปลี่ยนรูปแบบข้อมูลทั้งหมด
ข้อมูลคือทรัพยากรที่มีค่าที่สุดของคุณ คุณจึงควรดูแลข้อมูลด้วยความระมัดระวัง
ข้อมูลเพิ่มเติม
- คู่มือกฎของแมชชีนเลิร์นนิงมี ส่วนวิศวกรรมฟีเจอร์
ขั้นตอนถัดไป
ยินดีด้วยที่จบโมดูลนี้
เราขอแนะนำให้คุณสำรวจโมดูลต่างๆ ของ MLCC ตามเวลาและความสนใจของคุณ หากคุณต้องการทำตามคำสั่งซื้อที่แนะนำ เราขอแนะนำให้ไปที่โมดูลต่อไปนี้ในลำดับถัดไป แสดงข้อมูลเชิงหมวดหมู่