ข้อมูลที่มีคุณภาพต่ําจะส่งผลต่อประสิทธิภาพของโมเดลเป็นอย่างมาก การตรวจหาข้อมูลคุณภาพต่ํานั้นทําได้ง่ายกว่าการคาดเดาว่าข้อมูลที่มีอยู่มีอยู่จริงหรือไม่หลังจากที่โมเดลคาดการณ์ไม่ถูกต้อง ตรวจสอบข้อมูลโดยทําตามคําแนะนําในส่วนนี้
ตรวจสอบข้อมูลอินพุตโดยใช้สคีมาข้อมูล
หากต้องการตรวจสอบข้อมูล คุณควรตรวจสอบข้อมูลเทียบกับค่าสถิติที่คาดหวังอย่างต่อเนื่อง โดยเขียนกฎที่ข้อมูลต้องเป็นไปตาม กฎชุดนี้เรียกว่าสคีมาข้อมูล กําหนดสคีมาข้อมูลโดยทําตามขั้นตอนต่อไปนี้
- สําหรับข้อมูลฟีเจอร์ ให้เข้าใจช่วงและการกระจาย สําหรับฟีเจอร์เชิงหมวดหมู่ ให้เข้าใจชุดค่าที่เป็นไปได้
เข้ารหัสความเข้าใจเป็นกฎที่กําหนดไว้ในสคีมา ตัวอย่างกฎมีดังนี้
- ตรวจสอบว่าคะแนนที่ผู้ใช้ส่งต้องอยู่ระหว่าง 1 ถึง 5 เสมอ
- ตรวจสอบว่า “the” เกิดขึ้นบ่อยที่สุด (สําหรับฟีเจอร์ข้อความภาษาอังกฤษ)
- ตรวจสอบว่าฟีเจอร์ตามหมวดหมู่มีค่าจากชุดแบบคงที่
ทดสอบข้อมูลของคุณกับสคีมาข้อมูล สคีมาควรตรวจจับข้อผิดพลาดเกี่ยวกับข้อมูลได้ เช่น
- ความผิดปกติ
- ค่าที่ไม่คาดคิดของตัวแปรเชิงหมวดหมู่
- การกระจายข้อมูลที่ไม่คาดคิด
ตรวจสอบว่าการแบ่งสินค้ามีคุณภาพดี
การแยกส่วนการทดสอบและการฝึกอบรมต้องแสดงถึงข้อมูลที่คุณป้อนเท่าๆ กัน หากการทดสอบและการแยกการทดสอบแตกต่างกันในเชิงสถิติ ข้อมูลการฝึกจะไม่ช่วยคาดการณ์ข้อมูลการทดสอบ ดูวิธีแสดงตัวอย่างและแบ่งข้อมูลได้จากบทความการสุ่มตัวอย่างและการแยกข้อมูลในการจัดเตรียมข้อมูลและวิศวกรรมฟีเจอร์ในหลักสูตร ML
ตรวจสอบพร็อพเพอร์ตี้ทางสถิติของการแยก หากคุณสมบัติต่างกัน ให้แจ้งปัญหา นอกจากนี้ ให้ทดสอบอัตราส่วนของตัวอย่างในฝั่งแยกต่างๆ ให้คงที่ เช่น หากข้อมูลแบ่งออกเป็น 80:20 อัตราส่วนนี้ไม่ควรมีการเปลี่ยนแปลง
ข้อมูลวิศวกรรมที่ทดสอบ
แม้ว่าข้อมูลดิบอาจใช้งานได้ แต่โมเดลของคุณแสดงเฉพาะข้อมูลฟีเจอร์ทางวิศวกรรมเท่านั้น เนื่องจากข้อมูลทางวิศวกรรมจะดูแตกต่างจากข้อมูลอินพุตดิบมาก คุณจึงต้องตรวจสอบข้อมูลทางวิศวกรรมแยกต่างหาก เขียนการทดสอบหน่วยตามความเข้าใจเกี่ยวกับข้อมูลทางวิศวกรรม ตัวอย่างเช่น คุณสามารถเขียนการทดสอบหน่วย เพื่อตรวจสอบเงื่อนไขต่อไปนี้
- ระบบจะปรับขนาดฟีเจอร์ตัวเลขทั้งหมด เช่น ระหว่าง 0 ถึง 1
- เวกเตอร์ที่เข้ารหัสแบบหนึ่งทิศทางจะมีเลขศูนย์ 1 และ N-1 เดียวเท่านั้น
- ข้อมูลที่ขาดไปจะถูกแทนที่ด้วยค่าเฉลี่ยหรือค่าเริ่มต้น
- การกระจายข้อมูลหลังการเปลี่ยนจะขึ้นอยู่กับความคาดหวัง ตัวอย่างเช่น หากคุณทําคะแนนมาตรฐานโดยใช้มาตรฐาน z คะแนนของ z จะเท่ากับ 0
- ค่าที่ผิดปกติจะได้รับการจัดการ เช่น การปรับขนาดหรือการตัดคลิป