การแก้ไขข้อบกพร่องของข้อมูลและฟีเจอร์

ข้อมูลที่มีคุณภาพต่ําจะส่งผลต่อประสิทธิภาพของโมเดลเป็นอย่างมาก การตรวจหาข้อมูลคุณภาพต่ํานั้นทําได้ง่ายกว่าการคาดเดาว่าข้อมูลที่มีอยู่มีอยู่จริงหรือไม่หลังจากที่โมเดลคาดการณ์ไม่ถูกต้อง ตรวจสอบข้อมูลโดยทําตามคําแนะนําในส่วนนี้

ตรวจสอบข้อมูลอินพุตโดยใช้สคีมาข้อมูล

หากต้องการตรวจสอบข้อมูล คุณควรตรวจสอบข้อมูลเทียบกับค่าสถิติที่คาดหวังอย่างต่อเนื่อง โดยเขียนกฎที่ข้อมูลต้องเป็นไปตาม กฎชุดนี้เรียกว่าสคีมาข้อมูล กําหนดสคีมาข้อมูลโดยทําตามขั้นตอนต่อไปนี้

  1. สําหรับข้อมูลฟีเจอร์ ให้เข้าใจช่วงและการกระจาย สําหรับฟีเจอร์เชิงหมวดหมู่ ให้เข้าใจชุดค่าที่เป็นไปได้
  2. เข้ารหัสความเข้าใจเป็นกฎที่กําหนดไว้ในสคีมา ตัวอย่างกฎมีดังนี้

    • ตรวจสอบว่าคะแนนที่ผู้ใช้ส่งต้องอยู่ระหว่าง 1 ถึง 5 เสมอ
    • ตรวจสอบว่า “the” เกิดขึ้นบ่อยที่สุด (สําหรับฟีเจอร์ข้อความภาษาอังกฤษ)
    • ตรวจสอบว่าฟีเจอร์ตามหมวดหมู่มีค่าจากชุดแบบคงที่
  3. ทดสอบข้อมูลของคุณกับสคีมาข้อมูล สคีมาควรตรวจจับข้อผิดพลาดเกี่ยวกับข้อมูลได้ เช่น

    • ความผิดปกติ
    • ค่าที่ไม่คาดคิดของตัวแปรเชิงหมวดหมู่
    • การกระจายข้อมูลที่ไม่คาดคิด

ตรวจสอบว่าการแบ่งสินค้ามีคุณภาพดี

การแยกส่วนการทดสอบและการฝึกอบรมต้องแสดงถึงข้อมูลที่คุณป้อนเท่าๆ กัน หากการทดสอบและการแยกการทดสอบแตกต่างกันในเชิงสถิติ ข้อมูลการฝึกจะไม่ช่วยคาดการณ์ข้อมูลการทดสอบ ดูวิธีแสดงตัวอย่างและแบ่งข้อมูลได้จากบทความการสุ่มตัวอย่างและการแยกข้อมูลในการจัดเตรียมข้อมูลและวิศวกรรมฟีเจอร์ในหลักสูตร ML

ตรวจสอบพร็อพเพอร์ตี้ทางสถิติของการแยก หากคุณสมบัติต่างกัน ให้แจ้งปัญหา นอกจากนี้ ให้ทดสอบอัตราส่วนของตัวอย่างในฝั่งแยกต่างๆ ให้คงที่ เช่น หากข้อมูลแบ่งออกเป็น 80:20 อัตราส่วนนี้ไม่ควรมีการเปลี่ยนแปลง

ข้อมูลวิศวกรรมที่ทดสอบ

แม้ว่าข้อมูลดิบอาจใช้งานได้ แต่โมเดลของคุณแสดงเฉพาะข้อมูลฟีเจอร์ทางวิศวกรรมเท่านั้น เนื่องจากข้อมูลทางวิศวกรรมจะดูแตกต่างจากข้อมูลอินพุตดิบมาก คุณจึงต้องตรวจสอบข้อมูลทางวิศวกรรมแยกต่างหาก เขียนการทดสอบหน่วยตามความเข้าใจเกี่ยวกับข้อมูลทางวิศวกรรม ตัวอย่างเช่น คุณสามารถเขียนการทดสอบหน่วย เพื่อตรวจสอบเงื่อนไขต่อไปนี้

  • ระบบจะปรับขนาดฟีเจอร์ตัวเลขทั้งหมด เช่น ระหว่าง 0 ถึง 1
  • เวกเตอร์ที่เข้ารหัสแบบหนึ่งทิศทางจะมีเลขศูนย์ 1 และ N-1 เดียวเท่านั้น
  • ข้อมูลที่ขาดไปจะถูกแทนที่ด้วยค่าเฉลี่ยหรือค่าเริ่มต้น
  • การกระจายข้อมูลหลังการเปลี่ยนจะขึ้นอยู่กับความคาดหวัง ตัวอย่างเช่น หากคุณทําคะแนนมาตรฐานโดยใช้มาตรฐาน z คะแนนของ z จะเท่ากับ 0
  • ค่าที่ผิดปกติจะได้รับการจัดการ เช่น การปรับขนาดหรือการตัดคลิป