ต้นแอปเปิ้ลออกผลมากมายทั้งผลไม้ที่ยุ่งเหยิงและกลุ้มใจ แต่แอปเปิ้ลในร้านขายของชำระดับไฮเอนด์กลับแสดงผลผลไม้ที่สมบูรณ์แบบ 100% ระหว่างสวนผลไม้กับร้านขายของชำ มีคนใช้เวลามากมายในการถอด แอปเปิ้ลตัวร้ายหรือฉีดขี้ผึ้งเล็กๆ น้อยๆ บนเศษซากทั้งหมดที่เหลืออยู่ ในฐานะวิศวกร ML คุณจะต้องใช้เวลาอย่างมหาศาล การทิ้งตัวอย่างที่ไม่ดีและทำความสะอาดสิ่งที่กู้ได้คืนมา แอปเปิลที่ไม่ดีแม้เพียงไม่กี่ตัวก็อาจทำให้ชุดข้อมูลขนาดใหญ่แย่ลงได้
ตัวอย่างจำนวนมากในชุดข้อมูลที่ไม่น่าเชื่อถือเนื่องจาก ปัญหาต่อไปนี้
หมวดหมู่ของปัญหา | ตัวอย่าง |
---|---|
ค่าที่ละเว้น | ผู้รับสำมะโนประชากรไม่บันทึกอายุของผู้พำนักอาศัย |
ตัวอย่างที่ซ้ำกัน | เซิร์ฟเวอร์จะอัปโหลดบันทึกเดียวกัน 2 ครั้ง |
ค่าฟีเจอร์อยู่นอกช่วง | มนุษย์พิมพ์ตัวเลขเกินโดยไม่ได้ตั้งใจ |
ป้ายกำกับไม่ถูกต้อง | นักประเมินที่เป็นมนุษย์ติดป้ายกำกับรูปภาพของต้นโอ๊กผิด เมเปิล |
คุณสามารถเขียนโปรแกรมหรือสคริปต์เพื่อตรวจหาปัญหาใดๆ ต่อไปนี้
- ค่าที่ละเว้น
- ตัวอย่างที่ซ้ำกัน
- ค่าฟีเจอร์อยู่นอกช่วง
ตัวอย่างเช่น ชุดข้อมูลต่อไปนี้มีค่าที่ซ้ำกัน 6 ค่า
อีกตัวอย่างหนึ่ง สมมติว่าช่วงอุณหภูมิสำหรับสถานที่หนึ่งๆ ต้อง อยู่ระหว่าง 10 ถึง 30 องศา แต่อุบัติเหตุเกิดขึ้นได้ เทอร์โมมิเตอร์สัมผัสกับดวงอาทิตย์ได้ชั่วคราวซึ่งทำให้เกิดค่าผิดปกติ โปรแกรมหรือสคริปต์ต้องระบุค่าอุณหภูมิที่น้อยกว่า 10 หรือมากกว่า มากกว่า 30:
เมื่อป้ายกำกับได้รับการสร้างขึ้นจากผู้ใช้หลายคน เราขอแนะนำให้ใช้สถิติ พิจารณาว่าผู้ตรวจสอบแต่ละรายสร้างชุดป้ายกำกับที่เทียบเท่ากันหรือไม่ อาจจะเป็นการให้คะแนนที่จริงจังกว่า อีกคนหนึ่งหรือใช้ ชุดเกณฑ์การให้คะแนนอื่นๆ กันหรือไม่
เมื่อตรวจพบแล้ว โดยปกติคุณจะ "แก้ไข" ตัวอย่างที่มีฟีเจอร์ที่ไม่ถูกต้อง หรือป้ายกำกับที่ไม่ถูกต้องโดยการนำป้ายกำกับออกจากชุดข้อมูลหรือประเมินค่า โปรดดูรายละเอียดที่ ลักษณะของข้อมูล ของ ชุดข้อมูล การสรุป และการปรับมากเกินไป