ข้อมูลตัวเลข: การสครับ

ต้นแอปเปิ้ลออกผลมากมายทั้งผลไม้ที่ยุ่งเหยิงและกลุ้มใจ แต่แอปเปิ้ลในร้านขายของชำระดับไฮเอนด์กลับแสดงผลผลไม้ที่สมบูรณ์แบบ 100% ระหว่างสวนผลไม้กับร้านขายของชำ มีคนใช้เวลามากมายในการถอด แอปเปิ้ลตัวร้ายหรือฉีดขี้ผึ้งเล็กๆ น้อยๆ บนเศษซากทั้งหมดที่เหลืออยู่ ในฐานะวิศวกร ML คุณจะต้องใช้เวลาอย่างมหาศาล การทิ้งตัวอย่างที่ไม่ดีและทำความสะอาดสิ่งที่กู้ได้คืนมา แอปเปิลที่ไม่ดีแม้เพียงไม่กี่ตัวก็อาจทำให้ชุดข้อมูลขนาดใหญ่แย่ลงได้

ตัวอย่างจำนวนมากในชุดข้อมูลที่ไม่น่าเชื่อถือเนื่องจาก ปัญหาต่อไปนี้

หมวดหมู่ของปัญหา ตัวอย่าง
ค่าที่ละเว้น ผู้รับสำมะโนประชากรไม่บันทึกอายุของผู้พำนักอาศัย
ตัวอย่างที่ซ้ำกัน เซิร์ฟเวอร์จะอัปโหลดบันทึกเดียวกัน 2 ครั้ง
ค่าฟีเจอร์อยู่นอกช่วง มนุษย์พิมพ์ตัวเลขเกินโดยไม่ได้ตั้งใจ
ป้ายกำกับไม่ถูกต้อง นักประเมินที่เป็นมนุษย์ติดป้ายกำกับรูปภาพของต้นโอ๊กผิด เมเปิล

คุณสามารถเขียนโปรแกรมหรือสคริปต์เพื่อตรวจหาปัญหาใดๆ ต่อไปนี้

  • ค่าที่ละเว้น
  • ตัวอย่างที่ซ้ำกัน
  • ค่าฟีเจอร์อยู่นอกช่วง

ตัวอย่างเช่น ชุดข้อมูลต่อไปนี้มีค่าที่ซ้ำกัน 6 ค่า

วันที่ รูปที่ 15 ค่า 6 ค่าแรกซ้ำ รอบ 8 ทีมสุดท้าย
            ไม่ได้
รูปที่ 15 ค่า 6 ค่าแรกซ้ำ

อีกตัวอย่างหนึ่ง สมมติว่าช่วงอุณหภูมิสำหรับสถานที่หนึ่งๆ ต้อง อยู่ระหว่าง 10 ถึง 30 องศา แต่อุบัติเหตุเกิดขึ้นได้ เทอร์โมมิเตอร์สัมผัสกับดวงอาทิตย์ได้ชั่วคราวซึ่งทำให้เกิดค่าผิดปกติ โปรแกรมหรือสคริปต์ต้องระบุค่าอุณหภูมิที่น้อยกว่า 10 หรือมากกว่า มากกว่า 30:

วันที่ รูปที่ 16 ค่าในช่วง 19 ค่าและค่าอยู่นอกช่วง 1 ค่า
รูปที่ 16 ค่าอยู่นอกช่วง

เมื่อป้ายกำกับได้รับการสร้างขึ้นจากผู้ใช้หลายคน เราขอแนะนำให้ใช้สถิติ พิจารณาว่าผู้ตรวจสอบแต่ละรายสร้างชุดป้ายกำกับที่เทียบเท่ากันหรือไม่ อาจจะเป็นการให้คะแนนที่จริงจังกว่า อีกคนหนึ่งหรือใช้ ชุดเกณฑ์การให้คะแนนอื่นๆ กันหรือไม่

เมื่อตรวจพบแล้ว โดยปกติคุณจะ "แก้ไข" ตัวอย่างที่มีฟีเจอร์ที่ไม่ถูกต้อง หรือป้ายกำกับที่ไม่ถูกต้องโดยการนำป้ายกำกับออกจากชุดข้อมูลหรือประเมินค่า โปรดดูรายละเอียดที่ ลักษณะของข้อมูล ของ ชุดข้อมูล การสรุป และการปรับมากเกินไป