ข้อมูลเชิงหมวดหมู่: ปัญหาที่พบได้ทั่วไป

ข้อมูลตัวเลขมักจะถูกบันทึกโดยเครื่องมือทางวิทยาศาสตร์หรือ การวัดผลอัตโนมัติ ในทางกลับกัน ข้อมูลเชิงหมวดหมู่มักจะ จำแนกตามมนุษย์หรือตามโมเดลแมชชีนเลิร์นนิง (ML) ใครเป็นผู้ตัดสินใจ หมวดหมู่และป้ายกำกับ รวมถึงวิธีการตัดสินใจดังกล่าว ซึ่งจะส่งผลต่อ ความน่าเชื่อถือและประโยชน์ของข้อมูลนั้น

เจ้าหน้าที่ตรวจสอบ

ข้อมูลที่มนุษย์ติดป้ายกำกับด้วยตนเองมักจะเรียกว่าป้ายกำกับทอง และถือว่ามีประสิทธิภาพมากกว่าข้อมูลที่ติดป้ายกำกับโดยแมชชีนสำหรับโมเดลการฝึก เนื่องจากคุณภาพของข้อมูลจะดีกว่า

ซึ่งไม่ได้หมายความว่าชุดข้อมูลที่มนุษย์ติดป้ายกำกับจะมีคุณภาพสูง ของคุณ ผู้อื่นสามารถก่อให้เกิดความผิดพลาด อคติ และความประสงค์ร้ายของมนุษย์ได้ในทันที ในการเก็บรวบรวมข้อมูล หรือระหว่างการทำความสะอาดและประมวลผลข้อมูล ตรวจหาบุคคล ก่อนการฝึก

มนุษย์ 2 คนอาจมีป้ายกำกับตัวอย่างเดียวกันต่างกัน ความแตกต่าง ระหว่างเจ้าหน้าที่ตรวจสอบ ซึ่งเรียกว่าการตัดสินใจ อัตราการโต้ตอบระหว่างกัน ข้อตกลง คุณจะเข้าใจความแปรปรวนของผู้ตรวจสอบ ความคิดเห็นได้โดยใช้ ผู้ตรวจสอบหลายรายต่อตัวอย่างและวัดผลข้อตกลงระหว่างผู้ประเมิน

ผู้ตรวจสอบเครื่อง

ข้อมูลที่ติดป้ายกำกับโดยเครื่อง ซึ่งหมวดหมู่จะถูกกำหนดโดยอัตโนมัติด้วยรายการใดรายการหนึ่งหรือ โมเดลการแยกประเภทที่มากขึ้น มักจะเรียกว่าป้ายกำกับสีเงิน ข้อมูลที่ติดป้ายกำกับโดยเครื่องอาจมีคุณภาพแตกต่างกันไปอย่างมาก นอกจากตรวจสอบความถูกต้องแล้ว รวมถึงการมีอคติ รวมถึงการละเมิดสัญชาตญาณ ความจริง และความตั้งใจด้วย สำหรับ ตัวอย่างเช่น ถ้าโมเดลคอมพิวเตอร์วิทัศน์ติดป้ายกำกับรูปภาพของ ชิวาวาเป็นมัฟฟิน หรือภาพมัฟฟินเป็นสุนัขพันธุ์ชิวาวา นางแบบที่ได้รับการฝึกโดยใช้ข้อมูลที่มีป้ายกำกับจะ มีคุณภาพต่ำกว่า

ในทำนองเดียวกัน เครื่องมือวิเคราะห์ความรู้สึกที่ให้คะแนนคำกลางเป็น -0.25 เมื่อ 0.0 คือ ค่ากลาง อาจให้คะแนนทุกคำโดยให้น้ำหนักพิเศษทางลบเพิ่มเติม ที่ไม่ได้อยู่ในข้อมูลจริงๆ ตัวตรวจจับสารพิษที่ไวต่อมลพิษทางอากาศ อาจนำเสนอข้อความที่เป็นกลางจำนวนมากว่าเป็นอันตราย พยายามทำความเข้าใจ คุณภาพและความลำเอียงของป้ายกำกับของเครื่องและคำอธิบายประกอบในข้อมูลของคุณ การฝึกอบรมเกี่ยวกับเรื่องนี้

มีมิติสูง

ข้อมูลเชิงหมวดหมู่มีแนวโน้มที่จะสร้างเวกเตอร์จุดสนใจที่มีมิติสูง ซึ่งก็คือ เวกเตอร์ของจุดสนใจที่มีองค์ประกอบจำนวนมาก มิติข้อมูลที่สูงทำให้ต้นทุนการอบรมเพิ่มขึ้นและทำให้การฝึกหัดมากขึ้น ยาก ด้วยเหตุนี้ ผู้เชี่ยวชาญด้าน ML จึงมักหาวิธีลดจำนวน ก่อนการฝึก

สำหรับข้อมูลภาษาธรรมชาติ วิธีการหลักในการลดมิติข้อมูลคือ เพื่อแปลงเวกเตอร์ของจุดสนใจเป็นเวกเตอร์ที่ฝัง ซึ่งจะมีการอธิบายไว้ใน โมดูลการฝังภายหลังใน หลักสูตรนี้