ข้อมูลเชิงหมวดหมู่: ปัญหาที่พบได้ทั่วไป

ข้อมูลตัวเลขมักจะบันทึกโดยเครื่องมือทางวิทยาศาสตร์หรือการวัดอัตโนมัติ ในทางกลับกัน ข้อมูลเชิงหมวดหมู่มักจะจัดหมวดหมู่โดยมนุษย์หรือโมเดลแมชชีนเลิร์นนิง (ML) ส่วนใครที่จะเป็นผู้ตัดสินใจเกี่ยวกับหมวดหมู่และป้ายกำกับ รวมถึงวิธีตัดสินใจเหล่านั้น จะส่งผลต่อความน่าเชื่อถือและประโยชน์ของข้อมูลดังกล่าว

ผู้ให้คะแนนที่เป็นมนุษย์

ข้อมูลที่มนุษย์ติดป้ายกำกับด้วยตนเองมักเรียกว่าป้ายกำกับโกลด์ และถือว่าเหมาะสมกว่าข้อมูลที่ติดป้ายกำกับโดยเครื่องสำหรับการฝึกโมเดล เนื่องจากคุณภาพของข้อมูลดีกว่า

แต่ก็ไม่ได้หมายความว่าชุดข้อมูลที่มีป้ายกำกับโดยมนุษย์จะมีคุณภาพสูงเสมอไป ความผิดพลาด ความลำเอียง และความประสงค์ร้ายของมนุษย์อาจเกิดขึ้นได้ตั้งแต่การเก็บรวบรวมข้อมูล ไปจนถึงระหว่างการล้างและประมวลผลข้อมูล โปรดตรวจสอบก่อนการฝึกอบรม

มนุษย์ 2 คนอาจมีป้ายกำกับตัวอย่างเดียวกันต่างกัน ความแตกต่างระหว่างการตัดสินใจของเจ้าหน้าที่ตรวจสอบเรียกว่าข้อตกลงระหว่างเจ้าหน้าที่ตรวจสอบ คุณสามารถทราบความแปรปรวนของความคิดเห็นของผู้ประเมินได้โดยใช้ผู้ประเมินหลายคนต่อตัวอย่างและวัดความสอดคล้องกันของผู้ประเมิน

ผู้ให้คะแนนที่เป็นเครื่องจักร

ข้อมูลที่ติดป้ายกำกับโดยอัตโนมัติ ซึ่งหมวดหมู่จะกำหนดโดยโมเดลการจัดประเภทอย่างน้อย 1 รายการโดยอัตโนมัติ มักเรียกว่าป้ายกำกับสีเงิน ข้อมูลที่ติดป้ายกำกับโดยเครื่องอาจมีคุณภาพแตกต่างกันไปอย่างมาก ตรวจสอบเนื้อหาไม่เพียงว่ามีความถูกต้องและไม่มีอคติเท่านั้น แต่ยังต้องไม่ละเมิดหลักเหตุผล ความเป็นจริง และความตั้งใจด้วย เช่น หากโมเดลคอมพิวเตอร์วิทัศน์ติดป้ายกำกับรูปภาพชิวาวาเป็นมัฟฟิน หรือติดป้ายกำกับรูปภาพมัฟฟินเป็นชิวาวา โมเดลที่ฝึกจากข้อมูลที่ติดป้ายกำกับนั้นจะมีคุณภาพต่ำ

ในทํานองเดียวกัน เครื่องมือวิเคราะห์ความรู้สึกที่ให้คะแนนคําที่เป็นกลางเป็น -0.25 เมื่อ 0.0 เป็นค่าที่เป็นกลาง อาจให้คะแนนคําทั้งหมดด้วยอคติเชิงลบเพิ่มเติมซึ่งไม่ได้อยู่ในข้อมูล เครื่องมือตรวจหาเนื้อหาที่เป็นพิษที่ไวเกินอาจแจ้งว่าข้อความที่เป็นกลางจำนวนมากเป็นเนื้อหาที่เป็นพิษอย่างไม่ถูกต้อง ลองประเมินคุณภาพและความลำเอียงของป้ายกำกับและคำอธิบายประกอบที่ได้จากเครื่องในข้อมูลก่อนใช้เพื่อฝึก

มีมิติสูง

ข้อมูลเชิงหมวดหมู่มักจะสร้างเวกเตอร์ลักษณะเชิงมิติสูง กล่าวคือ เวกเตอร์ลักษณะที่มีองค์ประกอบจํานวนมาก มิติข้อมูลสูงจะเพิ่มต้นทุนการฝึกอบรมและทําให้การฝึกอบรมยากขึ้น ด้วยเหตุนี้ ผู้เชี่ยวชาญด้าน ML จึงมักมองหาวิธีลดจํานวนมิติข้อมูลก่อนการฝึก

สำหรับข้อมูลภาษาธรรมชาติ วิธีการหลักในการลดมิติคือการแปลงเวกเตอร์ของจุดสนใจเป็นเวกเตอร์ที่ฝัง ซึ่งเราจะพูดถึงเรื่องนี้ในโมดูลการฝังในภายหลังในหลักสูตรนี้