ชุดข้อมูล: ป้ายกำกับ

ส่วนนี้จะเน้นที่ป้ายกำกับ

ป้ายกำกับโดยตรงเทียบกับป้ายกำกับพร็อกซี

ลองพิจารณาป้ายกำกับ 2 ประเภทต่อไปนี้

  • ป้ายกำกับโดยตรง ซึ่งเป็นป้ายกำกับที่ตรงกับสิ่งที่โมเดลพยายามคาดการณ์ กล่าวคือ การคาดการณ์ที่โมเดลพยายามทำอยู่จะแสดงเป็นคอลัมน์ในชุดข้อมูลของคุณ เช่น คอลัมน์ชื่อ bicycle owner จะเป็นป้ายกำกับโดยตรงสำหรับโมเดลการแยกประเภทแบบ 2 ค่าที่คาดการณ์ว่าบุคคลมีจักรยานหรือไม่
  • ป้ายกํากับพร็อกซี่ ซึ่งเป็นป้ายกำกับที่คล้ายกับ (แต่ไม่ใช่แบบเดียวกัน) กับสิ่งที่โมเดลพยายามคาดการณ์ เช่น ผู้ที่สมัครรับนิตยสาร Bicycle Bizarre อาจมีจักรยาน (แต่ก็อาจไม่มี)

โดยทั่วไปแล้ว ป้ายกํากับโดยตรงจะดีกว่าป้ายกํากับพร็อกซี หากชุดข้อมูลมีป้ายกำกับโดยตรงที่เป็นไปได้ คุณควรใช้ป้ายกำกับนั้น แต่บางครั้งป้ายกำกับโดยตรงอาจไม่พร้อมใช้งาน

ป้ายกํากับพร็อกซีเป็นค่าประมาณที่ไม่สมบูรณ์ของป้ายกํากับโดยตรง อย่างไรก็ตาม ป้ายกํากับพร็อกซีบางรายการเป็นค่าโดยประมาณที่ใกล้เคียงมากพอที่จะมีประโยชน์ โมเดลที่ใช้ป้ายกํากับพร็อกซีจะมีประโยชน์เพียงใดก็ขึ้นอยู่กับความเชื่อมโยงระหว่างป้ายกํากับพร็อกซีกับการคาดการณ์

โปรดทราบว่าป้ายกำกับทุกรายการต้องแสดงเป็นตัวเลขทศนิยมในเวกเตอร์องค์ประกอบ (เนื่องจากแมชชีนเลิร์นนิงนั้นโดยพื้นฐานแล้วเป็นเพียงการรวมการดำเนินการทางคณิตศาสตร์จำนวนมากเข้าด้วยกัน) บางครั้งอาจมีป้ายกำกับโดยตรง แต่ไม่สามารถแสดงเป็นตัวเลขทศนิยมในเวกเตอร์ลักษณะได้ง่าย ในกรณีนี้ ให้ใช้ป้ายกํากับพร็อกซี

แบบฝึกหัด: ทดสอบความเข้าใจ

บริษัทของคุณต้องการดำเนินการต่อไปนี้

ส่งคูปอง ("แลกจักรยานเก่ารับส่วนลด 15% สำหรับจักรยานใหม่") ไปยังเจ้าของจักรยาน

ดังนั้นโมเดลของคุณจึงต้องมีลักษณะดังนี้

คาดการณ์ว่าใครเป็นเจ้าของจักรยาน

ขออภัย ชุดข้อมูลไม่มีคอลัมน์ชื่อ bike owner แต่ชุดข้อมูลมีคอลัมน์ชื่อ recently bought a bicycle

recently bought a bicycle เป็นป้ายกํากับพร็อกซีที่ดีหรือไม่ดีสําหรับโมเดลนี้
ป้ายกำกับพร็อกซีที่ดี
ป้ายกํากับพร็อกซีไม่ดี

ข้อมูลที่มนุษย์สร้างขึ้น

ข้อมูลบางอย่างเป็นข้อมูลที่มนุษย์สร้างขึ้น กล่าวคือ มีคนอย่างน้อย 1 คนตรวจสอบข้อมูลบางอย่างและระบุค่า ซึ่งมักจะเป็นค่าสำหรับป้ายกำกับ เช่น นักอุตุนิยมวิทยาอย่างน้อย 1 คนอาจตรวจสอบรูปภาพท้องฟ้าและระบุประเภทของเมฆ

หรือข้อมูลบางอย่างจะสร้างขึ้นโดยอัตโนมัติ กล่าวคือ ซอฟต์แวร์ (อาจเป็นโมเดลแมชชีนเลิร์นนิงอื่น) จะกําหนดค่า เช่น โมเดลแมชชีนเลิร์นนิงอาจตรวจสอบรูปภาพท้องฟ้าและระบุประเภทเมฆโดยอัตโนมัติ

ส่วนนี้จะอธิบายข้อดีและข้อเสียของข้อมูลที่ได้จากผู้ใช้

ข้อดี

  • ผู้ให้คะแนนที่เป็นมนุษย์สามารถทำงานได้หลากหลาย ซึ่งแม้แต่โมเดลแมชชีนเลิร์นนิงที่ซับซ้อนก็อาจทำได้ยาก
  • กระบวนการนี้บังคับให้เจ้าของชุดข้อมูลพัฒนาเกณฑ์ที่ชัดเจนและสอดคล้องกัน

ข้อเสีย

  • โดยปกติแล้ว คุณจะต้องจ่ายเงินให้ผู้ให้คะแนน ดังนั้นข้อมูลที่สร้างโดยมนุษย์จึงอาจมีราคาแพง
  • เกิดเป็นมนุษย์ย่อมต้องมีผิดพลาด ดังนั้น ผู้ประเมินหลายคนอาจต้องประเมินข้อมูลเดียวกัน

ลองตอบคำถามเหล่านี้เพื่อพิจารณาความต้องการ

  • ผู้ประเมินต้องมีความเชี่ยวชาญเพียงใด (เช่น ผู้ประเมินต้องรู้ภาษาใดภาษาหนึ่งไหม คุณต้องการนักภาษาศาสตร์สำหรับบทสนทนาหรือแอปพลิเคชัน NLP ไหม)
  • คุณต้องการตัวอย่างที่มีป้ายกำกับกี่รายการ คุณต้องการผลิตภัณฑ์ดังกล่าวเร็วเพียงใด
  • คุณมีงบประมาณเท่าไร

ตรวจสอบผู้ให้คะแนนที่เป็นเจ้าหน้าที่อีกครั้งเสมอ ตัวอย่างเช่น ติดป้ายกำกับตัวอย่าง 1,000 รายการด้วยตนเอง แล้วดูว่าผลลัพธ์ของคุณตรงกับผลลัพธ์ของผู้ประเมินคนอื่นๆ อย่างไร หากพบความคลาดเคลื่อน อย่าเพิ่งคิดว่าคะแนนของคุณถูกต้อง โดยเฉพาะในกรณีที่มีการพิจารณาคุณค่าเข้ามาเกี่ยวข้อง หากผู้ให้คะแนนทำผิดพลาด ให้ลองเพิ่มวิธีการเพื่อช่วยผู้ให้คะแนนแล้วลองอีกครั้ง

การตรวจสอบข้อมูลด้วยตนเองเป็นแนวทางปฏิบัติที่ดีไม่ว่าจะได้รับข้อมูลมาอย่างไรก็ตาม Andrej Karpathy เคยทำสิ่งนี้ใน ImageNet และเขียนเกี่ยวกับประสบการณ์นี้

โมเดลสามารถฝึกโดยใช้ป้ายกำกับแบบอัตโนมัติและแบบมนุษย์ร่วมกัน อย่างไรก็ตาม โดยทั่วไปแล้ว ป้ายกำกับชุดเพิ่มเติมที่มนุษย์สร้างขึ้น (ซึ่งอาจล้าสมัย) สำหรับโมเดลส่วนใหญ่นั้นไม่คุ้มค่ากับความซับซ้อนและการดูแลรักษาเพิ่มเติม อย่างไรก็ตาม บางครั้งป้ายกำกับที่มนุษย์สร้างขึ้นอาจให้ข้อมูลเพิ่มเติมที่ไม่มีในป้ายกำกับอัตโนมัติ