ชุดข้อมูล: ป้ายกำกับ

ส่วนนี้จะเน้นที่ป้ายกำกับ

ป้ายกำกับโดยตรงเทียบกับป้ายกำกับพร็อกซี

ลองพิจารณาป้ายกำกับ 2 ประเภทต่อไปนี้

  • ป้ายกำกับโดยตรง ซึ่งเป็นป้ายกำกับที่ตรงกับสิ่งที่โมเดลพยายามคาดการณ์ กล่าวคือ การคาดการณ์ที่โมเดลพยายามทำอยู่จะแสดงเป็นคอลัมน์ในชุดข้อมูลของคุณ เช่น คอลัมน์ชื่อ bicycle owner จะเป็นป้ายกำกับโดยตรงสำหรับโมเดลการแยกประเภทแบบ 2 ค่าที่คาดการณ์ว่าบุคคลมีจักรยานหรือไม่
  • ป้ายกํากับพร็อกซี่ ซึ่งเป็นป้ายกำกับที่คล้ายกับ (แต่ไม่ใช่แบบเดียวกัน) กับสิ่งที่โมเดลพยายามคาดการณ์ เช่น ผู้ที่สมัครรับนิตยสาร Bicycle Bizarre อาจมีจักรยาน (แต่ก็อาจไม่มี)

โดยทั่วไปแล้ว ป้ายกํากับโดยตรงจะดีกว่าป้ายกํากับพร็อกซี หากชุดข้อมูลมีป้ายกำกับโดยตรงที่เป็นไปได้ คุณควรใช้ป้ายกำกับนั้น แต่บางครั้งป้ายกำกับโดยตรงอาจไม่พร้อมใช้งาน

ป้ายกํากับพร็อกซีเป็นค่าประมาณที่ไม่สมบูรณ์ของป้ายกํากับโดยตรง อย่างไรก็ตาม ป้ายกํากับพร็อกซีบางรายการเป็นค่าโดยประมาณที่ใกล้เคียงมากพอที่จะมีประโยชน์ โมเดลที่ใช้ป้ายกํากับพร็อกซีจะมีประโยชน์เพียงใดก็ขึ้นอยู่กับความเชื่อมโยงระหว่างป้ายกํากับพร็อกซีกับการคาดการณ์

โปรดทราบว่าป้ายกำกับทุกรายการต้องแสดงเป็นตัวเลขทศนิยมในเวกเตอร์องค์ประกอบ (เนื่องจากแมชชีนเลิร์นนิงนั้นโดยพื้นฐานแล้วเป็นเพียงการรวมการดำเนินการทางคณิตศาสตร์จำนวนมากเข้าด้วยกัน) บางครั้งอาจมีป้ายกำกับโดยตรง แต่ไม่สามารถแสดงเป็นตัวเลขทศนิยมในเวกเตอร์ลักษณะได้ง่าย ในกรณีนี้ ให้ใช้ป้ายกํากับพร็อกซี

แบบฝึกหัด: ทดสอบความเข้าใจ

บริษัทของคุณต้องการดำเนินการต่อไปนี้

ส่งคูปอง ("แลกจักรยานเก่ารับส่วนลด 15% สำหรับจักรยานใหม่") ไปยังเจ้าของจักรยาน

ดังนั้นโมเดลของคุณจึงต้องมีลักษณะดังนี้

คาดการณ์ว่าใครเป็นเจ้าของจักรยาน

ขออภัย ชุดข้อมูลไม่มีคอลัมน์ชื่อ bike owner แต่ชุดข้อมูลมีคอลัมน์ชื่อ recently bought a bicycle

recently bought a bicycle เป็นป้ายกํากับพร็อกซีที่ดีหรือไม่ดีสําหรับโมเดลนี้
ป้ายกำกับพร็อกซีที่ดี
คอลัมน์ recently bought a bicycle เป็นป้ายกํากับพร็อกซีที่ค่อนข้างดี ท้ายที่สุดแล้ว ผู้คนส่วนใหญ่ที่ซื้อจักรยานตอนนี้ก็มีจักรยานอยู่แล้ว อย่างไรก็ตาม recently bought a bicycle นั้นไม่สมบูรณ์แบบเช่นเดียวกับป้ายกํากับพร็อกซีอื่นๆ ทั้งหมด แม้ว่าจะดีมากก็ตาม ท้ายที่สุดแล้ว ผู้ซื้ออาจไม่ได้เป็นผู้ที่ใช้ (หรือเป็นเจ้าของ) สินค้านั้นเสมอไป เช่น บางครั้งผู้คนซื้อจักรยานเป็นของขวัญ
ป้ายกํากับพร็อกซีไม่ดี
recently bought a bicycle ไม่ได้สมบูรณ์แบบ (จักรยานบางคันซื้อเป็นของขวัญและมอบให้ผู้อื่น) เช่นเดียวกับป้ายกำกับพร็อกซีทั้งหมด อย่างไรก็ตาม recently bought a bicycle ยังคงเป็นตัวบ่งชี้ที่ดีว่ามีคนเป็นเจ้าของจักรยาน

ข้อมูลที่มนุษย์สร้างขึ้น

ข้อมูลบางอย่างเป็นข้อมูลที่มนุษย์สร้างขึ้น กล่าวคือ มีคนอย่างน้อย 1 คนตรวจสอบข้อมูลบางอย่างและระบุค่า ซึ่งมักจะเป็นค่าสำหรับป้ายกำกับ เช่น นักอุตุนิยมวิทยาอย่างน้อย 1 คนอาจตรวจสอบรูปภาพท้องฟ้าและระบุประเภทของเมฆ

หรือข้อมูลบางอย่างจะสร้างขึ้นโดยอัตโนมัติ กล่าวคือ ซอฟต์แวร์ (อาจเป็นโมเดลแมชชีนเลิร์นนิงอื่น) จะกําหนดค่า เช่น โมเดลแมชชีนเลิร์นนิงอาจตรวจสอบรูปภาพท้องฟ้าและระบุประเภทเมฆโดยอัตโนมัติ

ส่วนนี้จะอธิบายข้อดีและข้อเสียของข้อมูลที่ได้จากผู้ใช้

ข้อดี

  • ผู้ให้คะแนนที่เป็นมนุษย์สามารถทำงานได้หลากหลาย ซึ่งแม้แต่โมเดลแมชชีนเลิร์นนิงที่ซับซ้อนก็อาจทำได้ยาก
  • กระบวนการนี้บังคับให้เจ้าของชุดข้อมูลพัฒนาเกณฑ์ที่ชัดเจนและสอดคล้องกัน

ข้อเสีย

  • โดยปกติแล้ว คุณจะต้องจ่ายเงินให้ผู้ให้คะแนน ดังนั้นข้อมูลที่สร้างโดยมนุษย์จึงอาจมีราคาแพง
  • เกิดเป็นมนุษย์ย่อมต้องมีผิดพลาด ดังนั้น ผู้ประเมินหลายคนอาจต้องประเมินข้อมูลเดียวกัน

ลองตอบคำถามเหล่านี้เพื่อพิจารณาความต้องการ

  • ผู้ประเมินต้องมีความเชี่ยวชาญเพียงใด (เช่น ผู้ประเมินต้องรู้ภาษาใดภาษาหนึ่งไหม คุณต้องการนักภาษาศาสตร์สำหรับบทสนทนาหรือแอปพลิเคชัน NLP ไหม)
  • คุณต้องการตัวอย่างที่มีป้ายกำกับกี่รายการ คุณต้องการผลิตภัณฑ์ดังกล่าวเร็วเพียงใด
  • คุณมีงบประมาณเท่าไร

ตรวจสอบผู้ให้คะแนนที่เป็นเจ้าหน้าที่อีกครั้งเสมอ ตัวอย่างเช่น ติดป้ายกำกับตัวอย่าง 1,000 รายการด้วยตนเอง แล้วดูว่าผลลัพธ์ของคุณตรงกับผลลัพธ์ของผู้ประเมินคนอื่นๆ อย่างไร หากพบความคลาดเคลื่อน อย่าเพิ่งคิดว่าคะแนนของคุณถูกต้อง โดยเฉพาะในกรณีที่มีการพิจารณาคุณค่าเข้ามาเกี่ยวข้อง หากผู้ให้คะแนนทำผิดพลาด ให้ลองเพิ่มวิธีการเพื่อช่วยผู้ให้คะแนนแล้วลองอีกครั้ง