ส่วนนี้จะเน้นที่ป้ายกำกับ
ป้ายกำกับโดยตรงเทียบกับป้ายกำกับพร็อกซี
ลองพิจารณาป้ายกำกับ 2 ประเภทต่อไปนี้
- ป้ายกำกับโดยตรง ซึ่งเป็นป้ายกำกับที่ตรงกับสิ่งที่โมเดลพยายามคาดการณ์ กล่าวคือ การคาดการณ์ที่โมเดลพยายามทำอยู่จะแสดงเป็นคอลัมน์ในชุดข้อมูลของคุณ
เช่น คอลัมน์ชื่อ
bicycle owner
จะเป็นป้ายกำกับโดยตรงสำหรับโมเดลการแยกประเภทแบบ 2 ค่าที่คาดการณ์ว่าบุคคลมีจักรยานหรือไม่ - ป้ายกํากับพร็อกซี่ ซึ่งเป็นป้ายกำกับที่คล้ายกับ (แต่ไม่ใช่แบบเดียวกัน) กับสิ่งที่โมเดลพยายามคาดการณ์ เช่น ผู้ที่สมัครรับนิตยสาร Bicycle Bizarre อาจมีจักรยาน (แต่ก็อาจไม่มี)
โดยทั่วไปแล้ว ป้ายกํากับโดยตรงจะดีกว่าป้ายกํากับพร็อกซี หากชุดข้อมูลมีป้ายกำกับโดยตรงที่เป็นไปได้ คุณควรใช้ป้ายกำกับนั้น แต่บางครั้งป้ายกำกับโดยตรงอาจไม่พร้อมใช้งาน
ป้ายกํากับพร็อกซีเป็นค่าประมาณที่ไม่สมบูรณ์ของป้ายกํากับโดยตรง อย่างไรก็ตาม ป้ายกํากับพร็อกซีบางรายการเป็นค่าโดยประมาณที่ใกล้เคียงมากพอที่จะมีประโยชน์ โมเดลที่ใช้ป้ายกํากับพร็อกซีจะมีประโยชน์เพียงใดก็ขึ้นอยู่กับความเชื่อมโยงระหว่างป้ายกํากับพร็อกซีกับการคาดการณ์
โปรดทราบว่าป้ายกำกับทุกรายการต้องแสดงเป็นตัวเลขทศนิยมในเวกเตอร์องค์ประกอบ (เนื่องจากแมชชีนเลิร์นนิงนั้นโดยพื้นฐานแล้วเป็นเพียงการรวมการดำเนินการทางคณิตศาสตร์จำนวนมากเข้าด้วยกัน) บางครั้งอาจมีป้ายกำกับโดยตรง แต่ไม่สามารถแสดงเป็นตัวเลขทศนิยมในเวกเตอร์ลักษณะได้ง่าย ในกรณีนี้ ให้ใช้ป้ายกํากับพร็อกซี
แบบฝึกหัด: ทดสอบความเข้าใจ
บริษัทของคุณต้องการดำเนินการต่อไปนี้
ส่งคูปอง ("แลกจักรยานเก่ารับส่วนลด 15% สำหรับจักรยานใหม่") ไปยังเจ้าของจักรยาน
ดังนั้นโมเดลของคุณจึงต้องมีลักษณะดังนี้
คาดการณ์ว่าใครเป็นเจ้าของจักรยาน
ขออภัย ชุดข้อมูลไม่มีคอลัมน์ชื่อ bike owner
แต่ชุดข้อมูลมีคอลัมน์ชื่อ recently bought a bicycle
recently bought a bicycle
เป็นป้ายกํากับพร็อกซีที่ดีหรือไม่ดีสําหรับโมเดลนี้recently bought a bicycle
เป็นป้ายกํากับพร็อกซีที่ค่อนข้างดี ท้ายที่สุดแล้ว ผู้คนส่วนใหญ่ที่ซื้อจักรยานตอนนี้ก็มีจักรยานอยู่แล้ว อย่างไรก็ตาม recently bought a
bicycle
นั้นไม่สมบูรณ์แบบเช่นเดียวกับป้ายกํากับพร็อกซีอื่นๆ ทั้งหมด แม้ว่าจะดีมากก็ตาม ท้ายที่สุดแล้ว ผู้ซื้ออาจไม่ได้เป็นผู้ที่ใช้ (หรือเป็นเจ้าของ) สินค้านั้นเสมอไป
เช่น บางครั้งผู้คนซื้อจักรยานเป็นของขวัญrecently bought a bicycle
ไม่ได้สมบูรณ์แบบ (จักรยานบางคันซื้อเป็นของขวัญและมอบให้ผู้อื่น) เช่นเดียวกับป้ายกำกับพร็อกซีทั้งหมด อย่างไรก็ตาม recently bought a bicycle
ยังคงเป็นตัวบ่งชี้ที่ดีว่ามีคนเป็นเจ้าของจักรยานข้อมูลที่มนุษย์สร้างขึ้น
ข้อมูลบางอย่างเป็นข้อมูลที่มนุษย์สร้างขึ้น กล่าวคือ มีคนอย่างน้อย 1 คนตรวจสอบข้อมูลบางอย่างและระบุค่า ซึ่งมักจะเป็นค่าสำหรับป้ายกำกับ เช่น นักอุตุนิยมวิทยาอย่างน้อย 1 คนอาจตรวจสอบรูปภาพท้องฟ้าและระบุประเภทของเมฆ
หรือข้อมูลบางอย่างจะสร้างขึ้นโดยอัตโนมัติ กล่าวคือ ซอฟต์แวร์ (อาจเป็นโมเดลแมชชีนเลิร์นนิงอื่น) จะกําหนดค่า เช่น โมเดลแมชชีนเลิร์นนิงอาจตรวจสอบรูปภาพท้องฟ้าและระบุประเภทเมฆโดยอัตโนมัติ
ส่วนนี้จะอธิบายข้อดีและข้อเสียของข้อมูลที่ได้จากผู้ใช้
ข้อดี
- ผู้ให้คะแนนที่เป็นมนุษย์สามารถทำงานได้หลากหลาย ซึ่งแม้แต่โมเดลแมชชีนเลิร์นนิงที่ซับซ้อนก็อาจทำได้ยาก
- กระบวนการนี้บังคับให้เจ้าของชุดข้อมูลพัฒนาเกณฑ์ที่ชัดเจนและสอดคล้องกัน
ข้อเสีย
- โดยปกติแล้ว คุณจะต้องจ่ายเงินให้ผู้ให้คะแนน ดังนั้นข้อมูลที่สร้างโดยมนุษย์จึงอาจมีราคาแพง
- เกิดเป็นมนุษย์ย่อมต้องมีผิดพลาด ดังนั้น ผู้ประเมินหลายคนอาจต้องประเมินข้อมูลเดียวกัน
ลองตอบคำถามเหล่านี้เพื่อพิจารณาความต้องการ
- ผู้ประเมินต้องมีความเชี่ยวชาญเพียงใด (เช่น ผู้ประเมินต้องรู้ภาษาใดภาษาหนึ่งไหม คุณต้องการนักภาษาศาสตร์สำหรับบทสนทนาหรือแอปพลิเคชัน NLP ไหม)
- คุณต้องการตัวอย่างที่มีป้ายกำกับกี่รายการ คุณต้องการผลิตภัณฑ์ดังกล่าวเร็วเพียงใด
- คุณมีงบประมาณเท่าไร
ตรวจสอบผู้ให้คะแนนที่เป็นเจ้าหน้าที่อีกครั้งเสมอ ตัวอย่างเช่น ติดป้ายกำกับตัวอย่าง 1,000 รายการด้วยตนเอง แล้วดูว่าผลลัพธ์ของคุณตรงกับผลลัพธ์ของผู้ประเมินคนอื่นๆ อย่างไร หากพบความคลาดเคลื่อน อย่าเพิ่งคิดว่าคะแนนของคุณถูกต้อง โดยเฉพาะในกรณีที่มีการพิจารณาคุณค่าเข้ามาเกี่ยวข้อง หากผู้ให้คะแนนทำผิดพลาด ให้ลองเพิ่มวิธีการเพื่อช่วยผู้ให้คะแนนแล้วลองอีกครั้ง