ส่วนนี้จะเน้นที่ป้ายกำกับ
ป้ายกำกับโดยตรงเทียบกับป้ายกำกับพร็อกซี
พิจารณาป้ายกำกับ 2 ประเภทต่อไปนี้
- ป้ายกำกับโดยตรง ซึ่งเป็นป้ายกำกับที่เหมือนกับการคาดการณ์ที่โมเดล
พยายามทำ กล่าวคือ การคาดการณ์ที่โมเดลพยายามทำจะแสดงเป็นคอลัมน์ในชุดข้อมูลของคุณอย่างแน่นอน
เช่น คอลัมน์ที่ชื่อ
bicycle owner
จะเป็นป้ายกำกับโดยตรงสำหรับโมเดลการแยกประเภทแบบไบนารีที่คาดการณ์ว่าบุคคลมีจักรยานหรือไม่ - ป้ายกำกับพร็อกซี ซึ่งเป็นป้ายกำกับที่คล้ายกันแต่ไม่เหมือนกับคำทำนายที่โมเดลพยายามทำ ตัวอย่างเช่น ผู้ที่สมัครรับนิตยสาร Bicycle Bizarre อาจเป็นเจ้าของจักรยาน แต่ก็ไม่แน่
โดยทั่วไปแล้ว ป้ายกำกับโดยตรงจะดีกว่าป้ายกำกับพร็อกซี หากชุดข้อมูล ระบุป้ายกำกับโดยตรงที่เป็นไปได้ คุณควรใช้ป้ายกำกับนั้น แต่ในหลายๆ ครั้ง ป้ายกำกับโดยตรงอาจไม่พร้อมใช้งาน
ป้ายกำกับพร็อกซีเป็นสิ่งที่ต้องประนีประนอมเสมอ ซึ่งเป็นค่าประมาณที่ไม่สมบูรณ์ของ ป้ายกำกับโดยตรง อย่างไรก็ตาม ป้ายกำกับพร็อกซีบางรายการก็เป็นค่าประมาณที่ใกล้เคียงมากพอ ที่จะเป็นประโยชน์ โมเดลที่ใช้ป้ายกำกับพร็อกซีจะมีประโยชน์ก็ต่อเมื่อมีการเชื่อมต่อระหว่างป้ายกำกับพร็อกซีกับการคาดการณ์
โปรดทราบว่าป้ายกำกับทุกป้ายต้องแสดงเป็นตัวเลขทศนิยม ในเวกเตอร์ฟีเจอร์ (เนื่องจากแมชชีนเลิร์นนิงเป็นเพียงการรวมการดำเนินการทางคณิตศาสตร์ จำนวนมาก) บางครั้งป้ายกำกับโดยตรงมีอยู่จริง แต่แสดงเป็น จำนวนทศนิยมในเวกเตอร์ฟีเจอร์ได้ยาก ในกรณีนี้ ให้ใช้ป้ายกำกับพร็อกซี
แบบฝึกหัด: ทดสอบความเข้าใจ
บริษัทของคุณต้องการทำสิ่งต่อไปนี้
ส่งคูปอง ("รับส่วนลด 15% สำหรับหมวกกันน็อก จักรยานใหม่") ให้กับเจ้าของจักรยาน
ดังนั้น โมเดลของคุณต้องทำสิ่งต่อไปนี้
คาดการณ์ว่าใครเป็นเจ้าของจักรยาน
ขออภัย ชุดข้อมูลไม่มีคอลัมน์ชื่อ bike owner
อย่างไรก็ตาม ชุดข้อมูลมีคอลัมน์ชื่อ recently bought a bicycle
recently bought a bicycle
เป็นป้ายกำกับพร็อกซีที่ดี
หรือป้ายกำกับพร็อกซีที่ไม่ดีสำหรับโมเดลนี้recently bought a bicycle
เป็นป้ายกำกับพร็อกซีที่ค่อนข้างดี
ท้ายที่สุดแล้ว คนส่วนใหญ่
ที่ซื้อจักรยานก็มีจักรยานอยู่แล้ว อย่างไรก็ตาม recently bought a
bicycle
ก็ยังไม่สมบูรณ์แบบเช่นเดียวกับป้ายกำกับพร็อกซีอื่นๆ ทั้งหมด
แม้ว่าจะเป็นป้ายกำกับที่ดีมากก็ตาม เนื่องจากผู้ที่ซื้อ
สินค้าไม่ได้เป็นผู้ที่ใช้ (หรือเป็นเจ้าของ) สินค้านั้นเสมอไป
เช่น บางครั้งผู้คนก็ซื้อจักรยานเป็นของขวัญrecently bought a bicycle
จึงไม่สมบูรณ์แบบ (จักรยานบางคันซื้อเป็นของขวัญและมอบให้
ผู้อื่น) อย่างไรก็ตาม recently bought a bicycle
ยังคงเป็นตัวบ่งชี้ที่ดีในระดับหนึ่งว่าบุคคลนั้นเป็นเจ้าของจักรยานข้อมูลที่สร้างโดยมนุษย์
ข้อมูลบางอย่างสร้างขึ้นโดยมนุษย์ นั่นคือมีเจ้าหน้าที่อย่างน้อย 1 คนตรวจสอบข้อมูลบางอย่างและระบุค่า ซึ่งมักจะเป็นป้ายกำกับ เช่น นักอุตุนิยมวิทยาอย่างน้อย 1 คนอาจตรวจสอบรูปภาพท้องฟ้าและระบุ ประเภทเมฆ
หรือข้อมูลบางอย่างสร้างขึ้นโดยอัตโนมัติ กล่าวคือ ซอฟต์แวร์ (อาจเป็นโมเดลแมชชีนเลิร์นนิงอื่น) จะกำหนดค่า ตัวอย่างเช่น โมเดลแมชชีนเลิร์นนิงอาจตรวจสอบรูปภาพท้องฟ้าและระบุประเภทเมฆโดยอัตโนมัติ
ส่วนนี้จะอธิบายข้อดีและข้อเสียของข้อมูลที่มนุษย์สร้างขึ้น
ข้อดี
- ผู้ให้คะแนนที่เป็นมนุษย์สามารถทำงานได้หลากหลาย ซึ่งแม้แต่โมเดลแมชชีนเลิร์นนิงที่ซับซ้อนก็อาจทำได้ยาก
- กระบวนการนี้บังคับให้เจ้าของชุดข้อมูลต้องพัฒนากฎเกณฑ์ที่ชัดเจนและสอดคล้องกัน
ข้อเสีย
- โดยปกติแล้วคุณจะต้องจ่ายเงินให้ผู้จัดอันดับที่เป็นมนุษย์ ดังนั้นข้อมูลที่มนุษย์สร้างขึ้นจึงอาจมีราคาสูง
- เกิดเป็นมนุษย์ย่อมต้องมีผิดพลาด ดังนั้น ผู้จัดประเภทที่เป็นมนุษย์หลายคนอาจต้องประเมินข้อมูลเดียวกัน
ลองพิจารณาคำถามต่อไปนี้เพื่อระบุความต้องการของคุณ
- ผู้จัดประเภทต้องมีความเชี่ยวชาญมากน้อยเพียงใด (เช่น ผู้ประเมินต้องรู้ภาษาใดภาษาหนึ่งไหม คุณต้องการนักภาษาศาสตร์สำหรับแอปพลิเคชันการสนทนาหรือ NLP ไหม)
- คุณต้องใช้ตัวอย่างที่มีป้ายกำกับกี่รายการ คุณต้องการใช้บริการเร็วเพียงใด
- คุณมีงบประมาณเท่าไร
ตรวจสอบผู้ให้คะแนนที่เป็นมนุษย์อีกครั้งเสมอ เช่น ติดป้ายกำกับตัวอย่าง 1,000 รายการ ด้วยตนเอง แล้วดูว่าผลลัพธ์ของคุณตรงกับผลลัพธ์ของผู้จัดประเภทคนอื่นๆ อย่างไร หากพบความคลาดเคลื่อน อย่าคิดว่าการจัดประเภทของคุณถูกต้อง โดยเฉพาะอย่างยิ่งหากมีการตัดสินคุณค่าเข้ามาเกี่ยวข้อง หากผู้ให้คะแนนที่เป็นมนุษย์ป้อนข้อผิดพลาด ให้ลองเพิ่มวิธีการเพื่อช่วยเหลือผู้ให้คะแนน แล้วลองอีกครั้ง