ส่วนนี้จะเน้นที่ป้ายกำกับ
ป้ายกำกับโดยตรงเทียบกับป้ายกำกับพร็อกซี
ลองใช้ป้ายกำกับ 2 ประเภทที่แตกต่างกันดังนี้
- ป้ายกำกับโดยตรง ซึ่งเป็นป้ายกำกับที่ตรงกับการคาดการณ์โมเดลของคุณ
กำลังพยายามทำให้ ซึ่งก็คือการคาดการณ์ที่โมเดลของคุณพยายามจะสร้าง
ตรงตามคอลัมน์ในชุดข้อมูล
เช่น คอลัมน์ชื่อ
bicycle owner
จะเป็นป้ายกำกับโดยตรงสำหรับ โมเดลการจัดประเภทแบบไบนารีที่คาดการณ์ว่าบุคคลหนึ่งๆ เป็นเจ้าของหรือไม่ จักรยาน - ป้ายกำกับพร็อกซี ซึ่งเป็นป้ายกำกับที่คล้ายกัน แต่ ไม่เหมือนกับการคาดการณ์ที่โมเดลของคุณพยายามสร้าง ตัวอย่างเช่น ผู้ที่สมัครรับข้อมูลนิตยสาร Bicycle Bizarre ก็อาจเป็นเจ้าของจักรยานแต่ก็ไม่แน่นอน
โดยทั่วไปป้ายกำกับโดยตรงจะดีกว่าป้ายกำกับพร็อกซี หากชุดข้อมูล จะระบุป้ายกำกับโดยตรงที่ใช้ได้ คุณก็น่าจะควรใช้ แต่บ่อยครั้งที่ป้ายกำกับโดยตรงไม่มีให้บริการ
ป้ายกำกับพร็อกซีมักมีขนาดเล็ก เป็นการประมาณที่ไม่สมบูรณ์แบบ ป้ายกำกับโดยตรง แต่ป้ายกำกับพร็อกซีบางรายการมีค่าประมาณที่ใกล้เคียงเพียงพอ เกิดประโยชน์ โมเดลที่ใช้ป้ายกำกับพร็อกซีจะมีประโยชน์ก็ต่อเมื่อ ระหว่างป้ายกำกับพร็อกซีและการคาดการณ์
โปรดทราบว่าป้ายกำกับทุกป้ายต้องแสดงด้วยเลขทศนิยม ในเวกเตอร์ฟีเจอร์ (เพราะโดยพื้นฐานแล้ว การเรียนรู้ของเครื่อง เป็นเพียงแค่หลักทางคณิตศาสตร์ ) อาจมีป้ายกำกับโดยตรงอยู่ แต่อาจแสดงเป็น จำนวนจุดลอยตัวในเวกเตอร์ของจุดสนใจ ในกรณีนี้ ให้ใช้ป้ายกำกับพร็อกซี
แบบฝึกหัด: ตรวจสอบความเข้าใจ
บริษัทของคุณต้องการทำสิ่งต่อไปนี้
คูปองทางไปรษณีย์ ("แลกซื้อจักรยานคันเก่าเป็นเวลา ส่วนลด 15% สำหรับจักรยานใหม่") ให้แก่เจ้าของจักรยาน
ดังนั้น โมเดลของคุณจะต้องทำดังนี้
ทำนายว่าใครเป็นเจ้าของจักรยาน
ขออภัย ชุดข้อมูลไม่มีคอลัมน์ชื่อ bike owner
แต่ชุดข้อมูลดังกล่าวมีคอลัมน์ชื่อ recently bought a bicycle
recently bought a bicycle
จะเป็นป้ายกำกับพร็อกซีที่ดีหรือไม่
หรือป้ายกำกับพร็อกซีที่ไม่ดีสำหรับโมเดลนี้recently bought a bicycle
เป็น
ป้ายกำกับพร็อกซีที่ค่อนข้างดี เพราะไม่ว่าอย่างไร ผู้คนส่วนใหญ่
ที่ซื้อจักรยาน และเป็นเจ้าของจักรยาน อย่างไรก็ตาม ชอบทั้งหมด
ป้ายกำกับพร็อกซี แม้แต่ป้ายกำกับที่ดีมาก recently bought a
bicycle
ก็ไม่สมบูรณ์แบบ เพราะอย่างไรก็ดี บุคคลที่ซื้อ
ไฟล์หนึ่งๆ ไม่ใช่บุคคลที่กำลังใช้ (หรือเป็นเจ้าของ) รายการดังกล่าวเสมอไป
เช่น บางครั้งคนซื้อจักรยานเป็นของขวัญrecently bought a bicycle
ยังไม่สมบูรณ์แบบ (จักรยานบางคันซื้อเป็นของขวัญและมอบให้แก่
อื่นๆ) แต่ recently bought a bicycle
ถือว่า
ยังคงเป็นตัวบ่งชี้ที่ดีว่าผู้ใช้มี
จักรยานข้อมูลที่มนุษย์สร้างขึ้น
ข้อมูลบางอย่างเกิดจากมนุษย์ นั่นคือ มนุษย์คนหนึ่งหรือมากกว่านั้นกำลังตรวจสอบ และระบุค่า โดยทั่วไปสำหรับป้ายกำกับ ตัวอย่างเช่น นักอุตุนิยมวิทยาอย่างน้อยหนึ่งคนสามารถตรวจดูภาพท้องฟ้าและระบุว่า ประเภทระบบคลาวด์
ข้อมูลบางอย่างจะสร้างขึ้นโดยอัตโนมัติ ซึ่งก็คือซอฟต์แวร์ (อาจเป็นโมเดลแมชชีนเลิร์นนิงอีกโมเดลหนึ่ง) จะเป็นตัวกำหนดมูลค่า ตัวอย่างเช่น โมเดลแมชชีนเลิร์นนิงจะตรวจสอบภาพท้องฟ้าและแยกแยะ ประเภทระบบคลาวด์
ส่วนนี้จะสำรวจข้อดีและข้อเสียของข้อมูลที่มนุษย์สร้างขึ้น
ข้อดี
- เจ้าหน้าที่ตรวจสอบสามารถทำงานต่างๆ ได้มากมาย แม้กระทั่งงานที่ซับซ้อน โมเดลแมชชีนเลิร์นนิงอาจเป็นเรื่องยาก
- กระบวนการนี้จะบังคับให้เจ้าของชุดข้อมูลพัฒนาความชัดเจน เป็นเกณฑ์ที่สม่ำเสมอ
ข้อเสีย
- โดยปกติแล้วคุณจะต้องชำระเงินให้เจ้าหน้าที่ตรวจสอบ ดังนั้นข้อมูลที่มนุษย์สร้างขึ้นอาจมีค่าใช้จ่ายสูง
- ความผิดพลาดคือมนุษย์ ดังนั้น เจ้าหน้าที่ตรวจสอบหลายรายอาจต้องประเมิน ข้อมูลเดียวกัน
พิจารณาคำถามเหล่านี้เพื่อพิจารณาความต้องการของคุณ
- ผู้ตรวจสอบต้องมีทักษะมากน้อยเพียงใด (ตัวอย่างเช่น ผู้ตรวจสอบ ถ้ารู้ภาษาใดภาษาหนึ่ง คุณต้องการนักภาษาสำหรับบทสนทนาหรือ NLP แอปพลิเคชันด้วย)
- คุณต้องการตัวอย่างที่มีป้ายกำกับกี่รายการ คุณต้องการได้เร็วแค่ไหน
- คุณมีงบประมาณเท่าไหร่
โปรดตรวจสอบเจ้าหน้าที่ตรวจสอบอีกครั้งเสมอ เช่น ตัวอย่างป้ายกำกับ 1000 ดูว่าผลลัพธ์ของคุณตรงกับ ผู้ประเมินรายอื่นอย่างไร ผลลัพธ์ หากมีความคลาดเคลื่อน อย่าคิดเอาเองว่าการให้คะแนนของคุณเป็นค่าที่ถูกต้อง โดยเฉพาะอย่างยิ่งหากมีการตัดสินคุณค่า หากเจ้าหน้าที่ตรวจสอบแนะนำ โปรดพิจารณาเพิ่มวิธีการเพื่อช่วยข้อผิดพลาดดังกล่าว แล้วลองอีกครั้ง
วันที่