ชุดข้อมูล: ป้ายกำกับ

ส่วนนี้จะเน้นที่ป้ายกำกับ

ป้ายกำกับโดยตรงเทียบกับป้ายกำกับพร็อกซี

ลองใช้ป้ายกำกับ 2 ประเภทที่แตกต่างกันดังนี้

  • ป้ายกำกับโดยตรง ซึ่งเป็นป้ายกำกับที่ตรงกับการคาดการณ์โมเดลของคุณ กำลังพยายามทำให้ ซึ่งก็คือการคาดการณ์ที่โมเดลของคุณพยายามจะสร้าง ตรงตามคอลัมน์ในชุดข้อมูล เช่น คอลัมน์ชื่อ bicycle owner จะเป็นป้ายกำกับโดยตรงสำหรับ โมเดลการจัดประเภทแบบไบนารีที่คาดการณ์ว่าบุคคลหนึ่งๆ เป็นเจ้าของหรือไม่ จักรยาน
  • ป้ายกำกับพร็อกซี ซึ่งเป็นป้ายกำกับที่คล้ายกัน แต่ ไม่เหมือนกับการคาดการณ์ที่โมเดลของคุณพยายามสร้าง ตัวอย่างเช่น ผู้ที่สมัครรับข้อมูลนิตยสาร Bicycle Bizarre ก็อาจเป็นเจ้าของจักรยานแต่ก็ไม่แน่นอน

โดยทั่วไปป้ายกำกับโดยตรงจะดีกว่าป้ายกำกับพร็อกซี หากชุดข้อมูล จะระบุป้ายกำกับโดยตรงที่ใช้ได้ คุณก็น่าจะควรใช้ แต่บ่อยครั้งที่ป้ายกำกับโดยตรงไม่มีให้บริการ

ป้ายกำกับพร็อกซีมักมีขนาดเล็ก เป็นการประมาณที่ไม่สมบูรณ์แบบ ป้ายกำกับโดยตรง แต่ป้ายกำกับพร็อกซีบางรายการมีค่าประมาณที่ใกล้เคียงเพียงพอ เกิดประโยชน์ โมเดลที่ใช้ป้ายกำกับพร็อกซีจะมีประโยชน์ก็ต่อเมื่อ ระหว่างป้ายกำกับพร็อกซีและการคาดการณ์

โปรดทราบว่าป้ายกำกับทุกป้ายต้องแสดงด้วยเลขทศนิยม ในเวกเตอร์ฟีเจอร์ (เพราะโดยพื้นฐานแล้ว การเรียนรู้ของเครื่อง เป็นเพียงแค่หลักทางคณิตศาสตร์ ) อาจมีป้ายกำกับโดยตรงอยู่ แต่อาจแสดงเป็น จำนวนจุดลอยตัวในเวกเตอร์ของจุดสนใจ ในกรณีนี้ ให้ใช้ป้ายกำกับพร็อกซี

แบบฝึกหัด: ตรวจสอบความเข้าใจ

บริษัทของคุณต้องการทำสิ่งต่อไปนี้

คูปองทางไปรษณีย์ ("แลกซื้อจักรยานคันเก่าเป็นเวลา ส่วนลด 15% สำหรับจักรยานใหม่") ให้แก่เจ้าของจักรยาน

ดังนั้น โมเดลของคุณจะต้องทำดังนี้

ทำนายว่าใครเป็นเจ้าของจักรยาน

ขออภัย ชุดข้อมูลไม่มีคอลัมน์ชื่อ bike owner แต่ชุดข้อมูลดังกล่าวมีคอลัมน์ชื่อ recently bought a bicycle

recently bought a bicycle จะเป็นป้ายกำกับพร็อกซีที่ดีหรือไม่ หรือป้ายกำกับพร็อกซีที่ไม่ดีสำหรับโมเดลนี้
ป้ายกำกับพร็อกซีที่ดี
คอลัมน์ recently bought a bicycle เป็น ป้ายกำกับพร็อกซีที่ค่อนข้างดี เพราะไม่ว่าอย่างไร ผู้คนส่วนใหญ่ ที่ซื้อจักรยาน และเป็นเจ้าของจักรยาน อย่างไรก็ตาม ชอบทั้งหมด ป้ายกำกับพร็อกซี แม้แต่ป้ายกำกับที่ดีมาก recently bought a bicycle ก็ไม่สมบูรณ์แบบ เพราะอย่างไรก็ดี บุคคลที่ซื้อ ไฟล์หนึ่งๆ ไม่ใช่บุคคลที่กำลังใช้ (หรือเป็นเจ้าของ) รายการดังกล่าวเสมอไป เช่น บางครั้งคนซื้อจักรยานเป็นของขวัญ
ป้ายกำกับพร็อกซีที่ไม่ดี
เช่นเดียวกับป้ายกำกับพร็อกซีทั้งหมด recently bought a bicycle ยังไม่สมบูรณ์แบบ (จักรยานบางคันซื้อเป็นของขวัญและมอบให้แก่ อื่นๆ) แต่ recently bought a bicycle ถือว่า ยังคงเป็นตัวบ่งชี้ที่ดีว่าผู้ใช้มี จักรยาน

ข้อมูลที่มนุษย์สร้างขึ้น

ข้อมูลบางอย่างเกิดจากมนุษย์ นั่นคือ มนุษย์คนหนึ่งหรือมากกว่านั้นกำลังตรวจสอบ และระบุค่า โดยทั่วไปสำหรับป้ายกำกับ ตัวอย่างเช่น นักอุตุนิยมวิทยาอย่างน้อยหนึ่งคนสามารถตรวจดูภาพท้องฟ้าและระบุว่า ประเภทระบบคลาวด์

ข้อมูลบางอย่างจะสร้างขึ้นโดยอัตโนมัติ ซึ่งก็คือซอฟต์แวร์ (อาจเป็นโมเดลแมชชีนเลิร์นนิงอีกโมเดลหนึ่ง) จะเป็นตัวกำหนดมูลค่า ตัวอย่างเช่น โมเดลแมชชีนเลิร์นนิงจะตรวจสอบภาพท้องฟ้าและแยกแยะ ประเภทระบบคลาวด์

ส่วนนี้จะสำรวจข้อดีและข้อเสียของข้อมูลที่มนุษย์สร้างขึ้น

ข้อดี

  • เจ้าหน้าที่ตรวจสอบสามารถทำงานต่างๆ ได้มากมาย แม้กระทั่งงานที่ซับซ้อน โมเดลแมชชีนเลิร์นนิงอาจเป็นเรื่องยาก
  • กระบวนการนี้จะบังคับให้เจ้าของชุดข้อมูลพัฒนาความชัดเจน เป็นเกณฑ์ที่สม่ำเสมอ

ข้อเสีย

  • โดยปกติแล้วคุณจะต้องชำระเงินให้เจ้าหน้าที่ตรวจสอบ ดังนั้นข้อมูลที่มนุษย์สร้างขึ้นอาจมีค่าใช้จ่ายสูง
  • ความผิดพลาดคือมนุษย์ ดังนั้น เจ้าหน้าที่ตรวจสอบหลายรายอาจต้องประเมิน ข้อมูลเดียวกัน

พิจารณาคำถามเหล่านี้เพื่อพิจารณาความต้องการของคุณ

  • ผู้ตรวจสอบต้องมีทักษะมากน้อยเพียงใด (ตัวอย่างเช่น ผู้ตรวจสอบ ถ้ารู้ภาษาใดภาษาหนึ่ง คุณต้องการนักภาษาสำหรับบทสนทนาหรือ NLP แอปพลิเคชันด้วย)
  • คุณต้องการตัวอย่างที่มีป้ายกำกับกี่รายการ คุณต้องการได้เร็วแค่ไหน
  • คุณมีงบประมาณเท่าไหร่

โปรดตรวจสอบเจ้าหน้าที่ตรวจสอบอีกครั้งเสมอ เช่น ตัวอย่างป้ายกำกับ 1000 ดูว่าผลลัพธ์ของคุณตรงกับ ผู้ประเมินรายอื่นอย่างไร ผลลัพธ์ หากมีความคลาดเคลื่อน อย่าคิดเอาเองว่าการให้คะแนนของคุณเป็นค่าที่ถูกต้อง โดยเฉพาะอย่างยิ่งหากมีการตัดสินคุณค่า หากเจ้าหน้าที่ตรวจสอบแนะนำ โปรดพิจารณาเพิ่มวิธีการเพื่อช่วยข้อผิดพลาดดังกล่าว แล้วลองอีกครั้ง

วันที่