หน้านี้ได้รับการแปลโดย Cloud Translation API

ชุดข้อมูล: ป้ายกำกับ

ส่วนนี้จะเน้นที่ป้ายกำกับ

ป้ายกำกับโดยตรงเทียบกับป้ายกำกับพร็อกซี

พิจารณาป้ายกำกับ 2 ประเภทต่อไปนี้

ป้ายกำกับโดยตรง ซึ่งเป็นป้ายกำกับที่เหมือนกับการคาดการณ์ที่โมเดล พยายามทำ กล่าวคือ การคาดการณ์ที่โมเดลพยายามทำจะแสดงเป็นคอลัมน์ในชุดข้อมูลของคุณอย่างแน่นอน เช่น คอลัมน์ที่ชื่อ bicycle owner จะเป็นป้ายกำกับโดยตรงสำหรับโมเดลการแยกประเภทแบบไบนารีที่คาดการณ์ว่าบุคคลมีจักรยานหรือไม่
ป้ายกำกับพร็อกซี ซึ่งเป็นป้ายกำกับที่คล้ายกันแต่ไม่เหมือนกับคำทำนายที่โมเดลพยายามทำ เช่น ผู้ที่สมัครรับนิตยสาร Bicycle Bizarre อาจเป็นเจ้าของจักรยาน แต่ก็ไม่แน่

โดยทั่วไปแล้ว ป้ายกำกับโดยตรงจะดีกว่าป้ายกำกับพร็อกซี หากชุดข้อมูล ระบุป้ายกำกับโดยตรงที่เป็นไปได้ คุณควรใช้ป้ายกำกับนั้น แต่ในหลายๆ ครั้ง ป้ายกำกับโดยตรงอาจไม่พร้อมใช้งาน

ป้ายกำกับพร็อกซีเป็นสิ่งที่ต้องประนีประนอมเสมอ ซึ่งเป็นค่าประมาณที่ไม่สมบูรณ์ของ ป้ายกำกับโดยตรง อย่างไรก็ตาม ป้ายกำกับพร็อกซีบางรายการก็เป็นค่าประมาณที่ใกล้เคียงมากพอ ที่จะเป็นประโยชน์ โมเดลที่ใช้ป้ายกำกับพร็อกซีจะมีประโยชน์ก็ต่อเมื่อมีการเชื่อมต่อระหว่างป้ายกำกับพร็อกซีกับการคาดการณ์

โปรดทราบว่าป้ายกำกับทุกรายการต้องแสดงเป็นจำนวนทศนิยมแบบลอยตัว ซึ่งคล้ายกับเวกเตอร์ฟีเจอร์ (เนื่องจาก แมชชีนเลิร์นนิงเป็นเพียงการรวบรวมการดำเนินการทางคณิตศาสตร์) บางครั้งอาจมีป้ายกำกับโดยตรง แต่แสดงเป็น จำนวนทศนิยมได้ยาก ในกรณีนี้ ให้ใช้ป้ายกำกับพร็อกซี

แบบฝึกหัด: ทดสอบความเข้าใจ

บริษัทของคุณต้องการทำสิ่งต่อไปนี้

ส่งคูปอง ("รับส่วนลด 15% สำหรับหมวกกันน็อก จักรยานใหม่") ให้กับเจ้าของจักรยาน

ดังนั้น โมเดลของคุณต้องทำสิ่งต่อไปนี้

คาดการณ์ว่าใครเป็นเจ้าของจักรยาน

ขออภัย ชุดข้อมูลไม่มีคอลัมน์ชื่อ bike owner แต่ชุดข้อมูลมีคอลัมน์ชื่อ recently bought a bicycle

recently bought a bicycle เป็นป้ายกำกับพร็อกซีที่ดี หรือป้ายกำกับพร็อกซีที่ไม่ดีสำหรับโมเดลนี้

ป้ายกำกับพร็อกซีที่ดี

คอลัมน์ recently bought a bicycle เป็นป้ายกำกับพร็อกซีที่ค่อนข้างดี ท้ายที่สุดแล้ว คนส่วนใหญ่ ที่ซื้อจักรยานก็มีจักรยานอยู่แล้ว อย่างไรก็ตาม

recently bought a
            bicycle

ก็ยังไม่สมบูรณ์แบบเช่นเดียวกับป้ายกำกับพร็อกซีอื่นๆ ทั้งหมด แม้ว่าจะเป็นป้ายกำกับที่ดีมากก็ตาม เนื่องจากผู้ที่ซื้อ สินค้าไม่ได้เป็นผู้ที่ใช้ (หรือเป็นเจ้าของ) สินค้านั้นเสมอไป เช่น บางครั้งผู้คนก็ซื้อจักรยานเป็นของขวัญ

ป้ายกำกับพร็อกซีไม่ดี

เช่นเดียวกับป้ายกำกับพร็อกซีทั้งหมด recently bought a bicycle จึงไม่สมบูรณ์แบบ (จักรยานบางคันซื้อเป็นของขวัญและมอบให้ ผู้อื่น) อย่างไรก็ตาม recently bought a bicycle ยังคงเป็นตัวบ่งชี้ที่ดีในระดับหนึ่งว่าบุคคลนั้นเป็นเจ้าของจักรยาน

ข้อมูลที่สร้างโดยมนุษย์

ข้อมูลบางอย่างสร้างขึ้นโดยมนุษย์ นั่นคือมีเจ้าหน้าที่อย่างน้อย 1 คนตรวจสอบข้อมูลบางอย่างและระบุค่า ซึ่งมักจะเป็นป้ายกำกับ เช่น นักอุตุนิยมวิทยาอย่างน้อย 1 คนอาจตรวจสอบรูปภาพท้องฟ้าและระบุ ประเภทเมฆ

หรือข้อมูลบางอย่างสร้างขึ้นโดยอัตโนมัติ กล่าวคือ ซอฟต์แวร์ (อาจเป็นโมเดลแมชชีนเลิร์นนิงอื่น) จะกำหนดค่า เช่น โมเดลแมชชีนเลิร์นนิงอาจตรวจสอบรูปภาพท้องฟ้าและระบุประเภทเมฆโดยอัตโนมัติ

ส่วนนี้จะอธิบายข้อดีและข้อเสียของข้อมูลที่มนุษย์สร้างขึ้น

ข้อดี

ผู้ให้คะแนนที่เป็นมนุษย์สามารถทำงานได้หลากหลาย ซึ่งแม้แต่โมเดลแมชชีนเลิร์นนิงที่ซับซ้อนก็อาจทำได้ยาก
กระบวนการนี้บังคับให้เจ้าของชุดข้อมูลต้องพัฒนากฎเกณฑ์ที่ชัดเจนและสอดคล้องกัน

ข้อเสีย

โดยปกติแล้วคุณจะต้องจ่ายเงินให้ผู้จัดอันดับที่เป็นมนุษย์ ดังนั้นข้อมูลที่มนุษย์สร้างขึ้นจึงอาจมีราคาสูง
เกิดเป็นมนุษย์ย่อมต้องมีผิดพลาด ดังนั้น ผู้จัดประเภทที่เป็นมนุษย์หลายคนอาจต้องประเมินข้อมูลเดียวกัน

ลองพิจารณาคำถามต่อไปนี้เพื่อระบุความต้องการของคุณ

ผู้จัดประเภทต้องมีความเชี่ยวชาญมากน้อยเพียงใด (เช่น ผู้ประเมินต้องรู้ภาษาใดภาษาหนึ่งไหม คุณต้องการนักภาษาศาสตร์สำหรับแอปพลิเคชันการสนทนาหรือ NLP ไหม)
คุณต้องใช้ตัวอย่างที่มีป้ายกำกับกี่รายการ คุณต้องการใช้บริการเร็วเพียงใด
คุณมีงบประมาณเท่าไร

ตรวจสอบผู้ให้คะแนนที่เป็นมนุษย์อีกครั้งเสมอ เช่น ติดป้ายกำกับตัวอย่าง 1,000 รายการ ด้วยตนเอง แล้วดูว่าผลลัพธ์ของคุณตรงกับผลลัพธ์ของผู้จัดประเภทคนอื่นๆ อย่างไร หากพบความคลาดเคลื่อน อย่าคิดว่าการจัดประเภทของคุณถูกต้อง โดยเฉพาะอย่างยิ่งหากมีการตัดสินคุณค่าเข้ามาเกี่ยวข้อง หากผู้ให้คะแนนที่เป็นมนุษย์ป้อนข้อผิดพลาด ให้ลองเพิ่มวิธีการเพื่อช่วยเหลือผู้ให้คะแนน แล้วลองอีกครั้ง

คลิกไอคอนบวกเพื่อดูข้อมูลเพิ่มเติมเกี่ยวกับข้อมูลที่มนุษย์สร้างขึ้น

การดูข้อมูลด้วยตนเองเป็นวิธีที่ดีไม่ว่าคุณจะได้รับข้อมูลมาอย่างไรก็ตาม Andrej Karpathy ทำสิ่งนี้ใน ImageNet และเขียนเกี่ยวกับประสบการณ์นี้

โมเดลสามารถฝึกโดยใช้ป้ายกำกับที่สร้างขึ้นโดยอัตโนมัติและโดยมนุษย์ร่วมกัน อย่างไรก็ตาม สำหรับโมเดลส่วนใหญ่ ชุดป้ายกำกับที่มนุษย์สร้างขึ้นเพิ่มเติม (ซึ่งอาจล้าสมัย) โดยทั่วไปแล้วไม่คุ้มค่ากับความซับซ้อนและการบำรุงรักษาที่เพิ่มขึ้น อย่างไรก็ตาม บางครั้งป้ายกำกับที่มนุษย์สร้างขึ้นอาจให้ข้อมูลเพิ่มเติม ซึ่งไม่มีในป้ายกำกับอัตโนมัติ

ลักษณะของข้อมูล (10 นาที)

ชุดข้อมูลที่ไม่สมดุล (10 นาที)