ป้ายกํากับโดยตรงเทียบกับป้ายกํากับที่ได้
และแมชชีนเลิร์นนิงจะง่ายขึ้นเมื่อกําหนดป้ายกํากับได้ดี ป้ายกํากับที่ดีที่สุดคือป้ายกํากับโดยตรงของสิ่งที่คุณต้องการคาดการณ์ เช่น หากต้องการคาดการณ์ว่าผู้ใช้เป็นแฟน Taylor Swift ป้ายกํากับโดยตรงจะเป็น "User เป็นแฟน Taylor Swift&&tt;
การทดสอบความเรียบง่ายของแฟนๆ อาจเป็นไปได้ว่าผู้ใช้ได้ดูวิดีโอของ Taylor Swift ใน YouTube หรือไม่ ค่ายเพลง"ผู้ใช้ได้ดูวิดีโอของ Taylor Swift ใน YouTube แล้ว เป็นป้ายกํากับที่ได้รับเนื่องจากไม่ได้วัดสิ่งที่คุณต้องการคาดการณ์โดยตรง ป้ายกํากับที่ได้นี้เป็นตัวบ่งชี้ที่น่าเชื่อถือว่าผู้ใช้ชอบเทย์เลอร์ สวิฟต์หรือไม่ โมเดลของคุณจะดีเท่าการเชื่อมต่อระหว่างป้ายกํากับที่ได้มากับการคาดการณ์ที่ต้องการเท่านั้น
แหล่งที่มาของป้ายกํากับ
เอาต์พุตของโมเดลอาจเป็นเหตุการณ์หรือแอตทริบิวต์ก็ได้ ซึ่งส่งผลให้เกิดป้ายกํากับ 2 ประเภทต่อไปนี้
- ป้ายกํากับโดยตรงสําหรับกิจกรรม เช่น "ผู้ใช้คลิกผลการค้นหาอันดับบนสุดแล้วใช่ไหม"
- ป้ายกํากับโดยตรงสําหรับแอตทริบิวต์ เช่น "ผู้ลงโฆษณาจะใช้จ่ายมากกว่า X บาทในสัปดาห์หน้าไหม"
ป้ายกํากับโดยตรงสําหรับกิจกรรม
สําหรับเหตุการณ์ ป้ายกํากับโดยตรงมักจะตรงไปตรงมา เนื่องจากคุณอาจบันทึกพฤติกรรมของผู้ใช้ในระหว่างเหตุการณ์เพื่อใช้เป็นป้ายกํากับได้ เมื่อติดป้ายกํากับเหตุการณ์ ให้ถามตัวเองด้วยคําถามต่อไปนี้
- โครงสร้างบันทึกของคุณเป็นอย่างไร
- อะไรที่ถือว่าเป็น "เหตุการณ์" ในบันทึกของคุณ
เช่น ระบบบันทึกเมื่อผู้ใช้คลิกผลการค้นหาหรือเมื่อผู้ใช้ทําการค้นหา หากคุณมีบันทึกการคลิก ให้รู้ไว้ว่าคุณไม่เคยเห็นการแสดงผลเลยหากไม่มีการคลิก คุณต้องมีบันทึกเมื่อเหตุการณ์เป็นการแสดงผล เพื่อให้ครอบคลุมทุกกรณีที่ผู้ใช้เห็นผลการค้นหาอันดับต้นๆ
ป้ายกํากับโดยตรงสําหรับแอตทริบิวต์
สมมติว่าป้ายกํากับของคุณคือ "ผู้ลงโฆษณาจะใช้เงินมากกว่า X บาทในสัปดาห์หน้า" โดยปกติ ให้คุณใช้ข้อมูลวันก่อนหน้าเพื่อคาดการณ์สิ่งที่จะเกิดขึ้นในวันต่อๆ ไป ตัวอย่างเช่น ภาพประกอบต่อไปนี้แสดงข้อมูลการฝึก 10 วัน ซึ่งจะคาดการณ์ 7 วันข้างหน้า
อย่าลืมพิจารณาฤดูกาลหรือผลกระทบแบบวนซ้ํา เช่น ผู้ลงโฆษณาอาจใช้จ่ายมากขึ้นในวันสุดสัปดาห์ ด้วยเหตุนี้ คุณอาจต้องการใช้กรอบเวลา 14 วันแทน หรือใช้วันที่เป็นฟีเจอร์เพื่อให้โมเดลเรียนรู้ผลกระทบประจําปีได้
ป้ายกํากับโดยตรงต้องการบันทึกลักษณะการทํางานที่ผ่านมา
ในกรณีก่อนหน้านี้ โปรดทราบว่าเราต้องการข้อมูลเกี่ยวกับผลลัพธ์ที่แท้จริง ไม่ว่าจะเป็นค่าใช้จ่ายของผู้ลงโฆษณาหรือผู้ใช้ที่ดูวิดีโอ Taylor Swift เราก็ต้องการข้อมูลย้อนหลังเพื่อใช้แมชชีนเลิร์นนิงที่มีการควบคุมดูแล แมชชีนเลิร์นนิงช่วยคาดการณ์จากสิ่งที่เกิดขึ้นในอดีต ดังนั้นหากคุณไม่เคยมีประวัติมาก่อน คุณก็ต้องมีบันทึก
จะทําอย่างไรหากคุณไม่มีข้อมูลที่จะบันทึก
บางทีผลิตภัณฑ์ของคุณอาจไม่มีอยู่ คุณจึงไม่มีข้อมูลที่จะบันทึก ในกรณีนี้ คุณดําเนินการต่อไปนี้ได้อย่างน้อย 1 อย่าง
- ใช้การเรียนรู้ของระบบสําหรับการเปิดตัวครั้งแรก แล้วฝึกระบบโดยอิงตามข้อมูลที่บันทึก
- ใช้บันทึกจากปัญหาที่คล้ายกันเพื่อเปิดระบบ
- ใช้เจ้าหน้าที่ตรวจสอบเพื่อสร้างข้อมูลโดยทํางานต่างๆ ให้เสร็จ
เหตุใดจึงต้องใช้ข้อมูลที่มีป้ายกํากับโดยเจ้าหน้าที่
มีข้อดีและข้อเสียในการใช้ข้อมูลที่ติดป้ายกํากับเป็นมนุษย์
ข้อดี
- ผู้ตรวจวัดคุณภาพมนุษย์สามารถทํางานที่หลากหลาย
- ข้อมูลทําให้คุณมีคําจํากัดความของปัญหาที่ชัดเจน
ข้อเสีย
- ข้อมูลมีราคาแพงสําหรับบางโดเมน
- ข้อมูลที่ดีมักต้องใช้การทําซ้ําหลายครั้ง
การปรับปรุงคุณภาพ
ตรวจสอบการทํางานของเจ้าหน้าที่ตรวจสอบเสมอ เช่น ติดป้ายกํากับ 1,000 ตัวอย่างด้วยตนเอง แล้วดูว่าผลการค้นหาตรงกับผู้ตรวจวัดอย่างไร' (การติดป้ายกํากับข้อมูลด้วยตัวเองก็เป็นวิธีที่ดี ในการทําความรู้จักข้อมูล) หากความคลาดเคลื่อนปรากฏขึ้น อย่าทึกทักเอาว่า การให้คะแนนของคุณคือคะแนนที่ถูกต้อง โดยเฉพาะอย่างยิ่งหากมีการประเมินมูลค่า หากเจ้าหน้าที่ตรวจสอบข้อผิดพลาดแล้ว ลองพิจารณาเพิ่มคําแนะนําเพื่อให้เจ้าหน้าที่ลองอีกครั้งได้
การดูข้อมูลด้วยตนเองเป็นแนวทางปฏิบัติที่ดี ไม่ว่าคุณจะได้ข้อมูลมาอย่างไร Andrej Karpathy ทําเช่นนี้กับ ImageNet และเขียนเกี่ยวกับประสบการณ์การใช้งานดังกล่าว