การระบุป้ายกํากับและแหล่งที่มา

ป้ายกํากับโดยตรงเทียบกับป้ายกํากับที่ได้

และแมชชีนเลิร์นนิงจะง่ายขึ้นเมื่อกําหนดป้ายกํากับได้ดี ป้ายกํากับที่ดีที่สุดคือป้ายกํากับโดยตรงของสิ่งที่คุณต้องการคาดการณ์ เช่น หากต้องการคาดการณ์ว่าผู้ใช้เป็นแฟน Taylor Swift ป้ายกํากับโดยตรงจะเป็น "User เป็นแฟน Taylor Swift&&tt;

การทดสอบความเรียบง่ายของแฟนๆ อาจเป็นไปได้ว่าผู้ใช้ได้ดูวิดีโอของ Taylor Swift ใน YouTube หรือไม่ ค่ายเพลง"ผู้ใช้ได้ดูวิดีโอของ Taylor Swift ใน YouTube แล้ว เป็นป้ายกํากับที่ได้รับเนื่องจากไม่ได้วัดสิ่งที่คุณต้องการคาดการณ์โดยตรง ป้ายกํากับที่ได้นี้เป็นตัวบ่งชี้ที่น่าเชื่อถือว่าผู้ใช้ชอบเทย์เลอร์ สวิฟต์หรือไม่ โมเดลของคุณจะดีเท่าการเชื่อมต่อระหว่างป้ายกํากับที่ได้มากับการคาดการณ์ที่ต้องการเท่านั้น

แหล่งที่มาของป้ายกํากับ

เอาต์พุตของโมเดลอาจเป็นเหตุการณ์หรือแอตทริบิวต์ก็ได้ ซึ่งส่งผลให้เกิดป้ายกํากับ 2 ประเภทต่อไปนี้

  • ป้ายกํากับโดยตรงสําหรับกิจกรรม เช่น "ผู้ใช้คลิกผลการค้นหาอันดับบนสุดแล้วใช่ไหม"
  • ป้ายกํากับโดยตรงสําหรับแอตทริบิวต์ เช่น "ผู้ลงโฆษณาจะใช้จ่ายมากกว่า X บาทในสัปดาห์หน้าไหม"

ป้ายกํากับโดยตรงสําหรับกิจกรรม

สําหรับเหตุการณ์ ป้ายกํากับโดยตรงมักจะตรงไปตรงมา เนื่องจากคุณอาจบันทึกพฤติกรรมของผู้ใช้ในระหว่างเหตุการณ์เพื่อใช้เป็นป้ายกํากับได้ เมื่อติดป้ายกํากับเหตุการณ์ ให้ถามตัวเองด้วยคําถามต่อไปนี้

  • โครงสร้างบันทึกของคุณเป็นอย่างไร
  • อะไรที่ถือว่าเป็น "เหตุการณ์" ในบันทึกของคุณ

เช่น ระบบบันทึกเมื่อผู้ใช้คลิกผลการค้นหาหรือเมื่อผู้ใช้ทําการค้นหา หากคุณมีบันทึกการคลิก ให้รู้ไว้ว่าคุณไม่เคยเห็นการแสดงผลเลยหากไม่มีการคลิก คุณต้องมีบันทึกเมื่อเหตุการณ์เป็นการแสดงผล เพื่อให้ครอบคลุมทุกกรณีที่ผู้ใช้เห็นผลการค้นหาอันดับต้นๆ

ป้ายกํากับโดยตรงสําหรับแอตทริบิวต์

สมมติว่าป้ายกํากับของคุณคือ "ผู้ลงโฆษณาจะใช้เงินมากกว่า X บาทในสัปดาห์หน้า" โดยปกติ ให้คุณใช้ข้อมูลวันก่อนหน้าเพื่อคาดการณ์สิ่งที่จะเกิดขึ้นในวันต่อๆ ไป ตัวอย่างเช่น ภาพประกอบต่อไปนี้แสดงข้อมูลการฝึก 10 วัน ซึ่งจะคาดการณ์ 7 วันข้างหน้า

ปฏิทินที่ไฮไลต์บล็อก 10 วัน ตามด้วยบล็อก 7 วันทันที
รูปแบบนี้ใช้ข้อมูลจากบล็อก 10 วันเพื่อคาดการณ์ในช่วง 7 วัน

อย่าลืมพิจารณาฤดูกาลหรือผลกระทบแบบวนซ้ํา เช่น ผู้ลงโฆษณาอาจใช้จ่ายมากขึ้นในวันสุดสัปดาห์ ด้วยเหตุนี้ คุณอาจต้องการใช้กรอบเวลา 14 วันแทน หรือใช้วันที่เป็นฟีเจอร์เพื่อให้โมเดลเรียนรู้ผลกระทบประจําปีได้

ป้ายกํากับโดยตรงต้องการบันทึกลักษณะการทํางานที่ผ่านมา

ในกรณีก่อนหน้านี้ โปรดทราบว่าเราต้องการข้อมูลเกี่ยวกับผลลัพธ์ที่แท้จริง ไม่ว่าจะเป็นค่าใช้จ่ายของผู้ลงโฆษณาหรือผู้ใช้ที่ดูวิดีโอ Taylor Swift เราก็ต้องการข้อมูลย้อนหลังเพื่อใช้แมชชีนเลิร์นนิงที่มีการควบคุมดูแล แมชชีนเลิร์นนิงช่วยคาดการณ์จากสิ่งที่เกิดขึ้นในอดีต ดังนั้นหากคุณไม่เคยมีประวัติมาก่อน คุณก็ต้องมีบันทึก

จะทําอย่างไรหากคุณไม่มีข้อมูลที่จะบันทึก

บางทีผลิตภัณฑ์ของคุณอาจไม่มีอยู่ คุณจึงไม่มีข้อมูลที่จะบันทึก ในกรณีนี้ คุณดําเนินการต่อไปนี้ได้อย่างน้อย 1 อย่าง

  • ใช้การเรียนรู้ของระบบสําหรับการเปิดตัวครั้งแรก แล้วฝึกระบบโดยอิงตามข้อมูลที่บันทึก
  • ใช้บันทึกจากปัญหาที่คล้ายกันเพื่อเปิดระบบ
  • ใช้เจ้าหน้าที่ตรวจสอบเพื่อสร้างข้อมูลโดยทํางานต่างๆ ให้เสร็จ

เหตุใดจึงต้องใช้ข้อมูลที่มีป้ายกํากับโดยเจ้าหน้าที่

มีข้อดีและข้อเสียในการใช้ข้อมูลที่ติดป้ายกํากับเป็นมนุษย์

ข้อดี

  • ผู้ตรวจวัดคุณภาพมนุษย์สามารถทํางานที่หลากหลาย
  • ข้อมูลทําให้คุณมีคําจํากัดความของปัญหาที่ชัดเจน

ข้อเสีย

  • ข้อมูลมีราคาแพงสําหรับบางโดเมน
  • ข้อมูลที่ดีมักต้องใช้การทําซ้ําหลายครั้ง

การปรับปรุงคุณภาพ

ตรวจสอบการทํางานของเจ้าหน้าที่ตรวจสอบเสมอ เช่น ติดป้ายกํากับ 1,000 ตัวอย่างด้วยตนเอง แล้วดูว่าผลการค้นหาตรงกับผู้ตรวจวัดอย่างไร' (การติดป้ายกํากับข้อมูลด้วยตัวเองก็เป็นวิธีที่ดี ในการทําความรู้จักข้อมูล) หากความคลาดเคลื่อนปรากฏขึ้น อย่าทึกทักเอาว่า การให้คะแนนของคุณคือคะแนนที่ถูกต้อง โดยเฉพาะอย่างยิ่งหากมีการประเมินมูลค่า หากเจ้าหน้าที่ตรวจสอบข้อผิดพลาดแล้ว ลองพิจารณาเพิ่มคําแนะนําเพื่อให้เจ้าหน้าที่ลองอีกครั้งได้

การดูข้อมูลด้วยตนเองเป็นแนวทางปฏิบัติที่ดี ไม่ว่าคุณจะได้ข้อมูลมาอย่างไร Andrej Karpathy ทําเช่นนี้กับ ImageNet และเขียนเกี่ยวกับประสบการณ์การใช้งานดังกล่าว