ระบบ ML การผลิต: คำถามที่ควรถาม

บทเรียนนี้จะมุ่งเน้นที่คำถามที่คุณควรถามเกี่ยวกับข้อมูล และโมเดลในระบบการผลิต

แต่ละฟีเจอร์มีประโยชน์ไหม

คุณควรตรวจสอบโมเดลอย่างต่อเนื่องเพื่อนำฟีเจอร์ที่มีส่วนร่วมออก ความสามารถในการคาดการณ์ของโมเดลน้อยมากหรือไม่มีเลย หากข้อมูลอินพุตสำหรับ คุณลักษณะเปลี่ยนไปอย่างกะทันหัน ลักษณะการทำงานของโมเดลก็อาจเพิ่มขึ้นอย่างกะทันหัน เปลี่ยนแปลงในลักษณะที่ไม่เป็นที่ต้องการ

และพิจารณาคำถามที่เกี่ยวข้องต่อไปนี้ด้วย

  • การใช้งานฟีเจอร์นี้คุ้มค่ากับค่าใช้จ่ายในการรวมหรือไม่

การเพิ่มคุณลักษณะเพิ่มเติมให้กับโมเดลเป็นสิ่งล่อใจเสมอ ตัวอย่างเช่น สมมติว่าคุณพบฟีเจอร์ใหม่ที่การบวกทำให้การคาดการณ์ของโมเดลของคุณ ดีขึ้นเล็กน้อย การคาดคะเนที่ดีกว่าเล็กน้อยย่อมดูดีกว่า การคาดการณ์ที่แย่ลงเล็กน้อย แต่คุณลักษณะพิเศษนี้จะเพิ่ม ในการบำรุงรักษา

แหล่งข้อมูลของคุณเชื่อถือได้ไหม

คำถามบางข้อที่ควรถามเกี่ยวกับความน่าเชื่อถือของข้อมูลอินพุตมีดังนี้

  • สัญญาณนี้พร้อมใช้งานเสมอหรือมาจาก เป็นแหล่งข้อมูลที่ไม่น่าเชื่อถือ ดังตัวอย่างต่อไปนี้
    • สัญญาณมาจากเซิร์ฟเวอร์ที่ขัดข้องเมื่อมีภาระงานหนักใช่ไหม
    • สัญญาณนี้มาจากมนุษย์ที่ลาพักร้อนของทุกเดือนสิงหาคมใช่ไหม
  • ระบบที่คำนวณข้อมูลอินพุตของโมเดลของคุณมีการเปลี่ยนแปลงหรือไม่ หากเป็นเช่นนั้น ให้ทำดังนี้
    • ทำบ่อยแค่ไหน
    • คุณจะรู้ได้อย่างไรว่าระบบดังกล่าวมีการเปลี่ยนแปลงเมื่อใด

พิจารณาสร้างสำเนาข้อมูลที่คุณได้รับจาก จากต้นทางถึงปลายทาง จากนั้น ไปยังอัปสตรีมเวอร์ชันถัดไปเท่านั้น เมื่อคุณมั่นใจว่าจะปลอดภัย

โมเดลของคุณเป็นส่วนหนึ่งของลูปความคิดเห็นไหม

บางครั้งโมเดลอาจส่งผลต่อข้อมูลการฝึกของตัวเอง ตัวอย่างเช่น พารามิเตอร์ ผลลัพธ์ที่ได้จากโมเดลบางส่วนก็กลายเป็นอินพุต (ทั้งทางตรงและทางอ้อม) ลงในโมเดลเดียวกัน

บางครั้งโมเดลหนึ่งอาจส่งผลต่อโมเดลอื่น ตัวอย่างเช่น ลองพิจารณา ในการคาดการณ์ราคาหุ้น

  • รูปแบบ A ซึ่งเป็นโมเดลการคาดการณ์ที่ไม่ดี
  • รูปแบบ ข

เนื่องจากรุ่น A มีข้อบกพร่อง จึงตัดสินใจซื้อหุ้นในสต็อก X โดยไม่ได้ตั้งใจ การซื้อเหล่านั้นทำให้หุ้น X มีราคาสูงขึ้น รูปแบบ B ใช้ราคา ของคลัง X เป็นฟีเจอร์อินพุต ดังนั้นโมเดล B อาจเป็นเท็จ เกี่ยวกับมูลค่าของหุ้น X โมเดล B จึงสามารถ ซื้อหรือขายหุ้นของหุ้น X ตามพฤติกรรมที่มีข้อบกพร่องของรุ่น A พฤติกรรมของโมเดล B ก็อาจส่งผลต่อโมเดล A ซึ่งอาจทริกเกอร์ ดอกทิวลิปหรือสไลด์โชว์ หุ้นของบริษัท X

แบบฝึกหัด: ตรวจสอบความเข้าใจ

รูปแบบ 3 ข้อใดต่อไปนี้มีความเสี่ยงต่อ การเก็บฟีดแบ็กมาแก้ไข
โมเดลการคาดการณ์การจราจรซึ่งคาดการณ์การจราจรที่ติดขัดเมื่อออกจากทางหลวง ใกล้ชายหาด โดยใช้จำนวนผู้คนที่ชายหาดมาเป็นหนึ่งในคุณลักษณะ
นักท่องเที่ยวที่ชอบชายหาดบางคนมีแนวโน้มที่จะวางแผนการเข้าชม การคาดการณ์ หากมีฝูงชนติดชายหาดจำนวนมากและคาดการณ์ว่าการจราจรจะหนาแน่น ทำงานหนัก หลายคนอาจวางแผนทางเลือก อาจทำให้ชายหาดแย่ลง ส่งผลให้มีการคาดการณ์การจราจรเบาบางลง ซึ่งอาจทำให้ ผู้เข้าร่วมที่เพิ่มขึ้น และวงจรจะเกิดขึ้นซ้ำๆ
โมเดลแนะนำหนังสือที่แนะนำนิยายที่ผู้ใช้อาจชอบ ตามความนิยม (เช่น จำนวนครั้งที่มีการสั่งซื้อหนังสือ ซื้อแล้ว)
หนังสือแนะนำมีแนวโน้มที่จะกระตุ้นการซื้อ และ ข้อมูลยอดขายเพิ่มเติมจะถูกป้อนกลับไปยังโมเดลเป็นอินพุต ทำให้มีแนวโน้มที่จะแนะนำหนังสือเล่มเดียวกันนี้ ในอนาคต
โมเดลการจัดอันดับมหาวิทยาลัยที่ให้คะแนนโรงเรียนบางส่วนตาม การเลือก - เปอร์เซ็นต์ของนักเรียนที่เลือกใช้ ยอมรับ
การจัดอันดับของโมเดลอาจเพิ่มความสนใจให้ข้อเสนอคะแนนสูงสุด สถานศึกษาจำนวนมากขึ้น เพื่อเพิ่มปริมาณใบสมัคร หาก สถานศึกษาจะยังคงเปิดรับนักเรียนจำนวนเท่าเดิม การคัดเลือก (เปอร์เซ็นต์ของนักเรียนที่เข้าเรียนจะลดลง) ช่วงเวลานี้ จะช่วยเสริมสร้างโรงเรียนเหล่านี้ ซึ่งเป็นการจัดอันดับ ความสนใจของนักเรียน/นักศึกษาในอนาคต และอื่นๆ
โมเดลผลการเลือกตั้งที่คาดการณ์ผู้ชนะ การแข่งขันของนายกเทศมนตรีด้วยการสำรวจผู้มีสิทธิเลือกตั้ง 2% หลังจากปิดคูหาเลือกตั้งแล้ว
หากโมเดลไม่เผยแพร่การคาดการณ์จนกว่าแบบสำรวจจะจบลง ปิดแล้ว การคาดการณ์ว่าจะมีผลกระทบต่อผู้มีสิทธิเลือกตั้งหรือไม่ พฤติกรรมของคุณ
โมเดลมูลค่าที่พักอาศัยซึ่งคาดการณ์ราคาบ้านโดยใช้ ขนาด (พื้นที่เป็นตารางเมตร) จำนวนห้องนอน และสถานที่ตั้งทางภูมิศาสตร์ เป็นฟีเจอร์
ไม่สามารถเปลี่ยนตำแหน่งของบ้านอย่างรวดเร็วได้ หรือจำนวนห้องนอนตามการคาดการณ์ราคา ทำให้ไม่มีการเก็บความคิดเห็น อย่างไรก็ตาม อาจมี ความสัมพันธ์ระหว่างขนาดและจำนวนห้องนอน (บ้านขนาดใหญ่ มักจะมีห้องมากกว่า) ซึ่งอาจต้องแยกเป็นส่วนๆ
รูปแบบแอตทริบิวต์ใบหน้าที่จะตรวจจับว่าบุคคลกำลังยิ้มอยู่หรือไม่ ในภาพถ่าย ซึ่งได้รับการฝึกเป็นประจำในฐานข้อมูลภาพถ่ายจากคลังภาพ ซึ่งมีการอัปเดตโดยอัตโนมัติทุกเดือน
ที่นี่ไม่มีลูปความคิดเห็น เนื่องจากการคาดการณ์โมเดลไม่มี ผลกระทบต่อฐานข้อมูลรูปภาพ แต่การกำหนดเวอร์ชันอินพุต ข้อมูลเป็นเรื่องน่ากังวล เพราะการอัปเดต รายเดือนเหล่านี้ มีผลกระทบที่ไม่คาดคิดต่อโมเดล