บทเรียนนี้จะมุ่งเน้นที่คำถามที่คุณควรถามเกี่ยวกับข้อมูล
และโมเดลในระบบการผลิต
แต่ละฟีเจอร์มีประโยชน์ไหม
คุณควรตรวจสอบโมเดลอย่างต่อเนื่องเพื่อนำฟีเจอร์ที่มีส่วนร่วมออก
ความสามารถในการคาดการณ์ของโมเดลน้อยมากหรือไม่มีเลย หากข้อมูลอินพุตสำหรับ
คุณลักษณะเปลี่ยนไปอย่างกะทันหัน ลักษณะการทำงานของโมเดลก็อาจเพิ่มขึ้นอย่างกะทันหัน
เปลี่ยนแปลงในลักษณะที่ไม่เป็นที่ต้องการ
และพิจารณาคำถามที่เกี่ยวข้องต่อไปนี้ด้วย
- การใช้งานฟีเจอร์นี้คุ้มค่ากับค่าใช้จ่ายในการรวมหรือไม่
การเพิ่มคุณลักษณะเพิ่มเติมให้กับโมเดลเป็นสิ่งล่อใจเสมอ ตัวอย่างเช่น
สมมติว่าคุณพบฟีเจอร์ใหม่ที่การบวกทำให้การคาดการณ์ของโมเดลของคุณ
ดีขึ้นเล็กน้อย การคาดคะเนที่ดีกว่าเล็กน้อยย่อมดูดีกว่า
การคาดการณ์ที่แย่ลงเล็กน้อย แต่คุณลักษณะพิเศษนี้จะเพิ่ม
ในการบำรุงรักษา
แหล่งข้อมูลของคุณเชื่อถือได้ไหม
คำถามบางข้อที่ควรถามเกี่ยวกับความน่าเชื่อถือของข้อมูลอินพุตมีดังนี้
- สัญญาณนี้พร้อมใช้งานเสมอหรือมาจาก
เป็นแหล่งข้อมูลที่ไม่น่าเชื่อถือ ดังตัวอย่างต่อไปนี้
- สัญญาณมาจากเซิร์ฟเวอร์ที่ขัดข้องเมื่อมีภาระงานหนักใช่ไหม
- สัญญาณนี้มาจากมนุษย์ที่ลาพักร้อนของทุกเดือนสิงหาคมใช่ไหม
- ระบบที่คำนวณข้อมูลอินพุตของโมเดลของคุณมีการเปลี่ยนแปลงหรือไม่ หากเป็นเช่นนั้น ให้ทำดังนี้
- ทำบ่อยแค่ไหน
- คุณจะรู้ได้อย่างไรว่าระบบดังกล่าวมีการเปลี่ยนแปลงเมื่อใด
พิจารณาสร้างสำเนาข้อมูลที่คุณได้รับจาก
จากต้นทางถึงปลายทาง จากนั้น ไปยังอัปสตรีมเวอร์ชันถัดไปเท่านั้น
เมื่อคุณมั่นใจว่าจะปลอดภัย
โมเดลของคุณเป็นส่วนหนึ่งของลูปความคิดเห็นไหม
บางครั้งโมเดลอาจส่งผลต่อข้อมูลการฝึกของตัวเอง ตัวอย่างเช่น พารามิเตอร์
ผลลัพธ์ที่ได้จากโมเดลบางส่วนก็กลายเป็นอินพุต (ทั้งทางตรงและทางอ้อม)
ลงในโมเดลเดียวกัน
บางครั้งโมเดลหนึ่งอาจส่งผลต่อโมเดลอื่น ตัวอย่างเช่น ลองพิจารณา
ในการคาดการณ์ราคาหุ้น
- รูปแบบ A ซึ่งเป็นโมเดลการคาดการณ์ที่ไม่ดี
- รูปแบบ ข
เนื่องจากรุ่น A มีข้อบกพร่อง จึงตัดสินใจซื้อหุ้นในสต็อก X โดยไม่ได้ตั้งใจ
การซื้อเหล่านั้นทำให้หุ้น X มีราคาสูงขึ้น รูปแบบ B ใช้ราคา
ของคลัง X เป็นฟีเจอร์อินพุต ดังนั้นโมเดล B อาจเป็นเท็จ
เกี่ยวกับมูลค่าของหุ้น X โมเดล B จึงสามารถ
ซื้อหรือขายหุ้นของหุ้น X ตามพฤติกรรมที่มีข้อบกพร่องของรุ่น A
พฤติกรรมของโมเดล B ก็อาจส่งผลต่อโมเดล A ซึ่งอาจทริกเกอร์
ดอกทิวลิปหรือสไลด์โชว์
หุ้นของบริษัท X
แบบฝึกหัด: ตรวจสอบความเข้าใจ
รูปแบบ 3 ข้อใดต่อไปนี้มีความเสี่ยงต่อ
การเก็บฟีดแบ็กมาแก้ไข
โมเดลการคาดการณ์การจราจรซึ่งคาดการณ์การจราจรที่ติดขัดเมื่อออกจากทางหลวง
ใกล้ชายหาด โดยใช้จำนวนผู้คนที่ชายหาดมาเป็นหนึ่งในคุณลักษณะ
นักท่องเที่ยวที่ชอบชายหาดบางคนมีแนวโน้มที่จะวางแผนการเข้าชม
การคาดการณ์ หากมีฝูงชนติดชายหาดจำนวนมากและคาดการณ์ว่าการจราจรจะหนาแน่น
ทำงานหนัก หลายคนอาจวางแผนทางเลือก อาจทำให้ชายหาดแย่ลง
ส่งผลให้มีการคาดการณ์การจราจรเบาบางลง ซึ่งอาจทำให้
ผู้เข้าร่วมที่เพิ่มขึ้น และวงจรจะเกิดขึ้นซ้ำๆ
โมเดลแนะนำหนังสือที่แนะนำนิยายที่ผู้ใช้อาจชอบ
ตามความนิยม (เช่น จำนวนครั้งที่มีการสั่งซื้อหนังสือ
ซื้อแล้ว)
หนังสือแนะนำมีแนวโน้มที่จะกระตุ้นการซื้อ และ
ข้อมูลยอดขายเพิ่มเติมจะถูกป้อนกลับไปยังโมเดลเป็นอินพุต
ทำให้มีแนวโน้มที่จะแนะนำหนังสือเล่มเดียวกันนี้
ในอนาคต
โมเดลการจัดอันดับมหาวิทยาลัยที่ให้คะแนนโรงเรียนบางส่วนตาม
การเลือก - เปอร์เซ็นต์ของนักเรียนที่เลือกใช้
ยอมรับ
การจัดอันดับของโมเดลอาจเพิ่มความสนใจให้ข้อเสนอคะแนนสูงสุด
สถานศึกษาจำนวนมากขึ้น เพื่อเพิ่มปริมาณใบสมัคร หาก
สถานศึกษาจะยังคงเปิดรับนักเรียนจำนวนเท่าเดิม การคัดเลือก
(เปอร์เซ็นต์ของนักเรียนที่เข้าเรียนจะลดลง) ช่วงเวลานี้
จะช่วยเสริมสร้างโรงเรียนเหล่านี้ ซึ่งเป็นการจัดอันดับ
ความสนใจของนักเรียน/นักศึกษาในอนาคต และอื่นๆ
โมเดลผลการเลือกตั้งที่คาดการณ์ผู้ชนะ
การแข่งขันของนายกเทศมนตรีด้วยการสำรวจผู้มีสิทธิเลือกตั้ง 2% หลังจากปิดคูหาเลือกตั้งแล้ว
หากโมเดลไม่เผยแพร่การคาดการณ์จนกว่าแบบสำรวจจะจบลง
ปิดแล้ว การคาดการณ์ว่าจะมีผลกระทบต่อผู้มีสิทธิเลือกตั้งหรือไม่
พฤติกรรมของคุณ
โมเดลมูลค่าที่พักอาศัยซึ่งคาดการณ์ราคาบ้านโดยใช้
ขนาด (พื้นที่เป็นตารางเมตร) จำนวนห้องนอน และสถานที่ตั้งทางภูมิศาสตร์
เป็นฟีเจอร์
ไม่สามารถเปลี่ยนตำแหน่งของบ้านอย่างรวดเร็วได้
หรือจำนวนห้องนอนตามการคาดการณ์ราคา
ทำให้ไม่มีการเก็บความคิดเห็น อย่างไรก็ตาม อาจมี
ความสัมพันธ์ระหว่างขนาดและจำนวนห้องนอน (บ้านขนาดใหญ่
มักจะมีห้องมากกว่า) ซึ่งอาจต้องแยกเป็นส่วนๆ
รูปแบบแอตทริบิวต์ใบหน้าที่จะตรวจจับว่าบุคคลกำลังยิ้มอยู่หรือไม่
ในภาพถ่าย ซึ่งได้รับการฝึกเป็นประจำในฐานข้อมูลภาพถ่ายจากคลังภาพ
ซึ่งมีการอัปเดตโดยอัตโนมัติทุกเดือน
ที่นี่ไม่มีลูปความคิดเห็น เนื่องจากการคาดการณ์โมเดลไม่มี
ผลกระทบต่อฐานข้อมูลรูปภาพ แต่การกำหนดเวอร์ชันอินพุต
ข้อมูลเป็นเรื่องน่ากังวล เพราะการอัปเดต
รายเดือนเหล่านี้
มีผลกระทบที่ไม่คาดคิดต่อโมเดล