โมดูลนี้จะแสดงการใช้การถดถอยแบบโลจิสติกส์สําหรับงานการจัดประเภท และดูวิธีประเมินประสิทธิภาพของโมเดลการแยกประเภท
การจำแนกประเภท
การจัดประเภทเทียบกับการเกิดปัญหาซ้ํา
- บางครั้งเราใช้การถดถอยแบบโลจิสติกสําหรับเอาต์พุตของความน่าจะเป็น ซึ่งเป็นการถดถอยใน (0, 1)
- แต่บางครั้ง เราจะใส่เกณฑ์ค่าสําหรับการแยกประเภทไบนารีแบบแยกจากกัน
- ตัวเลือกด้านเกณฑ์เป็นตัวเลือกที่สําคัญ และสามารถปรับแต่งได้
เมตริกการประเมิน: ความถูกต้อง
- เราประเมินโมเดลการจัดประเภทอย่างไร
เมตริกการประเมิน: ความถูกต้อง
- เราประเมินโมเดลการจัดประเภทอย่างไร
- การวัดผลที่เป็นไปได้อย่างหนึ่งคือ ความแม่นยํา
- เศษส่วนของการคาดการณ์ที่เราได้ถูกต้อง
ความถูกต้องอาจทําให้เข้าใจผิด
- ในหลายๆ กรณี ความแม่นยําอาจเป็นเมตริกที่แย่หรือทําให้เข้าใจผิด
- โดยส่วนใหญ่แล้วเมื่อข้อผิดพลาดแต่ละประเภทมีค่าใช้จ่ายแตกต่างกัน
- กรณีทั่วไปรวมถึงความไม่สมดุลของชั้นเรียน เมื่อค่าบวกหรือค่าลบน้อยมาก
เชิงบวกที่เป็นความจริงและผลบวกลวง
- สําหรับปัญหาที่ไม่สมดุลกับชั้นเรียน ให้แยกข้อผิดพลาดประเภทต่างๆ
True Positives เราเรียกมนุษย์ว่าหมาป่าอย่างถูกต้อง เรากอบกู้เมืองนี้ |
False Positives ข้อผิดพลาด: เราเรียก Wolfsfalse อย่างไม่ถูกต้อง ทุกคนหงุดหงิดกับเรา |
False negatives มีหมาตัวหนึ่ง แต่เราไม่พบ มันกินไก่ของเราหมดแล้ว |
คีย์เวิร์ดเชิงลบจริง ไม่มีหมาป่า ไม่ตั้งปลุก ทุกคนปลอดภัย |
เมตริกการประเมิน: ความแม่นยําและความอ่อนไหว
- ความแม่นยํา: (ผลบวกจริง) / (การคาดการณ์ค่าบวกทั้งหมด)
- เมื่อโมเดลบอกว่ามีคลาสที่เป็น "เชิงบวก" ใช่ไหม
- สัญชาติ: โมเดลร้องไห้ว่า "หมาป่า" บ่อยเกินไปใช่ไหม
เมตริกการประเมิน: ความแม่นยําและความอ่อนไหว
- ความแม่นยํา: (ผลบวกจริง) / (การคาดการณ์ค่าบวกทั้งหมด)
- เมื่อโมเดลบอกว่ามีคลาสที่เป็น "เชิงบวก" ใช่ไหม
- สัญชาติ: โมเดลร้องไห้ว่า "หมาป่า" บ่อยเกินไปใช่ไหม
- การจําได้: (ผลบวกจริง) / (ค่าบวกจริงทั้งหมด)
- จากค่าบวกที่เป็นไปได้ทั้งหมด โมเดลระบุได้ถูกต้องกี่รายการ
- สรีระ: พลาดหมาป่าบ้างไหม
เมื่อทําเสร็จแล้ว ให้กดเล่น ▶ เพื่อดําเนินการต่อ
ดูตัวเลือกด้านล่าง
ลองใช้โมเดลการแยกประเภทอีเมลที่แยกอีเมลเป็น 2 หมวดหมู่ ได้แก่ "จดหมายขยะ" หรือ "ไม่ใช่จดหมายขยะ" หากคุณเพิ่มเกณฑ์การจัดประเภท จะเกิดอะไรขึ้นกับความแม่นยํา
เพิ่มขึ้นอย่างแน่นอน
โดยทั่วไป การเพิ่มเกณฑ์การแยกประเภทจะเพิ่มความแม่นยํา แต่ไม่รับประกันว่าจะเพิ่มความแม่นยําแบบเดี่ยวๆ เมื่อเราเพิ่มเกณฑ์
อาจเพิ่มขึ้น
โดยทั่วไป การเพิ่มเกณฑ์การแยกประเภทจะช่วยลดความผิดพลาดที่เป็นเท็จ และเพิ่มความแม่นยํา
อาจลดลง
โดยทั่วไป การเพิ่มเกณฑ์การแยกประเภทจะช่วยลดความผิดพลาดที่เป็นเท็จ และเพิ่มความแม่นยํา
ลดลงแน่นอน
โดยทั่วไป การเพิ่มเกณฑ์การแยกประเภทจะช่วยลดความผิดพลาดที่เป็นเท็จ และเพิ่มความแม่นยํา
เส้นโค้ง ROC
แต่ละจุดคืออัตรา TP และ FP โดยมีเกณฑ์การตัดสินใจหนึ่ง
เมตริกการประเมิน: AUC
- AUC: "พื้นที่ใต้เส้นโค้ง ROC"
เมตริกการประเมิน: AUC
- AUC: "พื้นที่ใต้เส้นโค้ง ROC"
- การตีความ:
- หากเราเลือกค่าบวกแบบสุ่ม และผลลบแบบสุ่ม ความน่าจะเป็นที่โมเดลของฉันจะจัดอันดับตามลําดับที่ถูกต้องคืออะไร
เมตริกการประเมิน: AUC
- AUC: "พื้นที่ใต้เส้นโค้ง ROC"
- การตีความ:
- หากเราเลือกค่าบวกแบบสุ่ม และผลลบแบบสุ่ม ความน่าจะเป็นที่โมเดลของฉันจะจัดอันดับตามลําดับที่ถูกต้องคืออะไร
- สิ่งที่ควรทราบ: วัดประสิทธิภาพแบบรวมตามเกณฑ์การจัดประเภทที่เป็นไปได้ทั้งหมด
การให้น้ําหนักการคาดการณ์
- การคาดการณ์การถดถอยแบบโลจิสติกส์ไม่ควรเป็นกลาง
- ค่าเฉลี่ยของการคาดการณ์ == ค่าเฉลี่ยของการสังเกตการณ์
การให้น้ําหนักการคาดการณ์
- การคาดการณ์การถดถอยแบบโลจิสติกส์ไม่ควรเป็นกลาง
- ค่าเฉลี่ยของการคาดการณ์ == ค่าเฉลี่ยของการสังเกตการณ์
- เสียว
- การให้น้ําหนักพิเศษเพียงอย่างเดียวไม่ถือว่าทุกอย่างในระบบของคุณสมบูรณ์แบบ
- แต่การตรวจสอบความเรียบร้อยเป็นไปด้วยดี
การให้น้ําหนักการคาดการณ์ (ต่อ)
- หากคุณมีอคติ คุณก็มีปัญหา
- หากชุดฟีเจอร์ไม่สมบูรณ์
- มีไปป์ไลน์ไหม
- ตัวอย่างการฝึกที่มีการให้น้ําหนักหรือไม่
- อย่าแก้ไขการให้น้ําหนักพิเศษกับเลเยอร์ของการปรับเทียบ แก้ไขในโมเดล
- ค้นหาอคติในชิ้นส่วนข้อมูล ซึ่งเป็นแนวทางในการปรับปรุง