สมมติว่าคุณมีโมเดลการถดถอยแบบโลจิสติกส์สำหรับการตรวจหาอีเมลสแปมซึ่งคาดการณ์ค่าระหว่าง 0 ถึง 1 ซึ่งแสดงความน่าจะเป็นที่อีเมลหนึ่งๆ จะเป็นสแปม การคาดคะเน 0.50 หมายถึงความน่าจะเป็น 50% ที่อีเมลจะเป็นสแปม การคาดคะเน 0.75 หมายถึงความน่าจะเป็น 75% ที่อีเมลจะเป็นสแปม และอื่นๆ
คุณต้องการใช้งานโมเดลนี้ในแอปพลิเคชันอีเมลเพื่อกรองสแปมไว้ในโฟลเดอร์อีเมลแยกต่างหาก แต่คุณจะต้องแปลงเอาต์พุตตัวเลขดิบของโมเดล (เช่น 0.75
) ออกเป็น 2 หมวดหมู่ ได้แก่ "สแปม" หรือ "ไม่ใช่สแปม"
หากต้องการทําการเปลี่ยนรูปแบบนี้ ให้เลือกความน่าจะเป็นเกณฑ์ที่เรียกว่าเกณฑ์การจัดประเภท
จากนั้นระบบจะกําหนดตัวอย่างที่มีความน่าจะเป็นสูงกว่าเกณฑ์เป็นคลาสที่เป็นบวก ซึ่งเป็นคลาสที่คุณกําลังทดสอบ (ในที่นี้คือ spam
) และกำหนดตัวอย่างที่มีความน่าจะเป็นต่ำกว่าเป็นคลาสที่เป็นลบ ซึ่งเป็นคลาสทางเลือก (ในที่นี้คือ not spam
)
คลิกที่นี่เพื่อดูรายละเอียดเพิ่มเติมเกี่ยวกับเกณฑ์การจัดประเภท
คุณอาจสงสัยว่าจะเกิดอะไรขึ้นหากคะแนนที่คาดการณ์เท่ากับเกณฑ์การจัดประเภท (เช่น คะแนน 0.5 โดยที่เกณฑ์การจัดประเภทเท่ากับ 0.5 ด้วย) การจัดการสำหรับกรณีนี้ขึ้นอยู่กับการใช้งานที่เลือกสำหรับโมเดลการจัดประเภท ไลบรารี Keras จะคาดการณ์คลาสเชิงลบหากคะแนนและเกณฑ์เท่ากัน แต่เครื่องมือ/เฟรมเวิร์กอื่นๆ อาจจัดการเคสนี้แตกต่างกัน
สมมติว่าโมเดลให้คะแนนอีเมลหนึ่งเป็น 0.99 โดยคาดการณ์ว่าอีเมลนั้นมีโอกาส 99% ที่จะเป็นจดหมายขยะ และอีกอีเมลหนึ่งเป็น 0.51 โดยคาดการณ์ว่าอีเมลนั้นมีโอกาส 51% ที่จะเป็นจดหมายขยะ หากตั้งค่าเกณฑ์การจัดประเภทเป็น 0.5 โมเดลจะจัดประเภทอีเมลทั้ง 2 รายการว่าเป็นจดหมายขยะ หากคุณตั้งค่าเกณฑ์เป็น 0.95 จะมีเพียงอีเมลที่มีคะแนน 0.99 เท่านั้นที่จัดว่าเป็นจดหมายขยะ
แม้ว่า 0.5 อาจดูเหมือนเกณฑ์ที่เข้าใจง่าย แต่ก็ไม่เหมาะในกรณีที่ต้นทุนของการแยกประเภทที่ไม่ถูกต้องประเภทหนึ่งสูงกว่าอีกประเภทหนึ่ง หรือในกรณีที่คลาสไม่สมดุล หากมีอีเมลเพียง 0.01% ที่เป็นจดหมายขยะ หรือการส่งอีเมลโดยชอบธรรม อย่างไม่ถูกต้องนั้นแย่กว่าการปล่อยให้สแปมเข้าสู่กล่องจดหมาย การติดป้ายกำกับอะไรก็ได้ที่โมเดลพิจารณาว่าอย่างน้อย 50% มีแนวโน้มที่จะเป็นสแปม เนื่องจากสแปมจะก่อให้เกิดผลลัพธ์ที่ไม่พึงประสงค์
เมตริกความสับสน
คะแนนความน่าจะเป็นไม่ใช่ความจริงหรือข้อมูลพื้นฐาน ผลลัพธ์แต่ละรายการจากตัวแยกประเภทแบบไบนารีมีผลลัพธ์ที่เป็นไปได้ 4 แบบ สําหรับตัวอย่างตัวแยกประเภทสแปม หากคุณจัดวางข้อมูลจริงเป็นคอลัมน์และการคาดการณ์ของโมเดลเป็นแถว ตารางต่อไปนี้ซึ่งเรียกว่าเมทริกซ์ความสับสนจะแสดงผลลัพธ์
ผลบวกจริง | ลบจริง | |
---|---|---|
ผลบวกที่คาดการณ์ | True Positive (TP): อีเมลที่เป็นสแปมที่จัดประเภทเป็นอีเมลสแปมอย่างถูกต้อง ข้อความเหล่านี้คือจดหมายขยะซึ่งระบบส่งไปยังโฟลเดอร์จดหมายขยะโดยอัตโนมัติ | การตรวจพบที่ผิดพลาด (FP): อีเมลที่ไม่ใช่จดหมายขยะแต่ได้รับการจัดประเภทว่าเป็นจดหมายขยะ อีเมลเหล่านี้เป็นอีเมลที่ถูกต้องซึ่งปรากฏในโฟลเดอร์จดหมายขยะ |
เชิงลบที่คาดการณ์ | ผลลบลวง (FN): อีเมลสแปมที่จัดประเภทไม่ถูกต้องว่าเป็นไม่ใช่สแปม ซึ่งเป็นอีเมลขยะที่ตัวกรองจดหมายขยะไม่ได้ดักจับ จึงส่งเข้ามายังกล่องจดหมาย | True negative (TN): อีเมลที่ไม่ใช่สแปมซึ่งได้รับการจัดประเภทอย่างถูกต้องว่าไม่ใช่สแปม อีเมลเหล่านี้เป็นอีเมลที่ถูกต้องซึ่งส่งไปยังกล่องจดหมายโดยตรง |
โปรดทราบว่าผลรวมในแต่ละแถวแสดงผลบวกที่คาดการณ์ทั้งหมด (TP + FP) และผลลบที่คาดการณ์ทั้งหมด (FN + TN) โดยไม่คำนึงถึงความถูกต้อง ในขณะเดียวกัน ผลรวมในแต่ละคอลัมน์จะให้ผลบวกจริงทั้งหมด (TP + FN) และผลลบจริงทั้งหมด (FP + TN) โดยไม่คำนึงถึงการจัดประเภทโมเดล
เมื่อผลรวมของรายการเชิงบวกจริงไม่ได้ใกล้เคียงกับผลรวมของรายการเชิงลบจริง แสดงว่าชุดข้อมูลไม่สมดุล อินสแตนซ์ของชุดข้อมูลที่ไม่สมดุลอาจเป็นชุดรูปภาพเมฆหลายพันรูป โดยเมฆประเภทที่หายากซึ่งคุณสนใจ เช่น เมฆรูปเกลียว ปรากฏเพียงไม่กี่ครั้ง
ผลกระทบของเกณฑ์ต่อผลบวกจริงและผลลบลวง
เกณฑ์ที่ต่างกันมักจะทำให้จำนวนผลบวกจริงและเท็จแตกต่างกัน รวมถึงผลลบจริงและเท็จ วิดีโอต่อไปนี้อธิบายสาเหตุของปัญหานี้
ลองเปลี่ยนเกณฑ์ด้วยตนเอง
วิดเจ็ตนี้มีชุดข้อมูลของเล่น 3 รายการ ได้แก่
- แยก ซึ่งโดยทั่วไปแล้วตัวอย่างเชิงบวกและตัวอย่างเชิงลบจะแยกแยะกันได้ดี โดยตัวอย่างเชิงบวกส่วนใหญ่จะมีคะแนนสูงกว่าตัวอย่างเชิงลบ
- ไม่แยก โดยที่ตัวอย่างเชิงบวกจำนวนมากมีคะแนนต่ำกว่าตัวอย่างเชิงลบ และตัวอย่างเชิงลบจำนวนมากมีคะแนนสูงกว่าตัวอย่างเชิงบวก
- ไม่สมดุล มีตัวอย่างของคลาสเชิงบวกเพียงไม่กี่รายการ