เกณฑ์และเมทริกซ์ความสับสน

สมมติว่าคุณมีโมเดลการถดถอยแบบโลจิสติกส์สำหรับการตรวจหาอีเมลสแปมที่ คาดการณ์ค่าระหว่าง 0 ถึง 1 ซึ่งแสดงถึงความน่าจะเป็นที่กำหนดให้ อีเมลเป็นสแปม การคาดการณ์ของ 0.50 หมายความว่ามีแนวโน้ม 50% ที่อีเมลนั้นๆ จดหมายขยะ การคาดการณ์ที่มีค่าเท่ากับ 0.75 หมายความว่ามีแนวโน้ม 75% ที่อีเมลดังกล่าวเป็นสแปม เป็นต้น

คุณต้องการใช้งานโมเดลนี้ในแอปพลิเคชันอีเมลเพื่อกรองสแปม โฟลเดอร์อีเมลแยกต่างหาก แต่การจะทำเช่นนั้น คุณต้องแปลงข้อมูลดิบของโมเดล เอาต์พุตที่เป็นตัวเลข (เช่น 0.75) เป็น 1 ใน 2 หมวดหมู่ ได้แก่ "สแปม" หรือ "ไม่" สแปม"

ในการทำ Conversion นี้ คุณจะต้องเลือกความน่าจะเป็นที่เป็นเกณฑ์ ซึ่งเรียกว่า เกณฑ์การแยกประเภท จากนั้นระบบจะกำหนดตัวอย่างที่มีความเป็นไปได้สูงกว่าค่าเกณฑ์ ไปยังคลาสเชิงบวก ชั้นเรียนที่คุณกำลังทดสอบ (ที่นี่ spam) ตัวอย่างที่มี ความน่าจะเป็นจะกำหนดไว้สำหรับคลาสเชิงลบ คลาสอื่น (ที่นี่ not spam)

คลิกที่นี่เพื่อดูรายละเอียดเพิ่มเติมเกี่ยวกับเกณฑ์การจัดประเภท

คุณอาจสงสัยว่าจะเกิดอะไรขึ้นหากคะแนนที่คาดการณ์เท่ากับ เกณฑ์การจัดประเภท (เช่น คะแนน 0.5 โดยที่ เกณฑ์การจัดประเภทจะเท่ากับ 0.5 ด้วย) การจัดการสำหรับเคสนี้ ขึ้นอยู่กับการใช้งานเฉพาะที่เลือกสำหรับการแยกประเภท โมเดล ตัวอย่างเช่น Keras ไลบรารีจะคาดการณ์คลาสลบหากคะแนนและเกณฑ์ เท่ากัน แต่เครื่องมือ/เฟรมเวิร์กอื่นๆ อาจจัดการกับกรณีนี้ได้ แตกต่างกัน

ตัวอย่างเช่น สมมติว่าโมเดลให้คะแนนอีเมลหนึ่งเป็น 0.99 โดยคาดการณ์ว่า อีเมลนั้นมีโอกาส 99% ที่จะเป็นจดหมายขยะ และอีเมลอีกฉบับ 0.51, การคาดการณ์มีโอกาส 51% ที่จะเป็นสแปม หากคุณตั้งค่า เกณฑ์การจัดประเภทเป็น 0.5 โมเดลจะจัดประเภทอีเมลทั้งสองเป็น จดหมายขยะ หากคุณกำหนดเกณฑ์เป็น 0.95 จะมีเฉพาะคะแนนอีเมล 0.99 เท่านั้น อาจถูกจัดประเภทว่าเป็นสแปม

แม้ว่าค่า 0.5 อาจดูเป็นเกณฑ์ที่ใช้ง่าย แต่ไม่ใช่ความคิดที่ดีหาก ประเภทของการจัดประเภทที่ไม่ถูกต้องมีต้นทุนสูงกว่าประเภทอื่น หรือหาก คลาสมีความไม่สมดุล หากมีอีเมลเพียง 0.01% เป็นจดหมายขยะหรือมีการส่งผิด อีเมลที่ถูกต้องนั้นแย่กว่าการส่งสแปมเข้าสู่กล่องจดหมาย ติดป้ายกำกับทุกสิ่งที่โมเดลพิจารณาว่าอย่างน้อย 50% มีแนวโน้มที่จะเป็นสแปม เนื่องจากสแปมจะก่อให้เกิดผลลัพธ์ที่ไม่พึงประสงค์

เมตริกความสับสน

คะแนนความน่าจะเป็นไม่ใช่ความเป็นจริง หรือ ข้อมูลจากการสังเกตการณ์โดยตรง ผลลัพธ์แต่ละรายการจากตัวแยกประเภทแบบไบนารีมีผลลัพธ์ที่เป็นไปได้ 4 รายการ สำหรับตัวอย่างตัวแยกประเภทสแปม ถ้าคุณแสดงข้อมูลที่ถูกต้องเป็นคอลัมน์ และการคาดการณ์ของโมเดลเป็นแถว ตารางต่อไปนี้เรียกว่า เมทริกซ์ความสับสน คือ ผลลัพธ์:

ผลบวกจริง ผลลบจริง
คาดการณ์ไว้ในแง่บวก ผลบวกจริง (TP): สแปม ที่มีการจัดประเภทอีเมลเป็นจดหมายขยะอย่างถูกต้อง นี่คือข้อความสแปม ไปยังโฟลเดอร์จดหมายขยะโดยอัตโนมัติ ผลบวกลวง (FP): อีเมลที่ไม่ใช่สแปมที่มีการจัดประเภทผิดเป็น จดหมายขยะ นี่คืออีเมลที่ถูกต้องซึ่ง อยู่ในโฟลเดอร์จดหมายขยะ
ค่าลบที่คาดการณ์ เท็จ เชิงลบ (FN): อีเมลสแปมมีการจัดประเภทผิดว่าไม่ใช่สแปม นี่เป็นสแปม อีเมลที่ไม่ใช่ ที่ตัวกรองจดหมายขยะดักไว้และเข้าไปยังกล่องจดหมาย ผลลบจริง (TN): A อีเมลที่ไม่ใช่สแปมมีการจัดประเภทอย่างถูกต้องว่าไม่ใช่สแปม นี่คืออีเมลที่ถูกต้องซึ่งส่ง โดยตรงในกล่องจดหมาย

โปรดสังเกตว่าจำนวนรวมในแต่ละแถวจะให้ค่าบวกที่คาดการณ์ไว้ทั้งหมด (TP + FP) และ ค่าลบที่คาดการณ์ทั้งหมด (FN + TN) โดยไม่คำนึงถึงความถูกต้อง ผลรวมในแต่ละรายการ ในขณะเดียวกัน จะให้ผลบวกจริงทั้งหมด (TP + FN) และผลลบจริงทั้งหมด (FP + TN) โดยไม่คำนึงถึงการจัดประเภทโมเดล

เมื่อยอดรวมของผลบวกจริงไม่ได้ใกล้เคียงกับยอดรวมจริง ชุดข้อมูลจะตรงกัน ไม่สมดุล อินสแตนซ์ ของชุดข้อมูลที่ไม่สมดุลกันอาจเป็นชุดภาพเมฆหลายพันภาพ กลุ่มเมฆหายากที่คุณสนใจ เช่น กลุ่มเมฆขนาดใหญ่ ปรากฏเฉพาะ 2-3 ครั้ง

ผลกระทบของเกณฑ์ต่อผลบวกจริงและผลลบลวง

โดยปกติแล้วเกณฑ์ที่ต่างกันจะทำให้จำนวนค่าจริงและเท็จแตกต่างกัน ผลบวกและผลลบจริงและเท็จ วิดีโอต่อไปนี้จะอธิบายสาเหตุ กรณีที่ต้องการ

ลองเปลี่ยนเกณฑ์ด้วยตนเอง

วิดเจ็ตนี้มีชุดข้อมูลของเล่น 3 รายการ ได้แก่

  • แยก โดยโดยทั่วไป ตัวอย่างเชิงบวกและตัวอย่างเชิงลบ แตกต่างกัน โดยตัวอย่างในเชิงบวกส่วนใหญ่มีคะแนนสูงกว่า ตัวอย่างเชิงลบ
  • ไม่แยก โดยที่ตัวอย่างเชิงบวกจำนวนมากมีคะแนนต่ำกว่า ตัวอย่างเชิงลบ และตัวอย่างเชิงลบจำนวนมากมีคะแนนสูงกว่า ตัวอย่างเชิงบวก
  • ไม่สมดุล มีตัวอย่างชั้นเรียนเชิงบวกเพียงไม่กี่ตัวอย่าง

ตรวจสอบความเข้าใจ

1. ลองนึกภาพโมเดลการจัดประเภทฟิชชิงหรือมัลแวร์ที่ เว็บไซต์ฟิชชิงและมัลแวร์จัดอยู่ในคลาสที่มีป้ายกำกับ 1 (จริง) และ เว็บไซต์ที่ไม่เป็นอันตรายจะอยู่ในหมวดหมู่ 0 (เท็จ) โมเดลนี้ จัดประเภทเว็บไซต์ที่ถูกต้องว่าเป็นมัลแวร์โดยไม่ได้ตั้งใจ สิ่งนี้เรียกว่าอะไร
ผลบวกลวง
ตัวอย่างในเชิงลบ (เว็บไซต์ที่ถูกต้อง) เป็นตัวอย่างที่ไม่ถูกต้อง จัดว่าเป็นตัวอย่างเชิงบวก (เว็บไซต์มัลแวร์)
ผลบวกที่แท้จริง
ผลบวกที่แท้จริงคือไซต์มัลแวร์อย่างถูกต้อง จัดว่าเป็นมัลแวร์แล้ว
ผลลบลวง
ผลลบลวงจะเป็นไซต์ที่มีมัลแวร์อย่างไม่ถูกต้อง ได้รับการจัดประเภทเป็นเว็บไซต์ที่ถูกต้องตามกฎหมาย
ผลลบจริง
ผลลบจริงจะเป็นเว็บไซต์ที่ถูกต้องตามกฎหมาย ได้รับการจัดประเภทเป็นเว็บไซต์ที่ถูกต้องตามกฎหมาย
2. โดยทั่วไปแล้ว จะเกิดอะไรขึ้นกับจำนวนผลบวกลวงเมื่อ เกณฑ์การจัดประเภทเพิ่มขึ้นหรือไม่ แล้วผลบวกจริงล่ะ เวอร์ชันทดลอง โดยใช้แถบเลื่อนด้านบน
ทั้งผลบวกจริงและผลบวกลวงจะลดลง
โมเดลมีแนวโน้มที่จะคาดการณ์เมื่อเกณฑ์เพิ่มขึ้น ผลบวกโดยรวมน้อยลง ทั้งที่เป็นความจริงและเท็จ เครื่องมือแยกประเภทสแปมที่มี เกณฑ์ของ .9999 จะติดป้ายกำกับอีเมลว่าเป็นจดหมายขยะก็ต่อเมื่อ ให้มีโอกาสอย่างน้อย 99.99% ซึ่งหมายความว่า ก็มีแนวโน้มที่จะไม่ติดป้ายกำกับอีเมลที่ถูกต้อง แต่อาจไม่ได้รับป้ายกำกับฉบับจริง อีเมลสแปม
ทั้งผลบวกจริงและผลบวกลวงเพิ่มขึ้น
ใช้แถบเลื่อนด้านบน ลองตั้งเกณฑ์เป็น 0.1 แล้วลากไปที่ 0.9 จะเกิดอะไรขึ้นกับจำนวนผลบวกลวง และผลบวกที่แท้จริง
ผลบวกจริงเพิ่มขึ้น ผลบวกลวงลดลง
ใช้แถบเลื่อนด้านบน ลองตั้งเกณฑ์เป็น 0.1 แล้วลากไปที่ 0.9 จะเกิดอะไรขึ้นกับจำนวนผลบวกลวง และผลบวกที่แท้จริง
3. โดยทั่วไปแล้ว จะเกิดอะไรขึ้นกับจำนวนผลลบลวงเมื่อฟังก์ชัน เกณฑ์การจัดประเภทเพิ่มขึ้นหรือไม่ แล้วผลลบจริงล่ะ เวอร์ชันทดลอง โดยใช้แถบเลื่อนด้านบน
ทั้งผลลบจริงและเท็จเพิ่มขึ้น
โมเดลมีแนวโน้มที่จะคาดการณ์เมื่อเกณฑ์เพิ่มขึ้น โดยรวมมากขึ้น ทั้งจริงและเท็จ เมื่อมีเกณฑ์สูงมาก อีเมลเกือบทั้งหมด ทั้งจดหมายขยะและไม่ใช่จดหมายขยะจะถูกจัดประเภทว่าไม่ใช่จดหมายขยะ
ทั้งผลลบจริงและเท็จจะลดลง
ใช้แถบเลื่อนด้านบน ลองตั้งเกณฑ์เป็น 0.1 แล้วลากไปที่ 0.9 จะเกิดอะไรขึ้นกับจำนวนผลลบลวง และผลลบที่แท้จริง
ผลลบจริงเพิ่มขึ้น ผลลบลวงจะลดลง
ใช้แถบเลื่อนด้านบน ลองตั้งเกณฑ์เป็น 0.1 แล้วลากไปที่ 0.9 จะเกิดอะไรขึ้นกับจำนวนผลลบลวง และผลลบที่แท้จริง