เกณฑ์และเมทริกซ์ความสับสน

สมมติว่าคุณมีโมเดลการถดถอยแบบโลจิสติกส์สำหรับการตรวจหาอีเมลสแปมซึ่งคาดการณ์ค่าระหว่าง 0 ถึง 1 ซึ่งแสดงความน่าจะเป็นที่อีเมลหนึ่งๆ จะเป็นสแปม การคาดคะเน 0.50 หมายถึงความน่าจะเป็น 50% ที่อีเมลจะเป็นสแปม การคาดคะเน 0.75 หมายถึงความน่าจะเป็น 75% ที่อีเมลจะเป็นสแปม และอื่นๆ

คุณต้องการใช้งานโมเดลนี้ในแอปพลิเคชันอีเมลเพื่อกรองสแปมไว้ในโฟลเดอร์อีเมลแยกต่างหาก แต่คุณจะต้องแปลงเอาต์พุตตัวเลขดิบของโมเดล (เช่น 0.75) ออกเป็น 2 หมวดหมู่ ได้แก่ "สแปม" หรือ "ไม่ใช่สแปม"

หากต้องการทําการเปลี่ยนรูปแบบนี้ ให้เลือกความน่าจะเป็นเกณฑ์ที่เรียกว่าเกณฑ์การจัดประเภท จากนั้นระบบจะกําหนดตัวอย่างที่มีความน่าจะเป็นสูงกว่าเกณฑ์เป็นคลาสที่เป็นบวก ซึ่งเป็นคลาสที่คุณกําลังทดสอบ (ในที่นี้คือ spam) และกำหนดตัวอย่างที่มีความน่าจะเป็นต่ำกว่าเป็นคลาสที่เป็นลบ ซึ่งเป็นคลาสทางเลือก (ในที่นี้คือ not spam)

คลิกที่นี่เพื่อดูรายละเอียดเพิ่มเติมเกี่ยวกับเกณฑ์การจัดประเภท

คุณอาจสงสัยว่าจะเกิดอะไรขึ้นหากคะแนนที่คาดการณ์เท่ากับเกณฑ์การจัดประเภท (เช่น คะแนน 0.5 โดยที่เกณฑ์การจัดประเภทเท่ากับ 0.5 ด้วย) การจัดการสำหรับกรณีนี้ขึ้นอยู่กับการใช้งานที่เลือกสำหรับโมเดลการจัดประเภท ไลบรารี Keras จะคาดการณ์คลาสเชิงลบหากคะแนนและเกณฑ์เท่ากัน แต่เครื่องมือ/เฟรมเวิร์กอื่นๆ อาจจัดการเคสนี้แตกต่างกัน

สมมติว่าโมเดลให้คะแนนอีเมลหนึ่งเป็น 0.99 โดยคาดการณ์ว่าอีเมลนั้นมีโอกาส 99% ที่จะเป็นจดหมายขยะ และอีกอีเมลหนึ่งเป็น 0.51 โดยคาดการณ์ว่าอีเมลนั้นมีโอกาส 51% ที่จะเป็นจดหมายขยะ หากตั้งค่าเกณฑ์การจัดประเภทเป็น 0.5 โมเดลจะจัดประเภทอีเมลทั้ง 2 รายการว่าเป็นจดหมายขยะ หากคุณตั้งค่าเกณฑ์เป็น 0.95 จะมีเพียงอีเมลที่มีคะแนน 0.99 เท่านั้นที่จัดว่าเป็นจดหมายขยะ

แม้ว่า 0.5 อาจดูเหมือนเกณฑ์ที่เข้าใจง่าย แต่ก็ไม่เหมาะในกรณีที่ต้นทุนของการแยกประเภทที่ไม่ถูกต้องประเภทหนึ่งสูงกว่าอีกประเภทหนึ่ง หรือในกรณีที่คลาสไม่สมดุล หากมีอีเมลเพียง 0.01% ที่เป็นจดหมายขยะ หรือการส่งอีเมลโดยชอบธรรม อย่างไม่ถูกต้องนั้นแย่กว่าการปล่อยให้สแปมเข้าสู่กล่องจดหมาย การติดป้ายกำกับอะไรก็ได้ที่โมเดลพิจารณาว่าอย่างน้อย 50% มีแนวโน้มที่จะเป็นสแปม เนื่องจากสแปมจะก่อให้เกิดผลลัพธ์ที่ไม่พึงประสงค์

เมตริกความสับสน

คะแนนความน่าจะเป็นไม่ใช่ความจริงหรือข้อมูลพื้นฐาน ผลลัพธ์แต่ละรายการจากตัวแยกประเภทแบบไบนารีมีผลลัพธ์ที่เป็นไปได้ 4 แบบ สําหรับตัวอย่างตัวแยกประเภทสแปม หากคุณจัดวางข้อมูลจริงเป็นคอลัมน์และการคาดการณ์ของโมเดลเป็นแถว ตารางต่อไปนี้ซึ่งเรียกว่าเมทริกซ์ความสับสนจะแสดงผลลัพธ์

ผลบวกจริง ลบจริง
ผลบวกที่คาดการณ์ True Positive (TP): อีเมลที่เป็นสแปมที่จัดประเภทเป็นอีเมลสแปมอย่างถูกต้อง ข้อความเหล่านี้คือจดหมายขยะซึ่งระบบส่งไปยังโฟลเดอร์จดหมายขยะโดยอัตโนมัติ การตรวจพบที่ผิดพลาด (FP): อีเมลที่ไม่ใช่จดหมายขยะแต่ได้รับการจัดประเภทว่าเป็นจดหมายขยะ อีเมลเหล่านี้เป็นอีเมลที่ถูกต้องซึ่งปรากฏในโฟลเดอร์จดหมายขยะ
เชิงลบที่คาดการณ์ ผลลบลวง (FN): อีเมลสแปมที่จัดประเภทไม่ถูกต้องว่าเป็นไม่ใช่สแปม ซึ่งเป็นอีเมลขยะที่ตัวกรองจดหมายขยะไม่ได้ดักจับ จึงส่งเข้ามายังกล่องจดหมาย True negative (TN): อีเมลที่ไม่ใช่สแปมซึ่งได้รับการจัดประเภทอย่างถูกต้องว่าไม่ใช่สแปม อีเมลเหล่านี้เป็นอีเมลที่ถูกต้องซึ่งส่งไปยังกล่องจดหมายโดยตรง

โปรดทราบว่าผลรวมในแต่ละแถวแสดงผลบวกที่คาดการณ์ทั้งหมด (TP + FP) และผลลบที่คาดการณ์ทั้งหมด (FN + TN) โดยไม่คำนึงถึงความถูกต้อง ในขณะเดียวกัน ผลรวมในแต่ละคอลัมน์จะให้ผลบวกจริงทั้งหมด (TP + FN) และผลลบจริงทั้งหมด (FP + TN) โดยไม่คำนึงถึงการจัดประเภทโมเดล

เมื่อผลรวมของรายการเชิงบวกจริงไม่ได้ใกล้เคียงกับผลรวมของรายการเชิงลบจริง แสดงว่าชุดข้อมูลไม่สมดุล อินสแตนซ์ของชุดข้อมูลที่ไม่สมดุลอาจเป็นชุดรูปภาพเมฆหลายพันรูป โดยเมฆประเภทที่หายากซึ่งคุณสนใจ เช่น เมฆรูปเกลียว ปรากฏเพียงไม่กี่ครั้ง

ผลกระทบของเกณฑ์ต่อผลบวกจริงและผลลบลวง

เกณฑ์ที่ต่างกันมักจะทำให้จำนวนผลบวกจริงและเท็จแตกต่างกัน รวมถึงผลลบจริงและเท็จ วิดีโอต่อไปนี้อธิบายสาเหตุของปัญหานี้

ลองเปลี่ยนเกณฑ์ด้วยตนเอง

วิดเจ็ตนี้มีชุดข้อมูลของเล่น 3 รายการ ได้แก่

  • แยก ซึ่งโดยทั่วไปแล้วตัวอย่างเชิงบวกและตัวอย่างเชิงลบจะแยกแยะกันได้ดี โดยตัวอย่างเชิงบวกส่วนใหญ่จะมีคะแนนสูงกว่าตัวอย่างเชิงลบ
  • ไม่แยก โดยที่ตัวอย่างเชิงบวกจำนวนมากมีคะแนนต่ำกว่าตัวอย่างเชิงลบ และตัวอย่างเชิงลบจำนวนมากมีคะแนนสูงกว่าตัวอย่างเชิงบวก
  • ไม่สมดุล มีตัวอย่างของคลาสเชิงบวกเพียงไม่กี่รายการ

ทดสอบความเข้าใจ

1. ลองจินตนาการถึงโมเดลการจัดประเภทฟิชชิงหรือมัลแวร์ โดยเว็บไซต์ฟิชชิงและมัลแวร์อยู่ในคลาสที่มีป้ายกำกับ 1 (จริง) และเว็บไซต์ที่ไม่เป็นอันตรายอยู่ในคลาสที่มีป้ายกำกับ 0 (เท็จ) โมเดลนี้จัดประเภทเว็บไซต์ที่ถูกต้องเป็นมัลแวร์อย่างไม่ถูกต้อง ฟีเจอร์นี้เรียกว่าอะไร
ผลบวกลวง
มีการจัดประเภทตัวอย่างเชิงลบ (เว็บไซต์ที่ถูกต้อง) อย่างไม่ถูกต้องเป็นตัวอย่างเชิงบวก (เว็บไซต์มัลแวร์)
ผลบวกจริง
ผลบวกที่แท้จริงคือเว็บไซต์ที่มีมัลแวร์ซึ่งจัดประเภทว่าเป็นมัลแวร์อย่างถูกต้อง
ผลลบลวง
ผลลบที่ไม่ถูกต้องคือเว็บไซต์มัลแวร์ที่จัดประเภทอย่างไม่ถูกต้องว่าเป็นเว็บไซต์ที่ถูกต้อง
ผลลบจริง
ผลลัพธ์เชิงลบที่แท้จริงคือเว็บไซต์ที่ถูกกฎหมายซึ่งจัดประเภทอย่างถูกต้องว่าเป็นเว็บไซต์ที่ถูกกฎหมาย
2. โดยทั่วไป จะเกิดอะไรขึ้นกับจํานวนผลบวกลวงเมื่อเกณฑ์การจัดประเภทเพิ่มขึ้น แล้วผลบวกจริงล่ะ ทดลองใช้แถบเลื่อนด้านบน
ทั้งผลบวกจริงและผลบวกลวงจะลดลง
เมื่อเกณฑ์เพิ่มขึ้น โมเดลมีแนวโน้มที่จะคาดการณ์ผลบวกโดยรวมน้อยลง ทั้งที่เป็นความจริงและเท็จ ตัวแยกประเภทจดหมายขยะที่มีเกณฑ์ .9999 จะติดป้ายกำกับอีเมลว่าเป็นจดหมายขยะก็ต่อเมื่อพิจารณาแล้วว่าการแยกประเภทมีแนวโน้มอย่างน้อย 99.99% ซึ่งหมายความว่ามีแนวโน้มต่ำมากที่จะติดป้ายกำกับอีเมลที่ถูกต้องว่าเป็นจดหมายขยะ แต่ก็อาจพลาดจดหมายขยะจริงด้วย
ทั้งผลบวกจริงและผลบวกลวงจะเพิ่มขึ้น
ใช้แถบเลื่อนด้านบนเพื่อลองตั้งค่าเกณฑ์เป็น 0.1 แล้วลากเป็น 0.9 จะเกิดอะไรขึ้นกับจํานวนผลบวกลวงและผลบวกจริง
ผลบวกจริงเพิ่มขึ้น ผลบวกลวงลดลง
ใช้แถบเลื่อนด้านบน ลองตั้งค่าเกณฑ์เป็น 0.1 จากนั้นลากไปที่ 0.9 จะเกิดอะไรขึ้นกับจำนวนผลบวกลวงและผลบวกจริง
3. โดยทั่วไป จะเกิดอะไรขึ้นกับจํานวนผลลบที่ผิดพลาดเมื่อเกณฑ์การจัดประเภทเพิ่มขึ้น แล้วผลลบจริงล่ะ ลองใช้แถบเลื่อนด้านบน
ทั้งผลลบจริงและเท็จเพิ่มขึ้น
เมื่อเกณฑ์เพิ่มขึ้น โมเดลก็มีแนวโน้มที่จะคาดการณ์ผลลบโดยรวมมากขึ้น ทั้งที่เป็นจริงและเท็จ เมื่อเกณฑ์แล้ว อีเมลเกือบทั้งหมด ทั้งจดหมายขยะและไม่ใช่จดหมายขยะจะได้รับการจัดประเภทว่าไม่ใช่จดหมายขยะ
ทั้งผลบวกลวงและผลลบลวงจะลดลง
ใช้แถบเลื่อนด้านบนเพื่อลองตั้งค่าเกณฑ์เป็น 0.1 แล้วลากเป็น 0.9 จะเกิดอะไรขึ้นกับจํานวนผลลบเท็จและผลลบจริง
ผลลบจริงเพิ่มขึ้น ผลลบลวงลดลง
ใช้แถบเลื่อนด้านบนเพื่อลองตั้งค่าเกณฑ์เป็น 0.1 แล้วลากเป็น 0.9 จะเกิดอะไรขึ้นกับจํานวนผลลบเท็จและผลลบจริง