การจัดประเภท: ROC และ AUC

ส่วนก่อนหน้านี้นำเสนอชุดของเมตริกโมเดล ซึ่งทั้งหมดมีการคำนวณที่ ค่าเกณฑ์การแยกประเภทเดียว แต่ถ้าคุณต้องการประเมินผล คุณภาพโมเดลในทุกเกณฑ์ที่เป็นไปได้ คุณต้องใช้เครื่องมือที่แตกต่างกัน

กราฟของตัวรับสัญญาณสำหรับฟีเจอร์การดำเนินการของรีซีฟเวอร์ (ROC)

กราฟ ROC คือการนำเสนอประสิทธิภาพของโมเดลผ่านเกณฑ์ทั้งหมด ชื่อแบบยาว ลักษณะการดำเนินการของตัวรับ คือการคงไว้ชั่วคราว จากการตรวจจับเรดาร์ในช่วงสงครามโลกครั้งที่ 2

กราฟ ROC วาดโดยการคำนวณอัตราผลบวกจริง (TPR) และอัตราผลบวกลวง (FPR) ในทุกเกณฑ์ที่เป็นไปได้ (ในทางปฏิบัติคือ ช่วงที่เลือก) แล้วสร้างกราฟ TPR ผ่าน FPR เป็นโมเดลที่สมบูรณ์แบบ ซึ่งบางเกณฑ์มี TPR เป็น 1.0 และ FPR เป็น 0.0 แสดงด้วยจุดที่ (0, 1) หากมีการละเว้นเกณฑ์อื่นๆ ทั้งหมด หรือในกรณีต่อไปนี้

รูปที่ 1 กราฟของ TPR (แกน y) เทียบกับ FPR (แกน x) ที่แสดง
            ประสิทธิภาพของโมเดลที่สมบูรณ์แบบ: บรรทัดจาก (0,1) ถึง (1,1)
รูปที่ 1 ROC และ AUC ของโมเดลสมบูรณ์แบบสมมติ

พื้นที่ใต้กราฟ (AUC)

พื้นที่ใต้กราฟ ROC (AUC) แสดงถึงความน่าจะเป็นที่โมเดล หากได้รับตัวอย่างเชิงบวกและเชิงลบที่เลือกมาแบบสุ่ม จะจัดอันดับ สูงกว่าผลลบ

โมเดลสมบูรณ์แบบด้านบน ซึ่งมีสี่เหลี่ยมจัตุรัสที่มีด้านยาว 1 จะมีค่า พื้นที่ใต้เส้นโค้ง (AUC) ของ 1.0 ซึ่งหมายความว่ามีโอกาส 100% ที่ โมเดลจะจัดอันดับตัวอย่างเชิงบวกที่ถูกสุ่มเลือกอย่างถูกต้องสูงกว่า ตัวอย่างเชิงลบที่เลือกมาแบบสุ่ม หรืออีกนัยหนึ่งคือ หากดูจากอัตราขยายตัวของ จุดข้อมูลด้านล่าง AUC ให้ความน่าจะเป็นที่โมเดลจะวาง รูปสี่เหลี่ยมจัตุรัสที่เลือกมาแบบสุ่มทางด้านขวาของวงกลมที่เลือกแบบสุ่ม โดยไม่เกี่ยวข้องกับ ที่มีการตั้งค่าเกณฑ์ไว้

บรรทัดข้อมูลวิดเจ็ตที่ไม่มีแถบเลื่อน

เพื่อให้เห็นภาพมากขึ้น ตัวแยกประเภทสแปมที่มี AUC 1.0 จะกำหนดให้อีเมลจดหมายขยะแบบสุ่มมีโอกาสสูงที่จะถูก จดหมายขยะมากกว่าอีเมลที่ถูกกฎหมายแบบสุ่ม การแยกประเภทตามจริงของแต่ละ ขึ้นอยู่กับเกณฑ์ที่คุณเลือก

สำหรับตัวแยกประเภทแบบไบนารี โมเดลที่ทำได้เหมือนกับการคาดเดาแบบสุ่มหรือ การพลิกเหรียญมี ROC ที่เป็นเส้นทแยงมุม ตั้งแต่ (0,0) ถึง (1,1) AUC คือ 0.5 หมายถึงความเป็นไปได้ 50% ที่จะมีการจัดอันดับผลบวกแบบสุ่มและ ตัวอย่างเชิงลบ

ในตัวอย่างตัวแยกประเภทสแปม ตัวแยกประเภทสแปมที่มี AUC เท่ากับ 0.5 อีเมลสแปมแบบสุ่มความน่าจะเป็นที่ระบบจะส่งจดหมายขยะมากกว่าการสุ่มอีเมล อีเมลที่ถูกต้องเพียงครึ่งเดียว

รูปที่ 2 กราฟของ TPR (แกน y) เทียบกับ FPR (แกน x) ที่แสดง
            ผลการปฏิบัติงานของนักเดาแบบสุ่ม 50-50 คน: เส้นทแยงมุมจาก (0,0)
            เป็น (1,1)
รูปที่ 2 ROC และ AUC เป็นการคาดเดาแบบสุ่มทั้งหมด

(ไม่บังคับ ขั้นสูง) กราฟ Precision-Recall

AUC และ ROC ทำงานได้ดีสำหรับการเปรียบเทียบโมเดลเมื่อชุดข้อมูลมีขนาดคร่าวๆ ให้เกิดความสมดุล ระหว่างคลาสต่างๆ เมื่อชุดข้อมูลไม่สมดุล ความแม่นยำ-ความอ่อนไหว เส้นโค้ง (PRC) และพื้นที่ใต้เส้นโค้งเหล่านั้นอาจให้ผลเปรียบเทียบที่ดีกว่า การแสดงภาพประสิทธิภาพของโมเดล กราฟ Precision-Recall สร้างโดย ความแม่นยำที่พล็อตความแม่นยำบนแกน Y และเรียกคืนบนแกน X จากแกน Y ขั้นต่ำ

ตัวอย่างกราฟ Precision-Recall ที่มีเส้นโค้งนูนต่ำจาก (0,1)
            ถึง (1,0)

AUC และ ROC สำหรับการเลือกโมเดลและเกณฑ์

AUC คือวิธีที่มีประโยชน์สำหรับการเปรียบเทียบ ประสิทธิภาพของ 2 รูปแบบที่แตกต่างกัน ตราบใดที่ชุดข้อมูลมีความสมดุลกันอย่างคร่าวๆ (โปรดดูกราฟ Precision-Recall ด้านบนสำหรับชุดข้อมูลที่ไม่สมดุล) โมเดลที่มีพื้นที่ใหญ่กว่า โดยทั่วไปเส้นโค้งจะดีกว่า

วันที่ รูปที่ 3.ก. กราฟ ROC/AUC ของโมเดลที่มี AUC=0.65 รูปที่ 3.ข กราฟ ROC/AUC ของโมเดลที่มี AUC=0.93
รูปที่ 3 ROC และ AUC ของโมเดลสมมติ 2 โมเดล เส้นโค้งที่ ยิ่ง AUC สูงกว่าแสดงว่าโมเดลทั้งสองมีประสิทธิภาพดีกว่า

จุดบนเส้นโค้ง ROC ที่ใกล้เคียงที่สุด (0,1) แสดงถึงช่วงของ เกณฑ์ที่มีประสิทธิภาพสูงสุด สำหรับโมเดลที่ระบุ ตามที่ได้กล่าวถึงใน เกณฑ์ เมทริกซ์ความสับสน และ ตัวเลือกเมตริกและข้อดีข้อเสีย เกณฑ์ที่คุณเลือกจะขึ้นอยู่กับว่าเมตริกใดสำคัญที่สุดกับ Use Case ที่เจาะจง พิจารณาข้อ ก ข และ ค ในข้อต่อไปนี้ แผนภาพ แผนภูมิแต่ละรายการแสดงเกณฑ์ ดังนี้

วันที่ รูปที่ 4 กราฟ ROC ของ AUC=0.84 ที่แสดงจุด 3 จุดบน
            ส่วนนูนของเส้นโค้งที่อยู่ใกล้กับ (0,1) ซึ่งมีป้ายกำกับเป็น A, B, C ตามลำดับ
รูปที่ 4 คะแนนที่ติดป้ายกำกับ 3 คะแนนซึ่งแสดงเกณฑ์

หากข้อสันนิษฐานที่ผิดพลาด (การแจ้งเตือนที่ผิดพลาด) มีค่าใช้จ่ายสูง อาจเป็นการสมควรที่จะ เลือกเกณฑ์ที่ให้ FPR ต่ำกว่า เช่น เกณฑ์ที่จุด A แม้ว่า TPR จะลดลง ในทางกลับกัน หากผลบวกลวงมีราคาถูกและผลลบลวง (พลาดผลบวกจริง) ต้นทุนสูง เกณฑ์สำหรับจุด C ซึ่ง เพิ่ม TPR ให้ได้สูงสุด อาจเหมาะสมกว่า หากต้นทุนเท่ากันโดยประมาณ ให้จุด B อาจเสนอสมดุลที่ดีที่สุดระหว่าง TPR และ FPR

นี่คือเส้นโค้ง ROC ของข้อมูลที่เราเคยเห็นมาก่อน

แบบฝึกหัด: ตรวจสอบความเข้าใจ

ในทางปฏิบัติ เส้นโค้ง ROC จะสม่ำเสมอน้อยกว่าภาพประกอบมาก ที่ให้ไว้ด้านบน โมเดลใดต่อไปนี้แสดงด้วยเส้นโค้ง ROC และ AUC มีประสิทธิภาพดีที่สุดหรือไม่
เส้นโค้ง ROC ที่โค้งขึ้นแล้วไปทางขวาจาก (0,0) ถึง
           (1,1) เส้นโค้งมี AUC ที่ 0.77
โมเดลนี้มี AUC สูงสุด ซึ่งสอดคล้องกับ ด้านประสิทธิภาพ
เส้นโค้ง ROC ที่เป็นเส้นตรงโดยประมาณจาก (0,0) ถึง
           (1,1) โดยมีความซิกแซก 2-3 ครั้ง เส้นโค้งมี AUC ที่ 0.508
เส้นโค้ง ROC ที่คดเคี้ยวขึ้นและไปทางขวาจาก (0,0) ถึง (1,1)
           เส้นโค้งมี AUC ที่ 0.623
เส้นโค้ง ROC ที่โค้งไปทางขวาแล้วขึ้นจาก
                (0,0) ถึง (1,1) เส้นโค้งมี AUC ที่ 0.31
โมเดลใดต่อไปนี้มีประสิทธิภาพแย่กว่าความบังเอิญ
เส้นโค้ง ROC ที่โค้งไปทางขวาแล้วขึ้นจาก
                (0,0) ถึง (1,1) เส้นโค้งมี AUC ที่ 0.32
โมเดลนี้มี AUC ต่ำกว่า 0.5 ซึ่งหมายความว่ามีประสิทธิภาพแย่กว่า มากกว่าความบังเอิญ
เส้นโค้ง ROC ที่เป็นเส้นตรงโดยประมาณจาก
                     (0,0) ถึง (1,1) โดยซิกแซก 2-3 ครั้ง เส้นโค้งจะมี
                     AUC ของ 0.508
โมเดลนี้มีประสิทธิภาพดีกว่าแบบบังเอิญเล็กน้อย
เส้นโค้ง ROC ที่เป็นเส้นตรงแนวทแยงจาก
                (0,0) ถึง (1,1) เส้นโค้งมี AUC ที่ 0.5
โมเดลนี้จะทำงานแบบให้โอกาส
เส้นโค้ง ROC ที่ประกอบด้วยเส้นตั้งฉาก 2 เส้น คือ เส้นแนวตั้ง
      ตั้งแต่ (0,0) ถึง (0,1) และเส้นแนวนอนตั้งแต่ (0,1) ถึง (1,1)
      เส้นโค้งนี้มี AUC เป็น 1.0
นี่คือตัวแยกประเภทสมมติที่สมบูรณ์แบบ

(ไม่บังคับ ขั้นสูง) คำถามพิเศษ

การเปลี่ยนแปลงใดต่อไปนี้ที่อาจทำให้มีโอกาสแย่ลงได้ ในคำถามก่อนหน้าเพื่อให้มีประสิทธิภาพดีกว่าความบังเอิญหรือไม่
เปลี่ยนกลับการคาดการณ์ การคาดคะเน 1 จะกลายเป็น 0 และการคาดคะเนของ 0 จะกลายเป็น 1
หากตัวแยกประเภทแบบไบนารีใส่ตัวอย่างใน คลาสที่ไม่ถูกต้องบ่อยกว่าการไม่เลือก การเปลี่ยนป้ายกำกับคลาส ทำให้การคาดคะเนของ YouTube ดีกว่าความบังเอิญทันทีโดยไม่ต้อง ฝึกโมเดลอีกครั้ง
ให้มันคาดการณ์คลาสที่เป็นลบเสมอ
ซึ่งอาจปรับปรุงประสิทธิภาพหรือไม่ก็ได้ นอกจากนี้ ที่กล่าวถึงในส่วนความถูกต้อง นี่ไม่ใช่โมเดลที่มีประโยชน์
ให้มันคาดการณ์ชั้นเรียนเชิงบวกเสมอ
ซึ่งอาจปรับปรุงประสิทธิภาพหรือไม่ก็ได้ นอกจากนี้ ที่กล่าวถึงในส่วนความถูกต้อง นี่ไม่ใช่โมเดลที่มีประโยชน์

ลองนึกภาพสถานการณ์ที่คุณควรปล่อยให้สแปมเข้าถึง กล่องจดหมายที่น้อยกว่าการส่งอีเมลที่สำคัญกับธุรกิจไปยังโฟลเดอร์สแปม คุณได้ ได้ฝึกเครื่องมือแยกประเภทสแปมสำหรับสถานการณ์นี้ที่คลาสเชิงบวก สแปม และคลาสเชิงลบไม่ใช่สแปม ประเด็นใดต่อไปนี้ บนกราฟ ROC สำหรับตัวแยกประเภทของคุณได้ดีกว่า

กราฟ ROC ของ AUC=0.84 แสดงจุด 3 จุดบนส่วนที่นูนของ
       เส้นโค้งที่อยู่ใกล้กับ (0,1) จุด A มีขนาดประมาณ
       (0.25, 0.75) จุด B มีค่าโดยประมาณ (0.30, 0.90) และ
       จุดที่เพิ่ม TPR ให้สูงสุดไปพร้อมกับลด FPR จุด
       C จะมีค่าโดยประมาณ (0.4, 0.95)
จุด A
ในกรณีการใช้งานนี้ ควรลดผลบวกลวง แม้ว่าผลบวกจริงจะลดลงด้วยก็ตาม
จุด B
เกณฑ์นี้จะสร้างความสมดุลระหว่างผลบวกจริงและผลบวกลวง
จุด C
เกณฑ์นี้จะเพิ่มผลบวกจริงให้ได้สูงสุด (แจ้งสแปมมากขึ้น) แต่กลับมีค่าใช้จ่ายที่ผลบวกลวงมากกว่า (มีการแจ้งอีเมลที่ถูกต้องมากกว่า สแปม)