การจัดประเภท: ความถูกต้อง การจดจำ ความแม่นยำ และเมตริกที่เกี่ยวข้อง

ระบบจะใช้ผลบวก ผลลบ ผลบวกลวง และผลลบลวงเพื่อคำนวณเมตริกที่มีประโยชน์หลายอย่าง สำหรับการประเมินโมเดล เมตริกการประเมินที่สำคัญที่สุดจะขึ้นอยู่กับโมเดลและงานที่เฉพาะเจาะจง ต้นทุนของการจัดประเภทผิดที่แตกต่างกัน และไม่ว่าชุดข้อมูลจะสมดุลหรือไม่สมดุล

เมตริกทั้งหมดในส่วนนี้จะคำนวณที่เกณฑ์คงที่เดียว และจะเปลี่ยนแปลงเมื่อเกณฑ์เปลี่ยนแปลง บ่อยครั้งที่ผู้ใช้ปรับเกณฑ์เพื่อเพิ่มประสิทธิภาพเมตริกใดเมตริกหนึ่ง

ความแม่นยำ

ความแม่นยำคือสัดส่วนของการจัดประเภททั้งหมดที่ถูกต้อง ไม่ว่าจะเป็นบวกหรือลบ โดยมีคำจำกัดความทางคณิตศาสตร์ดังนี้

\[\text{Accuracy} = \frac{\text{correct classifications}}{\text{total classifications}} = \frac{TP+TN}{TP+TN+FP+FN}\]

ในตัวอย่างการจัดประเภทจดหมายขยะ ความแม่นยำจะวัดเศษส่วนของอีเมลทั้งหมดที่จัดประเภทอย่างถูกต้อง

โมเดลที่สมบูรณ์แบบจะมีผลบวกลวงและผลลบลวงเป็น 0 และ ดังนั้นความแม่นยำจึงเป็น 1.0 หรือ 100%

เนื่องจากความแม่นยำรวมผลลัพธ์ทั้ง 4 รายการจากเมทริกซ์ความสับสน (TP, FP, TN, FN) เมื่อพิจารณาจากชุดข้อมูลที่สมดุลซึ่งมีตัวอย่างจำนวนใกล้เคียงกันในทั้ง 2 คลาส ความแม่นยำจึงใช้เป็นตัววัดคุณภาพโมเดลแบบคร่าวๆ ได้ ด้วยเหตุนี้ จึงมักเป็น เมตริกการประเมินเริ่มต้นที่ใช้กับโมเดลทั่วไปหรือโมเดลที่ไม่ได้ระบุ ซึ่งทำงานทั่วไปหรือไม่ได้ระบุ

อย่างไรก็ตาม เมื่อชุดข้อมูลไม่สมดุล หรือเมื่อข้อผิดพลาดประเภทหนึ่ง (FN หรือ FP) มีต้นทุนสูงกว่าอีกประเภทหนึ่ง ซึ่งเป็น กรณีในการใช้งานจริงส่วนใหญ่ การเพิ่มประสิทธิภาพสำหรับเมตริกใดเมตริกหนึ่ง แทนจึงดีกว่า

สําหรับชุดข้อมูลที่มีความไม่สมดุลอย่างมาก ซึ่งคลาสหนึ่งปรากฏน้อยมาก เช่น 1% ของเวลา โมเดลที่คาดการณ์ค่าลบ 100% ของเวลาจะทําคะแนนความแม่นยําได้ 99% แม้ว่าจะไม่มีประโยชน์ก็ตาม

ความสามารถในการเรียกคืนหรืออัตราผลบวกจริง

อัตราผลบวกจริง (TPR) หรือสัดส่วนของผลบวกจริงทั้งหมดที่ ได้รับการจัดประเภทเป็นผลบวกอย่างถูกต้อง หรือที่เรียกว่า ความสามารถในการเรียกคืน

การเรียกคืนมีการกำหนดทางคณิตศาสตร์ดังนี้

\[\text{Recall (or TPR)} = \frac{\text{correctly classified actual positives}}{\text{all actual positives}} = \frac{TP}{TP+FN}\]

ผลลบลวงคือผลบวกจริงที่จัดประเภทผิดเป็นผลลบ ซึ่งเป็นสาเหตุที่ทำให้ผลลบลวงปรากฏในตัวส่วน ในตัวอย่างการจัดประเภทจดหมายขยะ ค่าความจำจะวัดเศษส่วนของอีเมลจดหมายขยะที่จัดประเภทเป็น จดหมายขยะอย่างถูกต้อง ด้วยเหตุนี้ เราจึงเรียกอีกชื่อหนึ่งของค่าความจำว่าความน่าจะเป็นในการตรวจจับ ซึ่งจะ ตอบคำถามที่ว่า "โมเดลนี้ตรวจจับอีเมลที่จัดว่าเป็นจดหมายขยะได้กี่ส่วน จากทั้งหมด"

โมเดลที่สมบูรณ์แบบในอุดมคติจะไม่มีผลลบลวง ดังนั้นจึงมี การเรียกคืน (TPR) เท่ากับ 1.0 ซึ่งหมายถึงอัตราการตรวจจับ 100%

ในชุดข้อมูลที่ไม่สมดุลซึ่งมีจำนวนผลบวกจริงต่ำมาก ค่าระลึกเป็นเมตริกที่มีความหมายมากกว่าความแม่นยำ เนื่องจากค่าระลึกจะวัดความสามารถของโมเดลในการระบุอินสแตนซ์ที่เป็นบวกทั้งหมดได้อย่างถูกต้อง สําหรับแอปพลิเคชัน เช่น การคาดการณ์โรค การระบุเคสที่เป็นบวกอย่างถูกต้องเป็นสิ่งสําคัญ โดยปกติแล้ว ผลลบลวงจะส่งผลร้ายแรงกว่าผลบวกลวง ดูตัวอย่างที่ชัดเจนซึ่งเปรียบเทียบเมตริกความอ่อนไหวและความแม่นยําได้ในหมายเหตุในคําจํากัดความของความอ่อนไหว

อัตราผลบวกเท็จ

อัตราผลบวกลวง (FPR) คือสัดส่วนของผลลบจริงทั้งหมดที่จัดประเภทอย่างไม่ถูกต้อง เป็นผลบวก หรือที่เรียกว่าความน่าจะเป็นของการแจ้งเตือนที่ผิดพลาด โดยมีคำจำกัดความทางคณิตศาสตร์ดังนี้

\[\text{FPR} = \frac{\text{incorrectly classified actual negatives}} {\text{all actual negatives}} = \frac{FP}{FP+TN}\]

ผลบวกลวงคือผลลบจริงที่ได้รับการจัดประเภทอย่างไม่ถูกต้อง จึงเป็นเหตุผลที่ผลบวกลวง ปรากฏในตัวส่วน ในตัวอย่างการจัดประเภทจดหมายขยะ FPR จะวัดสัดส่วนของอีเมลที่ถูกต้องตามกฎหมายซึ่งได้รับการจัดประเภทเป็นจดหมายขยะอย่างไม่ถูกต้อง หรืออัตราการแจ้งเตือนที่ผิดพลาดของโมเดล

โมเดลที่สมบูรณ์แบบจะไม่มีผลบวกลวง ดังนั้น FPR จะเป็น 0.0 ซึ่งหมายถึงอัตราการแจ้งเตือนที่ผิดพลาด 0%

สําหรับชุดข้อมูลที่ไม่สมดุล โดยทั่วไปแล้ว FPR เป็นเมตริกที่ให้ข้อมูลมากกว่าความแม่นยํา อย่างไรก็ตาม หากจำนวนผลลบจริงต่ำมาก FPR อาจไม่ใช่ตัวเลือกที่เหมาะสมเนื่องจากความผันผวน เช่น หากมีค่าลบจริงเพียง 4 รายการในชุดข้อมูล การจำแนกประเภทผิด 1 รายการจะส่งผลให้ FPR เป็น 25% ในขณะที่การจำแนกประเภทผิดรายการที่ 2 จะทำให้ FPR เพิ่มขึ้นเป็น 50% ในกรณีเช่นนี้ ความแม่นยำ (อธิบายถัดไป) อาจเป็นเมตริกที่เสถียรกว่าสําหรับ การประเมินผลกระทบของผลบวกลวง

ความแม่นยำ

ความแม่นยำ คือสัดส่วนของการจัดประเภทเชิงบวกทั้งหมดของโมเดล ที่เป็นบวกจริง โดยทางคณิตศาสตร์จะกำหนดไว้ดังนี้

\[\text{Precision} = \frac{\text{correctly classified actual positives}} {\text{everything classified as positive}} = \frac{TP}{TP+FP}\]

ในตัวอย่างการจัดประเภทจดหมายขยะ ความแม่นยำจะวัดเศษส่วนของอีเมล ที่จัดประเภทเป็นจดหมายขยะซึ่งเป็นจดหมายขยะจริง

โมเดลที่สมบูรณ์แบบในทางทฤษฎีจะไม่มีผลบวกลวงเลย และมีความแม่นยำเท่ากับ 1.0

ในชุดข้อมูลที่ไม่สมดุลซึ่งมีจำนวนผลบวกจริงต่ำมาก เช่น มีตัวอย่างทั้งหมด 1-2 รายการ ความแม่นยำจะมีความหมายและมีประโยชน์น้อยกว่าในฐานะเมตริก

ความแม่นยำจะดีขึ้นเมื่อผลบวกลดลง ในขณะที่ความสามารถในการเรียกคืนจะดีขึ้นเมื่อผลลบลดลง แต่ดังที่เห็นในส่วนก่อนหน้า การเพิ่มเกณฑ์การจัดประเภทมักจะลดจำนวนผลบวกลวงและเพิ่มจำนวนผลลบลวง ขณะที่การลดเกณฑ์จะมีผลตรงกันข้าม ด้วยเหตุนี้ ความแม่นยำและการเรียกคืนจึงมักแสดงความสัมพันธ์แบบผกผัน ซึ่งการปรับปรุงอย่างใดอย่างหนึ่งจะทำให้อีกอย่างแย่ลง

ลองใช้งานด้วยตัวเองในเรื่องต่อไปนี้

NaN ในเมตริกหมายความว่าอย่างไร

NaN หรือ "ไม่ใช่ตัวเลข" จะปรากฏเมื่อหารด้วย 0 ซึ่งอาจเกิดขึ้นกับเมตริกใดก็ได้ต่อไปนี้ เช่น เมื่อ TP และ FP เป็น 0 ทั้งคู่ สูตรสำหรับความแม่นยำจะมี 0 ในตัวส่วน ซึ่งส่งผลให้เป็น NaN แม้ว่าในบางกรณี NaN อาจบ่งบอกถึงประสิทธิภาพที่สมบูรณ์แบบและอาจถูกแทนที่ด้วยคะแนน 1.0 แต่ก็อาจมาจากโมเดลที่แทบจะไม่มีประโยชน์เลยเช่นกัน เช่น โมเดลที่ไม่เคยคาดการณ์ผลลัพธ์เป็นบวกจะมี TP เป็น 0 และ FP เป็น 0 ดังนั้นการคำนวณความแม่นยำของโมเดลจะส่งผลให้ได้ NaN

ตัวเลือกเมตริกและข้อแลกเปลี่ยน

เมตริกที่คุณเลือกให้ความสําคัญเมื่อประเมินโมเดลและเลือกเกณฑ์จะขึ้นอยู่กับต้นทุน ประโยชน์ และความเสี่ยงของปัญหาที่เฉพาะเจาะจง ในตัวอย่างการจัดประเภทจดหมายขยะ การจัดลำดับความสำคัญของการเรียกคืน การดักจับอีเมลจดหมายขยะทั้งหมด หรือความแม่นยำ การพยายามตรวจสอบว่าอีเมลที่ติดป้ายกำกับว่าเป็นจดหมายขยะเป็นจดหมายขยะจริง หรือการรักษาสมดุลระหว่าง 2 อย่างนี้ เหนือระดับความแม่นยำขั้นต่ำบางอย่างมักจะสมเหตุสมผล

เมตริก	คำแนะนำ
ความแม่นยำ	ใช้เป็นตัวบ่งชี้คร่าวๆ ของความคืบหน้า/การบรรจบกันของการฝึกโมเดล สำหรับชุดข้อมูลที่สมดุล สําหรับประสิทธิภาพของโมเดล ให้ใช้ร่วมกับเมตริกอื่นๆ เท่านั้น หลีกเลี่ยงสำหรับชุดข้อมูลที่ไม่สมดุล ลองใช้เมตริกอื่น
ความอ่อนไหว (อัตราผลบวกจริง)	ใช้เมื่อผลลบลวงมีค่าใช้จ่ายสูงกว่าผลบวกลวง
อัตราผลบวกเท็จ	ใช้เมื่อผลบวกลวงมีค่าใช้จ่าย มากกว่าผลลบลวง
ความแม่นยำ	ใช้เมื่อมีความสำคัญอย่างยิ่งที่ การคาดการณ์เชิงบวกจะต้องแม่นยำ

(ไม่บังคับ ขั้นสูง) คะแนน F1

คะแนน F1 คือค่าเฉลี่ยฮาร์โมนิก (ค่าเฉลี่ยประเภทหนึ่ง) ของความแม่นยำและความอ่อนไหว

ในทางคณิตศาสตร์ ค่านี้จะคำนวณได้ดังนี้

\[\text{F1}=2*\frac{\text{precision * recall}}{\text{precision + recall}} = \frac{2\text{TP}}{2\text{TP + FP + FN}}\]

เมตริกนี้จะปรับความสำคัญของความแม่นยำและการเรียกคืน และเหมาะกับความแม่นยำสำหรับชุดข้อมูลที่ไม่สมดุลของคลาส เมื่อความแม่นยำ และความอ่อนไหวมีคะแนนสมบูรณ์ที่ 1.0 ทั้งคู่ F1 ก็จะมีคะแนนสมบูรณ์ ที่ 1.0 ด้วย ในวงกว้างกว่านั้น เมื่อความแม่นยำและการเรียกคืนมีค่าใกล้เคียงกัน F1 จะมีค่าใกล้เคียงกับค่าของความแม่นยำและการเรียกคืน เมื่อความแม่นยำและการเรียกคืนอยู่ห่างกันมาก F1 จะ คล้ายกับเมตริกใดก็ตามที่แย่กว่า

แบบฝึกหัด: ทดสอบความเข้าใจ

โมเดลแสดงผลเป็น TP 5 รายการ, TN 6 รายการ, FP 3 รายการ และ FN 2 รายการ คำนวณการเรียกคืน

0.714

การเรียกคืนมีวิธีคำนวณดังนี้ \(\frac{TP}{TP+FN}=\frac{5}{7}\)

0.455

การเรียกคืนจะพิจารณาผลบวกที่เกิดขึ้นจริงทั้งหมด ไม่ใช่การจัดประเภทที่ถูกต้องทั้งหมด สูตรการเรียกคืนคือ \(\frac{TP}{TP+FN}\)

0.625

การเรียกคืนจะพิจารณาผลบวกที่เกิดขึ้นจริงทั้งหมด ไม่ใช่การจัดประเภทผลบวกทั้งหมด สูตรสำหรับการเรียกคืนคือ \(\frac{TP}{TP+FN}\)

โมเดลแสดงผล TP 3 รายการ, TN 4 รายการ, FP 2 รายการ และ FN 1 รายการ คำนวณความแม่นยำ

0.6

ความแม่นยำมีวิธีคำนวณดังนี้ \(\frac{TP}{TP+FP}=\frac{3}{5}\)

0.75

ความแม่นยำจะพิจารณาการจัดประเภทเชิงบวกทั้งหมด ไม่ใช่เชิงบวกที่เกิดขึ้นจริงทั้งหมด สูตรสำหรับความแม่นยำคือ \(\frac{TP}{TP+FP}\)

0.429

ความแม่นยำจะพิจารณาการจัดประเภทเชิงบวกทั้งหมด ไม่ใช่การจัดประเภทที่ถูกต้องทั้งหมด สูตรสำหรับความแม่นยำคือ \(\frac{TP}{TP+FP}\)

คุณกำลังสร้างเครื่องมือแยกประเภทแบบไบนารีที่ตรวจสอบรูปภาพกับดักแมลง เพื่อดูว่ามีสายพันธุ์รุกรานที่เป็นอันตรายหรือไม่ หากโมเดลตรวจพบ สายพันธุ์ นักกีฏวิทยา (นักวิทยาศาสตร์ด้านแมลง) ที่ปฏิบัติหน้าที่จะได้รับการแจ้งเตือน การตรวจพบแมลงชนิดนี้ตั้งแต่เนิ่นๆ เป็นสิ่งสำคัญอย่างยิ่งในการป้องกันการแพร่ระบาด การแจ้งเตือนที่ผิดพลาด (ผลบวกลวง) จัดการได้ง่าย นักกีฏวิทยาจะเห็นว่า รูปภาพได้รับการจัดประเภทอย่างไม่ถูกต้องและทำเครื่องหมายว่าเป็นการแจ้งเตือนที่ผิดพลาด หากสมมติว่ามีระดับความแม่นยำที่ยอมรับได้ โมเดลนี้ควรเพิ่มประสิทธิภาพสำหรับเมตริกใด

การจดจำ

ในสถานการณ์นี้ สัญญาณเตือนที่ผิดพลาด (FP) มีต้นทุนต่ำ และผลลบลวง (FN) มีต้นทุนสูง ดังนั้นจึงควรเพิ่มค่าความระลึก (Recall) หรือความน่าจะเป็นในการตรวจหาให้สูงสุด

อัตราผลบวกลวง (FPR)

ในสถานการณ์นี้ สัญญาณเตือนที่ผิดพลาด (FP) มีต้นทุนต่ำ การพยายาม ลดจำนวนผลการตรวจหาเชื้อที่ผิดพลาดโดยเสี่ยงต่อการพลาดผลบวกจริง จึงไม่สมเหตุสมผล

ความแม่นยำ

ในสถานการณ์นี้ สัญญาณเตือนที่ผิดพลาด (FP) ไม่ได้เป็นอันตรายมากนัก จึงไม่สมเหตุสมผลที่จะพยายามปรับปรุงความถูกต้องของการจัดประเภทเชิงบวก

เกณฑ์และเมทริกซ์ความสับสน (12 นาที)

ROC และ AUC (10 นาที)