การจัดประเภท: ความถูกต้อง การจดจำ ความแม่นยำ และเมตริกที่เกี่ยวข้อง

ระบบจะใช้ทั้งผลบวกจริงและผลลบลวงในการคำนวณเมตริกที่มีประโยชน์หลายรายการในการประเมินโมเดล เมตริกการประเมินที่มีประโยชน์มากที่สุดจะขึ้นอยู่กับโมเดลและงานเฉพาะ ต้นทุนของการแยกประเภทที่ไม่ถูกต้อง และชุดข้อมูลมีความสมดุลหรือไม่สมดุล

เมตริกทั้งหมดในส่วนนี้จะคํานวณตามเกณฑ์คงที่เดียว และเปลี่ยนแปลงเมื่อเกณฑ์มีการเปลี่ยนแปลง ผู้ใช้มักจะปรับเกณฑ์เพื่อเพิ่มประสิทธิภาพเมตริกใดเมตริกหนึ่งเหล่านี้

ความแม่นยำ

ความแม่นยำคือสัดส่วนการจัดประเภททั้งหมดที่ถูกต้อง ไม่ว่าจะจัดประเภทเป็นบวกหรือลบ ซึ่งกำหนดทางคณิตศาสตร์ได้ดังนี้

\[\text{Accuracy} = \frac{\text{correct classifications}}{\text{total classifications}} = \frac{TP+TN}{TP+TN+FP+FN}\]

ในตัวอย่างการจัดประเภทจดหมายขยะ ความถูกต้องจะวัดเศษส่วนของอีเมลทั้งหมดที่จัดประเภทอย่างถูกต้อง

โมเดลที่สมบูรณ์แบบจะไม่มีผลบวกลวงและผลลบลวง ดังนั้นความแม่นยำจึงเท่ากับ 1.0 หรือ 100%

เนื่องจากรวมเอาผลลัพธ์ทั้ง 4 รายการจากเมทริกซ์ความสับสน (TP, FP, TN, FN) ไว้ด้วยกัน เมื่อใช้ชุดข้อมูลที่สมดุลซึ่งมีตัวอย่างจำนวนใกล้เคียงกันในแต่ละคลาส ความแม่นยำจึงใช้เป็นตัววัดคุณภาพโมเดลแบบหยาบได้ ด้วยเหตุนี้ จึงมักเป็นเมตริกการประเมินเริ่มต้นที่ใช้สำหรับโมเดลทั่วไปหรือโมเดลที่ไม่ระบุซึ่งทำงานทั่วไปหรืองานที่ไม่ได้ระบุไว้

อย่างไรก็ตาม เมื่อชุดข้อมูลไม่สมดุลหรือความผิดพลาดแบบใดแบบหนึ่ง (FN หรือ FP) มีราคาแพงกว่าชุดข้อมูลอื่น ซึ่งเป็นกรณีที่พบได้ในแอปพลิเคชันในโลกแห่งความเป็นจริงส่วนใหญ่ การเพิ่มประสิทธิภาพเมตริกอื่นทางใดจะดีกว่า

สําหรับชุดข้อมูลที่มีความไม่สมดุลอย่างมาก ซึ่งคลาสหนึ่งปรากฏขึ้นน้อยมาก เช่น 1% ของเวลา โมเดลที่คาดการณ์ค่าลบ 100% ของเวลาจะได้รับคะแนนความแม่นยํา 99% แม้ว่าจะไร้ประโยชน์ก็ตาม

ความแม่นยำหรืออัตราผลบวกจริง

อัตราผลบวกจริง (TPR) หรือสัดส่วนของผลบวกจริงทั้งหมดซึ่งได้รับการจัดประเภทอย่างถูกต้องว่าเป็นผลบวก เรียกอีกอย่างว่าความอ่อนไหว

การเรียกคืนที่กําหนดทางคณิตศาสตร์คือ

\[\text{Recall (or TPR)} = \frac{\text{correctly classified actual positives}}{\text{all actual positives}} = \frac{TP}{TP+FN}\]

ผลลบลวงคือผลบวกจริงที่ได้รับการจัดประเภทไม่ถูกต้องว่าเป็นผลลบ ซึ่งเป็นสาเหตุที่ทำให้ผลลบนั้นปรากฏในตัวส่วน ในตัวอย่างการจัดประเภทจดหมายขยะ อัตราความแม่นยำจะวัดเศษส่วนของอีเมลสแปมที่จัดประเภทเป็นจดหมายขยะอย่างถูกต้อง ด้วยเหตุนี้ การเรียกคืนจึงมีชื่อเรียกอีกอย่างว่าความน่าจะเป็นในการตรวจจับ เนื่องจากจะตอบคำถามที่ว่า "โมเดลนี้ตรวจพบอีเมลสแปมได้กี่เปอร์เซ็นต์"

โมเดลที่สมบูรณ์แบบสมมติจะไม่มีผลลบที่ผิดพลาดเลย ดังนั้นการเรียกคืน (TPR) จะเท่ากับ 1.0 ซึ่งก็คืออัตราการตรวจจับ 100%

ในชุดข้อมูลที่ไม่สมดุลกัน ซึ่งมีจำนวนผลบวกจริงน้อยมาก อย่างเช่น 1-2 ตัวอย่างโดยรวม ความอ่อนไหวจะมีความหมายน้อยกว่าและมีประโยชน์น้อยกว่าในแง่ของเมตริก

อัตราผลบวกเท็จ

อัตราผลบวกลวง (FPR) คือสัดส่วนของผลลบจริงทั้งหมดที่จัดประเภทอย่างไม่ถูกต้องว่าเป็นผลบวก หรือที่เรียกว่าความน่าจะเป็นของการแจ้งเตือนที่ผิดพลาด ซึ่งกำหนดทางคณิตศาสตร์ได้ดังนี้

\[\text{FPR} = \frac{\text{incorrectly classified actual negatives}} {\text{all actual negatives}} = \frac{FP}{FP+TN}\]

ผลบวกลวงคือผลลบจริงที่มีการแยกประเภทไม่ถูกต้อง จึงปรากฏในส่วนตัวหาร ในตัวอย่างการจัดประเภทสแปม FPR จะวัดเศษส่วนของอีเมลที่ถูกต้องซึ่งจัดประเภทเป็นจดหมายขยะอย่างไม่ถูกต้อง หรืออัตราการแจ้งเตือนที่ผิดพลาดของโมเดล

โมเดลที่สมบูรณ์แบบจะไม่มีผลบวกลวงเลย จึงมี FPR เท่ากับ 0.0 ซึ่งก็คืออัตราการแจ้งเตือนที่ผิดพลาด 0%

ในชุดข้อมูลที่ไม่สมดุลซึ่งมีจำนวนตัวอย่างเชิงลบจริงต่ำมาก เช่น มีเพียง 1-2 ตัวอย่างเท่านั้น FPR จะมีความหมายและมีประโยชน์น้อยลงในฐานะเมตริก

ความแม่นยำ

ความแม่นยำคือการสัดส่วนการจัดประเภทเชิงบวกทั้งหมดของโมเดลที่เป็นผลบวกจริง ซึ่งกำหนดทางคณิตศาสตร์ได้ดังนี้

\[\text{Precision} = \frac{\text{correctly classified actual positives}} {\text{everything classified as positive}} = \frac{TP}{TP+FP}\]

ในตัวอย่างการจัดประเภทจดหมายขยะ ความแม่นยำจะวัดเศษส่วนของอีเมลที่จัดประเภทว่าเป็นจดหมายขยะจริง

โมเดลสมบูรณ์แบบสมมติจะไม่มีข้อสันนิษฐานที่ผิดพลาด 0 ผลจึงมีความแม่นยำเท่ากับ 1.0

ในชุดข้อมูลที่ไม่สมดุลซึ่งมีจำนวนตัวอย่างเชิงบวกจริงต่ำมาก เช่น มีเพียง 1-2 ตัวอย่าง ความแม่นยำจะมีความหมายและมีประโยชน์น้อยลงในฐานะเมตริก

ความแม่นยำจะดีขึ้นเมื่อผลบวกลวงลดลง ส่วนความไวจะดีขึ้นเมื่อผลลบลวงลดลง แต่ดังที่กล่าวไว้ในส่วนก่อนหน้านี้ การเพิ่มเกณฑ์การจัดประเภทมีแนวโน้มที่จะลดจํานวนผลบวกลวงและเพิ่มจํานวนผลลบลวง ขณะที่การลดเกณฑ์จะส่งผลตรงกันข้าม ด้วยเหตุนี้ ความแม่นยำและการจดจําจึงมักแสดงความสัมพันธ์แบบผกผันกัน ซึ่งการปรับปรุงค่าใดค่าหนึ่งจะทำให้ค่าอีกค่าหนึ่งแย่ลง

ลองด้วยตัวคุณเอง

NaN หมายความว่าอย่างไรในเมตริก

NaN หรือ "ไม่ใช่ตัวเลข" จะปรากฏขึ้นเมื่อหารด้วย 0 ซึ่งอาจเกิดขึ้นกับเมตริกใดก็ได้ เช่น เมื่อ TP และ FP มีค่าเป็น 0 สูตรความแม่นยำจะมี 0 ในส่วนตัวหาร ซึ่งส่งผลให้เป็น NaN แม้ว่าในบางกรณี NaN อาจบ่งบอกถึงประสิทธิภาพที่สมบูรณ์แบบและอาจแทนที่ด้วยคะแนน 1.0 แต่ NaN ก็อาจมาจากโมเดลที่ไร้ประโยชน์ในทางปฏิบัติ เช่น โมเดลที่ไม่เคยคาดการณ์เป็นบวกจะมี TP 0 และ FP 0 รายการ ดังนั้นการคำนวณความแม่นยําจึงได้ผลลัพธ์เป็น NaN

ตัวเลือกเมตริกและข้อดีข้อเสีย

เมตริกที่คุณเลือกให้ความสําคัญเมื่อประเมินรูปแบบและเลือกเกณฑ์จะขึ้นอยู่กับต้นทุน ประโยชน์ และความเสี่ยงของปัญหาหนึ่งๆ ในตัวอย่างการจัดประเภทจดหมายขยะ มักจะมีเหตุผลที่จะให้ความสำคัญกับการเรียกคืน นั่นคือการจับอีเมลขยะทั้งหมด หรือความแม่นยำ นั่นคือพยายามตรวจสอบว่าอีเมลที่ติดป้ายกำกับว่าเป็นจดหมายขยะเป็นจดหมายขยะจริง หรือความสมดุลระหว่าง 2 อย่างนี้ โดยให้สูงกว่าระดับความแม่นยำขั้นต่ำ

เมตริก คำแนะนำ
ความแม่นยำ

ใช้เป็นตัวบ่งชี้คร่าวๆ เกี่ยวกับความคืบหน้า/การบรรจบของการฝึกโมเดลสําหรับชุดข้อมูลที่สมดุล

สําหรับประสิทธิภาพของโมเดล ให้ใช้ร่วมกับเมตริกอื่นๆ เท่านั้น

หลีกเลี่ยงสำหรับชุดข้อมูลที่ไม่สมดุล ลองใช้เมตริกอื่น

ความแม่นยำ
(อัตราผลบวกจริง)
ใช้เมื่อผลลบลวงมีราคาแพงกว่าผลบวกลวง
อัตราผลบวกเท็จ ใช้เมื่อผลบวกลวงมีค่าใช้จ่ายสูงกว่าผลลบลวง
ความแม่นยำ ใช้เมื่อการคาดการณ์เชิงบวกต้องมีความแม่นยำ

(ไม่บังคับ ขั้นสูง) คะแนน F1

คะแนน F1 คือค่าเฉลี่ยฮาร์โมนิก (ค่าเฉลี่ยประเภทหนึ่ง) ของความแม่นยำและความไว

ในทางคณิตศาสตร์ สูตรหาค่านี้คือ

\[\text{F1}=2*\frac{\text{precision * recall}}{\text{precision + recall}} = \frac{2\text{TP}}{2\text{TP + FP + FN}}\]

เมตริกนี้จะให้ความสำคัญกับความแม่นยำและความไวในการตรวจจับอย่างสมดุล และเหมาะกว่าความแม่นยำสำหรับชุดข้อมูลที่มีคลาสไม่สมดุล เมื่อทั้งความแม่นยำและความแม่นยำสัมพัทธ์มีคะแนน 1.0 ที่สมบูรณ์แบบ F1 ก็จะได้คะแนน 1.0 ที่สมบูรณ์แบบเช่นกัน กล่าวอย่างกว้างๆ คือ เมื่อความแม่นยำและการจดจํามีค่าใกล้เคียงกัน F1 ก็จะมีค่าใกล้เคียงกับค่าเหล่านั้น เมื่อความแม่นยำและการจดจําแตกต่างกันมาก F1 จะคล้ายกับเมตริกที่แย่กว่า

แบบฝึกหัด: ทดสอบความเข้าใจ

โมเดลให้เอาต์พุต 5 TP, 6 TN, 3 FP และ 2 FN คำนวณการเรียกคืน
0.714
การเรียกคืนคำนวณเป็น \(\frac{TP}{TP+FN}=\frac{5}{7}\)
0.455
การเรียกคืนจะพิจารณาผลบวกจริงทั้งหมด ไม่ใช่การแยกประเภทที่ถูกต้องทั้งหมด สูตรสำหรับการเรียกคืนคือ \(\frac{TP}{TP+FN}\)
0.625
การเรียกคืนจะพิจารณารายการเชิงบวกจริงทั้งหมด ไม่ใช่การแยกประเภทเชิงบวกทั้งหมด สูตรของการเรียกคืนคือ \(\frac{TP}{TP+FN}\)
โมเดลแสดงผล TP 3 รายการ, TN 4 รายการ, FP 2 รายการ และ FN 1 รายการ คำนวณความแม่นยำ
0.6
ความแม่นยำคำนวณเป็น \(\frac{TP}{TP+FP}=\frac{3}{5}\)
0.75 บาท
ความแม่นยำจะพิจารณาการแยกประเภทเชิงบวกทั้งหมด ไม่ใช่เชิงบวกจริงทั้งหมด สูตรความแม่นยำคือ \(\frac{TP}{TP+FP}\)
0.429
ความแม่นยำจะพิจารณาการจัดประเภทเชิงบวกทั้งหมด ไม่ใช่การจัดประเภทที่ถูกต้องทั้งหมด สูตรความแม่นยำคือ \(\frac{TP}{TP+FP}\)
คุณกําลังสร้างตัวแยกประเภทแบบ 2 ค่าที่จะตรวจสอบรูปภาพกับดักแมลงเพื่อดูว่ามีสัตว์สายพันธุ์ที่รุกรานที่เป็นอันตรายหรือไม่ หากโมเดลตรวจพบสายพันธุ์ดังกล่าว ระบบจะแจ้งเตือนนักกีฏวิทยา (นักวิทยาศาสตร์ด้านแมลง) ที่อยู่ในหน้าที่ การพบแมลงชนิดนี้ตั้งแต่เนิ่นๆ เป็นสิ่งสำคัญในการป้องกันการแพร่ระบาด การแจ้งเตือนที่ผิดพลาด (ผลบวกลวง) จัดการได้ง่าย นักกีฏวิทยาจะเห็นได้ว่ารูปภาพได้รับการจัดประเภทไม่ถูกต้องและจะทําเครื่องหมายว่ารูปภาพดังกล่าวเป็นเช่นนั้น สมมติว่าระดับความแม่นยำเป็นที่ยอมรับแล้ว เมตริกใดที่โมเดลนี้ควรเพิ่มประสิทธิภาพมากที่สุด
การจดจำ
ในสถานการณ์นี้ การแจ้งเตือนที่ผิดพลาด (FP) มีต้นทุนต่ำ และการแจ้งเตือนที่ผิดพลาด (FN) มีต้นทุนสูง จึงควรเพิ่มการเรียกคืนหรือความน่าจะเป็นในการตรวจจับให้สูงสุด
อัตราผลบวกลวง (FPR)
ในกรณีนี้ การแจ้งเตือนที่ผิดพลาด (FP) มีต้นทุนต่ำ การพยายามลดโอกาสที่จะพลาดข้อบวกจริงอาจดูไม่สมเหตุสมผล
ความแม่นยำ
ในสถานการณ์นี้ การแจ้งเตือนที่ผิดพลาด (FP) ไม่ได้เป็นอันตรายมากนัก ดังนั้นการพยายามปรับปรุงความถูกต้องของการจัดประเภทเชิงบวกจึงไม่สมเหตุสมผล