ระบบจะใช้ทั้งผลบวกจริงและผลลบลวงในการคำนวณเมตริกที่มีประโยชน์หลายรายการในการประเมินโมเดล เมตริกการประเมินที่มีประโยชน์มากที่สุดจะขึ้นอยู่กับโมเดลและงานเฉพาะ ต้นทุนของการแยกประเภทที่ไม่ถูกต้อง และชุดข้อมูลมีความสมดุลหรือไม่สมดุล
เมตริกทั้งหมดในส่วนนี้จะคํานวณตามเกณฑ์คงที่เดียว และเปลี่ยนแปลงเมื่อเกณฑ์มีการเปลี่ยนแปลง ผู้ใช้มักจะปรับเกณฑ์เพื่อเพิ่มประสิทธิภาพเมตริกใดเมตริกหนึ่งเหล่านี้
ความแม่นยำ
ความแม่นยำคือสัดส่วนการจัดประเภททั้งหมดที่ถูกต้อง ไม่ว่าจะจัดประเภทเป็นบวกหรือลบ ซึ่งกำหนดทางคณิตศาสตร์ได้ดังนี้
\[\text{Accuracy} = \frac{\text{correct classifications}}{\text{total classifications}} = \frac{TP+TN}{TP+TN+FP+FN}\]
ในตัวอย่างการจัดประเภทจดหมายขยะ ความถูกต้องจะวัดเศษส่วนของอีเมลทั้งหมดที่จัดประเภทอย่างถูกต้อง
โมเดลที่สมบูรณ์แบบจะไม่มีผลบวกลวงและผลลบลวง ดังนั้นความแม่นยำจึงเท่ากับ 1.0 หรือ 100%
เนื่องจากรวมเอาผลลัพธ์ทั้ง 4 รายการจากเมทริกซ์ความสับสน (TP, FP, TN, FN) ไว้ด้วยกัน เมื่อใช้ชุดข้อมูลที่สมดุลซึ่งมีตัวอย่างจำนวนใกล้เคียงกันในแต่ละคลาส ความแม่นยำจึงใช้เป็นตัววัดคุณภาพโมเดลแบบหยาบได้ ด้วยเหตุนี้ จึงมักเป็นเมตริกการประเมินเริ่มต้นที่ใช้สำหรับโมเดลทั่วไปหรือโมเดลที่ไม่ระบุซึ่งทำงานทั่วไปหรืองานที่ไม่ได้ระบุไว้
อย่างไรก็ตาม เมื่อชุดข้อมูลไม่สมดุลหรือความผิดพลาดแบบใดแบบหนึ่ง (FN หรือ FP) มีราคาแพงกว่าชุดข้อมูลอื่น ซึ่งเป็นกรณีที่พบได้ในแอปพลิเคชันในโลกแห่งความเป็นจริงส่วนใหญ่ การเพิ่มประสิทธิภาพเมตริกอื่นทางใดจะดีกว่า
สําหรับชุดข้อมูลที่มีความไม่สมดุลอย่างมาก ซึ่งคลาสหนึ่งปรากฏขึ้นน้อยมาก เช่น 1% ของเวลา โมเดลที่คาดการณ์ค่าลบ 100% ของเวลาจะได้รับคะแนนความแม่นยํา 99% แม้ว่าจะไร้ประโยชน์ก็ตาม
ความแม่นยำหรืออัตราผลบวกจริง
อัตราผลบวกจริง (TPR) หรือสัดส่วนของผลบวกจริงทั้งหมดซึ่งได้รับการจัดประเภทอย่างถูกต้องว่าเป็นผลบวก เรียกอีกอย่างว่าความอ่อนไหว
การเรียกคืนที่กําหนดทางคณิตศาสตร์คือ
\[\text{Recall (or TPR)} = \frac{\text{correctly classified actual positives}}{\text{all actual positives}} = \frac{TP}{TP+FN}\]
ผลลบลวงคือผลบวกจริงที่ได้รับการจัดประเภทไม่ถูกต้องว่าเป็นผลลบ ซึ่งเป็นสาเหตุที่ทำให้ผลลบนั้นปรากฏในตัวส่วน ในตัวอย่างการจัดประเภทจดหมายขยะ อัตราความแม่นยำจะวัดเศษส่วนของอีเมลสแปมที่จัดประเภทเป็นจดหมายขยะอย่างถูกต้อง ด้วยเหตุนี้ การเรียกคืนจึงมีชื่อเรียกอีกอย่างว่าความน่าจะเป็นในการตรวจจับ เนื่องจากจะตอบคำถามที่ว่า "โมเดลนี้ตรวจพบอีเมลสแปมได้กี่เปอร์เซ็นต์"
โมเดลที่สมบูรณ์แบบสมมติจะไม่มีผลลบที่ผิดพลาดเลย ดังนั้นการเรียกคืน (TPR) จะเท่ากับ 1.0 ซึ่งก็คืออัตราการตรวจจับ 100%
ในชุดข้อมูลที่ไม่สมดุลกัน ซึ่งมีจำนวนผลบวกจริงน้อยมาก อย่างเช่น 1-2 ตัวอย่างโดยรวม ความอ่อนไหวจะมีความหมายน้อยกว่าและมีประโยชน์น้อยกว่าในแง่ของเมตริก
อัตราผลบวกเท็จ
อัตราผลบวกลวง (FPR) คือสัดส่วนของผลลบจริงทั้งหมดที่จัดประเภทอย่างไม่ถูกต้องว่าเป็นผลบวก หรือที่เรียกว่าความน่าจะเป็นของการแจ้งเตือนที่ผิดพลาด ซึ่งกำหนดทางคณิตศาสตร์ได้ดังนี้
\[\text{FPR} = \frac{\text{incorrectly classified actual negatives}} {\text{all actual negatives}} = \frac{FP}{FP+TN}\]
ผลบวกลวงคือผลลบจริงที่มีการแยกประเภทไม่ถูกต้อง จึงปรากฏในส่วนตัวหาร ในตัวอย่างการจัดประเภทสแปม FPR จะวัดเศษส่วนของอีเมลที่ถูกต้องซึ่งจัดประเภทเป็นจดหมายขยะอย่างไม่ถูกต้อง หรืออัตราการแจ้งเตือนที่ผิดพลาดของโมเดล
โมเดลที่สมบูรณ์แบบจะไม่มีผลบวกลวงเลย จึงมี FPR เท่ากับ 0.0 ซึ่งก็คืออัตราการแจ้งเตือนที่ผิดพลาด 0%
ในชุดข้อมูลที่ไม่สมดุลซึ่งมีจำนวนตัวอย่างเชิงลบจริงต่ำมาก เช่น มีเพียง 1-2 ตัวอย่างเท่านั้น FPR จะมีความหมายและมีประโยชน์น้อยลงในฐานะเมตริก
ความแม่นยำ
ความแม่นยำคือการสัดส่วนการจัดประเภทเชิงบวกทั้งหมดของโมเดลที่เป็นผลบวกจริง ซึ่งกำหนดทางคณิตศาสตร์ได้ดังนี้
\[\text{Precision} = \frac{\text{correctly classified actual positives}} {\text{everything classified as positive}} = \frac{TP}{TP+FP}\]
ในตัวอย่างการจัดประเภทจดหมายขยะ ความแม่นยำจะวัดเศษส่วนของอีเมลที่จัดประเภทว่าเป็นจดหมายขยะจริง
โมเดลสมบูรณ์แบบสมมติจะไม่มีข้อสันนิษฐานที่ผิดพลาด 0 ผลจึงมีความแม่นยำเท่ากับ 1.0
ในชุดข้อมูลที่ไม่สมดุลซึ่งมีจำนวนตัวอย่างเชิงบวกจริงต่ำมาก เช่น มีเพียง 1-2 ตัวอย่าง ความแม่นยำจะมีความหมายและมีประโยชน์น้อยลงในฐานะเมตริก
ความแม่นยำจะดีขึ้นเมื่อผลบวกลวงลดลง ส่วนความไวจะดีขึ้นเมื่อผลลบลวงลดลง แต่ดังที่กล่าวไว้ในส่วนก่อนหน้านี้ การเพิ่มเกณฑ์การจัดประเภทมีแนวโน้มที่จะลดจํานวนผลบวกลวงและเพิ่มจํานวนผลลบลวง ขณะที่การลดเกณฑ์จะส่งผลตรงกันข้าม ด้วยเหตุนี้ ความแม่นยำและการจดจําจึงมักแสดงความสัมพันธ์แบบผกผันกัน ซึ่งการปรับปรุงค่าใดค่าหนึ่งจะทำให้ค่าอีกค่าหนึ่งแย่ลง
ลองด้วยตัวคุณเอง
NaN หมายความว่าอย่างไรในเมตริก
NaN หรือ "ไม่ใช่ตัวเลข" จะปรากฏขึ้นเมื่อหารด้วย 0 ซึ่งอาจเกิดขึ้นกับเมตริกใดก็ได้ เช่น เมื่อ TP และ FP มีค่าเป็น 0 สูตรความแม่นยำจะมี 0 ในส่วนตัวหาร ซึ่งส่งผลให้เป็น NaN แม้ว่าในบางกรณี NaN อาจบ่งบอกถึงประสิทธิภาพที่สมบูรณ์แบบและอาจแทนที่ด้วยคะแนน 1.0 แต่ NaN ก็อาจมาจากโมเดลที่ไร้ประโยชน์ในทางปฏิบัติ เช่น โมเดลที่ไม่เคยคาดการณ์เป็นบวกจะมี TP 0 และ FP 0 รายการ ดังนั้นการคำนวณความแม่นยําจึงได้ผลลัพธ์เป็น NaN
ตัวเลือกเมตริกและข้อดีข้อเสีย
เมตริกที่คุณเลือกให้ความสําคัญเมื่อประเมินรูปแบบและเลือกเกณฑ์จะขึ้นอยู่กับต้นทุน ประโยชน์ และความเสี่ยงของปัญหาหนึ่งๆ ในตัวอย่างการจัดประเภทจดหมายขยะ มักจะมีเหตุผลที่จะให้ความสำคัญกับการเรียกคืน นั่นคือการจับอีเมลขยะทั้งหมด หรือความแม่นยำ นั่นคือพยายามตรวจสอบว่าอีเมลที่ติดป้ายกำกับว่าเป็นจดหมายขยะเป็นจดหมายขยะจริง หรือความสมดุลระหว่าง 2 อย่างนี้ โดยให้สูงกว่าระดับความแม่นยำขั้นต่ำ
เมตริก | คำแนะนำ |
---|---|
ความแม่นยำ | ใช้เป็นตัวบ่งชี้คร่าวๆ เกี่ยวกับความคืบหน้า/การบรรจบของการฝึกโมเดลสําหรับชุดข้อมูลที่สมดุล สําหรับประสิทธิภาพของโมเดล ให้ใช้ร่วมกับเมตริกอื่นๆ เท่านั้น หลีกเลี่ยงสำหรับชุดข้อมูลที่ไม่สมดุล ลองใช้เมตริกอื่น |
ความแม่นยำ (อัตราผลบวกจริง) |
ใช้เมื่อผลลบลวงมีราคาแพงกว่าผลบวกลวง |
อัตราผลบวกเท็จ | ใช้เมื่อผลบวกลวงมีค่าใช้จ่ายสูงกว่าผลลบลวง |
ความแม่นยำ | ใช้เมื่อการคาดการณ์เชิงบวกต้องมีความแม่นยำ |
(ไม่บังคับ ขั้นสูง) คะแนน F1
คะแนน F1 คือค่าเฉลี่ยฮาร์โมนิก (ค่าเฉลี่ยประเภทหนึ่ง) ของความแม่นยำและความไว
ในทางคณิตศาสตร์ สูตรหาค่านี้คือ
เมตริกนี้จะให้ความสำคัญกับความแม่นยำและความไวในการตรวจจับอย่างสมดุล และเหมาะกว่าความแม่นยำสำหรับชุดข้อมูลที่มีคลาสไม่สมดุล เมื่อทั้งความแม่นยำและความแม่นยำสัมพัทธ์มีคะแนน 1.0 ที่สมบูรณ์แบบ F1 ก็จะได้คะแนน 1.0 ที่สมบูรณ์แบบเช่นกัน กล่าวอย่างกว้างๆ คือ เมื่อความแม่นยำและการจดจํามีค่าใกล้เคียงกัน F1 ก็จะมีค่าใกล้เคียงกับค่าเหล่านั้น เมื่อความแม่นยำและการจดจําแตกต่างกันมาก F1 จะคล้ายกับเมตริกที่แย่กว่า