มีการใช้ทั้งผลบวกจริงและผลบวกเท็จในการคำนวณเพื่อการคำนวณ ในการประเมินโมเดล เมตริกการประเมินผลประเภทใดมากที่สุด ขึ้นอยู่กับรูปแบบเฉพาะและงานเฉพาะ ต้นทุน ของการจัดประเภทที่ไม่ถูกต้องที่แตกต่างกัน และชุดข้อมูลมีความสมดุลหรือ ไม่สมดุล
เมตริกทั้งหมดในส่วนนี้จะคำนวณที่เกณฑ์คงที่ค่าเดียว และเปลี่ยนเมื่อเกณฑ์เปลี่ยนแปลง บ่อยครั้งที่ผู้ใช้เปิดเพลง ในการเพิ่มประสิทธิภาพเมตริกใดเมตริกหนึ่งเหล่านี้
ความแม่นยำ
ความถูกต้องคือสัดส่วนของ ที่ถูกต้อง ไม่ว่าจะเป็นเชิงบวกหรือเชิงลบ ใช่เลย ซึ่งมีคำจำกัดความทางคณิตศาสตร์ดังนี้
\[\text{Accuracy} = \frac{\text{correct classifications}}{\text{total classifications}} = \frac{TP+TN}{TP+TN+FP+FN}\]
ในตัวอย่างการจัดประเภทสแปม ความแม่นยำจะวัดเศษส่วนของทั้งหมด อีเมลมีการจัดประเภทอย่างถูกต้อง
โมเดลที่สมบูรณ์แบบต้องมีผลบวกลวงเป็นศูนย์ และผลลบลวงเป็นศูนย์ และ จึงมีความแม่นยำอยู่ที่ 1.0 หรือ 100%
เนื่องจากรวบรวมผลลัพธ์ทั้ง 4 รายการจาก เมทริกซ์ความสับสน (TP, FP, TN, FN) ในกรณีที่ใช้ พร้อมจำนวนตัวอย่างที่คล้ายกันในทั้ง 2 คลาส ความแม่นยำสามารถ เป็นการวัดคุณภาพของโมเดลแบบละเอียด ด้วยเหตุนี้ จึงมัก เมตริกการประเมินเริ่มต้นที่ใช้สำหรับโมเดลทั่วไปหรือโมเดลที่ไม่ระบุ ดำเนินงานทั่วไปหรืองานที่ไม่ได้ระบุไว้
แต่เมื่อชุดข้อมูลไม่สมดุล หรือในกรณีที่ความผิดพลาดประเภทหนึ่ง (FN หรือ FP) มีค่าใช้จ่ายสูงกว่าอีกประเภทหนึ่ง ซึ่งก็คือ การใช้งานจริงส่วนใหญ่ได้ วิธีที่ดีคือเพิ่มประสิทธิภาพ เมตริกอื่นๆ แทน
สำหรับชุดข้อมูลที่ไม่สมดุลอย่างมาก ซึ่งมีคลาสหนึ่งปรากฏน้อยมาก เช่น 1% ของ โมเดลที่คาดการณ์ค่าลบ 100% ของเวลาทั้งหมดจะทำคะแนนได้ 99% เมื่อ ความถูกต้อง แม้จะไม่มีประโยชน์ก็ตาม
ความอ่อนไหวหรืออัตราผลบวกจริง
อัตราผลบวกจริง (TPR) หรือสัดส่วนของผลบวกจริงทั้งหมดที่ ได้รับการจัดประเภทอย่างถูกต้องว่าเป็นเชิงบวก หรือที่เรียกว่า การเรียกคืน
การเรียกคืนมีคำจำกัดความทางคณิตศาสตร์ดังนี้
\[\text{Recall (or TPR)} = \frac{\text{correctly classified actual positives}}{\text{all actual positives}} = \frac{TP}{TP+FN}\]
ผลลบลวงคือผลบวกจริงที่ได้รับการจัดประเภทไม่ถูกต้องว่าเป็นผลลบ เป็นสาเหตุที่แสดงในตัวส่วน ในตัวอย่างการจัดประเภทจดหมายขยะ การเรียกคืนจะวัดสัดส่วนของอีเมลจดหมายขยะที่ได้รับการจัดประเภทอย่างถูกต้องว่า จดหมายขยะ นี่คือสาเหตุที่การเรียกคืนมีชื่ออื่นคือความน่าจะเป็นของการตรวจจับ ซึ่งก็คือ ตอบคำถาม "สัดส่วนของอีเมลที่ตรวจจับได้ คืออะไร"
โมเดลสมบูรณ์แบบสมมติจะมีผลลบลวงเป็นศูนย์ ดังนั้น การเรียกคืน (TPR) ของ 1.0 ซึ่งก็คืออัตราการตรวจพบ 100%
ในชุดข้อมูลที่ไม่สมดุล ซึ่งมีจำนวนผลบวกจริง ต่ำ สมมติว่ามีตัวอย่างทั้งหมด 1-2 ตัวอย่าง การจำได้ไม่ค่อยมีความหมายและไม่ค่อยมีประโยชน์ เป็นเมตริก
อัตราผลบวกเท็จ
อัตราผลบวกลวง (FPR) เป็นสัดส่วนของผลลบจริงทั้งหมดที่จัดไม่ถูกต้อง ว่าเป็นผลบวก หรือที่เรียกว่าความน่าจะเป็นของสัญญาณเตือนที่ผิดพลาด ใช่เลย ซึ่งมีคำจำกัดความทางคณิตศาสตร์ดังนี้
\[\text{FPR} = \frac{\text{incorrectly classified actual negatives}} {\text{all actual negatives}} = \frac{FP}{FP+TN}\]
ผลบวกลวงคือผลลบจริงที่ได้รับการจัดประเภทไม่ถูกต้อง ซึ่งเป็นเหตุผลที่ทำให้ จะปรากฏในตัวส่วน ในตัวอย่างการจัดประเภทสแปม FPR จะวัด เศษส่วนของอีเมลที่ถูกต้องซึ่งได้รับการจัดประเภทอย่างไม่ถูกต้องว่าเป็นจดหมายขยะ หรือ อัตราการปลุกที่ผิดพลาดของโมเดล
โมเดลที่สมบูรณ์แบบต้องมีผลบวกลวงเป็นศูนย์ และดังนั้นจะมี FPR เท่ากับ 0.0 ซึ่งก็คืออัตราการแจ้งเตือนที่ผิดพลาด 0%
ในชุดข้อมูลที่ไม่สมดุล ซึ่งมีจำนวนผลลบจริง ต่ำ สมมติว่ามีตัวอย่างทั้งหมด 1-2 ตัวอย่าง FPR มีประโยชน์น้อยและไม่ค่อยมีประโยชน์ เป็นเมตริก
ความแม่นยำ
ความแม่นยำ คือสัดส่วนของการจัดประเภทที่เป็นบวกทั้งหมดของโมเดล ที่เป็นบวกจริงๆ โดยมีคำจำกัดความทางคณิตศาสตร์ดังนี้
\[\text{Precision} = \frac{\text{correctly classified actual positives}} {\text{everything classified as positive}} = \frac{TP}{TP+FP}\]
ในตัวอย่างการจัดประเภทจดหมายขยะ ความแม่นยำจะวัดเศษส่วนของอีเมล ถูกจัดประเภทว่าเป็นสแปม ซึ่งที่จริงแล้วเป็นสแปม
โมเดลสมบูรณ์แบบสมมติจะไม่มีผลบวกลวงเป็นศูนย์ ดังนั้น ความแม่นยำ 1.0
ในชุดข้อมูลที่ไม่สมดุล ซึ่งมีจำนวนผลบวกจริง ต่ำ สมมติว่ามีตัวอย่างรวม 1-2 ตัวอย่าง ความแม่นยําจะมีความหมายน้อยกว่าและมีประโยชน์น้อยลง เป็นเมตริก
ความแม่นยำจะดีขึ้นเมื่อผลบวกลวงลดลง ส่วนการจดจำจะดีขึ้นเมื่อ ผลลบลวงจะลดลง แต่อย่างที่เห็นในส่วนก่อนหน้านี้ การเพิ่มการแสดงผล เกณฑ์การจัดประเภท มีแนวโน้มที่จะลดจำนวนผลบวกลวงและ เพิ่มจำนวนผลลบลวง ในขณะที่การลดเกณฑ์จะมีค่า ผลกระทบตรงข้าม ด้วยเหตุนี้ ความแม่นยำและการจดจำจึงมักแสดงค่าผกผัน ความสัมพันธ์โดยการปรับปรุงอย่างใดอย่างหนึ่งกลับแย่ลงอีก
ลองด้วยตัวคุณเอง
NaN หมายความว่าอย่างไรในเมตริก
NaN หรือ "ไม่ใช่ตัวเลข" ปรากฏเมื่อหารด้วย 0 ซึ่งอาจเกิดขึ้นได้ ด้วยเมตริกใดๆ เหล่านี้ ตัวอย่างเช่น เมื่อ TP และ FP เป็น 0 ทั้งคู่ สูตรความแม่นยำมีตัวส่วนเป็น 0 ทำให้ได้ NaN ขณะที่ ในบางกรณี NaN อาจบ่งบอกถึงประสิทธิภาพที่ยอดเยี่ยมและ แทนที่ด้วยคะแนน 1.0 ซึ่งก็อาจมาจากโมเดลที่ใช้จริง ไร้ประโยชน์ เช่น โมเดลที่ไม่เคยคาดการณ์เป็นบวกจะมี TP เป็น 0 และ 0 FP ดังนั้นการคำนวณความแม่นยำจะได้ผลลัพธ์เป็น NaN
ตัวเลือกเมตริกและข้อดีข้อเสีย
เมตริกที่คุณเลือกจัดลําดับความสําคัญเมื่อประเมินโมเดลและ การเลือกเกณฑ์จะขึ้นอยู่กับค่าใช้จ่าย ประโยชน์ และความเสี่ยงของ ปัญหาที่เจาะจง ในตัวอย่างการจัดประเภทสแปมมักจะ สามารถให้ความสำคัญกับการจดจำ การจับอีเมลขยะทั้งหมด หรือความแม่นยำ เพื่อตรวจดูว่าอีเมลที่ติดป้ายกำกับสแปม นั้นที่จริงแล้วเป็นสแปม หรือ สมดุลระหว่างตัวเลือกทั้งสอง สูงกว่าระดับความแม่นยำขั้นต่ำบางอย่าง
เมตริก | คำแนะนำ |
---|---|
ความแม่นยำ | ใช้เป็นตัวบ่งชี้คร่าวๆ ของโมเดล ความคืบหน้า/การสนทนาสำหรับชุดข้อมูลที่สมดุล สำหรับประสิทธิภาพของโมเดล ให้ใช้ร่วมกับเมตริกอื่นๆ เท่านั้น หลีกเลี่ยงในกรณีที่ชุดข้อมูลไม่สมดุล ลองใช้เมตริกอื่น |
ความอ่อนไหว (อัตราผลบวกจริง) |
ใช้เมื่อผลลบลวงมากกว่า แพงกว่าการตรวจสอบที่ผิดพลาด |
อัตราผลบวกเท็จ | ใช้เมื่อผลบวกลวงคือ แพงกว่าผลลบลวง |
ความแม่นยำ | ใช้เมื่อมีความสำคัญต่อ การคาดการณ์ในเชิงบวก ได้อย่างแม่นยำ |
(ไม่บังคับ ขั้นสูง) คะแนน F1
คะแนน F1 คือค่าเฉลี่ยฮาร์มอนิก ( ความแม่นยำและการจดจำ
ในทางคณิตศาสตร์แล้วได้มาจาก
เมตริกนี้จะรักษาสมดุลระหว่างความสำคัญของความแม่นยำและการจดจำ ดีกว่าความแม่นยำสำหรับชุดข้อมูลที่ไม่สมดุลกัน เมื่อความแม่นยํา และจำได้ว่าทั้งคู่ได้ 1.0 คะแนนเต็ม F1 ก็จะได้คะแนนเต็มเหมือนกัน ของเวอร์ชัน 1.0 เมื่อมองกว้างๆ เมื่อความแม่นยำและความอ่อนไหวใกล้เคียงกับค่า F1 จะ ใกล้เคียงกับมูลค่าของพวกเขา เมื่อความแม่นยำและความอ่อนไหวอยู่ห่างกัน F1 จะ คล้ายกับเมตริกใดก็ตามที่แย่กว่า