หน้านี้ได้รับการแปลโดย Cloud Translation API

การจัดประเภท: ความถูกต้อง การจดจำ ความแม่นยำ และเมตริกที่เกี่ยวข้อง

มีการใช้ทั้งผลบวกจริงและผลบวกเท็จในการคำนวณเพื่อการคำนวณ ในการประเมินโมเดล เมตริกการประเมินผลประเภทใดมากที่สุด ขึ้นอยู่กับรูปแบบเฉพาะและงานเฉพาะ ต้นทุน ของการจัดประเภทที่ไม่ถูกต้องที่แตกต่างกัน และชุดข้อมูลมีความสมดุลหรือ ไม่สมดุล

เมตริกทั้งหมดในส่วนนี้จะคำนวณที่เกณฑ์คงที่ค่าเดียว และเปลี่ยนเมื่อเกณฑ์เปลี่ยนแปลง บ่อยครั้งที่ผู้ใช้เปิดเพลง ในการเพิ่มประสิทธิภาพเมตริกใดเมตริกหนึ่งเหล่านี้

ความแม่นยำ

ความถูกต้องคือสัดส่วนของ ที่ถูกต้อง ไม่ว่าจะเป็นเชิงบวกหรือเชิงลบ ใช่เลย ซึ่งมีคำจำกัดความทางคณิตศาสตร์ดังนี้

\[\text{Accuracy} = \frac{\text{correct classifications}}{\text{total classifications}} = \frac{TP+TN}{TP+TN+FP+FN}\]

ในตัวอย่างการจัดประเภทสแปม ความแม่นยำจะวัดเศษส่วนของทั้งหมด อีเมลมีการจัดประเภทอย่างถูกต้อง

โมเดลที่สมบูรณ์แบบต้องมีผลบวกลวงเป็นศูนย์ และผลลบลวงเป็นศูนย์ และ จึงมีความแม่นยำอยู่ที่ 1.0 หรือ 100%

เนื่องจากรวบรวมผลลัพธ์ทั้ง 4 รายการจาก เมทริกซ์ความสับสน (TP, FP, TN, FN) ในกรณีที่ใช้ พร้อมจำนวนตัวอย่างที่คล้ายกันในทั้ง 2 คลาส ความแม่นยำสามารถ เป็นการวัดคุณภาพของโมเดลแบบละเอียด ด้วยเหตุนี้ จึงมัก เมตริกการประเมินเริ่มต้นที่ใช้สำหรับโมเดลทั่วไปหรือโมเดลที่ไม่ระบุ ดำเนินงานทั่วไปหรืองานที่ไม่ได้ระบุไว้

แต่เมื่อชุดข้อมูลไม่สมดุล หรือในกรณีที่ความผิดพลาดประเภทหนึ่ง (FN หรือ FP) มีค่าใช้จ่ายสูงกว่าอีกประเภทหนึ่ง ซึ่งก็คือ การใช้งานจริงส่วนใหญ่ได้ วิธีที่ดีคือเพิ่มประสิทธิภาพ เมตริกอื่นๆ แทน

สำหรับชุดข้อมูลที่ไม่สมดุลอย่างมาก ซึ่งมีคลาสหนึ่งปรากฏน้อยมาก เช่น 1% ของ โมเดลที่คาดการณ์ค่าลบ 100% ของเวลาทั้งหมดจะทำคะแนนได้ 99% เมื่อ ความถูกต้อง แม้จะไม่มีประโยชน์ก็ตาม

ความอ่อนไหวหรืออัตราผลบวกจริง

อัตราผลบวกจริง (TPR) หรือสัดส่วนของผลบวกจริงทั้งหมดที่ ได้รับการจัดประเภทอย่างถูกต้องว่าเป็นเชิงบวก หรือที่เรียกว่า การเรียกคืน

การเรียกคืนมีคำจำกัดความทางคณิตศาสตร์ดังนี้

\[\text{Recall (or TPR)} = \frac{\text{correctly classified actual positives}}{\text{all actual positives}} = \frac{TP}{TP+FN}\]

ผลลบลวงคือผลบวกจริงที่ได้รับการจัดประเภทไม่ถูกต้องว่าเป็นผลลบ เป็นสาเหตุที่แสดงในตัวส่วน ในตัวอย่างการจัดประเภทจดหมายขยะ การเรียกคืนจะวัดสัดส่วนของอีเมลจดหมายขยะที่ได้รับการจัดประเภทอย่างถูกต้องว่า จดหมายขยะ นี่คือสาเหตุที่การเรียกคืนมีชื่ออื่นคือความน่าจะเป็นของการตรวจจับ ซึ่งก็คือ ตอบคำถาม "สัดส่วนของอีเมลที่ตรวจจับได้ คืออะไร"

โมเดลสมบูรณ์แบบสมมติจะมีผลลบลวงเป็นศูนย์ ดังนั้น การเรียกคืน (TPR) ของ 1.0 ซึ่งก็คืออัตราการตรวจพบ 100%

ในชุดข้อมูลที่ไม่สมดุล ซึ่งมีจำนวนผลบวกจริง ต่ำ สมมติว่ามีตัวอย่างทั้งหมด 1-2 ตัวอย่าง การจำได้ไม่ค่อยมีความหมายและไม่ค่อยมีประโยชน์ เป็นเมตริก

อัตราผลบวกเท็จ

อัตราผลบวกลวง (FPR) เป็นสัดส่วนของผลลบจริงทั้งหมดที่จัดไม่ถูกต้อง ว่าเป็นผลบวก หรือที่เรียกว่าความน่าจะเป็นของสัญญาณเตือนที่ผิดพลาด ใช่เลย ซึ่งมีคำจำกัดความทางคณิตศาสตร์ดังนี้

\[\text{FPR} = \frac{\text{incorrectly classified actual negatives}} {\text{all actual negatives}} = \frac{FP}{FP+TN}\]

ผลบวกลวงคือผลลบจริงที่ได้รับการจัดประเภทไม่ถูกต้อง ซึ่งเป็นเหตุผลที่ทำให้ จะปรากฏในตัวส่วน ในตัวอย่างการจัดประเภทสแปม FPR จะวัด เศษส่วนของอีเมลที่ถูกต้องซึ่งได้รับการจัดประเภทอย่างไม่ถูกต้องว่าเป็นจดหมายขยะ หรือ อัตราการปลุกที่ผิดพลาดของโมเดล

โมเดลที่สมบูรณ์แบบต้องมีผลบวกลวงเป็นศูนย์ และดังนั้นจะมี FPR เท่ากับ 0.0 ซึ่งก็คืออัตราการแจ้งเตือนที่ผิดพลาด 0%

ในชุดข้อมูลที่ไม่สมดุล ซึ่งมีจำนวนผลลบจริง ต่ำ สมมติว่ามีตัวอย่างทั้งหมด 1-2 ตัวอย่าง FPR มีประโยชน์น้อยและไม่ค่อยมีประโยชน์ เป็นเมตริก

ความแม่นยำ

ความแม่นยำ คือสัดส่วนของการจัดประเภทที่เป็นบวกทั้งหมดของโมเดล ที่เป็นบวกจริงๆ โดยมีคำจำกัดความทางคณิตศาสตร์ดังนี้

\[\text{Precision} = \frac{\text{correctly classified actual positives}} {\text{everything classified as positive}} = \frac{TP}{TP+FP}\]

ในตัวอย่างการจัดประเภทจดหมายขยะ ความแม่นยำจะวัดเศษส่วนของอีเมล ถูกจัดประเภทว่าเป็นสแปม ซึ่งที่จริงแล้วเป็นสแปม

โมเดลสมบูรณ์แบบสมมติจะไม่มีผลบวกลวงเป็นศูนย์ ดังนั้น ความแม่นยำ 1.0

ในชุดข้อมูลที่ไม่สมดุล ซึ่งมีจำนวนผลบวกจริง ต่ำ สมมติว่ามีตัวอย่างรวม 1-2 ตัวอย่าง ความแม่นยําจะมีความหมายน้อยกว่าและมีประโยชน์น้อยลง เป็นเมตริก

ความแม่นยำจะดีขึ้นเมื่อผลบวกลวงลดลง ส่วนการจดจำจะดีขึ้นเมื่อ ผลลบลวงจะลดลง แต่อย่างที่เห็นในส่วนก่อนหน้านี้ การเพิ่มการแสดงผล เกณฑ์การจัดประเภท มีแนวโน้มที่จะลดจำนวนผลบวกลวงและ เพิ่มจำนวนผลลบลวง ในขณะที่การลดเกณฑ์จะมีค่า ผลกระทบตรงข้าม ด้วยเหตุนี้ ความแม่นยำและการจดจำจึงมักแสดงค่าผกผัน ความสัมพันธ์โดยการปรับปรุงอย่างใดอย่างหนึ่งกลับแย่ลงอีก

ลองด้วยตัวคุณเอง

NaN หมายความว่าอย่างไรในเมตริก

NaN หรือ "ไม่ใช่ตัวเลข" ปรากฏเมื่อหารด้วย 0 ซึ่งอาจเกิดขึ้นได้ ด้วยเมตริกใดๆ เหล่านี้ ตัวอย่างเช่น เมื่อ TP และ FP เป็น 0 ทั้งคู่ สูตรความแม่นยำมีตัวส่วนเป็น 0 ทำให้ได้ NaN ขณะที่ ในบางกรณี NaN อาจบ่งบอกถึงประสิทธิภาพที่ยอดเยี่ยมและ แทนที่ด้วยคะแนน 1.0 ซึ่งก็อาจมาจากโมเดลที่ใช้จริง ไร้ประโยชน์ เช่น โมเดลที่ไม่เคยคาดการณ์เป็นบวกจะมี TP เป็น 0 และ 0 FP ดังนั้นการคำนวณความแม่นยำจะได้ผลลัพธ์เป็น NaN

ตัวเลือกเมตริกและข้อดีข้อเสีย

เมตริกที่คุณเลือกจัดลําดับความสําคัญเมื่อประเมินโมเดลและ การเลือกเกณฑ์จะขึ้นอยู่กับค่าใช้จ่าย ประโยชน์ และความเสี่ยงของ ปัญหาที่เจาะจง ในตัวอย่างการจัดประเภทสแปมมักจะ สามารถให้ความสำคัญกับการจดจำ การจับอีเมลขยะทั้งหมด หรือความแม่นยำ เพื่อตรวจดูว่าอีเมลที่ติดป้ายกำกับสแปม นั้นที่จริงแล้วเป็นสแปม หรือ สมดุลระหว่างตัวเลือกทั้งสอง สูงกว่าระดับความแม่นยำขั้นต่ำบางอย่าง

เมตริก	คำแนะนำ
ความแม่นยำ	ใช้เป็นตัวบ่งชี้คร่าวๆ ของโมเดล ความคืบหน้า/การสนทนาสำหรับชุดข้อมูลที่สมดุล สำหรับประสิทธิภาพของโมเดล ให้ใช้ร่วมกับเมตริกอื่นๆ เท่านั้น หลีกเลี่ยงในกรณีที่ชุดข้อมูลไม่สมดุล ลองใช้เมตริกอื่น
ความอ่อนไหว (อัตราผลบวกจริง)	ใช้เมื่อผลลบลวงมากกว่า แพงกว่าการตรวจสอบที่ผิดพลาด
อัตราผลบวกเท็จ	ใช้เมื่อผลบวกลวงคือ แพงกว่าผลลบลวง
ความแม่นยำ	ใช้เมื่อมีความสำคัญต่อ การคาดการณ์ในเชิงบวก ได้อย่างแม่นยำ

(ไม่บังคับ ขั้นสูง) คะแนน F1

คะแนน F1 คือค่าเฉลี่ยฮาร์มอนิก ( ความแม่นยำและการจดจำ

ในทางคณิตศาสตร์แล้วได้มาจาก

\[\text{F1}=2*\frac{\text{precision * recall}}{\text{precision + recall}} = \frac{2\text{TP}}{2\text{TP + FP + FN}}\]

เมตริกนี้จะรักษาสมดุลระหว่างความสำคัญของความแม่นยำและการจดจำ ดีกว่าความแม่นยำสำหรับชุดข้อมูลที่ไม่สมดุลกัน เมื่อความแม่นยํา และจำได้ว่าทั้งคู่ได้ 1.0 คะแนนเต็ม F1 ก็จะได้คะแนนเต็มเหมือนกัน ของเวอร์ชัน 1.0 เมื่อมองกว้างๆ เมื่อความแม่นยำและความอ่อนไหวใกล้เคียงกับค่า F1 จะ ใกล้เคียงกับมูลค่าของพวกเขา เมื่อความแม่นยำและความอ่อนไหวอยู่ห่างกัน F1 จะ คล้ายกับเมตริกใดก็ตามที่แย่กว่า

แบบฝึกหัด: ตรวจสอบความเข้าใจ

โมเดลให้เอาต์พุต 5 TP, 6 TN, 3 FP และ 2 FN คำนวณการเรียกคืน

0.714

ความอ่อนไหวจะคำนวณเป็น [\frac{TP}{TP+FN}=\frac{5}{7}]

0.455

การเรียกคืนจะพิจารณาผลบวกจริงทั้งหมด ไม่ใช่ทั้งหมดที่ถูกต้อง การจำแนกประเภท สูตรการเรียกคืนคือ [\frac{TP}{TP+FN}]

0.625

ความอ่อนไหวจะพิจารณาผลบวกจริงทั้งหมด ไม่ใช่เชิงบวกทั้งหมด การจำแนกประเภท สูตรการเรียกคืนคือ [\frac{TP}{TP+FN}]

โมเดลให้เอาต์พุต 3 TP, 4 TN, 2 FP และ 1 FN คำนวณความแม่นยำ

0.6

ความแม่นยำจะคำนวณเป็น [\frac{TP}{TP+FP}=\frac{3}{5}]

0.75 บาท

ความแม่นยำจะพิจารณาการจัดประเภทที่เป็นบวกทั้งหมด ไม่ใช่ทั้งหมด ผลบวกจริง สูตรความแม่นยำคือ [\frac{TP}{TP+FP}]

0.429

ความแม่นยำจะพิจารณาการจัดประเภทที่เป็นบวกทั้งหมด ไม่ใช่ทั้งหมด ได้ถูกต้อง สูตรความแม่นยำคือ [\frac{TP}{TP+FP}]

คุณกำลังสร้างตัวแยกประเภทแบบไบนารีที่ตรวจสอบรูปภาพของกับดักแมลง ว่ามีสิ่งมีชีวิตต่างถิ่นรุกรานที่เป็นอันตรายหรือไม่ หากโมเดลตรวจพบ ชนิดพันธุ์ นักกีฏวิทยา (นักวิทยาศาสตร์แมลง) ที่ทำหน้าที่จะได้รับแจ้ง ระดับเริ่มต้น การตรวจพบแมลงนี้สำคัญมากต่อการป้องกันการรบกวน ต การแจ้งเตือนที่ผิดพลาด (ผลบวกลวง) นั้นจัดการได้ง่าย โดยนักกีฏวิทยาเล็งเห็นว่า รูปภาพถูกจัดประเภทอย่างไม่ถูกต้องและทำเครื่องหมายว่าเป็นเช่นนั้น ในกรณีที่ใช้ ระดับความแม่นยํา เมตริกนี้ควรเพิ่มประสิทธิภาพให้กับเมตริกใด

การจดจำ

ในสถานการณ์นี้ การแจ้งเตือนที่ผิดพลาด (FP) จะมีต้นทุนต่ำและเป็นเท็จ เชิงลบมีค่าใช้จ่ายสูง ดังนั้นจึงเหมาะสมที่จะเพิ่มความอ่อนไหวสูงสุด หรือความน่าจะเป็นของ การตรวจจับ

อัตราผลบวกลวง (FPR)

ในสถานการณ์นี้ การแจ้งเตือนที่ผิดพลาด (FP) จะมีต้นทุนต่ำ กำลังพยายาม เพื่อลดความเสี่ยงที่จะพลาดผลบวกจริง ความรู้สึก

ความแม่นยำ

ในสถานการณ์นี้ สัญญาณเตือนที่ผิดพลาด (FP) ไม่ได้เป็นเช่นนั้น เป็นอันตราย ดังนั้นการพยายามปรับปรุงความถูกต้องของการจัดหมวดหมู่เชิงบวก ไม่มีเหตุผล

เกณฑ์และเมทริกซ์ความสับสน (12 นาที)

ROC และ AUC (10 นาที)