หน้านี้ได้รับการแปลโดย Cloud Translation API

การจัดประเภท: ความถูกต้อง การจดจำ ความแม่นยำ และเมตริกที่เกี่ยวข้อง

ระบบจะใช้ผลบวกลวงและผลลบจริงเพื่อคํานวณเมตริกที่มีประโยชน์หลายรายการสําหรับการประเมินโมเดล เมตริกการประเมินที่มีประโยชน์มากที่สุดจะขึ้นอยู่กับโมเดลและงานเฉพาะ ต้นทุนของการแยกประเภทที่ไม่ถูกต้อง และชุดข้อมูลมีความสมดุลหรือไม่สมดุล

เมตริกทั้งหมดในส่วนนี้จะคํานวณตามเกณฑ์คงที่เดียว และเปลี่ยนแปลงเมื่อเกณฑ์เปลี่ยนแปลง ผู้ใช้มักจะปรับเกณฑ์เพื่อเพิ่มประสิทธิภาพเมตริกใดเมตริกหนึ่งเหล่านี้

ความแม่นยำ

ความแม่นยำคือสัดส่วนการจัดประเภททั้งหมดที่ถูกต้อง ไม่ว่าจะจัดประเภทเป็นบวกหรือลบ ซึ่งกำหนดทางคณิตศาสตร์ได้ดังนี้

\[\text{Accuracy} = \frac{\text{correct classifications}}{\text{total classifications}} = \frac{TP+TN}{TP+TN+FP+FN}\]

ในตัวอย่างการจัดประเภทจดหมายขยะ ความถูกต้องจะวัดเศษส่วนของอีเมลทั้งหมดที่จัดประเภทอย่างถูกต้อง

โมเดลที่สมบูรณ์แบบจะไม่มีผลบวกลวงและผลลบลวง ดังนั้นความแม่นยำจึงเท่ากับ 1.0 หรือ 100%

เนื่องจากรวมเอาผลลัพธ์ทั้ง 4 รายการจากเมทริกซ์ความสับสน (TP, FP, TN, FN) ไว้ด้วยกัน เมื่อใช้ชุดข้อมูลที่สมดุลซึ่งมีตัวอย่างจำนวนใกล้เคียงกันในแต่ละคลาส ความแม่นยำจึงใช้เป็นตัววัดคุณภาพโมเดลแบบหยาบได้ ด้วยเหตุนี้ เมตริกนี้จึงมักเป็นเมตริกการประเมินเริ่มต้นที่ใช้กับโมเดลทั่วไปหรือไม่ได้ระบุ ซึ่งทํางานทั่วไปหรือไม่ได้ระบุ

อย่างไรก็ตาม เมื่อชุดข้อมูลไม่สมดุล หรือเมื่อความผิดพลาด 1 ประเภท (FN หรือ FP) มีค่าใช้จ่ายมากกว่าอีกประเภทหนึ่ง ซึ่งมักเป็นกรณีที่เกิดขึ้นจริงส่วนใหญ่ คุณควรเพิ่มประสิทธิภาพสำหรับเมตริกอื่นแทน

สําหรับชุดข้อมูลที่มีความไม่สมดุลอย่างมาก ซึ่งคลาสหนึ่งปรากฏขึ้นน้อยมาก เช่น 1% ของเวลา โมเดลที่คาดการณ์ค่าลบ 100% ของเวลาจะได้รับคะแนนความแม่นยํา 99% แม้ว่าจะไร้ประโยชน์ก็ตาม

ความไวหรืออัตราผลบวกจริง

อัตราผลบวกจริง (TPR) หรือสัดส่วนของผลบวกจริงทั้งหมดที่จัดประเภทเป็นบวกอย่างถูกต้อง เรียกอีกอย่างว่าความไว

การเรียกคืนที่กําหนดทางคณิตศาสตร์คือ

\[\text{Recall (or TPR)} = \frac{\text{correctly classified actual positives}}{\text{all actual positives}} = \frac{TP}{TP+FN}\]

ผลลบลวงคือผลบวกจริงที่ระบบจัดประเภทเป็นผลลบอย่างไม่ถูกต้อง จึงปรากฏในตัวส่วน ในตัวอย่างการจัดประเภทจดหมายขยะ อัตราความแม่นยำจะวัดเศษส่วนของอีเมลสแปมที่จัดประเภทเป็นจดหมายขยะอย่างถูกต้อง ด้วยเหตุนี้ การเรียกคืนจึงมีชื่อเรียกอีกอย่างว่าความน่าจะเป็นในการตรวจจับ เนื่องจากจะตอบคำถามที่ว่า "โมเดลนี้ตรวจพบอีเมลสแปมได้กี่เปอร์เซ็นต์"

โมเดลที่สมบูรณ์แบบสมมติจะไม่มีผลลบที่ผิดพลาดเลย ดังนั้นการเรียกคืน (TPR) จะเท่ากับ 1.0 ซึ่งก็คืออัตราการตรวจจับ 100%

ในชุดข้อมูลที่ไม่สมดุลซึ่งมีจํานวนผลบวกจริงต่ำมาก ความไวเป็นเมตริกที่มีความหมายมากกว่าความแม่นยำ เนื่องจากจะวัดความสามารถของโมเดลในการระบุอินสแตนซ์เชิงบวกทั้งหมดได้อย่างถูกต้อง สําหรับแอปพลิเคชันอย่างการคาดการณ์โรค การระบุกรณีที่เป็นบวกอย่างถูกต้องเป็นสิ่งสําคัญ โดยปกติแล้ว ผลลบเท็จจะมีผลที่ร้ายแรงกว่าผลบวกลวง ดูตัวอย่างที่ชัดเจนของการเปรียบเทียบเมตริกความแม่นยำและความแม่นยำได้ที่หมายเหตุในคำจำกัดความของความแม่นยำ

อัตราผลบวกเท็จ

อัตราผลบวกลวง (FPR) คือสัดส่วนของผลลบจริงทั้งหมดที่จัดประเภทอย่างไม่ถูกต้องว่าเป็นผลบวก หรือที่เรียกว่าความน่าจะเป็นของการแจ้งเตือนที่ผิดพลาด ซึ่งกำหนดทางคณิตศาสตร์ได้ดังนี้

\[\text{FPR} = \frac{\text{incorrectly classified actual negatives}} {\text{all actual negatives}} = \frac{FP}{FP+TN}\]

ผลบวกลวงคือผลลบจริงที่มีการแยกประเภทไม่ถูกต้อง จึงปรากฏในส่วนตัวหาร ในตัวอย่างการจัดประเภทสแปม FPR จะวัดเศษส่วนของอีเมลที่ถูกต้องซึ่งจัดประเภทอย่างไม่ถูกต้องว่าเป็นจดหมายขยะ หรืออัตราการแจ้งเตือนที่ผิดพลาดของโมเดล

โมเดลที่สมบูรณ์แบบจะไม่มีผลบวกลวงเลย จึงมี FPR เท่ากับ 0.0 ซึ่งก็คืออัตราการแจ้งเตือนที่ผิดพลาด 0%

ในชุดข้อมูลที่ไม่สมดุลซึ่งมีจำนวนตัวอย่างเชิงลบจริงต่ำมาก เช่น มีเพียง 1-2 ตัวอย่างเท่านั้น FPR จะไม่มีความหมายและมีประโยชน์น้อยลงในฐานะเมตริก

ความแม่นยำ

ความแม่นยำคือการสัดส่วนการจัดประเภทเชิงบวกทั้งหมดของโมเดลที่เป็นผลบวกจริง ซึ่งกำหนดทางคณิตศาสตร์ได้ดังนี้

\[\text{Precision} = \frac{\text{correctly classified actual positives}} {\text{everything classified as positive}} = \frac{TP}{TP+FP}\]

ในตัวอย่างการจัดประเภทจดหมายขยะ ความแม่นยำจะวัดเศษส่วนของอีเมลที่จัดประเภทว่าเป็นจดหมายขยะซึ่งจริงๆ แล้วเป็นสแปม

โมเดลสมมติที่สมบูรณ์แบบจะไม่มีผลบวกลวงเลย จึงมีความแม่นยำ 1.0

ในชุดข้อมูลที่ไม่สมดุลซึ่งมีจำนวนตัวอย่างเชิงบวกจริงต่ำมาก เช่น มีเพียง 1-2 ตัวอย่าง ความแม่นยำจะมีความหมายและมีประโยชน์น้อยลงในฐานะเมตริก

ความแม่นยำจะดีขึ้นเมื่อผลบวกลวงลดลง ส่วนความไวจะดีขึ้นเมื่อผลลบลวงลดลง แต่ดังที่กล่าวไว้ในส่วนก่อนหน้านี้ การเพิ่มเกณฑ์การจัดประเภทมีแนวโน้มที่จะลดจํานวนผลบวกลวงและเพิ่มจํานวนผลลบลวง ขณะที่การลดเกณฑ์จะส่งผลตรงกันข้าม ด้วยเหตุนี้ ความแม่นยำและการจดจําจึงมักแสดงความสัมพันธ์แบบผกผันกัน ซึ่งการปรับปรุงค่าใดค่าหนึ่งจะทำให้ค่าอีกค่าหนึ่งแย่ลง

ลองใช้ด้วยตัวคุณเอง

NaN ในเมตริกหมายถึงอะไร

NaN หรือ "ไม่ใช่ตัวเลข" จะปรากฏขึ้นเมื่อหารด้วย 0 ซึ่งอาจเกิดขึ้นกับเมตริกใดก็ได้ เช่น เมื่อ TP และ FP มีค่าเป็น 0 สูตรความแม่นยำจะมี 0 ในส่วนตัวหาร ซึ่งส่งผลให้เป็น NaN แม้ว่าในบางกรณี NaN อาจบ่งบอกถึงประสิทธิภาพที่สมบูรณ์แบบและอาจแทนที่ด้วยคะแนน 1.0 แต่ NaN ก็อาจมาจากโมเดลที่แทบจะไร้ประโยชน์ ตัวอย่างเช่น โมเดลที่ไม่เคยคาดการณ์เป็นบวกจะมี TP เท่ากับ 0 และ FP เท่ากับ 0 ดังนั้นการคำนวณความแม่นยำของโมเดลจะส่งผลให้ค่าเป็น NaN

การเลือกเมตริกและการแลกเปลี่ยน

เมตริกที่คุณเลือกให้ความสําคัญเมื่อประเมินรูปแบบและเลือกเกณฑ์จะขึ้นอยู่กับต้นทุน ประโยชน์ และความเสี่ยงของปัญหาหนึ่งๆ ในตัวอย่างการจัดประเภทจดหมายขยะ มักจะมีความสมเหตุสมผลที่จะให้ความสำคัญกับการเรียกคืน นั่นคือการจับอีเมลขยะทั้งหมด หรือความแม่นยำ นั่นคือพยายามตรวจสอบว่าอีเมลที่ติดป้ายกำกับว่าเป็นจดหมายขยะเป็นจดหมายขยะจริง หรือความสมดุลระหว่าง 2 อย่างนี้ โดยให้สูงกว่าระดับความแม่นยำขั้นต่ำ

เมตริก	คำแนะนำ
ความแม่นยำ	ใช้เป็นตัวบ่งชี้คร่าวๆ เกี่ยวกับความคืบหน้า/การบรรจบของการฝึกโมเดลสําหรับชุดข้อมูลที่สมดุล สําหรับประสิทธิภาพของโมเดล ให้ใช้ร่วมกับเมตริกอื่นๆ เท่านั้น หลีกเลี่ยงการใช้กับชุดข้อมูลที่ไม่สมดุล ลองใช้เมตริกอื่น
ความแม่นยำ (อัตราผลบวกจริง)	ใช้เมื่อผลลบลวงมีค่าใช้จ่ายสูงกว่าผลบวกลวง
อัตราผลบวกเท็จ	ใช้เมื่อผลบวกลวงมีค่าใช้จ่ายสูงกว่าผลลบลวง
ความแม่นยำ	ใช้เมื่อการคาดการณ์เชิงบวกต้องมีความแม่นยำ

(ไม่บังคับ ขั้นสูง) คะแนน F1

คะแนน F1 คือค่าเฉลี่ยฮาร์โมนิก (ค่าเฉลี่ยประเภทหนึ่ง) ของความแม่นยำและความแม่นยำ

ในทางคณิตศาสตร์ สูตรหาค่านี้คือ

\[\text{F1}=2*\frac{\text{precision * recall}}{\text{precision + recall}} = \frac{2\text{TP}}{2\text{TP + FP + FN}}\]

เมตริกนี้จะให้ความสำคัญกับความแม่นยำและความไวในการตรวจจับอย่างสมดุล และเหมาะกว่าความแม่นยำสำหรับชุดข้อมูลที่มีคลาสไม่สมดุล เมื่อทั้งความแม่นยำและความแม่นยำสัมพัทธ์มีคะแนน 1.0 ที่สมบูรณ์แบบ F1 ก็จะได้คะแนน 1.0 ที่สมบูรณ์แบบเช่นกัน กล่าวอย่างกว้างๆ คือ เมื่อความแม่นยำและการจดจํามีค่าใกล้เคียงกัน F1 ก็จะมีค่าใกล้เคียงกับค่าเหล่านั้น เมื่อความแม่นยำและการจดจําแตกต่างกันมาก F1 จะคล้ายกับเมตริกที่แย่กว่า

แบบฝึกหัด: ทดสอบความเข้าใจ

โมเดลแสดงผล TP 5 รายการ, TN 6 รายการ, FP 3 รายการ และ FN 2 รายการ คํานวณการจํา

0.714

การเรียกคืนคำนวณเป็น \(\frac{TP}{TP+FN}=\frac{5}{7}\)

0.455

การเรียกคืนจะพิจารณาผลบวกจริงทั้งหมด ไม่ใช่การแยกประเภทที่ถูกต้องทั้งหมด สูตรสำหรับการเรียกคืนคือ \(\frac{TP}{TP+FN}\)

0.625

การเรียกคืนจะพิจารณารายการที่เป็นบวกจริงทั้งหมด ไม่ใช่การแยกประเภทที่เป็นบวกทั้งหมด สูตรสำหรับการเรียกคืนคือ \(\frac{TP}{TP+FN}\)

โมเดลแสดงผล TP 3 รายการ, TN 4 รายการ, FP 2 รายการ และ FN 1 รายการ คํานวณความแม่นยำ

0.6

ความแม่นยำคำนวณเป็น \(\frac{TP}{TP+FP}=\frac{3}{5}\)

0.75

ความแม่นยำจะพิจารณาการแยกประเภทเชิงบวกทั้งหมด ไม่ใช่เชิงบวกจริงทั้งหมด สูตรความแม่นยำคือ \(\frac{TP}{TP+FP}\)

0.429

ความแม่นยำจะพิจารณาการจัดประเภทเชิงบวกทั้งหมด ไม่ใช่การจัดประเภทที่ถูกต้องทั้งหมด สูตรความแม่นยำคือ \(\frac{TP}{TP+FP}\)

คุณกําลังสร้างตัวแยกประเภทแบบ 2 ค่าที่จะตรวจสอบรูปภาพกับดักแมลงเพื่อดูว่ามีสัตว์สายพันธุ์ที่รุกรานที่เป็นอันตรายหรือไม่ หากโมเดลตรวจพบสายพันธุ์ดังกล่าว ระบบจะแจ้งเตือนนักกีฏวิทยา (นักวิทยาศาสตร์ด้านแมลง) ที่อยู่ในหน้าที่ การพบแมลงชนิดนี้ตั้งแต่เนิ่นๆ เป็นสิ่งสำคัญในการป้องกันการแพร่ระบาด การแจ้งเตือนที่ผิดพลาด (ผลบวกลวง) จัดการได้ง่าย นักกีฏวิทยาจะเห็นได้ว่ารูปภาพได้รับการจัดประเภทไม่ถูกต้องและจะทําเครื่องหมายรูปภาพดังกล่าว สมมติว่าระดับความแม่นยำเป็นที่ยอมรับแล้ว เมตริกใดที่โมเดลนี้ควรเพิ่มประสิทธิภาพมากที่สุด

การจดจำ

ในสถานการณ์นี้ การแจ้งเตือนที่ผิดพลาด (FP) มีต้นทุนต่ำ และการแจ้งเตือนที่ผิดพลาด (FN) มีต้นทุนสูง จึงควรเพิ่มการเรียกคืนหรือความน่าจะเป็นในการตรวจจับให้สูงสุด

อัตราผลบวกลวง (FPR)

ในกรณีนี้ การแจ้งเตือนที่ผิดพลาด (FP) มีต้นทุนต่ำ การพยายามลดจำนวนผลบวกลวงโดยเสี่ยงที่จะพลาดผลบวกจริงนั้นไม่สมเหตุสมผล

ความแม่นยำ

ในสถานการณ์นี้ การแจ้งเตือนที่ผิดพลาด (FP) ไม่ได้เป็นอันตรายมากนัก ดังนั้นการพยายามปรับปรุงความถูกต้องของการจัดประเภทเชิงบวกจึงไม่มีเหตุผล

เกณฑ์และเมทริกซ์ความสับสน (12 นาที)

ROC และ AUC (10 นาที)