เมื่อประเมินโมเดล เมตริกที่คํานวณโดยเทียบกับชุดการทดสอบหรือการตรวจสอบทั้งหมดไม่ได้ช่วยให้เห็นภาพว่าโมเดลมีความยุติธรรมเพียงใด
พิจารณาโมเดลใหม่ที่พัฒนาเพื่อคาดการณ์เนื้องอกที่ได้รับการประเมินเทียบกับชุดการตรวจสอบของผู้ป่วย 1,000 รายและ#39 รายการเวชระเบียน บันทึก 500 รายการ มาจากผู้ป่วยเพศหญิง และ 500 ระเบียนมาจากผู้ป่วยชาย เมทริกซ์การเชื่อถือต่อไปนี้จะสรุปผลลัพธ์สําหรับตัวอย่างทั้ง 1,000 รายการ
ผลบวกจริง (TP): 16 | False Positives (FPS): 4 |
คีย์เวิร์ดเชิงลบปลอม (FN): 6 | ผลลบจริง (TN): 974 |
$$\text{Precision} = \frac{TP}{TP+FP} = \frac{16}{16+4} = 0.800$$ | |
$$\text{Recall} = \frac{TP}{TP+FN} = \frac{16}{16+6} = 0.727$$ |
ผลลัพธ์เหล่านี้มีความเป็นไปได้: ความแม่นยํา 80% และการเรียกคืน 72.7% จะเกิดอะไรขึ้นหากเราคํานวณผลลัพธ์แยกต่างหากสําหรับผู้ป่วยแต่ละกลุ่ม มาแจกแจงผลลัพธ์เป็นเมทริกซ์ความสับสน 2 แบบด้วยกัน คือ แบบสําหรับผู้ป่วยหญิงและสําหรับผู้ป่วยเพศชาย
ผลการค้นหาผู้ป่วยเพศหญิง
ผลบวกจริง (TP): 10 | False Positives (FPS): 1 |
คีย์เวิร์ดเชิงลบปลอม (FN): 1 | คีย์เวิร์ดเชิงลบจริง (TN): 488 |
$$\text{Precision} = \frac{TP}{TP+FP} = \frac{10}{10+1} = 0.909$$ | |
$$\text{Recall} = \frac{TP}{TP+FN} = \frac{10}{10+1} = 0.909$$ |
ผลการค้นหาผู้ป่วยชาย
ผลบวกจริง (TP): 6 | การตรวจสอบที่ผิดพลาด (FPs): 3 |
คีย์เวิร์ดเชิงลบปลอม (FN): 5 | คีย์เวิร์ดเชิงลบจริง (TN): 486 |
$$\text{Precision} = \frac{TP}{TP+FP} = \frac{6}{6+3} = 0.667$$ | |
$$\text{Recall} = \frac{TP}{TP+FN} = \frac{6}{6+5} = 0.545$$ |
เมื่อเราคํานวณเมตริกสําหรับผู้ป่วยหญิงและผู้ชายแยกกัน เราจะเห็นความแตกต่างของประสิทธิภาพของโมเดลสําหรับแต่ละกลุ่ม
ผู้ป่วยหญิง:
จากผู้ป่วยหญิง 11 รายที่มีเนื้องอกจริงๆ โมเดลคาดการณ์ได้แม่นยํา ต่อผู้ป่วย 10 คน (อัตราการจําได้: 90.9%) กล่าวคือ โมเดลจะไม่ได้วินิจฉัยการวินิจฉัยเนื้องอกใน 9.1% ของกรณีหญิง
ในทํานองเดียวกัน เมื่อรูปแบบแสดงค่าบวกสําหรับเนื้องอกในผู้ป่วยเพศหญิง ค่าจะเป็น 10 ใน 11 กรณี (อัตราความแม่นยํา: 90.9%) หรืออีกนัยหนึ่งคือ รูปแบบคาดการณ์เนื้องอกใน 9.1% ของกรณีหญิงอย่างไม่ถูกต้อง
ผู้ป่วยชาย:
อย่างไรก็ตาม ในผู้ป่วยชายจํานวน 11 รายที่มีเนื้องอกจริงๆ โมเดลนี้จะคาดการณ์ลักษณะเชิงบวกสําหรับผู้ป่วยเพียง 6 รายเท่านั้น (อัตราการจําได้: 54.5%) นั่นหมายความว่าโมเดลนี้จะพลาดการวินิจฉัยเนื้องอกในเคสผู้ชาย 45.5%
และเมื่อโมเดลแสดงค่าบวกสําหรับเนื้องอกในผู้ป่วยชาย จํานวนดังกล่าวจะแสดงถูกต้องใน 6 จาก 9 เคสเท่านั้น (อัตราความแม่นยําคือ 66.7%) หรืออีกนัยหนึ่งคือ โมเดลคาดการณ์เนื้องอกไม่ถูกต้องใน 33.3% ของเคสผู้ชาย
ตอนนี้เราเข้าใจอคติที่มีอยู่มากขึ้นในการคาดคะเนของโมเดล รวมถึงความเสี่ยงของกลุ่มย่อยแต่ละกลุ่มได้ หากมีการนําโมเดลออกเพื่อใช้ทางการแพทย์ในประชากรทั่วไป
แหล่งข้อมูลด้านความเป็นธรรมเพิ่มเติม
ความเป็นธรรมคือสาขาย่อยใหม่ที่ค่อนข้างใหม่และอยู่ในสาขาของแมชชีนเลิร์นนิง หากต้องการดูข้อมูลเพิ่มเติมเกี่ยวกับการวิจัยและโครงการริเริ่มที่พัฒนาขึ้นเพื่อพัฒนาเครื่องมือและเทคนิคใหม่ๆ ในการระบุและบรรเทาอคติในโมเดลแมชชีนเลิร์นนิง โปรดดู หน้าแหล่งข้อมูลเกี่ยวกับความเป็นธรรมของแมชชีนเลิร์นนิงของ Google