العدالة: تقييم الانحياز

عند تقييم أحد النماذج، لا تقدم المقاييس التي يتم احتسابها على أساس المجموعة الكاملة من الاختبارات أو مجموعات التحقق دائمًا صورة دقيقة عن مدى سلامة النموذج.

يمكنك استخدام نموذج جديد تم تطويره لتوقّع ظهور الأورام التي يتم تقييمها ضد مجموعة التحقق من 1,000 مريض ومعدّلات السجلّات الطبية. هناك 500 سجلّ من مرضى الإناث، و500 سجلّ من المرضى من الذكور. تلخّص مصفوفة الخلط التالية النتائج لجميع الأمثلة البالغ عددها 1,000:

الإيجابيات الحقيقية (TP): 16 الإيجابيات الخاطئة: 4
السلبيات السلبية (FNs): 6 السالبة السلبية (TN): 974
$$\text{Precision} = \frac{TP}{TP+FP} = \frac{16}{16+4} = 0.800$$
$$\text{Recall} = \frac{TP}{TP+FN} = \frac{16}{16+6} = 0.727$$

تبدو هذه النتائج واعدةً: دقة% 80 وتذكُّر %72.7. وماذا يحدث في حال حساب النتيجة بشكل منفصل لكل مجموعة من المرضى؟ لنتعرّف على النتائج:

نتائج المرضى للمرأة

الإيجابيات الحقيقية (TP): 10 الإيجابيات الخاطئة (FP): 1
النتائج السلبية الخاطئة (FNs): 1 صحيحات سلبية (TNs): 488
$$\text{Precision} = \frac{TP}{TP+FP} = \frac{10}{10+1} = 0.909$$
$$\text{Recall} = \frac{TP}{TP+FN} = \frac{10}{10+1} = 0.909$$

نتائج مراجعة مرضى الذكور

الإيجابيات الحقيقية (TP): 6 الإيجابيات الخاطئة: 3
النتائج السلبية الخاطئة (FNs): 5 صحيحات سلبية (TNs): 486
$$\text{Precision} = \frac{TP}{TP+FP} = \frac{6}{6+3} = 0.667$$
$$\text{Recall} = \frac{TP}{TP+FN} = \frac{6}{6+5} = 0.545$$

عند حساب المقاييس بشكل منفصل للمرضى الإناث والذكور، نلاحظ اختلافات واضحة في أداء النماذج لكل مجموعة.

المرضى الإناث:

  • ومن بين 11 المرضى من النساء المصابات بالأورام، يتوقع النموذج بشكل إيجابي وجود 10 مرضى (معدّل تذكُّر الإعلان: 90.9%). بعبارة أخرى، يفتقد النموذج تشخيص الورم في 9.1% من حالات الإناث.

  • وبالمثل، عندما يبدو النموذج إيجابيًا بالنسبة إلى الورم في المرضى الإناث، يكون ذلك صحيحًا في 10 حالات من 11 حالة (معدّل الدقة: 90.9%)، وبمعنى آخر، يتنبأ النموذج بالورم بشكل غير صحيح في 9.1% من الحالات الإناثية.

المرضى الذكور:

  • ومع ذلك، من إجمالي 11 مريضًا من الذكور الذين لديهم أورامًا، يتنبأ النموذج بشكل إيجابي بأنّه 6 مرضى فقط (معدل التذكّر: 54.5%). وهذا يعني أن النموذج يفوته تشخيص الورم في 45.5% من حالات الذكور.

  • وعندما يعود النموذج إيجابيًا بالنسبة إلى الورم في المرضى الذكور، يكون ذلك صحيحًا في 6 حالات من 9 حالات فقط (معدّل الدقة: 66.7%)، بعبارة أخرى، يتنبأ النموذج بالورم بشكل غير صحيح في 33.3% من حالات الذكور.

أصبح لدينا الآن فهم أفضل للانحيازات المتأصّلة في توقعات النموذج، بالإضافة إلى المخاطر التي تهدد كل مجموعة فرعية إذا كان سيتم إصدار النموذج للاستخدام الطبي في المجتمع الإحصائي العام.

مراجع إضافية بشأن العدالة

العدالة هي حقل فرعي جديد نسبيًا ضمن تخصصات تعلُم الآلة. لمزيد من المعلومات عن الأبحاث والمبادرات المخصّصة لتطوير أدوات وأساليب جديدة لتحديد الانحياز وتخفيفه في نماذج تعلُّم الآلة، اطّلِع على Google's Machine Learning Fairness page.