الإنصاف: الحد من التحيز

بعد تحديد مصدر الانحياز في بيانات التدريب، يمكننا اتّخاذ خطوات استباقية لمحاولة التخفيف من تأثيره. هناك استراتيجيتان رئيسيتان يستخدِمهما مهندسو تعلُّم الآلة عادةً لمعالجة الانحياز:

  • زيادة بيانات التدريب
  • ضبط دالة الخسارة بالنموذج.

زيادة بيانات التدريب

إذا كشف تدقيق بيانات التدريب عن مشكلات تتعلق بالبيانات المفقودة أو غير الصحيحة أو المحرفة، فغالبًا ما تكون الطريقة الأسهل لمعالجة المشكلة هي جمع بيانات إضافية.

ومع أنّ زيادة بيانات التدريب قد تكون مثالية، إلا أنّ الجانب السلبي لهذا النهج هو أنّه قد يكون غير عملي أيضًا، إما بسبب نقص البيانات المتاحة أو بسبب قيود الموارد التي تعوق جمع البيانات. على سبيل المثال، قد يكون جمع المزيد من البيانات مكلفًا جدًا أو يستغرق وقتًا طويلاً، أو قد لا يكون مجديًا بسبب القيود القانونية أو المتعلقة بالخصوصية.

تعديل وظيفة التحسين في النموذج

في الحالات التي لا يكون فيها جمع بيانات تدريب إضافية مجديًا، يمكن تعديل كيفية احتساب الخسارة أثناء تدريب النموذج كأحد الحلول البديلة للتخفيف من الانحياز. وعادةً ما نستخدم دالة تحسين مثل الخسارة اللوغاريتمية لفرض عقوبات على توقّعات النموذج المغلوطة. ومع ذلك، لا تأخذ خسارة السجلّ عضوية المجموعة الفرعية في الاعتبار. لذا، بدلاً من استخدام مقياس انخفاض القصور، يمكننا اختيار إحدى وظائف التحسين المصممة لمعاقبة الأخطاء بطريقة الوعي بالإنصاف ومكافحة أوجه الاختلال التي حدّدناها في بيانات التدريب.

توفر مكتبة معالجة النماذج من TensorFlow برامج خدمات لتطبيق طريقتين مختلفتين للحد من التحيز أثناء تدريب النموذج:

  • MinDiff:تهدف مقياس MinDiff إلى موازنة الأخطاء في شريحتَين مختلفتَين من البيانات (الطلاب الذكور/الإناث مقابل الطلاب غير الثنائية الجنس) من خلال إضافة عقوبة على الاختلافات في توزيعات التوقّعات للجماعتَين.

  • إقران لوجيت معادِل: يهدف إقران لوجيت معقّد (CLP) إلى ضمان أنّ تغيير سمة حساسة لمثال معيّن لا يؤدي إلى تغيير توقّعات النموذج لهذا المثال. على سبيل المثال، إذا كانت مجموعة بيانات تدريب تحتوي على مثالين متطابقة في قيم الخصائص، إلا أن أحدهما يحتوي على قيمة gender وهي male والأخرى تحتوي على gender بقيمة nonbinary، فستضيف CLP عقوبة إذا كانت التوقعات لهذين المثالين مختلفين.

تعتمد الأساليب التي تختارها لضبط دالة التحسين على حالات استخدام النموذج. في القسم التالي، سنلقي نظرة عن كثب على كيفية تقييم نموذج من حيث المساواة من خلال مراعاة حالات الاستخدام هذه.

تمرين: التحقّق من فهمك

أي من العبارات التالية صواب فيما يتعلق بأساليب تخفيف التحيز؟
يفرض كلّ من مقياسَي MinDiff وCLP عقوبات على الاختلافات في أداء النموذج المرتبطة بالسمات الحسّاسة.
تهدف كلتا الطريقتَين إلى تخفيف الانحياز من خلال معاقبة أخطاء التنبؤ الناتجة عن عدم التوازن في كيفية تمثيل السمات الحسّاسة في بيانات التدريب.
يفرض مقياس MinDiff عقوبات على الاختلافات في التوزيع العام للتوقّعات لشرائح مختلفة من البيانات، في حين يفرض مقياس CLP عقوبات على التناقضات في التوقّعات لزوجَين فرديَّين من الأمثلة.
يعالج مقياس MinDiff الانحياز من خلال مواءمة توزيعات الدرجات لمجموعتَين فرعيتَين. يعالج CLP الانحياز من خلال التأكّد من عدم التعامل مع الأمثلة الفردية بشكلٍ مختلف بسبب انتمائها إلى مجموعة فرعية فقط.
ستساعدك إضافة المزيد من الأمثلة إلى مجموعة بيانات التدريب دائمًا في التصدي للتحيز في توقّعات النموذج.
إنّ إضافة المزيد من أمثلة التدريب هي استراتيجية فعّالة لمحاولة التخفيف من التحيز، ولكن يجب مراعاة تركيبة بيانات التدريب الجديدة. إذا كانت أمثلة التدريب الإضافية تعرِض عدم توازن مشابهًا للبيانات الأصلية، من المحتمل ألا تساعد في تخفيف الانحياز الحالي.
إذا كنت تحدّ من الانحياز من خلال إضافة المزيد من بيانات التدريب، يجب عدم استخدام MinDiff أو CLP أثناء التدريب.
ويمكن أن تتم إضافة المزيد من بيانات التدريب وتطبيق أساليب، مثل MinDiff أو CLP. على سبيل المثال، قد يتمكّن مهندس تعلُّم الآلة من جمع بيانات تدريب إضافية كافية لتقليل التباين في الأداء بنسبة %30، ثم استخدام MinDiff لتقليل التباين بنسبة %50 أخرى.