الإنصاف: الحد من التحيز

بعد أن أصبح مصدر الانحياز في بيانات التدريب، يمكننا اتخاذ خطوات استباقية والتخفيف من آثارها. هناك استراتيجيتان رئيسيتان تعتمدهما تكنولوجيا تعلُّم الآلة يعمل المهندسون عادةً لمعالجة التحيز:

  • تعزيز بيانات التدريب.
  • ضبط دالة الخسارة بالنموذج.

زيادة بيانات التدريب

إذا كشف تدقيق بيانات التدريب عن وجود مشكلات متعلقة بـ "غير متوفّر" أو "غير صحيح" أو البيانات المنحرفة، فإن الطريقة الأكثر وضوحًا لمعالجة المشكلة هي غالبًا لجمع بيانات إضافية.

ومع ذلك، وعلى الرغم من أن زيادة بيانات التطبيق يمكن أن تكون مثالية، فإن الجانب السلبي هذا النهج هو أنه يمكن أيضًا أن يكون غير مجدي، سواء بسبب نقص البيانات المتاحة أو قيود الموارد التي تعيق جمع البيانات. على سبيل المثال: قد يكون جمع المزيد من البيانات مكلفًا جدًا أو مستهلكًا للوقت أو غير قابل للتطبيق بسبب القيود القانونية/القيود المفروضة على الخصوصية.

ضبط وظيفة تحسين النموذج

في الحالات التي يتعذر فيها جمع بيانات تدريب إضافية، هناك للتخفيف من التحيز هو تعديل كيفية حساب الخسارة أثناء نموذج التدريب. عادةً ما نستخدم دالة تحسين مثل فقدان السجلّ لمعاينة النموذج غير الصحيح والتنبؤات. ومع ذلك، لا يأخذ السجل المفقودة عضوية المجموعة الفرعية إلى التفكير في الشراء. لذا، بدلاً من استخدام مقياس انخفاض القصور، يمكننا اختيار تحسين مصممة لعقوبة الأخطاء بطريقة مدركة بالإنصاف من أجل مواجهة أوجه الاختلال التي حددناها في بيانات التدريب.

توفر مكتبة معالجة النماذج في TensorFlow أدوات مساعدة لتطبيق نسختَين الأساليب المختلفة للتخفيف من التحيز أثناء تدريب النموذج:

  • MinDiff: تهدف MinDiff إلى موازنة الأخطاء في شريحتين مختلفتين من البيانات (الطلاب مقابل الطلاب غير الثنائيين) بإضافة عقوبة على الاختلافات في توزيعات التنبؤ للمجموعتين.

  • إقران Logit متوافق: إن إقران لوجيت عكسي (CLP) يهدف إلى ضمان أن يتم تغيير البيانات، تصنيف مثال معين لا تغير تنبؤ النموذج لذلك. مثال. على سبيل المثال، إذا كانت مجموعة بيانات التدريب تحتوي على مثالين قيم الخصائص متطابقة، باستثناء أن واحدة لها قيمة gender بقيمة male تبلغ القيمة gender للأخرى nonbinary، وستتم إضافة CLP عقوبة إذا تنبؤات هذين المثالين مختلفين.

ومن الأساليب التي تختارها لضبط دالة التحسين يعتمد على حالات استخدام النموذج. في القسم التالي، سنتناول نظرة فاحصة على كيفية التعامل مع مهمة تقييم نموذج الإنصاف من خلال دراسة حالات الاستخدام هذه.

تمرين: التحقق من فهمك

أي من العبارات التالية صواب فيما يتعلق بأساليب تخفيف التحيز؟
كل من MinDiff وCLP يعاقبان التناقضات في أداء النموذج مرتبطة بسمات حساسة
تهدف كلتا الوسيلتين إلى الحدّ من الانحياز من خلال فرض عقوبات على التوقّعات الأخطاء الناتجة عن عدم توازن السمات الحساسة ممثلة في بيانات التطبيق.
تحدد MinDiff الاختلافات في التوزيع العام تنبؤات لشرائح مختلفة من البيانات، في حين أن CLP يعاقب التباينات في التوقعات لأزواج الأمثلة الفردية.
تعالج MinDiff التحيز من خلال مواءمة توزيعات الدرجة لاثنين المجموعات الفرعية. تتعامل CLP مع التحيز من خلال التأكد من أن الأمثلة الفردية لم تتم معاملتهم بشكل مختلف لمجرد فقط بسبب عضويتهم في المجموعة الفرعية.
ستساعدك إضافة المزيد من الأمثلة إلى مجموعة بيانات التدريب دائمًا التحيز المضاد في تنبؤات أحد النماذج.
تعد إضافة المزيد من أمثلة التدريب إستراتيجية فعالة للتخفيف من التحيز، ولكن تكوين بيانات التدريب الجديدة مهمة. إذا كانت أمثلة التدريب الإضافية تظهر مشابهة من اختلال توازن البيانات الأصلية، فربما لن تساعد في التخفيف التحيز الحالي.
إذا كنت تخفف من التحيز عن طريق إضافة المزيد من بيانات التدريب، يجب ألا يطبق أيضًا MinDiff أو CLP أثناء التدريب.
زيادة بيانات التدريب وتطبيق أساليب مثل MinDiff أو CLP يمكن أن تكون مكمّلة. على سبيل المثال، قد يتمكن مهندس تعلُّم الآلة جمع بيانات تدريب إضافية كافية لتقليل التباين بنسبة 30%، ثم استخدام MinDiff لتقليل تباينًا بنسبة 50٪ أخرى.