بعد أن أصبح مصدر الانحياز في بيانات التدريب، يمكننا اتخاذ خطوات استباقية والتخفيف من آثارها. هناك استراتيجيتان رئيسيتان تعتمدهما تكنولوجيا تعلُّم الآلة يعمل المهندسون عادةً لمعالجة التحيز:
- تعزيز بيانات التدريب.
- ضبط دالة الخسارة بالنموذج.
زيادة بيانات التدريب
إذا كشف تدقيق بيانات التدريب عن وجود مشكلات متعلقة بـ "غير متوفّر" أو "غير صحيح" أو البيانات المنحرفة، فإن الطريقة الأكثر وضوحًا لمعالجة المشكلة هي غالبًا لجمع بيانات إضافية.
ومع ذلك، وعلى الرغم من أن زيادة بيانات التطبيق يمكن أن تكون مثالية، فإن الجانب السلبي هذا النهج هو أنه يمكن أيضًا أن يكون غير مجدي، سواء بسبب نقص البيانات المتاحة أو قيود الموارد التي تعيق جمع البيانات. على سبيل المثال: قد يكون جمع المزيد من البيانات مكلفًا جدًا أو مستهلكًا للوقت أو غير قابل للتطبيق بسبب القيود القانونية/القيود المفروضة على الخصوصية.
ضبط وظيفة تحسين النموذج
في الحالات التي يتعذر فيها جمع بيانات تدريب إضافية، هناك للتخفيف من التحيز هو تعديل كيفية حساب الخسارة أثناء نموذج التدريب. عادةً ما نستخدم دالة تحسين مثل فقدان السجلّ لمعاينة النموذج غير الصحيح والتنبؤات. ومع ذلك، لا يأخذ السجل المفقودة عضوية المجموعة الفرعية إلى التفكير في الشراء. لذا، بدلاً من استخدام مقياس انخفاض القصور، يمكننا اختيار تحسين مصممة لعقوبة الأخطاء بطريقة مدركة بالإنصاف من أجل مواجهة أوجه الاختلال التي حددناها في بيانات التدريب.
توفر مكتبة معالجة النماذج في TensorFlow أدوات مساعدة لتطبيق نسختَين الأساليب المختلفة للتخفيف من التحيز أثناء تدريب النموذج:
MinDiff: تهدف MinDiff إلى موازنة الأخطاء في شريحتين مختلفتين من البيانات (الطلاب مقابل الطلاب غير الثنائيين) بإضافة عقوبة على الاختلافات في توزيعات التنبؤ للمجموعتين.
إقران Logit متوافق: إن إقران لوجيت عكسي (CLP) يهدف إلى ضمان أن يتم تغيير البيانات، تصنيف مثال معين لا تغير تنبؤ النموذج لذلك. مثال. على سبيل المثال، إذا كانت مجموعة بيانات التدريب تحتوي على مثالين قيم الخصائص متطابقة، باستثناء أن واحدة لها قيمة
gender
بقيمةmale
تبلغ القيمةgender
للأخرىnonbinary
، وستتم إضافة CLP عقوبة إذا تنبؤات هذين المثالين مختلفين.
ومن الأساليب التي تختارها لضبط دالة التحسين يعتمد على حالات استخدام النموذج. في القسم التالي، سنتناول نظرة فاحصة على كيفية التعامل مع مهمة تقييم نموذج الإنصاف من خلال دراسة حالات الاستخدام هذه.