الإنصاف: تحديد التحيز

أثناء إعداد بياناتك لتدريب النموذج وتقييمه، من المهم مراعاة مسائل العدالة والتدقيق في مصادر الانحياز المحتمَلة، حتى تتمكّن من الحدّ من تأثيراتها بشكل استباقي قبل طرح النموذج للاستخدام.

أين يمكن أن يكمن التحيز؟ في ما يلي بعض مؤشرات الخطر التي يجب الانتباه إليها في مجموعة البيانات.

قيم السمات غير متوفّرة

إذا كانت مجموعة البيانات الخاصة بك تحتوي على ميزة واحدة أو أكثر بها قيم مفقودة لعدد كبير من الأمثلة، فقد يكون ذلك مؤشرًا على أن بعض الخصائص الرئيسية لمجموعة البيانات الخاصة بك ممثلة تمثيلاً ناقصًا.

تمرين: التحقّق من فهمك

أنت تقوم بتدريب نموذج للتنبؤ بقابلية إنقاذ الكلاب بناءً على مجموعة من الميزات، بما في ذلك السلالة والعمر والوزن والمزاج وكمية سقيفة الفراء كل يوم. هدفك هو التأكد من أن النموذج يؤدي أداءً جيدًا بنفس القدر على جميع أنواع الكلاب، بغض النظر عن سماتها الجسدية أو السلوكية

تكتشف أن 1500 من 5000 مثال في مجموعة التدريب تفتقد إلى قيم المزاج. أيٌّ مما يلي من مصادر احتمالية للانحياز يجب التحقيق فيها؟

من المرجّح أن تكون بيانات المزاج غير متوفّرة لسلالات معيّنة من الكلاب.
إذا كان توفُّر بيانات الحالة المزاجية مرتبطًا بسلالة كلاب، قد يؤدي ذلك إلى الحصول على توقّعات أقل دقة بشأن قابلية استخدام سلالات معيّنة من الكلاب.
من المرجّح أن تكون بيانات المزاج غير متوفّرة للكلاب التي تقلّ عمرها عن 12 شهرًا.
إذا كان توفّر بيانات المزاج مرتبطًا بالعمر، قد يؤدي ذلك إلى توقعات أقل دقة لقابلية التبني للكلاب الصغيرة مقارنةً بالكلاب البالغة.
لا تتوفّر بيانات المزاج لجميع الكلاب التي تم إنقاذها من المدن الكبرى.
للوهلة الأولى، قد لا يبدو أنّ هذا مصدر محتمل للانحياز، لأنّ البيانات غير المتوفّرة ستؤثر في جميع الكلاب من المدن الكبيرة بشكل متساوٍ، بغض النظر عن سلالتها وعمرها ووزنها وما إلى ذلك، مع ذلك، ما زلنا بحاجة إلى أن نأخذ في الاعتبار أنّ الموقع الجغرافي الذي ينتمي إليه الكلب قد يكون خادمًا وكيلاً لهذه الخصائص الجسدية. على سبيل المثال، إذا كان من المرجّح أن تكون الكلاب من المدن الكبيرة أصغر حجمًا من الكلاب من المناطق الريفية بشكلٍ أكبر، قد يؤدي ذلك إلى توقّعات أقل دقة بشأن إمكانية تبني الكلاب ذات الوزن المنخفض أو سلالات الكلاب الصغيرة معيّنة.
بيانات المزاج غير متوفّرة في مجموعة البيانات بشكل عشوائي.
إذا كانت بيانات المزاج غير متوفّرة بشكل عشوائي، لن يكون ذلك مصدرًا محتملاً للتحيّز. ومع ذلك، من المحتمل أن تظهر بيانات المزاج مفقودة بشكل عشوائي، ولكن قد يكشف مزيد من التحقيق عن تفسير لهذا التناقض. لذلك، من المهم إجراء مراجعة شاملة لاستبعاد الاحتمالات الأخرى، بدلاً من افتراض أنّ الفجوات في البيانات عشوائية.

قيم العناصر غير المتوقّعة

عند استكشاف البيانات، عليك أيضًا البحث عن أمثلة تحتوي على قيم ميزات تبرز على أنّها غير نموذجية أو غير عادية بشكل خاص. يمكن أن تشير قيم السمات غير المتوقّعة هذه إلى مشاكل حدثت أثناء جمع البيانات أو عدم دقة أخرى قد تؤدي إلى تحيز.

تمرين: التحقق من فهمك

راجِع المجموعة التالية من الأمثلة الافتراضية لتدريب نموذج قابلية تبني الكلاب المنقذة.

السلالة العمر (بالسنوات) الوزن (رطل) المزاج shedding_level
كلب بودل صغير 2 12 انفعالي منخفضة
غولدن ريتريفر 7 65 ساكن مرتفعة
لابرادور ريتريفر 35 73 هادئ مرتفعة
كلب بولدوغ فرنسي 0.5 11 هادئ متوسط
سلالة مختلطة غير معروفة 4 45 قابلة للاستثارة مرتفعة
كلب صيد باسط 9 48 هادئ متوسط
هل يمكنك تحديد أي مشاكل في بيانات العناصر؟
انقر هنا للاطلاع على الإجابة

انحراف البيانات

يمكن أن يؤدي أي نوع من الانحراف في بياناتك، حيث قد تكون مجموعات أو خصائص معينة ممثلة بشكل ناقص أو زائد بالنسبة إلى انتشارها في العالم الحقيقي، إلى تحيز في نموذجك.

عند تدقيق أداء النموذج، من المهمّ عدم الاطّلاع على النتائج بشكلٍ إجمالي فقط، بل تقسيم النتائج حسب المجموعة الفرعية. على سبيل المثال، في حالة نموذج قابلية إنقاذ الكلاب، لضمان الإنصاف، لا يكفي النظر إلى الدقة الشاملة فحسب. يجب أيضًا مراجعة الأداء حسب المجموعة الفرعية لضمان أداء النموذج بشكلٍ جيد لكل سلالة كلاب ومجموعة عمرية ومجموعة حجم.

في وقت لاحق من هذه الوحدة، في قسم تقييم الانحياز، سنلقي نظرة عن كثب على الطرق المختلفة لتقييم النماذج حسب المجموعة الفرعية.