الإنصاف: تحديد التحيز

أثناء إعداد بياناتك لتدريب النموذج وتقييمه، من المهم مراعاة مسائل العدالة والتدقيق في مصادر الانحياز المحتمَلة، حتى تتمكّن من الحدّ من تأثيراتها بشكل استباقي قبل طرح النموذج للاستخدام.

أين يمكن أن يكمن التحيز؟ في ما يلي بعض مؤشرات الخطر التي يجب الانتباه إليها في مجموعة البيانات.

قيم السمات غير متوفّرة

إذا كانت مجموعة البيانات الخاصة بك تحتوي على ميزة واحدة أو أكثر بها قيم مفقودة لعدد كبير من الأمثلة، فقد يكون ذلك مؤشرًا على أن بعض الخصائص الرئيسية لمجموعة البيانات الخاصة بك ممثلة تمثيلاً ناقصًا.

تمرين: التحقّق من فهمك

أنت تقوم بتدريب نموذج للتنبؤ بقابلية إنقاذ الكلاب بناءً على مجموعة من الميزات، بما في ذلك السلالة والعمر والوزن والمزاج وكمية سقيفة الفراء كل يوم. هدفك هو التأكد من أن النموذج يؤدي أداءً جيدًا بنفس القدر على جميع أنواع الكلاب، بغض النظر عن سماتها الجسدية أو السلوكية

تكتشف أن 1500 من 5000 مثال في مجموعة التدريب تفتقد إلى قيم المزاج. أيٌّ مما يلي من مصادر احتمالية للانحياز يجب التحقيق فيها؟

بيانات المزاج غير متوفّرة في مجموعة البيانات بشكل عشوائي.
من المرجّح أن تكون بيانات المزاج غير متوفّرة للكلاب التي تقلّ عمرها عن 12 شهرًا.
من المرجّح أن تكون بيانات المزاج غير متوفّرة لسلالات معيّنة من الكلاب.
لا تتوفّر بيانات المزاج لجميع الكلاب التي تم إنقاذها من المدن الكبرى.

قيم العناصر غير المتوقّعة

عند استكشاف البيانات، عليك أيضًا البحث عن أمثلة تحتوي على قيم ميزات تبرز على أنّها غير نموذجية أو غير عادية بشكل خاص. يمكن أن تشير قيم السمات غير المتوقّعة هذه إلى مشاكل حدثت أثناء جمع البيانات أو عدم دقة أخرى قد تؤدي إلى تحيز.

تمرين: التحقق من فهمك

راجِع المجموعة التالية من الأمثلة الافتراضية لتدريب نموذج قابلية تبني الكلاب المنقذة.

السلالة العمر (بالسنوات) الوزن (رطل) المزاج shedding_level
كلب بودل صغير 2 12 انفعالي منخفضة
غولدن ريتريفر 7 65 ساكن مرتفعة
لابرادور ريتريفر 35 73 هادئ مرتفعة
كلب بولدوغ فرنسي 0.5 11 هادئ متوسط
سلالة مختلطة غير معروفة 4 45 قابلة للاستثارة مرتفعة
كلب صيد باسط 9 48 هادئ متوسط
هل يمكنك تحديد أي مشاكل في بيانات العناصر؟
انقر هنا للاطلاع على الإجابة

انحراف البيانات

يمكن أن يؤدي أي نوع من الانحراف في بياناتك، حيث قد تكون مجموعات أو خصائص معينة ممثلة بشكل ناقص أو زائد بالنسبة إلى انتشارها في العالم الحقيقي، إلى تحيز في نموذجك.

عند تدقيق أداء النموذج، من المهمّ عدم الاطّلاع على النتائج بشكلٍ إجمالي فقط، بل تقسيم النتائج حسب المجموعة الفرعية. على سبيل المثال، في حالة نموذج قابلية إنقاذ الكلاب، لضمان الإنصاف، لا يكفي النظر إلى الدقة الشاملة فحسب. يجب أيضًا مراجعة الأداء حسب المجموعة الفرعية لضمان أداء النموذج بشكلٍ جيد لكل سلالة كلاب ومجموعة عمرية ومجموعة حجم.

في وقت لاحق من هذه الوحدة، في قسم تقييم الانحياز، سنلقي نظرة عن كثب على الطرق المختلفة لتقييم النماذج حسب المجموعة الفرعية.