أثناء إعداد بياناتك لتدريب النموذج وتقييمه، من المهم مراعاة مسائل العدالة والتدقيق في مصادر الانحياز المحتمَلة، حتى تتمكّن من الحدّ من تأثيراتها بشكل استباقي قبل طرح النموذج للاستخدام.
أين يمكن أن يكمن التحيز؟ في ما يلي بعض مؤشرات الخطر التي يجب الانتباه إليها في مجموعة البيانات.
قيم السمات غير متوفّرة
إذا كانت مجموعة البيانات الخاصة بك تحتوي على ميزة واحدة أو أكثر بها قيم مفقودة لعدد كبير من الأمثلة، فقد يكون ذلك مؤشرًا على أن بعض الخصائص الرئيسية لمجموعة البيانات الخاصة بك ممثلة تمثيلاً ناقصًا.
تمرين: التحقّق من فهمك
تكتشف أن 1500 من 5000 مثال في مجموعة التدريب تفتقد إلى قيم المزاج. أيٌّ مما يلي من مصادر احتمالية للانحياز يجب التحقيق فيها؟
قيم العناصر غير المتوقّعة
عند استكشاف البيانات، عليك أيضًا البحث عن أمثلة تحتوي على قيم ميزات تبرز على أنّها غير نموذجية أو غير عادية بشكل خاص. يمكن أن تشير قيم السمات غير المتوقّعة هذه إلى مشاكل حدثت أثناء جمع البيانات أو عدم دقة أخرى قد تؤدي إلى تحيز.
تمرين: التحقق من فهمك
راجِع المجموعة التالية من الأمثلة الافتراضية لتدريب نموذج قابلية تبني الكلاب المنقذة.
السلالة | العمر (بالسنوات) | الوزن (رطل) | المزاج | shedding_level |
---|---|---|---|---|
كلب بودل صغير | 2 | 12 | انفعالي | منخفضة |
غولدن ريتريفر | 7 | 65 | ساكن | مرتفعة |
لابرادور ريتريفر | 35 | 73 | هادئ | مرتفعة |
كلب بولدوغ فرنسي | 0.5 | 11 | هادئ | متوسط |
سلالة مختلطة غير معروفة | 4 | 45 | قابلة للاستثارة | مرتفعة |
كلب صيد باسط | 9 | 48 | هادئ | متوسط |
السلالة | العمر (بالسنوات) | الوزن (رطل) | المزاج | shedding_level |
---|---|---|---|---|
كلب بودل صغير | 2 | 12 | انفعالي | منخفضة |
غولدن ريتريفر | 7 | 65 | ساكن | مرتفعة |
لابرادور ريتريفر | 35 | 73 | هادئ | مرتفعة |
كلب بولدوغ فرنسي | 0.5 | 11 | هادئ | متوسط |
سلالة مختلطة غير معروفة | 4 | 45 | قابلة للاستثارة | مرتفعة |
كلب صيد باسط | 9 | 48 | هادئ | متوسط |
إنّ أكبر كلب تم التحقّق من عمره عبر موسوعة غينيس للأرقام القياسية هو Bluey، وهو كلب من الماشية الأسترالي عاش في الـ 29 عامًا و5 أشهر. وبناءً على ذلك، يبدو من غير المُرجح أن يبلغ عمر كلب لابرادور ريتريفر 35 عامًا، والأرجح أنّه تم احتساب عمر الكلب أو تسجيله بشكل غير دقيق (ربما يبلغ عمر الكلب 3.5 عامًا). يمكن أن يشير هذا الخطأ أيضًا إلى مشاكل دقة أوسع نطاقًا في بيانات العمر في مجموعة البيانات تستحق إجراء مزيد من التحقيق.
انحراف البيانات
يمكن أن يؤدي أي نوع من الانحراف في بياناتك، حيث قد تكون مجموعات أو خصائص معينة ممثلة بشكل ناقص أو زائد بالنسبة إلى انتشارها في العالم الحقيقي، إلى تحيز في نموذجك.
عند تدقيق أداء النموذج، من المهمّ عدم الاطّلاع على النتائج بشكلٍ إجمالي فقط، بل تقسيم النتائج حسب المجموعة الفرعية. على سبيل المثال، في حالة نموذج قابلية إنقاذ الكلاب، لضمان الإنصاف، لا يكفي النظر إلى الدقة الشاملة فحسب. يجب أيضًا مراجعة الأداء حسب المجموعة الفرعية لضمان أداء النموذج بشكلٍ جيد لكل سلالة كلاب ومجموعة عمرية ومجموعة حجم.
في وقت لاحق من هذه الوحدة، في قسم تقييم الانحياز، سنلقي نظرة عن كثب على الطرق المختلفة لتقييم النماذج حسب المجموعة الفرعية.