أثناء إعداد بياناتك لتدريب النموذج وتقييمه، من المهم وضع قضايا الإنصاف في الاعتبار والتدقيق في المصادر المحتملة الانحياز لتتمكّن من للتخفيف من آثارها بشكل استباقي قبل طرح النموذج للإنتاج.
أين يمكن أن يكمن التحيز؟ فيما يلي بعض العلامات الحمراء التي يجب البحث عنها في مجموعة البيانات.
قيم الميزات غير متوفرة
إذا كانت مجموعة البيانات لديك تحتوي على ميزة أو أكثر تفتقد إلى قيم من الأمثلة، فقد يكون هذا مؤشرًا على أن بعض الخصائص الرئيسية مجموعة البيانات محدودة التمثيل.
تمرين: التحقق من فهمك
تكتشف أن 1500 من 5000 مثال في مجموعة التدريب قيم درجات الحرارة المفقودة. أي مما يلي يُعد مصادر محتملة من التحيز التي ينبغي عليك التحقيق فيها؟
قيم ميزات غير متوقعة
عند استكشاف البيانات، يجب عليك أيضًا البحث عن أمثلة تحتوي على قيم الميزات. التي تبرز على أنها غير معهودة أو غير عادية بشكل خاص. هذه الميزات غير المتوقعة القيم إلى المشكلات التي حدثت أثناء جمع البيانات أو غير الدقيقة التي يمكن أن تؤدي إلى التحيز.
تمرين: التحقق من فهمك
راجِع المجموعة الافتراضية التالية من الأمثلة لتدريب كلب إنقاذ نموذج قابلية الاستخدام.
السلالة | العمر (سنوات) | الوزن (رطل) | المزاج | shedding_level |
---|---|---|---|---|
كلب بودل صغير | 2 | 12 | انفعالي | منخفض |
غولدن ريتريفر | 7 | 65 | ساكن | مرتفع |
لابرادور ريتريفر | 35 | 73 | ساكن | مرتفع |
كلب بولدوغ فرنسي | 0.5 | 11 | ساكن | متوسط |
سلالة مختلطة غير معروفة | 4 | 45 | انفعالي | مرتفع |
باسات هاوند | 9 | 48 | ساكن | متوسط |
السلالة | العمر (سنوات) | الوزن (رطل) | المزاج | shedding_level |
---|---|---|---|---|
كلب بودل صغير | 2 | 12 | انفعالي | منخفض |
غولدن ريتريفر | 7 | 65 | ساكن | مرتفع |
لابرادور ريتريفر | 35 | 73 | ساكن | مرتفع |
كلب بولدوغ فرنسي | 0.5 | 11 | ساكن | متوسط |
سلالة مختلطة غير معروفة | 4 | 45 | انفعالي | مرتفع |
باسات هاوند | 9 | 48 | ساكن | متوسط |
أكبر كلب تم التحقّق من عمره عبر موسوعة غينيس للأرقام القياسية هي Bluey كلب الماشية الأسترالي الذي عاش 29 سنة و5 أشهر. بناءً على ذلك، من المنطقي أن يكون عمر كلب لابرادور ريتريفر يبلغ 35 عامًا، وعلى الأرجح تم حساب عمر الكلب أو تسجيله بشكل غير دقيق (ربما الكلب يبلغ من العمر 3.5 سنوات بالفعل). يمكن أن يؤدي هذا الخطأ إلى أيضًا إلى وجود مشاكل دقة أوسع نطاقًا في بيانات العمر في مجموعة البيانات والتي تستحق إجراء المزيد من التحقيق.
انحراف البيانات
أي نوع من الانحراف في بياناتك، حيث قد تكون مجموعات أو خصائص معينة محدودة التمثيل أو زائدة التمثيل بالنسبة لانتشارها في العالم الحقيقي، وإدخال التحيز في نموذجك.
عند تدقيق أداء النموذج، من المهم عدم النظر فقط إلى النتائج في ولكن مع تقسيم النتائج حسب المجموعة الفرعية. على سبيل المثال، في حالة نموذج قابلية إنقاذ الكلاب، لضمان الإنصاف، فإنه ليس كافيًا النظر ببساطة إلى الدقة الشاملة. يجب علينا أيضًا تدقيق الأداء حسب المجموعة الفرعية للتأكد من أن النموذج يعمل بشكل جيد لكل سلالة كلاب وفئة عمرية مجموعة المقاسات.
في وقت لاحق من هذه الوحدة، وفي تقييم التحيز، سنبدأ لنلقِ نظرة فاحصة على الطرق المختلفة لتقييم النماذج حسب المجموعة الفرعية.