الإنصاف: تحديد التحيز

أثناء إعداد بياناتك لتدريب النموذج وتقييمه، من المهم وضع قضايا الإنصاف في الاعتبار والتدقيق في المصادر المحتملة الانحياز لتتمكّن من للتخفيف من آثارها بشكل استباقي قبل طرح النموذج للإنتاج.

أين يمكن أن يكمن التحيز؟ فيما يلي بعض العلامات الحمراء التي يجب البحث عنها في مجموعة البيانات.

قيم الميزات غير متوفرة

إذا كانت مجموعة البيانات لديك تحتوي على ميزة أو أكثر تفتقد إلى قيم من الأمثلة، فقد يكون هذا مؤشرًا على أن بعض الخصائص الرئيسية مجموعة البيانات محدودة التمثيل.

تمرين: التحقق من فهمك

أنت تقوم بتدريب نموذج للتنبؤ بإمكانية تبني الكلاب لإنقاذ الكلاب على مجموعة متنوعة من الخصائص، بما في ذلك السلالة والعمر والوزن والمزاج وعدد سقيفة الفراء كل يوم. هدفك هو التأكد من أن النموذج يعمل بشكل جيد على جميع أنواع الكلاب، بغض النظر عن أو السمات السلوكية

تكتشف أن 1500 من 5000 مثال في مجموعة التدريب قيم درجات الحرارة المفقودة. أي مما يلي يُعد مصادر محتملة من التحيز التي ينبغي عليك التحقيق فيها؟

من المرجح أن تكون بيانات المزاج مفقودة لسلالات معينة من كِلَاب
إذا كان توافر بيانات المزاج يرتبط بسلالة الكلب، فقد ينتج عن ذلك تنبؤات أقل دقة حول قابلية الاستخدام سلالات معينة من الكلاب.
من المرجح أن تكون بيانات المزاج مفقودة للكلاب دون سن 12 عامًا شهر في العمر
إذا كان توفر بيانات المزاج يرتبط بالعمر، عندها فقد يؤدي هذا إلى تنبؤات أقل دقة عن قابلية الاستخدام الجراء مقابل الكلاب البالغين.
بيانات المزاج مفقودة لجميع الكلاب التي تم إنقاذها من المدن الكبيرة.
قد لا يبدو للوهلة الأولى أنّ هذا مصدر محتمل. من التحيز، لأن البيانات المفقودة ستؤثر على جميع الكلاب من كبار المدن بالتساوي، بغض النظر عن سلالتها أو عمرها أو وزنها وما إلى ذلك. ومع ذلك، ما زلنا بحاجة إلى التفكير في أن الموقع الذي يأتي منه الكلب قد تعمل بشكل فعال كخادم وكيل لهذه الأدوات وسماتها الشخصية. على سبيل المثال، إذا كانت الكلاب من المدن الكبيرة أكثر بكثير أن تكون أصغر بكثير من الكلاب من المناطق الريفية مجالات مختلفة، قد ينتج عنها توقّعات أقل دقة حول قابلية الاستخدام للكلاب منخفضة الوزن أو سلالات معينة من الكلاب الصغيرة.
بيانات المزاج مفقودة من مجموعة البيانات بشكل عشوائي.
إذا كانت بيانات المزاج مفقودة حقًا بشكل عشوائي، فلن يكون مصدرًا محتملاً للتحيز. ومع ذلك، من المحتمل أن يكون قد يبدو أنّ البيانات مفقودة بشكل عشوائي، ولكن إجراء مزيد من التحقيق عن تفسير للتناقض. لذلك من المهم أن إجراء مراجعة شاملة لاستبعاد الاحتمالات الأخرى، بدلاً من افتراض أن فجوات البيانات تكون عشوائية.

قيم ميزات غير متوقعة

عند استكشاف البيانات، يجب عليك أيضًا البحث عن أمثلة تحتوي على قيم الميزات. التي تبرز على أنها غير معهودة أو غير عادية بشكل خاص. هذه الميزات غير المتوقعة القيم إلى المشكلات التي حدثت أثناء جمع البيانات أو غير الدقيقة التي يمكن أن تؤدي إلى التحيز.

تمرين: التحقق من فهمك

راجِع المجموعة الافتراضية التالية من الأمثلة لتدريب كلب إنقاذ نموذج قابلية الاستخدام.

السلالة العمر (سنوات) الوزن (رطل) المزاج shedding_level
كلب بودل صغير 2 12 انفعالي منخفض
غولدن ريتريفر 7 65 ساكن مرتفع
لابرادور ريتريفر 35 73 ساكن مرتفع
كلب بولدوغ فرنسي 0.5 11 ساكن متوسط
سلالة مختلطة غير معروفة 4 45 انفعالي مرتفع
باسات هاوند 9 48 ساكن متوسط
هل يمكنك تحديد أي مشكلات في بيانات الميزة؟
انقر هنا للاطلاع على الإجابة

انحراف البيانات

أي نوع من الانحراف في بياناتك، حيث قد تكون مجموعات أو خصائص معينة محدودة التمثيل أو زائدة التمثيل بالنسبة لانتشارها في العالم الحقيقي، وإدخال التحيز في نموذجك.

عند تدقيق أداء النموذج، من المهم عدم النظر فقط إلى النتائج في ولكن مع تقسيم النتائج حسب المجموعة الفرعية. على سبيل المثال، في حالة نموذج قابلية إنقاذ الكلاب، لضمان الإنصاف، فإنه ليس كافيًا النظر ببساطة إلى الدقة الشاملة. يجب علينا أيضًا تدقيق الأداء حسب المجموعة الفرعية للتأكد من أن النموذج يعمل بشكل جيد لكل سلالة كلاب وفئة عمرية مجموعة المقاسات.

في وقت لاحق من هذه الوحدة، وفي تقييم التحيز، سنبدأ لنلقِ نظرة فاحصة على الطرق المختلفة لتقييم النماذج حسب المجموعة الفرعية.