العدالة: تحديد الانحياز

أثناء استكشاف بياناتك لتحديد أفضل طريقة لالتمثيل في النموذج، من المهم أيضًا مراعاة مسائل العدالة والتدقيق المسبق لمصادر الانحياز المحتملة.

أين يمكن أن يترصّد الانحياز؟ في ما يلي ثلاث علامات حمراء ينبغي الانتباه إليها في مجموعة البيانات.

قيم الموضع مفقودة

إذا كانت مجموعة البيانات تحتوي على ميزة واحدة أو أكثر تنقصها قيم لعدد كبير من الأمثلة، فقد يكون هذا مؤشرًا إلى قلة تمثيل بعض السمات الرئيسية لمجموعة البيانات.

على سبيل المثال، يعرض الجدول أدناه ملخصًا للإحصاءات الأساسية لمجموعة فرعية من الميزات في مجموعة بيانات الإسكان في كاليفورنيا، المخزنة في الباندا DataFrame والتي تم إنشاؤها عبر DataFrame.describe. يُرجى العِلم أنّ كل السمات تحتوي على count بقيمة 17000، ما يشير إلى عدم توفّر قيم:

longitude خط العرض إجمالي_الغرف جمهور الأسر المعيشية متوسط_دخل متوسط_قيمة_المنزل
العدد 17000,0 17000,0 17000,0 17000,0 17000,0 17000,0 17000,0
المتوسّط -119.6 35,6 2643,7 1429 501.2 3.9 207,3
Sttd 2.0 2.1 2179,9 1147,9 384.5 1,9 116
دقيقة -124.3 32,5 2.0 3 1 0.5 15
25% -121.8 33,9 1462 790.0 282 2.6 119,4
50% -118.5 34 2127 1167 409 3.5 180,4
75% -118.0 37,7 3151.2 1721 605,2 4.8 265
الحد الأقصى -114.3 42 37937 35682.0 6082.0 15 500,0

بدلاً من ذلك، لنفترض أنّ ثلاث ميزات (population وhouseholds وmedian_income) شتملت على عدد 3000 فقط، أي أنّه لم تتوفّر 14,000 قيمة لكل ميزة:

longitude خط العرض إجمالي_الغرف جمهور الأسر المعيشية متوسط_دخل متوسط_قيمة_المنزل
العدد 17000,0 17000,0 17000,0 3000,0 3000,0 3000,0 17000,0
المتوسّط -119.6 35,6 2643,7 1429 501.2 3.9 207,3
Sttd 2.0 2.1 2179,9 1147,9 384.5 1,9 116
دقيقة -124.3 32,5 2.0 3 1 0.5 15
25% -121.8 33,9 1462 790.0 282 2.6 119,4
50% -118.5 34 2127 1167 409 3.5 180,4
75% -118.0 37,7 3151.2 1721 605,2 4.8 265
الحد الأقصى -114.3 42 37937 35682.0 6082.0 15 500,0

ستجعل هذه القيم المفقودة البالغ عددها 14000 قيمة أكثر صعوبة من أجل الربط الدقيق لمتوسط دخل الأسرة بمتوسط أسعار المنازل. قبل تدريب نموذج على هذه البيانات، من الحكمة التحقيق في سبب هذه القيم المفقودة للتأكد من عدم وجود انحيازات كامنة مسؤولة عن فقدان بيانات الدخل وعدد السكان.

قيم ميزة غير متوقعة

عند استكشاف البيانات، يجب أيضًا البحث عن أمثلة تتضمن قيمًا مميزة تبرز بشكل غير مميز أو غير عادية على وجه الخصوص. ويمكن أن تشير قيم الميزات غير المتوقّعة هذه إلى المشاكل التي حدثت أثناء جمع البيانات أو غيرها من حالات عدم الدقة التي يمكن أن تؤدي إلى حدوث انحياز.

على سبيل المثال، ألقِ نظرة على الأمثلة المقتبسة التالية من مجموعة بيانات الإسكان في كاليفورنيا:

longitude خط العرض إجمالي_الغرف جمهور الأسر المعيشية متوسط_دخل متوسط_قيمة_المنزل
1 -121.7 38 7105.0 3523 1088 5 0.2
2 -122.4 37,8 2479,0 1816 496 3.1 0.3
3 -122.0 37 2813 1337 477 3,7 0.3
4 -103.5 43,8 2212,0 803.0 144 5.3 0.2
5 -117.1 32,8 2963 1162 556 3.6 0.2
6 -118.0 33,7 3396 1542 472 7,4 0.4

هل يمكنك تحديد أي قيم ميزات غير متوقعة؟

انحراف البيانات

يمكن أن يؤدي أي نوع من الانحرافات في البيانات، حيث قد تكون بعض المجموعات أو الخصائص أقل تمثيلاً أو أقل تمثيلاً نسبيًا بالنسبة إلى انتشارها الفعلي، إلى إحداث انحياز في النموذج.

إذا أكملت تمرين برمجة التحقق من الصحة، يمكنك تذكر اكتشاف الفشل في توزيع مجموعة الإسكان في ولاية كاليفورنيا بشكل عشوائي قبل تقسيمها إلى مجموعات للتدريب والتحقق من الصحة نتج عنها انحراف ملحوظ في البيانات. يمثل الشكل 1 تمثيلاً بصريًا لمجموعة فرعية من البيانات المأخوذة من مجموعة البيانات الكاملة التي تمثل حصريًا المنطقة الشمالية الغربية من كاليفورنيا.

خريطة ولاية كاليفورنيا متراكبة مع بيانات من مجموعة الإسكان في كاليفورنيا.
          تمثّل كل نقطة وحدة سكنية. يتم تجميع كل النقاط في شمال غرب كاليفورنيا، بدون نقاط في جنوب كاليفورنيا، ما يوضّح الانحراف الجغرافي للبيانات.

الشكل 1. خريطة ولاية كاليفورنيا متراكبة مع بيانات من مجموعة الإسكان في كاليفورنيا. تمثّل كل نقطة قالبًا سكنيًا، تتراوح ألوانه من الأزرق إلى الأحمر المقابل لمتوسط سعر المنزل الذي يتراوح من الأقل إلى الأعلى، على التوالي.

إذا تم استخدام هذه العينة غير الممثَّلة لتدريب نموذج لتوقّع أسعار الإقامة في ولاية "كاليفورنيا" في جميع أنحاء الولاية، سيكون هناك نقص في بيانات الإسكان من الأجزاء الجنوبية من كاليفورنيا. وقد يؤثر الانحياز الجغرافي المشفر في النموذج بالسلب على مشتري المنازل في المجتمعات غير الممثَّلة.