أثناء استكشاف بياناتك لتحديد أفضل طريقة لالتمثيل في النموذج، من المهم أيضًا مراعاة مسائل العدالة والتدقيق المسبق لمصادر الانحياز المحتملة.
أين يمكن أن يترصّد الانحياز؟ في ما يلي ثلاث علامات حمراء ينبغي الانتباه إليها في مجموعة البيانات.
قيم الموضع مفقودة
إذا كانت مجموعة البيانات تحتوي على ميزة واحدة أو أكثر تنقصها قيم لعدد كبير من الأمثلة، فقد يكون هذا مؤشرًا إلى قلة تمثيل بعض السمات الرئيسية لمجموعة البيانات.
على سبيل المثال، يعرض الجدول أدناه ملخصًا للإحصاءات الأساسية لمجموعة فرعية من الميزات في مجموعة بيانات الإسكان في كاليفورنيا، المخزنة في الباندا DataFrame
والتي تم إنشاؤها عبر DataFrame.describe
. يُرجى العِلم أنّ كل السمات تحتوي على count
بقيمة 17000، ما يشير إلى عدم توفّر قيم:
longitude | خط العرض | إجمالي_الغرف | جمهور | الأسر المعيشية | متوسط_دخل | متوسط_قيمة_المنزل | |
---|---|---|---|---|---|---|---|
العدد | 17000,0 | 17000,0 | 17000,0 | 17000,0 | 17000,0 | 17000,0 | 17000,0 |
المتوسّط | -119.6 | 35,6 | 2643,7 | 1429 | 501.2 | 3.9 | 207,3 |
Sttd | 2.0 | 2.1 | 2179,9 | 1147,9 | 384.5 | 1,9 | 116 |
دقيقة | -124.3 | 32,5 | 2.0 | 3 | 1 | 0.5 | 15 |
25% | -121.8 | 33,9 | 1462 | 790.0 | 282 | 2.6 | 119,4 |
50% | -118.5 | 34 | 2127 | 1167 | 409 | 3.5 | 180,4 |
75% | -118.0 | 37,7 | 3151.2 | 1721 | 605,2 | 4.8 | 265 |
الحد الأقصى | -114.3 | 42 | 37937 | 35682.0 | 6082.0 | 15 | 500,0 |
بدلاً من ذلك، لنفترض أنّ ثلاث ميزات (population
وhouseholds
وmedian_income
)
شتملت على عدد 3000
فقط، أي أنّه لم تتوفّر 14,000 قيمة لكل ميزة:
longitude | خط العرض | إجمالي_الغرف | جمهور | الأسر المعيشية | متوسط_دخل | متوسط_قيمة_المنزل | |
---|---|---|---|---|---|---|---|
العدد | 17000,0 | 17000,0 | 17000,0 | 3000,0 | 3000,0 | 3000,0 | 17000,0 |
المتوسّط | -119.6 | 35,6 | 2643,7 | 1429 | 501.2 | 3.9 | 207,3 |
Sttd | 2.0 | 2.1 | 2179,9 | 1147,9 | 384.5 | 1,9 | 116 |
دقيقة | -124.3 | 32,5 | 2.0 | 3 | 1 | 0.5 | 15 |
25% | -121.8 | 33,9 | 1462 | 790.0 | 282 | 2.6 | 119,4 |
50% | -118.5 | 34 | 2127 | 1167 | 409 | 3.5 | 180,4 |
75% | -118.0 | 37,7 | 3151.2 | 1721 | 605,2 | 4.8 | 265 |
الحد الأقصى | -114.3 | 42 | 37937 | 35682.0 | 6082.0 | 15 | 500,0 |
ستجعل هذه القيم المفقودة البالغ عددها 14000 قيمة أكثر صعوبة من أجل الربط الدقيق لمتوسط دخل الأسرة بمتوسط أسعار المنازل. قبل تدريب نموذج على هذه البيانات، من الحكمة التحقيق في سبب هذه القيم المفقودة للتأكد من عدم وجود انحيازات كامنة مسؤولة عن فقدان بيانات الدخل وعدد السكان.
قيم ميزة غير متوقعة
عند استكشاف البيانات، يجب أيضًا البحث عن أمثلة تتضمن قيمًا مميزة تبرز بشكل غير مميز أو غير عادية على وجه الخصوص. ويمكن أن تشير قيم الميزات غير المتوقّعة هذه إلى المشاكل التي حدثت أثناء جمع البيانات أو غيرها من حالات عدم الدقة التي يمكن أن تؤدي إلى حدوث انحياز.
على سبيل المثال، ألقِ نظرة على الأمثلة المقتبسة التالية من مجموعة بيانات الإسكان في كاليفورنيا:
longitude | خط العرض | إجمالي_الغرف | جمهور | الأسر المعيشية | متوسط_دخل | متوسط_قيمة_المنزل | |
---|---|---|---|---|---|---|---|
1 | -121.7 | 38 | 7105.0 | 3523 | 1088 | 5 | 0.2 |
2 | -122.4 | 37,8 | 2479,0 | 1816 | 496 | 3.1 | 0.3 |
3 | -122.0 | 37 | 2813 | 1337 | 477 | 3,7 | 0.3 |
4 | -103.5 | 43,8 | 2212,0 | 803.0 | 144 | 5.3 | 0.2 |
5 | -117.1 | 32,8 | 2963 | 1162 | 556 | 3.6 | 0.2 |
6 | -118.0 | 33,7 | 3396 | 1542 | 472 | 7,4 | 0.4 |
هل يمكنك تحديد أي قيم ميزات غير متوقعة؟
انحراف البيانات
يمكن أن يؤدي أي نوع من الانحرافات في البيانات، حيث قد تكون بعض المجموعات أو الخصائص أقل تمثيلاً أو أقل تمثيلاً نسبيًا بالنسبة إلى انتشارها الفعلي، إلى إحداث انحياز في النموذج.
إذا أكملت تمرين برمجة التحقق من الصحة، يمكنك تذكر اكتشاف الفشل في توزيع مجموعة الإسكان في ولاية كاليفورنيا بشكل عشوائي قبل تقسيمها إلى مجموعات للتدريب والتحقق من الصحة نتج عنها انحراف ملحوظ في البيانات. يمثل الشكل 1 تمثيلاً بصريًا لمجموعة فرعية من البيانات المأخوذة من مجموعة البيانات الكاملة التي تمثل حصريًا المنطقة الشمالية الغربية من كاليفورنيا.
الشكل 1. خريطة ولاية كاليفورنيا متراكبة مع بيانات من مجموعة الإسكان في كاليفورنيا. تمثّل كل نقطة قالبًا سكنيًا، تتراوح ألوانه من الأزرق إلى الأحمر المقابل لمتوسط سعر المنزل الذي يتراوح من الأقل إلى الأعلى، على التوالي.
إذا تم استخدام هذه العينة غير الممثَّلة لتدريب نموذج لتوقّع أسعار الإقامة في ولاية "كاليفورنيا" في جميع أنحاء الولاية، سيكون هناك نقص في بيانات الإسكان من الأجزاء الجنوبية من كاليفورنيا. وقد يؤثر الانحياز الجغرافي المشفر في النموذج بالسلب على مشتري المنازل في المجتمعات غير الممثَّلة.