انصاف: شناسایی تعصب

همانطور که داده های خود را بررسی می کنید تا تعیین کنید که چگونه آن را به بهترین نحو در مدل خود نشان دهید ، مهم است که مسائل مربوط به انصاف را نیز در ذهن داشته باشید و به طور فعال منابع بالقوه سوگیری را بررسی کنید.

کجا ممکن است تعصب در کمین باشد؟ در اینجا سه ​​پرچم قرمز وجود دارد که باید در مجموعه داده های خود مراقب آنها باشید.

مقادیر ویژگی از دست رفته

اگر مجموعه داده‌های شما دارای یک یا چند ویژگی است که مقادیر زیادی از نمونه‌ها را ندارند، این می‌تواند نشان‌دهنده این باشد که برخی از ویژگی‌های کلیدی مجموعه داده‌های شما کمتر نشان داده شده‌اند.

برای مثال، جدول زیر خلاصه‌ای از آمارهای کلیدی برای زیرمجموعه‌ای از ویژگی‌های مجموعه داده مسکن کالیفرنیا را نشان می‌دهد که در DataFrame پانداها ذخیره شده و از طریق DataFrame.describe ایجاد شده‌اند. توجه داشته باشید که همه ویژگی ها دارای count 17000 هستند که نشان می دهد هیچ مقدار گم نشده ای وجود ندارد:

طول جغرافیایی عرض جغرافیایی total_rooms جمعیت خانوارها متوسط_درآمد میانه_ارزش_خانه
شمردن 17000.0 17000.0 17000.0 17000.0 17000.0 17000.0 17000.0
منظور داشتن -119.6 35.6 2643.7 1429.6 501.2 3.9 207.3
std 2.0 2.1 2179.9 1147.9 384.5 1.9 116.0
دقیقه -124.3 32.5 2.0 3.0 1.0 0.5 15.0
25% -121.8 33.9 1462.0 790.0 282.0 2.6 119.4
50% -118.5 34.2 2127.0 1167.0 409.0 3.5 180.4
75% -118.0 37.7 3151.2 1721.0 605.2 4.8 265.0
حداکثر -114.3 42.0 37937.0 35682.0 6082.0 15.0 500.0

در عوض، فرض کنید که سه ویژگی ( population ، households ، و median_income ) فقط دارای تعداد 3000 هستند - به عبارت دیگر، 14000 مقدار گمشده برای هر ویژگی وجود دارد:

طول جغرافیایی عرض جغرافیایی total_rooms جمعیت خانوارها متوسط_درآمد میانه_ارزش_خانه
شمردن 17000.0 17000.0 17000.0 3000.0 3000.0 3000.0 17000.0
منظور داشتن -119.6 35.6 2643.7 1429.6 501.2 3.9 207.3
std 2.0 2.1 2179.9 1147.9 384.5 1.9 116.0
دقیقه -124.3 32.5 2.0 3.0 1.0 0.5 15.0
25% -121.8 33.9 1462.0 790.0 282.0 2.6 119.4
50% -118.5 34.2 2127.0 1167.0 409.0 3.5 180.4
75% -118.0 37.7 3151.2 1721.0 605.2 4.8 265.0
حداکثر -114.3 42.0 37937.0 35682.0 6082.0 15.0 500.0

این 14000 مقدار گمشده، ارتباط دقیق درآمد متوسط ​​خانوارها با میانگین قیمت مسکن را بسیار دشوارتر می کند. قبل از آموزش مدلی بر روی این داده ها، عاقلانه است که علت این مقادیر از دست رفته را بررسی کنیم تا اطمینان حاصل کنیم که هیچ سوگیری پنهانی مسئول داده های از دست رفته درآمد و جمعیت وجود ندارد.

مقادیر ویژگی غیرمنتظره

هنگام کاوش داده‌ها، باید به دنبال نمونه‌هایی باشید که حاوی مقادیر مشخصه‌ای هستند که به‌ویژه غیرمعمول یا غیرعادی هستند. این مقادیر ویژگی غیرمنتظره می‌تواند مشکلاتی را نشان دهد که در طول جمع‌آوری داده‌ها یا سایر نادرستی‌هایی که می‌توانند سوگیری ایجاد کنند، رخ داده است.

به عنوان مثال، به نمونه های گزیده زیر از مجموعه داده های مسکن کالیفرنیا نگاهی بیندازید:

طول جغرافیایی عرض جغرافیایی total_rooms جمعیت خانوارها متوسط_درآمد میانه_ارزش_خانه
1 -121.7 38.0 7105.0 3523.0 1088.0 5.0 0.2
2 -122.4 37.8 2479.0 1816.0 496.0 3.1 0.3
3 -122.0 37.0 2813.0 1337.0 477.0 3.7 0.3
4 -103.5 43.8 2212.0 803.0 144.0 5.3 0.2
5 -117.1 32.8 2963.0 1162.0 556.0 3.6 0.2
6 -118.0 33.7 3396.0 1542.0 472.0 7.4 0.4

آیا می توانید مقادیر غیرمنتظره ویژگی را مشخص کنید؟

انحراف داده ها

هر نوع انحراف در داده‌های شما، که در آن گروه‌ها یا ویژگی‌های خاصی ممکن است نسبت به شیوع آن‌ها در دنیای واقعی کمتر یا بیش از حد نشان داده شوند، می‌تواند سوگیری را در مدل شما ایجاد کند.

اگر تمرین برنامه‌نویسی اعتبارسنجی را تکمیل کرده باشید، ممکن است به یاد بیاورید که چگونه شکست در تصادفی‌سازی مجموعه داده‌های مسکن کالیفرنیا قبل از تقسیم آن به مجموعه‌های آموزشی و اعتبارسنجی منجر به انحراف داده‌های مشخص شده است. شکل 1 زیرمجموعه ای از داده ها را نشان می دهد که از مجموعه داده های کامل گرفته شده است که منحصراً منطقه شمال غربی کالیفرنیا را نشان می دهد.

نقشه ایالت کالیفرنیا با داده های مجموعه داده های مسکن کالیفرنیا پوشانده شده است. هر نقطه نشان دهنده یک بلوک مسکن است. نقطه‌ها همگی در شمال غربی کالیفرنیا دسته‌بندی شده‌اند، بدون هیچ نقطه‌ای در کالیفرنیای جنوبی، که انحراف جغرافیایی داده‌ها را نشان می‌دهد.

شکل 1. نقشه ایالت کالیفرنیا با داده های مجموعه داده های مسکن کالیفرنیا پوشانده شده است. هر نقطه نشان‌دهنده یک بلوک مسکن است که رنگ‌های آن از آبی تا قرمز متناظر با میانگین قیمت خانه از پایین تا زیاد است.

اگر این نمونه غیرنماینده برای آموزش مدلی برای پیش‌بینی قیمت مسکن کالیفرنیا در سراسر ایالت مورد استفاده قرار گیرد، فقدان داده‌های مسکن از بخش‌های جنوبی کالیفرنیا مشکل‌ساز خواهد بود. تعصب جغرافیایی کدگذاری شده در مدل ممکن است بر خریداران خانه در جوامعی که ارائه نشده اند تأثیر منفی بگذارد.