همانطور که داده های خود را بررسی می کنید تا تعیین کنید که چگونه آن را به بهترین نحو در مدل خود نشان دهید ، مهم است که مسائل مربوط به انصاف را نیز در ذهن داشته باشید و به طور فعال منابع بالقوه سوگیری را بررسی کنید.
کجا ممکن است تعصب در کمین باشد؟ در اینجا سه پرچم قرمز وجود دارد که باید در مجموعه داده های خود مراقب آنها باشید.
مقادیر ویژگی از دست رفته
اگر مجموعه دادههای شما دارای یک یا چند ویژگی است که مقادیر زیادی از نمونهها را ندارند، این میتواند نشاندهنده این باشد که برخی از ویژگیهای کلیدی مجموعه دادههای شما کمتر نشان داده شدهاند.
برای مثال، جدول زیر خلاصهای از آمارهای کلیدی برای زیرمجموعهای از ویژگیهای مجموعه داده مسکن کالیفرنیا را نشان میدهد که در DataFrame
پانداها ذخیره شده و از طریق DataFrame.describe
ایجاد شدهاند. توجه داشته باشید که همه ویژگی ها دارای count
17000 هستند که نشان می دهد هیچ مقدار گم نشده ای وجود ندارد:
طول جغرافیایی | عرض جغرافیایی | total_rooms | جمعیت | خانوارها | متوسط_درآمد | میانه_ارزش_خانه | |
---|---|---|---|---|---|---|---|
شمردن | 17000.0 | 17000.0 | 17000.0 | 17000.0 | 17000.0 | 17000.0 | 17000.0 |
منظور داشتن | -119.6 | 35.6 | 2643.7 | 1429.6 | 501.2 | 3.9 | 207.3 |
std | 2.0 | 2.1 | 2179.9 | 1147.9 | 384.5 | 1.9 | 116.0 |
دقیقه | -124.3 | 32.5 | 2.0 | 3.0 | 1.0 | 0.5 | 15.0 |
25% | -121.8 | 33.9 | 1462.0 | 790.0 | 282.0 | 2.6 | 119.4 |
50% | -118.5 | 34.2 | 2127.0 | 1167.0 | 409.0 | 3.5 | 180.4 |
75% | -118.0 | 37.7 | 3151.2 | 1721.0 | 605.2 | 4.8 | 265.0 |
حداکثر | -114.3 | 42.0 | 37937.0 | 35682.0 | 6082.0 | 15.0 | 500.0 |
در عوض، فرض کنید که سه ویژگی ( population
، households
، و median_income
) فقط دارای تعداد 3000
هستند - به عبارت دیگر، 14000 مقدار گمشده برای هر ویژگی وجود دارد:
طول جغرافیایی | عرض جغرافیایی | total_rooms | جمعیت | خانوارها | متوسط_درآمد | میانه_ارزش_خانه | |
---|---|---|---|---|---|---|---|
شمردن | 17000.0 | 17000.0 | 17000.0 | 3000.0 | 3000.0 | 3000.0 | 17000.0 |
منظور داشتن | -119.6 | 35.6 | 2643.7 | 1429.6 | 501.2 | 3.9 | 207.3 |
std | 2.0 | 2.1 | 2179.9 | 1147.9 | 384.5 | 1.9 | 116.0 |
دقیقه | -124.3 | 32.5 | 2.0 | 3.0 | 1.0 | 0.5 | 15.0 |
25% | -121.8 | 33.9 | 1462.0 | 790.0 | 282.0 | 2.6 | 119.4 |
50% | -118.5 | 34.2 | 2127.0 | 1167.0 | 409.0 | 3.5 | 180.4 |
75% | -118.0 | 37.7 | 3151.2 | 1721.0 | 605.2 | 4.8 | 265.0 |
حداکثر | -114.3 | 42.0 | 37937.0 | 35682.0 | 6082.0 | 15.0 | 500.0 |
این 14000 مقدار گمشده، ارتباط دقیق درآمد متوسط خانوارها با میانگین قیمت مسکن را بسیار دشوارتر می کند. قبل از آموزش مدلی بر روی این داده ها، عاقلانه است که علت این مقادیر از دست رفته را بررسی کنیم تا اطمینان حاصل کنیم که هیچ سوگیری پنهانی مسئول داده های از دست رفته درآمد و جمعیت وجود ندارد.
مقادیر ویژگی غیرمنتظره
هنگام کاوش دادهها، باید به دنبال نمونههایی باشید که حاوی مقادیر مشخصهای هستند که بهویژه غیرمعمول یا غیرعادی هستند. این مقادیر ویژگی غیرمنتظره میتواند مشکلاتی را نشان دهد که در طول جمعآوری دادهها یا سایر نادرستیهایی که میتوانند سوگیری ایجاد کنند، رخ داده است.
به عنوان مثال، به نمونه های گزیده زیر از مجموعه داده های مسکن کالیفرنیا نگاهی بیندازید:
طول جغرافیایی | عرض جغرافیایی | total_rooms | جمعیت | خانوارها | متوسط_درآمد | میانه_ارزش_خانه | |
---|---|---|---|---|---|---|---|
1 | -121.7 | 38.0 | 7105.0 | 3523.0 | 1088.0 | 5.0 | 0.2 |
2 | -122.4 | 37.8 | 2479.0 | 1816.0 | 496.0 | 3.1 | 0.3 |
3 | -122.0 | 37.0 | 2813.0 | 1337.0 | 477.0 | 3.7 | 0.3 |
4 | -103.5 | 43.8 | 2212.0 | 803.0 | 144.0 | 5.3 | 0.2 |
5 | -117.1 | 32.8 | 2963.0 | 1162.0 | 556.0 | 3.6 | 0.2 |
6 | -118.0 | 33.7 | 3396.0 | 1542.0 | 472.0 | 7.4 | 0.4 |
آیا می توانید مقادیر غیرمنتظره ویژگی را مشخص کنید؟
انحراف داده ها
هر نوع انحراف در دادههای شما، که در آن گروهها یا ویژگیهای خاصی ممکن است نسبت به شیوع آنها در دنیای واقعی کمتر یا بیش از حد نشان داده شوند، میتواند سوگیری را در مدل شما ایجاد کند.
اگر تمرین برنامهنویسی اعتبارسنجی را تکمیل کرده باشید، ممکن است به یاد بیاورید که چگونه شکست در تصادفیسازی مجموعه دادههای مسکن کالیفرنیا قبل از تقسیم آن به مجموعههای آموزشی و اعتبارسنجی منجر به انحراف دادههای مشخص شده است. شکل 1 زیرمجموعه ای از داده ها را نشان می دهد که از مجموعه داده های کامل گرفته شده است که منحصراً منطقه شمال غربی کالیفرنیا را نشان می دهد.
شکل 1. نقشه ایالت کالیفرنیا با داده های مجموعه داده های مسکن کالیفرنیا پوشانده شده است. هر نقطه نشاندهنده یک بلوک مسکن است که رنگهای آن از آبی تا قرمز متناظر با میانگین قیمت خانه از پایین تا زیاد است.
اگر این نمونه غیرنماینده برای آموزش مدلی برای پیشبینی قیمت مسکن کالیفرنیا در سراسر ایالت مورد استفاده قرار گیرد، فقدان دادههای مسکن از بخشهای جنوبی کالیفرنیا مشکلساز خواهد بود. تعصب جغرافیایی کدگذاری شده در مدل ممکن است بر خریداران خانه در جوامعی که ارائه نشده اند تأثیر منفی بگذارد.