انصاف: شناسایی سوگیری

همانطور که داده‌های خود را برای آموزش و ارزیابی مدل آماده می‌کنید، مهم است که مسائل مربوط به انصاف و ممیزی منابع بالقوه سوگیری را در نظر داشته باشید، بنابراین می‌توانید پیش از عرضه مدل خود به تولید، اثرات آن را به طور فعال کاهش دهید.

تعصب کجا ممکن است در کمین باشد؟ در اینجا چند پرچم قرمز وجود دارد که باید در مجموعه داده خود به آنها توجه کنید.

مقادیر ویژگی از دست رفته است

اگر مجموعه داده شما دارای یک یا چند ویژگی است که مقادیر زیادی از نمونه‌ها را ندارند، این می‌تواند نشان‌دهنده این باشد که برخی از ویژگی‌های کلیدی مجموعه داده شما کمتر نشان داده شده‌اند.

تمرین: درک خود را بررسی کنید

شما در حال آموزش مدلی برای پیش‌بینی پذیرش سگ‌های نجات هستید که بر اساس ویژگی‌های مختلف، از جمله نژاد، سن، وزن، خلق و خو، و مقدار خز ریخته شده در هر روز می‌باشد. هدف شما این است که اطمینان حاصل کنید که این مدل در تمام انواع سگ‌ها، صرف نظر از ویژگی‌های فیزیکی یا رفتاری آنها، به یک اندازه خوب عمل می‌کند.

متوجه می‌شوید که 1500 مورد از 5000 نمونه در مجموعه آموزشی فاقد ارزش‌های خلقی هستند. کدام یک از موارد زیر منابع بالقوه سوگیری هستند که باید بررسی کنید؟

اطلاعات مربوط به خلق و خوی احتمال بیشتری وجود دارد که برای نژادهای خاصی از سگ ها ناپدید شوند.
اگر در دسترس بودن داده‌های خلق و خوی با نژاد سگ مرتبط باشد، این ممکن است منجر به پیش‌بینی‌های سازگاری کمتر دقیق‌تر برای نژادهای خاص سگ شود.
اطلاعات مربوط به مزاج سگ‌های زیر 12 ماه بیشتر از بین می‌رود
اگر در دسترس بودن داده‌های خلق و خوی با سن مرتبط باشد، این ممکن است منجر به پیش‌بینی‌های سازگاری با دقت کمتری برای توله‌ها در مقایسه با سگ‌های بالغ شود.
داده های خلق و خوی برای همه سگ هایی که از شهرهای بزرگ نجات داده شده اند وجود ندارد.
در نگاه اول، ممکن است به نظر نرسد که این یک منبع بالقوه سوگیری است، زیرا داده های از دست رفته بر همه سگ های شهرهای بزرگ، صرف نظر از نژاد، سن، وزن و غیره به طور یکسان تأثیر می گذارد. با این حال، ما هنوز باید در نظر بگیریم که مکانی که سگ در آن قرار دارد ممکن است به طور موثری به عنوان نماینده ای برای این ویژگی های فیزیکی عمل کند. برای مثال، اگر سگ‌های شهرهای بزرگ به‌طور قابل توجهی کوچک‌تر از سگ‌های مناطق روستایی‌تر باشند، این می‌تواند منجر به پیش‌بینی‌های نادرست پذیرش برای سگ‌های کم‌وزن یا برخی از نژادهای سگ‌های کوچک شود.
داده های خلق و خوی به طور تصادفی در مجموعه داده وجود ندارد.
اگر داده‌های خلق و خوی واقعاً به‌طور تصادفی از دست رفته باشد، این منبع بالقوه سوگیری نخواهد بود. با این حال، این احتمال وجود دارد که داده‌های خلق و خوی به طور تصادفی گم شده باشند، اما تحقیقات بیشتر ممکن است توضیحی را برای این اختلاف نشان دهد. بنابراین مهم است که یک بررسی کامل برای رد احتمالات دیگر انجام دهید، نه اینکه شکاف داده ها را تصادفی فرض کنید.

مقادیر ویژگی غیرمنتظره

هنگام کاوش داده‌ها، باید به دنبال نمونه‌هایی باشید که حاوی مقادیر مشخصه‌ای هستند که به‌ویژه غیرمعمول یا غیرعادی هستند. این مقادیر ویژگی غیرمنتظره می‌تواند مشکلاتی را نشان دهد که در طول جمع‌آوری داده‌ها یا سایر نادرستی‌هایی که می‌توانند سوگیری ایجاد کنند، رخ داده است.

تمرین: درک خود را بررسی کنید

مجموعه مثال‌های فرضی زیر را برای آموزش مدل پذیرش سگ نجاتی مرور کنید.

نژاد سن (سال) وزن (پوند) خلق و خوی shedding_level
پودل اسباب بازی 2 12 تحریک پذیر پایین
گلدن رتریور 7 65 آرام بالا
لابرادور رتریور 35 73 آرام بالا
بولداگ فرانسوی 0.5 11 آرام متوسط
نژاد مخلوط ناشناخته 4 45 تحریک پذیر بالا
سگ شکاری 9 48 آرام متوسط
آیا می توانید مشکلات مربوط به داده های ویژگی را شناسایی کنید؟
برای مشاهده پاسخ اینجا را کلیک کنید

انحراف داده ها

هر نوع انحراف در داده‌های شما، که در آن گروه‌ها یا ویژگی‌های خاصی ممکن است نسبت به شیوع آن‌ها در دنیای واقعی کمتر یا بیش از حد نشان داده شوند، می‌تواند سوگیری را در مدل شما ایجاد کند.

هنگام ممیزی عملکرد مدل، نه تنها نگاه کردن به نتایج در مجموع، بلکه تجزیه نتایج بر اساس زیرگروه مهم است. به عنوان مثال، در مورد مدل پذیرش سگ نجات ما، برای اطمینان از انصاف، صرفاً نگاه کردن به دقت کلی کافی نیست. ما همچنین باید عملکرد را بر اساس زیر گروه بررسی کنیم تا مطمئن شویم که مدل برای هر نژاد، گروه سنی و گروه اندازه سگ به یک اندازه خوب عمل می کند.

بعداً در این ماژول، در Evaluating for Bias ، نگاهی دقیق‌تر به روش‌های مختلف برای ارزیابی مدل‌ها بر اساس زیرگروه خواهیم داشت.