همانطور که دادههای خود را برای آموزش و ارزیابی مدل آماده میکنید، مهم است که مسائل مربوط به انصاف و ممیزی منابع بالقوه سوگیری را در نظر داشته باشید، بنابراین میتوانید پیش از عرضه مدل خود به تولید، اثرات آن را به طور فعال کاهش دهید.
تعصب کجا ممکن است در کمین باشد؟ در اینجا چند پرچم قرمز وجود دارد که باید در مجموعه داده خود به آنها توجه کنید.
مقادیر ویژگی از دست رفته است
اگر مجموعه داده شما دارای یک یا چند ویژگی است که مقادیر زیادی از نمونهها را ندارند، این میتواند نشاندهنده این باشد که برخی از ویژگیهای کلیدی مجموعه داده شما کمتر نشان داده شدهاند.
تمرین: درک خود را بررسی کنید
متوجه میشوید که 1500 مورد از 5000 نمونه در مجموعه آموزشی فاقد ارزشهای خلقی هستند. کدام یک از موارد زیر منابع بالقوه سوگیری هستند که باید بررسی کنید؟
مقادیر ویژگی غیرمنتظره
هنگام کاوش دادهها، باید به دنبال نمونههایی باشید که حاوی مقادیر مشخصهای هستند که بهویژه غیرمعمول یا غیرعادی هستند. این مقادیر ویژگی غیرمنتظره میتواند مشکلاتی را نشان دهد که در طول جمعآوری دادهها یا سایر نادرستیهایی که میتوانند سوگیری ایجاد کنند، رخ داده است.
تمرین: درک خود را بررسی کنید
مجموعه مثالهای فرضی زیر را برای آموزش مدل پذیرش سگ نجاتی مرور کنید.
نژاد | سن (سال) | وزن (پوند) | خلق و خوی | shedding_level |
---|---|---|---|---|
پودل اسباب بازی | 2 | 12 | تحریک پذیر | پایین |
گلدن رتریور | 7 | 65 | آرام | بالا |
لابرادور رتریور | 35 | 73 | آرام | بالا |
بولداگ فرانسوی | 0.5 | 11 | آرام | متوسط |
نژاد مخلوط ناشناخته | 4 | 45 | تحریک پذیر | بالا |
سگ شکاری | 9 | 48 | آرام | متوسط |
نژاد | سن (سال) | وزن (پوند) | خلق و خوی | shedding_level |
---|---|---|---|---|
پودل اسباب بازی | 2 | 12 | تحریک پذیر | پایین |
گلدن رتریور | 7 | 65 | آرام | بالا |
لابرادور رتریور | 35 | 73 | آرام | بالا |
بولداگ فرانسوی | 0.5 | 11 | آرام | متوسط |
نژاد مخلوط ناشناخته | 4 | 45 | تحریک پذیر | بالا |
سگ شکاری | 9 | 48 | آرام | متوسط |
مسن ترین سگی که سنش توسط رکوردهای جهانی گینس تایید شد، Bluey ، سگ گاو استرالیایی بود که 29 سال و 5 ماه عمر کرد. با توجه به آن، به نظر می رسد کاملا غیر قابل قبول است که لابرادور رتریور در واقع 35 سال سن داشته باشد، و به احتمال زیاد سن سگ یا محاسبه شده یا به اشتباه ثبت شده است (شاید سگ در واقع 3.5 سال داشته باشد). این خطا همچنین میتواند نشاندهنده مسائل مربوط به دقت گستردهتر با دادههای سن در مجموعه داده باشد که مستلزم بررسی بیشتر است.
انحراف داده ها
هر نوع انحراف در دادههای شما، که در آن گروهها یا ویژگیهای خاصی ممکن است نسبت به شیوع آنها در دنیای واقعی کمتر یا بیش از حد نشان داده شوند، میتواند سوگیری را در مدل شما ایجاد کند.
هنگام ممیزی عملکرد مدل، نه تنها نگاه کردن به نتایج در مجموع، بلکه تجزیه نتایج بر اساس زیرگروه مهم است. به عنوان مثال، در مورد مدل پذیرش سگ نجات ما، برای اطمینان از انصاف، صرفاً نگاه کردن به دقت کلی کافی نیست. ما همچنین باید عملکرد را بر اساس زیر گروه بررسی کنیم تا مطمئن شویم که مدل برای هر نژاد، گروه سنی و گروه اندازه سگ به یک اندازه خوب عمل می کند.
بعداً در این ماژول، در Evaluating for Bias ، نگاهی دقیقتر به روشهای مختلف برای ارزیابی مدلها بر اساس زیرگروه خواهیم داشت.