هنگامی که منبع سوگیری در داده های آموزشی شناسایی شد، می توانیم اقدامات پیشگیرانه ای برای کاهش اثرات آن انجام دهیم. دو استراتژی اصلی وجود دارد که مهندسان یادگیری ماشین (ML) معمولاً برای اصلاح سوگیری استفاده میکنند:
- افزایش داده های آموزشی
- تنظیم عملکرد از دست دادن مدل.
افزایش داده های آموزشی
اگر ممیزی دادههای آموزشی مشکلاتی را در مورد دادههای گمشده، نادرست یا منحرف نشان دهد، سادهترین راه برای رسیدگی به مشکل اغلب جمعآوری دادههای اضافی است.
با این حال، در حالی که افزایش دادههای آموزشی میتواند ایدهآل باشد، اما جنبه منفی این رویکرد این است که میتواند غیرقابل اجرا باشد، یا به دلیل کمبود دادههای موجود یا محدودیتهای منابع که مانع از جمعآوری دادهها میشود. به عنوان مثال، جمع آوری داده های بیشتر ممکن است بسیار پرهزینه یا وقت گیر باشد، یا به دلیل محدودیت های قانونی/حریم خصوصی قابل اجرا نباشد.
تنظیم تابع بهینه سازی مدل
در مواردی که جمعآوری دادههای آموزشی اضافی امکانپذیر نیست، رویکرد دیگر برای کاهش تعصب، تنظیم نحوه محاسبه ضرر در طول آموزش مدل است. ما معمولاً از یک تابع بهینه سازی مانند از دست دادن گزارش برای جریمه کردن پیش بینی های مدل نادرست استفاده می کنیم. با این حال، از دست دادن گزارش، عضویت در زیر گروه را در نظر نمی گیرد. بنابراین به جای استفاده از از دست دادن گزارش، میتوانیم یک تابع بهینهسازی را انتخاب کنیم که برای جریمه کردن خطاها به شیوهای عادلانه طراحی شده است که با عدم تعادلی که در دادههای آموزشی خود شناسایی کردهایم مقابله میکند.
کتابخانه اصلاح مدل TensorFlow ابزارهایی را برای به کارگیری دو تکنیک مختلف کاهش تعصب در طول آموزش مدل ارائه می دهد:
MinDiff : هدف MinDiff متعادل کردن خطاها برای دو بخش مختلف از داده ها (دانش آموزان پسر/زن در مقابل دانش آموزان غیر باینری) با اضافه کردن یک جریمه برای تفاوت در توزیع های پیش بینی برای دو گروه است.
جفتسازی لاجیت متضاد : هدف جفتسازی لاجیت متضاد (CLP) این است که اطمینان حاصل شود که تغییر ویژگی حساس یک مثال، پیشبینی مدل را برای آن مثال تغییر نمیدهد. به عنوان مثال، اگر یک مجموعه داده آموزشی شامل دو مثال باشد که مقادیر ویژگیهای آنها یکسان است، به جز اینکه یکی دارای ارزش
gender
male
و دیگری دارای ارزشgender
nonbinary
باشد، اگر پیشبینیهای این دو مثال متفاوت باشد، CLP یک جریمه اضافه میکند.
تکنیک هایی که برای تنظیم تابع بهینه سازی انتخاب می کنید به موارد استفاده مدل بستگی دارد. در بخش بعدی، با در نظر گرفتن این موارد استفاده، نگاه دقیقتری به چگونگی نزدیک شدن به کار ارزیابی یک مدل برای انصاف خواهیم داشت.