مدلهای یادگیری ماشین (ML) ذاتاً عینی نیستند. متخصصان ML مدلها را با تغذیه مجموعهای از نمونههای آموزشی به آنها آموزش میدهند، و مشارکت انسان در تهیه و بررسی این دادهها میتواند پیشبینیهای یک مدل را مستعد سوگیری کند.
هنگام ساختن مدلها، مهم است که از سوگیریهای رایج انسانی که میتوانند در دادههای شما آشکار شوند آگاه باشید، بنابراین میتوانید اقدامات پیشگیرانهای برای کاهش اثرات آنها انجام دهید.
سوگیری گزارش
تعریف
سوگیری گزارشدهی زمانی اتفاق میافتد که فراوانی رویدادها، ویژگیها و/یا نتایج ثبتشده در یک مجموعه داده بهطور دقیق فرکانس دنیای واقعی آنها را منعکس نمیکند. این سوگیری ممکن است به این دلیل ایجاد شود که افراد تمایل دارند بر مستندسازی شرایطی تمرکز کنند که غیرعادی یا بهویژه به یاد ماندنی هستند، با این فرض که موارد عادی نیازی به ثبت ندارند.
مثال
یک مدل تحلیل احساسات برای پیش بینی مثبت یا منفی بودن نقدهای کتاب بر اساس مجموعه ای از ارسالی کاربران به یک وب سایت محبوب آموزش داده شده است. اکثر نظرات در مجموعه داده آموزشی منعکس کننده نظرات افراطی هستند (بازبینی کنندگانی که کتابی را دوست داشتند یا از آن متنفر بودند)، زیرا اگر افراد به شدت به آن پاسخ ندهند، احتمال کمتری وجود دارد که نظری درباره یک کتاب ارسال کنند. در نتیجه، مدل کمتر قادر به پیشبینی درست احساسات نقدهایی است که از زبان ظریفتری برای توصیف کتاب استفاده میکنند.
برای تعریف chevron_left را کلیک کنید.
سوگیری تاریخی
تعریف
سوگیری تاریخی زمانی رخ میدهد که دادههای تاریخی نابرابریهایی را که در آن زمان در جهان وجود داشت را منعکس کند.
مثال
مجموعه دادههای مسکن شهری از دهه 1960 حاوی دادههای قیمت مسکن است که منعکسکننده شیوههای تبعیضآمیز وام دهی در اثر آن دهه است.
برای تعریف chevron_left را کلیک کنید.
تعصب اتوماسیون
تعریف
سوگیری اتوماسیون تمایل به برتری دادن به نتایج تولید شده توسط سیستم های خودکار نسبت به نتایج تولید شده توسط سیستم های غیر خودکار، صرف نظر از میزان خطای هر کدام است.
مثال
پزشکان ML که برای یک تولید کننده چرخ دنده کار می کردند، مشتاق بودند تا مدل جدید «پیشگامانه» را که برای شناسایی عیوب دندان آموزش داده بودند، به کار گیرند، تا زمانی که سرپرست کارخانه اشاره کرد که دقت مدل و نرخ فراخوان هر دو 15 درصد کمتر از بازرسان انسانی است.
برای تعریف chevron_left را کلیک کنید.
سوگیری انتخاب
سوگیری انتخاب زمانی اتفاق میافتد که نمونههای مجموعه داده به گونهای انتخاب شوند که منعکس کننده توزیع دنیای واقعی آنها نباشد. سوگیری انتخاب می تواند اشکال مختلفی داشته باشد، از جمله سوگیری پوشش، سوگیری بدون پاسخ و سوگیری نمونه گیری.
سوگیری پوشش
تعریف
سوگیری پوشش در صورتی اتفاق میافتد که دادهها به صورت نماینده انتخاب نشده باشند.
مثال
مدلی برای پیشبینی فروش آتی یک محصول جدید بر اساس نظرسنجیهای تلفنی انجام شده با نمونهای از مصرفکنندگانی که محصول را خریداری کردهاند، آموزش داده میشود. مصرف کنندگانی که به جای خرید یک محصول رقیب را انتخاب کردند، مورد بررسی قرار نگرفتند و در نتیجه، این گروه از افراد در داده های آموزشی نشان داده نشدند.
برای تعریف chevron_left را کلیک کنید.
سوگیری بدون پاسخ
تعریف
سوگیری بدون پاسخ (همچنین به عنوان سوگیری مشارکت شناخته میشود) در صورتی رخ میدهد که دادهها به دلیل شکاف مشارکت در فرآیند جمعآوری دادهها، بازنماینده نباشند.
مثال
مدلی برای پیشبینی فروش آتی یک محصول جدید بر اساس نظرسنجیهای تلفنی با نمونهای از مصرفکنندگانی که محصول را خریدهاند و با نمونهای از مصرفکنندگانی که یک محصول رقیب را خریداری کردهاند، آموزش داده میشود. مصرفکنندگانی که محصول رقیب را خریداری کردهاند، 80 درصد بیشتر از تکمیل نظرسنجی امتناع میکنند و دادههای آنها در نمونه کمتر ارائه شده است.
برای تعریف chevron_left را کلیک کنید.
سوگیری نمونه گیری
تعریف
سوگیری نمونه گیری در صورتی رخ می دهد که از تصادفی سازی مناسب در طول جمع آوری داده ها استفاده نشود.
مثال
مدلی برای پیشبینی فروش آتی یک محصول جدید بر اساس نظرسنجیهای تلفنی با نمونهای از مصرفکنندگانی که محصول را خریدهاند و با نمونهای از مصرفکنندگانی که یک محصول رقیب را خریداری کردهاند، آموزش داده میشود. به جای هدف قرار دادن تصادفی مصرف کنندگان، نقشه بردار 200 مصرف کننده اول را انتخاب کرد که به یک ایمیل پاسخ دادند، که ممکن بود نسبت به خریداران معمولی مشتاق تر از محصول باشند.
برای تعریف chevron_left را کلیک کنید.
سوگیری اسناد گروهی
سوگیری اسناد گروهی تمایلی به تعمیم آنچه در مورد افراد صادق است به کل گروهی است که به آن تعلق دارند. سوگیری اسناد گروهی اغلب به دو شکل زیر ظاهر می شود.
تعصب درون گروهی
تعریف
تعصب درون گروهی ترجیحی برای اعضای گروه خودتان است که شما نیز به آن تعلق دارید ، یا برای ویژگی هایی که شما نیز به اشتراک می گذارید.
مثال
دو نفر از پزشکان ML که یک مدل غربالگری رزومه را برای توسعه دهندگان نرم افزار آموزش می دهند، مستعد این هستند که بر این باور باشند که متقاضیانی که در همان آکادمی علوم کامپیوتر شرکت کرده اند، واجد شرایط بیشتری برای این نقش هستند.
برای تعریف chevron_left را کلیک کنید.
سوگیری همگنی خارج از گروه
تعریف
سوگیری همگنی بیرون گروهی تمایل به کلیشه سازی اعضای گروهی است که به آن تعلق ندارید ، یا اینکه ویژگی های آنها را یکنواخت تر ببینید.
مثال
دو نفر از پزشکان ML که یک مدل بررسی رزومه را برای توسعه دهندگان نرم افزار آموزش می دهند، مستعد این هستند که باور کنند همه متقاضیانی که در یک آکادمی علوم کامپیوتر شرکت نکرده اند، تخصص کافی برای این نقش را ندارند.
برای تعریف chevron_left را کلیک کنید.
تعصب ضمنی
تعریف
سوگیری ضمنی زمانی اتفاق میافتد که مفروضاتی بر اساس مدل تفکر و تجربیات شخصی شخص ساخته میشوند که لزوماً کاربرد کلیتری ندارند.
مثال
یک پزشک ML که یک مدل تشخیص ژست را آموزش میدهد، از تکان دادن سر به عنوان ویژگی برای نشان دادن یک فرد در حال برقراری کلمه «نه» استفاده میکند. با این حال، در برخی از مناطق جهان، تکان دادن سر در واقع به معنای "بله" است.
برای تعریف chevron_left را کلیک کنید.
سوگیری تایید
تعریف
سوگیری تایید زمانی اتفاق میافتد که سازندگان مدل بهطور ناخودآگاه دادهها را به روشهایی پردازش میکنند که باورها و فرضیههای از پیش موجود را تأیید میکنند.
مثال
یک پزشک ML در حال ساخت مدلی است که پرخاشگری سگ ها را بر اساس ویژگی های مختلف (قد، وزن، نژاد، محیط) پیش بینی می کند. این تمرینکننده در کودکی با یک پودل اسباببازی بیش فعال برخورد ناخوشایندی داشت و از آن زمان این نژاد را با پرخاشگری مرتبط میدانست. هنگامی که دادههای آموزشی مدل را بررسی میکرد، تمرینکننده بهطور ناخودآگاه ویژگیهایی را که شواهدی از مطیع بودن در سگهای کوچکتر ارائه میکرد، کنار گذاشت.
برای تعریف chevron_left را کلیک کنید.
تعصب آزمایشگر
تعریف
سوگیری آزمایشگر زمانی اتفاق میافتد که سازنده مدل به آموزش یک مدل ادامه میدهد تا زمانی که نتیجهای را ایجاد کند که با فرضیه اصلیاش هماهنگ باشد.
مثال
یک پزشک ML در حال ساخت مدلی است که پرخاشگری سگ ها را بر اساس ویژگی های مختلف (قد، وزن، نژاد، محیط) پیش بینی می کند. این تمرینکننده در کودکی با یک پودل اسباببازی بیش فعال برخورد ناخوشایندی داشت و از آن زمان این نژاد را با پرخاشگری مرتبط میدانست. وقتی مدل آموزشدیده پیشبینی کرد که بیشتر پودلهای اسباببازی نسبتا مطیع هستند، تمرینکننده مدل را چندین بار دیگر آموزش داد تا نتیجهای که نشان میدهد پودلهای کوچکتر خشنتر هستند.
برای تعریف chevron_left را کلیک کنید.