این صفحه به‌وسیله ‏Cloud Translation API‏ ترجمه شده است.

انصاف: انواع سوگیری

مدل‌های یادگیری ماشین (ML) ذاتاً عینی نیستند. متخصصان ML مدل‌ها را با تغذیه مجموعه‌ای از نمونه‌های آموزشی به آن‌ها آموزش می‌دهند، و مشارکت انسان در تهیه و بررسی این داده‌ها می‌تواند پیش‌بینی‌های یک مدل را مستعد سوگیری کند.

هنگام ساختن مدل‌ها، مهم است که از سوگیری‌های رایج انسانی که می‌توانند در داده‌های شما آشکار شوند آگاه باشید، بنابراین می‌توانید اقدامات پیشگیرانه‌ای برای کاهش اثرات آنها انجام دهید.

سوگیری گزارش

تعریف
سوگیری گزارش‌دهی زمانی اتفاق می‌افتد که فراوانی رویدادها، ویژگی‌ها و/یا نتایج ثبت‌شده در یک مجموعه داده به‌طور دقیق فرکانس دنیای واقعی آنها را منعکس نمی‌کند. این سوگیری ممکن است به این دلیل ایجاد شود که افراد تمایل دارند بر مستندسازی شرایطی تمرکز کنند که غیرعادی یا به‌ویژه به یاد ماندنی هستند، با این فرض که موارد عادی نیازی به ثبت ندارند.
برای مثال روی chevron_right کلیک کنید.
مثال
یک مدل تحلیل احساسات برای پیش بینی مثبت یا منفی بودن نقدهای کتاب بر اساس مجموعه ای از ارسالی کاربران به یک وب سایت محبوب آموزش داده شده است. اکثر نظرات در مجموعه داده آموزشی منعکس کننده نظرات افراطی هستند (بازبینی کنندگانی که کتابی را دوست داشتند یا از آن متنفر بودند)، زیرا اگر افراد به شدت به آن پاسخ ندهند، احتمال کمتری وجود دارد که نظری درباره یک کتاب ارسال کنند. در نتیجه، مدل کمتر قادر به پیش‌بینی درست احساسات نقدهایی است که از زبان ظریف‌تری برای توصیف کتاب استفاده می‌کنند.
برای تعریف chevron_left را کلیک کنید.

سوگیری تاریخی

تعریف
سوگیری تاریخی زمانی رخ می‌دهد که داده‌های تاریخی نابرابری‌هایی را که در آن زمان در جهان وجود داشت را منعکس کند.
برای مثال روی chevron_right کلیک کنید
مثال
مجموعه داده‌های مسکن شهری از دهه 1960 حاوی داده‌های قیمت مسکن است که منعکس‌کننده شیوه‌های تبعیض‌آمیز وام دهی در اثر آن دهه است.
برای تعریف chevron_left را کلیک کنید.

تعصب اتوماسیون

تعریف
سوگیری اتوماسیون تمایل به برتری دادن به نتایج تولید شده توسط سیستم های خودکار نسبت به نتایج تولید شده توسط سیستم های غیر خودکار، صرف نظر از میزان خطای هر کدام است.
برای مثال روی chevron_right کلیک کنید
مثال
پزشکان ML که برای یک تولید کننده چرخ دنده کار می کردند، مشتاق بودند تا مدل جدید «پیشگامانه» را که برای شناسایی عیوب دندان آموزش داده بودند، به کار گیرند، تا زمانی که سرپرست کارخانه اشاره کرد که دقت مدل و نرخ فراخوان هر دو 15 درصد کمتر از بازرسان انسانی است.
برای تعریف chevron_left را کلیک کنید.

سوگیری انتخاب

سوگیری انتخاب زمانی اتفاق می‌افتد که نمونه‌های مجموعه داده به گونه‌ای انتخاب شوند که منعکس کننده توزیع دنیای واقعی آنها نباشد. سوگیری انتخاب می تواند اشکال مختلفی داشته باشد، از جمله سوگیری پوشش، سوگیری بدون پاسخ و سوگیری نمونه گیری.

سوگیری پوشش

تعریف
سوگیری پوشش در صورتی اتفاق می‌افتد که داده‌ها به صورت نماینده انتخاب نشده باشند.
برای مثال روی chevron_right کلیک کنید
مثال
مدلی برای پیش‌بینی فروش آتی یک محصول جدید بر اساس نظرسنجی‌های تلفنی انجام شده با نمونه‌ای از مصرف‌کنندگانی که محصول را خریداری کرده‌اند، آموزش داده می‌شود. مصرف کنندگانی که به جای خرید یک محصول رقیب را انتخاب کردند، مورد بررسی قرار نگرفتند و در نتیجه، این گروه از افراد در داده های آموزشی نشان داده نشدند.
برای تعریف chevron_left را کلیک کنید.

سوگیری بدون پاسخ

تعریف
سوگیری بدون پاسخ (همچنین به عنوان سوگیری مشارکت شناخته می‌شود) در صورتی رخ می‌دهد که داده‌ها به دلیل شکاف‌های مشارکت در فرآیند جمع‌آوری داده‌ها، بازنماینده نباشند.
برای مثال روی chevron_right کلیک کنید
مثال
مدلی برای پیش‌بینی فروش آتی یک محصول جدید بر اساس نظرسنجی‌های تلفنی با نمونه‌ای از مصرف‌کنندگانی که محصول را خریده‌اند و با نمونه‌ای از مصرف‌کنندگانی که یک محصول رقیب را خریداری کرده‌اند، آموزش داده می‌شود. مصرف‌کنندگانی که محصول رقیب را خریداری کرده‌اند، 80 درصد بیشتر از تکمیل نظرسنجی امتناع می‌کنند و داده‌های آن‌ها در نمونه کمتر ارائه شده است.
برای تعریف chevron_left را کلیک کنید.

سوگیری نمونه گیری

تعریف
سوگیری نمونه گیری در صورتی رخ می دهد که از تصادفی سازی مناسب در طول جمع آوری داده ها استفاده نشود.
برای مثال روی chevron_right کلیک کنید
مثال
مدلی برای پیش‌بینی فروش آتی یک محصول جدید بر اساس نظرسنجی‌های تلفنی با نمونه‌ای از مصرف‌کنندگانی که محصول را خریده‌اند و با نمونه‌ای از مصرف‌کنندگانی که یک محصول رقیب را خریداری کرده‌اند، آموزش داده می‌شود. به جای هدف قرار دادن تصادفی مصرف کنندگان، نقشه بردار 200 مصرف کننده اول را انتخاب کرد که به یک ایمیل پاسخ دادند، که ممکن بود نسبت به خریداران معمولی مشتاق تر از محصول باشند.
برای تعریف chevron_left را کلیک کنید.

سوگیری اسناد گروهی

سوگیری اسناد گروهی تمایلی به تعمیم آنچه در مورد افراد صادق است به کل گروهی است که به آن تعلق دارند. سوگیری اسناد گروهی اغلب به دو شکل زیر ظاهر می شود.

تعصب درون گروهی

تعریف
تعصب درون گروهی ترجیحی برای اعضای گروه خودتان است که شما نیز به آن تعلق دارید ، یا برای ویژگی هایی که شما نیز به اشتراک می گذارید.
برای مثال روی chevron_right کلیک کنید
مثال
دو نفر از پزشکان ML که یک مدل غربالگری رزومه را برای توسعه دهندگان نرم افزار آموزش می دهند، مستعد این هستند که بر این باور باشند که متقاضیانی که در همان آکادمی علوم کامپیوتر شرکت کرده اند، واجد شرایط بیشتری برای این نقش هستند.
برای تعریف chevron_left را کلیک کنید.

سوگیری همگنی خارج از گروه

تعریف
سوگیری همگنی بیرون گروهی تمایل به کلیشه سازی اعضای گروهی است که به آن تعلق ندارید ، یا اینکه ویژگی های آنها را یکنواخت تر ببینید.
برای مثال روی chevron_right کلیک کنید
مثال
دو نفر از پزشکان ML که یک مدل بررسی رزومه را برای توسعه دهندگان نرم افزار آموزش می دهند، مستعد این هستند که باور کنند همه متقاضیانی که در یک آکادمی علوم کامپیوتر شرکت نکرده اند، تخصص کافی برای این نقش را ندارند.
برای تعریف chevron_left را کلیک کنید.

تعصب ضمنی

تعریف
سوگیری ضمنی زمانی اتفاق می‌افتد که مفروضاتی بر اساس مدل تفکر و تجربیات شخصی شخص ساخته می‌شوند که لزوماً کاربرد کلی‌تری ندارند.
برای مثال روی chevron_right کلیک کنید
مثال
یک پزشک ML که یک مدل تشخیص ژست را آموزش می‌دهد، از تکان دادن سر به عنوان ویژگی برای نشان دادن یک فرد در حال برقراری کلمه «نه» استفاده می‌کند. با این حال، در برخی از مناطق جهان، تکان دادن سر در واقع به معنای "بله" است.
برای تعریف chevron_left را کلیک کنید.

سوگیری تایید

تعریف
سوگیری تایید زمانی اتفاق می‌افتد که سازندگان مدل به‌طور ناخودآگاه داده‌ها را به روش‌هایی پردازش می‌کنند که باورها و فرضیه‌های از پیش موجود را تأیید می‌کنند.
برای مثال روی chevron_right کلیک کنید
مثال
یک پزشک ML در حال ساخت مدلی است که پرخاشگری سگ ها را بر اساس ویژگی های مختلف (قد، وزن، نژاد، محیط) پیش بینی می کند. این تمرین‌کننده در کودکی با یک پودل اسباب‌بازی بیش فعال برخورد ناخوشایندی داشت و از آن زمان این نژاد را با پرخاشگری مرتبط می‌دانست. هنگامی که داده‌های آموزشی مدل را بررسی می‌کرد، تمرین‌کننده به‌طور ناخودآگاه ویژگی‌هایی را که شواهدی از مطیع بودن در سگ‌های کوچک‌تر ارائه می‌کرد، کنار گذاشت.
برای تعریف chevron_left را کلیک کنید.

تعصب آزمایشگر

تعریف
سوگیری آزمایشگر زمانی اتفاق می‌افتد که سازنده مدل به آموزش یک مدل ادامه می‌دهد تا زمانی که نتیجه‌ای را ایجاد کند که با فرضیه اصلی‌اش هماهنگ باشد.
برای مثال روی chevron_right کلیک کنید
مثال
یک پزشک ML در حال ساخت مدلی است که پرخاشگری سگ ها را بر اساس ویژگی های مختلف (قد، وزن، نژاد، محیط) پیش بینی می کند. این تمرین‌کننده در کودکی با یک پودل اسباب‌بازی بیش فعال برخورد ناخوشایندی داشت و از آن زمان این نژاد را با پرخاشگری مرتبط می‌دانست. وقتی مدل آموزش‌دیده پیش‌بینی کرد که بیشتر پودل‌های اسباب‌بازی نسبتا مطیع هستند، تمرین‌کننده مدل را چندین بار دیگر آموزش داد تا نتیجه‌ای که نشان می‌دهد پودل‌های کوچک‌تر خشن‌تر هستند.
برای تعریف chevron_left را کلیک کنید.

تمرین: درک خود را بررسی کنید

کدام یک از انواع سوگیری های زیر می تواند به پیش بینی های نادرست در مدل پذیرش کالج که در مقدمه توضیح داده شد کمک کند؟

سوگیری تاریخی

مدل پذیرش بر اساس سوابق دانشجویی در 20 سال گذشته آموزش داده شد. اگر دانش‌آموزان اقلیت در این داده‌ها نشان داده نمی‌شدند، مدل می‌توانست همان نابرابری‌های تاریخی را هنگام پیش‌بینی داده‌های دانش‌آموزی جدید بازتولید کند.

تعصب درون گروهی

مدل پذیرش توسط دانشجویان فعلی دانشگاه آموزش داده شد، که می‌توانستند ترجیحی ناخودآگاه برای پذیرش دانشجویانی داشته باشند که از پس‌زمینه‌های مشابه خودشان می‌آیند، که می‌تواند بر نحوه مدیریت یا مهندسی ویژگی داده‌هایی که مدل بر اساس آن آموزش داده شده است، تأثیر بگذارد.

سوگیری تایید

مدل پذیرش توسط دانشجویان فعلی دانشگاه آموزش داده شد، که احتمالاً باورهای قبلی در مورد اینکه چه نوع مدارکی با موفقیت در برنامه علوم کامپیوتر مرتبط است، داشتند. آنها می‌توانستند به‌طور ناخواسته داده‌ها را مدیریت کرده یا ویژگی‌ها را مهندسی کنند تا مدل این باورهای موجود را تأیید کند.

تعصب اتوماسیون

تعصب اتوماسیون ممکن است توضیح دهد که چرا کمیته پذیرش استفاده از مدل ML را برای تصمیم گیری در مورد پذیرش انتخاب کرد. آنها ممکن است بر این باور باشند که یک سیستم خودکار نتایج بهتری نسبت به تصمیماتی که توسط انسان ها گرفته می شود، ایجاد می کند. با این حال، سوگیری اتوماسیون هیچ بینشی در مورد اینکه چرا پیش‌بینی‌های مدل در نهایت به انحراف کشیده شد، ارائه نمی‌کند.

قبلی

مقدمه (5 دقیقه)

بعدی

شناسایی سوگیری (10 دقیقه)

انصاف: انواع سوگیری با مجموعه‌ها، منظم بمانید ذخیره و طبقه‌بندی محتوا براساس اولویت‌های شما.

سوگیری گزارش

تعریف

مثال

سوگیری تاریخی

تعریف

مثال

تعصب اتوماسیون

تعریف

مثال

سوگیری انتخاب

سوگیری پوشش

تعریف

مثال

سوگیری بدون پاسخ

تعریف

مثال

سوگیری نمونه گیری

تعریف

مثال

سوگیری اسناد گروهی

تعصب درون گروهی

تعریف

مثال

سوگیری همگنی خارج از گروه

تعریف

مثال

تعصب ضمنی

تعریف

مثال

سوگیری تایید

تعریف

مثال

تعصب آزمایشگر

تعریف

مثال

تمرین: درک خود را بررسی کنید

انصاف: انواع سوگیری