واژه نامه یادگیری ماشینی: انصاف

این صفحه شامل اصطلاحات واژه نامه Fairness است. برای همه اصطلاحات واژه نامه، اینجا را کلیک کنید .

آ

صفت

#انصاف

مترادف برای ویژگی .

در عدالت یادگیری ماشینی، ویژگی ها اغلب به ویژگی های مربوط به افراد اشاره می کنند.

تعصب اتوماسیون

#انصاف

هنگامی که یک تصمیم گیرنده انسانی توصیه های ارائه شده توسط یک سیستم تصمیم گیری خودکار را بر اطلاعاتی که بدون اتوماسیون انجام می شود ترجیح می دهد، حتی زمانی که سیستم تصمیم گیری خودکار خطا می کند.

ب

تعصب (اخلاق / انصاف)

#انصاف
#مبانی

1. کلیشه سازی، تعصب یا طرفداری نسبت به برخی چیزها، افراد یا گروه ها نسبت به دیگران. این سوگیری ها می توانند بر جمع آوری و تفسیر داده ها، طراحی یک سیستم و نحوه تعامل کاربران با یک سیستم تأثیر بگذارند. اشکال این نوع سوگیری عبارتند از:

2. خطای سیستماتیک معرفی شده توسط یک روش نمونه گیری یا گزارش. اشکال این نوع سوگیری عبارتند از:

نباید با اصطلاح سوگیری در مدل‌های یادگیری ماشین یا سوگیری پیش‌بینی اشتباه گرفته شود.

سی

سوگیری تایید

#انصاف

تمایل به جستجو، تفسیر، حمایت و یادآوری اطلاعات به گونه‌ای که باورها یا فرضیه‌های از قبل موجود را تأیید کند. توسعه‌دهندگان یادگیری ماشینی ممکن است ناخواسته داده‌ها را جمع‌آوری کرده یا به روش‌هایی برچسب‌گذاری کنند که بر نتیجه‌ای که از باورهای موجود آنها پشتیبانی می‌کند تأثیر بگذارد. سوگیری تایید نوعی سوگیری ضمنی است.

سوگیری آزمایشگر شکلی از سوگیری تأیید است که در آن آزمایشگر مدل های آموزشی را تا تأیید یک فرضیه از پیش موجود ادامه می دهد.

انصاف خلاف واقع

#انصاف

یک معیار انصاف که بررسی می‌کند آیا یک طبقه‌بندی کننده همان نتیجه را برای یک فرد ایجاد می‌کند که برای فرد دیگری که مشابه اولی است، مگر در مورد یک یا چند ویژگی حساس . ارزیابی یک طبقه‌بندی‌کننده برای انصاف خلاف واقع یکی از روش‌های آشکارسازی منابع بالقوه سوگیری در یک مدل است.

برای بحث دقیق تر درباره انصاف خلاف واقع، به «وقتی دنیاها برخورد می کنند: ادغام مفروضات متضاد متفاوت در انصاف» مراجعه کنید.

سوگیری پوشش

#انصاف

سوگیری انتخاب را ببینید.

دی

برابری جمعیتی

#انصاف

یک معیار انصاف که اگر نتایج طبقه‌بندی یک مدل به یک ویژگی حساس معین وابسته نباشد، برآورده می‌شود.

به عنوان مثال، اگر هم لیلیپوتی ها و هم بروبدینگناگی ها برای دانشگاه گلابدابدریب درخواست دهند، برابری جمعیتی در صورتی حاصل می شود که درصد لیلیپوتیان پذیرفته شده با درصد بروبدینگناگیان پذیرفته شده یکسان باشد، صرف نظر از اینکه یک گروه به طور متوسط ​​واجد شرایط تر از گروه دیگر باشد.

در مقایسه با شانس برابر و برابری فرصت ، که اجازه می‌دهد طبقه‌بندی نتایج مجموع به ویژگی‌های حساس بستگی داشته باشد، اما اجازه نمی‌دهد نتایج طبقه‌بندی برای برخی برچسب‌های حقیقت پایه مشخص شده به ویژگی‌های حساس بستگی داشته باشد. برای تجسم کاوش در مبادلات هنگام بهینه سازی برابری جمعیتی ، «حمله به تبعیض با یادگیری ماشینی هوشمندتر» را ببینید.

تاثیر متفاوت

#انصاف

تصمیم گیری در مورد افرادی که به طور نامتناسبی بر زیر گروه های مختلف جمعیت تأثیر می گذارد. این معمولاً به موقعیت‌هایی اشاره می‌کند که در آن یک فرآیند تصمیم‌گیری الگوریتمی به برخی از زیرگروه‌ها بیشتر از سایرین آسیب می‌زند یا به نفع آنهاست.

به عنوان مثال، فرض کنید الگوریتمی که واجد شرایط بودن یک لیلیپوتی برای وام خانه کوچک را تعیین می کند، اگر آدرس پستی آنها حاوی کد پستی خاصی باشد، احتمال بیشتری دارد که آنها را به عنوان "نامناسب" طبقه بندی کند. اگر لیلیپوت‌های اندیان بزرگ نسبت به لیلیپوت‌های اندیان کوچک بیشتر آدرس‌های پستی با این کد پستی دارند، این الگوریتم ممکن است منجر به تأثیر متفاوت شود.

در تضاد با درمان نامتجانس ، که بر نابرابری‌هایی تمرکز می‌کند که وقتی ویژگی‌های زیرگروه ورودی صریح یک فرآیند تصمیم‌گیری الگوریتمی هستند، به وجود می‌آیند.

درمان متفاوت

#انصاف

فاکتورگیری ویژگی‌های حساس افراد در یک فرآیند تصمیم‌گیری الگوریتمی به گونه‌ای که با زیرگروه‌های مختلف افراد به گونه‌ای متفاوت رفتار شود.

به عنوان مثال، الگوریتمی را در نظر بگیرید که واجد شرایط بودن لیلیپوت‌ها را برای وام مینیاتوری خانه بر اساس داده‌هایی که در درخواست وام خود ارائه می‌کنند، تعیین می‌کند. اگر الگوریتم از وابستگی یک لیلیپوتی به عنوان Big-Endian یا Little-Endian به عنوان ورودی استفاده کند، رفتار متفاوتی را در امتداد آن بعد اعمال می کند.

در مقابل تأثیر ناهمگون ، که بر تفاوت‌ها در تأثیرات اجتماعی تصمیم‌های الگوریتمی روی زیر گروه‌ها تمرکز می‌کند، صرف نظر از اینکه آن زیرگروه‌ها ورودی‌های مدل هستند یا خیر.

E

برابری فرصت ها

#انصاف

یک معیار انصاف برای ارزیابی اینکه آیا یک مدل نتیجه مطلوب را برای همه مقادیر یک ویژگی حساس به خوبی پیش‌بینی می‌کند یا خیر. به عبارت دیگر، اگر نتیجه مطلوب برای یک مدل کلاس مثبت باشد، هدف این است که نرخ مثبت واقعی برای همه گروه‌ها یکسان باشد.

برابری فرصت به شانس مساوی مربوط می شود، که مستلزم آن است که هم نرخ های مثبت واقعی و هم نرخ های مثبت کاذب برای همه گروه ها یکسان باشند.

فرض کنید دانشگاه گلابدابدریب هم لیلیپوت ها و هم بروبدینگناگی ها را در یک برنامه ریاضی دقیق پذیرفته است. مدارس متوسطه لیلیپوت ها برنامه درسی قوی از کلاس های ریاضی ارائه می دهند و اکثریت قریب به اتفاق دانش آموزان واجد شرایط برنامه دانشگاه هستند. مدارس متوسطه Brobdingnagians به هیچ وجه کلاس های ریاضی ارائه نمی دهند و در نتیجه دانش آموزان بسیار کمتری واجد شرایط هستند. اگر دانش‌آموزان واجد شرایط به همان اندازه بدون توجه به لیلیپوتی یا بروبدینگناگی، پذیرش شوند، برای برچسب ترجیحی «پذیرفته‌شده» با توجه به ملیت (Lilliputian یا Brobdingnagian) رعایت می‌شود.

به عنوان مثال، فرض کنید 100 لیلیپوتی و 100 برابدینگ ناگی برای دانشگاه گلابدابدریب درخواست دهند و تصمیمات پذیرش به شرح زیر اتخاذ می شود:

جدول 1. متقاضیان لیلیپوت (90٪ واجد شرایط هستند)

واجد شرایط فاقد صلاحیت
پذیرفته 45 3
رد شد 45 7
جمع 90 10
درصد پذیرش دانشجویان واجد شرایط: 45/90 = 50%
درصد رد دانش آموزان فاقد صلاحیت: 7/10 = 70%
درصد کل دانشجویان لیلیپوتی پذیرفته شده: (45+3)/100 = 48%

جدول 2. متقاضیان Brobdingnagian (10٪ واجد شرایط):

واجد شرایط فاقد صلاحیت
پذیرفته 5 9
رد شد 5 81
جمع 10 90
درصد پذیرش دانشجویان واجد شرایط: 5/10 = 50٪
درصد مردودی دانش آموزان فاقد صلاحیت: 90/81 = 90 درصد
درصد کل دانشجویان بروبدینگناگیان پذیرفته شده: (5+9)/100 = 14%

مثال‌های قبلی برابری فرصت‌ها را برای پذیرش دانش‌آموزان واجد شرایط برآورده می‌کنند، زیرا لیلیپوت‌های واجد شرایط و برابدینگناگیان هر دو 50 درصد شانس پذیرش دارند.

در حالی که برابری فرصت برآورده می شود، دو معیار انصاف زیر راضی نمی شوند:

  • برابری جمعیتی : لیلیپوت ها و برابدینگناگی ها با نرخ های متفاوتی در دانشگاه پذیرفته می شوند. 48 درصد از دانش آموزان لیلیپوتی پذیرش می شوند، اما تنها 14 درصد از دانش آموزان بروبدینگناگیان پذیرفته می شوند.
  • شانس مساوی : در حالی که دانش آموزان لیلیپوتی و بروبدینگناگی واجد شرایط هر دو شانس یکسانی برای پذیرش دارند، محدودیت اضافی که لیلیپوت های فاقد صلاحیت و برابدینگناگیان هر دو شانس یکسانی برای رد شدن دارند برآورده نمی شود. لیلیپوت های فاقد صلاحیت 70 درصد نرخ رد دارند، در حالی که بروبدینگناگیان فاقد صلاحیت 90 درصد نرخ رد دارند.

برای بحث دقیق تر در مورد برابری فرصت ها به «برابری فرصت ها در یادگیری تحت نظارت» مراجعه کنید. همچنین به «حمله به تبعیض با یادگیری ماشینی هوشمندتر» برای تجسم کاوش در معاوضه ها هنگام بهینه سازی برای برابری فرصت ها مراجعه کنید.

شانس مساوی

#انصاف

یک معیار انصاف برای ارزیابی اینکه آیا یک مدل نتایج را به خوبی برای همه مقادیر یک ویژگی حساس با توجه به کلاس مثبت و منفی - نه فقط یک طبقه یا کلاس دیگر - به طور یکسان پیش‌بینی می‌کند. به عبارت دیگر، هم نرخ مثبت واقعی و هم نرخ منفی کاذب باید برای همه گروه ها یکسان باشد.

شانس برابر شده مربوط به برابری فرصت است که فقط بر روی نرخ خطا برای یک کلاس واحد (مثبت یا منفی) تمرکز دارد.

به عنوان مثال، فرض کنید دانشگاه گلابدابدریب هم لیلیپوت ها و هم بروبدینگناگی ها را در یک برنامه ریاضی دقیق پذیرفته است. مدارس متوسطه لیلیپوت ها برنامه درسی قوی از کلاس های ریاضی ارائه می دهند و اکثریت قریب به اتفاق دانش آموزان واجد شرایط برنامه دانشگاه هستند. مدارس متوسطه Brobdingnagians به هیچ وجه کلاس های ریاضی ارائه نمی دهند و در نتیجه دانش آموزان بسیار کمتری واجد شرایط هستند. شانس مساوی به شرطی برآورده می شود که فارغ از اینکه متقاضی لیلیپوت باشد یا بروبدینگناگی، اگر واجد شرایط باشد، به همان اندازه احتمال دارد در برنامه پذیرفته شوند و اگر واجد شرایط نباشند، به همان اندازه احتمال رد شدن دارند. .

فرض کنید 100 لیلیپوتی و 100 برابدینگ ناگی برای دانشگاه گلابدابدریب درخواست دهند و تصمیمات پذیرش به شرح زیر گرفته می شود:

جدول 3. متقاضیان لیلیپوت (90٪ واجد شرایط هستند)

واجد شرایط فاقد صلاحیت
پذیرفته 45 2
رد شد 45 8
جمع 90 10
درصد پذیرش دانشجویان واجد شرایط: 45/90 = 50%
درصد رد دانش آموزان فاقد صلاحیت: 8/10 = 80%
درصد کل دانشجویان لیلیپوتی پذیرفته شده: (45+2)/100 = 47%

جدول 4. متقاضیان Brobdingnagian (10٪ واجد شرایط):

واجد شرایط فاقد صلاحیت
پذیرفته 5 18
رد شد 5 72
جمع 10 90
درصد پذیرش دانشجویان واجد شرایط: 5/10 = 50٪
درصد رد دانش آموزان فاقد صلاحیت: 72/90 = 80%
درصد کل دانشجویان بروبدینگناگیان پذیرفته شده: (5+18)/100 = 23%

شانس مساوی برآورده می شود زیرا دانش آموزان واجد شرایط لیلیپوتی و بروبدینگناگی هر دو 50 درصد شانس پذیرش دارند و لیلیپوتین و بروبدینگناگیان فاقد صلاحیت 80 درصد شانس رد شدن دارند.

شانس مساوی شده به طور رسمی در "برابری فرصت در یادگیری تحت نظارت" به این صورت تعریف می شود: "پیش بینی Ŷ شانس مساوی را با توجه به ویژگی محافظت شده A و نتیجه Y را برآورده می کند اگر Ŷ و A مستقل باشند، مشروط به Y."

تعصب آزمایشگر

#انصاف

سوگیری تایید را ببینید.

اف

محدودیت انصاف

#انصاف
اعمال یک محدودیت برای یک الگوریتم برای اطمینان از برآورده شدن یک یا چند تعریف از عدالت. نمونه هایی از محدودیت های انصاف عبارتند از:

متریک انصاف

#انصاف

یک تعریف ریاضی از «انصاف» که قابل اندازه گیری است. برخی از معیارهای عادلانه رایج عبارتند از:

بسیاری از معیارهای انصاف متقابل هستند. ناسازگاری معیارهای انصاف را ببینید.

جی

سوگیری اسناد گروهی

#انصاف

با فرض اینکه آنچه برای یک فرد صادق است برای همه افراد آن گروه نیز صادق است. اگر از نمونه گیری آسان برای جمع آوری داده ها استفاده شود، اثرات سوگیری اسناد گروهی می تواند تشدید شود. در یک نمونه غیرنماینده، ممکن است اسنادی ارائه شوند که واقعیت را منعکس نکنند.

همچنین به سوگیری همگنی برون گروهی و سوگیری درون گروهی مراجعه کنید.

اچ

سوگیری تاریخی

#انصاف

نوعی سوگیری که از قبل در دنیا وجود دارد و راه خود را به یک مجموعه داده باز کرده است. این سوگیری ها تمایل دارند کلیشه های فرهنگی موجود، نابرابری های جمعیتی و تعصبات علیه گروه های اجتماعی خاص را منعکس کنند.

برای مثال، یک مدل طبقه‌بندی را در نظر بگیرید که پیش‌بینی می‌کند آیا متقاضی وام در پرداخت وام خود نکول می‌کند یا خیر، که بر اساس داده‌های تاریخی وام-نکول از دهه 1980 از بانک‌های محلی در دو جامعه مختلف آموزش داده شده است. اگر متقاضیان قبلی از جامعه A شش برابر بیشتر از متقاضیان جامعه B احتمال عدم پرداخت وام های خود را داشته باشند، مدل ممکن است یک سوگیری تاریخی را بیاموزد که در نتیجه مدل کمتر احتمال دارد که وام ها را در جامعه A تایید کند، حتی اگر شرایط تاریخی که منجر شده است. در آن جامعه، نرخ های پیش فرض بالاتر دیگر مرتبط نبود.

من

سوگیری ضمنی

#انصاف

به طور خودکار یک تداعی یا فرض بر اساس مدل های ذهنی و خاطرات فرد ایجاد می کند. سوگیری ضمنی می تواند بر موارد زیر تأثیر بگذارد:

  • نحوه جمع آوری و طبقه بندی داده ها
  • نحوه طراحی و توسعه سیستم های یادگیری ماشین

به عنوان مثال، هنگام ساخت یک طبقه بندی برای شناسایی عکس های عروسی، یک مهندس ممکن است از وجود لباس سفید در یک عکس به عنوان ویژگی استفاده کند. با این حال، لباس های سفید تنها در دوره های خاص و در فرهنگ های خاص مرسوم بوده است.

سوگیری تایید را نیز ببینید.

ناسازگاری معیارهای انصاف

#انصاف

این ایده که برخی از مفاهیم انصاف با یکدیگر ناسازگار هستند و نمی‌توانند به طور همزمان ارضا شوند. در نتیجه، هیچ معیار جهانی واحدی برای تعیین کمیت انصاف وجود ندارد که بتوان برای همه مسائل ML اعمال کرد.

اگرچه این ممکن است دلسرد کننده به نظر برسد، اما ناسازگاری معیارهای انصاف به معنای بی نتیجه بودن تلاش های عادلانه نیست. در عوض، پیشنهاد می کند که انصاف باید به صورت متناوب برای یک مشکل ML معین، با هدف جلوگیری از آسیب های خاص در موارد استفاده از آن تعریف شود.

برای بحث دقیق تر در مورد این موضوع، به «در مورد (عدم) امکان انصاف» مراجعه کنید.

انصاف فردی

#انصاف

یک معیار انصاف که بررسی می کند آیا افراد مشابه به طور مشابه طبقه بندی می شوند یا خیر. به عنوان مثال، آکادمی Brobdingnagian ممکن است بخواهد انصاف فردی را با اطمینان از اینکه دو دانش آموز با نمرات یکسان و نمرات آزمون استاندارد شده به طور مساوی احتمال پذیرش را دارند، ارضا کند.

توجه داشته باشید که انصاف فردی کاملاً به نحوه تعریف «شباهت» (در این مورد، نمرات و نمرات آزمون) بستگی دارد و اگر معیار تشابه شما اطلاعات مهمی را از دست بدهد (مانند سختگیری دانش‌آموزان) می‌توانید خطر ایجاد مشکلات جدید انصاف را داشته باشید. برنامه تحصیلی).

برای بحث دقیق تر در مورد انصاف فردی، به «انصاف از طریق آگاهی» مراجعه کنید.

تعصب درون گروهی

#انصاف

نشان دادن جانبداری نسبت به گروه یا ویژگی های خود. اگر آزمایش‌کننده‌ها یا ارزیاب‌ها از دوستان، خانواده یا همکاران توسعه‌دهنده یادگیری ماشین تشکیل شده باشند، سوگیری درون گروهی ممکن است آزمایش محصول یا مجموعه داده را باطل کند.

سوگیری درون گروهی نوعی سوگیری اسناد گروهی است. همچنین به سوگیری همگنی بیرون گروهی مراجعه کنید.

ن

سوگیری بدون پاسخ

#انصاف

سوگیری انتخاب را ببینید.

O

سوگیری همگنی برون گروهی

#انصاف

تمایل به دیدن اعضای بیرون گروه نسبت به اعضای درون گروه هنگام مقایسه نگرش ها، ارزش ها، ویژگی های شخصیتی و سایر ویژگی ها. درون گروهی به افرادی اطلاق می شود که به طور منظم با آنها در ارتباط هستید. خارج از گروه به افرادی اطلاق می شود که به طور منظم با آنها در ارتباط نیستید. اگر یک مجموعه داده را با درخواست از افراد برای ارائه ویژگی‌هایی درباره گروه‌های بیرونی ایجاد کنید، این ویژگی‌ها ممکن است نسبت به ویژگی‌هایی که شرکت‌کنندگان برای افراد درون گروه خود فهرست می‌کنند، تفاوت‌های ظریف‌تر و کلیشه‌تری داشته باشند.

برای مثال، لیلیپوتی‌ها ممکن است خانه‌های لیلیپوتی‌های دیگر را با جزئیات زیاد توصیف کنند و به تفاوت‌های کوچک در سبک‌های معماری، پنجره‌ها، درها و اندازه‌ها اشاره کنند. با این حال، همان لیلیپوتی ها ممکن است به سادگی اعلام کنند که بروبدینگناگی ها همه در خانه های یکسان زندگی می کنند.

سوگیری همگنی برون گروهی شکلی از سوگیری اسناد گروهی است.

به تعصب درون گروهی نیز مراجعه کنید.

پ

سوگیری مشارکت

#انصاف

مترادف تعصب بدون پاسخ. سوگیری انتخاب را ببینید.

پس پردازش

#انصاف
#مبانی

تنظیم خروجی یک مدل پس از اجرای مدل. پس پردازش می تواند برای اعمال محدودیت های انصاف بدون تغییر خود مدل ها استفاده شود.

برای مثال، می‌توان پس پردازش را برای یک طبقه‌بندی‌کننده باینری با تعیین آستانه طبقه‌بندی به‌گونه‌ای اعمال کرد که با بررسی اینکه نرخ مثبت واقعی برای همه مقادیر آن ویژگی یکسان است ، برابری فرصت برای برخی ویژگی‌ها حفظ شود.

برابری پیش بینی

#انصاف

یک معیار انصاف که بررسی می‌کند آیا برای یک طبقه‌بندی‌کننده معین، نرخ‌های دقت برای زیرگروه‌های مورد بررسی معادل هستند یا خیر.

به عنوان مثال، مدلی که پذیرش دانشگاه را پیش‌بینی می‌کند، برابری پیش‌بینی‌کننده ملیت را برآورده می‌کند، اگر میزان دقت آن برای لیلیپوتی‌ها و برابدینگناگی‌ها یکسان باشد.

برابری پیش بینی شده گاهی اوقات برابری نرخ پیش بینی نیز نامیده می شود.

برای بحث دقیق تر در مورد برابری پیش بینی به "تعریف های منصفانه توضیح داده شده" (بخش 3.2.1) مراجعه کنید.

برابری نرخ پیش بینی

#انصاف

نام دیگری برای برابری پیش بینی کننده .

پیش پردازش

#انصاف
پردازش داده ها قبل از اینکه برای آموزش یک مدل استفاده شود. پیش پردازش می تواند به سادگی حذف کلماتی از مجموعه متن انگلیسی باشد که در فرهنگ لغت انگلیسی وجود ندارند، یا می تواند به همان اندازه پیچیده باشد که بیان مجدد نقاط داده به گونه ای باشد که تا حد امکان بسیاری از ویژگی های مرتبط با ویژگی های حساس را حذف کند. . پیش پردازش می تواند به ارضای محدودیت های انصاف کمک کند.

پروکسی (ویژگی های حساس)

#انصاف
مشخصه ای که به عنوان پایه برای یک ویژگی حساس استفاده می شود. برای مثال، کد پستی یک فرد ممکن است به عنوان نماینده ای برای درآمد، نژاد یا قومیت آنها استفاده شود.

آر

سوگیری گزارش

#انصاف

این واقعیت که بسامد نوشتن افراد درباره اعمال، نتایج یا ویژگی‌ها بازتابی از فرکانس‌های دنیای واقعی آنها یا درجه‌ای که یک ویژگی مشخصه طبقه‌ای از افراد است نیست. سوگیری گزارش‌دهی می‌تواند بر ترکیب داده‌هایی که سیستم‌های یادگیری ماشین از آن‌ها یاد می‌گیرند تأثیر بگذارد.

مثلاً در کتاب‌ها کلمه خندیدن بیشتر از نفس کشیدن رایج است. یک مدل یادگیری ماشینی که فرکانس نسبی خندیدن و تنفس را از روی مجموعه کتاب تخمین می‌زند، احتمالاً مشخص می‌کند که خندیدن از تنفس رایج‌تر است.

اس

سوگیری نمونه گیری

#انصاف

سوگیری انتخاب را ببینید.

سوگیری انتخاب

#انصاف

اشتباهات در نتیجه گیری از داده های نمونه برداری شده به دلیل فرآیند انتخاب که تفاوت های سیستماتیک بین نمونه های مشاهده شده در داده ها و نمونه های مشاهده نشده ایجاد می کند. اشکال زیر از سوگیری انتخاب وجود دارد:

  • سوگیری پوشش : جمعیت نشان داده شده در مجموعه داده با جمعیتی که مدل یادگیری ماشین درباره آن پیش بینی می کند مطابقت ندارد.
  • سوگیری نمونه گیری : داده ها به صورت تصادفی از گروه هدف جمع آوری نمی شوند.
  • سوگیری بدون پاسخ (که به آن سوگیری مشارکت نیز می‌گویند): کاربران گروه‌های خاصی از نظرسنجی‌ها با نرخ‌های متفاوتی نسبت به کاربران گروه‌های دیگر انصراف می‌دهند.

برای مثال، فرض کنید در حال ایجاد یک مدل یادگیری ماشینی هستید که لذت مردم از یک فیلم را پیش‌بینی می‌کند. برای جمع‌آوری داده‌های آموزشی، نظرسنجی را به همه افرادی که در ردیف اول سالن نمایش فیلم هستند، می‌دهید. بد نیست، این ممکن است مانند یک راه معقول برای جمع آوری یک مجموعه داده به نظر برسد. با این حال، این شکل از جمع آوری داده ها ممکن است اشکال زیر را از سوگیری انتخاب معرفی کند:

  • سوگیری پوشش: با نمونه‌گیری از جمعیتی که فیلم را انتخاب کرده‌اند، ممکن است پیش‌بینی‌های مدل شما به افرادی تعمیم داده نشود که قبلاً آن سطح علاقه را به فیلم ابراز نکرده‌اند.
  • سوگیری نمونه گیری: به جای نمونه گیری تصادفی از جمعیت مورد نظر (همه افراد حاضر در فیلم)، شما فقط از افراد ردیف اول نمونه برداری کردید. ممکن است افرادی که در ردیف اول نشسته بودند بیشتر از سایر ردیف ها به فیلم علاقه داشتند.
  • سوگیری بدون پاسخ: به طور کلی، افرادی که نظرات قوی دارند بیشتر از افراد دارای نظرات ملایم به نظرسنجی های اختیاری پاسخ می دهند. از آنجایی که نظرسنجی فیلم اختیاری است، احتمال بیشتری وجود دارد که پاسخ‌ها یک توزیع دووجهی را تشکیل دهند تا توزیع عادی (زنگ‌شکل).

ویژگی حساس

#انصاف
یک ویژگی انسانی که ممکن است به دلایل قانونی، اخلاقی، اجتماعی یا شخصی مورد توجه ویژه قرار گیرد.

U

ناآگاهی (به یک ویژگی حساس)

#انصاف

وضعیتی که در آن ویژگی های حساس وجود دارد، اما در داده های آموزشی گنجانده نشده است. از آنجایی که ویژگی‌های حساس اغلب با سایر ویژگی‌های داده‌های فرد مرتبط هستند، مدلی که با ناآگاهی در مورد یک ویژگی حساس آموزش داده می‌شود، همچنان می‌تواند تأثیر متفاوتی در رابطه با آن ویژگی داشته باشد یا سایر محدودیت‌های انصاف را نقض کند.