این صفحه شامل اصطلاحات واژه نامه Fairness است. برای همه اصطلاحات واژه نامه، اینجا را کلیک کنید .
آ
صفت
مترادف برای ویژگی .
در عدالت یادگیری ماشینی، ویژگی ها اغلب به ویژگی های مربوط به افراد اشاره می کنند.
تعصب اتوماسیون
هنگامی که یک تصمیم گیرنده انسانی توصیه های ارائه شده توسط یک سیستم تصمیم گیری خودکار را بر اطلاعاتی که بدون اتوماسیون انجام می شود ترجیح می دهد، حتی زمانی که سیستم تصمیم گیری خودکار خطا می کند.
ب
تعصب (اخلاق / انصاف)
1. کلیشه سازی، تعصب یا طرفداری نسبت به برخی چیزها، افراد یا گروه ها نسبت به دیگران. این سوگیری ها می توانند بر جمع آوری و تفسیر داده ها، طراحی یک سیستم و نحوه تعامل کاربران با یک سیستم تأثیر بگذارند. اشکال این نوع سوگیری عبارتند از:
- تعصب اتوماسیون
- سوگیری تایید
- تعصب آزمایشگر
- سوگیری اسناد گروهی
- سوگیری ضمنی
- تعصب درون گروهی
- سوگیری همگنی برون گروهی
2. خطای سیستماتیک معرفی شده توسط یک روش نمونه گیری یا گزارش. اشکال این نوع سوگیری عبارتند از:
نباید با اصطلاح سوگیری در مدلهای یادگیری ماشین یا سوگیری پیشبینی اشتباه گرفته شود.
سی
سوگیری تایید
تمایل به جستجو، تفسیر، حمایت و یادآوری اطلاعات به گونهای که باورها یا فرضیههای از قبل موجود را تأیید کند. توسعهدهندگان یادگیری ماشینی ممکن است ناخواسته دادهها را جمعآوری کرده یا به روشهایی برچسبگذاری کنند که بر نتیجهای که از باورهای موجود آنها پشتیبانی میکند تأثیر بگذارد. سوگیری تایید نوعی سوگیری ضمنی است.
سوگیری آزمایشگر شکلی از سوگیری تأیید است که در آن آزمایشگر مدل های آموزشی را تا تأیید یک فرضیه از پیش موجود ادامه می دهد.
انصاف خلاف واقع
یک معیار انصاف که بررسی میکند آیا یک طبقهبندی کننده همان نتیجه را برای یک فرد ایجاد میکند که برای فرد دیگری که مشابه اولی است، مگر در مورد یک یا چند ویژگی حساس . ارزیابی یک طبقهبندیکننده برای انصاف خلاف واقع یکی از روشهای آشکارسازی منابع بالقوه سوگیری در یک مدل است.
برای بحث دقیق تر درباره انصاف خلاف واقع، به «وقتی دنیاها برخورد می کنند: ادغام مفروضات متضاد متفاوت در انصاف» مراجعه کنید.
سوگیری پوشش
سوگیری انتخاب را ببینید.
دی
برابری جمعیتی
یک معیار انصاف که اگر نتایج طبقهبندی یک مدل به یک ویژگی حساس معین وابسته نباشد، برآورده میشود.
به عنوان مثال، اگر هم لیلیپوتی ها و هم بروبدینگناگی ها برای دانشگاه گلابدابدریب درخواست دهند، برابری جمعیتی در صورتی حاصل می شود که درصد لیلیپوتیان پذیرفته شده با درصد بروبدینگناگیان پذیرفته شده یکسان باشد، صرف نظر از اینکه یک گروه به طور متوسط واجد شرایط تر از گروه دیگر باشد.
در مقایسه با شانس برابر و برابری فرصت ، که اجازه میدهد طبقهبندی نتایج مجموع به ویژگیهای حساس بستگی داشته باشد، اما اجازه نمیدهد نتایج طبقهبندی برای برخی برچسبهای حقیقت پایه مشخص شده به ویژگیهای حساس بستگی داشته باشد. برای تجسم کاوش در مبادلات هنگام بهینه سازی برابری جمعیتی ، «حمله به تبعیض با یادگیری ماشینی هوشمندتر» را ببینید.
تاثیر متفاوت
تصمیم گیری در مورد افرادی که به طور نامتناسبی بر زیر گروه های مختلف جمعیت تأثیر می گذارد. این معمولاً به موقعیتهایی اشاره میکند که در آن یک فرآیند تصمیمگیری الگوریتمی به برخی از زیرگروهها بیشتر از سایرین آسیب میزند یا به نفع آنهاست.
به عنوان مثال، فرض کنید الگوریتمی که واجد شرایط بودن یک لیلیپوتی برای وام خانه کوچک را تعیین می کند، اگر آدرس پستی آنها حاوی کد پستی خاصی باشد، احتمال بیشتری دارد که آنها را به عنوان "نامناسب" طبقه بندی کند. اگر لیلیپوتهای اندیان بزرگ نسبت به لیلیپوتهای اندیان کوچک بیشتر آدرسهای پستی با این کد پستی دارند، این الگوریتم ممکن است منجر به تأثیر متفاوت شود.
در تضاد با درمان نامتجانس ، که بر نابرابریهایی تمرکز میکند که وقتی ویژگیهای زیرگروه ورودی صریح یک فرآیند تصمیمگیری الگوریتمی هستند، به وجود میآیند.
درمان متفاوت
فاکتورگیری ویژگیهای حساس افراد در یک فرآیند تصمیمگیری الگوریتمی به گونهای که با زیرگروههای مختلف افراد به گونهای متفاوت رفتار شود.
به عنوان مثال، الگوریتمی را در نظر بگیرید که واجد شرایط بودن لیلیپوتها را برای وام مینیاتوری خانه بر اساس دادههایی که در درخواست وام خود ارائه میکنند، تعیین میکند. اگر الگوریتم از وابستگی یک لیلیپوتی به عنوان Big-Endian یا Little-Endian به عنوان ورودی استفاده کند، رفتار متفاوتی را در امتداد آن بعد اعمال می کند.
در مقابل تأثیر ناهمگون ، که بر تفاوتها در تأثیرات اجتماعی تصمیمهای الگوریتمی روی زیر گروهها تمرکز میکند، صرف نظر از اینکه آن زیرگروهها ورودیهای مدل هستند یا خیر.
E
برابری فرصت ها
یک معیار انصاف برای ارزیابی اینکه آیا یک مدل نتیجه مطلوب را برای همه مقادیر یک ویژگی حساس به خوبی پیشبینی میکند یا خیر. به عبارت دیگر، اگر نتیجه مطلوب برای یک مدل کلاس مثبت باشد، هدف این است که نرخ مثبت واقعی برای همه گروهها یکسان باشد.
برابری فرصت به شانس مساوی مربوط می شود، که مستلزم آن است که هم نرخ های مثبت واقعی و هم نرخ های مثبت کاذب برای همه گروه ها یکسان باشند.
فرض کنید دانشگاه گلابدابدریب هم لیلیپوت ها و هم بروبدینگناگی ها را در یک برنامه ریاضی دقیق پذیرفته است. مدارس متوسطه لیلیپوت ها برنامه درسی قوی از کلاس های ریاضی ارائه می دهند و اکثریت قریب به اتفاق دانش آموزان واجد شرایط برنامه دانشگاه هستند. مدارس متوسطه Brobdingnagians به هیچ وجه کلاس های ریاضی ارائه نمی دهند و در نتیجه دانش آموزان بسیار کمتری واجد شرایط هستند. اگر دانشآموزان واجد شرایط به همان اندازه بدون توجه به لیلیپوتی یا بروبدینگناگی، پذیرش شوند، برای برچسب ترجیحی «پذیرفتهشده» با توجه به ملیت (Lilliputian یا Brobdingnagian) رعایت میشود.
به عنوان مثال، فرض کنید 100 لیلیپوتی و 100 برابدینگ ناگی برای دانشگاه گلابدابدریب درخواست دهند و تصمیمات پذیرش به شرح زیر اتخاذ می شود:
جدول 1. متقاضیان لیلیپوت (90٪ واجد شرایط هستند)
واجد شرایط | فاقد صلاحیت | |
---|---|---|
پذیرفته | 45 | 3 |
رد شد | 45 | 7 |
جمع | 90 | 10 |
درصد پذیرش دانشجویان واجد شرایط: 45/90 = 50% درصد رد دانش آموزان فاقد صلاحیت: 7/10 = 70% درصد کل دانشجویان لیلیپوتی پذیرفته شده: (45+3)/100 = 48% |
جدول 2. متقاضیان Brobdingnagian (10٪ واجد شرایط):
واجد شرایط | فاقد صلاحیت | |
---|---|---|
پذیرفته | 5 | 9 |
رد شد | 5 | 81 |
جمع | 10 | 90 |
درصد پذیرش دانشجویان واجد شرایط: 5/10 = 50٪ درصد مردودی دانش آموزان فاقد صلاحیت: 90/81 = 90 درصد درصد کل دانشجویان بروبدینگناگیان پذیرفته شده: (5+9)/100 = 14% |
مثالهای قبلی برابری فرصتها را برای پذیرش دانشآموزان واجد شرایط برآورده میکنند، زیرا لیلیپوتهای واجد شرایط و برابدینگناگیان هر دو 50 درصد شانس پذیرش دارند.
در حالی که برابری فرصت برآورده می شود، دو معیار انصاف زیر راضی نمی شوند:
- برابری جمعیتی : لیلیپوت ها و برابدینگناگی ها با نرخ های متفاوتی در دانشگاه پذیرفته می شوند. 48 درصد از دانش آموزان لیلیپوتی پذیرش می شوند، اما تنها 14 درصد از دانش آموزان بروبدینگناگیان پذیرفته می شوند.
- شانس مساوی : در حالی که دانش آموزان لیلیپوتی و بروبدینگناگی واجد شرایط هر دو شانس یکسانی برای پذیرش دارند، محدودیت اضافی که لیلیپوت های فاقد صلاحیت و برابدینگناگیان هر دو شانس یکسانی برای رد شدن دارند برآورده نمی شود. لیلیپوت های فاقد صلاحیت 70 درصد نرخ رد دارند، در حالی که بروبدینگناگیان فاقد صلاحیت 90 درصد نرخ رد دارند.
برای بحث دقیق تر در مورد برابری فرصت ها به «برابری فرصت ها در یادگیری تحت نظارت» مراجعه کنید. همچنین به «حمله به تبعیض با یادگیری ماشینی هوشمندتر» برای تجسم کاوش در معاوضه ها هنگام بهینه سازی برای برابری فرصت ها مراجعه کنید.
شانس مساوی
یک معیار انصاف برای ارزیابی اینکه آیا یک مدل نتایج را به خوبی برای همه مقادیر یک ویژگی حساس با توجه به کلاس مثبت و منفی - نه فقط یک طبقه یا کلاس دیگر - به طور یکسان پیشبینی میکند. به عبارت دیگر، هم نرخ مثبت واقعی و هم نرخ منفی کاذب باید برای همه گروه ها یکسان باشد.
شانس برابر شده مربوط به برابری فرصت است که فقط بر روی نرخ خطا برای یک کلاس واحد (مثبت یا منفی) تمرکز دارد.
به عنوان مثال، فرض کنید دانشگاه گلابدابدریب هم لیلیپوت ها و هم بروبدینگناگی ها را در یک برنامه ریاضی دقیق پذیرفته است. مدارس متوسطه لیلیپوت ها برنامه درسی قوی از کلاس های ریاضی ارائه می دهند و اکثریت قریب به اتفاق دانش آموزان واجد شرایط برنامه دانشگاه هستند. مدارس متوسطه Brobdingnagians به هیچ وجه کلاس های ریاضی ارائه نمی دهند و در نتیجه دانش آموزان بسیار کمتری واجد شرایط هستند. شانس مساوی به شرطی برآورده می شود که فارغ از اینکه متقاضی لیلیپوت باشد یا بروبدینگناگی، اگر واجد شرایط باشد، به همان اندازه احتمال دارد در برنامه پذیرفته شوند و اگر واجد شرایط نباشند، به همان اندازه احتمال رد شدن دارند. .
فرض کنید 100 لیلیپوتی و 100 برابدینگ ناگی برای دانشگاه گلابدابدریب درخواست دهند و تصمیمات پذیرش به شرح زیر گرفته می شود:
جدول 3. متقاضیان لیلیپوت (90٪ واجد شرایط هستند)
واجد شرایط | فاقد صلاحیت | |
---|---|---|
پذیرفته | 45 | 2 |
رد شد | 45 | 8 |
جمع | 90 | 10 |
درصد پذیرش دانشجویان واجد شرایط: 45/90 = 50% درصد رد دانش آموزان فاقد صلاحیت: 8/10 = 80% درصد کل دانشجویان لیلیپوتی پذیرفته شده: (45+2)/100 = 47% |
جدول 4. متقاضیان Brobdingnagian (10٪ واجد شرایط):
واجد شرایط | فاقد صلاحیت | |
---|---|---|
پذیرفته | 5 | 18 |
رد شد | 5 | 72 |
جمع | 10 | 90 |
درصد پذیرش دانشجویان واجد شرایط: 5/10 = 50٪ درصد رد دانش آموزان فاقد صلاحیت: 72/90 = 80% درصد کل دانشجویان بروبدینگناگیان پذیرفته شده: (5+18)/100 = 23% |
شانس مساوی برآورده می شود زیرا دانش آموزان واجد شرایط لیلیپوتی و بروبدینگناگی هر دو 50 درصد شانس پذیرش دارند و لیلیپوتین و بروبدینگناگیان فاقد صلاحیت 80 درصد شانس رد شدن دارند.
شانس مساوی شده به طور رسمی در "برابری فرصت در یادگیری تحت نظارت" به این صورت تعریف می شود: "پیش بینی Ŷ شانس مساوی را با توجه به ویژگی محافظت شده A و نتیجه Y را برآورده می کند اگر Ŷ و A مستقل باشند، مشروط به Y."
تعصب آزمایشگر
سوگیری تایید را ببینید.
اف
محدودیت انصاف
اعمال یک محدودیت برای یک الگوریتم برای اطمینان از برآورده شدن یک یا چند تعریف از عدالت. نمونه هایی از محدودیت های انصاف عبارتند از:- پس پردازش خروجی مدل شما.
- تغییر تابع ضرر برای گنجاندن جریمه برای نقض یک معیار انصاف .
- اضافه کردن مستقیم یک محدودیت ریاضی به یک مسئله بهینه سازی
متریک انصاف
یک تعریف ریاضی از «انصاف» که قابل اندازه گیری است. برخی از معیارهای عادلانه رایج عبارتند از:
بسیاری از معیارهای انصاف متقابل هستند. ناسازگاری معیارهای انصاف را ببینید.
جی
سوگیری اسناد گروهی
با فرض اینکه آنچه برای یک فرد صادق است برای همه افراد آن گروه نیز صادق است. اگر از نمونه گیری آسان برای جمع آوری داده ها استفاده شود، اثرات سوگیری اسناد گروهی می تواند تشدید شود. در یک نمونه غیرنماینده، ممکن است اسنادی ارائه شوند که واقعیت را منعکس نکنند.
همچنین به سوگیری همگنی برون گروهی و سوگیری درون گروهی مراجعه کنید.
اچ
سوگیری تاریخی
نوعی سوگیری که از قبل در دنیا وجود دارد و راه خود را به یک مجموعه داده باز کرده است. این سوگیری ها تمایل دارند کلیشه های فرهنگی موجود، نابرابری های جمعیتی و تعصبات علیه گروه های اجتماعی خاص را منعکس کنند.
برای مثال، یک مدل طبقهبندی را در نظر بگیرید که پیشبینی میکند آیا متقاضی وام در پرداخت وام خود نکول میکند یا خیر، که بر اساس دادههای تاریخی وام-نکول از دهه 1980 از بانکهای محلی در دو جامعه مختلف آموزش داده شده است. اگر متقاضیان قبلی از جامعه A شش برابر بیشتر از متقاضیان جامعه B احتمال عدم پرداخت وام های خود را داشته باشند، مدل ممکن است یک سوگیری تاریخی را بیاموزد که در نتیجه مدل کمتر احتمال دارد که وام ها را در جامعه A تایید کند، حتی اگر شرایط تاریخی که منجر شده است. در آن جامعه، نرخ های پیش فرض بالاتر دیگر مرتبط نبود.
من
سوگیری ضمنی
به طور خودکار یک تداعی یا فرض بر اساس مدل های ذهنی و خاطرات فرد ایجاد می کند. سوگیری ضمنی می تواند بر موارد زیر تأثیر بگذارد:
- نحوه جمع آوری و طبقه بندی داده ها
- نحوه طراحی و توسعه سیستم های یادگیری ماشین
به عنوان مثال، هنگام ساخت یک طبقه بندی برای شناسایی عکس های عروسی، یک مهندس ممکن است از وجود لباس سفید در یک عکس به عنوان ویژگی استفاده کند. با این حال، لباس های سفید تنها در دوره های خاص و در فرهنگ های خاص مرسوم بوده است.
سوگیری تایید را نیز ببینید.
ناسازگاری معیارهای انصاف
این ایده که برخی از مفاهیم انصاف با یکدیگر ناسازگار هستند و نمیتوانند به طور همزمان ارضا شوند. در نتیجه، هیچ معیار جهانی واحدی برای تعیین کمیت انصاف وجود ندارد که بتوان برای همه مسائل ML اعمال کرد.
اگرچه این ممکن است دلسرد کننده به نظر برسد، اما ناسازگاری معیارهای انصاف به معنای بی نتیجه بودن تلاش های عادلانه نیست. در عوض، پیشنهاد می کند که انصاف باید به صورت متناوب برای یک مشکل ML معین، با هدف جلوگیری از آسیب های خاص در موارد استفاده از آن تعریف شود.
برای بحث دقیق تر در مورد این موضوع، به «در مورد (عدم) امکان انصاف» مراجعه کنید.
انصاف فردی
یک معیار انصاف که بررسی می کند آیا افراد مشابه به طور مشابه طبقه بندی می شوند یا خیر. به عنوان مثال، آکادمی Brobdingnagian ممکن است بخواهد انصاف فردی را با اطمینان از اینکه دو دانش آموز با نمرات یکسان و نمرات آزمون استاندارد شده به طور مساوی احتمال پذیرش را دارند، ارضا کند.
توجه داشته باشید که انصاف فردی کاملاً به نحوه تعریف «شباهت» (در این مورد، نمرات و نمرات آزمون) بستگی دارد و اگر معیار تشابه شما اطلاعات مهمی را از دست بدهد (مانند سختگیری دانشآموزان) میتوانید خطر ایجاد مشکلات جدید انصاف را داشته باشید. برنامه تحصیلی).
برای بحث دقیق تر در مورد انصاف فردی، به «انصاف از طریق آگاهی» مراجعه کنید.
تعصب درون گروهی
نشان دادن جانبداری نسبت به گروه یا ویژگی های خود. اگر آزمایشکنندهها یا ارزیابها از دوستان، خانواده یا همکاران توسعهدهنده یادگیری ماشین تشکیل شده باشند، سوگیری درون گروهی ممکن است آزمایش محصول یا مجموعه داده را باطل کند.
سوگیری درون گروهی نوعی سوگیری اسناد گروهی است. همچنین به سوگیری همگنی بیرون گروهی مراجعه کنید.
ن
سوگیری بدون پاسخ
سوگیری انتخاب را ببینید.
O
سوگیری همگنی برون گروهی
تمایل به دیدن اعضای بیرون گروه نسبت به اعضای درون گروه هنگام مقایسه نگرش ها، ارزش ها، ویژگی های شخصیتی و سایر ویژگی ها. درون گروهی به افرادی اطلاق می شود که به طور منظم با آنها در ارتباط هستید. خارج از گروه به افرادی اطلاق می شود که به طور منظم با آنها در ارتباط نیستید. اگر یک مجموعه داده را با درخواست از افراد برای ارائه ویژگیهایی درباره گروههای بیرونی ایجاد کنید، این ویژگیها ممکن است نسبت به ویژگیهایی که شرکتکنندگان برای افراد درون گروه خود فهرست میکنند، تفاوتهای ظریفتر و کلیشهتری داشته باشند.
برای مثال، لیلیپوتیها ممکن است خانههای لیلیپوتیهای دیگر را با جزئیات زیاد توصیف کنند و به تفاوتهای کوچک در سبکهای معماری، پنجرهها، درها و اندازهها اشاره کنند. با این حال، همان لیلیپوتی ها ممکن است به سادگی اعلام کنند که بروبدینگناگی ها همه در خانه های یکسان زندگی می کنند.
سوگیری همگنی برون گروهی شکلی از سوگیری اسناد گروهی است.
به تعصب درون گروهی نیز مراجعه کنید.
پ
سوگیری مشارکت
مترادف تعصب بدون پاسخ. سوگیری انتخاب را ببینید.
پس پردازش
تنظیم خروجی یک مدل پس از اجرای مدل. پس پردازش می تواند برای اعمال محدودیت های انصاف بدون تغییر خود مدل ها استفاده شود.
برای مثال، میتوان پس پردازش را برای یک طبقهبندیکننده باینری با تعیین آستانه طبقهبندی بهگونهای اعمال کرد که با بررسی اینکه نرخ مثبت واقعی برای همه مقادیر آن ویژگی یکسان است ، برابری فرصت برای برخی ویژگیها حفظ شود.
برابری پیش بینی
یک معیار انصاف که بررسی میکند آیا برای یک طبقهبندیکننده معین، نرخهای دقت برای زیرگروههای مورد بررسی معادل هستند یا خیر.
به عنوان مثال، مدلی که پذیرش دانشگاه را پیشبینی میکند، برابری پیشبینیکننده ملیت را برآورده میکند، اگر میزان دقت آن برای لیلیپوتیها و برابدینگناگیها یکسان باشد.
برابری پیش بینی شده گاهی اوقات برابری نرخ پیش بینی نیز نامیده می شود.
برای بحث دقیق تر در مورد برابری پیش بینی به "تعریف های منصفانه توضیح داده شده" (بخش 3.2.1) مراجعه کنید.
برابری نرخ پیش بینی
نام دیگری برای برابری پیش بینی کننده .
پیش پردازش
پردازش داده ها قبل از اینکه برای آموزش یک مدل استفاده شود. پیش پردازش می تواند به سادگی حذف کلماتی از مجموعه متن انگلیسی باشد که در فرهنگ لغت انگلیسی وجود ندارند، یا می تواند به همان اندازه پیچیده باشد که بیان مجدد نقاط داده به گونه ای باشد که تا حد امکان بسیاری از ویژگی های مرتبط با ویژگی های حساس را حذف کند. . پیش پردازش می تواند به ارضای محدودیت های انصاف کمک کند.پروکسی (ویژگی های حساس)
مشخصه ای که به عنوان پایه برای یک ویژگی حساس استفاده می شود. برای مثال، کد پستی یک فرد ممکن است به عنوان نماینده ای برای درآمد، نژاد یا قومیت آنها استفاده شود.آر
سوگیری گزارش
این واقعیت که بسامد نوشتن افراد درباره اعمال، نتایج یا ویژگیها بازتابی از فرکانسهای دنیای واقعی آنها یا درجهای که یک ویژگی مشخصه طبقهای از افراد است نیست. سوگیری گزارشدهی میتواند بر ترکیب دادههایی که سیستمهای یادگیری ماشین از آنها یاد میگیرند تأثیر بگذارد.
مثلاً در کتابها کلمه خندیدن بیشتر از نفس کشیدن رایج است. یک مدل یادگیری ماشینی که فرکانس نسبی خندیدن و تنفس را از روی مجموعه کتاب تخمین میزند، احتمالاً مشخص میکند که خندیدن از تنفس رایجتر است.
اس
سوگیری نمونه گیری
سوگیری انتخاب را ببینید.
سوگیری انتخاب
اشتباهات در نتیجه گیری از داده های نمونه برداری شده به دلیل فرآیند انتخاب که تفاوت های سیستماتیک بین نمونه های مشاهده شده در داده ها و نمونه های مشاهده نشده ایجاد می کند. اشکال زیر از سوگیری انتخاب وجود دارد:
- سوگیری پوشش : جمعیت نشان داده شده در مجموعه داده با جمعیتی که مدل یادگیری ماشین درباره آن پیش بینی می کند مطابقت ندارد.
- سوگیری نمونه گیری : داده ها به صورت تصادفی از گروه هدف جمع آوری نمی شوند.
- سوگیری بدون پاسخ (که به آن سوگیری مشارکت نیز میگویند): کاربران گروههای خاصی از نظرسنجیها با نرخهای متفاوتی نسبت به کاربران گروههای دیگر انصراف میدهند.
برای مثال، فرض کنید در حال ایجاد یک مدل یادگیری ماشینی هستید که لذت مردم از یک فیلم را پیشبینی میکند. برای جمعآوری دادههای آموزشی، نظرسنجی را به همه افرادی که در ردیف اول سالن نمایش فیلم هستند، میدهید. بد نیست، این ممکن است مانند یک راه معقول برای جمع آوری یک مجموعه داده به نظر برسد. با این حال، این شکل از جمع آوری داده ها ممکن است اشکال زیر را از سوگیری انتخاب معرفی کند:
- سوگیری پوشش: با نمونهگیری از جمعیتی که فیلم را انتخاب کردهاند، ممکن است پیشبینیهای مدل شما به افرادی تعمیم داده نشود که قبلاً آن سطح علاقه را به فیلم ابراز نکردهاند.
- سوگیری نمونه گیری: به جای نمونه گیری تصادفی از جمعیت مورد نظر (همه افراد حاضر در فیلم)، شما فقط از افراد ردیف اول نمونه برداری کردید. ممکن است افرادی که در ردیف اول نشسته بودند بیشتر از سایر ردیف ها به فیلم علاقه داشتند.
- سوگیری بدون پاسخ: به طور کلی، افرادی که نظرات قوی دارند بیشتر از افراد دارای نظرات ملایم به نظرسنجی های اختیاری پاسخ می دهند. از آنجایی که نظرسنجی فیلم اختیاری است، احتمال بیشتری وجود دارد که پاسخها یک توزیع دووجهی را تشکیل دهند تا توزیع عادی (زنگشکل).
ویژگی حساس
یک ویژگی انسانی که ممکن است به دلایل قانونی، اخلاقی، اجتماعی یا شخصی مورد توجه ویژه قرار گیرد.U
ناآگاهی (به یک ویژگی حساس)
وضعیتی که در آن ویژگی های حساس وجود دارد، اما در داده های آموزشی گنجانده نشده است. از آنجایی که ویژگیهای حساس اغلب با سایر ویژگیهای دادههای فرد مرتبط هستند، مدلی که با ناآگاهی در مورد یک ویژگی حساس آموزش داده میشود، همچنان میتواند تأثیر متفاوتی در رابطه با آن ویژگی داشته باشد یا سایر محدودیتهای انصاف را نقض کند.