انصاف: درک خود را بررسی کنید

انواع تعصب

گزینه های زیر را بررسی کنید.

کدام یک از پیش بینی های مدل زیر تحت تأثیر سوگیری انتخاب قرار گرفته است؟
یک برنامه تلفن هوشمند تشخیص دست خط آلمانی از مدلی استفاده می کند که اغلب به اشتباه کاراکترهای ß (Eszett) را به عنوان کاراکترهای B طبقه بندی می کند، زیرا بر روی مجموعه ای از نمونه های دستخط آمریکایی که عمدتاً به زبان انگلیسی نوشته شده بودند آموزش داده شده است.
این مدل تحت تأثیر نوعی سوگیری انتخاب به نام سوگیری پوشش قرار گرفت : داده های آموزشی (دستخط انگلیسی آمریکایی) نماینده نوع داده های ارائه شده توسط مخاطبان هدف مدل (دست خط آلمانی) نبود.
مهندسان مدلی برای پیش‌بینی احتمال ابتلای افراد به دیابت بر اساس میزان غذای روزانه‌شان ساختند. این مدل بر روی 10000 "دفترچه خاطرات غذایی" که از یک گروه به طور تصادفی انتخاب شده از مردم در سرتاسر جهان جمع آوری شده بود آموزش داده شد که نشان دهنده طیف های مختلف سنی، پیشینه های قومیتی و جنسیت بودند. با این حال، زمانی که مدل به کار گرفته شد، دقت بسیار ضعیفی داشت. متعاقباً مهندسان دریافتند که شرکت کنندگان در دفتر خاطرات غذایی تمایلی به اعتراف به حجم واقعی غذاهای ناسالم که می خوردند نداشتند و احتمال بیشتری داشت که مصرف غذای مغذی را نسبت به تنقلات کمتر سالم ثبت کنند.
هیچ سوگیری انتخاب در این مدل وجود ندارد. شرکت‌کنندگانی که داده‌های آموزشی را ارائه کردند، نمونه‌گیری نماینده‌ای از کاربران بودند و به‌طور تصادفی انتخاب شدند. در عوض، این مدل تحت تأثیر سوگیری گزارش قرار گرفت. مصرف غذاهای ناسالم با فرکانس بسیار کمتری نسبت به وقوع واقعی در دنیای واقعی گزارش شده است.
مهندسان یک شرکت مدلی را برای پیش‌بینی نرخ جابجایی کارکنان (درصد کارکنانی که هر سال شغل خود را ترک می‌کنند) بر اساس داده‌های جمع‌آوری‌شده از نظرسنجی ارسال شده برای همه کارمندان توسعه دادند. پس از چندین سال استفاده، مهندسان به این نتیجه رسیدند که مدل بیش از 20 درصد گردش مالی را دست کم گرفته است. هنگام انجام مصاحبه‌های خروج با کارمندانی که شرکت را ترک می‌کردند، متوجه شدند که بیش از 80 درصد از افرادی که از شغل خود ناراضی بودند، در مقایسه با نرخ انصراف 15 درصدی در سراسر شرکت، نظرسنجی را تکمیل نکردند.
این مدل تحت تأثیر نوعی سوگیری انتخاب به نام سوگیری عدم پاسخ قرار گرفت. افرادی که از شغل خود ناراضی بودند در مجموعه داده های آموزشی کمتر حضور داشتند، زیرا آنها از نظرسنجی سراسری شرکت با نرخ های بسیار بالاتری نسبت به کل جمعیت کارکنان انصراف دادند.
مهندسانی که سیستم توصیه فیلم را توسعه می دهند، این فرضیه را مطرح کردند که افرادی که فیلم های ترسناک را دوست دارند، فیلم های علمی تخیلی را نیز دوست خواهند داشت. با این حال، زمانی که آنها مدلی را در لیست پیگیری 50000 کاربر آموزش دادند، هیچ ارتباطی بین ترجیحات ترسناک و علمی تخیلی نشان نداد. در عوض، همبستگی قوی بین ترجیحات ترسناک و مستند نشان داد. این برای آنها عجیب به نظر می رسید، بنابراین آنها مدل را پنج بار دیگر با استفاده از فراپارامترهای مختلف بازآموزی کردند. مدل آموزش‌دیده نهایی آن‌ها ۷۰ درصد همبستگی بین ترجیحات ترسناک و علمی تخیلی نشان داد، بنابراین آن‌ها با اطمینان آن را به تولید رساندند.
هیچ مدرکی مبنی بر سوگیری انتخاب وجود ندارد، اما این مدل ممکن است در عوض تحت تأثیر سوگیری آزمایشگر قرار گرفته باشد، زیرا مهندسان به تکرار مدل خود ادامه دادند تا اینکه فرضیه از قبل موجود آنها را تأیید کرد.

ارزیابی برای تعصب

یک مدل تشخیص طعنه بر روی 80000 پیام متنی آموزش داده شد: 40000 پیام ارسال شده توسط بزرگسالان (18 سال و بالاتر) و 40000 پیام ارسال شده توسط خردسالان (کمتر از 18 سال). سپس این مدل در یک مجموعه آزمایشی از 20000 پیام مورد ارزیابی قرار گرفت: 10000 پیام از بزرگسالان و 10000 پیام از خردسالان. ماتریس‌های سردرگمی زیر نتایج را برای هر گروه نشان می‌دهند (یک پیش‌بینی مثبت نشان‌دهنده طبقه‌بندی «طعنه‌آمیز» است؛ یک پیش‌بینی منفی نشان‌دهنده طبقه‌بندی «غیر طعنه‌آمیز» است):

بزرگسالان

مثبت واقعی (TPs): 512 مثبت کاذب (FPs): 51
منفی های کاذب (FNs): 36 منفی واقعی (TNs): 9401
$$\text{Precision} = \frac{TP}{TP+FP} = 0.909$$
$$\text{Recall} = \frac{TP}{TP+FN} = 0.934$$

خردسالان

مثبت واقعی (TPs): 2147 مثبت کاذب (FPs): 96
منفی های کاذب (FNs): 2177 منفی واقعی (TN): 5580
$$\text{Precision} = \frac{TP}{TP+FP} = 0.957$$
$$\text{Recall} = \frac{TP}{TP+FN} = 0.497$$

گزینه های زیر را بررسی کنید.

کدام یک از عبارات زیر در مورد عملکرد مجموعه آزمایشی مدل صحیح است؟
به طور کلی، این مدل در نمونه هایی از بزرگسالان بهتر از نمونه هایی از افراد خردسال عمل می کند.

این مدل هنگام تشخیص طعنه در پیام‌های متنی بزرگسالان، هم دقت و هم نرخ یادآوری بیش از 90 درصد را به دست می‌آورد.

در حالی که این مدل برای خردسالان نسبت به بزرگسالان به نرخ دقت کمی بالاتری دست می‌یابد، نرخ فراخوان برای خردسالان به طور قابل‌توجهی پایین‌تر است، که منجر به پیش‌بینی‌های قابل اعتماد کمتر برای این گروه می‌شود.

این مدل تقریباً 50 درصد از پیام‌های کنایه‌آمیز خردسالان را به عنوان «طعنه‌آمیز» طبقه‌بندی نمی‌کند.
نرخ فراخوان 0.497 برای خردسالان نشان می دهد که این مدل برای تقریباً 50٪ متون طعنه آمیز خردسالان "غیر طعنه آمیز" را پیش بینی می کند.
تقریباً 50 درصد از پیام های ارسال شده توسط افراد زیر سن قانونی به اشتباه به عنوان "طعنه آمیز" طبقه بندی می شوند.
نرخ دقت 0.957 نشان می دهد که بیش از 95 درصد از پیام های خردسالان طبقه بندی شده به عنوان "طعنه آمیز" در واقع طعنه آمیز هستند.
10000 پیام ارسال شده توسط بزرگسالان یک مجموعه داده با کلاس نامتعادل است.
اگر تعداد پیام‌های بزرگسالان را که واقعاً طعنه‌آمیز هستند (TP+FN = 548) با تعداد پیام‌هایی که واقعاً طعنه‌آمیز نیستند (TN + FP = 9452) مقایسه کنیم، می‌بینیم که تعداد برچسب‌های «طعنه‌آمیز» بیشتر از «طعنه‌آمیز» است. برچسب ها با نسبت تقریباً 17:1.
10000 پیام ارسال شده توسط خردسالان یک مجموعه داده با کلاس نامتعادل هستند.
اگر تعداد پیام‌های خردسال را که واقعاً طعنه‌آمیز هستند (TP+FN = 4324) با تعداد پیام‌هایی که واقعاً طعنه‌آمیز نیستند (TN + FP = 5676) مقایسه کنیم، می‌بینیم که نسبت 1.3:1 وجود دارد. برچسب های طعنه آمیز به برچسب های "طعنه آمیز". با توجه به اینکه توزیع برچسب ها بین دو کلاس کاملاً نزدیک به 50/50 است، این یک مجموعه داده با کلاس نامتعادل نیست.

گزینه های زیر را بررسی کنید.

مهندسان در حال کار بر روی آموزش مجدد این مدل برای رفع تناقضات در دقت تشخیص طعنه در جمعیت‌شناسی سنی هستند، اما این مدل قبلاً به تولید رسیده است. کدام یک از راهبردهای توقف زیر به کاهش خطا در پیش‌بینی‌های مدل کمک می‌کند؟
استفاده از مدل را به پیام های متنی ارسال شده توسط بزرگسالان محدود کنید.

این مدل در پیام‌های متنی بزرگسالان به خوبی عمل می‌کند (با دقت و نرخ فراخوان هر دو بالای 90%)، بنابراین محدود کردن استفاده از آن به این گروه، خطاهای سیستماتیک در طبقه‌بندی پیام‌های متنی خردسالان را نادیده می‌گیرد.

هنگامی که مدل برای پیام‌های متنی ارسال شده توسط افراد کم سن و سال «غیر طعنه‌آمیز» را پیش‌بینی می‌کند، خروجی را طوری تنظیم کنید که مدل به جای آن مقدار «مطمئن» را برگرداند.

میزان دقت پیام‌های متنی ارسال‌شده توسط افراد کم سن بالا است، به این معنی که وقتی مدل برای این گروه «طعنه‌آمیز» را پیش‌بینی می‌کند، تقریباً همیشه درست است.

مشکل این است که یادآوری برای خردسالان بسیار کم است. این مدل تقریباً در 50 درصد نمونه‌ها نمی‌تواند طعنه را شناسایی کند. با توجه به اینکه پیش‌بینی‌های منفی مدل برای خردسالان بهتر از حدس‌های تصادفی نیست، می‌توان با ارائه نکردن پیش‌بینی در این موارد از این خطاها جلوگیری کرد.

استفاده از مدل را به پیام های متنی ارسال شده توسط افراد زیر سن قانونی محدود کنید.

خطاهای سیستماتیک در این مدل مختص پیامک های ارسال شده توسط افراد زیر سن قانونی است. محدود کردن استفاده از مدل به گروهی که بیشتر مستعد خطا هستند کمکی نمی کند.

خروجی مدل را طوری تنظیم کنید که برای همه پیام‌های متنی ارسال شده توسط افراد خردسال، صرف نظر از آنچه مدل در ابتدا پیش‌بینی کرده بود، «طعنه‌آمیز» بازگردد.

همیشه پیش‌بینی «طعنه‌آمیز» برای پیام‌های متنی خردسالان، نرخ فراخوان را از 0.497 به 1.0 افزایش می‌دهد، زیرا مدل دیگر نمی‌تواند هیچ پیامی را به عنوان طعنه‌آمیز تشخیص دهد. با این حال، این افزایش در یادآوری به قیمت دقت تمام می شود. همه منفی های واقعی به مثبت کاذب تغییر می کنند:

مثبت واقعی (TPs): 4324 مثبت کاذب (FPs): 5676
منفی های کاذب (FN): 0 منفی واقعی (TN): 0

که نرخ دقت را از 0.957 به 0.432 کاهش می دهد. بنابراین، افزودن این کالیبراسیون نوع خطا را تغییر می‌دهد، اما میزان خطا را کاهش نمی‌دهد.