انواع تعصب
گزینه های زیر را بررسی کنید.
کدام یک از پیش بینی های مدل زیر تحت تأثیر سوگیری انتخاب قرار گرفته است؟
یک برنامه تلفن هوشمند تشخیص دست خط آلمانی از مدلی استفاده می کند که اغلب به اشتباه کاراکترهای
ß (Eszett) را به عنوان کاراکترهای
B طبقه بندی می کند، زیرا بر روی مجموعه ای از نمونه های دستخط آمریکایی که عمدتاً به زبان انگلیسی نوشته شده بودند آموزش داده شده است.
این مدل تحت تأثیر نوعی سوگیری انتخاب به نام سوگیری پوشش قرار گرفت : داده های آموزشی (دستخط انگلیسی آمریکایی) نماینده نوع داده های ارائه شده توسط مخاطبان هدف مدل (دست خط آلمانی) نبود.
مهندسان مدلی برای پیشبینی احتمال ابتلای افراد به دیابت بر اساس میزان غذای روزانهشان ساختند. این مدل بر روی 10000 "دفترچه خاطرات غذایی" که از یک گروه به طور تصادفی انتخاب شده از مردم در سرتاسر جهان جمع آوری شده بود آموزش داده شد که نشان دهنده طیف های مختلف سنی، پیشینه های قومیتی و جنسیت بودند. با این حال، زمانی که مدل به کار گرفته شد، دقت بسیار ضعیفی داشت. متعاقباً مهندسان دریافتند که شرکت کنندگان در دفتر خاطرات غذایی تمایلی به اعتراف به حجم واقعی غذاهای ناسالم که می خوردند نداشتند و احتمال بیشتری داشت که مصرف غذای مغذی را نسبت به تنقلات کمتر سالم ثبت کنند.
هیچ سوگیری انتخاب در این مدل وجود ندارد. شرکتکنندگانی که دادههای آموزشی را ارائه کردند، نمونهگیری نمایندهای از کاربران بودند و بهطور تصادفی انتخاب شدند. در عوض، این مدل تحت تأثیر سوگیری گزارش قرار گرفت. مصرف غذاهای ناسالم با فرکانس بسیار کمتری نسبت به وقوع واقعی در دنیای واقعی گزارش شده است.
مهندسان یک شرکت مدلی را برای پیشبینی نرخ جابجایی کارکنان (درصد کارکنانی که هر سال شغل خود را ترک میکنند) بر اساس دادههای جمعآوریشده از نظرسنجی ارسال شده برای همه کارمندان توسعه دادند. پس از چندین سال استفاده، مهندسان به این نتیجه رسیدند که مدل بیش از 20 درصد گردش مالی را دست کم گرفته است. هنگام انجام مصاحبههای خروج با کارمندانی که شرکت را ترک میکردند، متوجه شدند که بیش از 80 درصد از افرادی که از شغل خود ناراضی بودند، در مقایسه با نرخ انصراف 15 درصدی در سراسر شرکت، نظرسنجی را تکمیل نکردند.
این مدل تحت تأثیر نوعی سوگیری انتخاب به نام سوگیری عدم پاسخ قرار گرفت. افرادی که از شغل خود ناراضی بودند در مجموعه داده های آموزشی کمتر حضور داشتند، زیرا آنها از نظرسنجی سراسری شرکت با نرخ های بسیار بالاتری نسبت به کل جمعیت کارکنان انصراف دادند.
مهندسانی که سیستم توصیه فیلم را توسعه می دهند، این فرضیه را مطرح کردند که افرادی که فیلم های ترسناک را دوست دارند، فیلم های علمی تخیلی را نیز دوست خواهند داشت. با این حال، زمانی که آنها مدلی را در لیست پیگیری 50000 کاربر آموزش دادند، هیچ ارتباطی بین ترجیحات ترسناک و علمی تخیلی نشان نداد. در عوض، همبستگی قوی بین ترجیحات ترسناک و مستند نشان داد. این برای آنها عجیب به نظر می رسید، بنابراین آنها مدل را پنج بار دیگر با استفاده از فراپارامترهای مختلف بازآموزی کردند. مدل آموزشدیده نهایی آنها ۷۰ درصد همبستگی بین ترجیحات ترسناک و علمی تخیلی نشان داد، بنابراین آنها با اطمینان آن را به تولید رساندند.
هیچ مدرکی مبنی بر سوگیری انتخاب وجود ندارد، اما این مدل ممکن است در عوض تحت تأثیر سوگیری آزمایشگر قرار گرفته باشد، زیرا مهندسان به تکرار مدل خود ادامه دادند تا اینکه فرضیه از قبل موجود آنها را تأیید کرد.
ارزیابی برای تعصب
یک مدل تشخیص طعنه بر روی 80000 پیام متنی آموزش داده شد: 40000 پیام ارسال شده توسط بزرگسالان (18 سال و بالاتر) و 40000 پیام ارسال شده توسط خردسالان (کمتر از 18 سال). سپس این مدل در یک مجموعه آزمایشی از 20000 پیام مورد ارزیابی قرار گرفت: 10000 پیام از بزرگسالان و 10000 پیام از خردسالان. ماتریسهای سردرگمی زیر نتایج را برای هر گروه نشان میدهند (یک پیشبینی مثبت نشاندهنده طبقهبندی «طعنهآمیز» است؛ یک پیشبینی منفی نشاندهنده طبقهبندی «غیر طعنهآمیز» است):
بزرگسالان
مثبت واقعی (TPs): 512 | مثبت کاذب (FPs): 51 |
منفی های کاذب (FNs): 36 | منفی واقعی (TNs): 9401 |
$$\text{Precision} = \frac{TP}{TP+FP} = 0.909$$ |
$$\text{Recall} = \frac{TP}{TP+FN} = 0.934$$ |
خردسالان
مثبت واقعی (TPs): 2147 | مثبت کاذب (FPs): 96 |
منفی های کاذب (FNs): 2177 | منفی واقعی (TN): 5580 |
$$\text{Precision} = \frac{TP}{TP+FP} = 0.957$$ |
$$\text{Recall} = \frac{TP}{TP+FN} = 0.497$$ |
گزینه های زیر را بررسی کنید.
کدام یک از عبارات زیر در مورد عملکرد مجموعه آزمایشی مدل صحیح است؟
به طور کلی، این مدل در نمونه هایی از بزرگسالان بهتر از نمونه هایی از افراد خردسال عمل می کند.
این مدل هنگام تشخیص طعنه در پیامهای متنی بزرگسالان، هم دقت و هم نرخ یادآوری بیش از 90 درصد را به دست میآورد.
در حالی که این مدل برای خردسالان نسبت به بزرگسالان به نرخ دقت کمی بالاتری دست مییابد، نرخ فراخوان برای خردسالان به طور قابلتوجهی پایینتر است، که منجر به پیشبینیهای قابل اعتماد کمتر برای این گروه میشود.
این مدل تقریباً 50 درصد از پیامهای کنایهآمیز خردسالان را به عنوان «طعنهآمیز» طبقهبندی نمیکند.
نرخ فراخوان 0.497 برای خردسالان نشان می دهد که این مدل برای تقریباً 50٪ متون طعنه آمیز خردسالان "غیر طعنه آمیز" را پیش بینی می کند.
تقریباً 50 درصد از پیام های ارسال شده توسط افراد زیر سن قانونی به اشتباه به عنوان "طعنه آمیز" طبقه بندی می شوند.
نرخ دقت 0.957 نشان می دهد که بیش از 95 درصد از پیام های خردسالان طبقه بندی شده به عنوان "طعنه آمیز" در واقع طعنه آمیز هستند.
10000 پیام ارسال شده توسط بزرگسالان یک مجموعه داده با
کلاس نامتعادل است.
اگر تعداد پیامهای بزرگسالان را که واقعاً طعنهآمیز هستند (TP+FN = 548) با تعداد پیامهایی که واقعاً طعنهآمیز نیستند (TN + FP = 9452) مقایسه کنیم، میبینیم که تعداد برچسبهای «طعنهآمیز» بیشتر از «طعنهآمیز» است. برچسب ها با نسبت تقریباً 17:1.
10000 پیام ارسال شده توسط خردسالان یک مجموعه داده با
کلاس نامتعادل هستند.
اگر تعداد پیامهای خردسال را که واقعاً طعنهآمیز هستند (TP+FN = 4324) با تعداد پیامهایی که واقعاً طعنهآمیز نیستند (TN + FP = 5676) مقایسه کنیم، میبینیم که نسبت 1.3:1 وجود دارد. برچسب های طعنه آمیز به برچسب های "طعنه آمیز". با توجه به اینکه توزیع برچسب ها بین دو کلاس کاملاً نزدیک به 50/50 است، این یک مجموعه داده با کلاس نامتعادل نیست.
گزینه های زیر را بررسی کنید.
مهندسان در حال کار بر روی آموزش مجدد این مدل برای رفع تناقضات در دقت تشخیص طعنه در جمعیتشناسی سنی هستند، اما این مدل قبلاً به تولید رسیده است. کدام یک از راهبردهای توقف زیر به کاهش خطا در پیشبینیهای مدل کمک میکند؟
استفاده از مدل را به پیام های متنی ارسال شده توسط بزرگسالان محدود کنید.
این مدل در پیامهای متنی بزرگسالان به خوبی عمل میکند (با دقت و نرخ فراخوان هر دو بالای 90%)، بنابراین محدود کردن استفاده از آن به این گروه، خطاهای سیستماتیک در طبقهبندی پیامهای متنی خردسالان را نادیده میگیرد.
هنگامی که مدل برای پیامهای متنی ارسال شده توسط افراد کم سن و سال «غیر طعنهآمیز» را پیشبینی میکند، خروجی را طوری تنظیم کنید که مدل به جای آن مقدار «مطمئن» را برگرداند.
میزان دقت پیامهای متنی ارسالشده توسط افراد کم سن بالا است، به این معنی که وقتی مدل برای این گروه «طعنهآمیز» را پیشبینی میکند، تقریباً همیشه درست است.
مشکل این است که یادآوری برای خردسالان بسیار کم است. این مدل تقریباً در 50 درصد نمونهها نمیتواند طعنه را شناسایی کند. با توجه به اینکه پیشبینیهای منفی مدل برای خردسالان بهتر از حدسهای تصادفی نیست، میتوان با ارائه نکردن پیشبینی در این موارد از این خطاها جلوگیری کرد.
استفاده از مدل را به پیام های متنی ارسال شده توسط افراد زیر سن قانونی محدود کنید.
خطاهای سیستماتیک در این مدل مختص پیامک های ارسال شده توسط افراد زیر سن قانونی است. محدود کردن استفاده از مدل به گروهی که بیشتر مستعد خطا هستند کمکی نمی کند.
خروجی مدل را طوری تنظیم کنید که برای همه پیامهای متنی ارسال شده توسط افراد خردسال، صرف نظر از آنچه مدل در ابتدا پیشبینی کرده بود، «طعنهآمیز» بازگردد.
همیشه پیشبینی «طعنهآمیز» برای پیامهای متنی خردسالان، نرخ فراخوان را از 0.497 به 1.0 افزایش میدهد، زیرا مدل دیگر نمیتواند هیچ پیامی را به عنوان طعنهآمیز تشخیص دهد. با این حال، این افزایش در یادآوری به قیمت دقت تمام می شود. همه منفی های واقعی به مثبت کاذب تغییر می کنند:
مثبت واقعی (TPs): 4324 | مثبت کاذب (FPs): 5676 |
منفی های کاذب (FN): 0 | منفی واقعی (TN): 0 |
که نرخ دقت را از 0.957 به 0.432 کاهش می دهد. بنابراین، افزودن این کالیبراسیون نوع خطا را تغییر میدهد، اما میزان خطا را کاهش نمیدهد.