این صفحه بهوسیله Cloud Translation API ترجمه شده است. انصاف: دانش خود را بیازمایید بازگشت به مسیر درست یا نادرست: سوگیری تاریخی زمانی رخ می دهد که یک مدل بر روی داده های قدیمی آموزش داده شود. درست است، واقعی نادرست مهندسان در حال آموزش یک مدل رگرسیونی برای پیشبینی محتوای کالری وعدههای غذایی بر اساس انواع دادههای ویژگی هستند که از وبسایتهای دستور غذا در سراسر جهان از جمله اندازه سرو، مواد تشکیل دهنده و تکنیکهای آمادهسازی استخراج کردهاند. کدام یک از مسائل داده های زیر منابع بالقوه سوگیری هستند که باید بیشتر مورد بررسی قرار گیرند؟ هر تعداد پاسخ را که مناسب میدانید انتخاب کنید. تقریباً 4000 نمونه از 40000 نمونه آموزشی دارای مقداری برای ویژگی "اندازه سرویس" نبودند. تقریباً 5000 نمونه از نمونه های آموزشی دارای اندازه گیری در واحدهای امپریالیستی (اونس، پوند و غیره) بودند، در حالی که 35000 نمونه دیگر دارای اندازه گیری در واحدهای متریک (گرم، لیتر و غیره) بودند. تقریباً 100 مورد از 40000 نمونه آموزشی دارای مقادیر مواد تشکیل دهنده بودند که به نظر می رسید بسیار نادرست است (مثلاً 100 چوب کره). برخی از وعدههای غذایی محبوب در دادههای آموزشی نسبت به سایر وعدههای غذایی محبوب کمتر نشان داده شدند (به عنوان مثال، 200 نمونه آموزشی برای دوسا وجود داشت، اما تنها 10 نمونه برای پیتزا). یک مدل تشخیص طعنه بر روی 80000 پیام متنی آموزش داده شد: 40000 پیام ارسال شده توسط بزرگسالان (18 سال و بالاتر) و 40000 پیام ارسال شده توسط خردسالان (کمتر از 18 سال). سپس این مدل در یک مجموعه آزمایشی از 20000 پیام مورد ارزیابی قرار گرفت: 10000 پیام از بزرگسالان و 10000 پیام از خردسالان. ماتریسهای سردرگمی زیر نتایج را برای هر گروه نشان میدهند (یک پیشبینی مثبت به معنی طبقهبندی «طعنهآمیز» است؛ یک پیشبینی منفی نشاندهنده طبقهبندی «غیر طعنهآمیز» است): بزرگسالان مثبت واقعی (TPs): 512 مثبت کاذب (FPs): 51 منفی های کاذب (FNs): 36 منفی واقعی (TNs): 9401 دقت = TP/(TP + FP) = 0.909 فراخوان = TP/(TP + FN) = 0.934 خردسالان مثبت واقعی (TPs): 2147 مثبت کاذب (FPs): 96 منفی های کاذب (FNs): 2177 منفی واقعی (TN): 5580 دقت = TP/(TP + FP) = 0.957 فراخوان = TP/(TP + FN) = 0.497 کدام یک از عبارات زیر در مورد عملکرد مجموعه آزمایشی مدل صحیح است؟ هر تعداد پاسخ را که مناسب میدانید انتخاب کنید. این مدل در نمونه هایی از بزرگسالان بهتر از نمونه هایی از افراد خردسال عمل می کند. 10000 پیام ارسال شده توسط بزرگسالان یک مجموعه داده با کلاس نامتعادل است. 10000 پیام ارسال شده توسط خردسالان یک مجموعه داده با کلاس نامتعادل هستند. تقریباً 50 درصد از پیام های ارسال شده توسط افراد زیر سن قانونی به اشتباه به عنوان "طعنه آمیز" طبقه بندی می شوند. این مدل تقریباً 50 درصد از پیامهای کنایهآمیز خردسالان را به عنوان «طعنهآمیز» طبقهبندی نمیکند. کدام یک از فرضیههای زیر میتواند تفاوتهای عملکرد زیرگروه را در مجموعه آزمون مدل تشخیص طعنه در بالا توضیح دهد؟ هر تعداد پاسخ را که مناسب میدانید انتخاب کنید. مدل در پیش بینی "طعنه آمیز" بیش از حد اشتباه می کند. در نتیجه هنگام طبقه بندی پیامک های خردسالان خطاهای بیشتری ایجاد می کند، زیرا پیام های طعنه آمیز از خردسالان در مجموعه تست بیشتر است. این مدل بر روی مثالهای منفیتر (غیر طعنهآمیز) از خردسالان نسبت به بزرگسالان مورد ارزیابی قرار گرفت، که منجر به خطاهای بیشتری برای خردسالان شد. طعنه در پیامهای متنی خردسالان ظریفتر بود، و بنابراین احتمال کمتری داشت که توسط مدل پرچمگذاری شود. پیامهای کنایهآمیز واقعی از بزرگسالان بسیار کمتر از افراد خردسال است. اگر مدل بر روی مجموعهای از پیامهای بزرگسالان متعادلتر ارزیابی شود، ممکن است فراخوانی آن برای آن زیر گروه کاهش یابد. مهندسان در حال کار بر روی بازآموزی مدل طعنه در بالا برای رفع تناقضات در دقت تشخیص طعنه در جمعیتشناسی سنی هستند، اما این مدل قبلاً به تولید رسیده است. کدام یک از راهبردهای توقف زیر به کاهش خطا در پیشبینیهای مدل کمک میکند؟ استفاده از مدل را به پیام های متنی ارسال شده توسط افراد زیر سن قانونی محدود کنید. خروجی مدل را طوری تنظیم کنید که برای همه پیامهای متنی ارسال شده توسط افراد خردسال، صرف نظر از آنچه مدل در ابتدا پیشبینی کرده بود، «طعنهآمیز» بازگردد. هنگامی که مدل برای پیامهای متنی ارسال شده توسط افراد کم سن و سال «غیر طعنهآمیز» را پیشبینی میکند، خروجی را طوری تنظیم کنید که مدل به جای آن مقدار «مطمئن» را برگرداند. ارسال پاسخها error_outline موقع نمرهدهی آزمون خطایی رخ داد. لطفاً دوباره امتحان کنید.