طبقه بندی: سوگیری پیش بینی

همانطور که در ماژول رگرسیون خطی ذکر شد، محاسبه سوگیری پیش‌بینی یک بررسی سریع است که می‌تواند مشکلات مربوط به مدل یا داده‌های آموزشی را در مراحل اولیه مشخص کند.

سوگیری پیش‌بینی تفاوت بین میانگین پیش‌بینی‌های یک مدل و میانگین برچسب‌های حقیقت پایه در داده‌ها است. یک مدل آموزش دیده بر روی مجموعه داده ای که در آن 5٪ ایمیل ها هرزنامه هستند باید به طور متوسط ​​پیش بینی کند که 5٪ از ایمیل هایی که طبقه بندی می کند هرزنامه هستند. به عبارت دیگر، میانگین برچسب ها در مجموعه داده های حقیقت زمینی 0.05 است و میانگین پیش بینی های مدل نیز باید 0.05 باشد. اگر این مورد باشد، مدل دارای سوگیری پیش بینی صفر است. البته ممکن است مدل همچنان مشکلات دیگری داشته باشد.

اگر مدل به جای آن 50 درصد موارد را پیش‌بینی کند که یک ایمیل هرزنامه است، مشکلی در مجموعه داده‌های آموزشی، مجموعه داده جدیدی که مدل روی آن اعمال می‌شود، یا با خود مدل اشتباه است. هر تفاوت معنی‌داری بین این دو میانگین نشان می‌دهد که مدل دارای سوگیری پیش‌بینی است.

سوگیری پیش بینی می تواند ناشی از موارد زیر باشد:

  • سوگیری یا نویز در داده ها، از جمله نمونه گیری بایاس برای مجموعه آموزشی
  • نظم دهی خیلی قوی، به این معنی که مدل بیش از حد ساده شده بود و برخی از پیچیدگی های لازم را از دست داد
  • اشکالات در خط لوله آموزش مدل
  • مجموعه ویژگی های ارائه شده به مدل برای کار ناکافی است