التصنيف: تحيز التنبؤ

كما ذُكر في قسم الانحدار الخطي الوحدة، حساب تحيز التوقع هو فحص سريع يمكنه الإبلاغ عن أي مشاكل في النموذج أو بيانات التدريب مبكرًا.

إن تحيز التنبؤ هو الفرق بين متوسط تنبؤ التوقّعات ومتوسط تصنيفات الحقيقة في قسم البيانات. يشير هذا المصطلح إلى نموذج مدرَّب على مجموعة بيانات. حيث تكون 5٪ من الرسائل الإلكترونية غير مرغوب فيها ينبغي التنبؤ، في المتوسط، أن 5٪ من رسائل البريد الإلكتروني التي يصنفها هي رسائل غير مرغوب فيها. أو بعبارةٍ أخرى، يعني متوسط التسميات في تساوي 0.05 في مجموعة بيانات الحقيقة، ومن المفترض أن يكون متوسّط سيكون أيضًا 0.05. فإذا كان الأمر كذلك، فإن النموذج ليس له تحيز للتنبؤ صفر. من بالطبع، فقد لا يزال النموذج يواجه مشكلات أخرى.

إذا توقع النموذج بدلاً من ذلك أن تكون الرسالة الإلكترونية غير مرغوب فيها بنسبة 50% من الوقت، هناك خطأ في مجموعة بيانات التطبيق، فإن مجموعة البيانات الجديدة أو باستخدامه على النموذج نفسه. أي تقييم يشير الاختلاف الكبير بين الوسيلتين إلى أن النموذج يحتوي على بعض التحيز في التنبؤ.

قد ينتج تحيز التنبؤ عن:

  • التحيزات أو التشويش في البيانات، بما في ذلك العينات المتحيزة لمجموعة التدريب
  • تسوية عالية جدًا، ما يعني أن النموذج قد تم اختصاره بشكل مبالغ فيه وتم فقدانه بعض التعقيدات اللازمة
  • الأخطاء في مسار تدريب النماذج
  • مجموعة الميزات المقدمة للنموذج غير كافية للمهمة