סיווג: הטיה של חיזוי

כפי שצוין רגרסיה לינארית מודול, חישוב הטיה של חיזוי היא בדיקה מהירה שיכולה לסמן בעיות במודל או בנתוני האימון. בשלב מוקדם.

הטיה בחיזוי היא ההבדל בין הממוצע של המודל חיזויים והממוצע של ground truth . מודל שאומן לפי מערך נתונים שבו 5% מהאימיילים הם ספאם צפויים לחזות, בממוצע, ש-5% אימיילים שהיא מסווגת שהם ספאם. במילים אחרות, המשמעות של התוויות מערך הנתונים היבשתי הוא 0.05, וממוצע החיזויים של המודל יהיה גם 0.05. במקרה כזה, למודל יש הטיה אפסית של חיזוי. מתוך כמובן, יכול להיות שעדיין יש במודל בעיות אחרות.

אם המודל חוזים ב-50% מהפעמים שהודעת אימייל היא ספאם, משהו לא בסדר במערך הנתונים לאימון, מערך הנתונים החדש שהמודל הוחלו עליו או עם המודל עצמו. כלשהו הבדל משמעותי בין שני האמצעים מרמז על כך שלמודל הטיית חיזוי מסוימת.

הטיות בחיזוי יכולות לנבוע מהסיבות הבאות:

  • הטיות או רעש בנתונים, כולל דגימה מוטה בערכת האימון
  • הרגולריזציה חזקה מדי: המשמעות היא שהמודל היה פשוט מדי ואיבד סיבוכיות נדרשת
  • באגים בצינור עיבוד הנתונים לאימון מודלים
  • קבוצת התכונות שסופקו למודל לא מספיקות למשימה