סיווג: הטיה של חיזוי
כפי שצוין
רגרסיה לינארית
מודול, חישוב
הטיה של חיזוי
היא בדיקה מהירה שיכולה לסמן בעיות במודל או בנתוני האימון.
בשלב מוקדם.
הטיה בחיזוי היא ההבדל בין הממוצע של המודל
חיזויים
והממוצע של
ground truth
. מודל שאומן לפי מערך נתונים
שבו 5% מהאימיילים הם ספאם צפויים לחזות, בממוצע, ש-5%
אימיילים שהיא מסווגת שהם ספאם. במילים אחרות, המשמעות של התוויות
מערך הנתונים היבשתי הוא 0.05, וממוצע החיזויים של המודל
יהיה גם 0.05. במקרה כזה, למודל יש הטיה אפסית של חיזוי. מתוך
כמובן, יכול להיות שעדיין יש במודל בעיות אחרות.
אם המודל חוזים ב-50% מהפעמים שהודעת אימייל היא ספאם,
משהו לא בסדר במערך הנתונים לאימון, מערך הנתונים החדש שהמודל
הוחלו עליו או עם המודל עצמו. כלשהו
הבדל משמעותי בין שני האמצעים מרמז על כך שלמודל
הטיית חיזוי מסוימת.
הטיות בחיזוי יכולות לנבוע מהסיבות הבאות:
- הטיות או רעש בנתונים, כולל דגימה מוטה בערכת האימון
- הרגולריזציה חזקה מדי: המשמעות היא שהמודל היה פשוט מדי ואיבד
סיבוכיות נדרשת
- באגים בצינור עיבוד הנתונים לאימון מודלים
- קבוצת התכונות שסופקו למודל לא מספיקות למשימה
אלא אם צוין אחרת, התוכן של דף זה הוא ברישיון Creative Commons Attribution 4.0 ודוגמאות הקוד הן ברישיון Apache 2.0. לפרטים, ניתן לעיין במדיניות האתר Google Developers. Java הוא סימן מסחרי רשום של חברת Oracle ו/או של השותפים העצמאיים שלה.
עדכון אחרון: 2024-08-13 (שעון UTC).
[null,null,["עדכון אחרון: 2024-08-13 (שעון UTC)."],[[["Prediction bias, calculated as the difference between the average prediction and the average ground truth, is a quick check for model or data issues."],["A model with zero prediction bias ideally predicts the same average outcome as observed in the ground truth data, such as a spam detection model predicting the same percentage of spam emails as actually present in the dataset."],["Significant prediction bias can indicate problems in the training data, the model itself, or the new data being applied to the model."],["Common causes of prediction bias include biased data, excessive regularization, bugs in the training process, and insufficient features provided to the model."]]],[]]