במודול הזה אפשר לראות איך רגרסיה לוגיסטית יכולה לשמש למשימות סיווג ואיך הוא להעריך את היעילות של מודלים לסיווג.
סיווג
סיווג לעומת רגרסיה
- לפעמים אנחנו משתמשים רגרסיה לוגיסטית לפלט של ההסתברות – זו רגרסיה בעוד (0, 1)
- במקרים אחרים, נקבע סף לסיווג בינארי נפרד
- בחירת סף היא בחירה חשובה, וניתן לשנות אותה
מדדי הערכה: דיוק
- איך אנחנו בוחנים מודלים של סיווג?
מדדי הערכה: דיוק
- איך אנחנו בוחנים מודלים של סיווג?
- מדד אפשרי אחד: דיוק
- החלק הימני של החיזויים שקיבלנו
דיוק עלול להטעות
- במקרים רבים, הדיוק הוא מדד נמוך או מטעה
- ברוב המקרים, כאשר לסוגים שונים של טעויות יש עלויות שונות
- מקרים אופייניים כוללים חוסר איזון בכיתה, כאשר מקרים שליליים או שליליים הם נדירים ביותר
חיוביים אמיתיים וחיוביים שקריים
- במקרה של בעיות שאינן מאוזנות בכיתה, כדאי להפריד בין סוגי שגיאות שונים
חיובי נכון קראנו נכון לזאב! שמורנו את העיר. |
חיוביות שקריות שגיאה: התקשרנו באופן שקרי לזאב. כולם כועסים לנו. |
שליליים שקריים זאב, אבל לא הצלחנו לזהות. היא אכלה את כל התרנגולות שלנו. |
שליליים אמיתיים אין זאבים, אין התראה. כולם בסדר. |
מדדי הערכה: דיוק והחזרת נתונים
- דיוק: (True חיוביים) / (כל החיזויים החיוביים)
- כאשר לפי המודל היה "חיובי", זה היה נכון?
- אינטואיציה: האם המודל בכה "זאב" יותר מדי פעמים?
מדדי הערכה: דיוק והחזרת נתונים
- דיוק: (True חיוביים) / (כל החיזויים החיוביים)
- כאשר לפי המודל היה "חיובי", זה היה נכון?
- אינטואיציה: האם המודל בכה "זאב" יותר מדי פעמים?
- זכירה: (חיובי נכון) / (כל חיוביים)
- מתוך כל היתרונות האפשריים, כמה דוגמאות זוהו במודל נכון?
- אינטואיציה: האם החמיצו זאבים?
בסיום, יש ללחוץ על Play▶ כדי להמשיך
כדאי לעיין באפשרויות הבאות.
כדאי לבחור במודל סיווג שמפריד בין האימייל לשתי קטגוריות:
"ספאם" או "לא ספאם". אם תעלו את סף הסיווג, מה יקרה
לדיוק?
עלייה חדה.
הגדלת סף הסיווג בדרך כלל מגדילה את הדיוק.
עם זאת, רמת הדיוק לא מובטחת אם תגדיל את המספר באופן מונוטוני
ככל שאנחנו מגדילים את הסף.
כנראה יש עלייה.
באופן כללי, הגדלת סף הסיווג מפחיתה
תוצאות חיוביות שקריות ומגבירה את הדיוק.
כנראה יש ירידה.
באופן כללי, הגדלת סף הסיווג מפחיתה
תוצאות חיוביות שקריות ומגבירה את הדיוק.
במגמת ירידה.
באופן כללי, הגדלת סף הסיווג מפחיתה
תוצאות חיוביות שקריות ומגבירה את הדיוק.
עקומה של ROC
כל נקודה היא שיעור ה-TP ו-FP בסף החלטה אחד.
מדדי הערכה: AUC
- AUC: "האזור מתחת לעקומה של ROC"
מדדי הערכה: AUC
- AUC: "האזור מתחת לעקומה של ROC"
- פרשנות:
- אם נבחר שלילי אקראי או שלילי אקראי, מה ההסתברות שהמודל ידורג אותם בסדר הנכון?
מדדי הערכה: AUC
- AUC: "האזור מתחת לעקומה של ROC"
- פרשנות:
- אם נבחר שלילי אקראי או שלילי אקראי, מה ההסתברות שהמודל ידורג אותם בסדר הנכון?
- אינטואיציה: מודדת את הביצועים המצטברים בכל ערכי הסף האפשריים לסיווג
הטיה בחיזוי
- יש להימנע מהטיות בחיזוי הרגרסיה הלוגיסטית.
- ממוצע החיזויים == ממוצע התצפיות
הטיה בחיזוי
- יש להימנע מהטיות בחיזוי הרגרסיה הלוגיסטית.
- ממוצע החיזויים == ממוצע התצפיות
- ההטיות הן קנרי.
- המשמעות של אפס הטיה בלבד לא בהכרח היא שהכל במערכת שלך מושלם.
- אבל זו בדיקה מאוד שקופה.
הטיה בחיזוי (המשך)
- אם יש לך הטיה, יש לך בעיה.
- קבוצת התכונות לא הושלמה?
- באג בצינור?
- דוגמה להטיה?
- אין לתקן את ההטיה באמצעות שכבת כיול, צריך לתקן אותה במודל.
- מחפשים הטיה בקטעי הנתונים – זה יכול לשפר את הביצועים.