סיווג

במודול הזה אפשר לראות איך רגרסיה לוגיסטית יכולה לשמש למשימות סיווג ואיך הוא להעריך את היעילות של מודלים לסיווג.

סיווג

  • לפעמים אנחנו משתמשים רגרסיה לוגיסטית לפלט של ההסתברות – זו רגרסיה בעוד (0, 1)
  • במקרים אחרים, נקבע סף לסיווג בינארי נפרד
  • בחירת סף היא בחירה חשובה, וניתן לשנות אותה
  • איך אנחנו בוחנים מודלים של סיווג?
  • איך אנחנו בוחנים מודלים של סיווג?
  • מדד אפשרי אחד: דיוק
    • החלק הימני של החיזויים שקיבלנו
  • במקרים רבים, הדיוק הוא מדד נמוך או מטעה
    • ברוב המקרים, כאשר לסוגים שונים של טעויות יש עלויות שונות
    • מקרים אופייניים כוללים חוסר איזון בכיתה, כאשר מקרים שליליים או שליליים הם נדירים ביותר
  • במקרה של בעיות שאינן מאוזנות בכיתה, כדאי להפריד בין סוגי שגיאות שונים
חיובי נכון
קראנו נכון לזאב!
שמורנו את העיר.

חיוביות שקריות
שגיאה: התקשרנו באופן שקרי לזאב.
כולם כועסים לנו.

שליליים שקריים
זאב, אבל לא הצלחנו לזהות. היא אכלה את כל התרנגולות שלנו.
שליליים אמיתיים
אין זאבים, אין התראה.
כולם בסדר.

  • דיוק: (True חיוביים) / (כל החיזויים החיוביים)
    • כאשר לפי המודל היה "חיובי", זה היה נכון?
    • אינטואיציה: האם המודל בכה "זאב" יותר מדי פעמים?
  • דיוק: (True חיוביים) / (כל החיזויים החיוביים)
    • כאשר לפי המודל היה "חיובי", זה היה נכון?
    • אינטואיציה: האם המודל בכה "זאב" יותר מדי פעמים?
  • זכירה: (חיובי נכון) / (כל חיוביים)
    • מתוך כל היתרונות האפשריים, כמה דוגמאות זוהו במודל נכון?
    • אינטואיציה: האם החמיצו זאבים?

כדאי לעיין באפשרויות הבאות.

כדאי לבחור במודל סיווג שמפריד בין האימייל לשתי קטגוריות: "ספאם" או "לא ספאם". אם תעלו את סף הסיווג, מה יקרה לדיוק?
עלייה חדה.
הגדלת סף הסיווג בדרך כלל מגדילה את הדיוק. עם זאת, רמת הדיוק לא מובטחת אם תגדיל את המספר באופן מונוטוני ככל שאנחנו מגדילים את הסף.
כנראה יש עלייה.
באופן כללי, הגדלת סף הסיווג מפחיתה תוצאות חיוביות שקריות ומגבירה את הדיוק.
כנראה יש ירידה.
באופן כללי, הגדלת סף הסיווג מפחיתה תוצאות חיוביות שקריות ומגבירה את הדיוק.
במגמת ירידה.
באופן כללי, הגדלת סף הסיווג מפחיתה תוצאות חיוביות שקריות ומגבירה את הדיוק.

כל נקודה היא שיעור ה-TP ו-FP בסף החלטה אחד.

עקומה של ROC שמציגה שיעור TP לעומת שיעור FP בערכי סף שונים.
  • AUC: "האזור מתחת לעקומה של ROC"
  • AUC: "האזור מתחת לעקומה של ROC"
  • פרשנות:
    • אם נבחר שלילי אקראי או שלילי אקראי, מה ההסתברות שהמודל ידורג אותם בסדר הנכון?
  • AUC: "האזור מתחת לעקומה של ROC"
  • פרשנות:
    • אם נבחר שלילי אקראי או שלילי אקראי, מה ההסתברות שהמודל ידורג אותם בסדר הנכון?
  • אינטואיציה: מודדת את הביצועים המצטברים בכל ערכי הסף האפשריים לסיווג
  • יש להימנע מהטיות בחיזוי הרגרסיה הלוגיסטית.
    • ממוצע החיזויים == ממוצע התצפיות
  • יש להימנע מהטיות בחיזוי הרגרסיה הלוגיסטית.
    • ממוצע החיזויים == ממוצע התצפיות
  • ההטיות הן קנרי.
    • המשמעות של אפס הטיה בלבד לא בהכרח היא שהכל במערכת שלך מושלם.
    • אבל זו בדיקה מאוד שקופה.
  • אם יש לך הטיה, יש לך בעיה.
    • קבוצת התכונות לא הושלמה?
    • באג בצינור?
    • דוגמה להטיה?
  • אין לתקן את ההטיה באמצעות שכבת כיול, צריך לתקן אותה במודל.
  • מחפשים הטיה בקטעי הנתונים – זה יכול לשפר את הביצועים.
עלילה של כיול