רגרסיה לוגיסטית: אובדן ונרמולציה

רגרסיה לוגיסטית מאמנים את המודל באמצעות אותו תהליך כמו רגרסיה לינארית חדשים, עם שתי הבחנות מרכזיות:

הקטעים הבאים עוסקים בשני השיקולים האלה בפירוט.

אובדן תיעוד

במודול הרגרסיה הלינארית, השתמשתם בתכונה הפסד בריבוע (נקרא גם הפסד של L2) פונקציית הפסד. פונקציית האובדן בריבוע פועלת היטב עבור מודל לינארי שבו קצב השינוי של ערכי הפלט קבוע. לדוגמה, בהינתן המודל הלינארי $y = b + 3x_1$, בכל פעם שמגדילים את הקלט בערך x_1 $$, ערך הפלט $y'$ עולה ב-3.

עם זאת, קצב השינוי במודל רגרסיה לוגיסטי לא קבוע. כמו שראיתם בקטע חישוב הסתברות, עקומת sigmoid בצורת s ולא לינארי. כשערך אי-הסבירות ביומן ($z$) קרוב ל-0, קטן עליות ב-$z$ מובילות לשינויים הרבה יותר גדולים ל-$y$ מאשר כאשר $z$ הוא סכום גדול מספר חיובי או שלילי. בטבלה הבאה מוצגות הפונקציות של פונקציית sigmoid הוא פלט לערכי קלט מ-5 עד 10, וגם את רמת הדיוק המתאימה שנדרש כדי להבין את ההבדלים בין התוצאות.

קלט פלט לוגיסטי ספרות הדיוק הנדרשות
5 0.993 3
6 0.997 3
7 0.999 3
8 0.9,997 4
9 0.9,999 4
10 0.99,998 5

אם השתמשתם בהפסד בריבוע כדי לחשב שגיאות לפונקציה sigmoid, הפלט התקרב והתקרב אל 0 ו-1, דרוש לך יותר זיכרון כדי לשמור על הדיוק הדרוש למעקב אחר הערכים האלה.

במקום זאת, פונקציית האובדן של רגרסיה לוגיסטית היא אובדן יומנים. משוואת אובדן יומן מחזירה את הלוגריתם של גודל השינוי, במקום מאשר המרחק בין הנתונים לחיזוי. אובדן יומנים מחושב באופן הבא ככה:

\(\text{Log Loss} = \sum_{(x,y)\in D} -y\log(y') - (1 - y)\log(1 - y')\)

איפה:

  • \((x,y)\in D\) הוא מערך הנתונים שמכיל דוגמאות רבות מתויגות, \((x,y)\) זוגות.
  • \(y\) הוא התווית בדוגמה עם תווית. מכיוון שזו רגרסיה לוגיסטית, כל ערך של \(y\) חייב להיות 0 או 1.
  • \(y'\) הוא החיזוי של המודל (בערך בין 0 ל-1), בהינתן הערך של \(x\).

רגילה רגרסיה לוגיסטית

regularization, מנגנון להטיל הגבלות על מורכבות המודל במהלך האימון, והוא חשוב ביותר מודלים של רגרסיה. ללא הרגולריזציה, האופי האסימטטי של לוגיסטי רגרסיה תמשיך לגרום לירידה של 0 במקרים שבהם למודל מספר רב של ישויות. לכן, רוב המודלים של רגרסיה לוגיסטית משתמשים במודל שתי האסטרטגיות הבאות להפחתת מורכבות המודל:

  • רגילה2
  • עצירה מוקדמת: צריך להגביל את מספר שלבי האימון כדי להפסיק את האימון בזמן הפסד עדיין בירידה.