סיווג: דיוק, ריקול, דיוק ומדדים קשורים

תוצאות חיוביות או תוצאות שליליות נכון או לא משמשות לחישוב של מדדים להערכת מודלים. מהם מדדי ההערכה החשובים ביותר תלוי במודל הספציפי ובמשימה הספציפית, של סיווגים שגויים, ואם מערך הנתונים מאוזן לא מאוזן.

כל המדדים בקטע הזה מחושבים בסף קבוע אחד, והוא משתנה כשהסף משתנה. לעתים קרובות, המשתמש מכוונן את כדי לבצע אופטימיזציה של אחד מהמדדים האלה.

דיוק

דיוק הוא החלק היחסי של כל המשתמשים את הסיווגים הנכונים, בין אם חיוביים או שליליים. זה כן מוגדרים מתמטית כך:

\[\text{Accuracy} = \frac{\text{correct classifications}}{\text{total classifications}} = \frac{TP+TN}{TP+TN+FP+FN}\]

בדוגמה לסיווג ספאם, רמת הדיוק מודדת את החלק היחסי של כל הודעות אימייל שסווגו נכון.

למודל מושלם יהיו אפס תוצאות חיוביות מוטעות ואפס תוצאות שליליות כוזבות, ולכן רמת הדיוק היא 1.0, או 100%.

מכיוון שהיא משלבת את כל ארבע התוצאות של מטריצת בלבול (TP, FP, TN, FN), בהינתן ערך מאוזן במערך נתונים דומה, עם מספר דומה של דוגמאות בשתי המחלקות, הדיוק משמשים כמדד בפירוט גס של איכות המודל. לכן לעיתים קרובות מדד ההערכה שמוגדר כברירת מחדל למודלים גנריים או שלא צוינו ביצוע משימות כלליות או משימות שלא צוינו.

אבל כשמערך הנתונים לא מאוזן, או שבה סוג אחד של טעות (FN או FP) יקר יותר מהשני, ברוב היישומים בעולם האמיתי, עדיף לבצע אופטימיזציה לאחד את המדדים האחרים במקום זאת.

במערכי נתונים לא מאוזנים מאוד, שבהם מחלקה אחת מופיעה לעתים רחוקות מאוד, למשל 1% משך הזמן, מודל שחוזה ש ב-100% מהזמן יהיה 99% דיוק, למרות שהם חסרי תועלת.

ריקול או שיעור חיובי אמיתי

השיעור החיובי האמיתי (TPR), או היחס של כל התוצאות החיוביות בפועל סווגו בצורה נכונה כחיוביים, נקרא גם ריקול.

הריקול מוגדר באופן מתמטי כך:

\[\text{Recall (or TPR)} = \frac{\text{correctly classified actual positives}}{\text{all actual positives}} = \frac{TP}{TP+FN}\]

תוצאות שליליות כוזבות הן תוצאות חיוביות בפועל שסווגו באופן שגוי כשליליות, הוא הסיבה לכך שהם מופיעים במכנה. בדוגמה של סיווג ספאם, מודד את החלק היחסי של הודעות ספאם שסווגו כ: ספאם. לכן, שם אחר לריקול הוא הסתברות לזיהוי: עונה על השאלה "איזה חלק מהודעות הספאם שמזוהה על ידי זה '?'

במודל היפותטי מושלם יהיו אפס תוצאות שליליות כוזבות, ריקול (TPR) של 1.0, כלומר 100% שיעור זיהוי.

במערך נתונים לא מאוזן שבו מספר התוצאות החיוביות בפועל נמוכה, למשל 1-2 דוגמאות בסך הכל, זכירת החשבון היא פחות משמעותית ופחות מועילה. כמדד.

שיעור חיובי שווא

שיעור התוצאות החיוביות השגויות (FPR) הוא היחס של כל מילות המפתח השליליות בפועל שסווגו שגויות כתוצאות חיוביות, שנקראות גם הסתברות להתראת שווא. זה כן מוגדרים מתמטית כך:

\[\text{FPR} = \frac{\text{incorrectly classified actual negatives}} {\text{all actual negatives}} = \frac{FP}{FP+TN}\]

תוצאות חיוביות מוטעות הן תוצאות שליליות בפועל שסווגו באופן שגוי, ולכן מופיעים במכנה. בדוגמה של סיווג הספאם, FPR מודד את חלק של הודעות אימייל לגיטימיות שסווגו בטעות כספאם, או את קצב ההתראות השקריות של המודל.

למודל מושלם יהיו אפס תוצאות חיוביות כוזבות ולכן ערך FPR הוא 0.0, כלומר, 0% שיעור של התראת שווא.

במערך נתונים לא מאוזן שבו מספר הערכים השליליים בפועל נמוך, נניח 1-2 דוגמאות בסך הכל, שיעור FPR הוא פחות משמעותי ופחות שימושי. כמדד.

דיוק

דיוק הוא היחס מתוך כל הסיווגים החיוביים של המודל שהם למעשה חיוביים. ההגדרה המתמטית היא:

\[\text{Precision} = \frac{\text{correctly classified actual positives}} {\text{everything classified as positive}} = \frac{TP}{TP+FP}\]

בדוגמה לסיווג ספאם, רמת הדיוק מודדת את החלק היחסי של הודעות אימייל שסווגו כספאם, שהן למעשה ספאם.

למודל היפותטי מושלם יהיו אפס תוצאות חיוביות כוזבות, דיוק של 1.0.

במערך נתונים לא מאוזן שבו מספר התוצאות החיוביות בפועל נמוך, למשל 1-2 דוגמאות בסך הכל, הדיוק הוא פחות משמעותי ופחות שימושי. כמדד.

הדיוק משתפר ככל שהתוצאות החיוביות השגויות פוחתות, והזכירות משתפרת כאשר מספר הערכים השליליים השגויים. אבל כפי שאפשר לראות בקטע הקודם, סף הסיווג נוטה להפחית את מספר התוצאות החיוביות המוטעות ולהגדיל את מספר התוצאות השליליות המוטעות, והקטנת הסף את ההשפעות ההפוכות. לכן, הדיוק וזכירת בדרך כלל מציגים ערך הפוך מערכת יחסים, כאשר שיפור של אחד מהם עלול להחמיר את האחר.

בחירת מדדים ואפשרויות פשרות

את המדדים שתבחרו לתת עדיפות גבוהה במהלך הערכת המודל, בחירת הסף תלויה בעלויות, ביתרונות ובסיכונים של לבעיה ספציפית. בדוגמה לסיווג ספאם, לרוב זה קורה הגיוני לתעדף, לקלוט את כל הודעות הספאם או את הדיוק בניסיון לוודא שהודעות אימייל שמסומנות בתווית ספאם הן אכן ספאם, או איזון בין השניים, מעל רמת דיוק מינימלית.

מדד הנחיות
דיוק

שימוש כאינדיקטור כללי של המודל התקדמות אימון/המרה של מערכי נתונים מאוזנים.

לביצועי המודל, יש להשתמש בו רק בשילוב עם מדדים אחרים.

הימנעו משימוש במערכי נתונים לא מאוזנים. כדאי להשתמש במדד אחר.

ריקול
(שיעור חיובי אמיתי)
שימוש כשיש יותר ערכים שליליים כוזבים יקרות מתוצאות חיוביות מוטעות.
שיעור חיובי שווא יש להשתמש במקרים שבהם התוצאות חיוביות כוזבות יקרות יותר ממילות מפתח שליליות כוזבות.
דיוק חשוב מאוד לקבל את ההודעות חיזויים חיוביים להיות מדויקים.

(אופציונלי, מתקדם) ציון F1

ציון F1 הוא הממוצע ההרמוני ( ממוצע) של דיוק וזכירת נתונים.

מבחינה מתמטית, הערך הזה נקבע על ידי:

\[\text{F1}=2*\frac{\text{precision * recall}}{\text{precision + recall}} = \frac{2\text{TP}}{2\text{TP + FP + FN}}\]

המדד הזה מאזן את החשיבות של הדיוק והזכירות, עדיף על דיוק במערכי נתונים עם איזון בין מחלקות. כשהדיוק וזכרו שלשניהם יש ציון מושלם של 1.0, גם ל-F1 תהיה ניקוד מושלם מ-1.0. באופן רחב יותר, כשהדיוק והזכירה קרובים לערך, F1 להיות קרובים לערך שלהם. כשהדיוק והזכירה רחוקים זה מזה, F1 להיות דומה למדד הגרוע ביותר.

תרגיל: בדקו את ההבנה שלכם

הפלט של המודל הוא 5 TP , 6 TN , 3 FP ו-2 FN. מחשבים את הריקול.
0.714
ההחזרה מחושבת באופן הבא: [\frac{TP}{TP+FN}=\frac{5}{7}].
0.455
ריקול מביא בחשבון את כל התוצאות החיוביות בפועל, ולא כולן נכונות של משפטים יחידים, הנוסחה לריקול היא [\frac{TP}{TP+FN}].
0.625
ההיזכרות מביאה בחשבון את כל התוצאות החיוביות בפועל, ולא את כל התוצאות החיוביות של משפטים יחידים, הנוסחה לריקול היא [\frac{TP}{TP+FN}]
הפלט של המודל הוא 3 TP , 4 TN , 2 FP ו-1 FN. מחשבים את הדיוק.
0.6
הדיוק מחושב באופן הבא: [\frac{TP}{TP+FP}=\frac{3}{5}].
0.75
הדיוק מביא בחשבון את כל הסיווגים החיוביים, לא את כולם חיוביות בפועל. הנוסחה לדיוק היא [\frac{TP}{TP+FP}].
0.429
הדיוק מביא בחשבון את כל הסיווגים החיוביים, לא את כולם הסיווגים הנכונים. הנוסחה לדיוק היא [\frac{TP}{TP+FP}]
אתם בונים מסווג בינארי שבודק תמונות של מלכודות חרקים אם קיים מין פולש מסוכן. אם המודל מזהה האנטומולוג (מדען חרקים) שבמשמרת יקבל הודעה על כך. לפנות בוקר חשוב מאוד לזהות חרק זה כדי למנוע הידבקות. א' קל לטפל באזעקת שווא: האנטומולוג רואה התמונה סווגה באופן שגוי וסימנה אותה ככזו. בהנחה שהיא מקובלת לרמת דיוק גבוהה, לאיזה מדד צריך לבצע אופטימיזציה של המודל?
זכירות
בתרחיש הזה, התראות שווא (FP) הן בעלות נמוכה הן יקרות מאוד, לכן הגיוני למקסם את ריקול, או את ההסתברות זיהוי וזיהוי אובייקטים.
שיעור חיובי שווא (FPR)
בתרחיש הזה, התראות שווא (FP) הן בעלות נמוכה. מתבצע ניסיון למזער אותם בסיכון להחמצת תוצאות חיוביות בפועל הגיוני.
דיוק
בתרחיש הזה, התראות שווא (FP) לא ולכן לנסות לשפר את הנכונות של סיווגים חיוביים לא הגיוני.