דף זה תורגם על ידי Cloud Translation API.

סיווג: דיוק, ריקול, דיוק ומדדים קשורים

תוצאות חיוביות ושלוחות שליליות אמיתיות ומזויפות משמשות לחישוב כמה מדדים שימושיים להערכת מודלים. מדדי ההערכה המשמעותיים ביותר תלויים במודל הספציפי ובמשימה הספציפית, בעלות של סיווגים שגויים שונים ובשאלה אם מערך הנתונים מאוזן או לא מאוזן.

כל המדדים בקטע הזה מחושבים לפי סף קבוע אחד, והם משתנים כשהסף משתנה. לעיתים קרובות, המשתמשים משנים את הסף כדי לבצע אופטימיזציה של אחד מהמדדים האלה.

דיוק

הדיוק הוא היחס בין כל הסיווגים שהיו נכונים, בין שהם חיוביים ובין שהם שליליים. מבחינה מתמטית, הוא מוגדר כך:

\[\text{Accuracy} = \frac{\text{correct classifications}}{\text{total classifications}} = \frac{TP+TN}{TP+TN+FP+FN}\]

בדוגמה של סיווג ספאם, המדד 'דיוק' מתייחס לחלק מכל הודעות האימייל שסווגו בצורה נכונה.

מודל מושלם לא ייצור אף תוצאה חיובית שגויה ואף תוצאה שלילית שגויה, ולכן רמת הדיוק שלו תהיה 1.0 או 100%.

מכיוון שהיא משלבת את כל ארבע התוצאות ממטריצת הבלבול (TP,‏ FP,‏ TN,‏ FN), בהינתן מערך נתונים מאוזן עם מספר דומה של דוגמאות בשני הכיתות, הדיוק יכול לשמש כמדד גס של איכות המודל. לכן, הוא בדרך כלל מדד ברירת המחדל להערכה של מודלים כלליים או לא ספציפיים שמבצעים משימות כלליות או לא ספציפיות.

עם זאת, כשמערך הנתונים לא מאוזן, או כשסוג אחד של שגיאה (FN או FP) יקר יותר מהסוג השני, כפי שקורה ברוב האפליקציות בעולם האמיתי, עדיף לבצע אופטימיזציה לפי אחד מהמדדים האחרים.

במערכי נתונים עם חוסר איזון משמעותי, שבהם קבוצה אחת מופיעה לעיתים רחוקות מאוד, למשל 1% מהזמן, מודל שמתחזה תוצאה שלילית ב-100% מהמקרים יקבל ציון של 99% במדד הדיוק, למרות שהוא חסר תועלת.

זכירת המודעה, או שיעור החיובים האמיתיים

שיעור החיובים האמיתיים (TPR), או היחס בין כל התוצאות החיוביות בפועל שסווגו כחיוביות בצורה נכונה, נקרא גם רגישות.

מבחינה מתמטית, החזרה מוגדרת כך:

\[\text{Recall (or TPR)} = \frac{\text{correctly classified actual positives}}{\text{all actual positives}} = \frac{TP}{TP+FN}\]

תוצאות שליליות מטעות הן תוצאות חיוביות בפועל שסווגו בטעות כתוצאות שליליות, ולכן הן מופיעות במכנה. בדוגמה של סיווג ספאם, מדד החזרה מתייחס לחלק מהודעות האימייל שסווגו כספאם ונמצאו כספאם. לכן שם נוסף של החזרה הוא סבירות זיהוי: היא עונה על השאלה "איזה חלק מהאימיילים בספאם מזוהה על ידי המודל הזה?"

למודל מושלם היפותטי לא יהיו תוצאות שליליות שגויות, ולכן שיעור החזרה (TPR) שלו יהיה 1.0, כלומר שיעור זיהוי של 100%.

במערך נתונים לא מאוזן שבו מספר האירועים החיוביים בפועל נמוך מאוד, המדד 'החזר' הוא מדד משמעותי יותר מהמדד 'דיוק', כי הוא מודד את היכולת של המודל לזהות בצורה נכונה את כל המופעים החיוביים. באפליקציות כמו חיזוי מחלות, זיהוי נכון של המקרים החיוביים הוא קריטי. בדרך כלל, לתוצאה שלילית שגויה יש השלכות חמורות יותר מאשר לתוצאה חיובית שגויה. דוגמה קונקרטית להשוואה בין מדדי זיכרון ומדדי דיוק מופיעה בהערות שבהגדרה של זיכרון.

שיעור תוצאות חיוביות שגויות

שיעור התוצאות החיוביות המטועות (FPR) הוא היחס בין כל התוצאות השליליות בפועל שסווגו בטעות כחיוביות, שנקרא גם הסתברות לאזעקה שקרית. מבחינה מתמטית, הוא מוגדר כך:

\[\text{FPR} = \frac{\text{incorrectly classified actual negatives}} {\text{all actual negatives}} = \frac{FP}{FP+TN}\]

תוצאות חיוביות מטעות הן בעצם תוצאות שליליות שסווגו בטעות, ולכן הן מופיעות במכנה. בדוגמה של סיווג ספאם, מדד FPR מודד את החלק של הודעות אימייל לגיטימיות שסווגו בטעות כספאם,או את שיעור ההתראות השגויות של המודל.

במודל מושלם לא יהיו אפסות חיוביות שגויות, ולכן ערך ה-FPR יהיה 0.0, כלומר שיעור ההתראות השגויות יהיה 0%.

במערך נתונים לא מאוזן שבו מספר הדוגמאות השליליות בפועל נמוך מאוד, למשל 1-2 דוגמאות בסך הכול, המדד FPR פחות משמעותי ופחות שימושי.

דיוק

הדיוק הוא היחס בין כל הסיווגים החיוביים של המודל לבין הסיווגים החיוביים בפועל. מבחינה מתמטית, הוא מוגדר כך:

\[\text{Precision} = \frac{\text{correctly classified actual positives}} {\text{everything classified as positive}} = \frac{TP}{TP+FP}\]

בדוגמה של סיווג ספאם, המדד 'דיוק' מודד את החלק באימיילים שסווגו כספאם ושהיו באמת ספאם.

למודל תיאורטי מושלם לא יהיו תוצאות חיוביות כוזבות, ולכן רמת הדיוק שלו תהיה 1.0.

במערך נתונים לא מאוזן שבו מספר הדוגמאות החיוביות בפועל נמוך מאוד, למשל 1-2 דוגמאות בסך הכול, המדד 'דיוק' פחות משמעותי ופחות שימושי.

הדיוק משתפר ככל שמספר התוצאות החיוביות השגויות קטן, והזיכרון משתפר ככל שמספר התוצאות השליליות השגויות קטן. עם זאת, כפי שראינו בקטע הקודם, הגדלת הסף לסיווג נוטה להקטין את מספר התוצאות החיוביות הכוזבות ולהגדיל את מספר התוצאות השליליות הכוזבות, בעוד שהשפעות ההקטנה של הסף הן הפוכות. כתוצאה מכך, לעתים קרובות יש יחס הפוך בין הדיוק לבין החזרה, כך ששיפור של אחד מהם גורם לירידה באחר.

רוצים לנסות בעצמכם?

מה המשמעות של NaN במדדים?

הערך NaN, או 'לא מספר', מופיע כשמחלקים ב-0, ויכול לקרות בכל אחד מהמדדים האלה. לדוגמה, כש-TP ו-FP הם שניהם 0, הנוסחה של הדיוק כוללת 0 במכנה, וכתוצאה מכך מתקבל NaN. במקרים מסוימים, הערך NaN יכול לציין ביצועים מושלמים, וניתן להחליף אותו בציון 1.0. עם זאת, הוא יכול גם להופיע במודל שהוא למעשה חסר תועלת. לדוגמה, מודל שמעולם לא מנבא תוצאה חיובית יכלול 0 תוצאות חיוביות ו-0 תוצאות שליליות, ולכן החישוב של הדיוק שלו יניב את הערך NaN.

בחירה של מדד ומאזני הרווח והפסד

המדדים שבוחרים לתת להם עדיפות כשבודקים את המודל ובוחרים את הסף תלויים בעלויות, בהטבות ובסיכונים של הבעיה הספציפית. בדוגמה של סיווג ספאם, לרוב כדאי לתת עדיפות לזיהוי, כדי לזהות את כל הודעות האימייל שסומנו כספאם, או לדיוק, כדי לוודא שהודעות אימייל שסומנו כספאם הן אכן ספאם, או איזון כלשהו בין השניים, מעל רמת דיוק מינימלית מסוימת.

מדד	הדרכה
דיוק	אפשר להשתמש בו כאינדיקטור גס של התקדמות האימון או של ההתכנסות של המודל במערכי נתונים מאוזנים. כדי לבדוק את ביצועי המודל, יש להשתמש במדד הזה רק בשילוב עם מדדים אחרים. לא מומלץ להשתמש בהם במערכי נתונים לא מאוזנים. כדאי להשתמש במדד אחר.
זכירת המודעה (שיעור תוצאות חיוביות אמיתיות)	משתמשים בכך כשתוצאות שליליות שגויות יקרות יותר מתוצאות חיוביות שגויות.
שיעור תוצאות חיוביות שגויות	משתמשים באפשרות הזו כשתוצאות חיוביות מטעות יקרות יותר מתוצאות שליליות מטעות.
דיוק	מומלץ להשתמש בה כשחשוב מאוד שהתחזיות החיוביות יהיו מדויקות.

(אופציונלי, מתקדם) ציון F1

ציון F1 הוא הממוצע ההרמוני (סוג של ממוצע) של הדיוק והזיכרון.

מבחינה מתמטית, הנוסחה היא:

\[\text{F1}=2*\frac{\text{precision * recall}}{\text{precision + recall}} = \frac{2\text{TP}}{2\text{TP + FP + FN}}\]

המדד הזה מאזן בין החשיבות של הדיוק לבין החשיבות של החזרה (recall), והוא מועדף על פני הדיוק כשמדובר בקבוצות נתונים עם חוסר איזון בין הכיתות. כשהציונים של הדיוק והזיהוי הם 1.0, גם הציון של F1 יהיה 1.0. באופן כללי, כאשר הערכים של הדיוק והזיהוי הם דומים, הערך של F1 יהיה קרוב לערך שלהם. כאשר רמת הדיוק והרמה של זיהוי הפריטים החסרים שונים מאוד, הערך של F1 יהיה דומה למדד עם הערך הנמוך יותר.

תרגול: בדיקת ההבנה

מודל מניב 5 תוצאות TP,‏ 6 תוצאות TN,‏ 3 תוצאות FP ו-2 תוצאות FN. מחשבים את אחוז הקריאה מחדש.

0.714

הערך של 'החזרה' מחושב לפי הנוסחה \(\frac{TP}{TP+FN}=\frac{5}{7}\).

0.455

המדד 'החזר' מתייחס לכל התוצאות החיוביות בפועל, ולא לכל הסיווגים הנכונים. הנוסחה לחישוב הזכירה היא \(\frac{TP}{TP+FN}\).

0.625

המדד 'זיהוי' מתייחס לכל התמונות והסרטונים שסווגו כחיוביים בפועל, ולא לכל הסיווגים החיוביים. הנוסחה לזיכרון היא \(\frac{TP}{TP+FN}\)

מודל מניב 3 TP,‏ 4 TN,‏ 2 FP ו-1 FN. מחשבים את הדיוק.

0.6

הדיוק מחושב לפי \(\frac{TP}{TP+FP}=\frac{3}{5}\).

0.75

המדד 'דיוק' מתייחס לכל הסיווגים החיוביים, ולא לכל התוצאות החיוביות בפועל. הנוסחה לחישוב הדיוק היא \(\frac{TP}{TP+FP}\).

0.429

המדד 'דיוק' מתייחס לכל הסיווגים החיוביים, ולא לכל הסיווגים הנכונים. הנוסחה לחישוב הדיוק היא \(\frac{TP}{TP+FP}\)

אתם יוצרים סיווג בינארי שבודק תמונות של מלכודות חרקים כדי לזהות אם יש בהן מינים פולשניים מסוכנים. אם המודל מזהה את המין, המודיעין על כך מועבר לאנטומולוג (מדען חרקים) התורן. חשוב מאוד לזהות את החרק הזה בשלב מוקדם כדי למנוע התרבות שלו. קל לטפל בהתראה שקרית (תוצאה חיובית כוזבת): הזואולוג רואה שהתמונה סווגה בטעות ומסמן אותה ככזו. בהנחה שרמת הדיוק היא מקובלת, באיזה מדד כדאי לבצע אופטימיזציה של המודל הזה?

זכירות

בתרחיש הזה, ההתראות השגויות (FP) זולות, והתראות שליליות שגויות הן בעלות גבוהה מאוד, לכן מומלץ למקסם את החזרה (recall), או את הסבירות לזיהוי.

שיעור תוצאות חיוביות שגויות (FPR)

בתרחיש הזה, ההתראות המזויפות (FP) זולות. אין טעם לנסות למזער אותם ולהסתכן בהחמצת אירועים חיוביים אמיתיים.

דיוק

בתרחיש הזה, התראות שווא (FP) לא מזיקות במיוחד, ולכן אין טעם לנסות לשפר את הדיוק של הסיווגים החיוביים.

ערכי סף ומטריצת הבלבול (12 דקות)

ROC ו-AUC (10 דקות)

סיווג: דיוק, ריקול, דיוק ומדדים קשורים קל לארגן דפים בעזרת אוספים אפשר לשמור ולסווג תוכן על סמך ההעדפות שלך.

דיוק

זכירת המודעה, או שיעור החיובים האמיתיים

שיעור תוצאות חיוביות שגויות

דיוק

מה המשמעות של NaN במדדים?

בחירה של מדד ומאזני הרווח והפסד

(אופציונלי, מתקדם) ציון F1

תרגול: בדיקת ההבנה

סיווג: דיוק, ריקול, דיוק ומדדים קשורים