מילון מונחים בנושא למידת מכונה: מדדים

הדף הזה מכיל מונחים ממילון המדדים. כאן מפורטות כל ההגדרות במילון.

דיוק

#fundamentals
#Metric

מספר התחזיות של הסיווג הנכון חלקי מספר התחזיות הכולל. כלומר:

Accuracy=correct predictionscorrect predictions + incorrect predictions 

לדוגמה, מודל שהניב 40 תחזיות נכונות ו-10 תחזיות שגויות יהיה בעל רמת דיוק של:

Accuracy=4040 + 10=80%

סיווג בינארי מספק שמות ספציפיים לקטגוריות השונות של תחזיות נכונות ותחזיות שגויות. לכן, הנוסחה של הדיוק בסיווג בינארי היא:

Accuracy=TP+TNTP+TN+FP+FN

כאשר:

השוו בין הדיוק לבין הדיוק והחזר.

המדד הזה חשוב במצבים מסוימים, אבל הוא מטעה מאוד במצבים אחרים. חשוב לציין שהדיוק הוא בדרך כלל מדד לא טוב להערכת מודלים של סיווג שעומדים בפני מערכי נתונים עם חוסר איזון בין הקטגוריות.

לדוגמה, נניח שבעיר מסוימת באזור הסובטרופי יורד שלג רק 25 ימים במאה. מכיוון שמספר הימים ללא שלג (הקבוצה השלילית) גדול בהרבה ממספר הימים עם שלג (הקבוצה החיובית), מערך הנתונים של השלג בעיר הזו לא מאוזן מבחינת הקבוצות. נניח שיש לכם מודל סיווג בינארי שאמור לחזות אם ירד שלג או לא ירד שלג בכל יום, אבל הוא פשוט חוזה "לא ירד שלג" בכל יום. המודל הזה מדויק מאוד, אבל אין לו יכולת חיזוי. בטבלה הבאה מפורט סיכום של התוצאות של מאה שנים של תחזיות:

קטגוריה מספר
TP 0
TN 36499
FP 0
FN 25

לכן, רמת הדיוק של המודל הזה היא:

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (0 + 36499) / (0 + 36499 + 0 + 25) = 0.9993 = 99.93%

למרות שדיוק של 99.93% נראה אחוז מרשים מאוד, למעשה אין למודל יכולת חיזוי.

בדרך כלל, המדדים דיוק והחזר שימושיים יותר מדיוק להערכת מודלים שהותאמו למערכי נתונים עם חוסר איזון בין הכיתות.


למידע נוסף, ראו סיווג: דיוק, זיכרון, רמת דיוק ומדדים קשורים במדריך למתחילים בנושא למידת מכונה.

השטח מתחת לעקומת ה-PR

#Metric

שטח מתחת לעקומת יחסי הציבור (PR AUC)

השטח מתחת לעקומת ROC

#Metric

ראו AUC (השטח מתחת לעקומת ROC).

AUC (השטח מתחת לעקומת ROC)

#fundamentals
#Metric

מספר בין 0.0 ל-1.0 שמייצג את היכולת של מודל סיווג בינארי להפריד בין כיתות חיוביות לבין כיתות שליליות. ככל ש-AUC קרוב יותר ל-1.0, כך יכולת המודל להפריד בין הכיתות גבוהה יותר.

לדוגמה, באיור הבא מוצג מודל סיווג שמפריד בצורה מושלמת בין כיתות חיוביות (אליפסות ירוקות) לכיתות שליליות (ריבועים סגולים). המודל המושלם הלא ריאליסטי הזה כולל AUC של 1.0:

קו מספרים עם 8 דוגמאות חיוביות בצד אחד ו-9 דוגמאות שליליות בצד השני.

לעומת זאת, באיור הבא מוצגות התוצאות של מודל סיווג שיצר תוצאות אקראיות. ערך ה-AUC של המודל הזה הוא 0.5:

קו מספרים עם 6 דוגמאות חיוביות ו-6 דוגמאות שליליות.
          רצף הדוגמאות הוא חיובי, שלילי, חיובי, שלילי, חיובי, שלילי, חיובי, שלילי, חיובי, שלילי.

כן, ערך AUC של המודל הקודם הוא 0.5 ולא 0.0.

רוב המודלים נמצאים במקום כלשהו בין שני הקצוות. לדוגמה, המודל הבא מפריד באופן חלקי בין תוצאות חיוביות לשליליות, ולכן ערך ה-AUC שלו הוא בין 0.5 ל-1.0:

קו מספרים עם 6 דוגמאות חיוביות ו-6 דוגמאות שליליות.
          רצף הדוגמאות הוא שלילי, שלילי, שלילי, שלילי, חיובי, שלילי, חיובי, חיובי, שלילי, חיובי, חיובי, חיובי.

פונקציית AUC מתעלמת מכל ערך שתגדירו לסף הסיווג. במקום זאת, AUC מתייחס לכל ערכי הסף האפשריים לסיווג.

AUC מייצג את השטח מתחת לעקומת ROC. לדוגמה, עקומת ROC של מודל שמפריד בצורה מושלמת בין תוצאות חיוביות לשליליות נראית כך:

תרשים קרטוזי. ציר ה-X מייצג את שיעור החיובים השקריים, וציר ה-Y מייצג את שיעור החיובים האמיתיים. התרשים מתחיל ב-0,0 וממשיך ישר למעלה ל-0,1 ואז ישר ימינה עד 1,1.

AUC הוא האזור של האזור האפור באיור הקודם. במקרה החריג הזה, השטח הוא פשוט האורך של האזור האפור (1.0) כפול רוחב האזור האפור (1.0). לכן, המכפלה של 1.0 ב-1.0 מניבה AUC של 1.0 בדיוק, שהוא הציון הגבוה ביותר האפשרי של AUC.

לעומת זאת, עקומת ROC של סיווג שלא יכול להפריד בין הכיתות בכלל נראית כך. שטח האזור האפור הזה הוא 0.5.

תרשים קרטוזי. ציר ה-X מייצג את שיעור החיובים השקריים, וציר ה-Y מייצג את שיעור החיובים האמיתיים. התרשים מתחיל ב-0,0 ונע באלכסון ל-1,1.

עקומת ROC אופיינית יותר נראית בערך כך:

תרשים קרטוזי. ציר ה-X מייצג את שיעור החיובים השקריים, וציר ה-Y מייצג את שיעור החיובים האמיתיים. הגרף מתחיל ב-0,0 וממשיך בקשת לא סדירה
          עד 1,0.

חישוב השטח מתחת לעקומה הזו באופן ידני הוא תהליך מייגע, ולכן בדרך כלל תוכנה מחשבת את רוב ערכי AUC.


AUC הוא ההסתברות שמסנן יהיה בטוח יותר שדוגמה חיובית שנבחרה באופן אקראי היא אכן חיובית, מאשר שדוגמה שלילית שנבחרה באופן אקראי היא חיובית.


למידע נוסף, ראו סיווג: ROC ו-AUC בקורס המקוצר בנושא למידת מכונה.

דיוק ממוצע ב-k

#language
#Metric

מדד שמסכם את הביצועים של מודל בהנחיה אחת, שמניבה תוצאות מדורגות, כמו רשימה ממוספרת של המלצות לספרים. רמת הדיוק הממוצעת ב-k היא הממוצע של ערכי רמת הדיוק ב-k לכל תוצאה רלוונטית. לכן, הנוסחה לחישוב הדיוק הממוצע ב-k היא:

average precision at k=1ni=1nprecision at k for each relevant item

כאשר:

  • n הוא מספר הפריטים הרלוונטיים ברשימה.

בניגוד להחזרה למצב הקודם ב-k.

נניח שמודל שפה גדול מקבל את השאילתה הבאה:

List the 6 funniest movies of all time in order.

ומודל השפה הגדול מחזיר את הרשימה הבאה:

  1. The General
  2. Mean Girls
  3. Platoon
  4. שושבינות
  5. Citizen Kane
  6. This is Spinal Tap
ארבעה מהסרטים ברשימה שהתקבלה מצחיקים מאוד (כלומר, הם רלוונטיים), אבל שני סרטים הם דרמות (לא רלוונטיים). התוצאות מפורטות בטבלה הבאה:
מיקום סרט רלוונטי? דיוק ב-k
1 The General כן 1.0
2 Mean Girls כן 1.0
3 Platoon לא לא רלוונטי
4 שושבינות כן 0.75
5 Citizen Kane לא לא רלוונטי
6 This is Spinal Tap כן 0.67

מספר התוצאות הרלוונטיות הוא 4. לכן, אפשר לחשב את רמת הדיוק הממוצעת ב-6 באופן הבא:

average precision at 6=14(1.0 + 1.0 + 0.75 + 0.67)
average precision at 6=~0.85

B

קו בסיס

#Metric

מודל המשמש כנקודת ייחוס להשוואה של הביצועים של מודל אחר (בדרך כלל מודל מורכב יותר). לדוגמה, מודל רגרסיה לוגיסטית יכול לשמש כבסיס טוב למודל עומק.

כשמדובר בבעיה מסוימת, קו הבסיס עוזר למפתחי המודלים לכמת את רמת הביצועים המינימלית הצפויה שמודל חדש צריך להשיג כדי שיהיה שימושי.

C

עלות

#Metric

מילה נרדפת ל-loss.

הוגנות תנאי-נגד

#fairness
#Metric

מדד הוגנות שבודק אם סיווג נותן את אותו תוצאה לאדם אחד כמו לאדם אחר שזהה לראשון, מלבד מאפיינים רגישים אחד או יותר. בדיקת הסיווג לצורך בדיקת הוגנות נגדית היא אחת מהשיטות לזיהוי מקורות פוטנציאליים של הטיה במודל.

מידע נוסף זמין במאמרים הבאים:

אנטרופיה חוצת-מודלים

#Metric

הכללה של Log Loss לבעיות סיווג בכמה מחלקות. האנטרופיה הצולבת מאפשרת למדוד את ההבדל בין שתי התפלגויות הסתברות. מידע נוסף זמין במאמר תסבוכת.

פונקציית התפלגות מצטברת (CDF)

#Metric

פונקציה שמגדירה את התדירות של דגימות שקטנות מערך היעד או שוות לו. לדוגמה, נניח התפלגות נורמלית של ערכים רציפים. CDF מראה ש-50% מהדגימות צריכות להיות קטנות מ-mean או שווה לו, ו-84% מהדגימות צריכות להיות קטנות מ-mean או שווה לו סטיית תקן אחת מעל mean.

D

שוויון דמוגרפי

#fairness
#Metric

מדד הוגנות שמתקיים אם תוצאות הסיווג של מודל לא תלויות במאפיין רגיש נתון.

לדוגמה, אם גם תלמידים מליליפוט וגם תלמידים מברובדינגיאני מתקבלים לאוניברסיטת גלובדדבריב, המשמעות היא ששוויון דמוגרפי מתקיים אם אחוז הקבלה של התלמידים מליליפוט זהה לאחוז הקבלה של התלמידים מברובדינגיאני, ללא קשר לכך שקבוצה אחת כשירה יותר בממוצע מהקבוצה השנייה.

בניגוד להשוואת הסיכויים ולשוויון הזדמנויות, שבהם מותר לתוצאות הסיווג הכוללות להיות תלויות במאפיינים רגישים, אבל אסור לתוצאות הסיווג של תוויות מסוימות של אמת בפועל להיות תלויות במאפיינים רגישים. במאמר 'התמודדות עם אפליה באמצעות למידת מכונה חכמה יותר' מופיעה הדמיה שממחישה את הפשרות שצריך לעשות כשמבצעים אופטימיזציה להשגת שוויון דמוגרפי.

למידע נוסף, ראו צדק: שוויון דמוגרפי בקורס המקוצר בנושא למידת מכונה.

E

מרחק העברה של ציוד הנדסי (EMD)

#Metric

מדד הדמיון היחסי בין שתי התפלגויות. ככל שהמרחק של 'הגורם המניע' נמוך יותר, כך התפלגויות דומות יותר.

edit distance

#language
#Metric

מדידה של מידת הדמיון בין שתי מחרוזות טקסט. בלמידת מכונה, מרחק העריכה שימושי מהסיבות הבאות:

  • קל לחשב את מרחק העריכה.
  • אפשר להשתמש במרחק העריכה כדי להשוות בין שתי מחרוזות שידוע שהן דומות זו לזו.
  • מרחק העריכה יכול לקבוע את מידת הדמיון בין מחרוזות שונות למחרוזת נתונה.

יש כמה הגדרות של מרחק עריכה, וכל אחת מהן משתמשת בפעולות שונות על מחרוזות. דוגמה לכך מופיעה בקטע מרחק Levenshtein.

פונקציית ההתפלגות המצטברת האמפירית (eCDF או EDF)

#Metric

פונקציית התפלגות מצטברת שמבוססת על מדידות אמפיריות ממערך נתונים אמיתי. הערך של הפונקציה בכל נקודה על ציר ה-x הוא החלק היחסי של התצפיות במערך הנתונים שקטנות מהערך שצוין או שוות לו.

אנטרופיה

#df
#Metric

ב תיאוריית המידע, תיאור של מידת הבלתי צפוי של התפלגות הסתברות. לחלופין, אנטרופי מוגדר גם ככמות המידע שמכילה כל דוגמה. ההסתברות הגבוהה ביותר של אנטרופי בחלוקה מתקבלת כאשר כל הערכים של משתנה אקראי סבירים באותה מידה.

הנוסחה של האנטרופיה של קבוצה עם שני ערכים אפשריים, '0' ו-'1' (לדוגמה, התוויות בבעיה של סיווג בינארי) היא:

  H = -p log p - q log q = -p log p - (1-p) * log (1-p)

כאשר:

  • H היא האנטרופיה.
  • p הוא החלק היחסי של הדוגמאות עם הערך '1'.
  • q הוא החלק היחסי של דוגמאות עם ערך '0'. הערה: q = (1 - p)
  • בדרך כלל, log הוא log2. במקרה הזה, יחידת האנטרופי היא ביט.

לדוגמה, נניח את הפרטים הבאים:

  • 100 דוגמאות מכילות את הערך '1'
  • 300 דוגמאות מכילות את הערך '0'

לכן, ערך האנטרופיה הוא:

  • p = 0.25
  • q = 0.75
  • H = (-0.25)log2(0.25) - (0.75)log2(0.75) = 0.81 ביט לדוגמה

לאוסף מאוזן באופן מושלם (לדוגמה, 200 '0' ו-200 '1') תהיה אנטרופיה של 1.0 ביט לכל דוגמה. ככל שהקבוצה לא מאוזנת יותר, האנטרופי שלה מתקרב ל-0.0.

בעצים של החלטות, האנטרופיה עוזרת לנסח את השיפור במידע כדי לעזור למחלץ לבחור את התנאים במהלך הצמיחה של עץ החלטות לסיווג.

השוואה בין האנטרופיה לבין:

לעיתים קרובות קוראים לאנטרופיה אנטרופיית שרנון.

מידע נוסף זמין בקטע Exact splitter for binary classification with numerical features בקורס Decision Forests.

שוויון הזדמנויות

#fairness
#Metric

מדד הוגנות שמאפשר להעריך אם מודל מסוים מנבא את התוצאה הרצויה באותה מידה לכל הערכים של מאפיין רגיש. במילים אחרות, אם התוצאה הרצויה של מודל היא הסיווג החיובי, המטרה היא ששיעור החיוביים האמיתיים יהיה זהה בכל הקבוצות.

שוויון הזדמנויות קשור לשוויון הסיכויים, שמחייב שגם שיעורי החיובים האמיתיים וגם שיעורי החיובים השקריים יהיו זהים בכל הקבוצות.

נניח ש-Glubbdubdrib University מקבלת גם ליליפוטים וגם ברודינגנגיים לתוכנית מתמטיקה מחמירה. בתי הספר העל-יסודיים של ליליפוט מציעים תוכנית לימודים עשירה של שיעורי מתמטיקה, ורוב התלמידים עומדים בדרישות הקבלה לתוכנית האוניברסיטאית. בתי הספר התיכוניים בברודינגנ' לא מציעים שיעורי מתמטיקה בכלל, וכתוצאה מכך, הרבה פחות תלמידים עומדים בדרישות. שוויון הזדמנויות מתקיים לגבי התווית המועדפת 'התקבל' ביחס לאזרחות (ליליפוטי או ברודינגיאני) אם הסיכוי של תלמידים שעומדים בדרישות להתקבל הוא זהה, ללא קשר לכך שהם ליליפוטיים או ברודינגיאניים.

לדוגמה, נניח ש-100 תלמידים מליליפוט ו-100 תלמידים מברובדינגינג מגישים בקשה לאוניברסיטת Glubbdubdrib, וההחלטות לגבי הקבלה מתקבלות באופן הבא:

טבלה 1. מועמדים קטנים (90% מהם עומדים בדרישות)

  כשיר לא מתאים
התקבל 45 3
נדחה 45 7
סה"כ 90 10
אחוז התלמידים שעומדים בדרישות והתקבלו: 45/90 = 50%
אחוז התלמידים שלא עומדים בדרישות והודחו: 7/10 = 70%
אחוז התלמידים מליליפוטיה שהתקבלו בסה"כ: (45+3)/100 = 48%

 

טבלה 2. מועמדים עם נתונים עצומים (10% מהם עומדים בדרישות):

  כשיר לא מתאים
התקבל 5 9
נדחה 5 81
סה"כ 10 90
אחוז הסטודנטים שעומדים בדרישות והתקבלו: 5/10 = 50%
אחוז הסטודנטים שלא עומדים בדרישות והודחו: 81/90 = 90%
אחוז הסטודנטים מברודינגיאניה שהתקבלו: (5+9)/100 = 14%

הדוגמאות הקודמות עומדות בקריטריון של שוויון הזדמנויות לקבלת תלמידים שעומדים בדרישות, כי לכל אחד מתלמידי ליליפוט וברודינגנז יש סיכוי של 50% להתקבל.

אמנם מדד השוויון הזדמנויות עומד בדרישות, אבל שני מדדי ההוגנות הבאים לא עומדים בדרישות:

  • שוויון דמוגרפי: סטודנטים מליליפוטי ומברודינגיאני מתקבלים לאוניברסיטה בשיעורים שונים: 48% מהסטודנטים מליליפוטי מתקבלים, אבל רק 14% מהסטודנטים מברודינגיאני מתקבלים.
  • שוויון סיכויים: לתלמידים שעומדים בדרישות מליליפוטין ומברודינגיאניה יש את אותה ההסתברות להתקבל, אבל לא מתקיים האילוץ הנוסף שלפיו לתלמידים שלא עומדים בדרישות מליליפוטין ומברודינגיאניה יש את אותה ההסתברות להידחות. בקשות של ליליפוטנים לא כשירים נדחות בשיעור של 70%, ואילו בקשות של ברודינגנזים לא כשירים נדחות בשיעור של 90%.

למידע נוסף, ראו צדק: שוויון הזדמנויות בקורס המקוצר בנושא למידת מכונה.

הסתברות שווה

#fairness
#Metric

מדד הוגנות שמאפשר להעריך אם מודל מנבא תוצאות באותה רמה לכל הערכים של מאפיין רגיש, הן לגבי הסיווג החיובי והן לגבי הסיווג השלילי – ולא רק לגבי סיווג אחד או השני בלבד. במילים אחרות, גם שיעור החיובים האמיתיים וגם שיעור השלילים הכוזבים צריכים להיות זהים בכל הקבוצות.

האפשרות 'שוויון סיכויים' קשורה לשוויון הזדמנויות, שמתמקדת רק בשיעורי שגיאות של סיווג אחד (חיובי או שלילי).

לדוגמה, נניח שאוניברסיטת Glubbdubdrib מקבלת גם ליליפוטים וגם ברודינגנאים לתוכנית מתמטיקה מחמירה. בתי הספר התיכוניים של ליליפוט מציעים תוכנית לימודים עשירה של שיעורי מתמטיקה, ורוב התלמידים עומדים בדרישות הקבלה לתוכנית האוניברסיטאית. בתי הספר התיכוניים בברודינגנ' לא מציעים שיעורי מתמטיקה בכלל, וכתוצאה מכך, הרבה פחות תלמידים עומדים בדרישות. הקריטריון של שוויון הסיכויים מתקיים אם לא משנה אם המועמד הוא אדם קטן או אדם גדול, אם הוא עומד בדרישות, הסיכוי שלו להתקבל לתוכנית הוא זהה, ואם הוא לא עומד בדרישות, הסיכוי שלו להידחות הוא זהה.

נניח ש-100 תלמידים מליליפוט ו-100 תלמידים מברובדינגיאני שולחים בקשות לאוניברסיטת Glubbdubdrib, וההחלטות לגבי הקבלה מתקבלות באופן הבא:

טבלה 3 מועמדים קטנים (90% מהם עומדים בדרישות)

  כשיר לא מתאים
התקבל 45 2
נדחה 45 8
סה"כ 90 10
אחוז התלמידים שעומדים בדרישות והתקבלו: 45/90 = 50%
אחוז התלמידים שלא עומדים בדרישות והודחו: 8/10 = 80%
אחוז התלמידים מליליפוטיה שהתקבלו בסה"כ: (45+2)/100 = 47%

 

טבלה 4. מועמדים עם נתונים עצומים (10% מהם עומדים בדרישות):

  כשיר לא מתאים
התקבל 5 18
נדחה 5 72
סה"כ 10 90
אחוז הסטודנטים שעומדים בדרישות והתקבלו: 5/10 = 50%
אחוז הסטודנטים שלא עומדים בדרישות והודחו: 72/90 = 80%
אחוז הסטודנטים מברודינגיאניה שהתקבלו: (5+18)/100 = 23%

תנאי הקבלה של שוויון הסיכויים מתקיים כי לסטודנטים מתאימים מליליפוטי ומברודינגיאני יש סיכוי של 50% להתקבל, ולסטודנטים לא מתאימים מליליפוטי ומברודינגיאני יש סיכוי של 80% להידחות.

ההגדרה הרשמית של שוויון הסיכויים מופיעה במאמר 'שוויון הזדמנויות בלמידה בפיקוח' באופן הבא: "המנבא Ŷ עומד בתנאי של שוויון הסיכויים ביחס למאפיין המוגן A ולתוצאה Y אם Ŷ ו-A הם עצמאיים, מותנים ב-Y".

evals

#language
#generativeAI
#Metric

משמש בעיקר כקיצור של הערכות LLM. באופן כללי, evals היא קיצור של כל סוג של בדיקה.

הערכה

#language
#generativeAI
#Metric

התהליך של מדידת האיכות של מודל או השוואה בין מודלים שונים.

כדי להעריך מודל של למידת מכונה מבוקרת, בדרך כלל משווים אותו לקבוצת אימות ולקבוצת בדיקה. הערכת LLM כוללת בדרך כלל הערכות איכות ובטיחות רחבות יותר.

F

F1

#Metric

מדד 'צביר' של סיווג בינארי שמבוסס גם על דיוק וגם על החזר. זו הנוסחה:

F1=2 * precision * recallprecision + recall

נניח שהערכים של הדיוק והזיהוי הם:

  • precision = 0.6
  • recall = 0.4

מחשבים את F1 באופן הבא:

F1=2 * 0.6 * 0.40.6 + 0.4=0.48

כשהדיוק וההשלמה דומים למדי (כמו בדוגמה הקודמת), הערך של F1 קרוב לממוצע שלהם. כאשר הדיוק והזיכרון שונים באופן משמעותי, הערך של F1 קרוב יותר לערך הנמוך יותר. לדוגמה:

  • precision = 0.9
  • recall = 0.1
F1=2 * 0.9 * 0.10.9 + 0.1=0.18

מדד הוגנות

#fairness
#Metric

הגדרה מתמטית של 'הוגנות' שניתנת למדידה. דוגמאות למדדי הוגנות נפוצים:

הרבה מדדי הוגנות הם בלתי ניתנים להפרדה. אפשר לקרוא מידע נוסף במאמר חוסר תאימות של מדדי הוגנות.

תוצאה שלילית שגויה (FN)

#fundamentals
#Metric

דוגמה שבה המודל חוזה בטעות את המחלקה השלילית. לדוגמה, המודל צופה שהודעת אימייל מסוימת לא היא ספאם (הקבוצה השלילית), אבל ההודעה הזו באמת ספאם.

שיעור תוצאות שליליות שגויות

#Metric

היחס בין הדוגמאות החיוביות בפועל שהמודל ניבא בטעות את הכיתה השלילית. הנוסחה הבאה מחשבת את שיעור השליפות השגויות של בקשות תמיכה:

false negative rate=false negativesfalse negatives+true positives

מידע נוסף זמין בקטע סף וערכי מטריצת הבלבול בקורס המקוצר בנושא למידת מכונה.

תוצאה חיובית שגויה (FP)

#fundamentals
#Metric

דוגמה שבה המודל חוזה בטעות את המחלקה החיובית. לדוגמה, המודל חוזה שהודעת אימייל מסוימת היא ספאם (הקלאס החיובי), אבל הודעת האימייל הזו בפועל לא ספאם.

מידע נוסף זמין בקטע סף וערכי מטריצת הבלבול בקורס המקוצר בנושא למידת מכונה.

שיעור תוצאות חיוביות שגויות (FPR)

#fundamentals
#Metric

היחס בין דוגמאות שליליות בפועל שהמודל ניבא בטעות את הכיתה החיובית. הנוסחה הבאה מחשבת את שיעור התוצאות החיוביות השגויות:

false positive rate=false positivesfalse positives+true negatives

שיעור החיובים השקריים הוא ציר ה-x בעקומת ROC.

למידע נוסף, ראו סיווג: ROC ו-AUC בקורס המקוצר בנושא למידת מכונה.

מדדי החשיבות של המאפיינים

#df
#Metric

שם נרדף לחשיבות המשתנים.

חלוקת ההצלחות

#generativeAI
#Metric

מדד להערכת הטקסט שנוצר של מודל למידת מכונה. החלק של ההצלחות הוא מספר הפלט של הטקסט שנוצר 'בהצלחה' חלקי המספר הכולל של הפלט של הטקסט שנוצר. לדוגמה, אם מודל שפה גדול יצר 10 בלוקים של קוד, מתוכם 5 בוצעו בהצלחה, החלק של ההצלחות יהיה 50%.

אמנם היחס בין מספר ההצלחות למספר הניסיונות שימושי באופן כללי בתחום הסטטיסטיקה, אבל ב-ML המדד הזה שימושי בעיקר למדידת משימות שניתן לאמת, כמו יצירת קוד או בעיות מתמטיות.

G

זיהום של Gini

#df
#Metric

מדד דומה ל-אנטרופי. מחליקים משתמשים בערכים שמקורם בזיהום של Gini או באנטרופי כדי ליצור תנאים לסיווג של עצים של החלטות. רווח המידע נגזר מהאנטרופיה. אין מונח מקביל מקובל באופן אוניברסלי למדד שמתקבל מ-gini impurity. עם זאת, המדד הזה ללא שם חשוב באותה מידה כמו הרווח המידעי.

אי-הטהרה של Gini נקראת גם מדד Gini או פשוט Gini.

זיהום Gini הוא ההסתברות לסיווג שגוי של נתון חדש שנלקח מאותה התפלגות. אי-הטוהר של Gini בקבוצה עם שני ערכים אפשריים, '0' ו-'1' (לדוגמה, התוויות בבעיה של סיווג בינארי) מחושב לפי הנוסחה הבאה:

   I = 1 - (p2 + q2) = 1 - (p2 + (1-p)2)

כאשר:

  • I הוא אי-הטהרת ה-Gini.
  • p הוא החלק היחסי של הדוגמאות עם הערך '1'.
  • q הוא החלק היחסי של דוגמאות עם ערך '0'. שימו לב ש-q = 1-p

לדוגמה, נניח את מערך הנתונים הבא:

  • 100 תוויות (0.25 ממערך הנתונים) מכילות את הערך '1'
  • 300 תוויות (0.75 ממערך הנתונים) מכילות את הערך '0'

לכן, אי-הטוהר של Gini הוא:

  • p = 0.25
  • q = 0.75
  • I = 1 - (0.252 + 0.752) = 0.375

כתוצאה מכך, לסימון אקראי מאותו מערך נתונים תהיה סבירות של 37.5% לסווג שגוי, וסבירות של 62.5% לסווג נכון.

לתווית מאוזנת לחלוטין (לדוגמה, 200 ערכים של '0' ו-200 ערכים של '1') תהיה רמת זיהום של 0.5 במדד Gini. לתווית לא מאוזנת תהיה זיהום gini קרוב ל-0.0.


H

אובדן ציר

#Metric

משפחה של פונקציות אובדן לסיווג שנועדו למצוא את גבול ההחלטה במרחק הגדול ביותר האפשרי מכל דוגמה לאימון, וכך למקסם את המרווח בין הדוגמאות לגבול. KSVM משתמשים באובדן ציר (או בפונקציה קשורה, כמו אובדן ציר בריבוע). בסיווג בינארי, פונקציית הפסד של ציר ההטיה מוגדרת כך:

loss=max(0,1(yy))

כאשר y הוא התווית האמיתית, 1 או -1, ו-y' הוא הפלט הגולמי של מודל הסיווג:

y=b+w1x1+w2x2+wnxn

לכן, התרשים של אובדן הצירים לעומת (y * y') נראה כך:

תרשים קרטוזי מורכב משני קטעי קו שמחוברים. מקטע הקו הראשון מתחיל ב-(-3, 4) ומסתיים ב-(1, 0). הקטע השני של הקו מתחיל ב-(1, 0) וממשיך ללא הגבלת זמן עם שיפוע של 0.

I

אי-תאימות של מדדי הוגנות

#fairness
#Metric

הרעיון שחלק מהמושגים של הוגנות לא תואמים זה לזה, ואי אפשר לעמוד בהם בו-זמנית. כתוצאה מכך, אין מדד אוניברסלי יחיד למדידה של הוגנות שאפשר להחיל על כל הבעיות של למידת המכונה.

יכול להיות שזה נשמע מייאש, אבל חוסר התאימות של מדדי הצדק לא מעיד על כך שהמאמצים לשמירה על הצדק לא מניבים תוצאות. במקום זאת, מוצע להגדיר את הצדק בהקשר של בעיה נתונה של למידת מכונה, במטרה למנוע נזקים ספציפיים לתרחישים לדוגמה שלה.

במאמר On the (im)possibility of fairness מפורטת יותר הבעיה של אי-התאימות בין מדדי הצדק.

הוגנות אישית

#fairness
#Metric

מדד הוגנות שבודק אם אנשים דומים מסווגים באופן דומה. לדוגמה, בית הספר Brobdingnagian Academy עשוי לרצות לשמור על הוגנות אישית על ידי הבטחת הסיכוי שווה של שני תלמידים עם ציונים זהים בבחינות סטנדרטיות להתקבל לבית הספר.

חשוב לזכור שצדק לכל תלמיד או תלמידה תלוי לחלוטין באופן שבו מגדירים את 'הדמיון' (במקרה הזה, ציונים במבחנים), ויש סיכון להוספת בעיות חדשות של צדק אם מדד הדמיון לא כולל מידע חשוב (למשל, רמת הקושי של תוכנית הלימודים של התלמיד או התלמידה).

במאמר 'הגינות באמצעות מודעוּת' מפורטת דיון מעמיק יותר בנושא הוגנות ברמת הפרט.

רווח מידע

#df
#Metric

ביערות החלטות, ההפרש בין האנטרופי של צומת לבין הסכום המשוקלל (לפי מספר הדוגמאות) של האנטרופיה של צומתי הצאצאים שלו. האנטרופיה של צומת היא האנטרופיה של הדוגמאות בצומת הזה.

לדוגמה, אלה ערכי האנטרופיה הבאים:

  • האנטרופיה של צומת ההורה = 0.6
  • האנטרופיה של צומת צאצא אחד עם 16 דוגמאות רלוונטיות = 0.2
  • האנטרופיה של צומת צאצא אחר עם 24 דוגמאות רלוונטיות = 0.1

כלומר, 40% מהדוגמאות נמצאות בצומת צאצא אחד ו-60% נמצאות בצומת הצאצא השני. לכן:

  • סכום האנטרופיה המשוקל של צומתי הצאצאים = (0.4 * 0.2) + (0.6 * 0.1) = 0.14

לכן, הרווח המידעי הוא:

  • רווח מידע = אנטרופיה של צומת הורה - סכום אנטרופיה משוקלל של צמתים צאצאים
  • רווח המידע = 0.6 - 0.14 = 0.46

רוב המחלקים מנסים ליצור תנאים שממקסמים את הרווח המידעי.

הסכמה בין בודקים

#Metric

מדד של התדירות שבה בודקים אנושיים מסכימים כשהם מבצעים משימה. אם הדעות של הבודקים חלוקות, יכול להיות שצריך לשפר את הוראות המשימה. המדד הזה נקרא לפעמים גם הסכמה בין כותבי התווית או מהימנות בין בודקים. אפשר לעיין גם בקאפה של כהן, אחד המדדים הפופולריים ביותר למדידת הסכמה בין בודקים.

למידע נוסף, ראו נתונים קטגוריאליים: בעיות נפוצות בקורס המקוצר על למידת מכונה.

L

אובדן L1

#fundamentals
#Metric

פונקציית אובדן שמחשבת את הערך המוחלט של ההפרש בין הערכים בפועל של התוויות לבין הערכים שהמודל צופה. לדוגמה, זהו החישוב של אובדן L1 בקבוצה של חמש דוגמאות:

הערך בפועל של הדוגמה הערך הצפוי של המודל הערך המוחלט של הדלתה
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = אובדן L1

אובדן L1 פחות רגיש לערכים חריגים מאשר אובדן L2.

השגיאה הממוצעת המוחלטת היא אובדן L1 הממוצע לכל דוגמה.

L1loss=i=0n|yiy^i|

כאשר:
  • n הוא מספר הדוגמאות.
  • הערך בפועל של התווית הוא y.
  • הערך ש-y^ מנבא ל-y.

למידע נוסף, אפשר לעיין בקטע רגרסיה לינארית: אובדן (loss) במדריך למתחילים בנושא למידת מכונה.

אובדן L2

#fundamentals
#Metric

פונקציית אובדן שמחשבת את הריבוע של ההפרש בין הערכים בפועל של התוויות לבין הערכים שהמודל צופה. לדוגמה, זהו החישוב של אובדן L2 בקבוצה של חמש דוגמאות:

הערך בפועל של הדוגמה הערך הצפוי של המודל ריבוע הדלתא
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
  16 = הפסד ב-L2

בגלל הריבועים, אובדן L2 מגביר את ההשפעה של ערכים חריגים. כלומר, אובדן L2 מגיב בצורה חזקה יותר לחיזויים גרועים מאשר אובדן L1. לדוגמה, האובדן ב-L1 של האצווה הקודמת יהיה 8 במקום 16. שימו לב שערכה חריגה אחת מהווה 9 מתוך 16 הערכים.

במודלים של רגרסיה נעשה בדרך כלל שימוש בפונקציית ההפסד L2.

השגיאה הריבובית הממוצעת היא אובדן L2 הממוצע לכל דוגמה. Squared loss הוא שם נוסף ל-L2 loss.

L2loss=i=0n(yiy^i)2

כאשר:
  • n הוא מספר הדוגמאות.
  • הערך בפועל של התווית הוא y.
  • הערך ש-y^ מנבא ל-y.

מידע נוסף זמין בקטע Logistic regression: Loss and regulation במדריך למתחילים בנושא למידת מכונה.

הערכות של LLM (evals)

#language
#generativeAI
#Metric

קבוצה של מדדים ואמות מידה להערכת הביצועים של מודלים גדולים של שפה (LLMs). ברמת העל, הערכות LLM:

  • לעזור לחוקרים לזהות תחומים שבהם יש צורך בשיפור של LLM.
  • שימושיים להשוואה בין מודלים שונים של LLM ולזיהוי המודל הטוב ביותר למשימות מסוימות.
  • עוזרים לוודא שהשימוש ב-LLMs בטוח ואתי.

למידע נוסף, אפשר לקרוא את המאמר מודלים גדולים של שפה (LLMs) בקורס המקוצר על למידת מכונה.

אובדן

#fundamentals
#Metric

במהלך האימון של מודל בפיקוח, מדד למרחק בין התחזית של המודל לבין התווית שלו.

פונקציית אובדן מחשבת את האובדן.

מידע נוסף זמין בקטע רגרסיה לינארית: אובדן (loss) במדריך למתחילים בנושא למידת מכונה.

פונקציית אובדן

#fundamentals
#Metric

במהלך האימון או הבדיקה, פונקציה מתמטית שמחשבת את האובדן בקבוצה של דוגמאות. פונקציית אובדן מחזירה אובדן נמוך יותר במודלים שמפיקים תחזיות טובות, בהשוואה למודלים שמפיקים תחזיות גרועות.

מטרת האימון היא בדרך כלל למזער את האובדן שפונקציית האובדן מחזירה.

יש סוגים רבים של פונקציות אובדן. בוחרים את פונקציית האובדן המתאימה לסוג המודל שאתם יוצרים. לדוגמה:

M

טעות ממוצעת (MAE)

#Metric

האובדן הממוצע לכל דוגמה כשנעשה שימוש באובדן L1. מחשבים את שגיאת שור (MAE) באופן הבא:

  1. חישוב האובדן מסוג L1 של קבוצה.
  2. מחלקים את האובדן L1 במספר הדוגמאות באצווה.

Mean Absolute Error=1ni=0n|yiy^i|

כאשר:

  • n הוא מספר הדוגמאות.
  • הערך בפועל של התווית הוא y.
  • הערך ש-y^ מנבא ל-y.

לדוגמה, נבחן את החישוב של אובדן L1 על קבוצת חמישה דוגמאות הבאה:

הערך בפועל של הדוגמה הערך הצפוי של המודל אובדן (ההבדל בין הערך בפועל לבין הערך הצפוי)
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = אובדן L1

לכן, אובדן L1 הוא 8 ומספר הדוגמאות הוא 5. לכן, הטעות הממוצעת המוחלטת היא:

Mean Absolute Error = L1 loss / Number of Examples
Mean Absolute Error = 8/5 = 1.6

ניגודיות בין הטעות הממוצעת המוחלטת לבין השגיאה הריבובית הממוצעת והשגיאה הריבובית הממוצעת השורשית.

דיוק ממוצע ממוצע ב-k (mAP@k)

#language
#generativeAI
#Metric

הממוצע הסטטיסטי של כל הציונים של דיוק ממוצע ב-k במערך נתונים לצורכי אימות. אחת מהשימושים של רמת הדיוק הממוצעת הממוצעת ב-k היא להעריך את איכות ההמלצות שנוצרות על ידי מערכת המלצות.

למרות שהביטוי 'ממוצע ממוצע' נשמע מיותר, השם של המדד מתאים. אחרי הכל, המדד הזה מחשב את הממוצע של כמה ערכים של רמת דיוק ממוצעת ב-k.

נניח שאתם יוצרים מערכת המלצות שיוצרת רשימה מותאמת אישית של רומנים מומלצים לכל משתמש. על סמך משוב ממשתמשים נבחרים, מחשבים את חמש רמות הדיוק הממוצעות הבאות ב-k ציונים (ציון אחד לכל משתמש):

  • 0.73
  • 0.77
  • 0.67
  • 0.82
  • 0.76

לכן, הדיוק הממוצע הממוצע ב-K הוא:

mean =0.73 + 0.77 + 0.67 + 0.82 + 0.765=0.75

טעות ריבועית ממוצעת (MSE)

#Metric

האובדן הממוצע לכל דוגמה כשמשתמשים באובדן L2. מחשבים את הטעות הריבובית הממוצעת באופן הבא:

  1. חישוב אובדן L2 של קבוצה.
  2. מחלקים את האובדן L2 במספר הדוגמאות בקבוצה.
Mean Squared Error=1ni=0n(yiy^i)2
כאשר:
  • n הוא מספר הדוגמאות.
  • הערך בפועל של התווית הוא y.
  • הערך ‎y^ הוא החיזוי של המודל עבור הערך ‎ y.

לדוגמה, נניח שמדובר באובדן בקבוצה הבאה של חמש דוגמאות:

ערך בפועל החיזוי של המודל הפסד Squared loss
7 6 1 1
5 4 1 1
8 11 3 9
4 6 2 4
9 8 1 1
16 = הפסד ב-L2

לכן, הטעות הריבובית הממוצעת היא:

Mean Squared Error = L2 loss / Number of Examples
Mean Squared Error = 16/5 = 3.2

טעות ריבועית ממוצעת היא אופטימיזטור פופולרי של אימון, במיוחד לרגרסיה לינארית.

ניגוד בין הטעות הריבובית הממוצעת לבין השגיאה המוחלטת הממוצעת והשורש של הטעות הריבובית הממוצעת.

ב-TensorFlow Playground נעשה שימוש ב-Mean Squared Error כדי לחשב את ערכי האובדן.

ערכים חריגים משפיעים מאוד על הטעות הריבובית הממוצעת. לדוגמה, אובדן של 1 הוא אובדן בריבוע של 1, אבל אובדן של 3 הוא אובדן בריבוע של 9. בטבלה הקודמת, הדוגמה עם אובדן של 3 משתנים מהווה כ-56% מהשגיאה הממוצעת הריבובית, בעוד שכל אחת מהדוגמאות עם אובדן של משתנה אחד מהווה רק 6% מהשגיאה הממוצעת הריבובית.

ערכים חריגים לא משפיעים על הטעות הממוצעת המוחלטת באותה מידה שהם משפיעים על הטעות הריבובית הממוצעת. לדוגמה, אובדן של 3 חשבונות שתורם רק ל-38% בערך מהשגיאה הממוצעת המוחלטת.

חיתוך הוא אחת מהדרכים למנוע מחריגים קיצוניים לפגוע ביכולת החיזוי של המודל.


ערך

#TensorFlow
#Metric

נתון סטטיסטי שחשוב לכם.

יעד הוא מדד שמערכת למידת המכונה מנסה לבצע אופטימיזציה שלו.

Metrics API‏ (tf.metrics)

#Metric

ממשק API של TensorFlow לבדיקת מודלים. לדוגמה, הערך של tf.metrics.accuracy קובע באיזו תדירות התחזיות של מודל תואמות לתוויות.

אובדן מינימלי מקסימלי

#Metric

פונקציית אובדן לרשתות יריבות גנרטיביות, שמבוססת על האנטרופי החוצה בין התפלגות הנתונים שנוצרו לבין הנתונים האמיתיים.

אובדן Minimax משמש במאמר הראשון כדי לתאר רשתות יריבות גנרטיביות.

מידע נוסף זמין בקטע פונקציות אובדן בקורס Generative Adversarial Networks.

קיבולת המודל

#Metric

המורכבות של הבעיות שהמודל יכול ללמוד. ככל שהבעיות שהמודל יכול ללמוד הן מורכבות יותר, כך הקיבולת של המודל גבוהה יותר. בדרך כלל, הקיבולת של מודל עולה ככל שמספר הפרמטרים שלו עולה. להגדרה הרשמית של קיבולת הסיווג, ראו מאפיין VC.

לא

סיווג שלילי

#fundamentals
#Metric

בסיווג בינארי, סיווג אחד נקרא חיובי והסיווג השני נקרא שלילי. המחלקה החיובית היא הדבר או האירוע שהמודל בודק, והמחלקה השלילית היא האפשרות השנייה. לדוגמה:

  • הכיתה השלילית בבדיקות רפואיות עשויה להיות 'לא גידול'.
  • הכיתה השלילית בסיווג אימיילים עשויה להיות 'לא ספאם'.

בניגוד לכיתה חיובית.

O

יעד

#Metric

מדד שהאלגוריתם מנסה לבצע אופטימיזציה שלו.

פונקציית היעד

#Metric

הנוסחה המתמטית או המדד שהמודל שואף לבצע אופטימיזציה עבורם. לדוגמה, פונקציית היעד של רגרסיה לינארית היא בדרך כלל אובדן ממוצע ריבועים. לכן, כשמאמנים מודל של רגרסיה לינארית, המטרה של האימון היא למזער את אובדן הריבוע הממוצע.

במקרים מסוימים, המטרה היא למקסם את פונקציית היעד. לדוגמה, אם פונקציית היעד היא דיוק, היעד הוא למקסם את הדיוק.

מידע נוסף זמין במאמר אובדן.

P

pass at k‏ (pass@k)

#Metric

מדד לקביעת איכות הקוד (לדוגמה, Python) שנוצר על ידי מודל שפה גדול. באופן ספציפי יותר, הערך pass at k מראה את הסבירות לכך שלפחות בלוק קוד אחד מתוך k בלוקים של קוד שנוצרו יעבור את כל בדיקות היחידה שלו.

לרוב, מודלים גדולים של שפה מתקשים ליצור קוד טוב לבעיות תכנות מורכבות. מהנדסי התוכנה מתמודדים עם הבעיה הזו על ידי בקשה מהמודל הגדול של השפה ליצור מספר (k) פתרונות לאותה בעיה. לאחר מכן, מהנדסי התוכנה בודקים כל אחד מהפתרונות באמצעות בדיקות יחידה. החישוב של 'הצלחה ב-k' תלוי בתוצאה של בדיקות היחידה:

  • אם פתרון אחד או יותר עובר את בדיקת היחידה, ה-LLM עובר את האתגר של יצירת הקוד.
  • אם אף אחד מהפתרונות לא עובר את בדיקת היחידה, ה-LLM נכשל באתגר יצירת הקוד.

הנוסחה לעבור ב-k היא:

pass at k=total number of passestotal number of challenges

באופן כללי, ככל שהערך של k גבוה יותר, כך ציון ה-pass ב-k גבוה יותר. עם זאת, ככל שהערך של k גבוה יותר, כך נדרשים יותר משאבים של מודלים גדולים של שפה ובדיקות יחידה.

נניח שמהנדס תוכנה מבקש ממודל שפה גדול ליצור k=10 פתרונות ל-n=50 בעיות תכנות מאתגרות. אלה התוצאות:

  • 30 כרטיסים
  • 20 כשלונות

לכן, הציון העובר ב-10 הוא:

pass at 10=3050=0.6

ביצועים

#Metric

מונח עם עומס יתר, עם המשמעויות הבאות:

  • המשמעות הרגילה בהנדסת תוכנה. כלומר: עד כמה התוכנה הזו פועלת במהירות (או ביעילות)?
  • המשמעות בלמידת מכונה. כאן, הביצועים עונים על השאלה הבאה: עד כמה המודל הזה מדויק? כלומר, מה רמת הדיוק של התחזיות של המודל?

רמות החשיבות של משתני תמורה

#df
#Metric

סוג של חשיבות משתנה שמאפשר להעריך את העלייה בשגיאת החיזוי של מודל אחרי שינוי הסדר של הערכים של המאפיין. המדד 'חשיבות משתנה המַפְרִין' הוא מדד שאינו תלוי במודל.

בלבול

#Metric

מדד אחד של מידת היעילות שבה מודל ממלא את המשימה שלו. לדוגמה, נניח שהמשימה שלכם היא לקרוא את האותיות הראשונות של מילה שהמשתמש מקליד במקלדת הטלפון, ולהציע רשימה של מילים אפשריות להשלמה. הערך של Perplexity‏, P, במשימה הזו הוא בערך מספר ההשערות שצריך להציע כדי שהרשימה תכיל את המילה בפועל שהמשתמש מנסה להקליד.

הבלבול קשור לאנtropy חוצה באופן הבא:

P=2cross entropy

מחלקה חיובית

#fundamentals
#Metric

הכיתה שאליה אתם בודקים את התלמידים.

לדוגמה, הכיתה החיובית בדגם של סרטן עשויה להיות 'גידול'. הכיתה החיובית בסיווג אימיילים עשויה להיות 'ספאם'.

בניגוד לכיתה שלילית.

המונח כיתה חיובית עלול לבלבל, כי התוצאה 'חיובית' בבדיקות רבות היא לרוב תוצאה לא רצויה. לדוגמה, הכיתה החיובית בבדיקות רפואיות רבות תואמת לגידולים או למחלות. באופן כללי, אתם רוצים שהרופא יגיד לכם: "מזל טוב! תוצאות הבדיקה שלך היו שליליות". עם זאת, הכיתה החיובית היא האירוע שהבדיקה מנסה למצוא.

אמנם, אתם בודקים בו-זמנית גם את הכיתות החיוביות וגם את הכיתות השליליות.


AUC של יחסי ציבור (השטח מתחת לעקומת יחסי הציבור)

#Metric

האזור מתחת לעקומת הדיוק-הזיהוי שעבר אינטרפולציה, שנוצר על ידי הצגה גרפית של הנקודות (זיהוי, דיוק) לערכים שונים של סף הסיווג.

דיוק

#Metric

מדד למודלים של סיווג שמשיב על השאלה הבאה:

כשהמודל חזה את הקלאס החיובי, מהו אחוז התחזיות שהיו נכונות?

זו הנוסחה:

Precision=true positivestrue positives+false positives

כאשר:

  • 'חיובי נכון' פירושו שהמודל חזה בצורה נכונה את הכיתה החיובית.
  • תוצאה חיובית שגויה פירושה שהמודל בטעות חזה את הכיתה החיובית.

לדוגמה, נניח שהמודל נתן 200 תחזיות חיוביות. מתוך 200 התחזיות החיוביות האלה:

  • 150 היו תוצאות חיוביות אמיתיות.
  • 50 מהן היו תוצאות חיוביות כוזבות.

במקרה זה:

Precision=150150+50=0.75

בניגוד לדיוק ולזיהוי.

למידע נוסף, ראו סיווג: דיוק, זיכרון, רמת דיוק ומדדים קשורים במדריך למתחילים בנושא למידת מכונה.

דיוק ברמה k (precision@k)

#language
#Metric

מדד להערכת רשימה של פריטים (מסודרת) לפי דירוג. הדיוק ב-k מתייחס לחלק מהפריטים הראשונים ברשימה (k) שהם 'רלוונטיים'. כלומר:

precision at k=relevant items in first k items of the listk

הערך של k חייב להיות קטן או שווה לאורך הרשימה שמוחזרת. שימו לב שאורך הרשימה שמוחזרת לא נכלל בחישוב.

הרלוונטיות היא לרוב סובייקטיבית, וגם בודקים אנושיים מומחים לא תמיד מסכימים על הפריטים הרלוונטיים.

השווה ל:

נניח שמודל שפה גדול מקבל את השאילתה הבאה:

List the 6 funniest movies of all time in order.

ומודל השפה הגדול מחזיר את הרשימה שמופיעה בשתי העמודות הראשונות בטבלה הבאה:

מיקום סרט רלוונטי?
1 The General כן
2 Mean Girls כן
3 Platoon לא
4 שושבינות כן
5 Citizen Kane לא
6 This is Spinal Tap כן

שניים משלושת הסרטים הראשונים רלוונטיים, כך שדיוק ברמה 3 הוא:

precision at 3=23=0.67

ארבעה מתוך חמשת הסרטים הראשונים מצחיקים מאוד, כך שהדיוק ברמת 5 הוא:

precision at 5=45=0.8

עקומת דיוק-זיהוי

#Metric

עקומה של דיוק לעומת זיהוי בסף סיווג שונה.

הטיה בתחזית

#Metric

ערך שמציין את המרחק בין הממוצע של התחזיות לבין הממוצע של התוויות במערך הנתונים.

חשוב לא להתבלבל עם המונח 'הטיה' במודלים של למידת מכונה, או עם הטיה מבחינה אתית וצודקת.

תאימות חזוי

#fairness
#Metric

מדד הוגנות שבודק אם, למסווג נתון, שיעורי הדיוק זהים בקבוצות המשנה שנבדקות.

לדוגמה, מודל שמתבסס על נתונים היסטוריים כדי לחזות את הסיכוי להתקבל לקולג' יעמוד בקריטריון של שוויון חיזוי לפי לאום אם שיעור הדיוק שלו זהה לזה של נתונים היסטוריים לגבי סטודנטים ממדינות שונות.

'התאמה חזותית חזותית' נקראת לפעמים גם התאמה חזותית חזותית.

לסקירה מפורטת יותר על שוויון חיזוי, אפשר לעיין בקטע הסבר על הגדרות של הוגנות (סעיף 3.2.1).

שיעור חליפין חזוי

#fairness
#Metric

שם נוסף להתאמה חזוי.

פונקציית צפיפות ההסתברות

#Metric

פונקציה שמזהה את התדירות של דגימות נתונים שיש להן בדיוק ערך מסוים. כשהערכים של מערך נתונים הם מספרים רציפים של נקודה צפה, התאמות מדויקות מתרחשות לעיתים רחוקות. עם זאת, אינטגרציה של פונקציית צפיפות ההסתברות מהערך x לערך y מניבה את התדירות הצפויה של דגימות הנתונים בין x ל-y.

לדוגמה, נניח התפלגות נורמלית עם ממוצע של 200 וסטיית תקן של 30. כדי לקבוע את התדירות הצפויה של דגימות נתונים שנמצאות בטווח 211.4 עד 218.7, אפשר לשלב את פונקציית הצפיפות של ההסתברות להתפלגות נורמלית מ-211.4 עד 218.7.

R

recall

#Metric

מדד למודלים של סיווג שמשיב על השאלה הבאה:

כשהעובדות האמיתיות היו הקלאס החיובי, מהו אחוז התחזיות שהמודל זיהה כקלאס החיובי בצורה נכונה?

זו הנוסחה:

Recall=true positivestrue positives+false negatives

כאשר:

  • 'חיובי נכון' פירושו שהמודל חזה בצורה נכונה את הכיתה החיובית.
  • תוצאה שלילית שגויה (false negative) פירושה שהמודל בטעות חזה את הקטגוריה השלילית.

לדוגמה, נניח שהמודל שלכם ביצע 200 תחזיות לגבי דוגמאות שבהן האמת בפועל הייתה הכיתה החיובית. מתוך 200 התחזיות האלה:

  • 180 מהן היו תוצאות חיוביות אמיתיות.
  • 20 מהן היו תוצאות שליליות שגויות.

במקרה זה:

Recall=180180+20=0.9

המדד שימושי במיוחד לקביעת עוצמת החיזוי של מודלים של סיווג שבהם הכיתה החיובית נדירה. לדוגמה, נניח שיש מערך נתונים עם חוסר איזון בין הקטגוריות, שבו רק 10 מתוך מיליון חולים נמצאים בקטגוריה החיובית של מחלה מסוימת. נניח שהמודל שלכם מניב חמש מיליון תחזיות שמניבות את התוצאות הבאות:

  • 30 תוצאות חיוביות אמיתיות
  • 20 תוצאות שליליות שגויות
  • 4,999,000 תוצאות שליליות אמיתיות
  • 950 תוצאות חיוביות כוזבות

לכן, החזרה של המודל הזה היא:

recall = TP / (TP + FN)
recall = 30 / (30 + 20) = 0.6 = 60%
לעומת זאת, הדיוק של המודל הזה הוא:
accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (30 + 4,999,000) / (30 + 4,999,000 + 950 + 20) = 99.98%

הערך הגבוה של הדיוק נראה מרשים, אבל הוא לא בעל משמעות מהותית. המדד 'החזר' הוא מדד שימושי הרבה יותר מ'דיוק' כשמדובר בקבוצות נתונים עם חוסר איזון בין הכיתות.


מידע נוסף זמין במאמר סיווג: דיוק, זיכרון, רמת דיוק ומדדים קשורים.

recall at k‏ (recall@k)

#language
#Metric

מדד להערכת מערכות שמפיקות רשימה של פריטים (מסודרת) לפי דירוג. החזרה ב-k מזהה את החלק היחסי של הפריטים הרלוונטיים ב-k הפריטים הראשונים ברשימה הזו, מתוך המספר הכולל של הפריטים הרלוונטיים שהוחזרו.

recall at k=relevant items in first k items of the listtotal number of relevant items in the list

בניגוד לדיוק ברמה k.

נניח שמודל שפה גדול מקבל את השאילתה הבאה:

List the 10 funniest movies of all time in order.

ומודל השפה הגדול מחזיר את הרשימה שמוצגת בשתי העמודות הראשונות:

מיקום סרט רלוונטי?
1 The General כן
2 Mean Girls כן
3 Platoon לא
4 שושבינות כן
5 This is Spinal Tap כן
6 מטוס! כן
7 יום המרמיטה כן
8 Monty Python and the Holy Grailכן
9 אופנהיימר לא
10 Clueless כן

שמונה מהסרטים ברשימה הקודמת מצחיקים מאוד, ולכן הם נחשבים ל'פריטים רלוונטיים ברשימה'. לכן, 8 יהיה המכנה בכל החישובים של אחזור ב-k. מה קורה עם המונה? 3 מתוך 4 הפריטים הראשונים רלוונטיים, כך שהזיכרון ב-4 הוא:

recall at 4=38=0.375

7 מתוך 8 הסרטים הראשונים מצחיקים מאוד, כך שהזיכרון ב-8 הוא:

recall at 8=78=0.875

עקומת ROC (מאפיין הפעלה של מקלט)

#fundamentals
#Metric

תרשים של שיעור תוצאות חיוביות אמיתיות לעומת שיעור תוצאות חיוביות שקריות לסף סיווג שונה בסיווג בינארי.

הצורה של עקומת ROC מצביעה על היכולת של מודל סיווג בינארי להפריד בין כיתות חיוביות לכיתות שליליות. נניח, לדוגמה, שמודל סיווג בינארי מפריד בצורה מושלמת בין כל הכיתות השליליות לכל הכיתות החיוביות:

קו מספרים עם 8 דוגמאות חיוביות בצד שמאל ו-7 דוגמאות שליליות בצד ימין.

עקומת ROC של המודל הקודם נראית כך:

עקומת ROC. ציר ה-X מייצג את שיעור התוצאות החיוביות הכוזבות וציר ה-Y מייצג את שיעור התוצאות החיוביות האמיתיות. לקו העקומה יש צורה של L הפוך. העקומה מתחילה ב-(0.0,0.0) ועולה ישר ל-(0.0,1.0). לאחר מכן, העקומה עוברת מ-(0.0,1.0) ל-(1.0,1.0).

לעומת זאת, באיור הבא מוצגים בתרשים הערכים הגולמיים של רגרסיה לוגיסטית של מודל גרוע שלא מצליח להפריד בכלל בין כיתות שליליות לכיתות חיוביות:

קו מספרים עם דוגמאות חיוביות וקטגוריות שליליות שמעורבבות זו בזו.

עקומת ה-ROC של המודל הזה נראית כך:

עקומת ROC, שהיא למעשה קו ישר מ-(0.0,0.0)
          ל-(1.0,1.0).

בינתיים, בעולם האמיתי, רוב המודלים של סיווג בינארי מפרידים בין כיתות חיוביות ושליליות במידה מסוימת, אבל בדרך כלל לא באופן מושלם. לכן, עקומת ROC אופיינית נמצאת איפשהו בין שתי הקיצוניות:

עקומת ROC. ציר ה-X מייצג את שיעור התוצאות החיוביות הכוזבות וציר ה-Y מייצג את שיעור התוצאות החיוביות האמיתיות. עקומת ה-ROC היא מעין קשת רועדת שעוברת על נקודות המצפן ממערב לצפון.

הנקודה בגרף ROC הקרובה ביותר ל-(0.0,1.0) מזהה באופן תיאורטי את סף הסיווג האידיאלי. עם זאת, יש כמה בעיות אחרות בעולם האמיתי שמשפיעות על הבחירה של סף הסיווג האידיאלי. לדוגמה, יכול להיות שתוצאות שליליות כוזבות גורמות ליותר נזק מאשר תוצאות חיוביות כוזבות.

מדד מספרי שנקרא AUC מסכם את עקומת ROC בערך יחיד של נקודה צפה.

שורש טעות ריבועית ממוצעת (RMSE)

#fundamentals
#Metric

השורש הריבועי של השגיאה הריבובית הממוצעת.

ROUGE (Recall-Oriented Understudy for Gisting Evaluation)

#language
#Metric

משפחה של מדדים שמאפשרים להעריך סיכומים אוטומטיים ומודלים של תרגום מכונה. מדדי ROUGE קובעים את מידת החפיפה בין טקסט העזר לבין טקסט שנוצר על ידי מודל ה-ML. כל אחד מהמדדים במשפחת ROUGE חופף לקודם בצורה שונה. ככל שציוני ROUGE גבוהים יותר, כך יש דמיון גדול יותר בין טקסט העזרה לטקסט שנוצר, בהשוואה לציונים נמוכים יותר של ROUGE.

בדרך כלל, כל בן משפחה ב-ROUGE יוצר את המדדים הבאים:

  • דיוק
  • זכירות
  • F1

לפרטים ולדוגמאות, אפשר לעיין במאמרים הבאים:

ROUGE-L

#language
#Metric

משפחה של מדדי ROUGE שמתמקדת באורך של רצף המשנה המשותף הארוך ביותר בטקסט העזר ובטקסט שנוצר. הנוסחאות הבאות מחשבות את הרגישות והדיוק של ROUGE-L:

ROUGE-L recall=longest common sequencenumber of words in the reference text
ROUGE-L precision=longest common sequencenumber of words in the generated text

לאחר מכן אפשר להשתמש ב-F1 כדי לקבץ את הרגישות של ROUGE-L ואת הדיוק של ROUGE-L למדד אחד:

ROUGE-L F1=2ROUGE-L recallROUGE-L precisionROUGE-L recall+ROUGE-L precision
כדאי להביא בחשבון את הטקסט לדוגמה ואת הטקסט שנוצר.
קטגוריה מי הפיק? טקסט
טקסט עזר מתרגם אנושי אני רוצה להבין מגוון רחב של דברים.
הטקסט שנוצר מודל למידת מכונה אני רוצה ללמוד הרבה דברים.
לכן:
  • רצף המשנה הארוך ביותר הוא 5 (I want to of things)
  • מספר המילים בטקסט העזר הוא 9.
  • מספר המילים בטקסט שנוצר הוא 7.
כתוצאה מכך:
ROUGE-L recall=59=0.56
ROUGE-L precision=57=0.71
ROUGE-L F1=20.560.710.56+0.71=0.63

ה-ROUGE-L מתעלם מכל שורות חדשות בטקסט העזרה ובטקסט שנוצר, כך שרצף המשנה הארוך ביותר יכול לעבור על פני כמה משפטים. כשטקסט העזרה והטקסט שנוצר כוללים כמה משפטים, בדרך כלל מדד טוב יותר הוא וריאנט של ROUGE-L שנקרא ROUGE-Lsum. המדד ROUGE-Lsum קובע את רצף המשנה הארוך ביותר המשותף לכל משפט בפסקה, ולאחר מכן מחשב את הממוצע של רצפי המשנה הארוכים המשותפים האלה.

כדאי להביא בחשבון את הטקסט לדוגמה ואת הטקסט שנוצר.
קטגוריה מי הפיק? טקסט
טקסט עזר מתרגם אנושי פני השטח של מאדים יבשים. כמעט כל המים נמצאים עמוק מתחת לאדמה.
הטקסט שנוצר מודל למידת מכונה למאדים יש משטח יבש. עם זאת, רוב המים נמצאים מתחת לאדמה.
לכן:
המשפט הראשון המשפט השני
הרצף המשותף הארוך ביותר2 (מאדים יבש) 3 (המים נמצאים מתחת לאדמה)
אורך המשפט בטקסט העזר 6 7
אורך המשפט של הטקסט שנוצר 5 8
כתוצאה מכך:
recall of first sentence=26=0.33
recall of second sentence=37=0.43
ROUGE-Lsum recall=0.33+0.432=0.38
precision of first sentence=25=0.4
precision of second sentence=38=0.38
ROUGE-Lsum precision=0.4+0.382=0.39
ROUGE-Lsum F1=20.380.390.38+0.39=0.38

ROUGE-N

#language
#Metric

קבוצת מדדים במשפחת ROUGE שמשווים בין רצפי N-grams משותפים בגודל מסוים בטקסט העזר לבין טקסט שנוצר. לדוגמה:

  • ROUGE-1 מודד את מספר האסימונים המשותפים בטקסט העזר ובטקסט שנוצר.
  • ROUGE-2 מודד את מספר ביגרמים (2-גרמים) המשותפים בטקסט העזר ובטקסט שנוצר.
  • ROUGE-3 מודד את מספר טריגרמות (3-גראמים) המשותפות בטקסט העזר ובטקסט שנוצר.

אפשר להשתמש בנוסחאות הבאות כדי לחשב את רמת החזרה (recall) ו-ROUGE-N ואת רמת הדיוק (precision) של ROUGE-N לכל חבר במשפחת ROUGE-N:

ROUGE-N recall=number of matching N-gramsnumber of N-grams in the reference text
ROUGE-N precision=number of matching N-gramsnumber of N-grams in the generated text

לאחר מכן אפשר להשתמש ב-F1 כדי לקבץ את רמת החזרה (recall) של ROUGE-N ואת רמת הדיוק (precision) של ROUGE-N למדד אחד:

ROUGE-N F1=2ROUGE-N recallROUGE-N precisionROUGE-N recall+ROUGE-N precision
נניח שאתם מחליטים להשתמש ב-ROUGE-2 כדי למדוד את היעילות של תרגום של מודל למידת מכונה בהשוואה לתרגום של מתרגם אנושי.
קטגוריה מי הפיק? טקסט ביטויים שמורכבים משני מילים
טקסט עזר מתרגם אנושי אני רוצה להבין מגוון רחב של דברים. אני רוצה, רוצה, להבין, להבין, מגוון רחב, מגוון רחב, של, של דברים
הטקסט שנוצר מודל למידת מכונה אני רוצה ללמוד הרבה דברים. I want, want to, to learn, learn plenty, plenty of, of things
לכן:
  • מספר ה-2-גרמים התואמים הוא 3 (I want,‏ want to ו-of things).
  • מספר ה-2-גרמים בטקסט העזר הוא 8.
  • מספר ה-2-גרמים בטקסט שנוצר הוא 6.
כתוצאה מכך:
ROUGE-2 recall=38=0.375
ROUGE-2 precision=36=0.5
ROUGE-2 F1=20.3750.50.375+0.5=0.43

ROUGE-S

#language
#Metric

גרסה סלחנית של ROUGE-N שמאפשרת התאמה של skip-gram. כלומר, ב-ROUGE-N נספרות רק N-grams שתואמים בדיוק, אבל ב-ROUGE-S נספרות גם N-grams שמפרידות ביניהם מילה אחת או יותר. לדוגמה, שקול את הדברים הבאים:

כשמחשבים את ROUGE-N, ה-2-gram White clouds לא תואם ל-White billowing clouds. עם זאת, כשמחשבים את ROUGE-S, עננים לבנים תואם ל-עננים לבנים בוערים.

R בריבוע

#Metric

מדד רגרסיה שמציין את מידת השונות בתווית שנובעת מתכונה בודדת או מקבוצת תכונות. R-squared הוא ערך בין 0 ל-1, שאפשר לפרש באופן הבא:

  • אם הערך של R-squared הוא 0, המשמעות היא שאף אחד מהשינויים בתוויות לא נובע מקבוצת המאפיינים.
  • אם הערך של R-squared הוא 1, המשמעות היא שכל הווריאציה של התווית נובעת מקבוצת המאפיינים.
  • ערך R-squared בין 0 ל-1 מציין את מידת האפשרות לחזות את השונות של התווית מתכונה מסוימת או מקבוצת המאפיינים. לדוגמה, אם הערך של R-squared הוא 0.10, המשמעות היא ש-10% מהשונות בתווית נובעת מקבוצת המאפיינים. אם הערך של R-squared הוא 0.20, המשמעות היא ש-20% נובעים מקבוצת המאפיינים, וכן הלאה.

R-squared הוא הריבוע של מקדמי המתאם של Pearson בין הערכים שהמודל חזה לבין מקור המידע.

S

ציון

#recsystems
#Metric

החלק במערכת ההמלצות שמספק ערך או דירוג לכל פריט שנוצר בשלב יצירת המועמדים.

מדד דמיון

#clustering
#Metric

באלגוריתמים של קיבוץ, המדד שמשמש לקביעת מידת הדמיון בין שתי דוגמאות.

sparsity

#Metric

מספר הרכיבים שמוגדרים לאפס (או ל-null) בווקטור או במטריצה, חלקי מספר הרשומות הכולל בווקטור או במטריצה. לדוגמה, נניח שיש מטריצה עם 100 רכיבים, שבה 98 תאים מכילים אפס. כך מחושב הערך של הדלילות:

sparsity=98100=0.98

רזרבה של מאפיינים מתייחסת לרזרבה של וקטור מאפיינים, ורזרבה של מודל מתייחסת לרזרבה של משקלי המודל.

אובדן ציר ריבועית

#Metric

הריבוע של הפסד הציר. פונקציית Squared hinge loss מטילה עונשים חמורים יותר על ערכים חריגים מאשר פונקציית hinge loss רגילה.

אובדן בריבוע

#fundamentals
#Metric

מילה נרדפת ל-L2 loss.

T

אובדן נתונים בבדיקה

#fundamentals
#Metric

מדד שמייצג את האובדן של מודל ביחס לקבוצת הבדיקות. כשיוצרים מודל, בדרך כלל מנסים למזער את אובדן הבדיקה. הסיבה לכך היא שאובדן נמוך בבדיקה הוא אות איכות חזק יותר מאשר אובדן נמוך באימון או אובדן נמוך באימות.

לפעמים, פער גדול בין אובדן הבדיקה לאובדן האימון או לאובדן האימות מציין שצריך להגדיל את שיעור הרגיליזציה.

דיוק Top-K

#language
#Metric

אחוז הפעמים ש'תווית היעד' מופיעה ב-k המיקומים הראשונים ברשימות שנוצרו. הרשימות יכולות להיות המלצות בהתאמה אישית או רשימה של פריטים שממוינים לפי softmax.

הדיוק של Top-k נקרא גם דיוק ב-k.

נניח שמערכת למידת מכונה משתמשת ב-softmax כדי לזהות את הסבירויות של עצים על סמך תמונה של עלים של עצים. בטבלה הבאה מוצגות רשימות פלט שנוצרו מחמש תמונות של עצים שהוזנו. כל שורה מכילה תווית יעד ואת חמשת העצים הסבירים ביותר. לדוגמה, כשתווית היעד הייתה maple, מודל למידת המכונה זיהה את elm כעץ הסביר ביותר, את oak כעץ השני הסביר ביותר וכן הלאה.

תווית יעד 1 2 3 4 5
מייפל בוקיצה אלון maple אשור צפצפה
קרנית אלון dogwood צפצפה Hickory מייפל
אלון oak לבנה שדפון אלמון Linden
Linden מייפל paw-paw אלון לבנה צפצפה
אלון שדפון Linden oak מייפל paw-paw

תווית היעד מופיעה במיקום הראשון רק פעם אחת, ולכן הדיוק ב-Top-1 הוא:

top-1 accuracy=15=0.2

תווית היעד מופיעה באחת משלוש המיקומים המובילים ארבע פעמים, ולכן הדיוק ב-3 המיקומים המובילים הוא:

top-1 accuracy=45=0.8

תוכן רעיל

#language
#Metric

מידת הפגיעה, האיום או הפגיעה בתוכן. יש הרבה מודלים של למידת מכונה שיכולים לזהות ולמדוד תכנים רעילים. רוב המודלים האלה מזהים רעילות לפי כמה פרמטרים, כמו רמת השפה הפוגענית ורמת השפה המאיימת.

אובדן אימון

#fundamentals
#Metric

מדד שמייצג את האובדן של מודל במהלך מחזור אימון מסוים. לדוגמה, נניח שפונקציית ההפסד היא Mean Squared Error. יכול להיות שההפסד של האימון (השגיאה הממוצעת הריבונית) עבור האיטרציה ה-10 הוא 2.2, וההפסד של האימון עבור האיטרציה ה-100 הוא 1.9.

עקומת אובדן מציגה את אובדן האימון לעומת מספר החזרות. עקומת אובדן מספקת את הטיפים הבאים לגבי אימון:

  • שיפוע כלפי מטה מרמז שהמודל משתפר.
  • שיפוע כלפי מעלה מעיד על כך שהמודל הולך ומשתפר.
  • שיפוע שטוח מרמז שהמודל הגיע לערך קבוע.

לדוגמה, בעקומת ההפסדים האידיאלית במידה מסוימת מוצגים הפרטים הבאים:

  • שיפוע תלול כלפי מטה במהלך האיטרציות הראשוניות, שמצביע על שיפור מהיר של המודל.
  • שיפוע שמתיישר בהדרגה (אבל עדיין יורד) עד לקראת סוף האימון, מה שמצביע על שיפור מתמשך של המודל בקצב איטי יותר מאשר במחזורים הראשונים.
  • שיפוע שטוח לקראת סוף האימון, שמצביע על התקרבות.

התרשים של אובדן האימון לעומת איטרציות. עקומת ההפסד הזו מתחילה עם שיפוע תלול כלפי מטה. השיפוע נעשה שטוח יותר ויותר עד שהוא הופך לאפס.

אובדן האימון חשוב, אבל כדאי גם לעיין במאמר בנושא הכללה.

שלילי אמיתי (TN)

#fundamentals
#Metric

דוגמה שבה המודל מנבא מחלקה שלילית בצורה נכונה. לדוגמה, המודל מסיק שהודעת אימייל מסוימת היא לא ספאם, והודעת האימייל הזו אכן לא ספאם.

תוצאה חיובית נכונה (TP)

#fundamentals
#Metric

דוגמה שבה המודל חוזה מחלקה חיובית. לדוגמה, המודל מסיק שהודעת אימייל מסוימת היא ספאם, והודעת האימייל הזו אכן ספאם.

שיעור תוצאות חיוביות אמיתיות (TPR)

#fundamentals
#Metric

מילה נרדפת למשיכה. כלומר:

true positive rate=true positivestrue positives+false negatives

שיעור החיוביות האמיתי הוא ציר ה-y בעקומת ROC.

V

אובדן אימות

#fundamentals
#Metric

מדד שמייצג את האובדן של מודל בקבוצת האימות במהלך חזרה מסוימת של האימון.

אפשר לעיין גם במאמר הקו של הגנרליזציה.

מידת החשיבות של המשתנים

#df
#Metric

קבוצת ציונים שמציינת את החשיבות היחסית של כל מאפיין למודל.

לדוגמה, נניח שרוצים ליצור עץ החלטות שמעריך את מחירי הבתים. נניח שב-decision tree הזה נעשה שימוש בשלושה מאפיינים: גודל, גיל וסגנון. אם קבוצת החשיבות של המשתנים לשלושת המאפיינים מחושבת כ-{size=5.8, age=2.5, style=4.7}, המשמעות היא שהמאפיין size חשוב יותר לעץ ההחלטות מאשר age או style.

יש מדדים שונים של מידת החשיבות של המשתנים, שיכולים לספק למומחים ב-ML מידע על היבטים שונים של המודלים.

W

פונקציית אובדן Wasserstein

#Metric

אחת מפונקציות האובדן הנפוצות ברשתות יריבות גנרטיביות, שמבוססת על מרחק Earth Mover's בין התפלגות הנתונים שנוצרו לבין הנתונים האמיתיים.