דף זה תורגם על ידי Cloud Translation API.

מילון מונחים בנושא למידת מכונה: מדדים

בדף הזה מופיעים מונחים ממילון המונחים בנושא מדדים. כאן אפשר לראות את כל המונחים במילון המונחים.

A

דיוק

#fundamentals

#Metric

מספר התחזיות הנכונות של הסיווג חלקי המספר הכולל של התחזיות. כלומר:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

לדוגמה, למודל שביצע 40 חיזויים נכונים ו-10 חיזויים לא נכונים יהיה דיוק של:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

סיווג בינארי מספק שמות ספציפיים לקטגוריות השונות של תחזיות נכונות ותחזיות שגויות. לכן, הנוסחה לחישוב הדיוק בסיווג בינארי היא:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

where:‎

‫TP הוא מספר החיוביים האמיתיים (תחזיות נכונות).
‫TN הוא מספר השליליים האמיתיים (חיזויים נכונים).
‫FP הוא מספר החיוביים הכוזבים (תחזיות שגויות).
‫FN הוא מספר השליליים הכוזבים (תחזיות שגויות).

השוו בין דיוק לבין דיוק והחזרה.

כדי לקבל פרטים על רמת הדיוק ועל מערכי נתונים לא מאוזנים לפי סיווג, לוחצים על הסמל.

למרות שמדובר במדד חשוב במצבים מסוימים, המדד 'דיוק' עלול להטעות מאוד במצבים אחרים. חשוב לציין שדיוק הוא בדרך כלל מדד לא טוב להערכת מודלים של סיווג שמבצעים עיבוד של מערכי נתונים עם חוסר איזון בין המחלקות.

לדוגמה, נניח שבמאה שנה יורד שלג רק ב-25 ימים בעיר סובטרופית מסוימת. מכיוון שמספר הימים ללא שלג (הסיווג השלילי) גדול בהרבה ממספר הימים עם שלג (הסיווג החיובי), מערך הנתונים של השלג בעיר הזו הוא לא מאוזן. תארו לעצמכם מודל של סיווג בינארי שאמור לחזות אם יירד שלג בכל יום, אבל פשוט חוזה שלא יירד שלג בכל יום. המודל הזה מדויק מאוד, אבל אין לו יכולת חיזוי. בטבלה הבאה מסוכמות התוצאות של חיזויים למשך מאה שנה:

קטגוריה	מספר
TP	0
TN	36499
FP	0
FN	25

לכן, רמת הדיוק של המודל הזה היא:

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (0 + 36499) / (0 + 36499 + 0 + 25) = 0.9993 = 99.93%

למרות שרמת דיוק של 99.93% נראית מרשימה מאוד, למודל אין למעשה יכולת חיזוי.

דיוק ורגישות הם בדרך כלל מדדים שימושיים יותר מדיוק להערכת מודלים שאומנו על מערכי נתונים עם חוסר איזון בין המחלקות.

מידע נוסף זמין במאמר בנושא סיווג: דיוק, היזכרות, פרסיזיה ומדדים קשורים בסדנה ללמידת מכונה.

השטח מתחת לעקומת הדיוק וההחזרה

#Metric

מידע נוסף על PR AUC (השטח מתחת לעקומת ה-PR)

השטח מתחת לעקומת ה-ROC

#Metric

מידע נוסף על AUC (השטח מתחת לעקומת ROC)

AUC (השטח מתחת לעקומת ה-ROC)

#fundamentals

#Metric

מספר בין 0.0 ל-1.0 שמייצג את היכולת של מודל סיווג בינארי להפריד בין סיווגים חיוביים לבין סיווגים שליליים. ככל שערך ה-AUC קרוב יותר ל-1.0, כך יכולת המודל להפריד בין המחלקות טובה יותר.

לדוגמה, באיור הבא מוצג מודל סיווג שמפריד בצורה מושלמת בין מחלקות חיוביות (אליפסות ירוקות) לבין מחלקות שליליות (מלבנים סגולים). למודל המושלם הלא-מציאותי הזה יש AUC של 1.0:

קו מספרים עם 8 דוגמאות חיוביות בצד אחד ו-9 דוגמאות שליליות בצד השני.

לעומת זאת, באיור הבא מוצגות התוצאות של מודל סיווג שיצר תוצאות אקראיות. למודל הזה יש AUC של 0.5:

קו מספרים עם 6 דוגמאות חיוביות ו-6 דוגמאות שליליות.
רצף הדוגמאות הוא חיובי, שלילי,
חיובי, שלילי, חיובי, שלילי, חיובי, שלילי, חיובי
שלילי, חיובי, שלילי.

כן, למודל הקודם יש AUC של 0.5, ולא 0.0.

רוב הדגמים נמצאים איפשהו בין שני הקצוות. לדוגמה, המודל הבא מפריד בין ערכים חיוביים לשליליים במידה מסוימת, ולכן ערך ה-AUC שלו הוא בין 0.5 ל-1.0:

קו מספרים עם 6 דוגמאות חיוביות ו-6 דוגמאות שליליות.
רצף הדוגמאות הוא שלילי, שלילי, שלילי, שלילי,
חיובי, שלילי, חיובי, חיובי, שלילי, חיובי, חיובי,
חיובי.

המדד AUC מתעלם מכל ערך שתגדירו לסף הסיווג. במקום זאת, מדד ה-AUC מתייחס לכל ספי הסיווג האפשריים.

כדי לקבל מידע על הקשר בין AUC לבין עקומות ROC, לוחצים על הסמל.

הערך AUC מייצג את השטח מתחת לעקומת ROC. לדוגמה, עקומת ה-ROC של מודל שמפריד בצורה מושלמת בין ערכים חיוביים לערכים שליליים נראית כך:

ה-AUC הוא השטח של האזור האפור באיור שלמעלה. במקרה החריג הזה, השטח הוא פשוט אורך האזור האפור (1.0) כפול רוחב האזור האפור (1.0). לכן, המכפלה של 1.0 ו-1.0 היא 1.0 בדיוק, שהוא הציון הכי גבוה שאפשר לקבל ב-AUC.

לעומת זאת, עקומת ה-ROC של מודל סיווג שלא יכול להפריד בין מחלקות בכלל נראית כך. שטח האזור האפור הוא 0.5.

עקומת ROC אופיינית יותר נראית בערך כך:

חישוב השטח מתחת לעקומה הזו באופן ידני הוא תהליך מייגע, ולכן בדרך כלל תוכנה מחשבת את רוב ערכי ה-AUC.

אפשר ללחוץ על הסמל כדי לראות הגדרה רשמית יותר של AUC.

המדד AUC הוא ההסתברות שמודל סיווג יהיה בטוח יותר שדוגמה חיובית שנבחרה באופן אקראי היא חיובית, מאשר שדוגמה שלילית שנבחרה באופן אקראי היא חיובית.

מידע נוסף זמין במאמר בנושא סיווג: ROC ו-AUC בקורס המקוצר על למידת מכונה.

דיוק ממוצע ב-k

#Metric

מדד לסיכום הביצועים של מודל בהנחיה יחידה שמפיקה תוצאות מדורגות, כמו רשימה ממוספרת של המלצות לספרים. הדיוק הממוצע ב-k הוא, ובכן, הממוצע של ערכי הדיוק ב-k לכל תוצאה רלוונטית. לכן, הנוסחה לחישוב הדיוק הממוצע ב-k היא:

\[{\text{average precision at k}} = \frac{1}{n} \sum_{i=1}^n {\text{precision at k for each relevant item} } \]

where:‎

‫$n$ הוא מספר הפריטים הרלוונטיים ברשימה.

השוואה לrecall ב-k.

לוחצים על הסמל כדי לראות דוגמה

נניח שמודל שפה גדול מקבל את השאילתה הבאה:

List the 6 funniest movies of all time in order.

מודל השפה הגדול מחזיר את הרשימה הבאה:

הגנרל
Mean Girls
Platoon
שושבינות
האזרח קיין
This is Spinal Tap

ארבעה מהסרטים ברשימה שהוחזרה הם מאוד מצחיקים (כלומר, הם רלוונטיים), אבל שני סרטים הם דרמות (לא רלוונטיים). בטבלה הבאה מפורטות התוצאות:

מיקום	סרט	רלוונטי?	Precision at k
1	הגנרל	כן	1.0
2	Mean Girls	כן	1.0
3	Platoon	לא	לא רלוונטי
4	שושבינות	כן	0.75
5	האזרח קיין	לא	לא רלוונטי
6	This is Spinal Tap	כן	0.67

מספר התוצאות הרלוונטיות הוא 4. לכן, אפשר לחשב את הדיוק הממוצע ב-6 באופן הבא:

$${\text{average precision at 6}} = \frac{1}{4} {\text{(1.0 + 1.0 + 0.75 + 0.67)} } $$ $${\text{average precision at 6}} = {\text{~0.85} } $$

B

baseline

#Metric

מודל שמשמש כנקודת השוואה לביצועים של מודל אחר (בדרך כלל מודל מורכב יותר). לדוגמה, מודל רגרסיה לוגיסטית יכול לשמש כבסיס טוב למודל עמוק.

בבעיה מסוימת, נתוני הבסיס עוזרים למפתחי מודלים לכמת את הביצועים המינימליים הצפויים שמודל חדש צריך להשיג כדי שהוא יהיה שימושי.

C

עלות

#Metric

מילה נרדפת להפסד.

הוגנות קונטרה-פקטואלית

#responsible

#Metric

מדד הוגנות שבודק אם מודל סיווג מפיק את אותה תוצאה עבור אדם מסוים כמו עבור אדם אחר זהה, למעט מאפיינים רגישים מסוימים. הערכה של מודל סיווג מבחינת הוגנות קונטרה-פקטואלית היא שיטה אחת לזיהוי מקורות פוטנציאליים של הטיה במודל.

מידע נוסף זמין במאמרים הבאים:

הוגנות: הוגנות מנוגדת לעובדות בקורס המקוצר על למידת מכונה.
When Worlds Collide: Integrating Different Counterfactual Assumptions in Fairness

אנטרופיה צולבת

#Metric

הכללה של Log Loss לבעיות סיווג מרובות מחלקות. האנטרופיה הצולבת מכמתת את ההבדל בין שתי התפלגויות הסתברות. מידע נוסף זמין במאמר בנושא perplexity.

פונקציית התפלגות מצטברת (CDF)

#Metric

פונקציה שמגדירה את התדירות של דגימות שקטנות מערך יעד או שוות לו. לדוגמה, נניח שיש התפלגות נורמלית של ערכים רציפים. פונקציית CDF מראה שכ-50% מהדגימות צריכות להיות קטנות מהממוצע או שוות לו, וכ-84% מהדגימות צריכות להיות קטנות מהממוצע או שוות לו, בתוספת סטיית תקן אחת מעל הממוצע.

D

שוויון דמוגרפי

#responsible

#Metric

מדד הוגנות שמתקיים אם תוצאות הסיווג של המודל לא תלויות במאפיין רגיש נתון.

לדוגמה, אם גם אנשים מליליפוט וגם אנשים מברובדינגנאג מגישים בקשה להתקבל לאוניברסיטת גלובדובדריב, שוויון דמוגרפי מושג אם אחוז האנשים מליליפוט שהתקבלו זהה לאחוז האנשים מברובדינגנאג שהתקבלו, ללא קשר לשאלה אם קבוצה אחת מוסמכת יותר מהשנייה בממוצע.

ההגדרה הזו שונה מהשוואת סיכויים ושוויון הזדמנויות, שמאפשרות לתוצאות הסיווג הכוללות להיות תלויות במאפיינים רגישים, אבל לא מאפשרות לתוצאות הסיווג של תוויות אמת בסיסית מסוימות להיות תלויות במאפיינים רגישים. במאמר "Attacking discrimination with smarter machine learning" (התמודדות עם אפליה באמצעות למידת מכונה חכמה יותר) מוצג תרשים שממחיש את היתרונות והחסרונות של אופטימיזציה להשגת שוויון דמוגרפי.

מידע נוסף זמין במאמר בנושא הוגנות: שוויון דמוגרפי בקורס המקוצר על למידת מכונה.

E

מרחק בין תנועות של עפר (EMD)

#Metric

מדד לדמיון היחסי בין שתי התפלגויות. ככל שהמרחק בין התמונות קטן יותר, כך ההתפלגויות דומות יותר.

מרחק עריכה

#Metric

מדד של מידת הדמיון בין שתי מחרוזות טקסט. בלמידת מכונה, מרחק העריכה שימושי מהסיבות הבאות:

קל לחשב את מרחק העריכה.
מרחק העריכה יכול להשוות בין שתי מחרוזות שידוע שהן דומות זו לזו.
מרחק עריכה יכול לקבוע את מידת הדמיון בין מחרוזות שונות למחרוזת נתונה.

יש כמה הגדרות של מרחק עריכה, וכל אחת מהן משתמשת בפעולות שונות על מחרוזות. דוגמה מופיעה במאמר בנושא מרחק לבנשטיין.

פונקציית התפלגות מצטברת אמפירית (eCDF או EDF)

#Metric

פונקציית התפלגות מצטברת שמבוססת על מדידות אמפיריות ממערך נתונים אמיתי. הערך של הפונקציה בכל נקודה לאורך ציר ה-x הוא החלק של התצפיות במערך הנתונים שקטן מהערך שצוין או שווה לו.

אנטרופיה

#df

#Metric

ב תורת המידע, אנטרופיה היא מדד למידת חוסר הצפיות של התפלגות הסתברויות. לחלופין, אנטרופיה מוגדרת גם ככמות המידע שכל דוגמה מכילה. הפיזור הוא בעל האנטרופיה הגבוהה ביותר האפשרית כשכל הערכים של משתנה אקראי הם בעלי הסתברות שווה.

הנוסחה לחישוב האנטרופיה של קבוצה עם שני ערכים אפשריים, 0 ו-1 (לדוגמה, התוויות בבעיית סיווג בינארי), היא:

H = -p log p - q log q = -p log p - (1-p) * log (1-p)

where:‎

‫H היא האנטרופיה.
‫p הוא השבר של הדוגמאות '1'.
‫q הוא החלק של הדוגמאות עם הערך '0'. שימו לב: q = (1 - p)
log הוא בדרך כלל log₂. במקרה הזה, יחידת האנטרופיה היא ביט.

לדוגמה, נניח את הדברים הבאים:

‫100 דוגמאות מכילות את הערך '1'
‫300 דוגמאות מכילות את הערך '0'

לכן, ערך האנטרופיה הוא:

p = 0.25
q = 0.75
H = (-0.25)log₂(0.25) - (0.75)log₂(0.75) = 0.81 bits per example

קבוצה מאוזנת לחלוטין (לדוגמה, 200 ערכים של '0' ו-200 ערכים של '1') תהיה בעלת אנטרופיה של 1.0 ביט לכל דוגמה. ככל שקבוצה הופכת לא מאוזנת יותר, האנטרופיה שלה מתקרבת ל-0.0.

בעצי החלטה, האנטרופיה עוזרת לגבש רווח מידע כדי לעזור למפצל לבחור את התנאים במהלך הצמיחה של עץ החלטה לסיווג.

השוואת האנטרופיה עם:

מדד גיני לאי-טוהר
פונקציית האובדן cross-entropy

אנטרופיה נקראת לעיתים קרובות אנטרופיה של שאנון.

מידע נוסף זמין במאמר Exact splitter for binary classification with numerical features בקורס Decision Forests.

שוויון הזדמנויות

#responsible

#Metric

מדד הוגנות להערכת היכולת של מודל לחזות את התוצאה הרצויה באופן שווה לכל הערכים של מאפיין רגיש. במילים אחרות, אם התוצאה הרצויה של מודל היא הסיווג החיובי, המטרה היא ששיעור החיוביים האמיתיים יהיה זהה לכל הקבוצות.

שוויון הזדמנויות קשור לסיכויים שווים, שמשמעותו שגם שיעורי החיוביים האמיתיים וגם שיעורי החיוביים הכוזבים זהים בכל הקבוצות.

נניח שאוניברסיטת גלאבדאבדריב מקבלת לתוכנית לימודים קפדנית במתמטיקה גם ליליפוטים וגם ברובדינגנאגים. בתי הספר התיכוניים של ליליפוט מציעים תוכנית לימודים מקיפה של שיעורי מתמטיקה, ורוב התלמידים עומדים בדרישות של התוכנית האוניברסיטאית. בבתי הספר התיכוניים בברובדינגנאג לא מוצעים שיעורי מתמטיקה בכלל, ולכן הרבה פחות תלמידים עומדים בדרישות. הדרישה לשוויון הזדמנויות מתקיימת לגבי התווית המועדפת 'התקבל' בהקשר של לאום (ליליפוט או ברובדינגנאג) אם הסיכוי של תלמידים שעומדים בדרישות להתקבל הוא זהה, בלי קשר ללאום שלהם (ליליפוט או ברובדינגנאג).

לדוגמה, נניח ש-100 אנשים מליליפוט ו-100 אנשים מברובדינגנאג הגישו בקשה להתקבל לאוניברסיטת גלובדאבדריב, וההחלטות לגבי הקבלה מתקבלות באופן הבא:

טבלה 1. מועמדים קטנים (90% מהם עומדים בדרישות)

	כשירים	לא מתאים
התקבל	45	3
נדחה	45	7
סה"כ	90	10
אחוז הסטודנטים שעומדים בדרישות והתקבלו: 45/90 = 50% אחוז הסטודנטים שלא עומדים בדרישות ונדחו: 7/10 = 70% האחוז הכולל של סטודנטים מליליפוט שהתקבלו: (45+3)/100 = 48%

טבלה 2. מועמדים בברובדינגנאג (10% כשירים):

	כשירים	לא מתאים
התקבל	5	9
נדחה	5	81
סה"כ	10	90
אחוז הסטודנטים שעומדים בדרישות שהתקבלו: 5/10 = 50% אחוז הסטודנטים שלא עומדים בדרישות שנדחו: 81/90 = 90% אחוז הסטודנטים הכולל מברובדינגנאג שהתקבלו: (5+9)/100 = 14%

הדוגמאות הקודמות עומדות בדרישה לשוויון הזדמנויות לקבלה של תלמידים שעומדים בדרישות, כי גם לליליפוטים וגם לברובדינגנאגים שעומדים בדרישות יש סיכוי של 50% להתקבל.

למרות שמתקיימת שוויון הזדמנויות, שני מדדי ההוגנות הבאים לא מתקיימים:

שוויון דמוגרפי: שיעורי הקבלה של ליליפוטים ושל ברובדינגנאגים לאוניברסיטה שונים; 48% מהסטודנטים הליליפוטים מתקבלים, אבל רק 14% מהסטודנטים הברובדינגנאגים מתקבלים.
סיכויים שווים: לתלמידים זכאים מליליפוט ולתלמידים זכאים מברובדינגנאג יש סיכוי שווה להתקבל, אבל התנאי הנוסף שלפיו לתלמידים לא זכאים מליליפוט ולתלמידים לא זכאים מברובדינגנאג יש סיכוי שווה להידחות לא מתקיים. שיעור הדחייה של Lilliputians לא מוסמכים הוא 70%, לעומת 90% של Brobdingnagians לא מוסמכים.

מידע נוסף זמין במאמר הוגנות: שוויון הזדמנויות בקורס Machine Learning Crash Course.

הסתברות שווה

#responsible

#Metric

מדד הוגנות שנועד להעריך אם מודל חוזה תוצאות באותה רמת דיוק לכל הערכים של מאפיין רגיש ביחס לסיווג החיובי ולסיווג השלילי – ולא רק ביחס לסיווג אחד. במילים אחרות, גם שיעור החיוביים האמיתיים וגם שיעור השליליים הכוזבים צריכים להיות זהים בכל הקבוצות.

הסיכויים שווים קשורים לשוויון הזדמנויות, שמתמקד רק בשיעורי השגיאות עבור סיווג יחיד (חיובי או שלילי).

לדוגמה, נניח שאוניברסיטת גלאבדאבדריב מקבלת לתוכנית לימודים קפדנית במתמטיקה גם ליליפוטים וגם ברובדינגנאגים. בתי הספר התיכוניים של ליליפוט מציעים תוכנית לימודים מקיפה של שיעורי מתמטיקה, ורוב התלמידים עומדים בדרישות של התוכנית האוניברסיטאית. בבתי הספר התיכוניים בברובדינגנאג לא מוצעים שיעורי מתמטיקה בכלל, וכתוצאה מכך, הרבה פחות תלמידים עומדים בדרישות. הקריטריון של סיכויים שווים מתקיים אם לכל מועמד, לא משנה אם הוא ליליפוט או ברובדינגנאג, יש סיכוי שווה להתקבל לתוכנית אם הוא עומד בדרישות, וסיכוי שווה להידחות אם הוא לא עומד בדרישות.

נניח ש-100 אנשים מליליפוט ו-100 אנשים מברובדינגנאג הגישו בקשה להתקבל לאוניברסיטת גלובדאבדריב, וההחלטות לגבי הקבלה מתקבלות באופן הבא:

טבלה 3. מועמדים קטנים (90% מהם עומדים בדרישות)

	כשירים	לא מתאים
התקבל	45	2
נדחה	45	8
סה"כ	90	10
אחוז התלמידים שעומדים בדרישות והתקבלו: 45/90 = 50% אחוז התלמידים שלא עומדים בדרישות ונדחו: 8/10 = 80% האחוז הכולל של תלמידי ליליפוט שהתקבלו: (45+2)/100 = 47%

טבלה 4. מועמדים בברובדינגנאג (10% כשירים):

	כשירים	לא מתאים
התקבל	5	18
נדחה	5	72
סה"כ	10	90
אחוז הסטודנטים שעומדים בדרישות והתקבלו: 5/10 = 50% אחוז הסטודנטים שלא עומדים בדרישות ונדחו: 72/90 = 80% אחוז הסטודנטים הכולל מברובדינגנאג שהתקבלו: (5+18)/100 = 23%

התנאי של סיכויים שווים מתקיים כי לסטודנטים מתאימים מליליפוט ומברובדינגנאג יש סיכוי של 50% להתקבל, ולסטודנטים לא מתאימים מליליפוט ומברובדינגנאג יש סיכוי של 80% להידחות.

ההגדרה הפורמלית של סיכויים שווים מופיעה במאמר "Equality of Opportunity in Supervised Learning" (שוויון הזדמנויות בלמידה מפוקחת) באופן הבא: "הערך החזוי Ŷ מקיים סיכויים שווים ביחס לתכונה המוגנת A ולתוצאה Y אם Ŷ ו-A הם בלתי תלויים, בהינתן Y".

evals

#generativeAI

#Metric

המונח משמש בעיקר כקיצור להערכות של מודלים גדולים של שפה. באופן כללי, Evals הוא קיצור לכל סוג של הערכה.

הערכה

#generativeAI

#Metric

התהליך של מדידת האיכות של מודל או השוואה בין מודלים שונים.

כדי להעריך מודל של למידת מכונה מבוקרת, בדרך כלל משווים אותו לקבוצת אימות ולקבוצת בדיקה. הערכה של מודל שפה גדול כוללת בדרך כלל הערכות רחבות יותר של איכות ובטיחות.

F

F₁

#Metric

מדד סיווג בינארי מסכם שמסתמך על דיוק וגם על היזכרות. זו הנוסחה:

$$F{_1} = \frac{\text{2 * precision * recall}} {\text{precision + recall}}$$

כדי לראות דוגמאות, לוחצים על הסמל.

נניח שערכי הדיוק וההחזרה הם:

precision = 0.6
recall = 0.4

כך מחשבים את F₁:

$$F{_1} = \frac{\text{2 * 0.6 * 0.4}} {\text{0.6 + 0.4}} = 0.48$$

כשערכי הדיוק וההחזרה דומים למדי (כמו בדוגמה הקודמת), F₁ קרוב לממוצע שלהם. אם יש הבדל משמעותי בין הדיוק לבין ההחזרה, הערך של F₁ יהיה קרוב יותר לערך הנמוך. לדוגמה:

precision = 0.9
recall = 0.1

$$F{_1} = \frac{\text{2 * 0.9 * 0.1}} {\text{0.9 + 0.1}} = 0.18$$

מדד הוגנות

#responsible

#Metric

הגדרה מתמטית של 'הוגנות' שאפשר למדוד. דוגמאות למדדי הוגנות נפוצים:

equalized odds
שוויון חיזוי
הוגנות קונטרה-פקטואלית
שוויון דמוגרפי

הרבה מדדים של הוגנות הם בלעדיים הדדית. אפשר לעיין באי-התאמה של מדדים של הוגנות.

תוצאה שלילית שגויה (FN)

#fundamentals

#Metric

דוגמה שבה המודל מנבא בטעות את הסיווג השלילי. לדוגמה, המודל מנבא שהודעת אימייל מסוימת אינה ספאם (הסיווג השלילי), אבל הודעת האימייל הזו היא למעשה ספאם.

שיעור השליליים הכוזבים

#Metric

החלק היחסי של דוגמאות חיוביות אמיתיות שהמודל טעה לגביהן וחיזה את הסיווג השלילי. הנוסחה הבאה משמשת לחישוב שיעור התוצאות השליליות השגויות:

$$\text{false negative rate} = \frac{\text{false negatives}}{\text{false negatives} + \text{true positives}}$$

מידע נוסף זמין במאמר ערכי סף ומטריצת בלבול בקורס המקוצר על למידת מכונה.

תוצאה חיובית שגויה (FP)

#fundamentals

#Metric

דוגמה שבה המודל חוזה בטעות את הסיווג החיובי. לדוגמה, המודל חוזה שהודעת אימייל מסוימת היא ספאם (הסיווג החיובי), אבל הודעת האימייל הזו לא ספאם בפועל.

מידע נוסף זמין במאמר ערכי סף ומטריצת בלבול בקורס המקוצר על למידת מכונה.

שיעור התוצאות החיוביות השגויות (FPR)

#fundamentals

#Metric

השיעור של הדוגמאות השליליות בפועל שהמודל טעה בהן וחיזה את הסיווג החיובי. הנוסחה הבאה משמשת לחישוב שיעור התוצאות החיוביות השגויות:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

שיעור התוצאות החיוביות השגויות הוא ציר ה-x בעקומת ROC.

מידע נוסף זמין במאמר בנושא סיווג: ROC ו-AUC בקורס המקוצר על למידת מכונה.

חשיבות התכונות

#df

#Metric

מילה נרדפת למונח חשיבות משתנים.

מודל בסיס

#generativeAI

#Metric

מודל שעבר אימון מראש גדול מאוד שאומן על מערך אימונים עצום ומגוון. מודל בסיס יכול לבצע את שתי הפעולות הבאות:

להגיב בצורה טובה למגוון רחב של בקשות.
לשמש כמודל בסיסי לכוונון עדין נוסף או להתאמה אישית אחרת.

במילים אחרות, מודל בסיסי כבר מסוגל לבצע משימות רבות באופן כללי, אבל אפשר להתאים אותו אישית כדי שיהיה שימושי יותר למשימה ספציפית.

חלק ההצלחות

#generativeAI

#Metric

מדד להערכת הטקסט שנוצר על ידי מודל ML. המדד 'חלק ההצלחות' הוא מספר הפלט של הטקסט שנוצר בהצלחה חלקי המספר הכולל של פלט הטקסט שנוצר. לדוגמה, אם מודל שפה גדול יצר 10 בלוקים של קוד, וחמישה מהם היו מוצלחים, אז שיעור ההצלחה יהיה 50%.

למרות שהמדד הזה שימושי מאוד בסטטיסטיקה, בלמידת מכונה הוא שימושי בעיקר למדידת משימות שניתן לאמת, כמו יצירת קוד או בעיות מתמטיות.

G

gini impurity

#df

#Metric

מדד שדומה לאנטרופיה. מפצלים משתמשים בערכים שנגזרים מאי-טוהר גיני או מאנטרופיה כדי ליצור תנאים לסיווג עצי החלטה. הרווח במידע נגזר מאנטרופיה. אין מונח מקביל שמקובל באופן אוניברסלי למדד שנגזר מאי-טוהר של גיני. עם זאת, המדד הזה, שאין לו שם, חשוב בדיוק כמו מדד הרווח במידע.

המדד הזה נקרא גם מדד ג'יני או פשוט ג'יני.

כדי לראות פרטים מתמטיים על מדד Gini impurity, לוחצים על הסמל.

טומאת גיני היא ההסתברות לסיווג שגוי של נתון חדש שנלקח מאותה התפלגות. הטומאה של גיני בקבוצה עם שני ערכים אפשריים, 0 ו-1 (לדוגמה, התוויות בבעיה של סיווג בינארי), מחושבת לפי הנוסחה הבאה:

I = 1 - (p² + q²) = 1 - (p² + (1-p)²)

where:‎

‫I הוא מדד טוהר גיני.
‫p הוא השבר של הדוגמאות '1'.
‫q הוא החלק של הדוגמאות עם הערך '0'. הערה: q = 1-p

לדוגמה, נניח שיש לכם את קבוצת הנתונים הבאה:

‫100 תוויות (0.25 ממערך הנתונים) מכילות את הערך '1'
‫300 תוויות (0.75 ממערך הנתונים) מכילות את הערך '0'

לכן, טומאת ה-Gini היא:

p = 0.25
q = 0.75
I = 1 - (0.25² + 0.75²) = 0.375

לכן, לתווית אקראית מאותו מערך נתונים יש סיכוי של 37.5% לסיווג שגוי, וסיכוי של 62.5% לסיווג נכון.

תווית מאוזנת לחלוטין (לדוגמה, 200 תווים של '0' ו-200 תווים של '1') תהיה בעלת אי-טוהר של גיני בשיעור 0.5. תווית לא מאוזנת מאוד תהיה בעלת אי-טוהר של גיני שקרוב ל-0.0.

H

אובדן ציר

#Metric

משפחה של פונקציות loss לסיווג שנועדו למצוא את גבול ההחלטה במרחק הכי גדול שאפשר מכל דוגמה לאימון, וכך למקסם את המרווח בין הדוגמאות לבין הגבול. מכונות KSVM משתמשות באובדן ציר (או בפונקציה קשורה, כמו אובדן ציר בריבוע). בסיווג בינארי, פונקציית ההפסד של הציר מוגדרת כך:

$$\text{loss} = \text{max}(0, 1 - (y * y'))$$

כאשר y הוא התיוג האמיתי, -1 או +1, ו-y' הוא הפלט הגולמי של מודל הסיווג:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

לכן, גרף של הפסד hinge לעומת (y * y') נראה כך:

תרשים קרטזיאני שמורכב משני קטעי קו שמחוברים זה לזה. הקטע הראשון מתחיל בנקודה (‎-3, 4) ומסתיים בנקודה (1, 0). הקטע של השורה השנייה
מתחיל בנקודה (1, 0) וממשיך ללא הגבלה עם שיפוע
של 0.

I

אי התאמה בין מדדי הוגנות

#responsible

#Metric

הרעיון שלפיו חלק מהמושגים של הוגנות לא תואמים זה לזה ולא ניתן לספק אותם בו-זמנית. לכן, אין מדד אוניברסלי יחיד לכימות ההוגנות שאפשר להחיל על כל בעיות ה-ML.

יכול להיות שזה נשמע מייאש, אבל חוסר התאמה של מדדי הוגנות לא אומר שהמאמצים להשגת הוגנות הם חסרי תועלת. במקום זאת, הוא מציע להגדיר את ההוגנות בהקשר של בעיה נתונה של למידת מכונה, במטרה למנוע נזקים ספציפיים לתרחישי השימוש שלה.

במאמר "On the (im)possibility of fairness" יש דיון מפורט יותר על חוסר התאימות של מדדי הוגנות.

הוגנות אישית

#responsible

#Metric

מדד הוגנות שבודק אם אנשים דומים מסווגים באופן דומה. לדוגמה, יכול להיות שב-Brobdingnagian Academy ירצו להבטיח הוגנות אישית, כלומר ששני תלמידים עם ציונים זהים וציונים זהים במבחנים סטנדרטיים יקבלו סיכוי שווה להתקבל ללימודים.

חשוב לזכור שההוגנות האישית תלויה לחלוטין בהגדרה של 'דמיון' (במקרה הזה, ציונים במבחנים וציונים בלימודים), ויש סיכון ליצירת בעיות חדשות של הוגנות אם מדד הדמיון לא כולל מידע חשוב (כמו רמת הקושי של תוכנית הלימודים של התלמיד).

במאמר "הוגנות באמצעות מודעות" מופיע דיון מפורט יותר בנושא ההוגנות האישית.

הרווח ממידע

#df

#Metric

ביערות החלטה, ההפרש בין האנטרופיה של צומת לבין הסכום המשוקלל (לפי מספר הדוגמאות) של האנטרופיה של צמתי הצאצאים שלה. האנטרופיה של צומת היא האנטרופיה של הדוגמאות בצומת הזה.

לדוגמה, נניח שיש לכם את ערכי האנטרופיה הבאים:

האנטרופיה של צומת ההורה = 0.6
האנטרופיה של צומת משני אחד עם 16 דוגמאות רלוונטיות = 0.2
האנטרופיה של צומת צאצא אחר עם 24 דוגמאות רלוונטיות = 0.1

לכן, 40% מהדוגמאות נמצאות בצומת צאצא אחד ו-60% נמצאות בצומת הצאצא השני. לכן:

סכום האנטרופיה המשוקללת של צומתי הצאצא = (‎0.4 * 0.2) + (‎0.6 * 0.1) = 0.14

לכן, הרווח במידע הוא:

הרווח במידע = האנטרופיה של צומת האב – סכום האנטרופיה המשוקלל של צמתי הבן
הרווח במידע = 0.6 – 0.14 = 0.46

רוב המסַפְּקִים מנסים ליצור תנאים שממקסמים את הרווח במידע.

הסכמה בין מעריכים

#Metric

מדד שמשקף את התדירות שבה מעריכים אנושיים מסכימים ביניהם כשהם מבצעים משימה. אם יש חוסר הסכמה בין הבודקים, יכול להיות שצריך לשפר את הוראות המשימה. נקרא גם לפעמים הסכמה בין מבצעי ההערות או מהימנות בין מעריכים. ראו גם את קאפה של כהן, שהוא אחד ממדדי ההסכמה הפופולריים ביותר בין מעריכים.

מידע נוסף זמין במאמר נתונים קטגוריים: בעיות נפוצות בקורס המקוצר על למידת מכונה.

L

הפסד של ₁

#fundamentals

#Metric

פונקציית הפסד שמחשבת את הערך המוחלט של ההפרש בין ערכי התוויות בפועל לבין הערכים שהמודל חוזה. לדוגמה, כך מחשבים את הפסד L₁ עבור קבוצה של חמש דוגמאות:

ערך בפועל של הדוגמה	הערך שהמודל חזה	הערך המוחלט של השינוי
7	6	1
5	4	1
8	11	3
4	6	2
9	8	1
		‫8 = הפסד L₁

הפונקציה L₁ loss פחות רגישה לערכים חריגים מאשר הפונקציה _L2 loss.

השגיאה הממוצעת המוחלטת היא הפסד _L1 הממוצע לכל דוגמה.

כדי לראות את המתמטיקה הפורמלית, לוחצים על הסמל.

$$ L_1 loss = \sum_{i=0}^n | y_i - \hat{y}_i |$$

כאשר:

‫$n$ הוא מספר הדוגמאות.
‫$y$ הוא הערך בפועל של התווית.
‫$\hat{y}$ הוא הערך שהמודל חוזה עבור $y$.

מידע נוסף זמין במאמר Linear regression: Loss (רגרסיה לינארית: הפסד) בסדרת המאמרים Machine Learning Crash Course (מבוא ללמידת מכונה).

הפסד L₂

#fundamentals

#Metric

פונקציית הפסד שמחשבת את ריבוע ההפרש בין ערכי התוויות בפועל לבין הערכים שהמודל חוזה. לדוגמה, הנה חישוב של הפסד L₂ עבור קבוצה של חמש דוגמאות:

ערך בפועל של הדוגמה	הערך שהמודל חזה	ריבוע של דלתא
7	6	1
5	4	1
8	11	9
4	6	4
9	8	1
		‫16 = L₂ loss

בגלל ההעלאה בריבוע, הפסד L₂ מגביר את ההשפעה של ערכים חריגים. כלומר, הפסד L₂ מגיב בעוצמה רבה יותר לחיזויים לא טובים מאשר הפסד L₁. לדוגמה, ערך ההפסד L₁ עבור האצווה הקודמת יהיה 8 ולא 16. שימו לב שערך חריג אחד מייצג 9 מתוך 16.

מודלים של רגרסיה משתמשים בדרך כלל בהפסד L₂ כפונקציית ההפסד.

השגיאה הריבועית הממוצעת היא הפסד _L2 הממוצע לכל דוגמה. שגיאה בריבוע הוא שם נוסף לשגיאת L₂.

כדי לראות את המתמטיקה הפורמלית, לוחצים על הסמל.

$$ L_2 loss = \sum_{i=0}^n {(y_i - \hat{y}_i)}^2$$

כאשר:

‫$n$ הוא מספר הדוגמאות.
‫$y$ הוא הערך בפועל של התווית.
‫$\hat{y}$ הוא הערך שהמודל חוזה עבור $y$.

מידע נוסף זמין במאמר Logistic regression: Loss and regularization (רגרסיה לוגיסטית: הפסד ורגולריזציה) בסדנה בנושא למידת מכונה.

הערכות של מודלים גדולים של שפה (LLM)

#generativeAI

#Metric

קבוצה של מדדים ונקודות השוואה להערכת הביצועים של מודלים גדולים של שפה (LLM). ברמת העל, הערכות של מודלים גדולים של שפה (LLM):

לעזור לחוקרים לזהות תחומים שבהם צריך לשפר את מודלי ה-LLM.
הם שימושיים להשוואה בין מודלי שפה גדולים שונים ולזיהוי מודל השפה הגדול הטוב ביותר למשימה מסוימת.
עוזרים לוודא שהשימוש במודלים גדולים של שפה (LLM) הוא בטוח ואתי.

מידע נוסף זמין במאמר מודלים גדולים של שפה (LLM) בקורס המקוצר על למידת מכונה.

ירידה

#fundamentals

#Metric

במהלך האימון של מודל בפיקוח, נמדד המרחק בין התחזית של המודל לבין התווית שלו.

פונקציית הפסד מחשבת את ההפסד.

מידע נוסף זמין במאמר רגרסיה ליניארית: הפסד בסדנה בנושא למידת מכונה.

פונקציית אובדן

#fundamentals

#Metric

במהלך האימון או הבדיקה, פונקציה מתמטית שמחשבת את ההפסד באצווה של דוגמאות. פונקציית הפסד מחזירה ערך הפסד נמוך יותר למודלים שמבצעים חיזויים טובים מאשר למודלים שמבצעים חיזויים לא טובים.

המטרה של האימון היא בדרך כלל למזער את ההפסד שמוחזר על ידי פונקציית הפסד.

קיימים סוגים רבים ושונים של פונקציות אובדן. בוחרים את פונקציית ההפסד המתאימה לסוג המודל שאתם בונים. לדוגמה:

הפונקציה אובדן _L2 (או השגיאה הריבועית הממוצעת) היא פונקציית האובדן של רגרסיה ליניארית.
Log Loss היא פונקציית האובדן של רגרסיה לוגיסטית.

M

שגיאה מוחלטת ממוצעת (MAE)

#Metric

ההפסד הממוצע לכל דוגמה כשמשתמשים ב-L₁ loss. כך מחשבים את שגיאת הממוצע המוחלט:

חישוב הפסד L₁ עבור אצווה.
מחלקים את ההפסד L₁ במספר הדוגמאות באצווה.

כדי לראות את המתמטיקה הפורמלית, לוחצים על הסמל.

$$\text{Mean Absolute Error} = \frac{1}{n}\sum_{i=0}^n | y_i - \hat{y}_i |$$

where:‎

‫$n$ הוא מספר הדוגמאות.
‫$y$ הוא הערך בפועל של התווית.
‫$\hat{y}$ הוא הערך שהמודל חוזה עבור $y$.

לדוגמה, נניח שרוצים לחשב את הפסד L₁ בקבוצה הבאה של חמש דוגמאות:

ערך בפועל של הדוגמה	הערך שהמודל חזה	הפסד (ההפרש בין הערך בפועל לבין הערך החזוי)
7	6	1
5	4	1
8	11	3
4	6	2
9	8	1
		‫8 = הפסד L₁

לכן, ערך הפונקציה L₁ הוא 8 ומספר הדוגמאות הוא 5. לכן, השגיאה הממוצעת המוחלטת היא:

Mean Absolute Error = L₁ loss / Number of Examples
Mean Absolute Error = 8/5 = 1.6

השוואה בין שגיאה מוחלטת ממוצעת של ניגודיות לבין שגיאה ריבועית ממוצעת ושורש טעות ריבועית ממוצעת.

דיוק ממוצע ב-k (mAP@k)

#generativeAI

#Metric

הממוצע הסטטיסטי של כל הציונים של דיוק ממוצע ב-k במערך נתוני אימות. אחד השימושים של מדד הדיוק הממוצע ב-k הוא להעריך את איכות ההמלצות שנוצרות על ידי מערכת המלצות.

למרות שהביטוי 'ממוצע ממוצע' נשמע מיותר, השם של המדד מתאים. בסופו של דבר, המדד הזה מחשב את הממוצע של כמה ערכים של דיוק ממוצע ב-k.

כדי לראות דוגמה, לוחצים על הסמל.

נניח שאתם בונים מערכת המלצות שמפיקה רשימה מותאמת אישית של רומנים מומלצים לכל משתמש. על סמך המשוב ממשתמשים נבחרים, חישבתם את חמשת ציוני הדיוק הממוצעים הבאים ב-k (ציון אחד לכל משתמש):

0.73
0.77
0.67
0.82
0.76

לכן, הדיוק הממוצע ב-K הוא:

$$\text{mean } = \frac{\text{0.73 + 0.77 + 0.67 + 0.82 + 0.76}} {\text{5}} = \text{0.75}$$

שגיאה ריבועית ממוצעת (MSE)

#Metric

ההפסד הממוצע לכל דוגמה כשמשתמשים ב-L₂ loss. כך מחשבים את השגיאה הריבועית הממוצעת:

חישוב הפסד L₂ עבור אצווה.
מחלקים את הפסד L₂ במספר הדוגמאות באצווה.

כדי לראות את המתמטיקה הפורמלית, לוחצים על הסמל.

$$\text{Mean Squared Error} = \frac{1}{n}\sum_{i=0}^n {(y_i - \hat{y}_i)}^2$$ כאשר:

‫$n$ הוא מספר הדוגמאות.
‫$y$ הוא הערך בפועל של התווית.
‫$\hat{y}$ הוא החיזוי של המודל עבור $y$.

לדוגמה, נניח שאתם רוצים לחשב את הפסד על קבוצה של חמש דוגמאות:

ערך בפועל	החיזוי של המודל	הפסד	פונקציית הפסד ריבועי
7	6	1	1
5	4	1	1
8	11	3	9
4	6	2	4
9	8	1	1
			‫16 = L₂ loss

לכן, השגיאה הריבועית הממוצעת היא:

Mean Squared Error = L₂ loss / Number of Examples
Mean Squared Error = 16/5 = 3.2

השגיאה הריבועית הממוצעת היא אופטימיזציה פופולרית לאימון, במיוחד עבור רגרסיה לינארית.

השוואה בין שורש טעות ריבועית ממוצעת לבין טעות מוחלטת ממוצעת ושורש טעות ריבועית ממוצעת.

‫TensorFlow Playground משתמש בטעות ריבועית ממוצעת כדי לחשב את ערכי ההפסד.

כדי לראות פרטים נוספים על חריגים, לוחצים על הסמל.

ערכים חריגים משפיעים מאוד על שגיאה ריבועית ממוצעת. לדוגמה, הפסד של 1 הוא הפסד בריבוע של 1, אבל הפסד של 3 הוא הפסד בריבוע של 9. בדוגמה עם אובדן של 3 חשבונות בטבלה שלמעלה, האובדן הזה מייצג כ-56% משגיאת הריבוע הממוצעת, בעוד שכל אחת מהדוגמאות עם אובדן של חשבון אחד מייצגת רק 6% משגיאת הריבוע הממוצעת.

לערכים חריגים אין השפעה חזקה על שגיאה ממוצעת מוחלטת כמו על שגיאה ממוצעת ריבועית. לדוגמה, איבוד של 3 חשבונות מייצג רק כ-38% מהשגיאה הממוצעת המוחלטת.

חיתוך הוא דרך אחת למנוע ממקרים חריגים קיצוניים לפגוע ביכולת החיזוי של המודל.

ערך

#TensorFlow

#Metric

נתון סטטיסטי שחשוב לכם.

יעד הוא מדד שמערכת למידת מכונה מנסה לבצע לו אופטימיזציה.

‫Metrics API ‏ (tf.metrics)

#Metric

‫TensorFlow API להערכת מודלים. לדוגמה, tf.metrics.accuracy קובע את התדירות שבה התחזיות של מודל תואמות לתוויות.

minimax loss

#Metric

פונקציית הפסד של רשתות יריבות גנרטיביות, שמבוססת על אנטרופיה צולבת בין ההתפלגות של הנתונים שנוצרו לבין הנתונים האמיתיים.

הפסד מינימקס משמש במאמר הראשון לתיאור רשתות יריבות גנרטיביות.

מידע נוסף זמין במאמר פונקציות הפסד בקורס בנושא רשתות יריבות גנרטיביות.

קיבולת המודל

#Metric

מורכבות הבעיות שהמודל יכול ללמוד. ככל שהבעיות שמודל יכול ללמוד מורכבות יותר, כך הקיבולת של המודל גבוהה יותר. הקיבולת של מודל בדרך כלל גדלה עם מספר הפרמטרים של המודל. הגדרה רשמית של הקיבולת של מודל סיווג מופיעה במאמר בנושא ממד VC.

לא

סיווג שלילי

#fundamentals

#Metric

בסיווג בינארי, מחלקים את הנתונים לשתי קבוצות: חיובית ושלילית. הסיווג החיובי הוא הדבר או האירוע שהמודל בודק, והסיווג השלילי הוא האפשרות השנייה. לדוגמה:

הסיווג השלילי בבדיקה רפואית יכול להיות 'לא גידול'.
הסיווג השלילי במודל סיווג של אימייל יכול להיות 'לא ספאם'.

ההגדרה הזו שונה מסיווג חיובי.

O

יעד

#Metric

מדד שהאלגוריתם מנסה לבצע לו אופטימיזציה.

פונקציית היעד

#Metric

הנוסחה המתמטית או המדד שהמודל מנסה לבצע אופטימיזציה לגביהם. לדוגמה, פונקציית המטרה של רגרסיה לינארית היא בדרך כלל Mean Squared Loss. לכן, כשמאמנים מודל רגרסיה לינארית, האימון נועד לצמצם את אובדן המידע הממוצע בריבוע.

במקרים מסוימים, המטרה היא למקסם את פונקציית היעד. לדוגמה, אם פונקציית היעד היא דיוק, המטרה היא למקסם את הדיוק.

מידע נוסף מופיע במאמר בנושא הפסד.

P

pass at k (pass@k)

#Metric

מדד לקביעת איכות הקוד (לדוגמה, Python) שנוצר על ידי מודל שפה גדול. באופן ספציפי יותר, הערך k של פרמטר המעבר מציין את הסבירות שלפחות בלוק קוד אחד מתוך k בלוקים של קוד שנוצרו יעבור את כל בדיקות היחידה שלו.

למודלים גדולים של שפה (LLM) יש לעיתים קרובות קושי ליצור קוד טוב לבעיות תכנות מורכבות. מהנדסי תוכנה מתמודדים עם הבעיה הזו על ידי הנחיית המודל הגדול של השפה ליצור כמה (k) פתרונות לאותה בעיה. לאחר מכן, מהנדסי תוכנה בודקים כל אחד מהפתרונות באמצעות בדיקות יחידה. החישוב של pass@k תלוי בתוצאה של בדיקות היחידה:

אם אחד או יותר מהפתרונות האלה עוברים את בדיקת היחידה, אז ה-LLM עובר את האתגר של יצירת הקוד.
אם אף אחד מהפתרונות לא עובר את בדיקת היחידה, ה-LLM נכשל באתגר הזה של יצירת קוד.

הנוסחה לחישוב המעבר ב-k היא:

\[\text{pass at k} = \frac{\text{total number of passes}} {\text{total number of challenges}}\]

באופן כללי, ערכים גבוהים יותר של k מניבים ציונים גבוהים יותר של מעבר ב-k, אבל ערכים גבוהים יותר של k דורשים יותר משאבים של מודלים גדולים של שפה ובדיקות יחידה.

לוחצים על הסמל כדי לראות דוגמה.

נניח שמהנדס תוכנה מבקש ממודל שפה גדול ליצור k=10 פתרונות ל-n=50 בעיות מאתגרות בתכנות. אלה התוצאות:

30 כרטיסים
20 נכשלו

לכן, הציון שמעיד על מעבר הוא 10:

$$\text{pass at 10} = \frac{\text{30}} {\text{50}} = 0.6$$

ביצועים

#Metric

מונח עם עומס יתר שכולל את המשמעויות הבאות:

המשמעות הסטנדרטית בהנדסת תוכנה. כלומר: עד כמה התוכנה הזו פועלת מהר (או ביעילות)?
המשמעות בהקשר של למידת מכונה. התשובה לשאלה הבאה: עד כמה המודל הזה מדויק? כלומר, עד כמה התחזיות של המודל טובות?

חשיבות משתנים בתמורה

#df

#Metric

סוג של חשיבות משתנה שמעריך את העלייה בשגיאת החיזוי של מודל אחרי שינוי הערכים של התכונה. חשיבות המשתנה בפרמוטציה היא מדד שלא תלוי במודל.

בלבול

#Metric

מדד אחד שמשקף את מידת ההצלחה של מודל בהשגת המטרה שלו. לדוגמה, נניח שהמשימה שלכם היא לקרוא את כמה האותיות הראשונות של מילה שמשתמש מקליד במקלדת של טלפון, ולהציע רשימה של מילים אפשריות להשלמה. הערך של מידת ההסתבכות, P, למשימה הזו הוא בערך מספר הניחושים שצריך להציע כדי שהרשימה תכיל את המילה שהמשתמש מנסה להקליד.

המדד Perplexity קשור לcross-entropy באופן הבא:

$$P= 2^{-\text{cross entropy}}$$

סיווג חיובי

#fundamentals

#Metric

הכיתה שאתם נבחנים בה.

לדוגמה, המחלקה החיובית במודל לסרטן יכולה להיות 'גידול'. הסיווג החיובי במודל סיווג של אימייל יכול להיות 'ספאם'.

ההפך מכיתה שלילית.

כדי לראות הערות נוספות, לוחצים על הסמל.

המונח סיווג חיובי עלול לבלבל, כי התוצאה ה'חיובית' של הרבה בדיקות היא לרוב תוצאה לא רצויה. לדוגמה, הסיווג החיובי בהרבה בדיקות רפואיות מתאים לגידולים או למחלות. באופן כללי, אתם רוצים לשמוע מרופא את המילים: "מזל טוב! תוצאות הבדיקה שלך היו שליליות". בכל מקרה, המחלקה החיובית היא האירוע שהבדיקה מנסה למצוא.

אמנם, אתם בודקים בו-זמנית את המחלקות החיוביות והשליליות.

PR AUC (שטח מתחת לעקומת PR)

#Metric

השטח מתחת לעקומת הדיוק וההחזרה שחושבה על ידי אינטרפולציה, שהתקבלה משרטוט נקודות (החזרה, דיוק) עבור ערכים שונים של סף הסיווג.

דיוק

#fundamentals

#Metric

מדד למודלים של סיווג שעונה על השאלה הבאה:

כשהמודל חזה את הסיווג החיובי, מה אחוז החיזויים הנכונים?

זו הנוסחה:

$$\text{Precision} = \frac{\text{true positives}} {\text{true positives} + \text{false positives}}$$

where:‎

חיובי אמיתי פירושו שהמודל חזה נכון את המחלקה החיובית.
תוצאה חיובית שגויה פירושה שהמודל טעה וחיזוי את הסיווג החיובי.

לדוגמה, נניח שמודל יצר 200 תחזיות חיוביות. מתוך 200 התחזיות החיוביות האלה:

150 היו חיוביים אמיתיים.
50 מהן היו תוצאות חיוביות שגויות.

במקרה זה:

$$\text{Precision} = \frac{\text{150}} {\text{150} + \text{50}} = 0.75$$

ההגדרה הזו שונה מדיוק ומהחזרה.

מידע נוסף זמין במאמר בנושא סיווג: דיוק, היזכרות, פרסיזיה ומדדים קשורים בסדנה ללמידת מכונה.

דיוק ב-k‏ (precision@k)

#Metric

מדד להערכת רשימה מדורגת (מסודרת) של פריטים. המדד 'דיוק ב-k' מזהה את החלק של k הפריטים הראשונים ברשימה שהם 'רלוונטיים'. כלומר:

\[\text{precision at k} = \frac{\text{relevant items in first k items of the list}} {\text{k}}\]

הערך של k צריך להיות קטן מאורך הרשימה שמוחזרת או שווה לו. שימו לב שאורך הרשימה שמוחזרת לא נכלל בחישוב.

הרלוונטיות היא לרוב סובייקטיבית. אפילו מעריכים אנושיים מומחים חלוקים בדעתם לגבי הפריטים הרלוונטיים.

השווה ל:

דיוק ממוצע ב-k
דיוק ממוצע ב-k

כדי לראות דוגמה, לוחצים על הסמל.

נניח שמודל שפה גדול מקבל את השאילתה הבאה:

List the 6 funniest movies of all time in order.

מודל השפה הגדול מחזיר את הרשימה שמוצגת בשתי העמודות הראשונות של הטבלה הבאה:

מיקום	סרט	רלוונטי?
1	הגנרל	כן
2	Mean Girls	כן
3	Platoon	לא
4	שושבינות	כן
5	האזרח קיין	לא
6	This is Spinal Tap	כן

שניים מתוך שלושת הסרטים הראשונים רלוונטיים, לכן רמת הדיוק ב-3 היא:

$$\text{precision at 3} = \frac{\text{2}} {\text{3}} = 0.67$$

שלושה מתוך חמשת הסרטים הראשונים מצחיקים מאוד, ולכן הדיוק ברמה 5 הוא:

$$\text{precision at 5} = \frac{\text{3}} {\text{5}} = 0.6$$

עקומת דיוק-החזרה

#Metric

עקומת הדיוק לעומת ההחזרה בספי סיווג שונים.

הטיה בתחזית

#Metric

ערך שמציין את המרחק בין הממוצע של התחזיות לבין הממוצע של התוויות במערך הנתונים.

לא להתבלבל עם מונח ההטיה במודלים של למידת מכונה או עם הטיה באתיקה ובהוגנות.

שוויון חזוי

#responsible

#Metric

מדד הוגנות שבודק אם שיעורי הדיוק שווים עבור קבוצות משנה שנבדקות במודל סיווג נתון.

לדוגמה, מודל שמנבא קבלה למכללה יעמוד בדרישות של שוויון חיזוי לפי לאום אם שיעור הדיוק שלו יהיה זהה עבור אנשים מליליפוט ואנשים מברובדינגנאג.

לפעמים קוראים לשיטה הזו גם שוויון חזוי בשיעורי ההמרה.

בסעיף 3.2.1 'הסברים על הגדרות ההוגנות' מופיע דיון מפורט יותר בנושא שוויון חיזוי.

השוואת מחירים חזויה

#responsible

#Metric

שם נוסף לשוויון חיזוי.

פונקציית צפיפות ההסתברות

#Metric

פונקציה שמזהה את התדירות של דגימות נתונים עם ערך מסוים בדיוק. כשערכים של מערך נתונים הם מספרים רציפים עם נקודה עשרונית, התאמות מדויקות הן נדירות. עם זאת, שילוב של פונקציית צפיפות הסתברות מהערך x לערך y מניב את התדירות הצפויה של דגימות נתונים בין x ל-y.

לדוגמה, נניח שיש התפלגות נורמלית עם ממוצע של 200 וסטיית תקן של 30. כדי לקבוע את התדירות הצפויה של דגימות נתונים שנמצאות בטווח 211.4 עד 218.7, אפשר לבצע אינטגרציה של פונקציית צפיפות ההסתברות להתפלגות נורמלית מ-211.4 עד 218.7.

R

recall

#fundamentals

#Metric

מדד למודלים של סיווג שעונה על השאלה הבאה:

כאשר האמת הבסיסית הייתה הסיווג החיובי, מהו אחוז התחזיות שהמודל זיהה נכון כסיווג החיובי?

זו הנוסחה:

\[\text{Recall} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}} \]

where:‎

חיובי אמיתי פירושו שהמודל חזה נכון את המחלקה החיובית.
תוצאה שלילית שגויה פירושה שהמודל טעה וחיזה את הסיווג השלילי.

לדוגמה, נניח שהמודל שלכם יצר 200 תחזיות לגבי דוגמאות שבהן האמת הבסיסית הייתה הסיווג החיובי. מתוך 200 התחזיות האלה:

180 היו תוצאות חיוביות אמיתיות.
20 מהן היו תוצאות שליליות מטעות.

במקרה זה:

\[\text{Recall} = \frac{\text{180}} {\text{180} + \text{20}} = 0.9 \]

לוחצים על הסמל כדי לראות הערות לגבי מערכי נתונים עם חוסר איזון בין הכיתות.

המדד Recall שימושי במיוחד לקביעת יכולת החיזוי של מודלים לסיווג שבהם המחלקה החיובית היא נדירה. לדוגמה, נניח שיש מערך נתונים עם חוסר איזון בין המחלקות שבו המחלקה החיובית למחלה מסוימת מופיעה רק אצל 10 מתוך מיליון מטופלים. נניח שהמודל שלכם מבצע חמישה מיליון חיזויים שמניבים את התוצאות הבאות:

‫30 חיוביים אמיתיים
20 תוצאות שליליות כוזבות
‫4,999,000 תוצאות שליליות אמיתיות
950 תוצאות חיוביות שגויות

לכן, ה-recall של המודל הזה הוא:

recall = TP / (TP + FN)
recall = 30 / (30 + 20) = 0.6 = 60%

לעומת זאת, רמת הדיוק של המודל הזה היא:

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (30 + 4,999,000) / (30 + 4,999,000 + 950 + 20) = 99.98%

ערך הדיוק הגבוה הזה נראה מרשים, אבל הוא חסר משמעות. המדד Recall שימושי הרבה יותר למערכי נתונים לא מאוזנים מבחינת כמות הנתונים בכל מחלקה מאשר המדד Accuracy.

מידע נוסף זמין במאמר סיווג: דיוק, היזכרות, פרסיזיה ומדדים קשורים.

ריקול ב-k (recall@k)

#Metric

מדד להערכת מערכות שמפיקות רשימה מדורגת (מסודרת) של פריטים. המדד Recall at k מזהה את החלק של הפריטים הרלוונטיים מתוך k הפריטים הראשונים ברשימה, מתוך המספר הכולל של הפריטים הרלוונטיים שהוחזרו.

\[\text{recall at k} = \frac{\text{relevant items in first k items of the list}} {\text{total number of relevant items in the list}}\]

השוואה לדיוק ב-k.

כדי לראות דוגמה, לוחצים על הסמל.

נניח שמודל שפה גדול מקבל את השאילתה הבאה:

List the 10 funniest movies of all time in order.

מודל השפה הגדול מחזיר את הרשימה שמוצגת בשתי העמודות הראשונות:

מיקום	סרט	רלוונטי?
1	הגנרל	כן
2	Mean Girls	כן
3	Platoon	לא
4	שושבינות	כן
5	This is Spinal Tap	כן
6	מטוס!	כן
7	יום המרמיטה	כן
8	מונטי פייתון והגביע הקדוש	כן
9	אופנהיימר	לא
10	Clueless	כן

שמונה מהסרטים ברשימה הקודמת הם מאוד מצחיקים, ולכן הם נחשבים ל'פריטים רלוונטיים ברשימה'. לכן, 8 יהיה המכנה בכל החישובים של ההחזרה ב-k. מה לגבי המונה? ובכן, 3 מתוך 4 הפריטים הראשונים רלוונטיים, ולכן ערך הזיכרון ב-4 הוא:

$$\text{recall at 4} = \frac{\text{3}} {\text{8}} = 0.375$$

7 מתוך 8 הסרטים הראשונים מצחיקים מאוד, ולכן רמת הזכירה בסרטון 8 היא:

$$\text{recall at 8} = \frac{\text{7}} {\text{8}} = 0.875$$

עקומת ROC (מאפיין הפעולה של המקלט)

#fundamentals

#Metric

תרשים של שיעור החיוביים האמיתיים לעומת שיעור החיוביים הכוזבים עבור ערכי סף שונים לסיווג בסיווג בינארי.

הצורה של עקומת ROC מצביעה על היכולת של מודל סיווג בינארי להפריד בין סיווגים חיוביים לסיווגים שליליים. נניח, לדוגמה, שמודל סיווג בינארי מפריד בצורה מושלמת בין כל המחלקות השליליות לבין כל המחלקות החיוביות:

קו מספרים עם 8 דוגמאות חיוביות בצד ימין ו-7 דוגמאות שליליות בצד שמאל.

עקומת ה-ROC של המודל הקודם נראית כך:

עקומת ROC. ציר ה-X מייצג את שיעור התוצאות החיוביות הכוזבות וציר ה-Y מייצג את שיעור התוצאות החיוביות האמיתיות. העקומה היא בצורת L הפוכה. העקומה מתחילה בנקודה (0.0,0.0) ועולה ישר עד לנקודה (0.0,1.0). אחר כך העקומה עוברת מ-(0.0,1.0) ל-(1.0,1.0).

לעומת זאת, באיור הבא מוצגים ערכי הרגרסיה הלוגיסטית הגולמיים של מודל גרוע שלא מצליח להפריד בין מחלקות שליליות למחלקות חיוביות:

קו מספרים עם דוגמאות חיוביות וסיווגים שליליים
שמעורבבים לחלוטין.

עקומת ה-ROC של המודל הזה נראית כך:

עקומת ROC, שהיא למעשה קו ישר מ-(0.0,0.0)
עד (1.0,1.0).

בינתיים, בעולם האמיתי, רוב מודלי הסיווג הבינארי מפרידים בין מחלקות חיוביות ושליליות במידה מסוימת, אבל בדרך כלל לא בצורה מושלמת. לכן, עקומת ROC אופיינית נמצאת איפשהו בין שני הקצוות:

עקומת ROC. ציר ה-X מייצג את שיעור התוצאות החיוביות הכוזבות וציר ה-Y מייצג את שיעור התוצאות החיוביות האמיתיות. עקומת ה-ROC היא בקירוב קשת לא יציבה
שעוברת בין נקודות המצפן ממערב לצפון.

הנקודה בעקומת ROC שהכי קרובה ל-(0.0,1.0) מזהה באופן תיאורטי את סף הסיווג האידיאלי. עם זאת, יש כמה בעיות בעולם האמיתי שמשפיעות על הבחירה של סף הסיווג האידיאלי. לדוגמה, יכול להיות שתוצאות שליליות כוזבות גורמות להרבה יותר נזק מתוצאות חיוביות כוזבות.

מדד מספרי שנקרא AUC מסכם את עקומת ה-ROC לערך יחיד של נקודה צפה.

שורש טעות ריבועית ממוצעת (RMSE)

#fundamentals

#Metric

השורש הריבועי של הטעות הריבועית הממוצעת.

ROUGE (Recall-Oriented Understudy for Gisting Evaluation)

#Metric

משפחה של מדדים שמשמשים להערכת מודלים של סיכום אוטומטי ושל תרגום מכונה. מדדי ROUGE קובעים את מידת החפיפה בין טקסט ייחוס לבין טקסט שנוצר על ידי מודל ML. כל אחד מהמדדים במשפחת ROUGE מודד חפיפה בצורה שונה. ציוני ROUGE גבוהים יותר מצביעים על דמיון רב יותר בין טקסט ההפניה לבין הטקסט שנוצר, בהשוואה לציוני ROUGE נמוכים יותר.

בדרך כלל, כל חבר במשפחת ROUGE יוצר את המדדים הבאים:

דיוק
זכירות
F₁

לפרטים נוספים ולעיון בדוגמאות, ראו:

ROUGE-L
ROUGE-N
ROUGE-S

ROUGE-L

#Metric

חבר במשפחת ROUGE שמתמקד באורך של הרצף המשותף הארוך ביותר בטקסט ההפניה ובטקסט שנוצר. הנוסחאות הבאות משמשות לחישוב ההחזרה והדיוק של ROUGE-L:

$$\text{ROUGE-L recall} = \frac{\text{longest common sequence}} {\text{number of words in the reference text} }$$

$$\text{ROUGE-L precision} = \frac{\text{longest common sequence}} {\text{number of words in the generated text} }$$

אחר כך אפשר להשתמש ב-F₁ כדי לסכם את הנתונים של ROUGE-L recall ו-ROUGE-L precision למדד אחד:

$$\text{ROUGE-L F} {_1} = \frac{\text{2} * \text{ROUGE-L recall} * \text{ROUGE-L precision}} {\text{ROUGE-L recall} + \text{ROUGE-L precision} }$$

לוחצים על הסמל כדי לראות דוגמה לחישוב של ROUGE-L.

כדאי לעיין בטקסט המקורי ובטקסט שנוצר.

קטגוריה	מי הפיק?	טקסט
טקסט העיון	מתרגם אנושי	אני רוצה להבין מגוון רחב של דברים.
הטקסט שנוצר	מודל ML	אני רוצה ללמוד הרבה דברים.

לכן:

הרצף המשותף הארוך ביותר הוא 5 (I want to of things)
מספר המילים בטקסט ההפניה הוא 9.
מספר המילים בטקסט שנוצר הוא 7.

כתוצאה מכך:

$$\text{ROUGE-L recall} = \frac{\text{5}} {\text{9} } = 0.56$$

$$\text{ROUGE-L precision} = \frac{\text{5}} {\text{7} } = 0.71$$

$$\text{ROUGE-L F} {_1} = \frac{\text{2} * \text{0.56} * \text{0.71}} {\text{0.56} + \text{0.71} } = 0.63$$

המדד ROUGE-L מתעלם ממעברי שורה בטקסט הייחוס ובטקסט שנוצר, ולכן הרצף המשותף הארוך ביותר יכול לחצות כמה משפטים. אם טקסט ההפניה והטקסט שנוצר כוללים כמה משפטים, מדד טוב יותר הוא בדרך כלל וריאציה של ROUGE-L שנקראת ROUGE-Lsum. המדד ROUGE-Lsum קובע את הרצף המשותף הארוך ביותר לכל משפט בקטע, ואז מחשב את הממוצע של הרצפים המשותפים הארוכים ביותר האלה.

לוחצים על הסמל כדי לראות דוגמה לחישוב של ROUGE-Lsum.

כדאי לעיין בטקסט המקורי ובטקסט שנוצר.

קטגוריה	מי הפיק?	טקסט
טקסט העיון	מתרגם אנושי	פני השטח של מאדים יבשים. כמעט כל המים נמצאים עמוק מתחת לאדמה.
הטקסט שנוצר	מודל ML	המשטח של מאדים יבש. עם זאת, רוב המים נמצאים מתחת לפני האדמה.

לכן:

	המשפט הראשון	המשפט השני
הרצף המשותף הארוך ביותר	‫2 (Mars dry)	‫3 (מים מתחת לפני הקרקע)
אורך המשפט של טקסט העזר	6	7
אורך המשפט בטקסט שנוצר	5	8

לכן:

$$\text{recall of first sentence} = \frac{\text{2}} {\text{6}} = 0.33 $$

$$\text{recall of second sentence} = \frac{\text{3}} {\text{7}} = 0.43 $$

$$\text{ROUGE-Lsum recall} = \frac{\text{0.33} + \text{0.43}} {\text{2}} = 0.38 $$

$$\text{precision of first sentence} = \frac{\text{2}} {\text{5}} = 0.4 $$

$$\text{precision of second sentence} = \frac{\text{3}} {\text{8}} = 0.38 $$

$$\text{ROUGE-Lsum precision} = \frac{\text{0.4} + \text{0.38}} {\text{2}} = 0.39 $$

$$\text{ROUGE-Lsum F}{_1} = \frac{\text{2} * \text{0.38} * \text{0.39}} {\text{0.38} + \text{0.39}} = 0.38 $$

ROUGE-N

#Metric

קבוצה של מדדים במשפחת ROUGE שמשווה בין ה-N-grams המשותפים בגודל מסוים בטקסט ההפניה לבין הטקסט שנוצר. לדוגמה:

המדד ROUGE-1 מודד את מספר הטוקנים המשותפים בטקסט ההפניה ובטקסט שנוצר.
‫ROUGE-2 מודד את מספר הביגרמות (2-גרמות) המשותפות בטקסט ההפניה ובטקסט שנוצר.
המדד ROUGE-3 מודד את מספר הטריגרמים (3-גרמים) המשותפים בטקסט ההפניה ובטקסט שנוצר.

אפשר להשתמש בנוסחאות הבאות כדי לחשב את מדד הזיכרון (recall) של ROUGE-N ואת מדד הדיוק (precision) של ROUGE-N לכל חבר במשפחת ROUGE-N:

$$\text{ROUGE-N recall} = \frac{\text{number of matching N-grams}} {\text{number of N-grams in the reference text} }$$

$$\text{ROUGE-N precision} = \frac{\text{number of matching N-grams}} {\text{number of N-grams in the generated text} }$$

אחר כך אפשר להשתמש ב-F₁ כדי לצמצם את הנתונים של ROUGE-N recall ו-ROUGE-N precision למדד אחד:

$$\text{ROUGE-N F}{_1} = \frac{\text{2} * \text{ROUGE-N recall} * \text{ROUGE-N precision}} {\text{ROUGE-N recall} + \text{ROUGE-N precision} }$$

לוחצים על הסמל כדי לראות דוגמה.

נניח שאתם מחליטים להשתמש ב-ROUGE-2 כדי למדוד את היעילות של תרגום שבוצע על ידי מודל ML בהשוואה לתרגום שבוצע על ידי מתרגם אנושי.

קטגוריה	מי הפיק?	טקסט	ביגרמות
טקסט העיון	מתרגם אנושי	אני רוצה להבין מגוון רחב של דברים.	אני רוצה, רוצה, להבין, להבין מגוון, מגוון רחב, רחב של דברים
הטקסט שנוצר	מודל ML	אני רוצה ללמוד הרבה דברים.	אני רוצה, רוצה, ללמוד, ללמוד הרבה, הרבה דברים

לכן:

מספר הביגרמות התואמות הוא 3 (I want,‏ want to ו-of things).
מספר ה-2-גרמים בטקסט ההפניה הוא 8.
מספר ה-2-גרמים בטקסט שנוצר הוא 6.

כתוצאה מכך:

$$\text{ROUGE-2 recall} = \frac{\text{3}} {\text{8} } = 0.375$$

$$\text{ROUGE-2 precision} = \frac{\text{3}} {\text{6} } = 0.5$$

$$\text{ROUGE-2 F}{_1} = \frac{\text{2} * \text{0.375} * \text{0.5}} {\text{0.375} + \text{0.5} } = 0.43$$

ROUGE-S

#Metric

גרסה סלחנית של ROUGE-N שמאפשרת התאמה של skip-gram. כלומר, ROUGE-N סופר רק N-grams שתואמים בדיוק, אבל ROUGE-S סופר גם N-grams שמפרידה ביניהם מילה אחת או יותר. לדוגמה, שקול את הדברים הבאים:

טקסט להפניה: White clouds
טקסט שנוצר: White billowing clouds

כשמחשבים את ROUGE-N, ה-2-gram, ‏ White clouds לא תואם ל-White billowing clouds. עם זאת, כשמחשבים את ROUGE-S, White clouds תואם ל-White billowing clouds.

R בריבוע

#Metric

מדד רגרסיה שמציין כמה מהשונות בתווית נובעת מתכונה ספציפית או מקבוצת תכונות. מקדם המתאם R² הוא ערך בין 0 ל-1, שאפשר לפרש אותו באופן הבא:

ערך של 0 ב-R-squared מציין שאף אחד מהשינויים בתווית לא נובע ממערכת התכונות.
ערך R בריבוע של 1 מציין שכל השונות של תווית מסוימת נובעת מקבוצת התכונות.
ערך R בריבוע בין 0 ל-1 מציין את המידה שבה אפשר לחזות את השונות של התווית ממאפיין מסוים או מקבוצת מאפיינים. לדוגמה, אם ערך ה-R בריבוע הוא 0.10, המשמעות היא ש-10 אחוזים מהשונות בתווית נובעים מקבוצת התכונות. אם ערך ה-R בריבוע הוא 0.20, המשמעות היא ש-20 אחוזים נובעים מקבוצת התכונות, וכן הלאה.

מקדם המתאם R בריבוע הוא הריבוע של מקדם המתאם של פירסון בין הערכים שהמודל חזה לבין הערכים האמיתיים.

S

דירוג

#Metric

החלק במערכת ההמלצות שמספק ערך או דירוג לכל פריט שנוצר בשלב יצירת המועמדים.

מדד הדמיון

#clustering

#Metric

באלגוריתמים של אשכולות, המדד שמשמש לקביעת מידת הדמיון בין שתי דוגמאות.

sparsity

#Metric

מספר הרכיבים שמוגדרים לאפס (או לערך null) בווקטור או במטריצה, חלקי המספר הכולל של הערכים בווקטור או במטריצה. לדוגמה, נניח שיש מטריצה עם 100 רכיבים, שבה 98 תאים מכילים אפס. החישוב של הדלילות מתבצע כך:

$$ {\text{sparsity}} = \frac{\text{98}} {\text{100}} = {\text{0.98}} $$

דלילות של מאפיינים מתייחסת לדלילות של וקטור מאפיינים, ודלילות של מודל מתייחסת לדלילות של משקלי המודל.

squared hinge loss

#Metric

הריבוע של hinge loss. הפסד ציר בריבוע מעניש חריגים בצורה חמורה יותר מאשר הפסד ציר רגיל.

squared loss

#fundamentals

#Metric

מילה נרדפת לירידה ברמת _L2.

T

אובדן נתונים במהלך בדיקה

#fundamentals

#Metric

מדד שמייצג את הפסד של מודל בהשוואה לקבוצת הבדיקה. כשבונים מודל, בדרך כלל מנסים למזער את הפסד הבדיקה. הסיבה לכך היא שערך נמוך של הפסד בבדיקה הוא אות איכות חזק יותר מערך נמוך של הפסד באימון או ערך נמוך של הפסד באימות.

פער גדול בין הפסד הבדיקה לבין הפסד האימון או הפסד האימות מצביע לפעמים על הצורך להגדיל את שיעור הרגולריזציה.

דיוק top-k

#Metric

אחוז הפעמים שבהן 'תווית היעד' מופיעה בתוך k המיקומים הראשונים של רשימות שנוצרו. הרשימות יכולות להיות המלצות מותאמות אישית או רשימה של פריטים שמסודרים לפי softmax.

דיוק k העליון נקרא גם דיוק ב-k.

לוחצים על הסמל כדי לראות דוגמה.

נניח שיש מערכת למידת מכונה שמשתמשת ב-softmax כדי לזהות הסתברויות של עצים על סמך תמונה של עלי עצים. בטבלה הבאה מוצגות רשימות פלט שנוצרו מחמש תמונות של עצים כקלט. כל שורה מכילה תווית יעד וחמישה עצים עם הסבירות הגבוהה ביותר. לדוגמה, אם תווית היעד הייתה maple, מודל למידת המכונה זיהה את elm כעץ הכי סביר, את oak כעץ השני הכי סביר וכן הלאה.

תווית היעד	1	2	3	4	5
מייפל	בוקיצה	אלון	maple	אשור	צפצפה
קרנית	אלון	dogwood	צפצפה	Hickory	מייפל
אלון	oak	טיליה	ארבה	אלמון	Linden
Linden	מייפל	פפאיה	אלון	טיליה	צפצפה
אלון	ארבה	Linden	oak	מייפל	פפאיה

תווית היעד מופיעה במיקום הראשון רק פעם אחת, ולכן דיוק המיקום הראשון הוא:

$$\text{top-1 accuracy} = \frac{\text{1}} {\text{5}} = 0.2$$

תווית היעד מופיעה באחד משלושת המיקומים הראשונים ארבע פעמים, לכן רמת הדיוק של 3 המובילים היא:

$$\text{top-1 accuracy} = \frac{\text{4}} {\text{5}} = 0.8$$

תוכן רעיל

#Metric

המידה שבה התוכן פוגעני, מאיים או מעליב. הרבה מודלים של למידת מכונה יכולים לזהות ולמדוד רעילות. רוב המודלים האלה מזהים רעילות לפי כמה פרמטרים, כמו רמת השפה הפוגעת ורמת השפה המאיימת.

הפסד האימון

#fundamentals

#Metric

מדד שמייצג את האובדן של מודל במהלך איטרציה מסוימת של אימון. לדוגמה, נניח שפונקציית ההפסד היא Mean Squared Error. יכול להיות שההפסד של האימון (השגיאה הממוצעת בריבוע) באיטרציה העשירית הוא 2.2, וההפסד של האימון באיטרציה ה-100 הוא 1.9.

בעקומת הפסד מוצג הפסד האימון לעומת מספר האיטרציות. עקומת ההפסד מספקת את הרמזים הבאים לגבי האימון:

שיפוע כלפי מטה מעיד על שיפור במודל.
שיפוע כלפי מעלה מעיד על כך שהמודל הולך ומשתפר.
שיפוע שטוח מרמז שהמודל הגיע להתכנסות.

לדוגמה, בעקומת ההפסד הבאה, שהיא מעט אידיאלית, מוצגים:

שיפוע חד כלפי מטה במהלך האיטרציות הראשוניות, שמצביע על שיפור מהיר במודל.
שיפוע שמשתטח בהדרגה (אבל עדיין יורד) עד לסיום האימון, מה שמצביע על שיפור מתמשך של המודל בקצב איטי יותר מאשר במהלך האיטרציות הראשוניות.
שיפוע מתון לקראת סוף האימון, שמצביע על התכנסות.

הגרף של הפסד האימון לעומת האיטרציות. עקומת ההפסד הזו מתחילה במדרון תלול כלפי מטה. השיפוע משתטח בהדרגה עד שהוא הופך לאפס.

למרות שחשוב להבין את הפסדי האימון, כדאי גם לעיין במושג הכללה.

שלילי אמיתי (TN)

#fundamentals

#Metric

דוגמה שבה המודל מנבא בצורה נכונה את הסיווג השלילי. לדוגמה, המודל מסיק שהודעת אימייל מסוימת היא לא ספאם, והודעת האימייל הזו באמת לא ספאם.

חיובי אמיתי (TP)

#fundamentals

#Metric

דוגמה שבה המודל מנבא בצורה נכונה את הסיווג החיובי. לדוגמה, המודל מסיק שהודעת אימייל מסוימת היא ספאם, והודעת האימייל הזו באמת ספאם.

שיעור החיוביים האמיתיים (TPR)

#fundamentals

#Metric

מילה נרדפת לrecall. כלומר:

$$\text{true positive rate} = \frac {\text{true positives}} {\text{true positives} + \text{false negatives}}$$

שיעור החיוביים האמיתיים הוא ציר ה-y בעקומת ROC.

V

הפסד אימות

#fundamentals

#Metric

מדד שמייצג את הפסד המודל בקבוצת האימות במהלך איטרציה מסוימת של האימון.

אפשר לעיין גם בעקומת הכללה.

חשיבות המשתנים

#df

#Metric

קבוצת ציונים שמציינת את החשיבות היחסית של כל תכונה למודל.

לדוגמה, נניח שיש עץ החלטה שמבצע הערכה של מחירי בתים. נניח שעץ ההחלטה הזה משתמש בשלושה מאפיינים: מידה, גיל וסגנון. אם קבוצת חשיבות המשתנים של שלושת המאפיינים היא {size=5.8, age=2.5, style=4.7}, אז המאפיין size חשוב יותר לעץ ההחלטה מהמאפיינים age או style.

קיימים מדדים שונים לחשיבות משתנים, שיכולים לספק למומחי למידת מכונה מידע על היבטים שונים של מודלים.

W

פונקציית הפסד Wasserstein

#Metric

אחת מפונקציות ההפסד שבהן נעשה שימוש בדרך כלל ברשתות יריבות גנרטיביות, על סמך מרחק העברת האדמה בין התפלגות הנתונים שנוצרו לבין הנתונים האמיתיים.

מילון מונחים בנושא למידת מכונה: מדדים קל לארגן דפים בעזרת אוספים אפשר לשמור ולסווג תוכן על סמך ההעדפות שלך.

A

דיוק

כדי לקבל פרטים על רמת הדיוק ועל מערכי נתונים לא מאוזנים לפי סיווג, לוחצים על הסמל.

השטח מתחת לעקומת הדיוק וההחזרה

השטח מתחת לעקומת ה-ROC

AUC (השטח מתחת לעקומת ה-ROC)

כדי לקבל מידע על הקשר בין AUC לבין עקומות ROC, לוחצים על הסמל.

אפשר ללחוץ על הסמל כדי לראות הגדרה רשמית יותר של AUC.

דיוק ממוצע ב-k

לוחצים על הסמל כדי לראות דוגמה

B

baseline

C

עלות

הוגנות קונטרה-פקטואלית

אנטרופיה צולבת

פונקציית התפלגות מצטברת (CDF)

D

שוויון דמוגרפי

E

מרחק בין תנועות של עפר (EMD)

מרחק עריכה

פונקציית התפלגות מצטברת אמפירית (eCDF או EDF)

אנטרופיה

שוויון הזדמנויות

הסתברות שווה

evals

הערכה

F

F1

כדי לראות דוגמאות, לוחצים על הסמל.

מדד הוגנות

תוצאה שלילית שגויה (FN)

שיעור השליליים הכוזבים

תוצאה חיובית שגויה (FP)

שיעור התוצאות החיוביות השגויות (FPR)

חשיבות התכונות

מודל בסיס

חלק ההצלחות

G

gini impurity

כדי לראות פרטים מתמטיים על מדד Gini impurity, לוחצים על הסמל.

H

אובדן ציר

I

אי התאמה בין מדדי הוגנות

הוגנות אישית

הרווח ממידע

הסכמה בין מעריכים

L

הפסד של 1

כדי לראות את המתמטיקה הפורמלית, לוחצים על הסמל.

הפסד L2

כדי לראות את המתמטיקה הפורמלית, לוחצים על הסמל.

הערכות של מודלים גדולים של שפה (LLM)

ירידה

פונקציית אובדן

M

שגיאה מוחלטת ממוצעת (MAE)

כדי לראות את המתמטיקה הפורמלית, לוחצים על הסמל.

דיוק ממוצע ב-k (mAP@k)

כדי לראות דוגמה, לוחצים על הסמל.

שגיאה ריבועית ממוצעת (MSE)

כדי לראות את המתמטיקה הפורמלית, לוחצים על הסמל.

כדי לראות פרטים נוספים על חריגים, לוחצים על הסמל.

ערך

‫Metrics API ‏ (tf.metrics)

minimax loss

קיבולת המודל

לא

סיווג שלילי

O

יעד

פונקציית היעד

P

pass at k (pass@k)

לוחצים על הסמל כדי לראות דוגמה.

ביצועים

חשיבות משתנים בתמורה

מילון מונחים בנושא למידת מכונה: מדדים

F₁

הפסד של ₁

הפסד L₂