הדף הזה מכיל מונחים ממילון המדדים. כאן מפורטות כל ההגדרות במילון.
A
דיוק
מספר התחזיות של הסיווג הנכון חלקי מספר התחזיות הכולל. כלומר:
לדוגמה, מודל שהניב 40 תחזיות נכונות ו-10 תחזיות שגויות יהיה בעל רמת דיוק של:
סיווג בינארי מספק שמות ספציפיים לקטגוריות השונות של תחזיות נכונות ותחזיות שגויות. לכן, הנוסחה של הדיוק בסיווג בינארי היא:
כאשר:
- TP הוא מספר החיוביים האמיתיים (תחזיות נכונות).
- TN הוא מספר החיזויים השליליים האמיתיים (חיזויים נכונים).
- FP הוא מספר התוצאות החיוביות השגויות (תחזיות שגויות).
- FN הוא מספר התוצאות השליליות השגויות (תחזיות שגויות).
השוו בין הדיוק לבין הדיוק והחזר.
לוחצים על הסמל כדי לקבל פרטים על הדיוק ועל קבוצות נתונים עם אי-איזון בין הקטגוריות.
למידע נוסף, ראו סיווג: דיוק, זיכרון, רמת דיוק ומדדים קשורים במדריך למתחילים בנושא למידת מכונה.
השטח מתחת לעקומת ה-PR
שטח מתחת לעקומת יחסי הציבור (PR AUC)
השטח מתחת לעקומת ROC
ראו AUC (השטח מתחת לעקומת ROC).
AUC (השטח מתחת לעקומת ROC)
מספר בין 0.0 ל-1.0 שמייצג את היכולת של מודל סיווג בינארי להפריד בין כיתות חיוביות לבין כיתות שליליות. ככל ש-AUC קרוב יותר ל-1.0, כך יכולת המודל להפריד בין הכיתות גבוהה יותר.
לדוגמה, באיור הבא מוצג מודל סיווג שמפריד בצורה מושלמת בין כיתות חיוביות (אליפסות ירוקות) לכיתות שליליות (ריבועים סגולים). המודל המושלם הלא ריאליסטי הזה כולל AUC של 1.0:
לעומת זאת, באיור הבא מוצגות התוצאות של מודל סיווג שיצר תוצאות אקראיות. ערך ה-AUC של המודל הזה הוא 0.5:
כן, ערך AUC של המודל הקודם הוא 0.5 ולא 0.0.
רוב המודלים נמצאים במקום כלשהו בין שני הקצוות. לדוגמה, המודל הבא מפריד באופן חלקי בין תוצאות חיוביות לשליליות, ולכן ערך ה-AUC שלו הוא בין 0.5 ל-1.0:
פונקציית AUC מתעלמת מכל ערך שתגדירו לסף הסיווג. במקום זאת, AUC מתייחס לכל ערכי הסף האפשריים לסיווג.
לוחצים על הסמל כדי לקרוא על הקשר בין עקומות AUC ו-ROC.
לוחצים על הסמל כדי לקבל הגדרה רשמית יותר של AUC.
למידע נוסף, ראו סיווג: ROC ו-AUC בקורס המקוצר בנושא למידת מכונה.
דיוק ממוצע ב-k
מדד שמסכם את הביצועים של מודל בהנחיה אחת, שמניבה תוצאות מדורגות, כמו רשימה ממוספרת של המלצות לספרים. רמת הדיוק הממוצעת ב-k היא הממוצע של ערכי רמת הדיוק ב-k לכל תוצאה רלוונטית. לכן, הנוסחה לחישוב הדיוק הממוצע ב-k היא:
כאשר:
- הוא מספר הפריטים הרלוונטיים ברשימה.
בניגוד להחזרה למצב הקודם ב-k.
לוחצים על הסמל כדי לראות דוגמה
B
קו בסיס
מודל המשמש כנקודת ייחוס להשוואה של הביצועים של מודל אחר (בדרך כלל מודל מורכב יותר). לדוגמה, מודל רגרסיה לוגיסטית יכול לשמש כבסיס טוב למודל עומק.
כשמדובר בבעיה מסוימת, קו הבסיס עוזר למפתחי המודלים לכמת את רמת הביצועים המינימלית הצפויה שמודל חדש צריך להשיג כדי שיהיה שימושי.
C
עלות
מילה נרדפת ל-loss.
הוגנות תנאי-נגד
מדד הוגנות שבודק אם סיווג נותן את אותו תוצאה לאדם אחד כמו לאדם אחר שזהה לראשון, מלבד מאפיינים רגישים אחד או יותר. בדיקת הסיווג לצורך בדיקת הוגנות נגדית היא אחת מהשיטות לזיהוי מקורות פוטנציאליים של הטיה במודל.
מידע נוסף זמין במאמרים הבאים:
- צדק: הוגנות נגדית בקורס המקוצר על למידת מכונה.
- When Worlds Collide: Integrating Different Counterfactual Assumptions in Fairness
אנטרופיה חוצת-מודלים
הכללה של Log Loss לבעיות סיווג בכמה מחלקות. האנטרופיה הצולבת מאפשרת למדוד את ההבדל בין שתי התפלגויות הסתברות. מידע נוסף זמין במאמר תסבוכת.
פונקציית התפלגות מצטברת (CDF)
פונקציה שמגדירה את התדירות של דגימות שקטנות מערך היעד או שוות לו. לדוגמה, נניח התפלגות נורמלית של ערכים רציפים. CDF מראה ש-50% מהדגימות צריכות להיות קטנות מ-mean או שווה לו, ו-84% מהדגימות צריכות להיות קטנות מ-mean או שווה לו סטיית תקן אחת מעל mean.
D
שוויון דמוגרפי
מדד הוגנות שמתקיים אם תוצאות הסיווג של מודל לא תלויות במאפיין רגיש נתון.
לדוגמה, אם גם תלמידים מליליפוט וגם תלמידים מברובדינגיאני מתקבלים לאוניברסיטת גלובדדבריב, המשמעות היא ששוויון דמוגרפי מתקיים אם אחוז הקבלה של התלמידים מליליפוט זהה לאחוז הקבלה של התלמידים מברובדינגיאני, ללא קשר לכך שקבוצה אחת כשירה יותר בממוצע מהקבוצה השנייה.
בניגוד להשוואת הסיכויים ולשוויון הזדמנויות, שבהם מותר לתוצאות הסיווג הכוללות להיות תלויות במאפיינים רגישים, אבל אסור לתוצאות הסיווג של תוויות מסוימות של אמת בפועל להיות תלויות במאפיינים רגישים. במאמר 'התמודדות עם אפליה באמצעות למידת מכונה חכמה יותר' מופיעה הדמיה שממחישה את הפשרות שצריך לעשות כשמבצעים אופטימיזציה להשגת שוויון דמוגרפי.
למידע נוסף, ראו צדק: שוויון דמוגרפי בקורס המקוצר בנושא למידת מכונה.
E
מרחק העברה של ציוד הנדסי (EMD)
מדד הדמיון היחסי בין שתי התפלגויות. ככל שהמרחק של 'הגורם המניע' נמוך יותר, כך התפלגויות דומות יותר.
edit distance
מדידה של מידת הדמיון בין שתי מחרוזות טקסט. בלמידת מכונה, מרחק העריכה שימושי מהסיבות הבאות:
- קל לחשב את מרחק העריכה.
- אפשר להשתמש במרחק העריכה כדי להשוות בין שתי מחרוזות שידוע שהן דומות זו לזו.
- מרחק העריכה יכול לקבוע את מידת הדמיון בין מחרוזות שונות למחרוזת נתונה.
יש כמה הגדרות של מרחק עריכה, וכל אחת מהן משתמשת בפעולות שונות על מחרוזות. דוגמה לכך מופיעה בקטע מרחק Levenshtein.
פונקציית ההתפלגות המצטברת האמפירית (eCDF או EDF)
פונקציית התפלגות מצטברת שמבוססת על מדידות אמפיריות ממערך נתונים אמיתי. הערך של הפונקציה בכל נקודה על ציר ה-x הוא החלק היחסי של התצפיות במערך הנתונים שקטנות מהערך שצוין או שוות לו.
אנטרופיה
ב תיאוריית המידע, תיאור של מידת הבלתי צפוי של התפלגות הסתברות. לחלופין, אנטרופי מוגדר גם ככמות המידע שמכילה כל דוגמה. ההסתברות הגבוהה ביותר של אנטרופי בחלוקה מתקבלת כאשר כל הערכים של משתנה אקראי סבירים באותה מידה.
הנוסחה של האנטרופיה של קבוצה עם שני ערכים אפשריים, '0' ו-'1' (לדוגמה, התוויות בבעיה של סיווג בינארי) היא:
H = -p log p - q log q = -p log p - (1-p) * log (1-p)
כאשר:
- H היא האנטרופיה.
- p הוא החלק היחסי של הדוגמאות עם הערך '1'.
- q הוא החלק היחסי של דוגמאות עם ערך '0'. הערה: q = (1 - p)
- בדרך כלל, log הוא log2. במקרה הזה, יחידת האנטרופי היא ביט.
לדוגמה, נניח את הפרטים הבאים:
- 100 דוגמאות מכילות את הערך '1'
- 300 דוגמאות מכילות את הערך '0'
לכן, ערך האנטרופיה הוא:
- p = 0.25
- q = 0.75
- H = (-0.25)log2(0.25) - (0.75)log2(0.75) = 0.81 ביט לדוגמה
לאוסף מאוזן באופן מושלם (לדוגמה, 200 '0' ו-200 '1') תהיה אנטרופיה של 1.0 ביט לכל דוגמה. ככל שהקבוצה לא מאוזנת יותר, האנטרופי שלה מתקרב ל-0.0.
בעצים של החלטות, האנטרופיה עוזרת לנסח את השיפור במידע כדי לעזור למחלץ לבחור את התנאים במהלך הצמיחה של עץ החלטות לסיווג.
השוואה בין האנטרופיה לבין:
- gini impurity
- פונקציית האובדן cross-entropy
לעיתים קרובות קוראים לאנטרופיה אנטרופיית שרנון.
מידע נוסף זמין בקטע Exact splitter for binary classification with numerical features בקורס Decision Forests.
שוויון הזדמנויות
מדד הוגנות שמאפשר להעריך אם מודל מסוים מנבא את התוצאה הרצויה באותה מידה לכל הערכים של מאפיין רגיש. במילים אחרות, אם התוצאה הרצויה של מודל היא הסיווג החיובי, המטרה היא ששיעור החיוביים האמיתיים יהיה זהה בכל הקבוצות.
שוויון הזדמנויות קשור לשוויון הסיכויים, שמחייב שגם שיעורי החיובים האמיתיים וגם שיעורי החיובים השקריים יהיו זהים בכל הקבוצות.
נניח ש-Glubbdubdrib University מקבלת גם ליליפוטים וגם ברודינגנגיים לתוכנית מתמטיקה מחמירה. בתי הספר העל-יסודיים של ליליפוט מציעים תוכנית לימודים עשירה של שיעורי מתמטיקה, ורוב התלמידים עומדים בדרישות הקבלה לתוכנית האוניברסיטאית. בתי הספר התיכוניים בברודינגנ' לא מציעים שיעורי מתמטיקה בכלל, וכתוצאה מכך, הרבה פחות תלמידים עומדים בדרישות. שוויון הזדמנויות מתקיים לגבי התווית המועדפת 'התקבל' ביחס לאזרחות (ליליפוטי או ברודינגיאני) אם הסיכוי של תלמידים שעומדים בדרישות להתקבל הוא זהה, ללא קשר לכך שהם ליליפוטיים או ברודינגיאניים.
לדוגמה, נניח ש-100 תלמידים מליליפוט ו-100 תלמידים מברובדינגינג מגישים בקשה לאוניברסיטת Glubbdubdrib, וההחלטות לגבי הקבלה מתקבלות באופן הבא:
טבלה 1. מועמדים קטנים (90% מהם עומדים בדרישות)
כשיר | לא מתאים | |
---|---|---|
התקבל | 45 | 3 |
נדחה | 45 | 7 |
סה"כ | 90 | 10 |
אחוז התלמידים שעומדים בדרישות והתקבלו: 45/90 = 50% אחוז התלמידים שלא עומדים בדרישות והודחו: 7/10 = 70% אחוז התלמידים מליליפוטיה שהתקבלו בסה"כ: (45+3)/100 = 48% |
טבלה 2. מועמדים עם נתונים עצומים (10% מהם עומדים בדרישות):
כשיר | לא מתאים | |
---|---|---|
התקבל | 5 | 9 |
נדחה | 5 | 81 |
סה"כ | 10 | 90 |
אחוז הסטודנטים שעומדים בדרישות והתקבלו: 5/10 = 50% אחוז הסטודנטים שלא עומדים בדרישות והודחו: 81/90 = 90% אחוז הסטודנטים מברודינגיאניה שהתקבלו: (5+9)/100 = 14% |
הדוגמאות הקודמות עומדות בקריטריון של שוויון הזדמנויות לקבלת תלמידים שעומדים בדרישות, כי לכל אחד מתלמידי ליליפוט וברודינגנז יש סיכוי של 50% להתקבל.
אמנם מדד השוויון הזדמנויות עומד בדרישות, אבל שני מדדי ההוגנות הבאים לא עומדים בדרישות:
- שוויון דמוגרפי: סטודנטים מליליפוטי ומברודינגיאני מתקבלים לאוניברסיטה בשיעורים שונים: 48% מהסטודנטים מליליפוטי מתקבלים, אבל רק 14% מהסטודנטים מברודינגיאני מתקבלים.
- שוויון סיכויים: לתלמידים שעומדים בדרישות מליליפוטין ומברודינגיאניה יש את אותה ההסתברות להתקבל, אבל לא מתקיים האילוץ הנוסף שלפיו לתלמידים שלא עומדים בדרישות מליליפוטין ומברודינגיאניה יש את אותה ההסתברות להידחות. בקשות של ליליפוטנים לא כשירים נדחות בשיעור של 70%, ואילו בקשות של ברודינגנזים לא כשירים נדחות בשיעור של 90%.
למידע נוסף, ראו צדק: שוויון הזדמנויות בקורס המקוצר בנושא למידת מכונה.
הסתברות שווה
מדד הוגנות שמאפשר להעריך אם מודל מנבא תוצאות באותה רמה לכל הערכים של מאפיין רגיש, הן לגבי הסיווג החיובי והן לגבי הסיווג השלילי – ולא רק לגבי סיווג אחד או השני בלבד. במילים אחרות, גם שיעור החיובים האמיתיים וגם שיעור השלילים הכוזבים צריכים להיות זהים בכל הקבוצות.
האפשרות 'שוויון סיכויים' קשורה לשוויון הזדמנויות, שמתמקדת רק בשיעורי שגיאות של סיווג אחד (חיובי או שלילי).
לדוגמה, נניח שאוניברסיטת Glubbdubdrib מקבלת גם ליליפוטים וגם ברודינגנאים לתוכנית מתמטיקה מחמירה. בתי הספר התיכוניים של ליליפוט מציעים תוכנית לימודים עשירה של שיעורי מתמטיקה, ורוב התלמידים עומדים בדרישות הקבלה לתוכנית האוניברסיטאית. בתי הספר התיכוניים בברודינגנ' לא מציעים שיעורי מתמטיקה בכלל, וכתוצאה מכך, הרבה פחות תלמידים עומדים בדרישות. הקריטריון של שוויון הסיכויים מתקיים אם לא משנה אם המועמד הוא אדם קטן או אדם גדול, אם הוא עומד בדרישות, הסיכוי שלו להתקבל לתוכנית הוא זהה, ואם הוא לא עומד בדרישות, הסיכוי שלו להידחות הוא זהה.
נניח ש-100 תלמידים מליליפוט ו-100 תלמידים מברובדינגיאני שולחים בקשות לאוניברסיטת Glubbdubdrib, וההחלטות לגבי הקבלה מתקבלות באופן הבא:
טבלה 3 מועמדים קטנים (90% מהם עומדים בדרישות)
כשיר | לא מתאים | |
---|---|---|
התקבל | 45 | 2 |
נדחה | 45 | 8 |
סה"כ | 90 | 10 |
אחוז התלמידים שעומדים בדרישות והתקבלו: 45/90 = 50% אחוז התלמידים שלא עומדים בדרישות והודחו: 8/10 = 80% אחוז התלמידים מליליפוטיה שהתקבלו בסה"כ: (45+2)/100 = 47% |
טבלה 4. מועמדים עם נתונים עצומים (10% מהם עומדים בדרישות):
כשיר | לא מתאים | |
---|---|---|
התקבל | 5 | 18 |
נדחה | 5 | 72 |
סה"כ | 10 | 90 |
אחוז הסטודנטים שעומדים בדרישות והתקבלו: 5/10 = 50% אחוז הסטודנטים שלא עומדים בדרישות והודחו: 72/90 = 80% אחוז הסטודנטים מברודינגיאניה שהתקבלו: (5+18)/100 = 23% |
תנאי הקבלה של שוויון הסיכויים מתקיים כי לסטודנטים מתאימים מליליפוטי ומברודינגיאני יש סיכוי של 50% להתקבל, ולסטודנטים לא מתאימים מליליפוטי ומברודינגיאני יש סיכוי של 80% להידחות.
ההגדרה הרשמית של שוויון הסיכויים מופיעה במאמר 'שוויון הזדמנויות בלמידה בפיקוח' באופן הבא: "המנבא Ŷ עומד בתנאי של שוויון הסיכויים ביחס למאפיין המוגן A ולתוצאה Y אם Ŷ ו-A הם עצמאיים, מותנים ב-Y".
evals
משמש בעיקר כקיצור של הערכות LLM. באופן כללי, evals היא קיצור של כל סוג של בדיקה.
הערכה
התהליך של מדידת האיכות של מודל או השוואה בין מודלים שונים.
כדי להעריך מודל של למידת מכונה מבוקרת, בדרך כלל משווים אותו לקבוצת אימות ולקבוצת בדיקה. הערכת LLM כוללת בדרך כלל הערכות איכות ובטיחות רחבות יותר.
F
F1
מדד 'צביר' של סיווג בינארי שמבוסס גם על דיוק וגם על החזר. זו הנוסחה:
לוחצים על הסמל כדי לראות דוגמאות.
מדד הוגנות
הגדרה מתמטית של 'הוגנות' שניתנת למדידה. דוגמאות למדדי הוגנות נפוצים:
הרבה מדדי הוגנות הם בלתי ניתנים להפרדה. אפשר לקרוא מידע נוסף במאמר חוסר תאימות של מדדי הוגנות.
תוצאה שלילית שגויה (FN)
דוגמה שבה המודל חוזה בטעות את המחלקה השלילית. לדוגמה, המודל צופה שהודעת אימייל מסוימת לא היא ספאם (הקבוצה השלילית), אבל ההודעה הזו באמת ספאם.
שיעור תוצאות שליליות שגויות
היחס בין הדוגמאות החיוביות בפועל שהמודל ניבא בטעות את הכיתה השלילית. הנוסחה הבאה מחשבת את שיעור השליפות השגויות של בקשות תמיכה:
מידע נוסף זמין בקטע סף וערכי מטריצת הבלבול בקורס המקוצר בנושא למידת מכונה.
תוצאה חיובית שגויה (FP)
דוגמה שבה המודל חוזה בטעות את המחלקה החיובית. לדוגמה, המודל חוזה שהודעת אימייל מסוימת היא ספאם (הקלאס החיובי), אבל הודעת האימייל הזו בפועל לא ספאם.
מידע נוסף זמין בקטע סף וערכי מטריצת הבלבול בקורס המקוצר בנושא למידת מכונה.
שיעור תוצאות חיוביות שגויות (FPR)
היחס בין דוגמאות שליליות בפועל שהמודל ניבא בטעות את הכיתה החיובית. הנוסחה הבאה מחשבת את שיעור התוצאות החיוביות השגויות:
שיעור החיובים השקריים הוא ציר ה-x בעקומת ROC.
למידע נוסף, ראו סיווג: ROC ו-AUC בקורס המקוצר בנושא למידת מכונה.
מדדי החשיבות של המאפיינים
שם נרדף לחשיבות המשתנים.
חלוקת ההצלחות
מדד להערכת הטקסט שנוצר של מודל למידת מכונה. החלק של ההצלחות הוא מספר הפלט של הטקסט שנוצר 'בהצלחה' חלקי המספר הכולל של הפלט של הטקסט שנוצר. לדוגמה, אם מודל שפה גדול יצר 10 בלוקים של קוד, מתוכם 5 בוצעו בהצלחה, החלק של ההצלחות יהיה 50%.
אמנם היחס בין מספר ההצלחות למספר הניסיונות שימושי באופן כללי בתחום הסטטיסטיקה, אבל ב-ML המדד הזה שימושי בעיקר למדידת משימות שניתן לאמת, כמו יצירת קוד או בעיות מתמטיות.
G
זיהום של Gini
מדד דומה ל-אנטרופי. מחליקים משתמשים בערכים שמקורם בזיהום של Gini או באנטרופי כדי ליצור תנאים לסיווג של עצים של החלטות. רווח המידע נגזר מהאנטרופיה. אין מונח מקביל מקובל באופן אוניברסלי למדד שמתקבל מ-gini impurity. עם זאת, המדד הזה ללא שם חשוב באותה מידה כמו הרווח המידעי.
אי-הטהרה של Gini נקראת גם מדד Gini או פשוט Gini.
לוחצים על הסמל כדי לראות פרטים מתמטיים על אי-טהר של Gini.
H
אובדן ציר
משפחה של פונקציות אובדן לסיווג שנועדו למצוא את גבול ההחלטה במרחק הגדול ביותר האפשרי מכל דוגמה לאימון, וכך למקסם את המרווח בין הדוגמאות לגבול. KSVM משתמשים באובדן ציר (או בפונקציה קשורה, כמו אובדן ציר בריבוע). בסיווג בינארי, פונקציית הפסד של ציר ההטיה מוגדרת כך:
כאשר y הוא התווית האמיתית, 1 או -1, ו-y' הוא הפלט הגולמי של מודל הסיווג:
לכן, התרשים של אובדן הצירים לעומת (y * y') נראה כך:
I
אי-תאימות של מדדי הוגנות
הרעיון שחלק מהמושגים של הוגנות לא תואמים זה לזה, ואי אפשר לעמוד בהם בו-זמנית. כתוצאה מכך, אין מדד אוניברסלי יחיד למדידה של הוגנות שאפשר להחיל על כל הבעיות של למידת המכונה.
יכול להיות שזה נשמע מייאש, אבל חוסר התאימות של מדדי הצדק לא מעיד על כך שהמאמצים לשמירה על הצדק לא מניבים תוצאות. במקום זאת, מוצע להגדיר את הצדק בהקשר של בעיה נתונה של למידת מכונה, במטרה למנוע נזקים ספציפיים לתרחישים לדוגמה שלה.
במאמר On the (im)possibility of fairness מפורטת יותר הבעיה של אי-התאימות בין מדדי הצדק.
הוגנות אישית
מדד הוגנות שבודק אם אנשים דומים מסווגים באופן דומה. לדוגמה, בית הספר Brobdingnagian Academy עשוי לרצות לשמור על הוגנות אישית על ידי הבטחת הסיכוי שווה של שני תלמידים עם ציונים זהים בבחינות סטנדרטיות להתקבל לבית הספר.
חשוב לזכור שצדק לכל תלמיד או תלמידה תלוי לחלוטין באופן שבו מגדירים את 'הדמיון' (במקרה הזה, ציונים במבחנים), ויש סיכון להוספת בעיות חדשות של צדק אם מדד הדמיון לא כולל מידע חשוב (למשל, רמת הקושי של תוכנית הלימודים של התלמיד או התלמידה).
במאמר 'הגינות באמצעות מודעוּת' מפורטת דיון מעמיק יותר בנושא הוגנות ברמת הפרט.
רווח מידע
ביערות החלטות, ההפרש בין האנטרופי של צומת לבין הסכום המשוקלל (לפי מספר הדוגמאות) של האנטרופיה של צומתי הצאצאים שלו. האנטרופיה של צומת היא האנטרופיה של הדוגמאות בצומת הזה.
לדוגמה, אלה ערכי האנטרופיה הבאים:
- האנטרופיה של צומת ההורה = 0.6
- האנטרופיה של צומת צאצא אחד עם 16 דוגמאות רלוונטיות = 0.2
- האנטרופיה של צומת צאצא אחר עם 24 דוגמאות רלוונטיות = 0.1
כלומר, 40% מהדוגמאות נמצאות בצומת צאצא אחד ו-60% נמצאות בצומת הצאצא השני. לכן:
- סכום האנטרופיה המשוקל של צומתי הצאצאים = (0.4 * 0.2) + (0.6 * 0.1) = 0.14
לכן, הרווח המידעי הוא:
- רווח מידע = אנטרופיה של צומת הורה - סכום אנטרופיה משוקלל של צמתים צאצאים
- רווח המידע = 0.6 - 0.14 = 0.46
רוב המחלקים מנסים ליצור תנאים שממקסמים את הרווח המידעי.
הסכמה בין בודקים
מדד של התדירות שבה בודקים אנושיים מסכימים כשהם מבצעים משימה. אם הדעות של הבודקים חלוקות, יכול להיות שצריך לשפר את הוראות המשימה. המדד הזה נקרא לפעמים גם הסכמה בין כותבי התווית או מהימנות בין בודקים. אפשר לעיין גם בקאפה של כהן, אחד המדדים הפופולריים ביותר למדידת הסכמה בין בודקים.
למידע נוסף, ראו נתונים קטגוריאליים: בעיות נפוצות בקורס המקוצר על למידת מכונה.
L
אובדן L1
פונקציית אובדן שמחשבת את הערך המוחלט של ההפרש בין הערכים בפועל של התוויות לבין הערכים שהמודל צופה. לדוגמה, זהו החישוב של אובדן L1 בקבוצה של חמש דוגמאות:
הערך בפועל של הדוגמה | הערך הצפוי של המודל | הערך המוחלט של הדלתה |
---|---|---|
7 | 6 | 1 |
5 | 4 | 1 |
8 | 11 | 3 |
4 | 6 | 2 |
9 | 8 | 1 |
8 = אובדן L1 |
אובדן L1 פחות רגיש לערכים חריגים מאשר אובדן L2.
השגיאה הממוצעת המוחלטת היא אובדן L1 הממוצע לכל דוגמה.
לוחצים על הסמל כדי לראות את הנוסחה המתמטית הרשמית.
למידע נוסף, אפשר לעיין בקטע רגרסיה לינארית: אובדן (loss) במדריך למתחילים בנושא למידת מכונה.
אובדן L2
פונקציית אובדן שמחשבת את הריבוע של ההפרש בין הערכים בפועל של התוויות לבין הערכים שהמודל צופה. לדוגמה, זהו החישוב של אובדן L2 בקבוצה של חמש דוגמאות:
הערך בפועל של הדוגמה | הערך הצפוי של המודל | ריבוע הדלתא |
---|---|---|
7 | 6 | 1 |
5 | 4 | 1 |
8 | 11 | 9 |
4 | 6 | 4 |
9 | 8 | 1 |
16 = הפסד ב-L2 |
בגלל הריבועים, אובדן L2 מגביר את ההשפעה של ערכים חריגים. כלומר, אובדן L2 מגיב בצורה חזקה יותר לחיזויים גרועים מאשר אובדן L1. לדוגמה, האובדן ב-L1 של האצווה הקודמת יהיה 8 במקום 16. שימו לב שערכה חריגה אחת מהווה 9 מתוך 16 הערכים.
במודלים של רגרסיה נעשה בדרך כלל שימוש בפונקציית ההפסד L2.
השגיאה הריבובית הממוצעת היא אובדן L2 הממוצע לכל דוגמה. Squared loss הוא שם נוסף ל-L2 loss.
לוחצים על הסמל כדי לראות את הנוסחה המתמטית הרשמית.
מידע נוסף זמין בקטע Logistic regression: Loss and regulation במדריך למתחילים בנושא למידת מכונה.
הערכות של LLM (evals)
קבוצה של מדדים ואמות מידה להערכת הביצועים של מודלים גדולים של שפה (LLMs). ברמת העל, הערכות LLM:
- לעזור לחוקרים לזהות תחומים שבהם יש צורך בשיפור של LLM.
- שימושיים להשוואה בין מודלים שונים של LLM ולזיהוי המודל הטוב ביותר למשימות מסוימות.
- עוזרים לוודא שהשימוש ב-LLMs בטוח ואתי.
למידע נוסף, אפשר לקרוא את המאמר מודלים גדולים של שפה (LLMs) בקורס המקוצר על למידת מכונה.
אובדן
במהלך האימון של מודל בפיקוח, מדד למרחק בין התחזית של המודל לבין התווית שלו.
פונקציית אובדן מחשבת את האובדן.
מידע נוסף זמין בקטע רגרסיה לינארית: אובדן (loss) במדריך למתחילים בנושא למידת מכונה.
פונקציית אובדן
במהלך האימון או הבדיקה, פונקציה מתמטית שמחשבת את האובדן בקבוצה של דוגמאות. פונקציית אובדן מחזירה אובדן נמוך יותר במודלים שמפיקים תחזיות טובות, בהשוואה למודלים שמפיקים תחזיות גרועות.
מטרת האימון היא בדרך כלל למזער את האובדן שפונקציית האובדן מחזירה.
יש סוגים רבים של פונקציות אובדן. בוחרים את פונקציית האובדן המתאימה לסוג המודל שאתם יוצרים. לדוגמה:
- אובדן L2 (או שגיאה ריבועית ממוצעת) הוא פונקציית האובדן של רגרסיה ליניארית.
- Log Loss היא פונקציית האובדן של רגרסיה לוגיסטית.
M
טעות ממוצעת (MAE)
האובדן הממוצע לכל דוגמה כשנעשה שימוש באובדן L1. מחשבים את שגיאת שור (MAE) באופן הבא:
- חישוב האובדן מסוג L1 של קבוצה.
- מחלקים את האובדן L1 במספר הדוגמאות באצווה.
לוחצים על הסמל כדי לראות את הנוסחה המתמטית הרשמית.
לדוגמה, נבחן את החישוב של אובדן L1 על קבוצת חמישה דוגמאות הבאה:
הערך בפועל של הדוגמה | הערך הצפוי של המודל | אובדן (ההבדל בין הערך בפועל לבין הערך הצפוי) |
---|---|---|
7 | 6 | 1 |
5 | 4 | 1 |
8 | 11 | 3 |
4 | 6 | 2 |
9 | 8 | 1 |
8 = אובדן L1 |
לכן, אובדן L1 הוא 8 ומספר הדוגמאות הוא 5. לכן, הטעות הממוצעת המוחלטת היא:
Mean Absolute Error = L1 loss / Number of Examples Mean Absolute Error = 8/5 = 1.6
ניגודיות בין הטעות הממוצעת המוחלטת לבין השגיאה הריבובית הממוצעת והשגיאה הריבובית הממוצעת השורשית.
דיוק ממוצע ממוצע ב-k (mAP@k)
הממוצע הסטטיסטי של כל הציונים של דיוק ממוצע ב-k במערך נתונים לצורכי אימות. אחת מהשימושים של רמת הדיוק הממוצעת הממוצעת ב-k היא להעריך את איכות ההמלצות שנוצרות על ידי מערכת המלצות.
למרות שהביטוי 'ממוצע ממוצע' נשמע מיותר, השם של המדד מתאים. אחרי הכל, המדד הזה מחשב את הממוצע של כמה ערכים של רמת דיוק ממוצעת ב-k.
לוחצים על הסמל כדי לראות דוגמה.
טעות ריבועית ממוצעת (MSE)
האובדן הממוצע לכל דוגמה כשמשתמשים באובדן L2. מחשבים את הטעות הריבובית הממוצעת באופן הבא:
- חישוב אובדן L2 של קבוצה.
- מחלקים את האובדן L2 במספר הדוגמאות בקבוצה.
לוחצים על הסמל כדי לראות את הנוסחה המתמטית הרשמית.
לדוגמה, נניח שמדובר באובדן בקבוצה הבאה של חמש דוגמאות:
ערך בפועל | החיזוי של המודל | הפסד | Squared loss |
---|---|---|---|
7 | 6 | 1 | 1 |
5 | 4 | 1 | 1 |
8 | 11 | 3 | 9 |
4 | 6 | 2 | 4 |
9 | 8 | 1 | 1 |
16 = הפסד ב-L2 |
לכן, הטעות הריבובית הממוצעת היא:
Mean Squared Error = L2 loss / Number of Examples Mean Squared Error = 16/5 = 3.2
טעות ריבועית ממוצעת היא אופטימיזטור פופולרי של אימון, במיוחד לרגרסיה לינארית.
ניגוד בין הטעות הריבובית הממוצעת לבין השגיאה המוחלטת הממוצעת והשורש של הטעות הריבובית הממוצעת.
ב-TensorFlow Playground נעשה שימוש ב-Mean Squared Error כדי לחשב את ערכי האובדן.
לוחצים על הסמל כדי לראות פרטים נוספים על ערכים חריגים.
ערך
נתון סטטיסטי שחשוב לכם.
יעד הוא מדד שמערכת למידת המכונה מנסה לבצע אופטימיזציה שלו.
Metrics API (tf.metrics)
ממשק API של TensorFlow לבדיקת מודלים. לדוגמה, הערך של tf.metrics.accuracy
קובע באיזו תדירות התחזיות של מודל תואמות לתוויות.
אובדן מינימלי מקסימלי
פונקציית אובדן לרשתות יריבות גנרטיביות, שמבוססת על האנטרופי החוצה בין התפלגות הנתונים שנוצרו לבין הנתונים האמיתיים.
אובדן Minimax משמש במאמר הראשון כדי לתאר רשתות יריבות גנרטיביות.
מידע נוסף זמין בקטע פונקציות אובדן בקורס Generative Adversarial Networks.
קיבולת המודל
המורכבות של הבעיות שהמודל יכול ללמוד. ככל שהבעיות שהמודל יכול ללמוד הן מורכבות יותר, כך הקיבולת של המודל גבוהה יותר. בדרך כלל, הקיבולת של מודל עולה ככל שמספר הפרמטרים שלו עולה. להגדרה הרשמית של קיבולת הסיווג, ראו מאפיין VC.
לא
סיווג שלילי
בסיווג בינארי, סיווג אחד נקרא חיובי והסיווג השני נקרא שלילי. המחלקה החיובית היא הדבר או האירוע שהמודל בודק, והמחלקה השלילית היא האפשרות השנייה. לדוגמה:
- הכיתה השלילית בבדיקות רפואיות עשויה להיות 'לא גידול'.
- הכיתה השלילית בסיווג אימיילים עשויה להיות 'לא ספאם'.
בניגוד לכיתה חיובית.
O
יעד
מדד שהאלגוריתם מנסה לבצע אופטימיזציה שלו.
פונקציית היעד
הנוסחה המתמטית או המדד שהמודל שואף לבצע אופטימיזציה עבורם. לדוגמה, פונקציית היעד של רגרסיה לינארית היא בדרך כלל אובדן ממוצע ריבועים. לכן, כשמאמנים מודל של רגרסיה לינארית, המטרה של האימון היא למזער את אובדן הריבוע הממוצע.
במקרים מסוימים, המטרה היא למקסם את פונקציית היעד. לדוגמה, אם פונקציית היעד היא דיוק, היעד הוא למקסם את הדיוק.
מידע נוסף זמין במאמר אובדן.
P
pass at k (pass@k)
מדד לקביעת איכות הקוד (לדוגמה, Python) שנוצר על ידי מודל שפה גדול. באופן ספציפי יותר, הערך pass at k מראה את הסבירות לכך שלפחות בלוק קוד אחד מתוך k בלוקים של קוד שנוצרו יעבור את כל בדיקות היחידה שלו.
לרוב, מודלים גדולים של שפה מתקשים ליצור קוד טוב לבעיות תכנות מורכבות. מהנדסי התוכנה מתמודדים עם הבעיה הזו על ידי בקשה מהמודל הגדול של השפה ליצור מספר (k) פתרונות לאותה בעיה. לאחר מכן, מהנדסי התוכנה בודקים כל אחד מהפתרונות באמצעות בדיקות יחידה. החישוב של 'הצלחה ב-k' תלוי בתוצאה של בדיקות היחידה:
- אם פתרון אחד או יותר עובר את בדיקת היחידה, ה-LLM עובר את האתגר של יצירת הקוד.
- אם אף אחד מהפתרונות לא עובר את בדיקת היחידה, ה-LLM נכשל באתגר יצירת הקוד.
הנוסחה לעבור ב-k היא:
באופן כללי, ככל שהערך של k גבוה יותר, כך ציון ה-pass ב-k גבוה יותר. עם זאת, ככל שהערך של k גבוה יותר, כך נדרשים יותר משאבים של מודלים גדולים של שפה ובדיקות יחידה.
לוחצים על הסמל כדי לראות דוגמה.
ביצועים
מונח עם עומס יתר, עם המשמעויות הבאות:
- המשמעות הרגילה בהנדסת תוכנה. כלומר: עד כמה התוכנה הזו פועלת במהירות (או ביעילות)?
- המשמעות בלמידת מכונה. כאן, הביצועים עונים על השאלה הבאה: עד כמה המודל הזה מדויק? כלומר, מה רמת הדיוק של התחזיות של המודל?
רמות החשיבות של משתני תמורה
סוג של חשיבות משתנה שמאפשר להעריך את העלייה בשגיאת החיזוי של מודל אחרי שינוי הסדר של הערכים של המאפיין. המדד 'חשיבות משתנה המַפְרִין' הוא מדד שאינו תלוי במודל.
בלבול
מדד אחד של מידת היעילות שבה מודל ממלא את המשימה שלו. לדוגמה, נניח שהמשימה שלכם היא לקרוא את האותיות הראשונות של מילה שהמשתמש מקליד במקלדת הטלפון, ולהציע רשימה של מילים אפשריות להשלמה. הערך של Perplexity, P, במשימה הזו הוא בערך מספר ההשערות שצריך להציע כדי שהרשימה תכיל את המילה בפועל שהמשתמש מנסה להקליד.
הבלבול קשור לאנtropy חוצה באופן הבא:
מחלקה חיובית
הכיתה שאליה אתם בודקים את התלמידים.
לדוגמה, הכיתה החיובית בדגם של סרטן עשויה להיות 'גידול'. הכיתה החיובית בסיווג אימיילים עשויה להיות 'ספאם'.
בניגוד לכיתה שלילית.
לוחצים על הסמל כדי להוסיף הערות.
AUC של יחסי ציבור (השטח מתחת לעקומת יחסי הציבור)
האזור מתחת לעקומת הדיוק-הזיהוי שעבר אינטרפולציה, שנוצר על ידי הצגה גרפית של הנקודות (זיהוי, דיוק) לערכים שונים של סף הסיווג.
דיוק
מדד למודלים של סיווג שמשיב על השאלה הבאה:
כשהמודל חזה את הקלאס החיובי, מהו אחוז התחזיות שהיו נכונות?
זו הנוסחה:
כאשר:
- 'חיובי נכון' פירושו שהמודל חזה בצורה נכונה את הכיתה החיובית.
- תוצאה חיובית שגויה פירושה שהמודל בטעות חזה את הכיתה החיובית.
לדוגמה, נניח שהמודל נתן 200 תחזיות חיוביות. מתוך 200 התחזיות החיוביות האלה:
- 150 היו תוצאות חיוביות אמיתיות.
- 50 מהן היו תוצאות חיוביות כוזבות.
במקרה זה:
למידע נוסף, ראו סיווג: דיוק, זיכרון, רמת דיוק ומדדים קשורים במדריך למתחילים בנושא למידת מכונה.
דיוק ברמה k (precision@k)
מדד להערכת רשימה של פריטים (מסודרת) לפי דירוג. הדיוק ב-k מתייחס לחלק מהפריטים הראשונים ברשימה (k) שהם 'רלוונטיים'. כלומר:
הערך של k חייב להיות קטן או שווה לאורך הרשימה שמוחזרת. שימו לב שאורך הרשימה שמוחזרת לא נכלל בחישוב.
הרלוונטיות היא לרוב סובייקטיבית, וגם בודקים אנושיים מומחים לא תמיד מסכימים על הפריטים הרלוונטיים.
השווה ל:
לוחצים על הסמל כדי לראות דוגמה.
עקומת דיוק-זיהוי
עקומה של דיוק לעומת זיהוי בסף סיווג שונה.
הטיה בתחזית
ערך שמציין את המרחק בין הממוצע של התחזיות לבין הממוצע של התוויות במערך הנתונים.
חשוב לא להתבלבל עם המונח 'הטיה' במודלים של למידת מכונה, או עם הטיה מבחינה אתית וצודקת.
תאימות חזוי
מדד הוגנות שבודק אם, למסווג נתון, שיעורי הדיוק זהים בקבוצות המשנה שנבדקות.
לדוגמה, מודל שמתבסס על נתונים היסטוריים כדי לחזות את הסיכוי להתקבל לקולג' יעמוד בקריטריון של שוויון חיזוי לפי לאום אם שיעור הדיוק שלו זהה לזה של נתונים היסטוריים לגבי סטודנטים ממדינות שונות.
'התאמה חזותית חזותית' נקראת לפעמים גם התאמה חזותית חזותית.
לסקירה מפורטת יותר על שוויון חיזוי, אפשר לעיין בקטע הסבר על הגדרות של הוגנות (סעיף 3.2.1).
שיעור חליפין חזוי
שם נוסף להתאמה חזוי.
פונקציית צפיפות ההסתברות
פונקציה שמזהה את התדירות של דגימות נתונים שיש להן בדיוק ערך מסוים. כשהערכים של מערך נתונים הם מספרים רציפים של נקודה צפה, התאמות מדויקות מתרחשות לעיתים רחוקות. עם זאת, אינטגרציה של פונקציית צפיפות ההסתברות מהערך x
לערך y
מניבה את התדירות הצפויה של דגימות הנתונים בין x
ל-y
.
לדוגמה, נניח התפלגות נורמלית עם ממוצע של 200 וסטיית תקן של 30. כדי לקבוע את התדירות הצפויה של דגימות נתונים שנמצאות בטווח 211.4 עד 218.7, אפשר לשלב את פונקציית הצפיפות של ההסתברות להתפלגות נורמלית מ-211.4 עד 218.7.
R
recall
מדד למודלים של סיווג שמשיב על השאלה הבאה:
כשהעובדות האמיתיות היו הקלאס החיובי, מהו אחוז התחזיות שהמודל זיהה כקלאס החיובי בצורה נכונה?
זו הנוסחה:
כאשר:
- 'חיובי נכון' פירושו שהמודל חזה בצורה נכונה את הכיתה החיובית.
- תוצאה שלילית שגויה (false negative) פירושה שהמודל בטעות חזה את הקטגוריה השלילית.
לדוגמה, נניח שהמודל שלכם ביצע 200 תחזיות לגבי דוגמאות שבהן האמת בפועל הייתה הכיתה החיובית. מתוך 200 התחזיות האלה:
- 180 מהן היו תוצאות חיוביות אמיתיות.
- 20 מהן היו תוצאות שליליות שגויות.
במקרה זה:
לוחצים על הסמל כדי לראות הערות לגבי מערכי נתונים עם אי-איזון בין קבוצות.
מידע נוסף זמין במאמר סיווג: דיוק, זיכרון, רמת דיוק ומדדים קשורים.
recall at k (recall@k)
מדד להערכת מערכות שמפיקות רשימה של פריטים (מסודרת) לפי דירוג. החזרה ב-k מזהה את החלק היחסי של הפריטים הרלוונטיים ב-k הפריטים הראשונים ברשימה הזו, מתוך המספר הכולל של הפריטים הרלוונטיים שהוחזרו.
בניגוד לדיוק ברמה k.
לוחצים על הסמל כדי לראות דוגמה.
עקומת ROC (מאפיין הפעלה של מקלט)
תרשים של שיעור תוצאות חיוביות אמיתיות לעומת שיעור תוצאות חיוביות שקריות לסף סיווג שונה בסיווג בינארי.
הצורה של עקומת ROC מצביעה על היכולת של מודל סיווג בינארי להפריד בין כיתות חיוביות לכיתות שליליות. נניח, לדוגמה, שמודל סיווג בינארי מפריד בצורה מושלמת בין כל הכיתות השליליות לכל הכיתות החיוביות:
עקומת ROC של המודל הקודם נראית כך:
לעומת זאת, באיור הבא מוצגים בתרשים הערכים הגולמיים של רגרסיה לוגיסטית של מודל גרוע שלא מצליח להפריד בכלל בין כיתות שליליות לכיתות חיוביות:
עקומת ה-ROC של המודל הזה נראית כך:
בינתיים, בעולם האמיתי, רוב המודלים של סיווג בינארי מפרידים בין כיתות חיוביות ושליליות במידה מסוימת, אבל בדרך כלל לא באופן מושלם. לכן, עקומת ROC אופיינית נמצאת איפשהו בין שתי הקיצוניות:
הנקודה בגרף ROC הקרובה ביותר ל-(0.0,1.0) מזהה באופן תיאורטי את סף הסיווג האידיאלי. עם זאת, יש כמה בעיות אחרות בעולם האמיתי שמשפיעות על הבחירה של סף הסיווג האידיאלי. לדוגמה, יכול להיות שתוצאות שליליות כוזבות גורמות ליותר נזק מאשר תוצאות חיוביות כוזבות.
מדד מספרי שנקרא AUC מסכם את עקומת ROC בערך יחיד של נקודה צפה.
שורש טעות ריבועית ממוצעת (RMSE)
השורש הריבועי של השגיאה הריבובית הממוצעת.
ROUGE (Recall-Oriented Understudy for Gisting Evaluation)
משפחה של מדדים שמאפשרים להעריך סיכומים אוטומטיים ומודלים של תרגום מכונה. מדדי ROUGE קובעים את מידת החפיפה בין טקסט העזר לבין טקסט שנוצר על ידי מודל ה-ML. כל אחד מהמדדים במשפחת ROUGE חופף לקודם בצורה שונה. ככל שציוני ROUGE גבוהים יותר, כך יש דמיון גדול יותר בין טקסט העזרה לטקסט שנוצר, בהשוואה לציונים נמוכים יותר של ROUGE.
בדרך כלל, כל בן משפחה ב-ROUGE יוצר את המדדים הבאים:
- דיוק
- זכירות
- F1
לפרטים ולדוגמאות, אפשר לעיין במאמרים הבאים:
ROUGE-L
משפחה של מדדי ROUGE שמתמקדת באורך של רצף המשנה המשותף הארוך ביותר בטקסט העזר ובטקסט שנוצר. הנוסחאות הבאות מחשבות את הרגישות והדיוק של ROUGE-L:
לאחר מכן אפשר להשתמש ב-F1 כדי לקבץ את הרגישות של ROUGE-L ואת הדיוק של ROUGE-L למדד אחד:
לוחצים על הסמל כדי לראות דוגמה לחישוב של ROUGE-L.
ה-ROUGE-L מתעלם מכל שורות חדשות בטקסט העזרה ובטקסט שנוצר, כך שרצף המשנה הארוך ביותר יכול לעבור על פני כמה משפטים. כשטקסט העזרה והטקסט שנוצר כוללים כמה משפטים, בדרך כלל מדד טוב יותר הוא וריאנט של ROUGE-L שנקרא ROUGE-Lsum. המדד ROUGE-Lsum קובע את רצף המשנה הארוך ביותר המשותף לכל משפט בפסקה, ולאחר מכן מחשב את הממוצע של רצפי המשנה הארוכים המשותפים האלה.
לוחצים על הסמל כדי לראות דוגמה לחישוב של ROUGE-Lsum.
ROUGE-N
קבוצת מדדים במשפחת ROUGE שמשווים בין רצפי N-grams משותפים בגודל מסוים בטקסט העזר לבין טקסט שנוצר. לדוגמה:
- ROUGE-1 מודד את מספר האסימונים המשותפים בטקסט העזר ובטקסט שנוצר.
- ROUGE-2 מודד את מספר ביגרמים (2-גרמים) המשותפים בטקסט העזר ובטקסט שנוצר.
- ROUGE-3 מודד את מספר טריגרמות (3-גראמים) המשותפות בטקסט העזר ובטקסט שנוצר.
אפשר להשתמש בנוסחאות הבאות כדי לחשב את רמת החזרה (recall) ו-ROUGE-N ואת רמת הדיוק (precision) של ROUGE-N לכל חבר במשפחת ROUGE-N:
לאחר מכן אפשר להשתמש ב-F1 כדי לקבץ את רמת החזרה (recall) של ROUGE-N ואת רמת הדיוק (precision) של ROUGE-N למדד אחד:
לוחצים על הסמל כדי לראות דוגמה.
ROUGE-S
גרסה סלחנית של ROUGE-N שמאפשרת התאמה של skip-gram. כלומר, ב-ROUGE-N נספרות רק N-grams שתואמים בדיוק, אבל ב-ROUGE-S נספרות גם N-grams שמפרידות ביניהם מילה אחת או יותר. לדוגמה, שקול את הדברים הבאים:
- טקסט העזרה: עננים לבנים
- טקסט שנוצר: עננים לבנים ומתנפחים
כשמחשבים את ROUGE-N, ה-2-gram White clouds לא תואם ל-White billowing clouds. עם זאת, כשמחשבים את ROUGE-S, עננים לבנים תואם ל-עננים לבנים בוערים.
R בריבוע
מדד רגרסיה שמציין את מידת השונות בתווית שנובעת מתכונה בודדת או מקבוצת תכונות. R-squared הוא ערך בין 0 ל-1, שאפשר לפרש באופן הבא:
- אם הערך של R-squared הוא 0, המשמעות היא שאף אחד מהשינויים בתוויות לא נובע מקבוצת המאפיינים.
- אם הערך של R-squared הוא 1, המשמעות היא שכל הווריאציה של התווית נובעת מקבוצת המאפיינים.
- ערך R-squared בין 0 ל-1 מציין את מידת האפשרות לחזות את השונות של התווית מתכונה מסוימת או מקבוצת המאפיינים. לדוגמה, אם הערך של R-squared הוא 0.10, המשמעות היא ש-10% מהשונות בתווית נובעת מקבוצת המאפיינים. אם הערך של R-squared הוא 0.20, המשמעות היא ש-20% נובעים מקבוצת המאפיינים, וכן הלאה.
R-squared הוא הריבוע של מקדמי המתאם של Pearson בין הערכים שהמודל חזה לבין מקור המידע.
S
ציון
החלק במערכת ההמלצות שמספק ערך או דירוג לכל פריט שנוצר בשלב יצירת המועמדים.
מדד דמיון
באלגוריתמים של קיבוץ, המדד שמשמש לקביעת מידת הדמיון בין שתי דוגמאות.
sparsity
מספר הרכיבים שמוגדרים לאפס (או ל-null) בווקטור או במטריצה, חלקי מספר הרשומות הכולל בווקטור או במטריצה. לדוגמה, נניח שיש מטריצה עם 100 רכיבים, שבה 98 תאים מכילים אפס. כך מחושב הערך של הדלילות:
רזרבה של מאפיינים מתייחסת לרזרבה של וקטור מאפיינים, ורזרבה של מודל מתייחסת לרזרבה של משקלי המודל.
אובדן ציר ריבועית
הריבוע של הפסד הציר. פונקציית Squared hinge loss מטילה עונשים חמורים יותר על ערכים חריגים מאשר פונקציית hinge loss רגילה.
אובדן בריבוע
מילה נרדפת ל-L2 loss.
T
אובדן נתונים בבדיקה
מדד שמייצג את האובדן של מודל ביחס לקבוצת הבדיקות. כשיוצרים מודל, בדרך כלל מנסים למזער את אובדן הבדיקה. הסיבה לכך היא שאובדן נמוך בבדיקה הוא אות איכות חזק יותר מאשר אובדן נמוך באימון או אובדן נמוך באימות.
לפעמים, פער גדול בין אובדן הבדיקה לאובדן האימון או לאובדן האימות מציין שצריך להגדיל את שיעור הרגיליזציה.
דיוק Top-K
אחוז הפעמים ש'תווית היעד' מופיעה ב-k המיקומים הראשונים ברשימות שנוצרו. הרשימות יכולות להיות המלצות בהתאמה אישית או רשימה של פריטים שממוינים לפי softmax.
הדיוק של Top-k נקרא גם דיוק ב-k.
לוחצים על הסמל כדי לראות דוגמה.
תוכן רעיל
מידת הפגיעה, האיום או הפגיעה בתוכן. יש הרבה מודלים של למידת מכונה שיכולים לזהות ולמדוד תכנים רעילים. רוב המודלים האלה מזהים רעילות לפי כמה פרמטרים, כמו רמת השפה הפוגענית ורמת השפה המאיימת.
אובדן אימון
מדד שמייצג את האובדן של מודל במהלך מחזור אימון מסוים. לדוגמה, נניח שפונקציית ההפסד היא Mean Squared Error. יכול להיות שההפסד של האימון (השגיאה הממוצעת הריבונית) עבור האיטרציה ה-10 הוא 2.2, וההפסד של האימון עבור האיטרציה ה-100 הוא 1.9.
עקומת אובדן מציגה את אובדן האימון לעומת מספר החזרות. עקומת אובדן מספקת את הטיפים הבאים לגבי אימון:
- שיפוע כלפי מטה מרמז שהמודל משתפר.
- שיפוע כלפי מעלה מעיד על כך שהמודל הולך ומשתפר.
- שיפוע שטוח מרמז שהמודל הגיע לערך קבוע.
לדוגמה, בעקומת ההפסדים האידיאלית במידה מסוימת מוצגים הפרטים הבאים:
- שיפוע תלול כלפי מטה במהלך האיטרציות הראשוניות, שמצביע על שיפור מהיר של המודל.
- שיפוע שמתיישר בהדרגה (אבל עדיין יורד) עד לקראת סוף האימון, מה שמצביע על שיפור מתמשך של המודל בקצב איטי יותר מאשר במחזורים הראשונים.
- שיפוע שטוח לקראת סוף האימון, שמצביע על התקרבות.
אובדן האימון חשוב, אבל כדאי גם לעיין במאמר בנושא הכללה.
שלילי אמיתי (TN)
דוגמה שבה המודל מנבא מחלקה שלילית בצורה נכונה. לדוגמה, המודל מסיק שהודעת אימייל מסוימת היא לא ספאם, והודעת האימייל הזו אכן לא ספאם.
תוצאה חיובית נכונה (TP)
דוגמה שבה המודל חוזה מחלקה חיובית. לדוגמה, המודל מסיק שהודעת אימייל מסוימת היא ספאם, והודעת האימייל הזו אכן ספאם.
שיעור תוצאות חיוביות אמיתיות (TPR)
מילה נרדפת למשיכה. כלומר:
שיעור החיוביות האמיתי הוא ציר ה-y בעקומת ROC.
V
אובדן אימות
מדד שמייצג את האובדן של מודל בקבוצת האימות במהלך חזרה מסוימת של האימון.
אפשר לעיין גם במאמר הקו של הגנרליזציה.
מידת החשיבות של המשתנים
קבוצת ציונים שמציינת את החשיבות היחסית של כל מאפיין למודל.
לדוגמה, נניח שרוצים ליצור עץ החלטות שמעריך את מחירי הבתים. נניח שב-decision tree הזה נעשה שימוש בשלושה מאפיינים: גודל, גיל וסגנון. אם קבוצת החשיבות של המשתנים לשלושת המאפיינים מחושבת כ-{size=5.8, age=2.5, style=4.7}, המשמעות היא שהמאפיין size חשוב יותר לעץ ההחלטות מאשר age או style.
יש מדדים שונים של מידת החשיבות של המשתנים, שיכולים לספק למומחים ב-ML מידע על היבטים שונים של המודלים.
W
פונקציית אובדן Wasserstein
אחת מפונקציות האובדן הנפוצות ברשתות יריבות גנרטיביות, שמבוססת על מרחק Earth Mover's בין התפלגות הנתונים שנוצרו לבין הנתונים האמיתיים.