מילון מונחים ללמידת מכונה

במילון המונחים הזה מוגדרים מונחים שקשורים לבינה מלאכותית.

A

אבלציה

טכניקה להערכת החשיבות של תכונה או רכיב על ידי הסרה זמנית של התכונה או הרכיב ממודל. לאחר מכן, מאמנים מחדש את המודל בלי התכונה או הרכיב האלה. אם הביצועים של המודל שאומן מחדש גרועים משמעותית, סביר להניח שהתכונה או הרכיב שהוסרו היו חשובים.

לדוגמה, נניח שאימנתם מודל סיווג על 10 מאפיינים והשגתם 88% דיוק בקבוצת נתונים לבדיקה. כדי לבדוק את החשיבות של התכונה הראשונה, אפשר לאמן מחדש את המודל באמצעות תשע התכונות האחרות בלבד. אם הביצועים של המודל שאומן מחדש גרועים משמעותית (לדוגמה, דיוק של פחות מ-55%), כנראה שהתכונה שהוסרה הייתה חשובה. לעומת זאת, אם המודל שאומן מחדש מניב ביצועים טובים באותה מידה, כנראה שהתכונה הזו לא הייתה חשובה במיוחד.

הסרת תכונות יכולה לעזור גם לקבוע את החשיבות של:

רכיבים גדולים יותר, כמו מערכת משנה שלמה של מערכת ML גדולה יותר
תהליכים או טכניקות, כמו שלב של עיבוד מקדים של נתונים

בשני המקרים, תוכלו לראות איך הביצועים של המערכת משתנים (או לא משתנים) אחרי שתסירו את הרכיב.

A/B Testing

דרך סטטיסטית להשוואה בין שתי טכניקות (או יותר) – A ו-B. בדרך כלל, A היא טכניקה קיימת ו-B היא טכניקה חדשה. בדיקת A/B לא רק קובעת איזו טכניקה מניבה ביצועים טובים יותר, אלא גם אם ההבדל מובהק מבחינה סטטיסטית.

בדרך כלל, בבדיקות A/B משווים מדד יחיד בין שתי טכניקות. לדוגמה, מהי ההשוואה בין הדיוק של מודל בין שתי טכניקות? עם זאת, בדיקות A/B יכולות גם להשוות בין מספר סופי כלשהו של מדדים.

צ'יפ של פעולה שכיחה

#GoogleCloud

קטגוריה של רכיבי חומרה מיוחדים שנועדו לבצע חישובים של מפתחות שנדרשים לאלגוריתמים של למידה עמוקה.

שבבי האצה (או בקיצור מאיצים) יכולים להגדיל באופן משמעותי את המהירות והיעילות של משימות אימון והסקת מסקנות בהשוואה למעבד למטרות כלליות. הם אידיאליים לאימון רשתות עצביות ולמשימות דומות שדורשות הרבה כוח מחשוב.

דוגמאות לשבבי האצה:

יחידות Tensor Processing Units ‏ (TPU) של Google עם חומרה ייעודית ללמידה עמוקה.
מעבדים גרפיים של NVIDIA, שלמרות שהם תוכננו במקור לעיבוד גרפי, הם מיועדים לאפשר עיבוד מקבילי, שיכול להגדיל באופן משמעותי את מהירות העיבוד.

דיוק

#fundamentals

#Metric

מספר התחזיות הנכונות של הסיווג חלקי המספר הכולל של התחזיות. כלומר:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

לדוגמה, למודל שביצע 40 חיזויים נכונים ו-10 חיזויים לא נכונים יהיה דיוק של:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

סיווג בינארי מספק שמות ספציפיים לקטגוריות השונות של תחזיות נכונות ותחזיות שגויות. לכן, הנוסחה לחישוב הדיוק בסיווג בינארי היא:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

where:‎

TP הוא מספר החיוביים האמיתיים (תחזיות נכונות).
TN הוא מספר השליליים האמיתיים (חיזויים נכונים).
FP הוא מספר החיוביים השגויים (תחזיות שגויות).
FN הוא מספר התוצאות השליליות השגויות (תחזיות שגויות).

השוו בין דיוק לבין דיוק והחזרה.

כדי לקבל פרטים על רמת הדיוק ועל מערכי נתונים לא מאוזנים לפי סיווג, לוחצים על הסמל.

למרות שמדובר במדד חשוב במצבים מסוימים, במצבים אחרים הוא עלול להטעות מאוד. חשוב לציין שדיוק הוא בדרך כלל מדד לא טוב להערכת מודלים של סיווג שמבצעים עיבוד של מערכי נתונים עם חוסר איזון בין המחלקות.

לדוגמה, נניח שבמאה שנה יורד שלג רק ב-25 ימים בעיר סובטרופית מסוימת. מכיוון שמספר הימים ללא שלג (הסיווג השלילי) גדול בהרבה ממספר הימים עם שלג (הסיווג החיובי), מערך הנתונים של השלג בעיר הזו הוא לא מאוזן. תארו לעצמכם מודל של סיווג בינארי שאמור לחזות אם יירד שלג בכל יום, אבל פשוט חוזה שלא יירד שלג בכל יום. המודל הזה מדויק מאוד אבל אין לו יכולת חיזוי. בטבלה הבאה מסוכמות התוצאות של חיזויים למשך מאה שנה:

קטגוריה	מספר
TP	0
TN	36499
FP	0
FN	25

לכן, רמת הדיוק של המודל הזה היא:

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (0 + 36499) / (0 + 36499 + 0 + 25) = 0.9993 = 99.93%

למרות שרמת דיוק של 99.93% נראית מרשימה מאוד, למודל אין יכולת חיזוי.

בדרך כלל, המדדים דיוק והחזרה שימושיים יותר מהמדד דיוק להערכת מודלים שאומנו על מערכי נתונים עם חוסר איזון בין המחלקות.

מידע נוסף זמין במאמר סיווג: דיוק, היזכרות, פרסיזיה ומדדים קשורים בסדנה ללמידת מכונה.

פעולה

בלמידת חיזוק, המנגנון שבאמצעותו הסוכן עובר בין מצבים של הסביבה. הסוכן בוחר את הפעולה באמצעות מדיניות.

פונקציית הפעלה

#fundamentals

פונקציה שמאפשרת לרשתות נוירונים ללמוד קשרים לא ליניאריים (מורכבים) בין התכונות לבין התווית.

פונקציות הפעלה פופולריות כוללות:

ReLU
Sigmoid

הגרפים של פונקציות ההפעלה אף פעם לא קווים ישרים. לדוגמה, הגרף של פונקציית ההפעלה ReLU מורכב משני קווים ישרים:

תרשים קרטזיאני של שני קווים. הקו הראשון הוא קבוע
ערך y של 0, שרץ לאורך ציר x מ-infinity,0 עד 0,-0.
השורה השנייה מתחילה ב-0,0. לשורה הזו יש שיפוע של +1, ולכן היא עוברת מ-0,0 אל +אינסוף,+אינסוף.

גרף של פונקציית ההפעלה הסיגמואידית נראה כך:

תרשים עקומתי דו-ממדי עם ערכי x שנעים בין מינוס אינסוף לבין ערך חיובי, וערכי y שנעים בין 0 לבין 1. כאשר x הוא 0, ‏ y הוא 0.5. השיפוע של העקומה הוא תמיד חיובי, והשיפוע הכי גבוה הוא בנקודה 0,0.5. ככל שהערך המוחלט של x גדל, השיפועים קטנים בהדרגה.

כדי לראות דוגמה, לוחצים על הסמל.

ברשת נוירונים, פונקציות ההפעלה משנות את הסכום המשוקלל של כל ערכי הקלט לנוירון. כדי לחשב סכום משוקלל, הנוירון מחבר את המכפלות של הערכים והמשקלים הרלוונטיים. לדוגמה, נניח שהקלט הרלוונטי לנוירון מורכב מהנתונים הבאים:

ערך קלט	משקל קלט
2	‫1.3-
-1	0.6
3	0.4

לכן הסכום המשוקלל הוא:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

נניח שמעצב המודעה של רשת הנוירונים הזו בוחר בפונקציית הסיגמואיד כפונקציית ההפעלה. במקרה כזה, הנוירון מחשב את הסיגמואיד של ‎-2.0, שהוא בערך 0.12. לכן, הנוירון מעביר את הערך 0.12 (ולא את הערך ‎-2.0) לשכבה הבאה ברשת נוירונים. האיור הבא מציג את החלק הרלוונטי בתהליך:

מידע נוסף מופיע במאמר רשתות עצביות: פונקציות הפעלה בסדנה ללימוד מכונת למידה.

מצב למידה פעיל

גישת אימון שבה האלגוריתם בוחר חלק מהנתונים שהוא לומד מהם. למידה פעילה שימושית במיוחד כשקשה להשיג דוגמאות עם תוויות או שהן יקרות. במקום לחפש באופן אקראי מגוון רחב של דוגמאות מתויגות, אלגוריתם של למידה פעילה מחפש באופן סלקטיבי את טווח הדוגמאות הספציפי שהוא צריך עבור מצב למידה.

AdaGrad

אלגוריתם מורכב של ירידת גרדיאנט שמשנה את קנה המידה של הגרדיאנטים של כל פרמטר, וכך למעשה נותן לכל פרמטר קצב למידה עצמאי. הסבר מלא זמין במאמר Adaptive Subgradient Methods for Online Learning and Stochastic Optimization.

התאמה

#generativeAI

מילה נרדפת לשיפור או לכוונון עדין.

נציג

#generativeAI

תוכנה שיכולה להסיק מסקנות לגבי קלט משתמש מולטי-מודאלי כדי לתכנן ולבצע פעולות בשם המשתמש.

בלמידת חיזוק, סוכן הוא הישות שמשתמשת במדיניות כדי למקסם את התשואה הצפויה שמתקבלת ממעבר בין מצבים של הסביבה.

אג'נטי

#generativeAI

צורת שם התואר של agent. המונח 'סוכנותי' מתייחס לתכונות שיש לסוכנים (כמו אוטונומיה).

תהליך עבודה אג'נטי

#generativeAI

תהליך דינמי שבו סוכן מתכנן ומבצע פעולות באופן אוטונומי כדי להשיג מטרה. התהליך עשוי לכלול חשיבה רציונלית, הפעלה של כלים חיצוניים ותיקון עצמי של התוכנית.

סידור באשכולות (clustering) היררכי מצטבר

#clustering

ראו אשכול היררכי.

AI slop

#generativeAI

פלט ממערכת AI גנרטיבי שמעדיפה כמות על פני איכות. לדוגמה, דף אינטרנט עם תוכן באיכות נמוכה שנוצר על ידי AI מלא בתוכן באיכות נמוכה שנוצר על ידי AI בעלות נמוכה.

זיהוי אנומליות

התהליך של זיהוי ערכים חריגים. לדוגמה, אם הממוצע של תכונה מסוימת הוא 100 עם סטיית תקן של 10, אז זיהוי האנומליות צריך לסמן ערך של 200 כחשוד.

AR

קיצור של מציאות רבודה.

השטח מתחת לעקומת ה-PR

#Metric

מידע נוסף על PR AUC (השטח מתחת לעקומת ה-PR)

השטח מתחת לעקומת ה-ROC

#Metric

מידע נוסף על AUC (השטח מתחת לעקומת ROC)

בינה מלאכותית כללית

מנגנון לא אנושי שמדגים מגוון רחב של יכולות לפתרון בעיות, יצירתיות ויכולת הסתגלות. לדוגמה, תוכנה שמדגימה בינה מלאכותית כללית יכולה לתרגם טקסט, להלחין סימפוניות ולהצטיין במשחקים שעדיין לא הומצאו.

לגבי בינה מלאכותית,

#fundamentals

תוכנה או מודל לא אנושיים שיכולים לפתור משימות מורכבות. לדוגמה, תוכנית או מודל שמתרגמים טקסט, או תוכנית או מודל שמזהים מחלות מתמונות רדיולוגיות, שניהם מציגים בינה מלאכותית.

באופן רשמי, למידת מכונה היא תחום משנה של בינה מלאכותית. עם זאת, בשנים האחרונות, חלק מהארגונים התחילו להשתמש במונחים בינה מלאכותית ולמידת מכונה לסירוגין.

תשומת הלב,

מנגנון שמשמש ברשת נוירונים ומציין את החשיבות של מילה מסוימת או חלק ממילה. תשומת הלב דוחסת את כמות המידע שמודל צריך כדי לחזות את הטוקן או המילה הבאים. מנגנון תשומת לב טיפוסי עשוי לכלול סכום משוקלל של קבוצת קלטים, כאשר המשקל של כל קלט מחושב על ידי חלק אחר ברשת הנוירונים.

אפשר גם לעיין במאמרים בנושא קשב עצמי וקשב עצמי מרובה ראשים, שהם אבני הבניין של טרנספורמרים.

מידע נוסף על מנגנון תשומת הלב העצמית מופיע במאמר מודלים גדולים של שפה (LLM): מהו מודל שפה גדול? בסדנת למידת מכונה.

מאפיין

#responsible

מילה נרדפת לתכונה.

בהקשר של הוגנות בלמידת מכונה, מאפיינים מתייחסים לרוב למאפיינים שקשורים לאנשים פרטיים.

דגימת מאפיינים

#df

טקטיקה לאימון יער החלטות שבה כל עץ החלטות מתבסס רק על קבוצת משנה אקראית של תכונות אפשריות כשהוא במצב למידה את התנאי. באופן כללי, קבוצת משנה שונה של תכונות נדגמת עבור כל צומת. לעומת זאת, כשמאמנים עץ החלטה בלי דגימת מאפיינים, כל התכונות האפשריות נלקחות בחשבון לכל צומת.

AUC (השטח מתחת לעקומת ROC)

#fundamentals

#Metric

מספר בין 0.0 ל-1.0 שמייצג את היכולת של מודל סיווג בינארי להפריד בין סיווגים חיוביים לבין סיווגים שליליים. ככל שערך ה-AUC קרוב יותר ל-1.0, כך יכולת המודל להפריד בין המחלקות טובה יותר.

לדוגמה, באיור הבא מוצג מודל סיווג שמפריד בצורה מושלמת בין מחלקות חיוביות (אליפסות ירוקות) לבין מחלקות שליליות (מלבנים סגולים). למודל המושלם הלא-מציאותי הזה יש AUC של 1.0:

קו מספרים עם 8 דוגמאות חיוביות בצד אחד ו-9 דוגמאות שליליות בצד השני.

לעומת זאת, באיור הבא מוצגות התוצאות של מודל סיווג שיצר תוצאות אקראיות. המודל הזה כולל AUC של 0.5:

קו מספרים עם 6 דוגמאות חיוביות ו-6 דוגמאות שליליות.
רצף הדוגמאות הוא חיובי, שלילי,
חיובי, שלילי, חיובי, שלילי, חיובי, שלילי, חיובי
שלילי, חיובי, שלילי.

כן, למודל הקודם יש AUC של 0.5, ולא 0.0.

רוב הדגמים נמצאים איפשהו בין שני הקצוות. לדוגמה, המודל הבא מפריד בין ערכים חיוביים לשליליים במידה מסוימת, ולכן ערך ה-AUC שלו הוא בין 0.5 ל-1.0:

קו מספרים עם 6 דוגמאות חיוביות ו-6 דוגמאות שליליות.
רצף הדוגמאות הוא שלילי, שלילי, שלילי, שלילי,
חיובי, שלילי, חיובי, חיובי, שלילי, חיובי, חיובי,
חיובי.

המדד AUC מתעלם מכל ערך שתגדירו לסף הסיווג. במקום זאת, AUC מתחשב בכל ספי הסיווג האפשריים.

כדי לקבל מידע על הקשר בין AUC לבין עקומות ROC, לוחצים על הסמל.

הערך AUC מייצג את השטח מתחת לעקומת ROC. לדוגמה, עקומת ה-ROC של מודל שמפריד בצורה מושלמת בין ערכים חיוביים לערכים שליליים נראית כך:

ה-AUC הוא השטח של האזור האפור באיור שלמעלה. במקרה החריג הזה, השטח הוא פשוט האורך של האזור האפור (1.0) כפול הרוחב של האזור האפור (1.0). לכן, המכפלה של 1.0 ו-1.0 היא 1.0 בדיוק, שהוא הציון הכי גבוה שאפשר לקבל ב-AUC.

לעומת זאת, עקומת ה-ROC של מודל סיווג שלא יכול להפריד בין מחלקות בכלל נראית כך. שטח האזור האפור הוא 0.5.

עקומת ROC אופיינית יותר נראית בערך כך:

חישוב השטח מתחת לעקומה הזו באופן ידני הוא תהליך מייגע, ולכן בדרך כלל תוכנה מחשבת את רוב ערכי ה-AUC.

אפשר ללחוץ על הסמל כדי לראות הגדרה רשמית יותר של AUC.

המדד AUC הוא ההסתברות שמודל סיווג יהיה בטוח יותר שדוגמה חיובית שנבחרה באופן אקראי היא חיובית, מאשר שדוגמה שלילית שנבחרה באופן אקראי היא חיובית.

מידע נוסף זמין במאמר בנושא סיווג: ROC ו-AUC בקורס המקוצר על למידת מכונה.

מציאות רבודה

טכנולוגיה שמציגה תמונה ממוחשבת על גבי התצוגה של המשתמש בעולם האמיתי, וכך מספקת תצוגה מורכבת.

autoencoder

מערכת שלומדת לחלץ את המידע הכי חשוב מהקלט. אוטו-מקודדים הם שילוב של מקודד ומפענח. התהליך של קידוד אוטומטי כולל שני שלבים:

המקודד ממפה את הקלט לפורמט (ביניים) נמוך ממדי (בדרך כלל) עם דחיסת נתונים.
הפענוח יוצר גרסה עם דחיסת נתונים (lossy) של הקלט המקורי על ידי מיפוי של הפורמט עם פחות ממדים לפורמט הקלט המקורי עם יותר ממדים.

מכשירים אוטומטיים לאינקוד (Autoencoders) מאומנים מקצה לקצה, כך שהמפענח מנסה לשחזר את הקלט המקורי מהפורמט הביניים של המקודד בצורה הכי מדויקת שאפשר. מכיוון שהפורמט הביניים קטן יותר (ממדים נמוכים יותר) מהפורמט המקורי, האוטו-מקודד נאלץ ללמוד איזה מידע בקלט הוא חיוני, והפלט לא יהיה זהה לחלוטין לקלט.

לדוגמה:

אם נתוני הקלט הם גרפיקה, העותק הלא מדויק יהיה דומה לגרפיקה המקורית, אבל עם שינויים מסוימים. יכול להיות שהעותק הלא מדויק מסיר רעשים מהגרפיקה המקורית או ממלא פיקסלים חסרים.
אם נתוני הקלט הם טקסט, מקודד אוטומטי ייצור טקסט חדש שמחקה את הטקסט המקורי (אבל לא זהה לו).

אפשר לקרוא גם על מקודדים אוטומטיים משתנים.

הערכה אוטומטית

#generativeAI

שימוש בתוכנה כדי לשפוט את איכות הפלט של מודל.

כשהפלט של המודל פשוט יחסית, סקריפט או תוכנית יכולים להשוות את הפלט של המודל לתשובה מושלמת. הסוג הזה של הערכה אוטומטית נקרא לפעמים הערכה פרוגרמטית. מדדים כמו ROUGE או BLEU שימושיים לעיתים קרובות להערכה פרוגרמטית.

כשפלט המודל מורכב או אין תשובה נכונה אחת, לפעמים מתבצעת הערכה אוטומטית על ידי תוכנת ML נפרדת שנקראת בודק אוטומטי.

ההבדל בין זה לבין בדיקה אנושית.

הטיית אוטומציה

#responsible

מצב שבו מקבל החלטות אנושי מעדיף המלצות שנוצרו על ידי מערכת אוטומטית לקבלת החלטות על פני מידע שנוצר ללא אוטומציה, גם כשהמערכת האוטומטית לקבלת החלטות מבצעת טעויות.

מידע נוסף זמין במאמר הוגנות: סוגי הטיה בסדנת מבוא ללמידת מכונה.

AutoML

כל תהליך אוטומטי ליצירת מודלים של למידת מכונה. ‫AutoML יכול לבצע באופן אוטומטי משימות כמו:

מחפשים את המודל המתאים ביותר.
כוונון היפר-פרמטרים.
הכנת הנתונים (כולל ביצוע הנדסת תכונות).
פורסים את המודל שנוצר.

‫AutoML שימושי למדעני נתונים כי הוא יכול לחסוך להם זמן ומאמץ בפיתוח צינורות של למידת מכונה ולשפר את דיוק התחזיות. הוא שימושי גם למי שאינם מומחים, כי הוא מאפשר להם לבצע משימות מורכבות של למידת מכונה.

מידע נוסף מופיע במאמר Automated Machine Learning (AutoML) בקורס המקוצר על למידת מכונה.

הערכה של כלי לדירוג אוטומטי

#generativeAI

מנגנון היברידי להערכת האיכות של הפלט של מודל AI גנרטיבי, שמשלב הערכה אנושית עם הערכה אוטומטית. דירוג אוטומטי הוא מודל למידת מכונה שאומן על נתונים שנוצרו על ידי הערכה אנושית. באופן אידיאלי, מערכת לדירוג אוטומטי לומדת לחקות בודק אנושי.

יש כלי הערכה אוטומטיים מוכנים מראש, אבל כדאי לכוונן אותם במיוחד למשימה שאתם מעריכים.

מודל אוטו-רגרסיבי

#generativeAI

מודל שמסיק חיזוי על סמך החיזויים הקודמים שלו. לדוגמה, מודלים אוטומטיים של שפה חוזים את הטוקן הבא על סמך הטוקנים שנחזו קודם. כל המודלים הגדולים של שפה שמבוססים על Transformer הם אוטורגרסיביים.

לעומת זאת, מודלים של תמונות שמבוססים על GAN בדרך כלל לא רגרסיביים אוטומטיים, כי הם יוצרים תמונה במעבר קדימה יחיד ולא באופן איטרטיבי בשלבים. עם זאת, מודלים מסוימים ליצירת תמונות הם אוטומטיים רגרסיביים כי הם יוצרים תמונה בשלבים.

הפסד עזר

פונקציית הפסד – משמשת בשילוב עם פונקציית ההפסד הראשית של מודל רשת נוירונים, ומסייעת להאיץ את האימון במהלך האיטרציות הראשונות, כשמשקלים מאותחלים באופן אקראי.

פונקציות הפסד עזר דוחפות גרדיאנטים יעילים אל השכבות הקודמות. הפעולה הזו מקלה על התכנסות במהלך האימון על ידי התמודדות עם בעיית הגרדיאנט הנעלם.

דיוק ממוצע ב-k

#Metric

מדד לסיכום הביצועים של מודל בהנחיה יחידה שמפיקה תוצאות מדורגות, כמו רשימה ממוספרת של המלצות לספרים. הדיוק הממוצע ב-k הוא, ובכן, הממוצע של ערכי הדיוק ב-k לכל תוצאה רלוונטית. לכן, הנוסחה לחישוב הדיוק הממוצע ב-k היא:

\[{\text{average precision at k}} = \frac{1}{n} \sum_{i=1}^n {\text{precision at k for each relevant item} } \]

where:‎

‫$n$ הוא מספר הפריטים הרלוונטיים ברשימה.

השוואה לrecall ב-k.

לוחצים על הסמל כדי לראות דוגמה

נניח שמודל שפה גדול מקבל את השאילתה הבאה:

List the 6 funniest movies of all time in order.

מודל השפה הגדול מחזיר את הרשימה הבאה:

The General
Mean Girls
Platoon
שושבינות
האזרח קיין
This is Spinal Tap

ארבעה מהסרטים ברשימה שהוחזרה הם מאוד מצחיקים (כלומר, הם רלוונטיים), אבל שני סרטים הם דרמות (לא רלוונטיים). בטבלה הבאה מפורטות התוצאות:

מיקום	סרט	רלוונטי?	Precision at k
1	The General	כן	1.0
2	Mean Girls	כן	1.0
3	Platoon	לא	לא רלוונטי
4	שושבינות	כן	0.75
5	האזרח קיין	לא	לא רלוונטי
6	This is Spinal Tap	כן	0.67

מספר התוצאות הרלוונטיות הוא 4. לכן, אפשר לחשב את הדיוק הממוצע ב-6 באופן הבא:

$${\text{average precision at 6}} = \frac{1}{4} {\text{(1.0 + 1.0 + 0.75 + 0.67)} } $$ $${\text{average precision at 6}} = {\text{~0.85} } $$

תנאי שמתייחס לציר

#df

בעץ החלטה, תנאי שכולל רק תכונה אחת. לדוגמה, אם area הוא מאפיין, התנאי הבא הוא תנאי שמתיישר עם הציר:

area > 200

השוואה לתנאי אלכסוני.

B

backpropagation

#fundamentals

האלגוריתם שמיישם ירידת גרדיאנט ברשתות נוירונים.

אימון של רשת נוירונים כולל הרבה איטרציות של המחזור הבא בן שני השלבים:

במהלך המעבר קדימה, המערכת מעבדת אצווה של דוגמאות כדי להפיק חיזויים. המערכת משווה כל תחזית לכל ערך של תווית. ההפרש בין התחזית לבין ערך התווית הוא ההפסד של הדוגמה הזו. המערכת מסכמת את ההפסדים של כל הדוגמאות כדי לחשב את ההפסד הכולל של האצווה הנוכחית.
במהלך המעבר לאחור (backpropagation), המערכת מצמצמת את אובדן המידע על ידי התאמת המשקלים של כל הנוירונים בכל השכבות הנסתרות.

נוירונים מלאכותיות מכילות בדרך כלל הרבה נוירונים בהרבה שכבות נסתרות. כל אחד מהנוירונים האלה תורם להפסד הכולל בדרכים שונות. האלגוריתם Backpropagation קובע אם להגדיל או להקטין את המשקלים שמוחלים על נוירונים מסוימים.

קצב הלמידה הוא מכפיל שקובע את מידת ההגדלה או ההקטנה של כל משקל בכל מעבר לאחור. קצב למידה גבוה יגדיל או יקטין כל משקל יותר מקצב למידה נמוך.

במונחים של חשבון אינפיניטסימלי, backpropagation מיישם את כלל השרשרת מתוך חשבון אינפיניטסימלי. כלומר, בשיטת backpropagation מחושב הנגזרת החלקית של השגיאה ביחס לכל פרמטר.

לפני שנים, מומחים ל-ML היו צריכים לכתוב קוד כדי להטמיע backpropagation. ממשקי API מודרניים של למידת מכונה, כמו Keras, מטמיעים עכשיו בשבילכם את האלגוריתם backpropagation. סוף סוף!

מידע נוסף זמין במאמר רשתות עצביות בקורס המקוצר על למידת מכונה.

bagging

#df

שיטה לאימון אנסמבל שבו כל מודל מרכיב מתאמן על קבוצת משנה אקראית של דוגמאות לאימון שנדגמו עם החזרה. לדוגמה, יער אקראי הוא אוסף של עצי החלטה שאומנו באמצעות שיטת ה-bagging.

המונח bagging הוא קיצור של bootstrap aggregating.

מידע נוסף זמין במאמר יערות אקראיים בקורס בנושא יערות החלטה.

bag of words

ייצוג של המילים בביטוי או בפסקה, ללא קשר לסדר. לדוגמה, bag of words מייצג את שלושת הביטויים הבאים באופן זהה:

הכלב קופץ
קופץ מעל הכלב
כלב קופץ

כל מילה ממופה לאינדקס בוקטור חסכוני, שבו לכל מילה באוצר המילים יש אינדקס. לדוגמה, הביטוי the dog jumps ממופה לווקטור תכונות עם ערכים שונים מאפס בשלושת האינדקסים שמתאימים למילים the,‏ dog ו-jumps. הערך שאינו אפס יכול להיות כל אחת מהאפשרויות הבאות:

‫1 כדי לציין את נוכחות המילה.
ספירה של מספר הפעמים שמילה מופיעה בתיק. לדוגמה, אם הביטוי הוא the maroon dog is a dog with maroon fur, אז גם maroon וגם dog ייוצגו כ-2, בעוד שהמילים האחרות ייוצגו כ-1.
ערך אחר, כמו הלוגריתם של מספר הפעמים שמילה מופיעה בתיק.

baseline

#Metric

מודל שמשמש כנקודת השוואה לביצועים של מודל אחר (בדרך כלל מודל מורכב יותר). לדוגמה, מודל רגרסיה לוגיסטית יכול לשמש כבסיס טוב למודל עמוק.

במקרה של בעיה מסוימת, ה-Baseline עוזר למפתחי מודלים לכמת את הביצועים המינימליים הצפויים שמודל חדש צריך להשיג כדי שהוא יהיה שימושי.

מודל בסיס

#generativeAI

מודל שאומן מראש שיכול לשמש כנקודת התחלה לכוונון עדין כדי לטפל במשימות או באפליקציות ספציפיות.

כדאי לעיין גם במודל שעבר אימון מראש ובמודל בסיסי.

אצווה

#fundamentals

קבוצת הדוגמאות שמשמשת באיטרציה אחת של אימון. גודל האצווה קובע את מספר הדוגמאות באצווה.

הסבר על הקשר בין אצווה לבין תקופה מופיע במאמר בנושא תקופה.

מידע נוסף זמין במאמר רגרסיה ליניארית: היפר-פרמטרים בקורס המקוצר על למידת מכונה.

היקש באצווה

#GoogleCloud

התהליך של הסקת תחזיות על כמה דוגמאות לא מסומנות שמחולקות לקבוצות משנה קטנות יותר ("אצוות").

הסקת מסקנות באצווה יכולה לנצל את תכונות הטעינה במקביל של שבבי האצה. כלומר, כמה מאיצים יכולים להסיק תחזיות בו-זמנית על קבוצות שונות של דוגמאות לא מסומנות, וכך להגדיל באופן משמעותי את מספר ההסקות בשנייה.

מידע נוסף מופיע במאמר מערכות ML בייצור: הסקה סטטית לעומת הסקה דינמית בקורס המזורז ללמידת מכונה.

נורמליזציה של אצווה

נרמול של הקלט או הפלט של פונקציות ההפעלה בשכבה מוסתרת. לנורמליזציה של קבוצות יש כמה יתרונות:

הגנה מפני משקלים של חריג חשוד טעות כדי להפוך רשתות עצביות ליציבות יותר.
הפעלת שיעורי למידה גבוהים יותר, שיכולים להאיץ את האימון.
הפחתת התאמת יתר.

גודל אצווה

#fundamentals

מספר הדוגמאות באצווה. לדוגמה, אם גודל האצווה הוא 100, המודל מעבד 100 דוגמאות לכל איטרציה.

אלה כמה אסטרטגיות פופולריות לגודל אצווה:

‫Stochastic Gradient Descent (SGD), שבו גודל האצווה הוא 1.
קבוצת נתונים מלאה, שבה גודל הקבוצה הוא מספר הדוגמאות בקבוצת נתונים לאימון כולה. לדוגמה, אם קבוצת נתונים לאימון מכילה מיליון דוגמאות, גודל האצווה יהיה מיליון דוגמאות. שיטה של עדכון מלא של נתונים היא בדרך כלל לא יעילה.
מיני-batch שבו גודל אצווה הוא בדרך כלל בין 10 ל-1,000. בדרך כלל, אסטרטגיית המיני-batch היא היעילה ביותר.

מידע נוסף מפורט במאמרים הבאים:

מערכות ML לייצור: הסקה סטטית לעומת הסקה דינמית בקורס המקוצר על למידת מכונה.
מדריך לשיפור הביצועים של למידה עמוקה.

רשת נוירונים בייסיאנית

רשת נוירונים הסתברותית שמתחשבת באי-ודאות במשקלים ובפלט. מודל רגרסיה של רשת נוירונים רגילה בדרך כלל מנבא ערך סקלרי. לדוגמה, מודל רגיל מנבא מחיר בית של 853,000. לעומת זאת, רשת נוירונים בייסיאנית חוזה התפלגות של ערכים. לדוגמה, מודל בייסיאני חוזה מחיר בית של 853,000 עם סטיית תקן של 67,200.

רשת נוירונים בייסיאנית מסתמכת על משפט בייס כדי לחשב את אי הוודאות במשקלים ובתחזיות. רשת עצבית בייסיאנית יכולה להיות שימושית כשחשוב לכמת את אי הוודאות, למשל במודלים שקשורים לתרופות. רשתות נוירונים בייסיאניות יכולות גם לעזור למנוע התאמת יתר.

אופטימיזציה בייסיאנית

מודל רגרסיה הסתברותי טכניקה לאופטימיזציה של פונקציות מטרה שדורשות הרבה משאבי מחשוב. במקום זאת, המודל מבצע אופטימיזציה של פונקציית סרוגייט שמבצעת כימות של אי-הוודאות באמצעות טכניקת למידה בייסיאנית. מכיוון שאופטימיזציה בייסיאנית היא תהליך יקר מאוד, בדרך כלל משתמשים בה כדי לבצע אופטימיזציה של משימות יקרות להערכה שיש להן מספר קטן של פרמטרים, כמו בחירה של היפרפרמטרים.

משוואת בלמן

בלמידת חיזוק, הזהות הבאה מסופקת על ידי פונקציית ה-Q האופטימלית:

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

אלגוריתמים של למידת חיזוק מיישמים זהות זו כדי ליצור למידת Q באמצעות כלל העדכון הבא:

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]

מעבר ללמידת חיזוק, למשוואת בלמן יש יישומים בתכנות דינמי. אפשר לעיין ב ערך בוויקיפדיה בנושא משוואת בלמן.

‫BERT (ייצוגים דו-כיווניים של מקודד מטרנספורמרים)

ארכיטקטורת מודל לייצוג של טקסט. מודל BERT מאומן יכול לשמש כחלק ממודל גדול יותר לסיווג טקסט או למשימות אחרות של למידת מכונה.

ל-BERT יש את המאפיינים הבאים:

משתמש בארכיטקטורת Transformer, ולכן מסתמך על self-attention.
משתמש בחלק המקודד של הטרנספורמר. תפקיד המקודד הוא ליצור ייצוגים טובים של טקסט, ולא לבצע משימה ספציפית כמו סיווג.
היא דו-כיוונית.
משתמש במיסוך לאימון לא מפוקח.

הווריאציות של BERT כוללות:

‫ALBERT, שהוא ראשי תיבות של A Light BERT.
‫LaBSE.

במאמר Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing מופיע סקירה כללית של BERT.

הטיה (אתיקה/הוגנות)

#responsible

#fundamentals

1. הצגת סטריאוטיפים, דעות קדומות או העדפה של דברים, אנשים או קבוצות מסוימים על פני אחרים. ההטיות האלה יכולות להשפיע על איסוף הנתונים ועל הפרשנות שלהם, על עיצוב המערכת ועל האופן שבו המשתמשים מבצעים אינטראקציה עם המערכת. דוגמאות להטיות מסוג זה:

הטיית אוטומציה
הטיית אישור
הטיה של עורכי הניסוי
הטיה בשיוך לקבוצה
הטיה מרומזת
הטיה לטובת קבוצת השייכות
הטיית הומוגניות של קבוצת חוץ

2. שגיאה שיטתית שנובעת מהליך דגימה או דיווח. דוגמאות להטיות מסוג זה:

הטיה בסיקור
הטיית סקר שלא מולא
הטיית השתתפות
הטיה בדיווח
הטיית דגימה
הטיית בחירה

לא להתבלבל עם מונח ההטיה במודלים של למידת מכונה או עם הטיה בתחזית.

מידע נוסף זמין במאמר הוגנות: סוגי הטיה בקורס המזורז ללימוד מכונת למידה.

הטיה (מתמטיקה) או מונח הטיה

#fundamentals

נקודת חיתוך או היסט מנקודת המוצא. הטיה היא פרמטר במודלים של למידת מכונה, שמסומל באחד מהערכים הבאים:

b
w₀

לדוגמה, הטיה היא b בנוסחה הבאה:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

בקו דו-ממדי פשוט, הטיה פשוט מייצגת את נקודת החיתוך עם ציר ה-y. לדוגמה, ההטיה של הקו באיור הבא היא 2.

תרשים של קו עם שיפוע של 0.5 והטיה (נקודת מפגש עם ציר ה-y) של 2.

ההטיה קיימת כי לא כל המודלים מתחילים מהמקור (0,0). לדוגמה, נניח שעלות הכניסה לפארק שעשועים היא 2 אירו, ועל כל שעה שהלקוח נמצא בפארק הוא משלם עוד 0.5 אירו. לכן, למודל שממפה את העלות הכוללת יש הטיה של 2 כי העלות הנמוכה ביותר היא 2 אירו.

הטיה לא זהה להטיה באתיקה ובהוגנות או להטיה בתחזיות.

מידע נוסף זמין במאמר רגרסיה ליניארית בקורס המקוצר על למידת מכונה.

דו-כיווני

מונח שמשמש לתיאור מערכת שמעריכה את הטקסט שקודם לקטע טקסט יעד וגם את הטקסט שבא אחריו. לעומת זאת, מערכת חד-כיוונית מעריכה רק את הטקסט שקודם לקטע טקסט היעד.

לדוגמה, נניח שיש מודל שפה עם מיסוך שצריך לקבוע את ההסתברויות של המילה או המילים שמיוצגות על ידי הקו התחתון בשאלה הבאה:

מה הבעיה שלך?

מודל שפה חד-כיווני יצטרך לבסס את ההסתברויות שלו רק על ההקשר שנוצר על ידי המילים 'What',‏ 'is' ו-'the'. לעומת זאת, מודל שפה דו-כיווני יכול גם לקבל הקשר מהמילים 'עם' ו'אתה', מה שיכול לעזור למודל ליצור תחזיות טובות יותר.

מודל שפה דו-כיווני

מודל שפה שקובע את ההסתברות שאסימון נתון נמצא במיקום נתון בקטע טקסט, על סמך הטקסט שקדם לו והטקסט שבא אחריו.

ביגרמה

N-gram שבו N=2.

סיווג בינארי

#fundamentals

סוג של משימת סיווג שבה המודל מנבא אחת משתי קטגוריות שאינן חופפות:

הסיווג החיובי
הסיווג השלילי

לדוגמה, כל אחד משני המודלים הבאים של למידת מכונה מבצע סיווג בינארי:

מודל שקובע אם הודעות אימייל הן ספאם (הסיווג החיובי) או לא ספאם (הסיווג השלילי).
מודל שמעריך תסמינים רפואיים כדי לקבוע אם לאדם מסוים יש מחלה מסוימת (הסיווג החיובי) או שאין לו את המחלה הזו (הסיווג השלילי).

ההפך מסיווג רב-מחלקתי.

אפשר לעיין גם במאמרים בנושא רגרסיה לוגיסטית וסף סיווג.

מידע נוסף זמין במאמר סיווג בקורס המקוצר על למידת מכונה.

תנאי בינארי

#df

בעץ החלטה, תנאי שיש לו רק שתי תוצאות אפשריות, בדרך כלל כן או לא. לדוגמה, התנאי הבא הוא תנאי בינארי:

temperature >= 100

ההפך ממצב א-בינארי.

מידע נוסף זמין במאמר סוגי תנאים בקורס בנושא יערות החלטה.

binning

מילה נרדפת לחלוקה לקטגוריות.

מודל קופסה שחורה

מודל שאת ה"חשיבה הרציונלית" שלו בלתי אפשרי או קשה לבני אדם להבין. כלומר, למרות שאנשים יכולים לראות איך הנחיות משפיעות על התשובות, הם לא יכולים לדעת בדיוק איך מודל קופסה שחורה קובע את התשובה. במילים אחרות, למודל של קופסה שחורה חסרה יכולת פירוש.

רוב המודלים העמוקים והמודלים הגדולים של שפה הם קופסאות שחורות.

BLEU (Bilingual Evaluation Understudy)

מדד בין 0.0 ל-1.0 להערכת תרגומים אוטומטיים, למשל מספרדית ליפנית.

כדי לחשב ציון, בדרך כלל BLEU משווה בין התרגום של מודל ML (טקסט שנוצר) לבין התרגום של מומחה אנושי (טקסט ייחוס). מידת ההתאמה בין N-grams בטקסט שנוצר לבין טקסט ההשוואה קובעת את ציון ה-BLEU.

המאמר המקורי בנושא המדד הזה הוא BLEU: a Method for Automatic Evaluation of Machine Translation.

מידע נוסף זמין במאמר בנושא BLEURT.

‫BLEURT (Bilingual Evaluation Understudy from Transformers)

מדד להערכת תרגומים אוטומטיים משפה אחת לשפה אחרת, במיוחד מאנגלית ואליה.

בתרגומים לאנגלית ומאנגלית, התוצאות של BLEURT קרובות יותר לדירוגים של בני אדם מאשר התוצאות של BLEU. בניגוד ל-BLEU, ‏ BLEURT מדגיש דמיון סמנטי (משמעות) ויכול להתאים לניסוח מחדש.

‫BLEURT מסתמך על מודל שפה גדול שעבר אימון מראש (BERT ליתר דיוק), ואז עובר כוונון עדין על טקסט שנוצר על ידי מתרגמים אנושיים.

המאמר המקורי על המדד הזה הוא BLEURT: Learning Robust Metrics for Text Generation.

שאלות בוליאניות (BoolQ)

#Metric

מערך נתונים להערכת היכולת של LLM לענות על שאלות של כן או לא. כל אחת מהבעיות בקבוצת הנתונים כוללת שלושה רכיבים:

שאילתה
קטע שממנו אפשר להסיק את התשובה לשאילתה.
התשובה הנכונה, שהיא כן או לא.

לדוגמה:

שאילתה: האם יש תחנות כוח גרעיניות במישיגן?
פסקה: ...שלוש תחנות כוח גרעיניות מספקות למישיגן כ-30% מהחשמל שלה.
תשובה נכונה: כן

החוקרים אספו את השאלות מתוך שאילתות אנונימיות ומצטברות בחיפוש Google, ואז השתמשו בדפי ויקיפדיה כדי לבסס את המידע.

מידע נוסף זמין במאמר BoolQ: Exploring the Surprising Difficulty of Natural Yes/No Questions.

‫BoolQ הוא רכיב של SuperGLUE ensemble.

BoolQ

#Metric

קיצור של שאלות בוליאניות.

הגדלה

טכניקה של למידת מכונה שמשלבת באופן איטרטיבי קבוצה של מודלים פשוטים לסיווג (שנקראים 'מסווגים חלשים') שלא תמיד מדויקים, למודל סיווג עם רמת דיוק גבוהה ('מסווג חזק'). השילוב מתבצע על ידי הגדלת המשקל של הדוגמאות שהמודל מסווג בצורה שגויה.

מידע נוסף זמין במאמר מהם עצי החלטה עם שיטת Gradient Boosting? בקורס בנושא יערות החלטה.

תיבה תוחמת (bounding box)

בתמונה, הקואורדינטות (x, y) של מלבן שמקיף אזור שמעניין אתכם, כמו הכלב בתמונה שלמטה.

תמונה של כלב שיושב על ספה. תיבת תוחמת ירוקה עם קואורדינטות של הפינה הימנית העליונה (275, 1271) והפינה השמאלית התחתונה (2954, 2761) שמקיפה את גוף הכלב

שידור

הרחבת הצורה של אופרנד בפעולה מתמטית של מטריצה לממדים שתואמים לפעולה הזו. לדוגמה, באלגברה לינארית, שני האופרנדים בפעולת חיבור מטריצות צריכים להיות בעלי אותם ממדים. לכן, אי אפשר להוסיף מטריצה בצורה (m, n) לווקטור באורך n. השידור מאפשר את הפעולה הזו על ידי הרחבה וירטואלית של הווקטור באורך n למטריצה בצורה (m, n) על ידי שכפול אותם ערכים בכל עמודה.

לוחצים על הסמל כדי לראות דוגמה.

בהינתן ההגדרות הבאות של A ו-B, אלגברה לינארית אוסרת על A+B כי ל-A ול-B יש ממדים שונים:

A = [[7, 10, 4],
     [13, 5, 9]]
B = [2]

עם זאת, שידור מאפשר את הפעולה A+B על ידי הרחבה וירטואלית של B ל:

 [[2, 2, 2],
  [2, 2, 2]]

לכן, הפעולה A+B תקפה עכשיו:

[[7, 10, 4],  +  [[2, 2, 2],  =  [[ 9, 12, 6],
 [13, 5, 9]]      [2, 2, 2]]      [15, 7, 11]]

פרטים נוספים מופיעים בתיאור הבא של שידור ב-NumPy.

bucketing

#fundamentals

המרת תכונה אחת לכמה תכונות בינאריות שנקראות buckets או bins, בדרך כלל על סמך טווח ערכים. התכונה 'חיתוך' היא בדרך כלל תכונה רציפה.

לדוגמה, במקום לייצג את רמת האקראיות כמאפיין יחיד של נקודה צפה רציפה, אפשר לחלק טווחי רמות אקראיות למאגרי נתונים נפרדים, כמו:

‫<= 10 degrees Celsius would be the "cold" bucket.
‫11 עד 24 מעלות צלזיוס יהיו בקטגוריה 'ממוזג'.
‫>= 25 degrees Celsius יהיה הדלי 'warm'.

המודל יתייחס לכל הערכים באותו דלי באופן זהה. לדוגמה, הערכים 13 ו-22 נמצאים שניהם בדלי של אזורים ממוזגים, ולכן המודל מתייחס לשני הערכים בצורה זהה.

כדי לראות טיפים ממשתמשים נוספים, לוחצים על הסמל.

אם מייצגים את רמת האקראיות כמאפיין רציף, המודל מתייחס לרמת האקראיות כמאפיין יחיד. אם מייצגים את רמת האקראיות באמצעות שלוש קטגוריות, המודל מתייחס לכל קטגוריה כאל תכונה נפרדת. כלומר, מודל יכול ללמוד קשרים נפרדים של כל דלי לתווית. לדוגמה, מודל של רגרסיה לינארית יכול ללמוד משקלים נפרדים לכל קבוצת משתמשים.

הגדלת מספר הדליים מסבכת את המודל כי היא מגדילה את מספר הקשרים שהמודל צריך ללמוד. לדוגמה, קטגוריות קרות, ממוזגות וחמות הן למעשה שלוש תכונות נפרדות לאימון המודל. אם תחליטו להוסיף עוד שני מאגרי נתונים – למשל, מאגר נתונים של נתונים קפואים ומאגר נתונים של נתונים חמים – המודל יצטרך להתאמן על חמש תכונות נפרדות.

איך יודעים כמה קטגוריות ליצור, או מה צריך להיות טווח הערכים של כל קטגוריה? בדרך כלל צריך לבצע לא מעט ניסויים כדי להגיע לתשובות.

מידע נוסף מופיע במאמר נתונים מספריים: חלוקה לקטגוריות בקורס המקוצר על למידת מכונה.

C

שכבת כיול

התאמה שמתבצעת אחרי החיזוי, בדרך כלל כדי לפצות על הטיה בחיזוי. התחזיות וההסתברויות המותאמות צריכות להתאים להתפלגות של קבוצת תוויות שנצפתה.

יצירת מועמדים

קבוצת ההמלצות הראשונית שנבחרה על ידי מערכת המלצות. לדוגמה, נניח שיש חנות ספרים שמציעה 100,000 כותרים. בשלב יצירת המועמדים, המערכת יוצרת רשימה קטנה בהרבה של ספרים מתאימים למשתמש מסוים, למשל 500. אבל גם 500 ספרים זה יותר מדי ספרים להמלצה למשתמש. בשלבים הבאים והיקרים יותר של מערכת ההמלצות (כמו דירוג ודירוג מחדש), מספר ההמלצות מצטמצם לסט קטן יותר ושימושי יותר.

מידע נוסף זמין במאמר סקירה כללית על יצירת מועמדים בקורס בנושא מערכות המלצה.

דגימה של מועמדים

אופטימיזציה בזמן האימון שמחשבת הסתברות לכל התוויות החיוביות, באמצעות, למשל, softmax, אבל רק עבור מדגם אקראי של תוויות שליליות. לדוגמה, אם יש לכם דוגמה עם התוויות beagle ו-dog, דגימת המועמדים מחשבת את ההסתברויות החזויות ואת מונחי ההפסד המתאימים ל:

beagle
dog
קבוצת משנה אקראית של שאר הסיווגים השליליים (לדוגמה, חתול, סוכרייה על מקל, גדר).

הרעיון הוא שסיווגים שליליים יכולים ללמוד מחיזוק שלילי בתדירות נמוכה יותר, כל עוד סיווגים חיוביים תמיד מקבלים חיזוק חיובי מתאים. זה אכן מה שנצפה באופן אמפירי.

דגימת מועמדים יעילה יותר מבחינת חישובים מאלגוריתמים לאימון שמחשבים תחזיות עבור כל המחלקות השליליות, במיוחד כשמספר המחלקות השליליות גדול מאוד.

נתונים קטגוריים

#fundamentals

מאפיינים עם קבוצה ספציפית של ערכים אפשריים. לדוגמה, נניח שיש מאפיין קטגוריאלי בשם traffic-light-state, שיכול לקבל רק אחד משלושת הערכים האפשריים הבאים:

red
yellow
green

אם מייצגים את traffic-light-state כמאפיין קטגורי, מודל יכול ללמוד את ההשפעות השונות של red, green ו-yellow על התנהגות הנהג.

תכונות קטגוריות נקראות לפעמים תכונות בדידות.

ההפך מנתונים מספריים.

מידע נוסף זמין במאמר עבודה עם נתונים שמחולקים לקטגוריות בקורס המקוצר על למידת מכונה.

מודל שפה סיבתי

מילה נרדפת למונח מודל שפה חד-כיווני.

כדי להבין את ההבדלים בין גישות שונות של מודלים לשפה, אפשר לעיין במאמר בנושא מודל שפה דו-כיווני.

CB

#Metric

קיצור של CommitmentBank.

נקודת המרכז

#clustering

המרכז של אשכול שנקבע על ידי אלגוריתם k-means או k-median. לדוגמה, אם k הוא 3, האלגוריתם k-means או k-median מוצא 3 מרכזים.

מידע נוסף זמין במאמר אלגוריתמים של אשכולות בקורס בנושא אשכולות.

‫centroid-based clustering

#clustering

קטגוריה של אלגוריתמים של אשכולות שמארגנים נתונים באשכולות לא היררכיים. k-means הוא האלגוריתם הנפוץ ביותר של אשכולות מבוססי-מרכז.

בניגוד לאלגוריתמים של אשכול היררכי.

מידע נוסף זמין במאמר אלגוריתמים של אשכולות בקורס בנושא אשכולות.

הנחיות בטכניקת שרשרת מחשבה

#generativeAI

טכניקה של הנדסת הנחיות שמעודדת מודל שפה גדול (LLM) להסביר את ההיגיון שלו, שלב אחר שלב. לדוגמה, נבחן את ההנחיה הבאה, תוך שימת לב מיוחדת למשפט השני:

כמה כוחות G יחווה נהג ברכב שמאיץ מ-0 ל-60 מייל לשעה ב-7 שניות? בתשובה, צריך להציג את כל החישובים הרלוונטיים.

התשובה של ה-LLM תהיה כנראה:

תציג רצף של נוסחאות בפיזיקה, ותציב את הערכים 0, 60 ו-7 במקומות המתאימים.
תסביר למה היא בחרה בנוסחאות האלה ומה המשמעות של המשתנים השונים.

הנחיות בטכניקת שרשרת מחשבה מאלצות את ה-LLM לבצע את כל החישובים, מה שעשוי להוביל לתשובה נכונה יותר. בנוסף, הנחיה מסוג chain-of-thought מאפשרת למשתמש לבדוק את השלבים של מודל ה-LLM כדי לקבוע אם התשובה הגיונית.

ציון F של N-gram של תווים (ChrF)

#Metric

מדד להערכת מודלים של תרגום אוטומטי. ציון F של N-גרמות של תווים קובע את מידת החפיפה בין N-גרמות בטקסט ההפניה לבין ה-N-גרמות בטקסט שנוצר על ידי מודל ML.

המדד Character N-gram F-score דומה למדדים במשפחות ROUGE ו-BLEU, אבל:

המדד F-score של N-gram של תווים פועל על N-gram של תווים.
המדדים ROUGE ו-BLEU פועלים על N-gram של מילים או על אסימונים.

צ'אט, צ'ט, צאט, צט

#generativeAI

התוכן של דיאלוג הלוך ושוב עם מערכת למידת מכונה, בדרך כלל מודל שפה גדול. האינטראקציה הקודמת בצ'אט (מה שהקלדתם ואיך מודל השפה הגדול הגיב) הופכת להקשר לחלקים הבאים של הצ'אט.

צ'אט בוט הוא יישום של מודל שפה גדול.

נקודת ביקורת

נתונים שמתעדים את המצב של הפרמטרים של מודל, במהלך האימון או אחרי שהאימון מסתיים. לדוגמה, במהלך האימון, תוכלו:

הפסקת האימון, אולי בכוונה או אולי כתוצאה משגיאות מסוימות.
מצלמים את נקודת הביקורת.
בשלב מאוחר יותר, טוענים מחדש את נקודת הבדיקה, אולי בחומרה אחרת.
להתחיל מחדש את ההדרכה.

בחירת חלופות סבירות (COPA)

#Metric

מערך נתונים להערכת היכולת של מודל LLM לזהות את התשובה הטובה יותר מבין שתי תשובות חלופיות להנחת יסוד. כל אחת מהבעיות במערך הנתונים מורכבת משלושה רכיבים:

הנחת יסוד, שהיא בדרך כלל הצהרה שאחריה מופיעה שאלה
שתי תשובות אפשריות לשאלה שמוצגת בפריט, שאחת מהן נכונה והשנייה לא נכונה
התשובה הנכונה

לדוגמה:

הנחת יסוד: הגבר שבר את הבוהן. מה הייתה הסיבה לכך?
תשובות אפשריות:
1. הוא קיבל חור בגרב.
2. הוא הפיל פטיש על הרגל שלו.
תשובה נכונה: 2

‫COPA הוא רכיב של SuperGLUE ensemble.

כיתה

#fundamentals

קטגוריה שתווית יכולה להשתייך אליה. לדוגמה:

במודל סיווג בינארי שמזהה ספאם, שתי המחלקות יכולות להיות ספאם ולא ספאם.
במודל סיווג מרובה מחלקות שמזהה גזעי כלבים, המחלקות יכולות להיות פודל, ביגל, פאג וכן הלאה.

מודל סיווג חוזה את הסיווג. לעומת זאת, מודל רגרסיה חוזה מספר ולא מחלקה.

מידע נוסף זמין במאמר סיווג בקורס המקוצר על למידת מכונה.

קבוצת נתונים מאוזנת לפי כיתה

מערך נתונים שמכיל תוויות קטגוריות שבהן מספר המקרים של כל קטגוריה שווה בערך. לדוגמה, נניח שיש מערך נתונים בוטני עם תווית בינארית שיכולה להיות צמח מקומי או צמח לא מקומי:

מערך נתונים עם 515 צמחים מקומיים ו-485 צמחים לא מקומיים הוא מערך נתונים מאוזן.
מערך נתונים עם 875 צמחים מקומיים ו-125 צמחים לא מקומיים הוא מערך נתונים לא מאוזן לפי סיווג.

אין קו חלוקה רשמי בין מערכי נתונים מאוזנים לפי מחלקה לבין מערכי נתונים לא מאוזנים לפי מחלקה. ההבחנה הזו חשובה רק כשמודל שאומן על מערך נתונים עם חוסר איזון קיצוני בין המחלקות לא מצליח להתכנס. פרטים נוספים זמינים במאמר קבוצות נתונים: קבוצות נתונים לא מאוזנות בסדנה ללמידת מכונה.

מודל סיווג

#fundamentals

מודל שהחיזוי שלו הוא סיווג. לדוגמה, כל אלה הם מודלים של סיווג:

מודל שמנבא את השפה של משפט קלט (צרפתית? ספרדית? איטלקית?).
מודל שמנבא מיני עצים (אדר? אלון? באובב?).
מודל שמנבא את הסיווג החיובי או השלילי של מצב רפואי מסוים.

לעומת זאת, מודלים של רגרסיה חוזים מספרים ולא סיווגים.

שני סוגים נפוצים של מודלים לסיווג הם:

סיווג בינארי
סיווג רב-קטגוריאלי

סף סיווג (classification threshold)

#fundamentals

בסיווג בינארי, מספר בין 0 ל-1 שממיר את הפלט הגולמי של מודל רגרסיה לוגיסטית לתחזית של הסיווג החיובי או של הסיווג השלילי. חשוב לזכור שסף הסיווג הוא ערך שנבחר על ידי בן אדם, ולא ערך שנבחר על ידי אימון המודל.

מודל רגרסיה לוגיסטית מחזיר ערך גולמי בין 0 ל-1. לאחר מכן:

אם הערך הגולמי הזה גדול יותר מסף הסיווג, אז המערכת חוזה את הסיווג החיובי.
אם הערך הגולמי הזה נמוך מסף הסיווג, המערכת תנבא את הסיווג השלילי.

לדוגמה, נניח שסף הסיווג הוא 0.8. אם הערך הגולמי הוא 0.9, המודל חוזה את המחלקה החיובית. אם הערך הגולמי הוא 0.7, המודל חוזה את המחלקה השלילית.

הבחירה של סף הסיווג משפיעה מאוד על מספר החיוביים הכוזבים והשליליים הכוזבים.

כדי לראות טיפים ממשתמשים נוספים, לוחצים על הסמל.

כשהמודלים או מערכי הנתונים מתפתחים, לפעמים מהנדסים משנים גם את ערך הסף לסיווג. כשסף הסיווג משתנה, חיזויים חיוביים של מחלקה יכולים להפוך פתאום למחלקות שליליות, ולהיפך.

לדוגמה, נניח שיש מודל בינארי לסיווג של חיזוי מחלות. נניח שכשהמערכת פועלת בשנה הראשונה:

הערך הגולמי של מטופל מסוים הוא 0.95.
סף הסיווג הוא 0.94.

לכן המערכת מאבחנת את המחלקה החיובית. (המטופל נושם בכבדות) "אוי לא! I'm sick!")

שנה לאחר מכן, יכול להיות שהערכים ייראו כך:

הערך הגולמי של אותו מטופל נשאר 0.95.
סף הסיווג משתנה ל-0.97.

לכן, המערכת מסווגת מחדש את המטופל הזה כסיווג השלילי. ("יום שמח! I'm not sick.") אותו מטופל. אבחון שונה.

מידע נוסף זמין במאמר ערכי סף ומטריצת בלבול בקורס המקוצר על למידת מכונה.

מסווג

#fundamentals

מונח לא רשמי למודל סיווג.

קבוצת נתונים לא מאוזנת מבחינת כיתות

#fundamentals

מערך נתונים של סיווג שבו המספר הכולל של תוויות של כל סיווג שונה באופן משמעותי. לדוגמה, נניח שיש קבוצת נתונים של סיווג בינארי עם שתי תוויות שמחולקות באופן הבא:

‫1,000,000 תוויות שליליות
10 תוויות חיוביות

היחס בין תוויות שליליות לחיוביות הוא 100,000 ל-1, ולכן זהו מערך נתונים עם חוסר איזון בין המחלקות.

לעומת זאת, מערך הנתונים הבא הוא מאוזן לפי מחלקות כי היחס בין התוויות השליליות לתוויות החיוביות קרוב יחסית ל-1:

‫517 תוויות שליליות
‫483 תוויות חיוביות

יכול להיות גם חוסר איזון בין הכיתות במערכי נתונים עם כמה כיתות. לדוגמה, מערך הנתונים הבא של סיווג רב-מחלקתי הוא גם לא מאוזן מבחינת מחלקות, כי לתווית אחת יש הרבה יותר דוגמאות מאשר לשתי התוויות האחרות:

‫1,000,000 תוויות עם הסיווג 'ירוק'
‫200 תוויות עם המחלקה purple
‫350 תוויות עם המחלקה orange

אימון של מערכי נתונים לא מאוזנים בכיתות יכול להציב אתגרים מיוחדים. פרטים נוספים זמינים במאמר Imbalanced datasets (מערכי נתונים לא מאוזנים) בסדנה בנושא למידת מכונה.

אפשר לעיין גם בערכים אנטרופיה, מחלקת הרוב ומחלקת המיעוט.

חיתוך

#fundamentals

טכניקה לטיפול בערכים חריגים באמצעות אחת מהפעולות הבאות או שתיהן:

הפחתת ערכים של תכונה שגדולים מסף מקסימלי עד לסף המקסימלי הזה.
הגדלת ערכי התכונות שקטנים מסף מינימלי עד לסף המינימלי הזה.

לדוגמה, נניח שפחות מ-0.5% מהערכים של תכונה מסוימת נמצאים מחוץ לטווח 40-60. במקרה כזה, אפשר לבצע את הפעולות הבאות:

כל הערכים מעל 60 (הסף המקסימלי) יקוצצו ל-60 בדיוק.
כל הערכים שקטנים מ-40 (סף המינימום) יוגבלו ל-40 בדיוק.

ערכים חריגים עלולים לפגוע במודלים, ולפעמים לגרום למשקלים לגלוש במהלך האימון. חלק מהערכים החריגים יכולים גם לפגוע באופן משמעותי במדדים כמו דיוק. חיתוך הוא טכניקה נפוצה להגבלת הנזק.

חיתוך שיפועים מאלץ ערכי שיפועים בטווח מוגדר במהלך האימון.

מידע נוסף זמין במאמר נתונים מספריים: נורמליזציה בסדנה ללימוד מכונת למידה.

Cloud TPU

#TensorFlow

#GoogleCloud

מאיץ חומרה ייעודי שנועד להאיץ עומסי עבודה של למידת מכונה ב-Google Cloud.

סידור באשכולות

#clustering

קיבוץ דוגמאות קשורות, במיוחד במהלך למידה לא מפוקחת. אחרי שכל הדוגמאות מקובצות, אפשר להוסיף משמעות לכל אשכול.

קיימים אלגוריתמים רבים של קיבוץ באשכולות. לדוגמה, האלגוריתם k-means מקבץ דוגמאות על סמך הקרבה שלהן למרכז מסה, כמו בתרשים הבא:

גרף דו-ממדי שבו ציר ה-X מסומן כרוחב העץ וציר ה-Y מסומן כגובה העץ. הגרף מכיל שני מרכזים וכמה עשרות נקודות נתונים. נקודות הנתונים מסווגות לפי הקרבה שלהן. כלומר, נקודות הנתונים שהכי קרובות למרכז המסה הראשון מסווגות כקבוצה 1, ואילו נקודות הנתונים שהכי קרובות למרכז המסה השני מסווגות כקבוצה 2.

לאחר מכן, חוקר אנושי יכול לבדוק את האשכולות ולתת להם שמות. לדוגמה, הוא יכול לתת לאשכול 1 את השם 'עצים ננסיים' ולאשכול 2 את השם 'עצים בגודל מלא'.

דוגמה נוספת: אלגוריתם של אשכולות שמבוסס על המרחק של דוגמה מנקודת מרכז, כמו בדוגמה הבאה:

עשרות נקודות נתונים מסודרות במעגלים קונצנטריים, כמעט כמו חורים סביב מרכז לוח החצים. הטבעת הפנימית ביותר של נקודות הנתונים מסווגת כקלאסטר 1, הטבעת האמצעית מסווגת כקלאסטר 2, והטבעת החיצונית ביותר מסווגת כקלאסטר 3.

מידע נוסף זמין בקורס בנושא אשכולות.

עיבוד משותף

התנהגות לא רצויה שבה נוירונים חוזים דפוסים בנתוני האימון על ידי הסתמכות כמעט בלעדית על הפלט של נוירונים ספציפיים אחרים, במקום להסתמך על ההתנהגות של הרשת כולה. אם הדפוסים שגורמים להתאמה משותפת לא מופיעים בנתוני האימות, ההתאמה המשותפת גורמת להתאמת יתר. רגולריזציה של נשירה מפחיתה את ההתאמה המשותפת כי הנשירה מבטיחה שהנוירונים לא יוכלו להסתמך רק על נוירונים ספציפיים אחרים.

סינון שיתופי

חיזוי תחומי העניין של משתמש מסוים על סמך תחומי העניין של משתמשים רבים אחרים. סינון שיתופי משמש לעיתים קרובות במערכות המלצה.

מידע נוסף זמין במאמר בנושא סינון שיתופי בקורס בנושא מערכות המלצה.

CommitmentBank (CB)

#Metric

מערך נתונים להערכת רמת המיומנות של מודל LLM בקביעה אם מחבר הקטע מאמין לסעיף היעד בתוך הקטע. כל רשומה במערך הנתונים מכילה:

פסקה
סעיף יעד בתוך הפסקה הזו
ערך בוליאני שמציין אם מחבר הקטע מאמין שהסעיף

לדוגמה:

פסקה: איזה כיף לשמוע את ארטמיס צוחקת. היא ילדה כל כך רצינית. לא ידעתי שיש לה חוש הומור.
סעיף היעד: she had a sense of humor
‫Boolean: True, כלומר המחבר מאמין שהסעיף הממוקד

‫CommitmentBank הוא רכיב של SuperGLUE ensemble.

מודל קומפקטי

כל מודל קטן שמיועד להפעלה במכשירים קטנים עם משאבי מחשוב מוגבלים. לדוגמה, מודלים קומפקטיים יכולים לפעול בטלפונים ניידים, בטאבלטים או במערכות מוטמעות.

מחשוב

(שם עצם) משאבי המחשוב שמשמשים מודל או מערכת, כמו כוח עיבוד, זיכרון ואחסון.

למידע על צ'יפים להאצת ביצועים

סחף קונספט

שינוי בקשר בין התכונות לתווית. עם הזמן, סחף מושגים מפחית את איכות המודל.

במהלך האימון, המודל לומד את הקשר בין התכונות לבין התוויות שלהן בקבוצת הנתונים לאימון. אם התוויות ב קבוצת נתונים לאימון הן תחליפים טובים לעולם האמיתי, אז המודל צריך לספק תחזיות טובות לגבי העולם האמיתי. עם זאת, בגלל סחף מושגים, התחזיות של המודל נוטות להידרדר עם הזמן.

לדוגמה, נניח שיש מודל של סיווג בינארי שמנבא אם מודל רכב מסוים הוא "חסכוני בדלק" או לא. כלומר, התכונות יכולות להיות:

משקל הרכב
דחיסת מנוע
סוג תיבת ההילוכים

כשהתווית היא אחת מהאפשרויות הבאות:

חסכוני בדלק
לא חסכוני בדלק

עם זאת, ההגדרה של "מכונית חסכונית בדלק" משתנה כל הזמן. דגם מכונית שסומן כחסכוני בדלק בשנת 1994, כמעט בוודאות יסומן כלא חסכוני בדלק בשנת 2024. מודל שסובל מסחף מושגים נוטה להפיק חיזויים פחות ופחות שימושיים לאורך זמן.

השוו והבדילו עם nonstationarity.

כדי לראות טיפים ממשתמשים נוספים, לוחצים על הסמל.

כדי לפצות על סחף המושגים, צריך לאמן מחדש את המודלים מהר יותר מקצב סחף המושגים. לדוגמה, אם סחף מושגים מפחית את הדיוק של המודל בשיעור משמעותי כל חודשיים, כדאי לאמן מחדש את המודל בתדירות גבוהה יותר מאשר כל חודשיים.

תנאי

#df

בעץ החלטה, כל צומת שמבצע בדיקה. לדוגמה, עץ ההחלטות הבא מכיל שני תנאים:

עץ החלטה שמורכב משני תנאים: (x > 0) ו-(y > 0).

תנאי נקרא גם פיצול או בדיקה.

תנאי ניגודיות עם עלה.

ראה גם:

binary condition
מצב א-בינארי.
axis-aligned-condition
oblique-condition

מידע נוסף זמין במאמר סוגי תנאים בקורס בנושא יערות החלטה.

המצאת סיפורים

מילה נרדפת למונח הזיה.

יכול להיות שהמונח 'המצאת סיפורים' מדויק יותר מבחינה טכנית מהמונח 'הזיה'. עם זאת, ההזיה הפכה לפופולרית קודם.

הגדרות אישיות

התהליך של הקצאת ערכי המאפיינים הראשוניים שמשמשים לאימון מודל, כולל:

השכבות שמרכיבות את המודל
המיקום של הנתונים
היפר-פרמטרים כמו:

בפרויקטים של למידת מכונה, אפשר לבצע הגדרה באמצעות קובץ הגדרה מיוחד או באמצעות ספריות הגדרה כמו אלה:

הטיית אישור

#responsible

הנטייה לחפש מידע, לפרש אותו, להעדיף אותו ולזכור אותו באופן שמחזק את האמונות או ההשערות הקיימות של האדם. יכול להיות שמפתחים של למידת מכונה יאספו או יתייגו נתונים בדרכים שישפיעו על התוצאה ויאשרו את האמונות הקיימות שלהם. הטיית אישור היא סוג של הטיה מרומזת.

הטיה של עורכי ניסויים היא סוג של הטיית אישור שבה עורך ניסויים ממשיך לאמן מודלים עד שמאושרת השערה קיימת.

מטריצת בלבול

#fundamentals

טבלה בגודל NxN שמסכמת את מספר התחזיות הנכונות והלא נכונות שבוצעו על ידי מודל סיווג. לדוגמה, הנה מטריצת בלבול עבור מודל של סיווג בינארי:

	גידול (צפוי)	Non-Tumor (predicted)
גידול (אמת קרקע)	‫18 (TP)	‫1 (FN)
Non-Tumor (ground truth)	‫6 (FP)	452 (TN)

מטריצת הבלבול שלמעלה מציגה את הנתונים הבאים:

מתוך 19 התחזיות שבהן אמת קרקע הייתה Tumor, המודל סיווג 18 מהן בצורה נכונה ו-1 בצורה שגויה.
מתוך 458 התחזיות שבהן אמת הקרקע הייתה Non-Tumor, המודל סיווג 452 בצורה נכונה ו-6 בצורה שגויה.

מטריצת הבלבול של בעיית סיווג רב-מחלקתי יכולה לעזור לכם לזהות דפוסים של טעויות. לדוגמה, נניח שיש מטריצת בלבול למודל סיווג רב-סוגי עם 3 סוגים, שמסווג 3 סוגים שונים של אירוסים (Virginica, ‏ Versicolor ו-Setosa). כשערך אמת הקרקע היה Virginica, מטריצת הטעות מראה שהמודל היה הרבה יותר סביר לטעות ולחזות Versicolor מאשר Setosa:

	Setosa (predicted)	Versicolor (צפוי)	‫Virginica (חזוי)
Setosa (אמת קרקע)	88	12	0
Versicolor (אמת קרקע)	6	141	7
Virginica (אמת קרקע)	2	27	109

דוגמה נוספת: מטריצת בלבול יכולה לחשוף שמודל שאומן לזיהוי ספרות בכתב יד נוטה לחזות בטעות 9 במקום 4, או לחזות בטעות 1 במקום 7.

מטריצות השגיאה מכילות מספיק מידע כדי לחשב מגוון מדדי ביצועים, כולל דיוק ורגישות.

ניתוח של מחוז בחירה

חלוקת משפט למבנים דקדוקיים קטנים יותר ("רכיבים"). חלק מאוחר יותר במערכת למידת המכונה, כמו מודל של הבנת שפה טבעית, יכול לנתח את המרכיבים בקלות רבה יותר מאשר המשפט המקורי. לדוגמה, המשפט הבא:

החבר שלי אימץ שני חתולים.

מנתח של מרכיבי משפט יכול לחלק את המשפט הזה לשני מרכיבים:

‫My friend הוא צירוף שם.
‫adopted two cats הוא צירוף פועל.

אפשר לחלק את המרכיבים האלה למרכיבים קטנים יותר. לדוגמה, צירוף הפועל

אימצתי שני חתולים

אפשר לחלק אותם עוד יותר לקטגוריות הבאות:

adopted הוא פועל.
two cats (שני חתולים) הוא עוד צירוף שם עצם.

הטמעת שפה בהתאם להקשר

#generativeAI

הטמעה שמתקרבת ל'הבנה' של מילים וביטויים בדרכים שדוברי שפה אנושית שוטפת יכולים להבין. הטמעות של שפה בהקשר יכולות להבין תחביר, סמנטיקה והקשר מורכבים.

לדוגמה, נבחן הטמעות של המילה cow באנגלית. הטמעות ישנות יותר, כמו word2vec, יכולות לייצג מילים באנגלית כך שהמרחק במרחב ההטמעה מcow (פרה) לbull (שור) דומה למרחק מewe (כבשה) לram (איל) או מfemale (נקבה) לmale (זכר). הטמעות שפה בהקשר יכולות ללכת צעד אחד קדימה ולזהות שדוברי אנגלית משתמשים לפעמים במילה cow באופן לא רשמי כדי להתייחס לפרה או לשור.

חלון ההקשר

#generativeAI

מספר הטוקנים שמודל יכול לעבד בהנחיה נתונה. ככל שחלון ההקשר גדול יותר, המודל יכול להשתמש ביותר מידע כדי לספק תשובות עקביות וקוהרנטיות להנחיה.

תכונה רציפה

#fundamentals

תכונה של נקודה צפה עם טווח אינסופי של ערכים אפשריים, כמו רמת אקראיות או משקל.

ההבדל בין התכונה הזו לבין תכונה נפרדת.

דגימת נוחות [ברבים: דגימות נוחוּת]

שימוש במערך נתונים שלא נאסף בצורה מדעית כדי להריץ ניסויים מהירים. בהמשך, חשוב לעבור למערך נתונים שנאסף באופן מדעי.

התכנסות

#fundamentals

מצב שמתקבל כשערכי ההפסד משתנים מעט מאוד או לא משתנים בכלל בכל איטרציה. לדוגמה, מעקומת ההפסד הבאה אפשר לראות שההתכנסות מתרחשת בערך אחרי 700 איטרציות:

תרשים קרטזיאני. ציר ה-X הוא אובדן. ציר ה-Y הוא מספר איטרציות האימון. ההפסד גבוה מאוד במהלך כמה האיטרציות הראשונות, אבל
יורד בחדות. אחרי כ-100 איטרציות, ערך ההפסד עדיין יורד, אבל בצורה הדרגתית הרבה יותר. אחרי כ-700 איטרציות,
ההפסד נשאר קבוע.

מודל מתכנס כשאימון נוסף לא ישפר אותו.

בלמידה עמוקה, ערכי ההפסד נשארים לפעמים קבועים או כמעט קבועים במשך הרבה איטרציות לפני שהם יורדים בסופו של דבר. במהלך תקופה ארוכה של ערכי הפסד קבועים, יכול להיות שתקבלו באופן זמני תחושה מוטעית של התכנסות.

אפשר לעיין גם במאמר בנושא עצירה מוקדמת.

מידע נוסף זמין במאמר Model convergence and loss curves (התכנסות מודלים ועקומות הפסד) בסדנה בנושא למידת מכונה.

תכנות בממשק שיחה

#generativeAI

תיבת דו-שיח איטרטיבית ביניכם לבין מודל AI גנרטיבי, במטרה ליצור תוכנה. אתם מזינים הנחיה שמתארת תוכנה מסוימת. לאחר מכן, המודל משתמש בתיאור הזה כדי ליצור קוד. אחר כך, מזינים הנחיה חדשה כדי לטפל בפגמים בהנחיה הקודמת או בקוד שנוצר, והמודל יוצר קוד מעודכן. אתם ממשיכים להחליף תשובות עד שהתוכנה שנוצרה מספיק טובה.

קידוד שיחות הוא למעשה המשמעות המקורית של תכנות בשיטת Vibe coding.

ההבדל בין זה לבין תכנות לפי מפרט.

פונקציה קמורה

פונקציה שבה האזור שמעל הגרף שלה הוא קבוצה קמורה. הצורה של פונקציה קמורה טיפוסית דומה לצורה של האות U. לדוגמה, הפונקציות הבאות הן פונקציות קמורות:

עקומות בצורת U, שלכל אחת מהן יש נקודת מינימום אחת.

לעומת זאת, הפונקציה הבאה היא לא קמורה. שימו לב שהאזור שמעל הגרף הוא לא קבוצה קמורה:

עקומה בצורת W עם שתי נקודות מינימום מקומיות שונות.

לפונקציה קמורה לחלוטין יש בדיוק נקודת מינימום מקומית אחת, שהיא גם נקודת המינימום הגלובלית. הפונקציות הקלאסיות בצורת U הן פונקציות קמורות לחלוטין. עם זאת, חלק מהפונקציות הקמורות (למשל, קווים ישרים) לא יוצרות צורה של U.

כדי לראות את החישובים, לוחצים על הסמל.

הרבה פונקציות אובדן נפוצות, כולל אלה שבהמשך, הן פונקציות קמורות:

L₂ loss
Log Loss
רגולריזציה מסוג L₁
רגולריזציה מסוג _L2

יש הרבה וריאציות של gradient descent שמבטיחות למצוא נקודה קרובה למינימום של פונקציה קמורה לחלוטין. באופן דומה, להרבה וריאציות של stochastic gradient descent יש הסתברות גבוהה (אבל לא מובטחת) למצוא נקודה קרובה למינימום של פונקציה קמורה לחלוטין.

סכום של שתי פונקציות קמורות (לדוגמה, הפסד L₂ + רגולריזציה L₁) הוא פונקציה קמורה.

מודלים עמוקים הם אף פעם לא פונקציות קמורות. באופן מפתיע, אלגוריתמים שנועדו לאופטימיזציה קמורה נוטים למצוא פתרונות טובים למדי ברשתות עמוקות, גם אם אין ערובה לכך שהפתרונות האלה הם מינימום גלובלי.

מידע נוסף זמין במאמר התכנסות ופונקציות קמורות בסדנה ללימוד מכונתית.

אופטימיזציה קמורה

התהליך של שימוש בטכניקות מתמטיות כמו ירידת גרדיאנט כדי למצוא את המינימום של פונקציה קמורה. חלק גדול מהמחקר בתחום למידת המכונה מתמקד בניסוח של בעיות שונות כבעיות אופטימיזציה קמורות, ובפתרון הבעיות האלה בצורה יעילה יותר.

פרטים נוספים זמינים בספר Convex Optimization של Boyd ו-Vandenberghe.

קבוצה קמורה

קבוצת משנה של מרחב אוקלידי, כך שקו שמצויר בין שתי נקודות כלשהן בקבוצת המשנה נשאר כולו בתוך קבוצת המשנה. לדוגמה, שתי הצורות הבאות הן קבוצות קמורות:

איור של מלבן. עוד איור של צורה אובלית.

לעומת זאת, שתי הצורות הבאות הן לא קבוצות קמורות:

איור של תרשים עוגה עם פלח חסר.
איור נוסף של פוליגון לא סדיר.

קונבולוציה

במתמטיקה, באופן לא רשמי, תערובת של שתי פונקציות. בלימוד מכונה, קונבולוציה היא ערבוב של מסנן קונבולוציוני ומטריצת הקלט כדי לאמן משקלים.

המונח 'קונבולוציה' בלמידת מכונה הוא לרוב קיצור לפעולת קונבולוציה או לשכבת קונבולוציה.

ללא קונבולוציות, אלגוריתם של למידת מכונה יצטרך ללמוד משקל נפרד לכל תא בטנסור גדול. לדוגמה, אלגוריתם של למידת מכונה שאומן על תמונות בגודל ‎2K x 2K יצטרך למצוא 4 מיליון משקלים נפרדים. בזכות קונבולוציות, אלגוריתם של למידת מכונה צריך למצוא משקלים רק לכל תא במסנן הקונבולוציה, וכך מצטמצם באופן משמעותי הזיכרון שנדרש לאימון המודל. כשמחילים את המסנן הקונבולוציוני, הוא פשוט משוכפל בתאים כך שכל תא מוכפל במסנן.

מסנן קונבולוציה

אחד משני השחקנים בפעולת קונבולוציה. (השחקן השני הוא פרוסה של מטריצת קלט). מסנן קונבולוציה הוא מטריצה עם דרגה זהה לזו של מטריצת הקלט, אבל עם צורה סגורה קטנה יותר. לדוגמה, אם מטריצת הקלט היא בגודל 28x28, המסנן יכול להיות כל מטריצה דו-ממדית קטנה יותר מ-28x28.

במניפולציה של תמונות, כל התאים במסנן קונבולוציה מוגדרים בדרך כלל לתבנית קבועה של אחדות ואפסים. בלמידת מכונה, מסנני קונבולוציה בדרך כלל מאותחלים עם מספרים אקראיים, ואז הרשת מתאמנת על הערכים האידיאליים.

שכבת קונבולוציה

שכבה של רשת עצבית עמוקה שבה מסנן קונבולוציה עובר לאורך מטריצת קלט. לדוגמה, נבחן את מסנן הקונבולוציה הבא בגודל 3x3:

מטריצה בגודל 3x3 עם הערכים הבאים: [[0,1,0], [1,0,1], [0,1,0]]

באנימציה הבאה מוצגת שכבת קונבולוציה שמורכבת מ-9 פעולות קונבולוציה שכוללות את מטריצת הקלט בגודל 5x5. שימו לב שכל פעולת קונבולוציה פועלת על פרוסת 3x3 שונה של מטריצת הקלט. מטריצת 3x3 שמתקבלת (משמאל) מורכבת מתוצאות של 9 פעולות קונבולוציה:

אנימציה שמציגה שתי מטריצות. המטריצה הראשונה היא מטריצה בגודל 5x5: [[128,97,53,201,198], [35,22,25,200,195],
[37,24,28,197,182], [33,28,92,195,179], [31,40,100,192,177]].
המטריצה השנייה היא מטריצה בגודל 3x3:
[[181,303,618], [115,338,605], [169,351,560]].
המטריצה השנייה מחושבת על ידי החלת המסנן הקונבולוציוני [[0, 1, 0], [1, 0, 1], [0, 1, 0]] על קבוצות משנה שונות בגודל 3x3 של המטריצה בגודל 5x5.

רשת נוירונים קונבולוציונית

רשת נוירונים שבה לפחות שכבה אחת היא שכבת קונבולוציה. רשת נוירונים קונבולוציונית טיפוסית מורכבת משילוב כלשהו של השכבות הבאות:

שכבות קונבולוציה
שכבות איגום
שכבות צפופות

רשתות נוירונים קונבולוציוניות (CNN) השיגו הצלחה רבה בפתרון בעיות מסוימות, כמו זיהוי תמונות.

פעולה של קונבולוציה

הפעולה המתמטית הבאה בת שני השלבים:

הכפלה של כל רכיב במסנן הקונבולוציה עם פרוסת מטריצת קלט. (לפרוסת מטריצת הקלט יש דרגה וגודל זהים לאלה של מסנן הקונבולוציה).
סכום כל הערכים במטריצת המוצרים שמתקבלת.

לדוגמה, מטריצת הקלט הבאה בגודל 5x5:

מטריצה 5x5: [[128,97,53,201,198], [35,22,25,200,195],
[37,24,28,197,182], [33,28,92,195,179], [31,40,100,192,177]].

עכשיו נדמיין מסנן קונבולוציה בגודל 2x2:

המטריצה 2x2:‏ [[1, 0], [0, 1]]

כל פעולת קונבולוציה כוללת פרוסה אחת בגודל 2x2 של מטריצת הקלט. לדוגמה, נניח שאנחנו משתמשים בפלח בגודל 2x2 בפינה הימנית העליונה של מטריצת הקלט. לכן, פעולת הקונבולוציה על הפרוסה הזו נראית כך:

החלת מסנן קונבולוציה [[1, 0], [0, 1]] על החלק בגודל 2x2 בפינה הימנית העליונה של מטריצת הקלט, שהוא [[128,97], [35,22]].
המסנן הקונבולוציוני משאיר את הערכים 128 ו-22 ללא שינוי, אבל מאפס את הערכים 97 ו-35. לכן, פעולת הקונבולוציה מחזירה את הערך 150 (128+22).

שכבת קונבולוציה מורכבת מסדרה של פעולות קונבולוציה, שכל אחת מהן פועלת על פרוסה אחרת של מטריצת הקלט.

COPA

#Metric

קיצור של בחירת חלופות סבירות.

עלות

#Metric

מילה נרדפת להפסד.

אימון משותף

גישה של למידה מונחית למחצה, שימושית במיוחד כשכל התנאים הבאים הם TRUE:

היחס בין דוגמאות לא מסומנות לבין דוגמאות מסומנות במערך הנתונים גבוה.
זו בעיית סיווג (בינארי או מרובה מחלקות).
מערך הנתונים מכיל שני סטים שונים של תכונות חיזוי, שהם בלתי תלויים ומשלימים זה את זה.

במהלך האימון המשותף, אותות עצמאיים מוגברים והופכים לאות חזק יותר. לדוגמה, נניח שיש מודל סיווג שמסווג מכוניות משומשות בודדות כטובות או כגרועות. קבוצה אחת של תכונות חיזויות עשויה להתמקד במאפיינים מצטברים כמו השנה, היצרן והדגם של המכונית. קבוצה אחרת של תכונות חיזויות עשויה להתמקד ברשומת הנהיגה של הבעלים הקודם ובהיסטוריית התחזוקה של המכונית.

מאמר חשוב בנושא אימון משותף הוא Combining Labeled and Unlabeled Data with Co-Training מאת Blum ו-Mitchell.

הוגנות קונטרה-פקטואלית

#responsible

#Metric

מדד הוגנות שבודק אם מודל סיווג מפיק את אותה תוצאה עבור אדם מסוים כמו עבור אדם אחר זהה, למעט מאפיינים רגישים מסוימים. הערכה של מודל סיווג מבחינת הוגנות קונטרה-פקטואלית היא שיטה אחת לחשיפת מקורות פוטנציאליים של הטיה במודל.

מידע נוסף זמין במאמרים הבאים:

הוגנות: הוגנות מנוגדת לעובדות בקורס המקוצר על למידת מכונה.
When Worlds Collide: Integrating Different Counterfactual Assumptions in Fairness

הטיית כיסוי

#responsible

ראו הטיית בחירה.

crash blossom

משפט או ביטוי עם משמעות לא ברורה. תופעת ה-crash blossoms יוצרת בעיה משמעותית בהבנת שפה טבעית. לדוגמה, הכותרת Red Tape Holds Up Skyscraper היא כותרת בעלת משמעות כפולה, כי מודל NLU יכול לפרש את הכותרת באופן מילולי או באופן פיגורטיבי.

כדי לראות טיפים ממשתמשים נוספים, לוחצים על הסמל.

רק כדי להבהיר את הכותרת המסתורית:

המונח Red Tape יכול להתייחס לאחת מהאפשרויות הבאות:
- חומר דביק
- בירוקרטיה מוגזמת
הערך Holds Up יכול להתייחס לאחת מהאפשרויות הבאות:
- תמיכה מבנית
- עיכובים

מבקר/ת

מילה נרדפת ל-Deep Q-Network.

אנטרופיה צולבת

#Metric

הכללה של Log Loss לבעיות סיווג מרובות מחלקות. האנטרופיה הצולבת מכמתת את ההבדל בין שתי התפלגויות הסתברות. מידע נוסף זמין במאמר בנושא perplexity.

אימות צולב

מנגנון להערכת מידת ההתאמה של מודל לנתונים חדשים. ההערכה מתבצעת על ידי בדיקת המודל מול קבוצות משנה של נתונים שלא חופפות זו לזו, שלא נכללו בקבוצת נתונים לאימון.

פונקציית התפלגות מצטברת (CDF)

#Metric

פונקציה שמגדירה את התדירות של דגימות שקטנות מערך יעד או שוות לו. לדוגמה, נניח שיש התפלגות נורמלית של ערכים רציפים. פונקציית CDF מראה שכ-50% מהדגימות צריכות להיות קטנות מהממוצע או שוות לו, וכ-84% מהדגימות צריכות להיות קטנות מהממוצע בסטיית תקן אחת או שוות לו.

D

ניתוח נתונים

הבנת הנתונים על ידי בחינת דוגמאות, מדידות והמחשה. ניתוח נתונים יכול להיות שימושי במיוחד כשמקבלים מערך נתונים בפעם הראשונה, לפני שיוצרים את המודל הראשון. הוא גם חשוב להבנת ניסויים ולניפוי באגים במערכת.

הגדלת מערך הנתונים

הגדלה מלאכותית של טווח הדוגמאות ושל מספר הדוגמאות לאימון על ידי שינוי דוגמאות קיימות כדי ליצור דוגמאות נוספות. לדוגמה, נניח שתמונות הן אחת מהתכונות שלכם, אבל מערך הנתונים לא מכיל מספיק דוגמאות של תמונות כדי שהמודל יוכל ללמוד שיוכים שימושיים. מומלץ להוסיף למערך הנתונים מספיק תמונות מתויגות כדי לאפשר אימון תקין של המודל. אם זה לא אפשרי, אפשר להשתמש בהגדלת מערך הנתונים כדי לסובב, למתוח ולשקף כל תמונה כדי ליצור וריאציות רבות של התמונה המקורית. יכול להיות שזה יניב מספיק נתונים מתויגים כדי לאפשר אימון מצוין.

DataFrame

#fundamentals

סוג נתונים פופולרי של pandas לייצוג מערכי נתונים בזיכרון.

אובייקט DataFrame דומה לטבלה או לגיליון אלקטרוני. לכל עמודה ב-DataFrame יש שם (כותרת), ולכל שורה יש מספר ייחודי שמזהה אותה.

כל עמודה ב-DataFrame בנויה כמו מערך דו-ממדי, אבל לכל עמודה אפשר להקצות סוג נתונים משלה.

אפשר לעיין גם בדף העיון הרשמי של pandas.DataFrame.

מקביליות נתונים

שיטה להרחבת אימון או הסקת מסקנות, שבה משכפלים מודל שלם למספר מכשירים ואז מעבירים לכל מכשיר קבוצת משנה של נתוני הקלט. מקביליות נתונים יכולה לאפשר אימון והסקת מסקנות בגדלים גדולים מאוד של אצווה. עם זאת, מקביליות נתונים מחייבת שהמודל יהיה קטן מספיק כדי להתאים לכל המכשירים.

בדרך כלל, מקביליות נתונים מזרזת את האימון וההסקה.

אפשר לעיין גם במאמר בנושא מקביליות של מודלים.

‫Dataset API ‏ (tf.data)

#TensorFlow

‫API ברמה גבוהה של TensorFlow לקריאת נתונים ולהמרה שלהם לפורמט שנדרש לאלגוריתם של למידת מכונה. אובייקט tf.data.Dataset מייצג רצף של רכיבים, שכל אחד מהם מכיל Tensor אחד או יותר. אובייקט tf.data.Iterator מספק גישה לרכיבים של Dataset.

קבוצת נתונים

#fundamentals

אוסף של נתונים גולמיים, בדרך כלל (אבל לא רק) באחד מהפורמטים הבאים:

גיליון אלקטרוני
קובץ בפורמט CSV (ערכים מופרדים בפסיקים)

גבול ההחלטה

הקו המפריד בין classes שנלמדו על ידי model בbinary class או בmulti-class classification problems. לדוגמה, בתמונה הבאה שמייצגת בעיית סיווג בינארית, גבול ההחלטה הוא הגבול בין המחלקה הכתומה למחלקה הכחולה:

גבול מוגדר היטב בין כיתה אחת לכיתה אחרת.

יער החלטות

#df

מודל שנוצר מכמה עצי החלטה. כדי לבצע חיזוי, יער ההחלטות צובר את החיזויים של עצי ההחלטות שלו. סוגים פופולריים של יערות החלטה כוללים יערות אקראיים ועצים עם שיפור גרדיאנט.

מידע נוסף זמין בקטע יערות של החלטות בקורס בנושא יערות של החלטות.

סף ההחלטה

מילה נרדפת לסף סיווג.

עץ החלטה

#df

מודל של למידה מונחית שמורכב מקבוצה של תנאים וענפים שמאורגנים בהיררכיה. לדוגמה, זהו עץ החלטות:

עץ החלטות שמורכב מארבעה תנאים שמסודרים בהיררכיה, שמובילים לחמישה עלים.

מפענח

באופן כללי, כל מערכת ML שמבצעת המרה מייצוג מעובד, צפוף או פנימי לייצוג גולמי, דליל או חיצוני יותר.

מפענחים הם לרוב רכיב של מודל גדול יותר, ולעתים קרובות הם משולבים עם מקודד.

במשימות של רצף לרצף, מפענח מתחיל עם המצב הפנימי שנוצר על ידי המקודד כדי לחזות את הרצף הבא.

במאמר Transformer מופיעה הגדרה של מפענח בארכיטקטורת Transformer.

מידע נוסף זמין במאמר מודלים גדולים של שפה בקורס Machine Learning Crash Course.

מודל עמוק

#fundamentals

רשת נוירונים שמכילה יותר משכבה נסתרת.

מודל עמוק נקרא גם רשת עצבית עמוקה.

ההבדל בינו לבין מודל רחב.

של רשת עצבית עמוקה

מילה נרדפת למודל עמוק.

Deep Q-Network (DQN)

ב-Q-learning, נעשה שימוש ברשת עצבית עמוקה כדי לחזות פונקציות Q.

Critic הוא מילה נרדפת ל-Deep Q-Network.

שוויון דמוגרפי

#responsible

#Metric

מדד הוגנות שמתקיים אם תוצאות הסיווג של המודל לא תלויות במאפיין רגיש נתון.

לדוגמה, אם גם אנשי ליליפוט וגם אנשי ברובדינגנאג מגישים בקשה להתקבל לאוניברסיטת גלאבדאבדריב, מתקבלת שוויון דמוגרפי אם אחוז אנשי ליליפוט שהתקבלו זהה לאחוז אנשי ברובדינגנאג שהתקבלו, ללא קשר לשאלה אם קבוצה אחת מוסמכת יותר מהשנייה בממוצע.

ההגדרה הזו שונה מסיכויים שווים ומשוויון הזדמנויות, שמאפשרות לתוצאות הסיווג הכוללות להיות תלויות במאפיינים רגישים, אבל לא מאפשרות לתוצאות הסיווג של תוויות אמת בסיסית מסוימות להיות תלויות במאפיינים רגישים. במאמר "Attacking discrimination with smarter machine learning" (התמודדות עם אפליה באמצעות למידת מכונה חכמה יותר) מוצג תרשים שממחיש את היתרונות והחסרונות של אופטימיזציה להשגת שוויון דמוגרפי.

מידע נוסף זמין במאמר בנושא הוגנות: שוויון דמוגרפי בקורס המקוצר על למידת מכונה.

ניקוי רעשים

גישה נפוצה ללמידה מונחית עצמית שבה:

רעש מתווסף באופן מלאכותי למערך הנתונים.
המודל מנסה להסיר את הרעש.

הסרת רעשים מאפשרת מצב למידה מדוגמאות לא מסומנות. מערך הנתונים המקורי משמש כיעד או כתווית, והנתונים הרועשים משמשים כקלט.

חלק ממודלים של שפה עם מיסוך משתמשים בהסרת רעשים באופן הבא:

רעש מתווסף באופן מלאכותי למשפט לא מסומן על ידי מיסוך של חלק מהטוקנים.
המודל מנסה לחזות את הטוקנים המקוריים.

תכונה צפופה

#fundamentals

תכונה שרוב הערכים שלה או כולם הם לא אפס, בדרך כלל טנזור של ערכים מסוג נקודה צפה. לדוגמה, טנסור 10-אלמנטים הבא הוא צפוף כי 9 מהערכים שלו הם לא אפס:

ההבדל בין התכונה הזו לבין sparse feature.

שכבה צפופה

מילה נרדפת לשכבה מקושרת באופן מלא.

depth

#fundamentals

הסכום של הרכיבים הבאים ברשת נוירונים:

מספר השכבות הנסתרות
מספר שכבות הפלט, שבדרך כלל הוא 1
מספר שכבות ההטמעה

לדוגמה, רשת נוירונים עם חמש שכבות נסתרות ושכבת פלט אחת היא בעומק 6.

שימו לב ששכבת הקלט לא משפיעה על העומק.

רשת נוירונים מלאכותית (CNN) עם קונבולוציה נפרדת לפי עומק (sepCNN)

ארכיטקטורה של רשת נוירונים מורכבת שמבוססת על Inception, אבל מודולי Inception מוחלפים בה ב-convolutions נפרדים לפי עומק. נקרא גם Xception.

קונבולוציה ניתנת להפרדה לפי עומק (שנקראת גם קונבולוציה ניתנת להפרדה) מפרקת קונבולוציה תלת-ממדית רגילה לשתי פעולות קונבולוציה נפרדות שהן יעילות יותר מבחינת חישוב: קודם, קונבולוציה לפי עומק, עם עומק של 1 (n ✕ n ✕ 1), ואז, קונבולוציה לפי נקודה, עם אורך ורוחב של 1 (1 ✕ 1 ✕ n).

מידע נוסף זמין במאמר Xception: Deep Learning with Depthwise Separable Convolutions.

תווית נגזרת

מילה נרדפת ל-תווית proxy.

מכשיר

#TensorFlow

#GoogleCloud

מונח עמוס עם שתי הגדרות אפשריות:

קטגוריה של חומרה שיכולה להריץ סשן של TensorFlow, כולל מעבדי CPU, מעבדי GPU ומעבדי TPU.
כשמבצעים אימון של מודל ML על שבבי האצה (GPU או TPU), החלק במערכת שמבצע בפועל מניפולציה של טנסורים ושל הטבעות. המכשיר פועל על שבבי האצה. לעומת זאת, המארח פועל בדרך כלל במעבד.

פרטיות דיפרנציאלית

במידת מכונה, גישה לאנונימיזציה שמטרתה להגן על נתונים רגישים (לדוגמה, מידע אישי של אדם מסוים) שכלולים במערך האימונים של מודל מפני חשיפה. הגישה הזו מבטיחה שהמודל לא ילמד או יזכור הרבה על אדם ספציפי. ההגנה הזו מושגת באמצעות דגימה והוספת רעש במהלך אימון המודל, כדי להסתיר נקודות נתונים פרטניות ולצמצם את הסיכון לחשיפת נתוני אימון רגישים.

פרטיות דיפרנציאלית משמשת גם מחוץ ללמידת מכונה. לדוגמה, מדעני נתונים משתמשים לפעמים בפרטיות דיפרנציאלית כדי להגן על הפרטיות של משתמשים ספציפיים כשהם מחשבים נתונים סטטיסטיים על השימוש במוצר עבור מאפיינים דמוגרפיים שונים.

הפחתת ממדים

הקטנת מספר המאפיינים שמשמשים לייצוג תכונה מסוימת בווקטור תכונות, בדרך כלל על ידי המרה לווקטור הטמעה.

מימדים

מונח בעל עומס יתר עם אחת מההגדרות הבאות:

מספר הרמות של הקואורדינטות בTensor. לדוגמה:
- לסקלר יש אפס ממדים, לדוגמה: ["Hello"].
- לווקטור יש מימד אחד, לדוגמה, [3, 5, 7, 11].
- למטריצה יש שני מאפיינים, לדוגמה, [[2, 4, 18], [5, 7, 14]]. אפשר לציין באופן ייחודי תא מסוים בווקטור חד-ממדי באמצעות קואורדינטה אחת, אבל צריך שתי קואורדינטות כדי לציין באופן ייחודי תא מסוים במטריצה דו-ממדית.
מספר הרשומות בוקטור מאפיינים.
מספר האלמנטים בשכבת הטמעה.

מתן הנחיות ישירות

#generativeAI

מילה נרדפת להנחיות בלי דוגמאות (zero-shot prompting).

תכונה נפרדת

#fundamentals

תכונה עם קבוצה סופית של ערכים אפשריים. לדוגמה, מאפיין שהערכים שלו יכולים להיות רק animal (בעל חיים), vegetable (ירק) או mineral (מינרל) הוא מאפיין בדיד (או קטגורי).

ההפך מתכונה מתמשכת.

מודל דיסקרימינטיבי

מודל שמנבא תוויות מתוך קבוצה של תכונות אחת או יותר. באופן רשמי יותר, מודלים דיסקרימינטיביים מגדירים את ההסתברות המותנית של פלט בהינתן התכונות והמשקלים, כלומר:

p(output | features, weights)

לדוגמה, מודל שמנבא אם אימייל הוא ספאם על סמך תכונות ומשקלים הוא מודל דיסקרימינטיבי.

רוב המודלים של למידה מונחית, כולל מודלים של סיווג ורגרסיה, הם מודלים דיסקרימינטיביים.

ההגדרה הזו שונה ממודל גנרטיבי.

דיסקרימינטור

מערכת שקובעת אם הדוגמאות אמיתיות או מזויפות.

לחלופין, מערכת המשנה בתוך רשת גנרטיבית יריבה שקובעת אם הדוגמאות שנוצרו על ידי הגנרטור הן אמיתיות או מזויפות.

מידע נוסף זמין במאמר המסווג בקורס GAN.

השפעה שונה

#responsible

קבלת החלטות לגבי אנשים שמשפיעות באופן לא פרופורציונלי על קבוצות משנה שונות באוכלוסייה. בדרך כלל הכוונה היא למצבים שבהם תהליך אלגוריתמי של קבלת החלטות פוגע בקבוצות משנה מסוימות יותר מאחרות, או מועיל להן יותר מאשר לאחרות.

לדוגמה, נניח שיש אלגוריתם שקובע אם אדם זכאי להלוואה לרכישת בית זעיר. סביר יותר שהאלגוריתם יסווג את האדם כ'לא זכאי' אם כתובת למשלוח דואר שלו מכילה מיקוד מסוים. אם לליליפוטים מסוג Big-Endian יש סיכוי גבוה יותר לכתובות למשלוח עם המיקוד הזה מאשר לליליפוטים מסוג Little-Endian, יכול להיות שהאלגוריתם הזה יגרום להשפעה לא פרופורציונלית.

הגדרה זו שונה מיחס מפלה, שמתמקדת בפערים שנוצרים כשמאפיינים של תת-קבוצה הם קלט מפורש לתהליך קבלת החלטות אלגוריתמי.

יחס שונה

#responsible

הכללת מאפיינים רגישים של נושאים בתהליך קבלת החלטות אלגוריתמי, כך שקבוצות משנה שונות של אנשים מקבלות יחס שונה.

לדוגמה, נניח שיש אלגוריתם שקובע אם אנשים מליליפוט זכאים להלוואה לרכישת בית מיניאטורי על סמך הנתונים שהם מספקים בבקשת ההלוואה. אם האלגוריתם משתמש בנתונים משוייכים של תושב ליליפוט כ-Big-Endian או כ-Little-Endian כקלט, הוא מבצע אפליה לאורך הממד הזה.

ההגדרה הזו שונה מהשפעה לא פרופורציונלית, שמתמקדת בפערים בהשפעות החברתיות של החלטות אלגוריתמיות על קבוצות משנה, בלי קשר לשאלה אם קבוצות המשנה האלה הן נתוני קלט למודל.

זיקוק

#generativeAI

תהליך של הקטנת מודל אחד (שנקרא מורה) למודל קטן יותר (שנקרא תלמיד) שמדמה את התחזיות של המודל המקורי בצורה הכי נאמנה שאפשר. זיקוק מועיל כי למודל הקטן יש שני יתרונות מרכזיים על פני המודל הגדול יותר (המודל המלמד):

זמן הסקת מסקנות מהיר יותר
צריכת זיכרון ואנרגיה מופחתת

עם זאת, בדרך כלל התחזיות של התלמידים לא טובות כמו התחזיות של המורים.

בזיקוק, המודל התלמיד מאומן למזער פונקציית הפסד על סמך ההבדל בין התוצאות של התחזיות של מודל התלמיד ומודל המורה.

השוו והבדילו בין זיקוק לבין המונחים הבאים:

שיפור הדיוק
מצב למידה מבוסס-הנחיות

מידע נוסף מופיע במאמר מודלים גדולים של שפה (LLM): כוונון עדין, זיקוק והנדסת הנחיות בסדנה המקוונת בנושא למידת מכונה.

distribution

התדירות והטווח של ערכים שונים עבור תכונה או תווית נתונים מסוימת. התפלגות מתעדת את הסבירות של ערך מסוים.

בתמונה הבאה מוצגים היסטוגרמות של שתי התפלגויות שונות:

בצד ימין, התפלגות חוק החזקה של העושר לעומת מספר האנשים שמחזיקים בעושר הזה.
משמאל, התפלגות נורמלית של הגובה לעומת מספר האנשים בגובה הזה.

שתי היסטוגרמות. היסטוגרמה אחת מציגה התפלגות חוק חזקה עם עושר על ציר ה-X ומספר האנשים שיש להם את העושר הזה על ציר ה-Y. לרוב האנשים יש מעט מאוד עושר, ולמעט אנשים יש הרבה עושר. ההיסטוגרמה השנייה מציגה התפלגות נורמלית, עם הגובה בציר X ומספר האנשים בגובה הזה בציר Y. רוב האנשים מקובצים איפשהו ליד הממוצע.

הבנת הפיזור של כל תכונה ותווית יכולה לעזור לכם לקבוע איך לנרמל ערכים ולזהות ערכים חריגים.

הביטוי out of distribution מתייחס לערך שלא מופיע במערך הנתונים או שהוא נדיר מאוד. לדוגמה, תמונה של כוכב שבתאי תיחשב כחריגה מהתפלגות הנתונים במערך נתונים שמורכב מתמונות של חתולים.

סידור באשכולות באמצעות חלוקה

#clustering

ראו אשכול היררכי.

דגימה ברזולוציה נמוכה

מונח עמוס שיכול להתייחס לאחת מהאפשרויות הבאות:

צמצום כמות המידע בתכונה כדי לאמן מודל בצורה יעילה יותר. לדוגמה, לפני אימון מודל לזיהוי תמונות, מבצעים דגימת חסר של תמונות ברזולוציה גבוהה לפורמט ברזולוציה נמוכה יותר.
אימון על אחוז נמוך באופן לא פרופורציונלי של דוגמאות של סיווגים שמיוצגים יתר על המידה, כדי לשפר את אימון המודל על סיווגים שמיוצגים פחות. לדוגמה, במערך נתונים עם חוסר איזון בין מחלקות, המודלים נוטים ללמוד הרבה על מחלקת הרוב ולא מספיק על מחלקת המיעוט. הפחתת דגימה עוזרת לאזן את כמות האימון של רוב המחלקות ומיעוט המחלקות.

מידע נוסף זמין במאמר מערכי נתונים: מערכי נתונים לא מאוזנים בקורס המקוצר על למידת מכונה.

DQN

קיצור של Deep Q-Network (רשת Q עמוקה).

רגולריזציה של ניתוק

סוג של רגולריזציה שמועיל באימון של רשתות נוירונים. הרגולריזציה של Dropout מסירה בחירה אקראית של מספר קבוע של יחידות בשכבת רשת לשלב גרדיאנט יחיד. ככל שיותר יחידות נושרות, כך הרגולריזציה חזקה יותר. זה דומה לאימון הרשת כדי לחקות אנסמבל גדול באופן אקספוננציאלי של רשתות קטנות יותר. פרטים מלאים זמינים במאמר Dropout: A Simple Way to Prevent Neural Networks from Overfitting.

דינמי

#fundamentals

משהו שעושים לעיתים קרובות או באופן רציף. המונחים דינמי ואונליין הם מילים נרדפות בתחום למידת המכונה. אלה שימושים נפוצים במונחים דינמי ואונליין בלמידת מכונה:

מודל דינמי (או מודל אונליין) הוא מודל שעובר אימון מחדש לעיתים קרובות או באופן רציף.
הדרכה דינמית (או הדרכה אונליין) היא תהליך של הדרכה בתדירות גבוהה או באופן רציף.
הסקת מסקנות דינמית (או הסקת מסקנות אונליין) היא תהליך של יצירת תחזיות לפי דרישה.

מודל דינמי

#fundamentals

מודל שעובר אימון מחדש לעיתים קרובות (אולי אפילו באופן רציף). מודל דינמי הוא 'לומד לכל החיים' שמתאים את עצמו כל הזמן לנתונים משתנים. מודל דינמי נקרא גם מודל אונליין.

השוואה למודל סטטי.

E

הרצה מיידית

#TensorFlow

סביבת תכנות של TensorFlow שבה פעולות מופעלות באופן מיידי. לעומת זאת, פעולות שמופעלות בהרצת גרף לא מופעלות עד שהן מוערכות באופן מפורש. ההרצה המיידית היא ממשק אימפרטיבי, בדומה לקוד ברוב שפות התכנות. בדרך כלל קל הרבה יותר לבצע ניפוי באגים בתוכניות של ביצוע Eager מאשר בתוכניות של ביצוע גרפים.

עצירה מוקדמת

#fundamentals

שיטה לרגולריזציה שכוללת סיום של אימון לפני שההפסד של האימון מפסיק לרדת. בשיטת העצירה המוקדמת, עוצרים בכוונה את אימון המודל כשההפסד במערך נתוני האימות מתחיל לעלות, כלומר כשביצועי ההכללה מתדרדרים.

כדי לראות טיפים ממשתמשים נוספים, לוחצים על הסמל.

יכול להיות שההפסקה המוקדמת תיראה לכם לא הגיונית. אחרי הכול, אם אומרים למודל להפסיק את האימון בזמן שההפסד עדיין יורד, זה כמו להגיד לשף להפסיק לבשל לפני שהקינוח נאפה לגמרי. עם זאת, אימון מודל למשך זמן ארוך מדי עלול להוביל להתאמת יתר. כלומר, אם מאמנים מודל יותר מדי זמן, יכול להיות שהמודל יתאים לנתוני האימון בצורה כל כך מדויקת שהוא לא יבצע חיזויים טובים לגבי דוגמאות חדשות.

ההפך מיציאה מוקדמת.

מרחק בין תמונות (EMD)

#Metric

מדד לדמיון היחסי בין שתי התפלגויות. ככל שהמרחק בין המכונות קטן יותר, כך ההתפלגויות דומות יותר.

מרחק עריכה

#Metric

מדד של מידת הדמיון בין שתי מחרוזות טקסט. בלמידת מכונה, מרחק העריכה שימושי מהסיבות הבאות:

קל לחשב את מרחק העריכה.
מרחק העריכה יכול להשוות בין שתי מחרוזות שידוע שהן דומות זו לזו.
מרחק העריכה יכול לקבוע את מידת הדמיון בין מחרוזות שונות למחרוזת נתונה.

יש כמה הגדרות של מרחק עריכה, וכל אחת מהן משתמשת בפעולות שונות על מחרוזות. דוגמה מופיעה במאמר בנושא מרחק לבנשטיין.

סימון איינשטיין

סימון יעיל לתיאור האופן שבו צריך לשלב בין שני טנסורים. הטנסורים משולבים על ידי הכפלת הרכיבים של טנסור אחד ברכיבים של הטנסור השני, ואז חישוב סכום המכפלות. בסימון איינסום משתמשים בסמלים כדי לזהות את הצירים של כל טנזור, ואותם סמלים מסודרים מחדש כדי לציין את הצורה סגורה של הטנזור החדש שמתקבל.

‫NumPy מספקת הטמעה נפוצה של Einsum.

שכבת הטמעה

#fundamentals

שכבה נסתרת מיוחדת שעוברת אימון על מאפיין קטגורי עם הרבה ממדים, כדי ללמוד בהדרגה וקטור הטמעה עם פחות ממדים. שכבת הטמעה מאפשרת לרשת נוירונים להתאמן בצורה יעילה הרבה יותר מאשר אימון רק על תכונה קטגורית רב-ממדית.

לדוגמה, נכון לעכשיו, Earth תומך בכ-73,000 מיני עצים. נניח שהתכונה במודל היא מיני עצים, ולכן שכבת הקלט של המודל כוללת וקטור one-hot באורך 73,000 אלמנטים. לדוגמה, יכול להיות שהתו baobab ייוצג כך:

מערך של 73,000 רכיבים. ב-6,232 הרכיבים הראשונים מופיע הערך 0. האלמנט הבא מכיל את הערך 1. ב-66,767 האלמנטים האחרונים מופיע הערך אפס.

מערך עם 73,000 רכיבים הוא ארוך מאוד. אם לא מוסיפים למודל שכבת הטמעה, האימון ייקח הרבה זמן כי צריך להכפיל 72,999 אפסים. יכול להיות שתבחרו ששכבת ההטמעה תכלול 12 ממדים. כתוצאה מכך, שכבת ההטמעה תלמד בהדרגה וקטור הטמעה חדש לכל מין של עץ.

במצבים מסוימים, גיבוב הוא חלופה סבירה לשכבת הטמעה.

מידע נוסף זמין במאמר Embeddings בקורס המקוצר על למידת מכונה.

מרחב הטמעה

מרחב וקטורי d-ממדי שאליו ממופים מאפיינים ממרחב וקטורי רב-ממדי. מרחב ההטמעה מאומן לזהות מבנה שמשמעותי לאפליקציה המיועדת.

המכפלה הסקלרית של שני וקטורי הטמעה היא מדד לדמיון ביניהם.

וקטור הטמעה

באופן כללי, מערך של מספרים ממשיים שמופיעים בכל שכבה נסתרת ומתארים את נתוני הקלט של אותה שכבה נסתרת. לרוב, וקטור הטמעה הוא מערך של מספרים בנקודה צפה שאומנו בשכבת הטמעה. לדוגמה, נניח ששכבת הטמעה צריכה ללמוד וקטור הטמעה לכל אחד מ-73,000 מיני העצים בכדור הארץ. יכול להיות שהמערך הבא הוא וקטור ההטמעה של עץ באובב:

מערך של 12 רכיבים, שכל אחד מהם מכיל מספר נקודה צפה (floating-point) בין 0.0 ל-1.0.

וקטור הטמעה הוא לא אוסף של מספרים אקראיים. שכבת הטמעה קובעת את הערכים האלה באמצעות אימון, בדומה לאופן שבו רשת נוירונים לומדת משקלים אחרים במהלך האימון. כל רכיב במערך הוא דירוג של מאפיין מסוים של מין עצים. איזה רכיב מייצג את המאפיין של איזה מין עץ? קשה מאוד לבני אדם לקבוע את זה.

החלק המדהים מבחינה מתמטית בווקטור הטמעה הוא שפריטים דומים כוללים קבוצות דומות של מספרים בנקודה צפה. לדוגמה, מינים דומים של עצים יניבו קבוצה דומה יותר של מספרים עם נקודה עשרונית מאשר מינים שונים של עצים. עצי סקוויה ועצי רדווד הם מינים קרובים של עצים, ולכן יהיה להם סט דומה יותר של מספרים עם נקודה צפה מאשר לעצי רדווד ולעצי קוקוס. המספרים בווקטור ההטמעה ישתנו בכל פעם שתאמנו מחדש את המודל, גם אם תאמנו אותו מחדש עם קלט זהה.

פונקציית התפלגות מצטברת אמפירית (eCDF או EDF)

#Metric

פונקציית התפלגות מצטברת שמבוססת על מדידות אמפיריות ממערך נתונים אמיתי. הערך של הפונקציה בכל נקודה לאורך ציר ה-x הוא החלק של התצפיות במערך הנתונים שקטן מהערך שצוין או שווה לו.

מזעור סיכון אמפירי (ERM)

בחירת הפונקציה שממזערת את ההפסד בקבוצת הנתונים לאימון. השוואה לצמצום סיכונים מבניים.

מקודד

באופן כללי, כל מערכת ML שמבצעת המרה מייצוג גולמי, דליל או חיצוני לייצוג מעובד יותר, צפוף יותר או פנימי יותר.

מקודדים הם לרוב רכיב של מודל גדול יותר, ולעתים קרובות הם משולבים עם מפענח. חלק מהטרנספורמרים משלבים מקודדים עם מפענחים, אבל טרנספורמרים אחרים משתמשים רק במקודד או רק במפענח.

במערכות מסוימות, הפלט של המקודד משמש כקלט לרשת סיווג או לרשת רגרסיה.

במשימות של רצף לרצף, מקודד מקבל רצף קלט ומחזיר מצב פנימי (וקטור). לאחר מכן, המפענח משתמש במצב הפנימי הזה כדי לחזות את הרצף הבא.

הגדרה של מקודד בארכיטקטורת טרנספורמר מופיעה במאמר בנושא טרנספורמר.

מידע נוסף מופיע במאמר LLMs: What's a large language model (מודלים גדולים של שפה: מהו מודל גדול של שפה) בקורס Machine Learning Crash Course (קורס מקוצר על למידת מכונה).

נקודות קצה

מיקום שאפשר להגיע אליו דרך הרשת (בדרך כלל כתובת URL) שבו אפשר לקבל שירות.

ensemble

אוסף של מודלים שאומנו באופן עצמאי והתחזיות שלהם מחושבות כממוצע או מצטברות. במקרים רבים, מודל משולב מניב תחזיות טובות יותר ממודל יחיד. לדוגמה, יער אקראי הוא אנסמבל שנבנה מכמה עצי החלטה. חשוב לזכור שלא כל יערות ההחלטות הם אנסמבלים.

מידע נוסף זמין במאמר Random Forest בקורס המקוצר על למידת מכונה.

אנטרופיה

#df

#Metric

ב תורת המידע, אנטרופיה היא תיאור של מידת חוסר הצפיות של התפלגות הסתברותית. לחלופין, אנטרופיה מוגדרת גם ככמות המידע שכל דוגמה מכילה. הפיזור הוא בעל האנטרופיה הגבוהה ביותר האפשרית כשכל הערכים של משתנה אקראי הם בעלי סבירות שווה.

הנוסחה לחישוב האנטרופיה של קבוצה עם שני ערכים אפשריים, 0 ו-1 (לדוגמה, התוויות בבעיית סיווג בינארי), היא:

H = -p log p - q log q = -p log p - (1-p) * log (1-p)

where:‎

‫H היא האנטרופיה.
‫p הוא החלק היחסי של דוגמאות מסוג '1'.
‫q הוא החלק של הדוגמאות עם הערך '0'. שימו לב: q = (1 - p)
הערך log הוא בדרך כלל log₂. במקרה הזה, יחידת האנטרופיה היא ביט.

לדוגמה, נניח את הדברים הבאים:

‫100 דוגמאות מכילות את הערך '1'
‫300 דוגמאות מכילות את הערך '0'

לכן, ערך האנטרופיה הוא:

p = 0.25
q = 0.75
H = (-0.25)log₂(0.25) - (0.75)log₂(0.75) = 0.81 bits per example

קבוצה מאוזנת לחלוטין (לדוגמה, 200 ערכים של '0' ו-200 ערכים של '1') תהיה בעלת אנטרופיה של 1.0 ביט לכל דוגמה. ככל שקבוצה הופכת לא מאוזנת יותר, האנטרופיה שלה מתקרבת ל-0.0.

בעצי החלטה, האנטרופיה עוזרת לגבש רווח מידע כדי לעזור למפצל לבחור את התנאים במהלך הצמיחה של עץ החלטה לסיווג.

השוואה של האנטרופיה עם:

מדד גיני לאי-טוהר
פונקציית האובדן cross-entropy

אנטרופיה נקראת לעיתים קרובות אנטרופיה של שאנון.

מידע נוסף זמין במאמר Exact splitter for binary classification with numerical features בקורס Decision Forests.

environment

בלמידת חיזוק, העולם שמכיל את הסוכן ומאפשר לסוכן לצפות במצב של העולם הזה. לדוגמה, העולם המיוצג יכול להיות משחק כמו שחמט, או עולם פיזי כמו מבוך. כשהסוכן מיישם פעולה בסביבה, הסביבה עוברת בין מצבים.

פרק

בשיטת הלמידה באמצעות חיזוקים, כל אחד מהניסיונות החוזרים של הסוכן ללמוד סביבה.

תקופה של זמן מערכת

#fundamentals

מעבר אימון מלא על קבוצת הנתונים לאימון כולה, כך שכל דוגמה עברה עיבוד פעם אחת.

אפוקה מייצגת N/גודל אצווה אימונים של איטרציות, כאשר N הוא מספר הדוגמאות הכולל.

לדוגמה, נניח את הדברים הבאים:

מערך הנתונים מורכב מ-1,000 דוגמאות.
גודל הקבוצה הוא 50 דוגמאות.

לכן, כל אפוקה דורשת 20 איטרציות:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

מידע נוסף זמין במאמר רגרסיה ליניארית: היפר-פרמטרים בקורס המקוצר על למידת מכונה.

מדיניות חמדנית של אפסילון

בלמידת חיזוק, מדיניות שפועלת לפי מדיניות אקראית בהסתברות אפסילון, או לפי מדיניות חמדנית בכל מקרה אחר. לדוגמה, אם אפסילון הוא 0.9, המדיניות היא מדיניות אקראית ב-90% מהמקרים ומדיניות חמדנית ב-10% מהמקרים.

במהלך פרקים עוקבים, האלגוריתם מקטין את הערך של אפסילון כדי לעבור ממדיניות אקראית למדיניות חמדנית. בשיטת המדיניות הזו, הנציג קודם בוחן את הסביבה באופן אקראי ואז מנצל את התוצאות של הבחינה האקראית.

שוויון הזדמנויות

#responsible

#Metric

מדד הוגנות להערכת היכולת של המודל לחזות את התוצאה הרצויה באופן שווה לכל הערכים של מאפיין רגיש. במילים אחרות, אם התוצאה הרצויה של מודל היא הסיווג החיובי, המטרה היא ששיעור החיוביים האמיתיים יהיה זהה לכל הקבוצות.

שוויון הזדמנויות קשור לסיכויים שווים, שדורש שגם שיעורי ה-TRUE האמיתיים וגם שיעורי ה-FALSE הכוזבים יהיו זהים בכל הקבוצות.

נניח שבאוניברסיטת גלאבדאבדריב מתקבלים ללימודי מתמטיקה גם ליליפוטים וגם ברובדינגנאגים. בבתי הספר התיכוניים של ליליפוט מוצעת תוכנית לימודים מקיפה של שיעורי מתמטיקה, ורוב התלמידים עומדים בדרישות של התוכנית האוניברסיטאית. בבתי הספר התיכוניים בברובדינגנאג לא מוצעים שיעורי מתמטיקה בכלל, וכתוצאה מכך, הרבה פחות תלמידים עומדים בדרישות. התנאי של שוויון הזדמנויות מתקיים לגבי התווית המועדפת 'התקבל/ה' בהקשר של לאום (ליליפוט או ברובדינגנאג) אם לתלמידים שעומדים בדרישות יש סיכוי שווה להתקבל, בלי קשר ללאום שלהם (ליליפוט או ברובדינגנאג).

לדוגמה, נניח ש-100 אנשים מליליפוט ו-100 אנשים מברובדינגנאג הגישו בקשה להתקבל לאוניברסיטת גלובדאבדריב, וההחלטות לגבי הקבלה מתקבלות באופן הבא:

טבלה 1. מועמדים קטנים מאוד (90% מהם עומדים בדרישות)

	כשירים	לא מתאים
התקבל	45	3
נדחה	45	7
סה"כ	90	10
אחוז הסטודנטים שעומדים בדרישות והתקבלו: 45/90 = 50% אחוז הסטודנטים שלא עומדים בדרישות ונדחו: 7/10 = 70% האחוז הכולל של סטודנטים מליליפוט שהתקבלו: (45+3)/100 = 48%

טבלה 2. מועמדים גדולים מאוד (10% כשירים):

	כשירים	לא מתאים
התקבל	5	9
נדחה	5	81
סה"כ	10	90
אחוז הסטודנטים שעומדים בדרישות שהתקבלו: 5/10 = 50% אחוז הסטודנטים שלא עומדים בדרישות שנדחו: 81/90 = 90% אחוז הסטודנטים הכולל מ-Brobdingnag שהתקבלו: (5+9)/100 = 14%

הדוגמאות הקודמות עומדות בדרישה לשוויון הזדמנויות לקבלה של תלמידים שעומדים בדרישות, כי גם לליליפוטים וגם לברובדינגנאגים שעומדים בדרישות יש סיכוי של 50% להתקבל.

למרות שהשוויון בהזדמנויות מתקיים, שני מדדי ההוגנות הבאים לא מתקיימים:

שוויון דמוגרפי: שיעורי הקבלה של ליליפוטים ושל ברובדינגנאגים לאוניברסיטה שונים; 48% מהסטודנטים הליליפוטים מתקבלים, אבל רק 14% מהסטודנטים הברובדינגנאגים מתקבלים.
סיכויים שווים: לתלמידים זכאים מליליפוט ומברובדינגנאג יש סיכוי שווה להתקבל, אבל התנאי הנוסף שלפיו לתלמידים לא זכאים מליליפוט ומברובדינגנאג יש סיכוי שווה להידחות לא מתקיים. שיעור הדחייה של ליליפוטים לא מוסמכים הוא 70%, לעומת 90% של ברובדינגנאגים לא מוסמכים.

מידע נוסף זמין במאמר הוגנות: שוויון הזדמנויות בקורס Machine Learning Crash Course.

הסתברות שווה

#responsible

#Metric

מדד הוגנות שנועד להעריך אם מודל חוזה תוצאות באותה רמת דיוק לכל הערכים של מאפיין רגיש ביחס לסיווג החיובי ולסיווג השלילי – ולא רק ביחס לסיווג אחד. במילים אחרות, גם שיעור החיוביים האמיתיים וגם שיעור השליליים הכוזבים צריכים להיות זהים בכל הקבוצות.

הסיכויים שווים קשורים לשוויון הזדמנויות, שמתמקד רק בשיעורי השגיאות עבור סיווג יחיד (חיובי או שלילי).

לדוגמה, נניח שאוניברסיטת גלאבדאבדריב מקבלת לתוכנית לימודים קפדנית במתמטיקה גם ליליפוטים וגם ברובדינגנאגים. בתי הספר התיכוניים של ליליפוט מציעים תוכנית לימודים מקיפה של שיעורי מתמטיקה, ורוב התלמידים עומדים בדרישות של התוכנית האוניברסיטאית. בבתי הספר התיכוניים בברובדינגנאג לא מוצעים שיעורי מתמטיקה בכלל, וכתוצאה מכך, הרבה פחות תלמידים עומדים בדרישות. הקריטריון של סיכויים שווים מתקיים אם הסיכוי של מועמד מתאים להתקבל לתוכנית שווה לסיכוי של מועמד מתאים אחר להתקבל לתוכנית, בלי קשר לגודל שלו (ליליפוט או ברובדינגנאג), והסיכוי של מועמד לא מתאים להידחות שווה לסיכוי של מועמד לא מתאים אחר להידחות.

נניח ש-100 אנשים מליליפוט ו-100 אנשים מברובדינגנאג מגישים בקשה להתקבל לאוניברסיטת גלובדאבדריב, והחלטות הקבלה מתקבלות באופן הבא:

טבלה 3. מועמדים קטנים מאוד (90% מהם עומדים בדרישות)

	כשירים	לא מתאים
התקבל	45	2
נדחה	45	8
סה"כ	90	10
אחוז התלמידים שעומדים בדרישות והתקבלו: 45/90 = 50% אחוז התלמידים שלא עומדים בדרישות ונדחו: 8/10 = 80% האחוז הכולל של תלמידי ליליפוט שהתקבלו: (45+2)/100 = 47%

טבלה 4. מועמדים גדולים מאוד (10% כשירים):

	כשירים	לא מתאים
התקבל	5	18
נדחה	5	72
סה"כ	10	90
אחוז הסטודנטים שעומדים בדרישות והתקבלו: 5/10 = 50% אחוז הסטודנטים שלא עומדים בדרישות ונדחו: 72/90 = 80% אחוז הסטודנטים הכולל מברובדינגנאג שהתקבלו: (5+18)/100 = 23%

ההגדרה 'סיכויים שווים' מתקיימת כי לסטודנטים כשירים מליליפוט ומברובדינגנאג יש סיכוי של 50% להתקבל, ולסטודנטים לא כשירים מליליפוט ומברובדינגנאג יש סיכוי של 80% להידחות.

ההגדרה הפורמלית של סיכויים שווים מופיעה במאמר "Equality of Opportunity in Supervised Learning" (שוויון הזדמנויות בלמידה מפוקחת) באופן הבא: "הערך החזוי Ŷ מקיים סיכויים שווים ביחס לתכונה המוגנת A ולתוצאה Y אם Ŷ ו-A הם בלתי תלויים, בהינתן Y".

Estimator

#TensorFlow

‫TensorFlow API שהוצא משימוש. כדאי להשתמש ב-tf.keras במקום ב-Estimators.

evals

#generativeAI

#Metric

משמש בעיקר כקיצור להערכות של מודלים גדולים של שפה. באופן כללי, evals הוא קיצור לכל סוג של הערכה.

הערכה

#generativeAI

#Metric

התהליך של מדידת האיכות של מודל או השוואה בין מודלים שונים.

כדי להעריך מודל של למידת מכונה מבוקרת, בדרך כלל משווים אותו לקבוצת נתונים לתיקוף ולקבוצת נתונים לבדיקה. הערכה של מודל שפה גדול כוללת בדרך כלל הערכות רחבות יותר של איכות ובטיחות.

התאמה מדויקת

#Metric

מדד של הכול או כלום, שבו הפלט של המודל תואם לאמת הקרקע או לטקסט ההפניה בדיוק או שלא תואם בכלל. לדוגמה, אם אמת הקרקע היא orange, הפלט היחיד של המודל שעומד בדרישות של התאמה מדויקת הוא orange.

התאמה מדויקת יכולה גם להעריך מודלים שהפלט שלהם הוא רצף (רשימה מדורגת של פריטים). באופן כללי, התאמה מדויקת מחייבת שהרשימה המדורגת שנוצרה תהיה זהה לאמת הקרקע; כלומר, כל פריט בשתי הרשימות צריך להיות באותו סדר. עם זאת, אם אמת קרקע מורכבת מכמה רצפים נכונים, התאמה מדויקת דורשת רק שהפלט של המודל יתאים לאחד מהרצפים הנכונים.

דוגמה

#fundamentals

הערכים של שורה אחת ב-features ואולי גם label. דוגמאות בלמידה מונחית מתחלקות לשתי קטגוריות כלליות:

דוגמה עם תווית מורכבת מתכונה אחת או יותר ומתווית. דוגמאות עם תוויות משמשות במהלך האימון.
דוגמה לא מסומנת מורכבת מתכונה אחת או יותר, אבל לא כוללת תווית. דוגמאות ללא תוויות משמשות במהלך ההסקה.

לדוגמה, נניח שאתם מאמנים מודל כדי לקבוע את ההשפעה של תנאי מזג האוויר על ציוני התלמידים במבחנים. הנה שלוש דוגמאות עם תוויות:

תכונות			תווית
טמפרטורה	לחות	לחץ	ציון הבדיקה
15	47	998	טוב
19	34	1020	מצוינת
18	92	1012	גרועה

הנה שלוש דוגמאות ללא תווית:

טמפרטורה	לחות	לחץ
12	62	1014
21	47	1017
19	41	1021

השורה במערך נתונים היא בדרך כלל המקור הגולמי לדוגמה. כלומר, דוגמה בדרך כלל מורכבת מקבוצת משנה של העמודות במערך הנתונים. בנוסף, התכונות בדוגמה יכולות לכלול גם תכונות סינתטיות, כמו תכונות מצטלבות.

מידע נוסף זמין במאמר למידה מפוקחת בקורס מבוא ללמידת מכונה.

חזרה על חוויה

בלמידת חיזוק, שיטת DQN משמשת לצמצום קורלציות זמניות בנתוני האימון. הסוכן שומר את מעברי המצב במאגר נתונים זמני של הפעלה חוזרת, ואז דוגם מעברים ממאגר נתונים זמני של הפעלה חוזרת כדי ליצור נתוני אימון.

הטיה של עורכי הניסוי

#responsible

הטיית אישור

בעיית הגרדיאנט המתפוצץ

הנטייה של גרדיאנטים ברשתות נוירונים עמוקות (במיוחד רשתות נוירונים חוזרות) להיות תלולים (גבוהים) באופן מפתיע. שיפועים תלולים גורמים לעדכונים גדולים מאוד של המשקלים של כל צומת ברשת עצבית עמוקה.

קשה או בלתי אפשרי לאמן מודלים שסובלים מבעיית הגרדיאנט המתפוצץ. חיתוך הדרגתי יכול לצמצם את הבעיה הזו.

השוואה לבעיית שיפוע נעלם.

סיכום קיצוני (xsum)

#Metric

מערך נתונים להערכת היכולת של LLM לסכם מסמך יחיד. כל רשומה במערך הנתונים כוללת:

מסמך שנכתב על ידי British Broadcasting Corporation ‏ (BBC).
סיכום של המסמך במשפט אחד.

פרטים נוספים זמינים במאמר Don't Give Me the Details, Just the Summary!‎ Topic-Aware Convolutional Neural Networks for Extreme Summarization.

F

F₁

#Metric

מדד סיווג בינארי מסכם שמסתמך על דיוק וגם על היזכרות. זו הנוסחה:

$$F{_1} = \frac{\text{2 * precision * recall}} {\text{precision + recall}}$$

אפשר ללחוץ על הסמל כדי לראות דוגמאות.

נניח שערכי הדיוק וההחזרה הם:

precision = 0.6
recall = 0.4

כך מחשבים את F₁:

$$F{_1} = \frac{\text{2 * 0.6 * 0.4}} {\text{0.6 + 0.4}} = 0.48$$

כשערכי הדיוק וההחזרה דומים למדי (כמו בדוגמה הקודמת), F₁ קרוב לממוצע שלהם. אם יש הבדל משמעותי בין הדיוק לבין ההחזרה, ערך ה-F₁ יהיה קרוב יותר לערך הנמוך. לדוגמה:

precision = 0.9
recall = 0.1

$$F{_1} = \frac{\text{2 * 0.9 * 0.1}} {\text{0.9 + 0.1}} = 0.18$$

עובדתיות

#generativeAI

בעולם של למידת מכונה, מאפיין שמתאר מודל שהפלט שלו מבוסס על המציאות. המושג 'עובדתיות' הוא מושג ולא מדד. לדוגמה, נניח שאתם שולחים את הפרומפט הבא אל מודל שפה גדול:

מהי הנוסחה הכימית של מלח שולחן?

מודל שמבצע אופטימיזציה של נכונות העובדות ישיב:

NaCl

קל להניח שכל המודלים צריכים להתבסס על עובדות. עם זאת, יש הנחיות מסוימות, כמו ההנחיות הבאות, שגורמות למודל AI גנרטיבי לבצע אופטימיזציה של יצירתיות ולא של דיוק עובדתי.

תכתוב לי חמשיר על אסטרונאוט וזחל.

לא סביר שהלימריק שיתקבל יתבסס על המציאות.

ההגדרה הזו שונה מהתבססות על עובדות.

מגבלת הוגנות

#responsible

החלת אילוץ על אלגוריתם כדי להבטיח שמתקיימת הגדרה אחת או יותר של הוגנות. דוגמאות למגבלות הוגנות:

עיבוד שלאחר יצירת הפלט של המודל.
שינוי פונקציית ההפסד כדי לשלב קנס על הפרה של מדד הוגנות.
הוספה ישירה של אילוץ מתמטי לבעיית אופטימיזציה.

מדד הוגנות

#responsible

#Metric

הגדרה מתמטית של 'הוגנות' שאפשר למדוד. דוגמאות למדדי הוגנות הכי רווחיים:

equalized odds
שוויון חיזוי
הוגנות קונטרה-פקטואלית
שוויון דמוגרפי

הרבה מדדים של הוגנות הם בלעדיים הדדית. אפשר לעיין באי-התאמה של מדדים של הוגנות.

#fundamentals

#Metric

השיעור של הדוגמאות השליליות בפועל שהמודל טעה בהן וניבא את הסיווג החיובי. הנוסחה הבאה משמשת לחישוב שיעור התוצאות החיוביות הכוזבות:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

שיעור התוצאות החיוביות השגויות הוא ציר ה-X בעקומת ROC.

מידע נוסף זמין במאמר בנושא סיווג: ROC ו-AUC בקורס המקוצר על למידת מכונה.

דעיכה מהירה

#generativeAI

טכניקת אימון לשיפור הביצועים של מודלים גדולים של שפה (LLM). התכלות מהירה כוללת הפחתה מהירה של קצב הלמידה במהלך האימון. השיטה הזו עוזרת למנוע התאמת יתר של המודל לנתוני האימון, ומשפרת את ההכללה.

מאפיין

#fundamentals

משתנה קלט במודל למידת מכונה. דוגמה מורכבת מתכונה אחת או יותר. לדוגמה, נניח שאתם מאמנים מודל כדי לקבוע את ההשפעה של תנאי מזג האוויר על ציוני התלמידים במבחנים. בטבלה הבאה מוצגות שלוש דוגמאות, שכל אחת מהן מכילה שלוש תכונות ותווית אחת:

תכונות			תווית
טמפרטורה	לחות	לחץ	ציון הבדיקה
15	47	998	92
19	34	1020	84
18	92	1012	87

ניגודיות עם תווית.

מידע נוסף זמין במאמר Supervised Learning (למידה מפוקחת) בקורס Introduction to Machine Learning (מבוא ללמידת מכונה).

שילוב מאפיינים

#fundamentals

תכונה סינתטית שנוצרת על ידי 'הצלבה' של תכונות קטגוריות או תכונות שמוגדרות כקבוצות.

לדוגמה, נניח שיש מודל של 'חיזוי מצב רוח' שמייצג רמת אקראיות באחת מארבע הקטגוריות הבאות:

freezing
chilly
temperate
warm

המשתנה הזה מייצג את מהירות הרוח באחד משלושת הטווחים הבאים:

still
light
windy

בלי שילובים של תכונות, המודל הלינארי מתאמן באופן עצמאי על כל אחד משבעת הדליים הקודמים. לכן, המודל מתאמן על, למשל, freezing בנפרד מהאימון על, למשל, windy.

אפשרות אחרת היא ליצור שילוב של רמת אקראיות ומהירות רוח. לתכונה הסינתטית הזו יהיו 12 ערכים אפשריים:

freezing-still
freezing-light
freezing-windy
chilly-still
chilly-light
chilly-windy
temperate-still
temperate-light
temperate-windy
warm-still
warm-light
warm-windy

הודות לשילובים של תכונות, המודל יכול ללמוד את ההבדלים במצב הרוח בין יום freezing-windy ליום freezing-still.

אם תיצרו תכונה סינתטית משתי תכונות שלכל אחת מהן יש הרבה דליים שונים, לתכונה המשולבת שתתקבל יהיה מספר עצום של שילובים אפשריים. לדוגמה, אם לתכונה אחת יש 1,000 קטגוריות ולתכונה השנייה יש 2,000 קטגוריות, לתכונה המשולבת שמתקבלת יהיו 2,000,000 קטגוריות.

באופן רשמי, הצלבה היא מכפלה קרטזית.

השימוש בתכונות משולבות נעשה בעיקר עם מודלים לינאריים, ובדרך כלל לא עם רשתות עצביות.

מידע נוסף זמין במאמר נתונים קטגוריים: שילובים של תכונות בקורס המקוצר על למידת מכונה.

הנדסת פיצ'רים (feature engineering)

#fundamentals

#TensorFlow

תהליך שכולל את השלבים הבאים:

קביעה של תכונות שעשויות להיות שימושיות באימון מודל.
המרת נתונים גולמיים ממערך הנתונים לגרסאות יעילות של התכונות האלה.

לדוגמה, יכול להיות שתקבעו ש-temperature הוא תכונה שימושית. אחר כך אפשר להתנסות בחלוקה לקטגוריות כדי לשפר את היכולת של המודל ללמוד מטווחים שונים של temperature.

הנדסת תכונות נקראת לפעמים חילוץ תכונות או יצירת תכונות.

כדי לראות טיפים ממשתמשים נוספים על TensorFlow, לוחצים על הסמל.

ב-TensorFlow, הנדסת תכונות לרוב מתייחסת להמרה של רשומות גולמיות בקובץ יומן למאגרי פרוטוקול של tf.Example. מידע נוסף זמין במאמר בנושא tf.Transform.

מידע נוסף זמין במאמר נתונים מספריים: איך מודל מעכל נתונים באמצעות וקטורים של תכונות בסדנה המקוונת בנושא למידת מכונה.

חילוץ מאפיינים

מונח בעל עומס יתר עם אחת מההגדרות הבאות:

שליפה של ייצוגים של תכונות ביניים שחושבו על ידי מודל לא מפוקח או מודל שאומן מראש (לדוגמה, ערכים של שכבה מוסתרת ברשת נוירונים) לשימוש כקלט במודל אחר.
מילה נרדפת להנדסת פיצ'רים.

חשיבות התכונות

#df

#Metric

מילה נרדפת למונח חשיבות משתנים.

מערך תכונות

#fundamentals

קבוצת התכונות שעליהן מתבסס האימון של המודל של למידת המכונה. לדוגמה, קבוצת תכונות פשוטה למודל שמנבא מחירי דיור יכולה לכלול מיקוד, גודל הנכס ומצב הנכס.

מפרט התכונה

#TensorFlow

במאמר הזה מוסבר אילו נתונים נדרשים כדי לחלץ נתוני מאפיינים ממאגר אחסון לפרוטוקולים tf.Example. מכיוון ש-tf.Example מאגר אחסון לפרוטוקולים הוא רק מאגר לנתונים, צריך לציין את הפרטים הבאים:

הנתונים לחילוץ (כלומר, המפתחות של התכונות)
סוג הנתונים (לדוגמה, float או int)
האורך (קבוע או משתנה)

וקטור מאפיינים

#fundamentals

מערך של ערכי feature שמרכיבים example. וקטור המאפיינים משמש כקלט במהלך האימון ובמהלך ההסקה. לדוגמה, וקטור המאפיינים של מודל עם שני מאפיינים נפרדים יכול להיות:

[0.92, 0.56]

ארבע שכבות: שכבת קלט, שתי שכבות נסתרות ושכבת פלט.
The input layer contains two nodes, one containing the value
0.92 and the other containing the value 0.56.

בכל דוגמה מופיעים ערכים שונים של וקטור התכונות, ולכן וקטור התכונות של הדוגמה הבאה יכול להיות משהו כזה:

[0.73, 0.49]

הנדסת תכונות קובעת איך לייצג תכונות בווקטור התכונות. לדוגמה, מאפיין קטגורי בינארי עם חמישה ערכים אפשריים יכול להיות מיוצג באמצעות קידוד one-hot. במקרה כזה, החלק של וקטור התכונות בדוגמה מסוימת יכלול ארבעה אפסים ו-1.0 אחד במיקום השלישי, באופן הבא:

[0.0, 0.0, 1.0, 0.0, 0.0]

דוגמה נוספת: נניח שהמודל שלכם מורכב משלושה מאפיינים:

תכונה קטגורית בינארית עם חמישה ערכים אפשריים שמיוצגים באמצעות קידוד one-hot. לדוגמה: [0.0, 1.0, 0.0, 0.0, 0.0]
תכונה קטגורית בינארית נוספת עם שלושה ערכים אפשריים שמיוצגים באמצעות קידוד one-hot. לדוגמה: [0.0, 0.0, 1.0]
תכונה של נקודה צפה, לדוגמה: 8.3.

במקרה כזה, וקטור התכונות של כל דוגמה ייוצג על ידי תשעה ערכים. בהינתן הערכים לדוגמה ברשימה הקודמת, וקטור התכונות יהיה:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

הפיכת נתונים לתכונות

התהליך של חילוץ מאפיינים ממקור קלט, כמו מסמך או סרטון, ומיפוי המאפיינים האלה לוקטור מאפיינים.

חלק מהמומחים ל-ML משתמשים במונח featurization כמילה נרדפת לfeature engineering או לfeature extraction.

למידה משותפת (Federated)

גישה מבוזרת ללמידת מכונה שמאמנת מודלים של למידת מכונה באמצעות דוגמאות מבוזרות שנמצאות במכשירים כמו סמארטפונים. בלמידה משותפת (Federated), קבוצת משנה של מכשירים מורידה את המודל הנוכחי משרת מרכזי לתיאום. המכשירים משתמשים בדוגמאות שמאוחסנות בהם כדי לשפר את המודל. לאחר מכן המכשירים מעלים את השיפורים במודל (אבל לא את דוגמאות האימון) לשרת המתאם, שם הם מצטברים עם עדכונים אחרים כדי ליצור מודל גלובלי משופר. אחרי הצבירה, המודל שחושב על ידי המכשירים כבר לא נחוץ ואפשר לבטל אותו.

מכיוון שדוגמאות האימון אף פעם לא מועלות, למידה מאוגדת פועלת לפי עקרונות הפרטיות של איסוף נתונים ממוקד והגבלה על איסוף המידע.

פרטים נוספים זמינים בקומיקס בנושא למידה משותפת (כן, קומיקס).

לולאת משוב

#fundamentals

בלמידת מכונה, מצב שבו התחזיות של מודל משפיעות על נתוני האימון של אותו מודל או של מודל אחר. לדוגמה, מודל שממליץ על סרטים ישפיע על הסרטים שאנשים רואים, מה שישפיע על מודלים עתידיים להמלצות על סרטים.

מידע נוסף זמין במאמר מערכות ML לייצור: שאלות שכדאי לשאול בסדנה ללימוד למידת מכונה.

רשת נוירונים עם זרימה קדימה (FFN)

רשת נוירונים ללא חיבורים מחזוריים או רקורסיביים. לדוגמה, רשתות נוירונים עמוקות מסורתיות הן רשתות נוירונים עם זרימה קדימה. בניגוד לרשתות נוירונים חוזרות, שהן מחזוריות.

למידה עם כמה דוגמאות

גישה של למידת מכונה, שמשמשת לעיתים קרובות לסיווג אובייקטים, שמיועדת לאימון של מודלים יעילים לסיווג ממספר קטן בלבד של דוגמאות לאימון.

כדאי לעיין גם במאמרים בנושא מצב למידה חד-פעמית ומצב למידה ללא דוגמאות.

מתן הנחיות עם כמה דוגמאות

#generativeAI

פרומפט שמכיל יותר מדוגמה אחת (כמה דוגמאות) שממחישות איך מודל שפה גדול צריך להשיב. לדוגמה, ההנחיה הארוכה הבאה מכילה שתי דוגמאות שמראות למודל שפה גדול איך לענות על שאילתה.

החלקים של הנחיה	הערות
`מהו המטבע הרשמי של המדינה שצוינה?`	השאלה שרוצים שה-LLM יענה עליה.
`צרפת: EUR`	דוגמה אחת.
`בריטניה: GBP`	דוגמה נוספת.
`הודו:`	השאילתה בפועל.

בדרך כלל, הנחיות עם כמה דוגמאות מניבות תוצאות רצויות יותר מאשר הנחיות בלי דוגמאות והנחיות עם דוגמה אחת. עם זאת, כדי לעצב הנחיות עם כמה דוגמאות צריך להשתמש בהנחיה ארוכה יותר.

הנחיה עם כמה דוגמאות היא סוג של מצב למידה עם כמה דוגמאות שמוחלת על למידה מבוססת-הנחיות.

מידע נוסף מופיע במאמר הנדסת הנחיות בקורס המקוצר על למידת מכונה.

כינור

ספריית הגדרות שמתבססת על Python, ומגדירה את הערכים של פונקציות ומחלקות בלי קוד או תשתית פולשניים. במקרה של Pax – ובסיסי קוד אחרים של למידת מכונה – הפונקציות והמחלקות האלה מייצגות מודלים והיפרפרמטרים של אימון.

‫Fiddle מניח שבסיסי קוד של למידת מכונה מחולקים בדרך כלל ל:

קוד הספריות, שמגדיר את השכבות ואת כלי האופטימיזציה.
קוד 'דבק' של מערך הנתונים, שמפעיל את הספריות ומקשר בין כל הרכיבים.

‫Fiddle מתעד את מבנה הקריאה של קוד הדבק בצורה לא מוערכת וניתנת לשינוי.

כוונון עדין

#generativeAI

שלב שני של אימון ספציפי למשימה שמתבצע במודל שעבר אימון מראש כדי לשפר את הפרמטרים שלו לתרחיש שימוש ספציפי. לדוגמה, רצף האימון המלא של מודלים גדולים של שפה מסוימים הוא כזה:

אימון מראש: אימון מודל שפה גדול (LLM) על מערך נתונים כללי עצום, כמו כל הדפים בוויקיפדיה באנגלית.
כוונון עדין: אימון המודל שעבר אימון מראש לביצוע משימה ספציפית, כמו מענה לשאילתות רפואיות. בדרך כלל, תהליך הכוונון העדין כולל מאות או אלפי דוגמאות שמתמקדות במשימה הספציפית.

דוגמה נוספת: רצף האימון המלא של מודל גדול של תמונות הוא כדלקמן:

אימון מראש: אימון של מודל תמונות גדול על מערך נתונים גדול של תמונות כלליות, כמו כל התמונות ב-Wikimedia Commons.
התאמה עדינה: אימון של מודל שעבר אימון מראש לביצוע משימה ספציפית, כמו יצירת תמונות של לווייתנים קטלניים.

תהליך הכוונון העדין יכול לכלול כל שילוב של האסטרטגיות הבאות:

שינוי של כל הפרמטרים הקיימים של המודל שעבר אימון מראש. התהליך הזה נקרא לפעמים כוונון עדין מלא.
שינוי של חלק מהפרמטרים הקיימים של המודל שאומן מראש (בדרך כלל, השכבות הכי קרובות לשכבת הפלט), בלי לשנות את שאר הפרמטרים הקיימים (בדרך כלל, השכבות הכי קרובות לשכבת הקלט). כוונון יעיל בפרמטרים
הוספת עוד שכבות, בדרך כלל מעל השכבות הקיימות הכי קרובות לשכבת הפלט.

התאמה עדינה היא סוג של למידת העברה. לכן, יכול להיות שבמהלך הכוונון העדין נעשה שימוש בפונקציית הפסד שונה או בסוג מודל שונה מאלה ששימשו לאימון המודל שאומן מראש. לדוגמה, אפשר לבצע כוונון עדין של מודל גדול של תמונות שעבר אימון מראש כדי ליצור מודל רגרסיה שמחזיר את מספר הציפורים בתמונת קלט.

השוואה וניגוד בין כוונון עדין לבין המונחים הבאים:

זיקוק
מצב למידה מבוסס-הנחיות

מידע נוסף זמין במאמר Fine-tuning (כוונון עדין) בקורס המקוצר על למידת מכונה.

דגם הצריבה

#generativeAI

משפחה של מודלים קטנים יחסית של Gemini שעברו אופטימיזציה למהירות ולחביון נמוך. מודלים של Flash מיועדים למגוון רחב של אפליקציות שבהן תשובות מהירות וקצב העברה גבוה הם חיוניים.

פשתן

ספרייה בקוד פתוח עם ביצועים גבוהים ללמידה עמוקה, שמבוססת על JAX. ‫Flax מספקת פונקציות לאימון רשתות עצביות, וגם שיטות להערכת הביצועים שלהן.

Flaxformer

ספרייה Transformer בקוד פתוח, שמבוססת על Flax ומיועדת בעיקר לעיבוד שפה טבעית ולמחקר מולטי-מודאלי.

שער שכחה

החלק בתא Long Short-Term Memory שמווסת את זרימת המידע דרך התא. שערי שכחה שומרים על ההקשר על ידי החלטה איזה מידע להשליך ממצב התא.

מודל בסיס

#generativeAI

#Metric

מודל שעבר אימון מראש גדול מאוד שאומן על קבוצת נתונים לאימון עצומה ומגוונת. מודל בסיס יכול לבצע את שתי הפעולות הבאות:

להגיב בצורה טובה למגוון רחב של בקשות.
לשמש כמודל בסיסי לכוונון עדין נוסף או להתאמה אישית אחרת.

במילים אחרות, מודל בסיסי כבר מסוגל לבצע משימות רבות באופן כללי, אבל אפשר להתאים אותו עוד יותר כדי שיהיה שימושי יותר למשימה ספציפית.

חלק יחסי של הצלחות

#generativeAI

#Metric

מדד להערכת הטקסט שנוצר על ידי מודל ML. המדד 'חלק ההצלחות' הוא מספר הפלט של הטקסט שנוצר בהצלחה חלקי המספר הכולל של פלט הטקסט שנוצר. לדוגמה, אם מודל שפה גדול יצר 10 בלוקים של קוד, וחמישה מהם היו מוצלחים, אז שיעור ההצלחה יהיה 50%.

למרות שהמדד 'שיעור ההצלחות' שימושי ברוב התחומים בסטטיסטיקה, בלמידת מכונה הוא שימושי בעיקר למדידת משימות שניתן לאמת, כמו יצירת קוד או בעיות מתמטיות.

full softmax

מילה נרדפת ל-softmax.

ההבדל בין שיטת הדגימה הזו לבין דגימת מועמדים.

מידע נוסף זמין במאמר רשתות עצביות: סיווג רב-מחלקתי בסדנה ללמידת מכונה.

שכבה מקושרת באופן מלא

שכבה נסתרת שבה כל צומת מחובר לכל צומת בשכבה הנסתרת הבאה.

שכבה מקושרת מלאה נקראת גם שכבה צפופה.

טרנספורמציה של פונקציה

פונקציה שמקבלת פונקציה כקלט ומחזירה פונקציה שעברה שינוי כפלט. ‫JAX משתמשת בטרנספורמציות של פונקציות.

G

GAN

קיצור של רשת למידה חישובית גנרטיבית.

Gemini

#generativeAI

הסביבה העסקית שכוללת את ה-AI הכי מתקדם של Google. הרכיבים במערכת האקולוגית הזו כוללים:

מודלים שונים של Gemini.
ממשק שיחה אינטראקטיבי עם מודל Gemini. המשתמשים מקלידים הנחיות ו-Gemini משיב להן.
ממשקי Gemini API שונים.
מוצרים עסקיים שונים שמבוססים על מודלים של Gemini, לדוגמה, Gemini for Google Cloud.

המודלים של Gemini

#generativeAI

מודלים מולטימודאליים חדשניים מבוססי Transformer של Google. מודלים של Gemini מיועדים במיוחד לשילוב עם סוכנים.

המשתמשים יכולים לקיים אינטראקציה עם מודלים של Gemini במגוון דרכים, כולל באמצעות ממשק תיבת דו-שיח אינטראקטיבית וערכות SDK.

‏Gemma

#generativeAI

סדרת מודלים קלים ופתוחים שמבוססים על אותם מחקרים וטכנולוגיות ששימשו ליצירת המודלים של Gemini. יש כמה מודלים שונים של Gemma, וכל אחד מהם מספק תכונות שונות, כמו ראייה, קוד וביצוע הוראות. פרטים נוספים מופיעים במאמר בנושא Gemma.

AI גנרטיבי או AI גנרטיבי

#generativeAI

קיצור של בינה מלאכותית גנרטיבית.

הכללה

#fundamentals

היכולת של מודל לבצע חיזויים נכונים לגבי נתונים חדשים שלא נראו קודם. מודל שיכול להכליל הוא ההפך ממודל שמותאם יתר על המידה.

כדי לראות טיפים ממשתמשים נוספים, לוחצים על הסמל.

מאמנים מודל על הדוגמאות שבקבוצת נתונים לאימון. כתוצאה מכך, המודל לומד את המאפיינים הייחודיים של הנתונים בקבוצת הנתונים לאימון. הכללה (Generalization) בודקת בעצם אם המודל יכול ליצור תחזיות טובות לגבי דוגמאות שלא נמצאות בקבוצת נתונים לאימון.

כדי לעודד הכללה, רגולריזציה עוזרת למודל להתאמן בצורה פחות מדויקת למאפיינים הייחודיים של הנתונים בקבוצת הנתונים לאימון.

מידע נוסף מופיע במאמר הכללה בקורס המקוצר על למידת מכונה.

עקומת הכללה

#fundamentals

תרשים של הפסד האימון ושל הפסד האימות כפונקציה של מספר האיטרציות.

עקומת הכללה יכולה לעזור לכם לזהות התאמת יתר אפשרית. לדוגמה, עקומת ההכללה הבאה מצביעה על התאמת יתר, כי הפסד האימות בסופו של דבר גבוה משמעותית מהפסד האימון.

תרשים קרטזיאני שבו ציר ה-Y מסומן כ'הפסד' וציר ה-X מסומן כ'איטרציות'. יופיעו שני תרשימים. באחד הגרפים מוצג הפסד האימון ובשני מוצג הפסד האימות.
שני הגרפים מתחילים באופן דומה, אבל בסופו של דבר ההפסד של האימון יורד הרבה יותר מההפסד של האימות.

מידע נוסף מופיע במאמר הכללה בקורס המקוצר על למידת מכונה.

מודל לינארי מוכלל

הכללה של מודלים של רגרסיה של ריבועים פחותים, שמבוססים על רעש גאוסיאני, לסוגים אחרים של מודלים שמבוססים על סוגים אחרים של רעש, כמו רעש פואסוני או רעש קטגורי. דוגמאות למודלים לינאריים מוכללים:

רגרסיה לוגיסטית
רגרסיה רב-סיווגית
רגרסיה של הריבועים הפחותים

אפשר למצוא את הפרמטרים של מודל ליניארי מוכלל באמצעות אופטימיזציה קמורה.

למודלים לינאריים מוכללים יש את המאפיינים הבאים:

החיזוי הממוצע של מודל הרגרסיה האופטימלי של הריבועים הקטנים ביותר שווה לתווית הממוצעת בנתוני האימון.
ההסתברות הממוצעת שחוזה מודל הרגרסיה הלוגיסטית האופטימלי שווה לתווית הממוצעת בנתוני האימון.

היכולת של מודל ליניארי מוכלל מוגבלת על ידי התכונות שלו. בניגוד למודל עמוק, מודל ליניארי מוכלל לא יכול 'ללמוד תכונות חדשות'.

טקסט שנוצר

#generativeAI

באופן כללי, הטקסט שהמודל של למידת מכונה מוציא. כשמעריכים מודלים גדולים של שפה, חלק מהמדדים משווים בין הטקסט שנוצר לבין טקסט ייחוס. לדוגמה, נניח שאתם מנסים לקבוע עד כמה מודל למידת מכונה מתרגם ביעילות מצרפתית להולנדית. במקרה זה:

הטקסט שנוצר הוא התרגום להולנדית שהמודל של למידת המכונה מוציא.
טקסט הייחוס הוא התרגום להולנדית שמתרגם אנושי (או תוכנה) יוצר.

חשוב לדעת: חלק מאסטרטגיות ההערכה לא כוללות טקסט להשוואה.

רשת למידה חישובית גנרטיבית (GAN)

מערכת ליצירת נתונים חדשים שבה גנרטור יוצר נתונים ומפלה קובע אם הנתונים שנוצרו תקפים או לא תקפים.

מידע נוסף זמין בקורס בנושא רשתות למידה חישובית גנרטיבית (GAN).

בינה מלאכותית גנרטיבית

#generativeAI

תחום מתפתח ומשנה את פני הדברים, ללא הגדרה רשמית. עם זאת, רוב המומחים מסכימים שמודלים של AI גנרטיבי יכולים ליצור ("לגנרר") תוכן שעונה על כל הקריטריונים הבאים:

מורכב
קוהרנטי
מקורית

דוגמאות ל-AI גנרטיבי:

מודלים גדולים של שפה (LLM), שיכולים ליצור טקסט מקורי מתוחכם ולענות על שאלות.
מודל ליצירת תמונות, שיכול ליצור תמונות ייחודיות.
מודלים ליצירת אודיו ומוזיקה, שיכולים ליצור מוזיקה מקורית או ליצור דיבור שנשמע מציאותי.
מודלים ליצירת סרטונים, שיכולים ליצור סרטונים מקוריים.

טכנולוגיות קודמות, כולל LSTM ו-RNN, יכולות גם הן ליצור תוכן מקורי ועקבי. יש מומחים שרואים בטכנולוגיות המוקדמות האלה AI גנרטיבי, ויש מומחים שחושבים ש-AI גנרטיבי אמיתי צריך ליצור פלט מורכב יותר ממה שהטכנולוגיות המוקדמות האלה יכולות ליצור.

ההבדל בין מודלים של למידת מכונה לחיזוי לבין מודלים של למידת מכונה לחיזוי.

מודל גנרטיבי

מבחינה מעשית, מודל שמבצע אחת מהפעולות הבאות:

יוצר (מפיק) דוגמאות חדשות ממערך הנתונים לאימון. לדוגמה, מודל גנרטיבי יכול ליצור שירה אחרי אימון על מערך נתונים של שירים. החלק היוצר של רשת למידה חישובית גנרטיבית (GAN) נכלל בקטגוריה הזו.
קובעת את ההסתברות שדוגמה חדשה מגיעה מקבוצת הנתונים לאימון, או נוצרה מאותו מנגנון שיצר את קבוצת הנתונים לאימון. לדוגמה, אחרי אימון על מערך נתונים שמורכב ממשפטים באנגלית, מודל גנרטיבי יכול לקבוע את ההסתברות שקלט חדש הוא משפט תקף באנגלית.

מודל גנרטיבי יכול באופן תיאורטי להבחין בהתפלגות של דוגמאות או תכונות מסוימות במערך נתונים. כלומר:

p(examples)

מודלים של למידה לא מפוקחת הם גנרטיביים.

ההבדל ביניהם לבין מודלים דיסקרימינטיביים.

מחולל

מערכת המשנה בתוך רשת גנרטיבית יריבה שיוצרת דוגמאות חדשות.

ההפך ממודל דיסקרימינטיבי.

gini impurity

#df

#Metric

מדד שדומה לאנטרופיה. מפצלים משתמשים בערכים שנגזרים מאי-טוהר גיני או מאנטרופיה כדי ליצור תנאים לסיווג עצי החלטה. הרווח במידע נגזר מאנטרופיה. אין מונח מקביל שמקובל באופן אוניברסלי למדד שנגזר מאי-טוהר של גיני. עם זאת, המדד הזה, שאין לו שם, חשוב בדיוק כמו מדד הרווח במידע.

המדד הזה נקרא גם מדד ג'יני או פשוט ג'יני.

כדי לראות פרטים מתמטיים על מדד Gini impurity, לוחצים על הסמל.

טומאת גיני היא ההסתברות לסיווג שגוי של נתון חדש שנלקח מאותה התפלגות. הטומאה של גיני בקבוצה עם שני ערכים אפשריים, 0 ו-1 (לדוגמה, התוויות בבעיה של סיווג בינארי), מחושבת לפי הנוסחה הבאה:

I = 1 - (p² + q²) = 1 - (p² + (1-p)²)

where:‎

‫I הוא מדד טוהר גיני.
‫p הוא החלק היחסי של דוגמאות מסוג '1'.
‫q הוא החלק של הדוגמאות עם הערך '0'. שימו לב ש-q = 1-p

לדוגמה, נניח שיש לכם את קבוצת הנתונים הבאה:

‫100 תוויות (0.25 ממערך הנתונים) מכילות את הערך '1'
‫300 תוויות (0.75 ממערך הנתונים) מכילות את הערך '0'

לכן, מדד ה-Gini impurity הוא:

p = 0.25
q = 0.75
I = 1 - (0.25² + 0.75²) = 0.375

לכן, לתווית אקראית מאותו מערך נתונים יש סיכוי של 37.5% לסיווג שגוי, וסיכוי של 62.5% לסיווג נכון.

תווית מאוזנת לחלוטין (לדוגמה, 200 תוויות עם הערך 0 ו-200 תוויות עם הערך 1) תהיה בעלת מדד Gini impurity של 0.5. תווית לא מאוזנת מאוד תהיה בעלת טוהר גיני קרוב ל-0.0.

מערך נתונים מוזהב

קבוצה של נתונים שנאספו באופן ידני ומייצגים אמת קרקע. צוותים יכולים להשתמש במערך נתונים מוזהב אחד או יותר כדי להעריך את איכות המודל.

חלק ממערכי הנתונים המוזהבים מתעדים תת-דומיינים שונים של אמת קרקע. לדוגמה, קבוצת נתונים מוזהבת לסיווג תמונות עשויה לכלול את תנאי התאורה ואת הרזולוציה של התמונה.

תשובה לדוגמה

#generativeAI

תשובה שידוע שהיא טובה. לדוגמה, אם נותנים את ההנחיה הבאה:

2 + 2

התשובה המושלמת היא:

4

כאן אפשר לקרוא טיפים ממשתמשים על תשובה מושלמת ועל טקסט הפניה.

חלק ממדדי ההערכה, כמו ROUGE, משווים בין טקסט ייחוס לבין טקסט שנוצר על ידי מודל. אם יש תשובה נכונה אחת להנחיה, התשובה המוזהבת משמשת בדרך כלל כטקסט ההפניה.

יש הנחיות שאין להן תשובה נכונה אחת. לדוגמה, להנחיה תסכם את המסמך הזה סביר להניח שיהיו הרבה תשובות נכונות. במקרים כאלה, לרוב לא כדאי להשתמש בטקסט להפניה כי המודל יכול ליצור מגוון רחב מאוד של סיכומים אפשריים. עם זאת, יכול להיות שיהיה שימושי לקבל תשובה מושלמת במצב הזה. לדוגמה, תשובה מושלמת שמכילה סיכום טוב של מסמך יכולה לעזור לאמן כלי לדירוג אוטומטי כדי לזהות דפוסים של סיכומי מסמכים טובים.

‏Google AI Studio

כלי של Google שמספק ממשק ידידותי למשתמש לניסוי ובנייה של אפליקציות באמצעות מודלים גדולים של שפה של Google. פרטים נוספים זמינים בדף הבית של Google AI Studio.

‫GPT (Generative Pre-trained Transformer)

#generativeAI

משפחה של מודלים גדולים של שפה שמבוססים על טרנספורמרים ופותחו על ידי OpenAI.

גרסאות של GPT יכולות להתאים לכמה אופנים, כולל:

יצירת תמונות (לדוגמה, ImageGPT)
יצירת תמונות לפי טקסט (לדוגמה, DALL-E).

הדרגתי

הווקטור של הנגזרות החלקיות ביחס לכל המשתנים הבלתי תלויים. בלמידת מכונה, הגרדיאנט הוא וקטור של נגזרות חלקיות של פונקציית המודל. השיפוע מצביע על הכיוון של העלייה התלולה ביותר.

צבירת גרדיאנטים

טכניקת backpropagation שמעדכנת את הפרמטרים רק פעם אחת בכל תקופה ולא פעם אחת בכל איטרציה. אחרי העיבוד של כל מיני-קבוצה, הצטברות הגרדיאנטים פשוט מעדכנת את הסכום הכולל של הגרדיאנטים. לאחר מכן, אחרי עיבוד המיני-אצווה האחרונה בתקופה, המערכת מעדכנת סופית את הפרמטרים על סמך הסכום הכולל של כל שינויי הגרדיאנט.

הצטברות של גרדיאנטים שימושית כשגודל האצווה גדול מאוד בהשוואה לכמות הזיכרון שזמינה לאימון. כשיש בעיה בזיכרון, הנטייה הטבעית היא להקטין את גודל האצווה. עם זאת, הקטנת גודל האצווה בשיטת backpropagation רגילה מגדילה את מספר העדכונים של הפרמטרים. הצטברות של גרדיאנטים מאפשרת למודל להימנע מבעיות בזיכרון, ועדיין להתאמן ביעילות.

עצי החלטה עם חיזוק גרדיאנט (GBT)

#df

סוג של יער החלטות שבו:

הדרכה מתבססת על חיזוק גרדיאנט.
המודל החלש הוא עץ החלטות.

מידע נוסף זמין במאמר Gradient Boosted Decision Trees (עצים להחלטות עם שיפור גרדיאנט) בקורס בנושא Decision Forests (יערות החלטה).

חיזוק גרדיאנט

#df

אלגוריתם אימון שבו מודלים חלשים מאומנים באופן איטרטיבי כדי לשפר את האיכות (להפחית את ההפסד) של מודל חזק. לדוגמה, מודל חלש יכול להיות מודל לינארי או מודל קטן של עץ החלטות. המודל החזק הופך לסכום של כל המודלים החלשים שאומנו קודם.

בצורה הפשוטה ביותר של חיזוק גרדיאנט, בכל איטרציה מתבצע אימון של מודל חלש כדי לחזות את שיפוע אובדן המידע של המודל החזק. לאחר מכן, הפלט של המודל החזק מתעדכן על ידי חיסור הגרדיאנט החזוי, בדומה לירידת גרדיאנט.

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

where:‎

‫$F_{0}$ הוא המודל של התחלה חזקה.
‫$F_{i+1}$ הוא המודל החזק הבא.
‫$F_{i}$ הוא המודל החזק הנוכחי.
‫$\xi$ הוא ערך בין 0.0 ל-1.0 שנקרא התכווצות, שדומה לשיעור הלמידה בשיטת הגרדיאנט.
‫$f_{i}$ הוא מודל חלש שאומן לחזות את גרדיאנט ההפסד של $F_{i}$.

וריאציות מודרניות של חיזוק גרדיאנט כוללות גם את הנגזרת השנייה (Hessian) של הפסד בחישוב שלהן.

עצי החלטה משמשים בדרך כלל כמודלים חלשים בחיזוק גרדיאנט. מידע על עצים עם שיפור גרדיאנט (החלטה)

חיתוך גרדיאנט

מנגנון נפוץ לצמצום הבעיה של גרדיאנטים מתפוצצים הוא הגבלה מלאכותית (חיתוך) של הערך המקסימלי של גרדיאנטים כשמשתמשים בירידת גרדיאנטים כדי לאמן מודל.

ירידת גרדיאנט

#fundamentals

טכניקה מתמטית שמטרתה למזער את ההפסד. בשיטת הגרדיאנט יורד, מתבצעת התאמה איטרטיבית של משקלים והטיות, עד שנמצא השילוב הטוב ביותר לצמצום ההפסד.

השיטה של ירידת גרדיאנט קיימת כבר הרבה מאוד זמן, הרבה יותר זמן מלמידת מכונה.

מידע נוסף זמין במאמר רגרסיה לינארית: ירידה הדרגתית בסדנה ללימוד מכונת למידה.

תרשים

#TensorFlow

ב-TensorFlow, מפרט חישוב. הצמתים בתרשים מייצגים פעולות. הקצוות הם מכוונים ומייצגים העברה של תוצאת פעולה (Tensor) כאופרנד לפעולה אחרת. אפשר להשתמש ב-TensorBoard כדי להמחיש תרשים.

הרצת גרף

#TensorFlow

סביבת תכנות של TensorFlow שבה התוכנית יוצרת קודם גרף ואז מפעילה את הגרף הזה, כולו או חלקו. הביצוע של הגרף הוא מצב הביצוע שמוגדר כברירת מחדל ב-TensorFlow 1.x.

ההפך מהרצה מיידית.

מדיניות חמדנית

בלמידת חיזוק, מדיניות שתמיד בוחרת את הפעולה עם ההחזר הצפוי הכי גבוה.

עיגון בנתונים

מאפיין של מודל שהפלט שלו מבוסס על חומר מקור ספציפי (או "מעוגן" בו). לדוגמה, נניח שאתם מספקים ספר לימוד שלם בפיזיקה כקלט ("הקשר") למודל שפה גדול. לאחר מכן, מזינים למודל השפה הגדול פרומפט עם שאלה בפיזיקה. אם התשובה של המודל משקפת מידע שמופיע בספר הלימוד, סימן שהמודל מבוסס על ספר הלימוד הזה.

חשוב לזכור שמודל מעוגן הוא לא תמיד מודל עובדתי. לדוגמה, יכול להיות שיש טעויות בספר הלימוד לפיזיקה שמשמש כקלט.

ערכי סף (ground truth)

#fundamentals

ריאליטי.

מה שקרה בפועל.

לדוגמה, נניח שיש מודל של סיווג בינארי שמנבא אם סטודנט בשנה הראשונה באוניברסיטה יסיים את לימודיו תוך שש שנים. אמת הקרקע של המודל הזה היא אם התלמיד או התלמידה סיימו את הלימודים תוך שש שנים.

כדי לראות טיפים ממשתמשים נוספים, לוחצים על הסמל.

אנחנו מעריכים את איכות המודל בהשוואה לאמת קרקע. עם זאת, אמת קרקע לא תמיד מדויקה לחלוטין. לדוגמה, הנה כמה דוגמאות לפגמים פוטנציאליים באמת הקרקע:

בדוגמה של סיום הלימודים, האם אנחנו בטוחים שרשומות סיום הלימודים של כל תלמיד תמיד נכונות? האם רישום הנתונים באוניברסיטה מתבצע בצורה מושלמת?
נניח שהתווית היא ערך נקודה צפה שנמדד על ידי מכשירים (לדוגמה, ברומטרים). איך אפשר לוודא שכל המכשירים מכוילים באופן זהה או שכל קריאה בוצעה באותם תנאים?
אם התווית היא עניין של דעה אנושית, איך אפשר להיות בטוחים שכל מעריך אנושי מעריך את האירועים באותו אופן? כדי לשפר את העקביות, לפעמים מתערבים מומחים אנושיים.

הטיית ייחוס לקבוצה

#responsible

בהנחה שמה ש-TRUE לגבי אדם מסוים נכון גם לגבי כל האנשים בקבוצה. ההשפעות של הטיית שיוך קבוצתית עלולות להיות חמורות יותר אם משתמשים בדגימה נוחה לאיסוף נתונים. במדגם לא מייצג, יכול להיות שיינתנו שיוכים שלא משקפים את המציאות.

כדאי לעיין גם בהטיה של הומוגניות מחוץ לקבוצה ובהטיה של העדפת קבוצת השייכות. מידע נוסף זמין גם במאמר הוגנות: סוגי הטיה בסדנה המקוונת בנושא למידת מכונה.

H

הזיה

#generativeAI

יצירת פלט שנראה סביר אבל כולל עובדות שגויות על ידי מודל AI גנרטיבי, שמציג את עצמו כמודל שמספק טענת נכוֹנוּת לגבי העולם האמיתי. לדוגמה, מודל AI גנרטיבי שטוען שברק אובמה מת בשנת 1865 מייצר הזיות.

גיבוב (hashing)

בלמידת מכונה, מנגנון לקיבוץ נתונים קטגוריים, במיוחד כשמספר הקטגוריות גדול, אבל מספר הקטגוריות שמופיעות בפועל במערך הנתונים קטן יחסית.

לדוגמה, בכדור הארץ יש כ-73,000 מיני עצים. אפשר לייצג כל אחד מ-73,000 מיני העצים ב-73,000 קטגוריות נפרדות. לחלופין, אם רק 200 מתוך מיני העצים האלה מופיעים בפועל במערך נתונים, אפשר להשתמש בגיבוב כדי לחלק את מיני העצים ל-500 דליים.

דלי אחד יכול להכיל כמה מיני עצים. לדוגמה, גיבוב יכול למקם את baobab ו-red maple – שני מינים שונים מבחינה גנטית – באותה קטגוריה. בכל מקרה, גיבוב הוא עדיין דרך טובה למפות קבוצות גדולות של קטגוריות למספר הנבחר של דליים. גיבוב הופך מאפיין קטגורי עם מספר גדול של ערכים אפשריים למספר קטן בהרבה של ערכים על ידי קיבוץ ערכים בצורה דטרמיניסטית.

מידע נוסף זמין במאמר נתונים קטגוריים: אוצר מילים וקידוד one-hot בסדנה ללימוד למידת מכונה.

היוריסטיקה

פתרון פשוט לבעיה שאפשר ליישם במהירות. לדוגמה, "בעזרת היוריסטיקה, הגענו לרמת דיוק של 86%. כשעברנו לרשת עצבית עמוקה, רמת הדיוק עלתה ל-98%".

שכבה נסתרת

#fundamentals

שכבה ברשת נוירונים בין שכבת הקלט (התכונות) לבין שכבת הפלט (התחזית). כל שכבה מוסתרת מורכבת מנוירונים אחדים. לדוגמה, רשת הנוירונים הבאה מכילה שתי שכבות נסתרות, הראשונה עם שלושה נוירונים והשנייה עם שני נוירונים:

רשת עצבית עמוקה מכילה יותר משכבה נסתרת אחת. לדוגמה, האיור הקודם הוא רשת עצבית עמוקה כי המודל מכיל שתי שכבות מוסתרות.

מידע נוסף זמין במאמר רשתות עצביות: צמתים ושכבות מוסתרות בסדנה ללמידת מכונה.

סידור היררכי באשכולות

#clustering

קטגוריה של אלגוריתמים של אשכולות שיוצרים עץ של אשכולות. השיטה מתאימה לנתונים היררכיים, כמו טקסונומיות בוטניות. יש שני סוגים של אלגוריתמים להיררכיה של אשכולות:

אשכול צבירה קודם מקצה כל דוגמה לאשכול משלה, ואז ממזג באופן איטרטיבי את האשכולות הקרובים ביותר כדי ליצור עץ היררכי.
חלוקה לאשכולות: קודם כל מקבצים את כל הדוגמאות לאשכול אחד, ואז מחלקים את האשכול באופן איטרטיבי לעץ היררכי.

השיטה הזו שונה מאשכולות מבוססי-מרכז.

מידע נוסף זמין במאמר בנושא אלגוריתמים של אשכולות בקורס בנושא אשכולות.

טיפוס על גבעה

אלגוריתם לשיפור איטרטיבי ('הליכה במעלה הגבעה') של מודל למידת מכונה עד שהמודל מפסיק להשתפר ('מגיע לראש הגבעה'). הצורה הכללית של האלגוריתם היא:

בניית מודל התחלתי.
יוצרים מודלים חדשים למועמדים על ידי ביצוע שינויים קלים בדרך שבה מאמנים או מכווננים את המודל. יכול להיות שתצטרכו לעבוד עם קבוצת נתונים לאימון שונה מעט או עם היפרפרמטרים שונים.
מעריכים את המודלים החדשים המועמדים ובוחרים אחת מהפעולות הבאות:
- אם מודל מועמד מספק ביצועים טובים יותר ממודל ההתחלה, הוא הופך למודל ההתחלה החדש. במקרה כזה, חוזרים על שלבים 1, 2 ו-3.
- אם אף מודל לא מתפקד טוב יותר ממודל ההתחלה, הגעתם לשיא ואתם צריכים להפסיק את האיטרציות.

הנחיות לגבי כוונון היפר-פרמטרים זמינות במדריך לשימוש בכלי כוונון ללמידה עמוקה. הנחיות בנושא הנדסת תכונות זמינות במודולים בנושא נתונים בקורס המקוצר על למידת מכונה.

אובדן ציר

#Metric

משפחה של פונקציות loss לסיווג שנועדו למצוא את גבול ההחלטה במרחק הכי גדול מכל דוגמה לאימון, וכך למקסם את השוליים בין הדוגמאות לבין הגבול. ב-KSVM נעשה שימוש בפונקציית הפסד ציר (או בפונקציה קשורה, כמו פונקציית הפסד ציר בריבוע). בסיווג בינארי, פונקציית ההפסד של הציר מוגדרת כך:

$$\text{loss} = \text{max}(0, 1 - (y * y'))$$

כאשר y היא התווית האמיתית, -1 או +1, ו-y' הוא הפלט הגולמי של מודל הסיווג:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

לכן, תרשים של hinge loss לעומת (y * y') נראה כך:

תרשים קרטזיאני שמורכב משני קטעי קו שמחוברים זה לזה. הקטע הראשון מתחיל בנקודה (‎-3, 4) ומסתיים בנקודה (1, 0). הקטע של השורה השנייה
מתחיל בנקודה (1, 0) וממשיך ללא הגבלה עם שיפוע
של 0.

הטיה היסטורית

#responsible

סוג של הטיה שכבר קיימת בעולם והגיעה למערך נתונים. ההטיות האלה נוטות לשקף סטריאוטיפים תרבותיים קיימים, אי-שוויון דמוגרפי ודעות קדומות כלפי קבוצות חברתיות מסוימות.

לדוגמה, נניח שיש מודל סיווג שמנבא אם מבקש הלוואה יפגר בתשלומים או לא. המודל הזה אומן על נתונים היסטוריים של פיגורים בתשלומים על הלוואות משנות ה-80 מבנקים מקומיים בשתי קהילות שונות. אם בעבר, הסיכוי של מועמדים מקהילה א' שלא לעמוד בתנאי ההלוואה היה גבוה פי שישה מהסיכוי של מועמדים מקהילה ב', יכול להיות שהמודל ילמד הטיה היסטורית שתגרום לו להיות פחות סביר לאשר הלוואות בקהילה א', גם אם התנאים ההיסטוריים שהובילו לשיעורי ברירת המחדל הגבוהים יותר בקהילה הזו כבר לא רלוונטיים.

מידע נוסף זמין במאמר הוגנות: סוגי הטיה בסדנת מבוא ללמידת מכונה.

נתונים במצב holdout

דוגמאות שלא נעשה בהן שימוש מכוון ("הוצאו") במהלך האימון. מערך הנתונים validation ומערך הנתונים test הם דוגמאות לנתוני holdout. נתוני החזקה (Holdout) עוזרים להעריך את היכולת של המודל לבצע הכללה לנתונים אחרים, מלבד הנתונים שעליהם הוא אומן. ההפסד במצב holdout מספק הערכה טובה יותר של ההפסד במערך נתונים שלא נראה מאשר ההפסד בקבוצת נתונים לאימון.

מארח

#TensorFlow

#GoogleCloud

כשמאמנים מודל ML על שבבי האצה (מעבדי GPU או TPU), החלק במערכת ששולט בשני הדברים הבאים:

הזרימה הכוללת של הקוד.
החילוץ והשינוי של צינור הקלט.

המארח פועל בדרך כלל במעבד (CPU), ולא בצ'יפ האצה. המכשיר מבצע מניפולציות על טנסורים בצ'יפים של המאיץ.

בדיקה אנושית

#generativeAI

תהליך שבו אנשים שופטים את איכות הפלט של מודל למידת מכונה. לדוגמה, אנשים דו-לשוניים שופטים את האיכות של מודל לתרגום באמצעות למידת מכונה. הערכה אנושית שימושית במיוחד לבדיקת מודלים שאין להם תשובה נכונה אחת.

ההבדל בין זה לבין הערכה אוטומטית והערכה על ידי מערכת אוטומטית למתן ציונים.

האדם שבתהליך (HITL)

#generativeAI

ביטוי לא מוגדר היטב שיכול להיות שהוא מתייחס לאחת מהאפשרויות הבאות:

מדיניות של צפייה בתוצרים של AI גנרטיבי באופן ביקורתי או סקפטי.
אסטרטגיה או מערכת שמבטיחות שאנשים יעזרו לעצב, להעריך ולשפר את ההתנהגות של מודל. השארת אדם בתהליך מאפשרת ל-AI ליהנות מאינטליגנציה של מכונה וגם מאינטליגנציה אנושית. לדוגמה, מערכת שבה AI יוצר קוד שמהנדסי תוכנה בודקים אותו היא מערכת האדם שבתהליך.

היפר-פרמטר

#fundamentals

המשתנים שאתם או שירות לכוונון היפר-פרמטרים משנים במהלך הפעלות עוקבות של אימון מודל. לדוגמה, קצב הלמידה הוא היפר-פרמטר. אפשר להגדיר את קצב הלמידה ל-0.01 לפני סשן אימון. אם תגיעו למסקנה ש-0.01 הוא ערך גבוה מדי, תוכלו להגדיר את קצב הלמידה ל-0.003 בסשן האימון הבא.

לעומת זאת, פרמטרים הם משקלים והטיות שונים שהמודל לומד במהלך האימון.

מידע נוסף זמין במאמר רגרסיה ליניארית: היפר-פרמטרים בקורס המקוצר על למידת מכונה.

מישור היפר

גבול שמפריד בין מרחב לשני תת-מרחבים. לדוגמה, קו הוא היפר-מישור בשני ממדים ומישור הוא היפר-מישור בשלושה ממדים. בדרך כלל, בלמידת מכונה, היפר-מישור הוא הגבול שמפריד בין מרחב רב-ממדי. מכונות וקטוריות לתמיכה בליבה משתמשות בהיפר-מישורים כדי להפריד בין מחלקות חיוביות למחלקות שליליות, לרוב במרחב רב-ממדי.

I

i.i.d.

קיצור של independently and identically distributed (מפוזר באופן עצמאי וזהה).

זיהוי תמונות, זיהוי תמונה

תהליך שמסווג אובייקטים, דפוסים או מושגים בתמונה. זיהוי תמונות נקרא גם סיווג תמונות.

קבוצת נתונים לא מאוזנת

מילה נרדפת ל-class-imbalanced dataset.

הטיה מרומזת

#responsible

יצירת קשר או הנחה באופן אוטומטי על סמך מודלים של תודעה וזיכרונות. הטיה מרומזת יכולה להשפיע על:

איך הנתונים נאספים ומסווגים.
איך מערכות למידת מכונה מתוכננות ומפותחות.

לדוגמה, כשבונה מודל סיווג כדי לזהות תמונות חתונה, מהנדס יכול להשתמש בנוכחות של שמלה לבנה בתמונה כמאפיין. עם זאת, שמלות לבנות היו מקובלות רק בתקופות מסוימות ובתרבויות מסוימות.

אפשר לעיין גם במאמר בנושא הטיית אישור.

השלמת נתונים חסרים

קיצור של השלמת ערכים.

אי התאמה בין מדדי הוגנות

#responsible

#Metric

הרעיון שלפיו חלק מהמושגים של הוגנות לא תואמים זה לזה ולא ניתן לספק אותם בו-זמנית. לכן, אין מדד אוניברסלי יחיד לכמותיות של הוגנות שאפשר להחיל על כל בעיות ה-ML.

יכול להיות שזה נשמע מייאש, אבל חוסר התאמה של מדדי הוגנות לא אומר שהמאמצים להשגת הוגנות הם חסרי תועלת. במקום זאת, הוא מציע להגדיר את ההוגנות בהקשר של בעיה נתונה של למידת מכונה, במטרה למנוע נזקים שספציפיים לתרחישי השימוש שלה.

במאמר "On the (im)possibility of fairness" יש דיון מפורט יותר על חוסר התאימות של מדדי הוגנות.

מצב למידה בהקשר

#generativeAI

מילה נרדפת ל-few-shot prompting.

בלתי תלויים ומחולקים באופן זהה (i.i.d)

#fundamentals

נתונים שנלקחים מהתפלגות שלא משתנה, וכל ערך שנלקח לא תלוי בערכים שנלקחו קודם. התפלגות i.i.d. היא הגז האידיאלי של למידת מכונה – מבנה מתמטי שימושי אבל כמעט אף פעם לא נמצא בדיוק בעולם האמיתי. לדוגמה, התפלגות המבקרים בדף אינטרנט עשויה להיות i.i.d. במהלך חלון זמן קצר. כלומר, ההתפלגות לא משתנה במהלך חלון הזמן הקצר הזה, והביקור של אדם אחד בדרך כלל לא תלוי בביקור של אדם אחר. עם זאת, אם מרחיבים את חלון הזמן הזה, יכול להיות שיופיעו הבדלים עונתיים במספר המבקרים בדף האינטרנט.

מידע נוסף מופיע במאמר בנושא nonstationarity.

הוגנות אישית

#responsible

#Metric

מדד הוגנות שבודק אם אנשים דומים מסווגים באופן דומה. לדוגמה, יכול להיות שבאקדמיה מסוימת ירצו להבטיח הוגנות אינדיבידואלית, כלומר ששני תלמידים עם ציונים זהים במבחנים סטנדרטיים יקבלו סיכוי שווה להתקבל למוסד.

חשוב לזכור שההוגנות האישית תלויה לחלוטין בהגדרה של 'דמיון' (במקרה הזה, ציונים במבחנים וציונים בלימודים), ויש סיכון ליצירת בעיות חדשות של הוגנות אם מדד הדמיון לא כולל מידע חשוב (כמו רמת הקושי של תוכנית הלימודים של התלמיד).

במאמר "הוגנות באמצעות מודעות" מופיע דיון מפורט יותר בנושא ההוגנות האישית.

היקש

#fundamentals

#generativeAI

בלמידת מכונה מסורתית, התהליך של ביצוע חיזויים על ידי החלת מודל שעבר אימון על דוגמאות לא מסומנות. מידע נוסף זמין במאמר בנושא למידה מפוקחת בקורס 'מבוא ל-ML'.

במודלים גדולים של שפה, הסקה היא התהליך של שימוש במודל מאומן כדי ליצור תשובה לקלט הנחיה.

למונח 'היסק' יש משמעות שונה בסטטיסטיקה. פרטים נוספים זמינים במאמר בוויקיפדיה בנושא הסקה סטטיסטית.

נתיב הסקה

#df

בעץ החלטות, במהלך הסקת מסקנות, המסלול שדוגמה ספציפית עוברת מהרמה הבסיסית לתנאים אחרים, ומסתיים בעלה. לדוגמה, בעץ ההחלטות הבא, החצים העבים יותר מראים את נתיב ההסקה לדוגמה עם ערכי התכונות הבאים:

x = 7
y = 12
z = -3

נתיב ההסקה באיור הבא עובר דרך שלושה תנאים לפני שהוא מגיע לעלה (Zeta).

עץ החלטות שמורכב מארבעה תנאים וחמישה עלים.
תנאי הרמה הבסיסית הוא (x > 0). התשובה היא Yes, ולכן נתיב ההסקה עובר מהרמה הבסיסית (root) לתנאי הבא (y > 0).
התשובה היא 'כן', ולכן נתיב ההסקה עובר לתנאי הבא (z > 0). מכיוון שהתשובה היא 'לא', נתיב ההסקה מגיע לצומת הסופית שלו, שהיא העלה (Zeta).

שלושת החיצים העבים מראים את נתיב ההסקה.

מידע נוסף זמין במאמר עצי החלטה בקורס בנושא יערות החלטה.

הרווח ממידע

#df

#Metric

ביערות החלטה, ההפרש בין האנטרופיה של צומת לבין הסכום המשוקלל (לפי מספר הדוגמאות) של האנטרופיה של צמתי הצאצאים שלה. האנטרופיה של צומת היא האנטרופיה של הדוגמאות בצומת הזה.

לדוגמה, נבחן את ערכי האנטרופיה הבאים:

האנטרופיה של צומת ההורה = 0.6
האנטרופיה של צומת משני אחד עם 16 דוגמאות רלוונטיות = 0.2
אנטרופיה של צומת צאצא אחר עם 24 דוגמאות רלוונטיות = 0.1

לכן, 40% מהדוגמאות נמצאות בצומת צאצא אחד ו-60% נמצאות בצומת הצאצא השני. לכן:

סכום האנטרופיה המשוקלל של צומתי הצאצא = (‎0.4 * 0.2) + (‎0.6 * 0.1) = 0.14

לכן, הרווח מהמידע הוא:

הרווח במידע = האנטרופיה של צומת האב – סכום האנטרופיה המשוקלל של צמתי הבן
הרווח במידע = 0.6 – 0.14 = 0.46

רוב המספקים מנסים ליצור תנאים שממקסמים את הרווח מהמידע.

הטיה לטובת קבוצת השייכות

#responsible

העדפה של הקבוצה שאליה משתייכים או של מאפיינים אישיים. אם הבודקים או המדרגים הם חברים, בני משפחה או עמיתים של מפתח הלמידה החישובית, יכול להיות שהטיה בתוך הקבוצה תפסול את בדיקת המוצר או את מערך הנתונים.

הטיה לטובת הקבוצה היא סוג של הטיית ייחוס קבוצתית. אפשר לעיין גם במאמר בנושא הטיית הומוגניות של קבוצת חוץ.

מידע נוסף זמין במאמר הוגנות: סוגי הטיה בקורס המזורז ללימוד מכונת למידה.

מחולל קלט

מנגנון שבאמצעותו נתונים נטענים לתוך רשת נוירונים.

אפשר לחשוב על מחולל קלט כרכיב שאחראי לעיבוד נתונים גולמיים לטנסורים, שחוזרים עליהם כדי ליצור אצוות לאימון, להערכה ולהסקת מסקנות.

שכבת קלט

#fundamentals

השכבה של רשת הנוירונים שמכילה את וקטור התכונות. כלומר, שכבת הקלט מספקת דוגמאות לאימון או להסקת מסקנות. לדוגמה, שכבת הקלט ברשת נוירונים הבאה מורכבת משני מאפיינים:

ארבע שכבות: שכבת קלט, שתי שכבות נסתרות ושכבת פלט.

תנאי בתוך קבוצה

#df

בעץ החלטות, תנאי שבודק אם פריט מסוים קיים בקבוצת פריטים. לדוגמה, התנאי הבא הוא תנאי בתוך קבוצה:

  house-style in [tudor, colonial, cape]

במהלך ההסקה, אם הערך של feature בסגנון הבית הוא tudor או colonial או cape, התנאי הזה מקבל את הערך Yes. אם הערך של התכונה 'סגנון הבית' הוא משהו אחר (לדוגמה, ranch), התנאי הזה יחזיר את הערך 'לא'.

תנאים בתוך קבוצה בדרך כלל מובילים לעצי החלטה יעילים יותר מאשר תנאים שבודקים תכונות בקידוד one-hot.

מכונה

מילה נרדפת לדוגמה.

התאמת מודל להנחיות

#generativeAI

סוג של כוונון עדין שמשפר את היכולת של מודל AI גנרטיבי לפעול לפי הוראות. כוונון לפי הוראות כולל אימון של מודל על סדרה של הנחיות, שלרוב מכסות מגוון רחב של משימות. המודל שמתקבל אחרי כוונון לפי הוראות נוטה ליצור תשובות שימושיות להנחיות ללא דוגמאות במגוון משימות.

השוואה וניגוד עם:

כוונון יעיל בפרמטרים
שיפור הנחיות

יכולת פירוש

#fundamentals

היכולת להסביר או להציג את ה חשיבה רציונלית של מודל למידת מכונה במונחים מובנים לאדם.

לדוגמה, רוב המודלים של רגרסיה לינארית ניתנים לפירוש בקלות. (צריך רק לבדוק את המשקלים שאומנו לכל תכונה). בנוסף, קל מאוד לפרש את התוצאות של יערות החלטה. עם זאת, כדי להבין חלק מהמודלים צריך להשתמש בהדמיה מתוחכמת.

אפשר להשתמש ב Learning Interpretability Tool (LIT) כדי לפרש מודלים של ML.

הסכמה בין מעריכים

#Metric

מדד שמשקף את מידת ההסכמה בין בודקים אנושיים במהלך ביצוע משימה. אם יש חוסר הסכמה בין הבודקים, יכול להיות שצריך לשפר את ההוראות למשימה. נקרא גם הסכמה בין מבארים או מהימנות בין מעריכים. ראו גם את קאפה של כהן, שהוא אחד ממדדי ההסכמה הפופולריים ביותר בין מעריכים.

מידע נוסף זמין במאמר נתונים קטגוריים: בעיות נפוצות בסדנה ללימוד מכונת למידה.

חיתוך חלקי איחוד (IoU)

החיתוך של שתי קבוצות חלקי האיחוד שלהן. במשימות של זיהוי תמונות באמצעות למידת מכונה, משתמשים ב-IoU כדי למדוד את הדיוק של תיבת התוחמת החזויה של המודל ביחס לתיבת התוחמת של האמת הבסיסית. במקרה הזה, חיתוך על איחוד (IoU) של שתי התיבות הוא היחס בין האזור החופף לבין האזור הכולל, והערך שלו נע בין 0 (אין חפיפה בין תיבת התוחמת החזויה לבין תיבת התוחמת של נתוני האמת) לבין 1 (תיבת התוחמת החזויה ותיבת התוחמת של נתוני האמת הן בעלות אותן קואורדינטות בדיוק).

לדוגמה, בתמונה שלמטה:

תיבת התוחמת החזויה (הקואורדינטות שמגדירות את המיקום של שולחן הלילה בציור לפי התחזית של המודל) מודגשת בסגול.
תיבת התוחמת של האמת הבסיסית (הקואורדינטות שמגדירות את המיקום של שידת הלילה בציור) מודגשת בירוק.

המרת תמונה וקטורית למפת סיביות (painting) של ואן גוך 'חדר השינה של וינסנט בארל', עם שתי תיבות תוחמות שונות סביב שולחן הלילה שליד המיטה. תיבת התוחמת של האמת הבסיסית (בירוק) מקיפה בצורה מושלמת את שולחן הלילה. תיבת התוחמת החזויה (בסגול) מוסטת ב-50% למטה ולימין של תיבת התוחמת של האמת הבסיסית. היא כוללת את הרבע התחתון-ימני של שולחן הלילה, אבל לא את שאר השולחן.

כאן, החיתוך של התיבות התוחמות של החיזוי ושל אמת הקרקע (למטה משמאל) הוא 1, והאיחוד של התיבות התוחמות של החיזוי ושל אמת הקרקע (למטה מימין) הוא 7, ולכן IoU הוא $\frac{1}{7}$.

אותה תמונה כמו למעלה, אבל כל תיבת תוחמת מחולקת לארבעה רבעים. יש שבעה רבעים בסך הכול, כי הרבע השמאלי התחתון של תיבת התוחמת של נתוני האמת והרבע הימני העליון של תיבת התוחמת של התחזית חופפים זה לזה. החלק החופף הזה (מודגש בירוק) מייצג את החיתוך, והשטח שלו הוא 1.

IoU

קיצור של intersection over union (חיתוך חלקי איחוד).

מטריצת פריטים

במערכות המלצות, מטריצה של ווקטורים של הטמעה שנוצרו על ידי פירוק מטריצות שמכילה אותות סמויים לגבי כל פריט. כל שורה במטריצת הפריטים מכילה את הערך של תכונה סמויה אחת לכל הפריטים. לדוגמה, נניח שיש מערכת להמלצות על סרטים. כל עמודה במטריצת הפריטים מייצגת סרט אחד. האותות הסמויים יכולים לייצג ז'אנרים, או להיות אותות שקשה יותר לפרש אותם, שכוללים אינטראקציות מורכבות בין ז'אנר, כוכבים, גיל הסרט או גורמים אחרים.

למטריצת הפריטים יש אותו מספר עמודות כמו למטריצת היעד שעוברת פירוק לגורמים. לדוגמה, אם יש מערכת המלצות לסרטים שמעריכה 10,000 שמות של סרטים, למטריצת הפריטים יהיו 10,000 עמודות.

פריטים

במערכת המלצות, הישויות שהמערכת ממליצה עליהן. לדוגמה, סרטונים הם הפריטים שחנות להשכרת סרטונים ממליצה עליהם, וספרים הם הפריטים שחנות ספרים ממליצה עליהם.

איטרציה

#fundamentals

עדכון יחיד של הפרמטרים של מודל – המשקולות וההטיות של המודל – במהלך האימון. ההגדרה גודל אצווה קובעת כמה דוגמאות המודל מעבד באיטרציה אחת. לדוגמה, אם גודל האצווה הוא 20, המודל מעבד 20 דוגמאות לפני התאמת הפרמטרים.

כשמאמנים רשת נוירונים, איטרציה אחת כוללת את שני המעברים הבאים:

העברה קדימה להערכת ההפסד באצווה אחת.
מעבר אחורה (backpropagation) כדי לשנות את הפרמטרים של המודל על סמך הפסד וקצב הלמידה.

מידע נוסף זמין במאמר בנושא Gradient descent בקורס המקוצר בנושא למידת מכונה.

J

JAX

ספרייה של מחשוב מערכים, שמשלבת בין XLA (אלגברה לינארית מואצת) לבין דיפרנציאציה אוטומטית, למחשוב נומרי עתיר ביצועים. ‫JAX מספקת API פשוט ועוצמתי לכתיבת קוד נומרי מואץ עם טרנספורמציות שניתנות להרכבה. ‫JAX כולל תכונות כמו:

grad (הבחנה אוטומטית)
jit (קומפילציה בזמן אמת)
vmap (וקטוריזציה אוטומטית או עיבוד באצווה)
pmap (טעינה במקביל)

‫JAX היא שפה להבעה וליצירה של טרנספורמציות של קוד נומרי, בדומה לספריית NumPy של Python, אבל בהיקף גדול בהרבה. (למעשה, ספריית ‎ .numpy ב-JAX היא גרסה שוות ערך מבחינת פונקציונלית, אבל שנכתבה מחדש לחלוטין של ספריית Python NumPy).

‫JAX מתאים במיוחד להאצת משימות רבות של למידת מכונה, על ידי המרת המודלים והנתונים לצורה שמתאימה להרצה מקבילית ב-GPU וב-TPU accelerator chips.

‫Flax,‏ Optax,‏ Pax וספריות רבות אחרות מבוססות על תשתית JAX.

K

Keras

ממשק API פופולרי ללמידת מכונה ב-Python. ‫Keras פועל בכמה מסגרות של למידה עמוקה, כולל TensorFlow, שבו הוא זמין כ-tf.keras.

מכונות וקטוריות לתמיכה בגרעין (KSVM)

אלגוריתם סיווג שמנסה למקסם את המרווח בין סיווגים חיוביים לבין סיווגים שליליים על ידי מיפוי של וקטורים של נתוני קלט למרחב רב-ממדי. לדוגמה, נניח שיש בעיית סיווג שבה מערך הנתונים של הקלט כולל מאה מאפיינים. כדי למקסם את השוליים בין מחלקות חיוביות ושליליות, יכול להיות ש-KSVM ימפה את התכונות האלה באופן פנימי למרחב של מיליון ממדים. ב-KSVM נעשה שימוש בפונקציית הפסד שנקראת hinge loss.

נקודות מרכזיות

הקואורדינטות של תכונות מסוימות בתמונה. לדוגמה, במודל של זיהוי תמונות שמבחין בין מיני פרחים, נקודות מרכזיות יכולות להיות מרכז כל עלה כותרת, הגבעול, האבקן וכן הלאה.

אימות צולב k-fold

אלגוריתם לחיזוי היכולת של מודל להכליל לנתונים חדשים. האות k ב-k-fold מתייחסת למספר הקבוצות השוות שאליהן מחלקים את הדוגמאות בסט נתונים. כלומר, מאמנים את המודל ובודקים אותו k פעמים. בכל סבב של אימון ובדיקה, קבוצת נתונים לבדיקה אחרת משמשת כקבוצת נתונים לבדיקה, וכל הקבוצות הנותרות הופכות לקבוצת האימון. אחרי k סבבים של אימון ובדיקה, מחשבים את הממוצע ואת סטיית התקן של המדדים שנבחרו לבדיקה.

לדוגמה, נניח שקבוצת הנתונים שלכם כוללת 120 דוגמאות. נניח שאתם מחליטים להגדיר את k ל-4. לכן, אחרי ערבוב הדוגמאות, מחלקים את מערך הנתונים לארבע קבוצות שוות של 30 דוגמאות ומבצעים ארבעה סבבים של אימון ובדיקה:

מערך נתונים שמחולק לארבע קבוצות שוות של דוגמאות. בסיבוב הראשון,
שלוש הקבוצות הראשונות משמשות לאימון והקבוצה האחרונה משמשת לבדיקה. בסיבוב השני, שתי הקבוצות הראשונות והקבוצה האחרונה משמשות לאימון, והקבוצה השלישית משמשת לבדיקה. בסיבוב 3, הקבוצה הראשונה ושתי הקבוצות האחרונות משמשות לאימון, והקבוצה השנייה משמשת לבדיקה.
בסיבוב 4, הקבוצה הראשונה משמשת לבדיקה, ושלוש הקבוצות האחרונות משמשות לאימון.

לדוגמה, יכול להיות שהמדד הכי משמעותי למודל רגרסיה לינארית הוא Mean Squared Error (MSE). לכן, צריך לחשב את הממוצע ואת סטיית התקן של ה-MSE בכל ארבעת הסיבובים.

k-means

#clustering

אלגוריתם פופולרי של אשכולות שמקבץ דוגמאות בלמידה לא מפוקחת. האלגוריתם k-means מבצע את הפעולות הבאות:

האלגוריתם קובע באופן איטרטיבי את k הנקודות המרכזיות הטובות ביותר (שנקראות מרכזי מסה).
משייכת כל דוגמה למרכז המסה הקרוב ביותר. הדוגמאות הכי קרובות לאותו מרכז מסה שייכות לאותה קבוצה.

אלגוריתם k-means בוחר מיקומים של מרכזי מסה כדי למזער את הריבוע המצטבר של המרחקים מכל דוגמה למרכז המסה הקרוב ביותר שלה.

לדוגמה, נבחן את התרשים הבא של גובה הכלב ביחס לרוחב הכלב:

תרשים קרטזיאני עם כמה עשרות נקודות נתונים.

אם k=3, אלגוריתם k-means יקבע שלושה מרכזים. כל דוגמה מוקצית למרכז המסה הקרוב ביותר שלה, וכך נוצרות שלוש קבוצות:

אותו תרשים קרטזיאני כמו באיור הקודם, אבל עם שלושה צנטרואידים נוספים.
נקודות הנתונים הקודמות מקובצות לשלוש קבוצות נפרדות, כאשר כל קבוצה מייצגת את נקודות הנתונים הקרובות ביותר למרכז מסוים.

נניח שיצרן רוצה לקבוע את המידות האידיאליות לסוודרים לכלבים במידות Small,‏ Medium ו-Large. שלושת המרכזים מזהים את הגובה הממוצע והרוחב הממוצע של כל כלב באותו אשכול. לכן, כדאי ליצרן לבסס את מידות הסוודרים על שלושת המרכזים האלה. שימו לב: בדרך כלל, מרכז הכובד של אשכול לא מייצג דוגמה באשכול.

האיורים הקודמים מציגים את k-means לדוגמאות עם שני מאפיינים בלבד (גובה ורוחב). הערה: אלגוריתם k-means יכול לקבץ דוגמאות לפי הרבה תכונות.

מידע נוסף זמין במאמר מהו אשכול k-means? בקורס בנושא אשכולות.

k-median

#clustering

אלגוריתם אשכולות שקשור קשר הדוק ל-k-means. ההבדל המעשי בין שני סוגי ההמרות הוא:

בשיטת k-means, הצנטרואידים נקבעים על ידי מזעור סכום הריבועים של המרחק בין צנטרואיד פוטנציאלי לבין כל אחת מהדוגמאות שלו.
בשיטת k-median, מרכזי המסה נקבעים על ידי מזעור סכום המרחק בין מרכז מסה פוטנציאלי לבין כל אחת מהדוגמאות שלו.

שימו לב גם להבדלים בהגדרות של המרחק:

אלגוריתם k-means מסתמך על המרחק האוקלידי מהצנטרואיד לדוגמה. (בדו-ממד, המרחק האוקלידי הוא היתר במשולש ישר זווית, שמחושב באמצעות משפט פיתגורס). לדוגמה, המרחק בין (2,2) לבין (5,-2) בשיטת k-means יהיה:

$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$

אלגוריתם k-median מסתמך על מרחק מנהטן מהצנטרואיד לדוגמה. המרחק הזה הוא סכום הדלתאות המוחלטות בכל מאפיין. לדוגמה, המרחק בין (2,2) לבין (5,-2) בשיטת k-median יהיה:

$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

L

רגולריזציה של L₀

#fundamentals

סוג של רגולריזציה שמעניש את המספר הכולל של משקלים שאינם אפס במודל. לדוגמה, מודל עם 11 משקלים שונים מאפס ייענש יותר ממודל דומה עם 10 משקלים שונים מאפס.

רגולריזציה מסוג L₀ נקראת לפעמים רגולריזציה מסוג L0-norm.

כדי לראות טיפים ממשתמשים נוספים, לוחצים על הסמל.

_{בדרך כלל אי אפשר להשתמש ברגולריזציה מסוג L₀ במודלים גדולים, כי היא הופכת את האימון לבעיית אופטימיזציה קמורה.}

הפסד של ₁

#fundamentals

#Metric

פונקציית הפסד שמחשבת את הערך המוחלט של ההפרש בין ערכי התוויות בפועל לבין הערכים שהמודל חוזה. לדוגמה, הנה החישוב של הפסד L₁ עבור batch של חמש דוגמאות:

ערך בפועל של הדוגמה	הערך שהמודל חזה	הערך המוחלט של הדלתא
7	6	1
5	4	1
8	11	3
4	6	2
9	8	1
		‫8 = הפסד L₁

הפונקציה L₁ loss פחות רגישה לערכים חריגים מאשר הפונקציה L₂ loss.

השגיאה הממוצעת המוחלטת היא הפסד _L1 הממוצע לכל דוגמה.

לוחצים על הסמל כדי לראות את המתמטיקה הפורמלית.

$$ L_1 loss = \sum_{i=0}^n | y_i - \hat{y}_i |$$

כאשר:

‫$n$ הוא מספר הדוגמאות.
‫$y$ הוא הערך בפועל של התווית.
‫$\hat{y}$ הוא הערך שהמודל חוזה עבור $y$.

מידע נוסף זמין במאמר Linear regression: Loss (רגרסיה לינארית: הפסד) בסדרת המאמרים Machine Learning Crash Course (מבוא ללמידת מכונה).

רגולריזציה של L₁

#fundamentals

סוג של רגולריזציה שמענישה משקלים באופן יחסי לסכום הערך המוחלט של המשקלים. רגולריזציה מסוג L₁ עוזרת להקטין את המשקלים של תכונות לא רלוונטיות או רלוונטיות במידה מועטה ל-0 בדיוק. תכונה עם משקל 0 למעשה מוסרת מהמודל.

השוואה לרגולריזציה מסוג L₂.

הפסד L₂

#fundamentals

#Metric

פונקציית הפסד שמחשבת את ריבוע ההפרש בין ערכי התוויות בפועל לבין הערכים שהמודל חוזה. לדוגמה, הנה חישוב של הפסד L₂ עבור batch של חמש דוגמאות:

ערך בפועל של הדוגמה	הערך שהמודל חזה	ריבוע של דלתא
7	6	1
5	4	1
8	11	9
4	6	4
9	8	1
		‫16 = L₂ loss

בגלל ההעלאה בריבוע, פונקציית ההפסד L₂ מגדילה את ההשפעה של ערכים חריגים. כלומר, הפסד L₂ מגיב בעוצמה רבה יותר לחיזויים לא טובים מאשר הפסד L₁. לדוגמה, ערך ההפסד L₁ עבור אצווה קודמת יהיה 8 ולא 16. שימו לב שחריג חשוד טעות יחיד מסביר 9 מתוך 16.

מודלים של רגרסיה משתמשים בדרך כלל בהפסד L₂ כפונקציית ההפסד.

השגיאה הריבועית הממוצעת היא הפסד _L2 הממוצע לכל דוגמה. שגיאה ריבועית היא שם נוסף לשגיאת L₂.

לוחצים על הסמל כדי לראות את המתמטיקה הפורמלית.

$$ L_2 loss = \sum_{i=0}^n {(y_i - \hat{y}_i)}^2$$

כאשר:

‫$n$ הוא מספר הדוגמאות.
‫$y$ הוא הערך בפועל של התווית.
‫$\hat{y}$ הוא הערך שהמודל חוזה עבור $y$.

מידע נוסף זמין במאמר Logistic regression: Loss and regularization (רגרסיה לוגיסטית: הפסד ורגולריזציה) בסדנה בנושא למידת מכונה.

רגולריזציה של L₂

#fundamentals

סוג של רגולריזציה שמעניש משקלים באופן יחסי לסכום הריבועים של המשקלים. רגולריזציה מסוג L₂ עוזרת להסיט משקלים של חריג חשוד טעות (ערכים חיוביים גבוהים או ערכים שליליים נמוכים) קרוב יותר ל-0, אבל לא בדיוק ל-0. תכונות עם ערכים שקרובים מאוד ל-0 נשארות במודל, אבל לא משפיעות על התחזית של המודל.

רגולריזציה מסוג L₂ תמיד משפרת את ההכללה במודלים לינאריים.

השוואה לרגולריזציה של L₁.

מידע נוסף זמין במאמר התאמת יתר: רגולריזציה מסוג L2 בקורס המקוצר על למידת מכונה.

תווית

#fundamentals

בלמידת מכונה מפוקחת, החלק של ה"תשובה" או ה "תוצאה" בדוגמה.

כל דוגמה מתויגת מורכבת ממאפיין אחד או יותר ומתווית. לדוגמה, במערך נתונים לזיהוי ספאם, התווית תהיה כנראה 'ספאם' או 'לא ספאם'. במערך נתונים של גשמים, התווית יכולה להיות כמות הגשם שירדה במהלך תקופה מסוימת.

מידע נוסף זמין במאמר Supervised Learning (למידה מפוקחת) בסדרה Introduction to Machine Learning (מבוא ללמידת מכונה).

דוגמה מסומנת בתווית

#fundamentals

דוגמה שמכילה תכונה אחת או יותר ותווית. לדוגמה, בטבלה הבאה מוצגות שלוש דוגמאות מתויגות ממודל להערכת שווי של בית, שלכל אחת מהן יש שלוש תכונות ותווית אחת:

מספר חדרי שינה	מספר חדרי אמבטיה	גיל הבית	מחיר הבית (תווית)
3	2	15	$345,000
2	1	72	$179,000
4	2	34	$392,000

בלמידת מכונה מבוקרת, מודלים מתאמנים על דוגמאות מתויגות ומבצעים חיזויים על דוגמאות לא מתויגות.

השוואה בין דוגמה עם תוויות לבין דוגמאות ללא תוויות.

מידע נוסף זמין במאמר Supervised Learning (למידה מפוקחת) בסדרה Introduction to Machine Learning (מבוא ללמידת מכונה).

דליפת תוויות

פגם בתכנון המודל שבו תכונה משמשת כשרת proxy לתווית. לדוגמה, נניח שיש לכם מודל של סיווג בינארי שמנבא אם לקוח פוטנציאלי ירכוש מוצר מסוים. נניח שאחת מהתכונות של המודל היא בוליאנית בשם SpokeToCustomerAgent. נניח גם שסוכן שירות לקוחות מוקצה אחרי שהלקוח הפוטנציאלי רכש את המוצר בפועל. במהלך האימון, המודל ילמד במהירות את הקשר בין SpokeToCustomerAgent לתווית.

מידע נוסף מופיע במאמר בנושא מעקב אחרי צינורות נתונים בקורס המקוצר על למידת מכונה.

lambda

#fundamentals

מילה נרדפת ל-regularization rate.

המונח Lambda הוא מונח עמוס. במאמר הזה אנחנו מתמקדים בהגדרה של המונח רגולריזציה.

‫LaMDA (מודל שפה ליישומי דיאלוג)

מודל שפה גדול מבוסס Transformer שפותח על ידי Google ואומן על מערך נתונים גדול של דיאלוגים. המודל יכול ליצור תשובות ריאליסטיות לשיחות.

LaMDA: our breakthrough conversation technology (LaMDA: הטכנולוגיה פורצת הדרך שלנו לשיחות) מספק סקירה כללית.

ציוני דרך

מילה נרדפת ל-keypoints.

מודל שפה

מודל שמעריך את ההסתברות שטוקן או רצף של טוקנים יופיעו ברצף ארוך יותר של טוקנים.

כדי לראות טיפים ממשתמשים נוספים, לוחצים על הסמל.

למרות שזה נשמע לא הגיוני, הרבה מודלים שמבצעים הערכה של טקסט הם לא מודלים של שפה. לדוגמה, מודלים לסיווג טקסט ומודלים לניתוח סנטימנטים הם לא מודלים של שפה.

מידע נוסף זמין במאמר מהו מודל שפה? בקורס המקוצר על למידת מכונה.

מודל שפה גדול

#generativeAI

לפחות, מודל שפה עם מספר גבוה מאוד של פרמטרים. באופן לא רשמי, כל מודל שפה שמבוסס על Transformer, כמו Gemini או GPT.

מידע נוסף זמין במאמר מודלים גדולים של שפה (LLM) בקורס המקוצר על למידת מכונה.

זמן אחזור

#generativeAI

הזמן שלוקח למודל לעבד קלט וליצור תשובה. תשובה עם זמן אחזור גבוה לוקחת יותר זמן ליצירה מאשר תשובה עם זמן אחזור נמוך.

בין הגורמים שמשפיעים על זמן האחזור של מודלים גדולים של שפה:

אורכי הטוקנים של הקלט והפלט
מורכבות המודל
התשתית שבה המודל פועל

אופטימיזציה של זמן האחזור היא חיונית ליצירת אפליקציות רספונסיביות וידידותיות למשתמש.

מרחב לטנטי

מילה נרדפת למרחב הטמעה.

שכבה

#fundamentals

קבוצה של נוירונים ברשת נוירונים. שלושה סוגים נפוצים של שכבות:

שכבת הקלט, שמספקת ערכים לכל התכונות.
שכבות מוסתרות אחת או יותר, שמזהות קשרים לא לינאריים בין התכונות לבין התווית.
שכבת הפלט, שמספקת את החיזוי.

לדוגמה, באיור הבא מוצגת רשת נוירונים עם שכבת קלט אחת, שתי שכבות נסתרות ושכבת פלט אחת:

רשת נוירונים עם שכבת קלט אחת, שתי שכבות נסתרות ושכבת פלט אחת. שכבת הקלט מורכבת משני מאפיינים. השכבה הנסתרת הראשונה מורכבת משלושה נוירונים והשכבה הנסתרת השנייה מורכבת משני נוירונים. שכבת הפלט מורכבת מצומת יחיד.

ב-TensorFlow, שכבות הן גם פונקציות Python שמקבלות טנסורים ואפשרויות הגדרה כקלט, ומפיקות טנסורים אחרים כפלט.

‫Layers API ‏ (tf.layers)

#TensorFlow

ממשק API של TensorFlow ליצירת רשת עצבית עמוקה כהרכב של שכבות. ‫Layers API מאפשר לכם ליצור סוגים שונים של שכבות, למשל:

‫tf.layers.Dense עבור שכבה שמקושרת באופן מלא.
‫tf.layers.Conv2D לשכבת קונבולוציה.

ממשק ה-API של Layers פועל לפי מוסכמות ממשק ה-API של שכבות Keras. כלומר, מלבד קידומת שונה, לכל הפונקציות ב-Layers API יש את אותם שמות וחתימות כמו הפונקציות המקבילות ב-Keras layers API.

עלה

#df

כל נקודת סיום בעץ החלטות. בניגוד לתנאי, צומת עלה לא מבצע בדיקה. במקום זאת, עלה הוא תחזית אפשרית. עלה הוא גם צומת סופית של נתיב הסקה.

לדוגמה, עץ ההחלטה הבא מכיל שלושה עלים:

עץ החלטות עם שני תנאים שמובילים לשלושה עלים.

מידע נוסף זמין במאמר עצי החלטה בקורס בנושא יערות החלטה.

Learning Interpretability Tool (LIT)‎

כלי ויזואלי ואינטראקטיבי להבנת מודלים ולהצגת נתונים בצורה ויזואלית.

אתם יכולים להשתמש ב-LIT בקוד פתוח כדי לפרש מודלים או כדי להציג נתונים טקסטואליים, נתונים של תמונות ונתונים טבלאיים.

קצב למידה

#fundamentals

מספר נקודה צפה שמציין לאלגוריתם gradient descent עד כמה לשנות את המשקלים וההטיות בכל iteration. לדוגמה, קצב למידה של 0.3 יתאים את המשקלים וההטיות בעוצמה גדולה פי 3 בהשוואה לקצב למידה של 0.1.

קצב הלמידה הוא היפר-פרמטר מרכזי. אם מגדירים את קצב הלמידה נמוך מדי, האימון יימשך זמן רב מדי. אם קצב הלמידה מוגדר גבוה מדי, לרוב קשה להגיע להתכנסות בשיטת הגרדיאנט.

כדי לקבל הסבר מתמטי יותר, לוחצים על הסמל.

במהלך כל איטרציה, האלגוריתם gradient descent מכפיל את קצב הלמידה בשיפוע. המוצר שמתקבל נקרא שלב הגרדיאנט.

מידע נוסף זמין במאמר רגרסיה ליניארית: היפר-פרמטרים בקורס המקוצר על למידת מכונה.

רגרסיה של הריבועים הפחותים

מודל רגרסיה ליניארית שאומן על ידי מזעור הפסד L₂.

מרחק לבנשטיין

#metric

מדד מרחק העריכה שמחשב את מספר הפעולות המינימלי של מחיקה, הוספה והחלפה שנדרשות כדי לשנות מילה אחת למילה אחרת. לדוגמה, מרחק לוינשטיין בין המילים "heart" ו-"darts" הוא שלוש, כי אלה שלושת השינויים המינימליים שצריך לבצע כדי להפוך מילה אחת לשנייה:

לב ← דלב (החלפת האות 'ל' באות 'ד')
deart → dart (מחיקת האות e)
dart → darts (insert "s")

חשוב לזכור שהרצף הקודם הוא לא הדרך היחידה לבצע שלושה שינויים.

ליניארי

#fundamentals

קשר בין שני משתנים או יותר שאפשר לייצג רק באמצעות חיבור וכפל.

הגרף של קשר לינארי הוא קו.

השוואה ללא לינארי.

מודל לינארי

#fundamentals

מודל שמקצה משקל אחד לכל מאפיין כדי ליצור תחזיות. (מודלים לינאריים כוללים גם הטיה). לעומת זאת, הקשר בין התכונות לבין התחזיות במודלים עמוקים הוא בדרך כלל לא לינארי.

בדרך כלל קל יותר לאמן מודלים לינאריים והם ניתנים יותר לפירוש ממודלים עמוקים. עם זאת, מודלים עמוקים יכולים ללמוד קשרים מורכבים בין תכונות.

רגרסיה לינארית ורגרסיה לוגיסטית הם שני סוגים של מודלים לינאריים.

כדי לראות את החישוב, לוחצים על הסמל.

מודל לינארי פועל לפי הנוסחה הבאה:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

כאשר:

‫y' הוא החיזוי הגולמי. (בסוגים מסוימים של מודלים לינאריים, התחזית הגולמית הזו תעבור שינוי נוסף. לדוגמה, ראו רגרסיה לוגיסטית.)
‫b הוא ההטיה.
‫w הוא משקל, לכן w₁ הוא המשקל של התכונה הראשונה, w₂ הוא המשקל של התכונה השנייה וכן הלאה.
‫x הוא מאפיין, לכן x₁ הוא הערך של המאפיין הראשון, x₂ הוא הערך של המאפיין השני וכן הלאה.

לדוגמה, נניח שמודל לינארי עם שלוש תכונות לומד את ההטיה והמשקלים הבאים:

b = 7
‫w₁ = -2.5
w₂ = -1.2
‫w₃ = 1.4

לכן, בהינתן שלוש תכונות (x₁,‏ x₂ ו-x₃), המודל הליניארי משתמש במשוואה הבאה כדי ליצור כל תחזית:

y' = 7 + (-2.5)(x₁) + (-1.2)(x₂) + (1.4)(x₃)

נניח שדוגמה מסוימת מכילה את הערכים הבאים:

x₁ = 4
x₂ = -10
x₃ = 5

אם מציבים את הערכים האלה בנוסחה, מקבלים את התחזית הבאה לדוגמה הזו:

y' = 7 + (-2.5)(4) + (-1.2)(-10) + (1.4)(5)
y' = 16

מודלים ליניאריים כוללים לא רק מודלים שמשתמשים רק במשוואה ליניארית כדי ליצור תחזיות, אלא גם קבוצה רחבה יותר של מודלים שמשתמשים במשוואה ליניארית כרכיב אחד בלבד בנוסחה שיוצרת תחזיות. לדוגמה, רגרסיה לוגיסטית מעבדת את התחזית הגולמית (y') כדי ליצור ערך תחזית סופי בין 0 ל-1, לא כולל.

רגרסיה לינארית

#fundamentals

סוג של מודל למידת מכונה שבו מתקיימים שני התנאים הבאים:

המודל הוא מודל לינארי.
החיזוי הוא ערך נקודה צפה (floating-point). (זהו החלק של הרגרסיה ברגרסיה לינארית).

השוואה בין רגרסיה לינארית לבין רגרסיה לוגיסטית. כדאי גם להשוות בין רגרסיה לבין סיווג.

מידע נוסף זמין במאמר בנושא רגרסיה לינארית בקורס המקוצר על למידת מכונה.

LIT

קיצור של Learning Interpretability Tool (LIT), שנקרא בעבר Language Interpretability Tool (כלי להסבר שפה).

LLM

#generativeAI

קיצור של מודל שפה גדול.

הערכות של מודלים גדולים של שפה (LLM)

#generativeAI

#Metric

קבוצה של מדדים ונקודות השוואה להערכת הביצועים של מודלים גדולים של שפה (LLM). ברמת העל, הערכות של מודלים גדולים של שפה (LLM):

לעזור לחוקרים לזהות תחומים שבהם צריך לשפר את מודלי ה-LLM.
הם שימושיים להשוואה בין מודלי שפה גדולים שונים ולזיהוי מודל השפה הגדול הטוב ביותר למשימה מסוימת.
עוזרים להבטיח שהשימוש במודלים גדולים של שפה (LLM) יהיה בטוח ואתי.

מידע נוסף זמין במאמר מודלים גדולים של שפה (LLM) בקורס המקוצר על למידת מכונה.

רגרסיה לוגיסטית

#fundamentals

סוג של מודל רגרסיה שמנבא הסתברות. למודלים של רגרסיה לוגיסטית יש את המאפיינים הבאים:

התווית היא קטגורית. המונח רגרסיה לוגיסטית מתייחס בדרך כלל לרגרסיה לוגיסטית בינארית, כלומר למודל שמחשב הסתברויות לתוויות עם שני ערכים אפשריים. וריאנט פחות נפוץ, רגרסיה לוגיסטית מולטינומיאלית, מחשב הסתברויות לתוויות עם יותר משני ערכים אפשריים.
פונקציית ההפסד במהלך האימון היא Log Loss. (אפשר להציב כמה יחידות של Log Loss במקביל לתוויות עם יותר משני ערכים אפשריים).
למודל יש ארכיטקטורה לינארית, ולא רשת עצבית עמוקה. עם זאת, שאר ההגדרה הזו חלה גם על מודלים עמוקים שמנבאים הסתברויות של תוויות קטגוריות.

לדוגמה, נניח שיש מודל רגרסיה לוגיסטית שמחשב את ההסתברות לכך שאימייל קלט הוא ספאם או לא ספאם. במהלך ההסקה, נניח שהמודל חוזה 0.72. לכן, המודל מעריך:

סיכוי של 72% שהאימייל הוא ספאם.
יש סיכוי של 28% שהאימייל לא ספאם.

מודל רגרסיה לוגיסטית משתמש בארכיטקטורה הבאה בת שני השלבים:

המודל יוצר תחזית גולמית (y') על ידי החלת פונקציה ליניארית של תכונות קלט.
המודל משתמש בתחזית הגולמית הזו כקלט לפונקציית סיגמואיד, שממירה את התחזית הגולמית לערך בין 0 ל-1, לא כולל.

בדומה לכל מודל רגרסיה, מודל רגרסיה לוגיסטית חוזה מספר. עם זאת, המספר הזה בדרך כלל הופך לחלק ממודל סיווג בינארי באופן הבא:

אם המספר החזוי גדול מסף הסיווג, מודל הסיווג הבינארי חוזה את המחלקה החיובית.
אם המספר החזוי נמוך מסף הסיווג, מודל הסיווג הבינארי חוזה את המחלקה השלילית.

מידע נוסף זמין במאמר רגרסיה לוגיסטית בקורס המקוצר על למידת מכונה.

ערכי לוגיט

הווקטור של התחזיות הגולמיות (לא מנורמלות) שנוצרות על ידי מודל סיווג, שמועבר בדרך כלל לפונקציית נרמול. אם המודל פותר בעיה של סיווג רב-מחלקתי, בדרך כלל הלוגיטים הופכים לקלט של פונקציית softmax. לאחר מכן, פונקציית softmax יוצרת וקטור של הסתברויות (מנורמלות) עם ערך אחד לכל מחלקה אפשרית.

אובדן לוגריתמי

#fundamentals

פונקציית ההפסד שמשמשת ברגרסיה לוגיסטית בינארית.

כדי לראות את החישוב, לוחצים על הסמל.

הנוסחה הבאה משמשת לחישוב של Log Loss:

$$\text{Log Loss} = \sum_{(x,y)\in D} -y\log(y') - (1 - y)\log(1 - y')$$

כאשר:

‫ $(x,y)\in D$ הוא מערך הנתונים שמכיל הרבה דוגמאות מתויגות, שהן $(x,y)$ זוגות.
‫ $y$ היא התווית בדוגמה המתויגת. מכיוון שמדובר ברגרסיה לוגיסטית, כל ערך של $y$ חייב להיות 0 או 1.
‫ $y'$ הוא הערך החזוי (בין 0 ל-1, לא כולל), בהינתן קבוצת התכונות ב- $x$.

מידע נוסף מופיע במאמר Logistic regression: Loss and regularization (רגרסיה לוגיסטית: אובדן ורגולריזציה) בסדרת המאמרים Machine Learning Crash Course (מבוא ללמידת מכונה).

יחס הלוגים

#fundamentals

הלוגריתם של הסיכויים לאירוע מסוים.

כדי לראות את החישוב, לוחצים על הסמל.

אם האירוע הוא הסתברות בינארית, אז odds מתייחס ליחס בין ההסתברות להצלחה (p) לבין ההסתברות לכישלון (1-p). לדוגמה, נניח שלאירוע מסוים יש הסתברות של 90% להצלחה והסתברות של 10% לכישלון. במקרה הזה, הסיכויים מחושבים כך:

$$ {\text{odds}} = \frac{\text{p}} {\text{(1-p)}} = \frac{.9} {.1} = {\text{9}} $$

הלוגריתם של הסיכויים הוא פשוט הלוגריתם של היחס בין הסיכויים. לפי המוסכמה, המונח 'לוגריתם' מתייחס ללוגריתם טבעי, אבל למעשה לוגריתם יכול להיות כל בסיס שגדול מ-1. לכן, בהתאם למוסכמות, הלוג-אודס של הדוגמה שלנו הוא:

$$ {\text{log-odds}} = ln(9) ~= 2.2 $$

פונקציית הלוג-אודס היא ההופכי של פונקציית הסיגמואיד.

זיכרון ארוך לטווח קצר (LSTM)

סוג של תא ברשת נוירונים חוזרת שמשמש לעיבוד רצפים של נתונים באפליקציות כמו זיהוי כתב יד, תרגום אוטומטי וכתיבת כתוביות לתמונות. מודלי LSTM פותרים את בעיית הגרדיאנט הנעלם שמתרחשת כשמאמנים רשתות RNN בגלל רצפים ארוכים של נתונים. הם עושים זאת על ידי שמירת היסטוריה במצב זיכרון פנימי שמבוסס על קלט חדש והקשר מתאים קודמים ברשת ה-RNN.

LoRA

#generativeAI

קיצור של Low-Rank Adaptability (התאמה לדירוג נמוך).

הפסד

#fundamentals

#Metric

במהלך האימון של מודל בפיקוח, נמדד המרחק בין התחזית של המודל לבין התווית שלו.

פונקציית הפסד מחשבת את ההפסד.

מידע נוסף זמין במאמר רגרסיה ליניארית: הפסד בסדנה בנושא למידת מכונה.

אתר אגרגטור של הפסדים

סוג של אלגוריתם למידת מכונה שמשפר את הביצועים של מודל על ידי שילוב התחזיות של כמה מודלים ושימוש בתחזיות האלה כדי ליצור תחזית אחת. כתוצאה מכך, מצטבר הפסדים יכול להפחית את השונות של התחזיות ולשפר את הדיוק שלהן.

עקומת הפסד

#fundamentals

תרשים של הפסד כפונקציה של מספר האיטרציות של האימון. התרשים הבא מציג עקומת הפסד אופיינית:

גרף קרטזיאני של הפסד לעומת איטרציות של אימון, שבו רואים ירידה מהירה בהפסד באיטרציות הראשוניות, ואחריה ירידה הדרגתית, ואז שיפוע שטוח במהלך האיטרציות הסופיות.

עקומות הפסד יכולות לעזור לכם לקבוע מתי המודל מתכנס או מתאים יתר על המידה.

עקומות הפסד יכולות להציג את כל סוגי ההפסד הבאים:

הפסד האימון
הפסד האימות
test loss

אפשר לעיין גם בעקומת הכללה.

מידע נוסף מופיע במאמר התאמת יתר: פירוש עקומות הפסד בסדנה ללימוד מכונת למידה.

פונקציית אובדן

#fundamentals

#Metric

במהלך האימון או הבדיקה, פונקציה מתמטית שמחשבת את ההפסד באצווה של דוגמאות. פונקציית הפסד מחזירה ערך הפסד נמוך יותר למודלים שמבצעים חיזויים טובים, מאשר למודלים שמבצעים חיזויים לא טובים.

המטרה של האימון היא בדרך כלל למזער את ההפסד שמוחזר על ידי פונקציית הפסד.

קיימים סוגים רבים ושונים של פונקציות אובדן. בוחרים את פונקציית ההפסד המתאימה לסוג המודל שאתם בונים. לדוגמה:

הפונקציה אובדן _L2 (או השגיאה הריבועית הממוצעת) היא פונקציית האובדן של רגרסיה ליניארית.
Log Loss היא פונקציית האובדן של רגרסיה לוגיסטית.

משטח הפסד

תרשים של משקל לעומת ירידה במשקל. Gradient descent aims to find the weight(s) for which the loss surface is at a local minimum.

אפקט האמצע

הנטייה של מודל שפה גדול היא להשתמש במידע מתחילת חלון ההקשר ארוך ובסופו בצורה יעילה יותר מאשר במידע מהאמצע. כלומר, בהינתן הקשר ארוך, אפקט האובדן באמצע גורם לדיוק להיות:

גבוה יחסית כשהמידע הרלוונטי ליצירת תשובה נמצא בתחילת או בסוף ההקשר.
נמוכה יחסית כשהמידע הרלוונטי ליצירת תשובה נמצא באמצע ההקשר.

המונח מגיע מהמאמר Lost in the Middle: How Language Models Use Long Contexts.

Low-Rank Adaptability (LoRA)

#generativeAI

טכניקה יעילה מבחינת פרמטרים לכוונון עדין שבה המערכת 'מקפיאה' את המשקולות של המודל שעבר אימון מראש (כך שאי אפשר לשנות אותן יותר), ואז מוסיפה למודל קבוצה קטנה של משקולות שאפשר לאמן. קבוצת המשקלים שאפשר לאמן (שנקראת גם 'מטריצות עדכון') קטנה משמעותית ממודל הבסיס, ולכן האימון שלה מהיר הרבה יותר.

היתרונות של LoRA:

משפר את איכות התחזיות של מודל עבור הדומיין שבו מוחל הכוונון העדין.
השיטה הזו מאפשרת לבצע התאמה עדינה מהר יותר מאשר שיטות שדורשות התאמה עדינה של כל הפרמטרים של המודל.
האפשרות הזו מפחיתה את עלות החישוב של הסקת מסקנות על ידי הפעלה של הצגה בו-זמנית של כמה מודלים מיוחדים שמשתפים את אותו מודל בסיסי.

כדי לקבל מידע נוסף על מטריצות עדכון ב-LoRA, לוחצים על הסמל.

מטריצות העדכון שמשמשות ב-LoRA מורכבות ממטריצות פירוק דרגה, שנגזרות ממודל הבסיס כדי לעזור לסנן רעשי רקע ולהתמקד באימון על התכונות הכי חשובות של המודל.

LSTM

קיצור של Long Short-Term Memory (זיכרון לטווח קצר וארוך).

M

למידה חישובית

#fundamentals

תוכנה או מערכת שמאמנת מודל מנתוני קלט. המודל שעבר אימון יכול לבצע חיזויים שימושיים מנתונים חדשים (שלא נראו בעבר) שנלקחו מאותו פיזור ששימש לאימון המודל.

למידת מכונה היא גם תחום המחקר שעוסק בתוכנות או במערכות האלה.

מידע נוסף זמין בקורס מבוא ללמידת מכונה.

תרגום אוטומטי

#generativeAI

שימוש בתוכנה (בדרך כלל, מודל למידת מכונה) כדי להמיר טקסט משפה אנושית אחת לשפה אנושית אחרת, למשל מאנגלית ליפנית.

מחלקה עם רוב

#fundamentals

התווית הנפוצה יותר במערך נתונים עם חוסר איזון בין מחלקות. לדוגמה, אם קבוצת נתונים מכילה 99% תוויות שליליות ו-1% תוויות חיוביות, התוויות השליליות הן מחלקת הרוב.

ההפך ממעמד המיעוט.

מידע נוסף זמין במאמר קבוצות נתונים: קבוצות נתונים לא מאוזנות בסדנה ללימוד מכונת למידה.

תהליך קבלת החלטות של מרקוב (MDP)

תרשים שמייצג את מודל קבלת ההחלטות שבו מתקבלות החלטות (או פעולות) כדי לנווט ברצף של מצבים, בהנחה שמאפיין מרקוב מתקיים. בלמידת חיזוק, המעברים האלה בין מצבים מחזירים תגמול מספרי.

מאפיין מרקוב

מאפיין של סביבות מסוימות, שבהן מעברי המצב נקבעים באופן מלא על ידי מידע שמשתמע מהמצב הנוכחי והפעולה של הסוכן.

מודל שפה מוסווה

מודל שפה שחוזה את ההסתברות של טוקנים מועמדים למילוי מקומות ריקים ברצף. לדוגמה, מודל שפה עם מיסוך יכול לחשב את ההסתברויות של מילים מועמדות להחלפת הקו התחתון במשפט הבא:

ה____ בכובע חזר.

בספרות המקצועית, בדרך כלל משתמשים במחרוזת MASK במקום בקו תחתון. לדוגמה:

המסכה בכובע חזרה.

רוב המודלים המודרניים של התממת שפה (MLM) הם דו-כיווניים.

math-pass@k

מדד לקביעת רמת הדיוק של מודל שפה גדול בפתרון בעיה מתמטית בתוך K ניסיונות. לדוגמה, math-pass@2 בודק את היכולת של מודל שפה גדול לפתור בעיות מתמטיות בשני ניסיונות. דיוק של 0.85 ב-math-pass@2 מציין שמודל LLM הצליח לפתור בעיות מתמטיות ב-85% מהמקרים, תוך שני ניסיונות.

המדד math-pass@k זהה למדד pass@k, אלא שהמונח math-pass@k משמש באופן ספציפי להערכה של מתמטיקה.

matplotlib

ספריית Python דו-ממדית לשרטוט גרפים בקוד פתוח. matplotlib עוזרת לכם להמחיש היבטים שונים של למידת מכונה.

פירוק מטריצות

במתמטיקה, מנגנון למציאת המטריצות שמכפלתן הנקודתית קרובה למטריצת יעד.

במערכות המלצה, מטריצת היעד מכילה בדרך כלל את דירוגי המשתמשים של פריטים. לדוגמה, מטריצת היעד של מערכת להמלצות על סרטים יכולה להיראות כך, כאשר המספרים השלמים החיוביים הם דירוגי משתמשים ו-0 מציין שהמשתמש לא דירג את הסרט:

	קזבלנקה	סיפור פילדלפיה	הפנתר השחור	וונדר וומן	ספרות זולה
משתמש 1	5.0	3.0	0.0	2.0	0.0
משתמש 2	4.0	0.0	0.0	1.0	5.0
משתמש 3	3.0	1.0	4.0	5.0	0.0

מערכת ההמלצות לסרטים מנסה לחזות את דירוגי המשתמשים לסרטים שלא סווגו. לדוגמה, האם משתמש 1 יאהב את הסרט הפנתר השחור?

אחת הגישות למערכות המלצות היא שימוש בפירוק מטריצות כדי ליצור את שתי המטריצות הבאות:

מטריצת משתמשים, בצורה של מספר המשתמשים כפול מספר המאפיינים של ההטמעה.
מטריצת פריטים, בצורה של מספר הממדים של ההטמעה כפול מספר הפריטים.

לדוגמה, שימוש בפירוק מטריצה בשלושת המשתמשים ובחמישה הפריטים שלנו יכול להניב את מטריצת המשתמשים ומטריצת הפריטים הבאות:

User Matrix                 Item Matrix

1.1   2.3           0.9   0.2   1.4    2.0   1.2
0.6   2.0           1.7   1.2   1.2   -0.1   2.1
2.5   0.5

מכפלת מטריצת המשתמשים ומטריצת הפריטים היא מטריצת המלצות שמכילה לא רק את דירוגי המשתמשים המקוריים, אלא גם תחזיות לגבי הסרטים שכל משתמש לא צפה בהם. לדוגמה, נניח שהדירוג של משתמש 1 לסרט קזבלנקה הוא 5.0. הנקודה שמתאימה לתא הזה במטריצת ההמלצות צריכה להיות בסביבות 5.0, ואכן:

(1.1 * 0.9) + (2.3 * 1.7) = 4.9

והכי חשוב, האם משתמש 1 יאהב את הסרט Black Panther? מכפלה סקלרית של השורה הראשונה והעמודה השלישית תניב דירוג צפוי של 4.3:

(1.1 * 1.4) + (2.3 * 1.2) = 4.3

בדרך כלל, פירוק מטריצה יוצר מטריצת משתמשים ומטריצת פריטים, שביחד הן קומפקטיות משמעותית ממטריצת היעד.

MBPP

#Metric

קיצור של בעיות בסיסיות בעיקר ב-Python.

שגיאה ממוצעת מוחלטת (MAE)

#Metric

ההפסד הממוצע לכל דוגמה כשמשתמשים ב-L₁ loss. כדי לחשב את שגיאת הממוצע המוחלט, פועלים לפי השלבים הבאים:

חישוב הפסד L₁ עבור אצווה.
מחלקים את הפסד L₁ במספר הדוגמאות באצווה.

לוחצים על הסמל כדי לראות את המתמטיקה הפורמלית.

$$\text{Mean Absolute Error} = \frac{1}{n}\sum_{i=0}^n | y_i - \hat{y}_i |$$

where:‎

‫$n$ הוא מספר הדוגמאות.
‫$y$ הוא הערך בפועל של התווית.
‫$\hat{y}$ הוא הערך שהמודל חוזה עבור $y$.

לדוגמה, נניח שרוצים לחשב את הפסד L₁ בקבוצה הבאה של חמש דוגמאות:

ערך בפועל של הדוגמה	הערך שהמודל חזה	הפסד (ההפרש בין הערך בפועל לבין הערך החזוי)
7	6	1
5	4	1
8	11	3
4	6	2
9	8	1
		‫8 = הפסד L₁

לכן, ערך הפסד L₁ הוא 8 ומספר הדוגמאות הוא 5. לכן, השגיאה הממוצעת המוחלטת היא:

Mean Absolute Error = L₁ loss / Number of Examples
Mean Absolute Error = 8/5 = 1.6

השוואה בין שגיאה מוחלטת ממוצעת של ניגודיות לבין שגיאה ריבועית ממוצעת ושורש טעות ריבועית ממוצעת.

דיוק ממוצע ב-k (mAP@k)

#generativeAI

#Metric

הממוצע הסטטיסטי של כל הציונים של דיוק ממוצע ב-k במערך נתוני אימות. אחד השימושים בערך הממוצע של דיוק ממוצע ב-k הוא להעריך את איכות ההמלצות שנוצרות על ידי מערכת המלצות.

למרות שהביטוי 'ממוצע ממוצע' נשמע מיותר, השם של המדד מתאים. בסופו של דבר, המדד הזה מחשב את הממוצע של כמה ערכים של דיוק ממוצע ב-k.

כדי לראות דוגמה, לוחצים על הסמל.

נניח שאתם בונים מערכת המלצות שמפיקה רשימה מותאמת אישית של רומנים מומלצים לכל משתמש. על סמך המשוב ממשתמשים נבחרים, חישבתם את חמשת ציוני הדיוק הממוצעים הבאים ב-k (ציון אחד לכל משתמש):

0.73
0.77
0.67
0.82
0.76

לכן, הדיוק הממוצע ב-K הוא:

$$\text{mean } = \frac{\text{0.73 + 0.77 + 0.67 + 0.82 + 0.76}} {\text{5}} = \text{0.75}$$

שגיאה ריבועית ממוצעת (MSE)

#Metric

ההפסד הממוצע לכל דוגמה כשמשתמשים בהפסד _L. כך מחשבים את השגיאה הריבועית הממוצעת:

חישוב הפסד L₂ עבור אצווה.
מחלקים את הפסד L₂ במספר הדוגמאות באצווה.

לוחצים על הסמל כדי לראות את המתמטיקה הפורמלית.

$$\text{Mean Squared Error} = \frac{1}{n}\sum_{i=0}^n {(y_i - \hat{y}_i)}^2$$ כאשר:

‫$n$ הוא מספר הדוגמאות.
‫$y$ הוא הערך בפועל של התווית.
‫$\hat{y}$ הוא החיזוי של המודל עבור $y$.

לדוגמה, נניח שאתם רוצים לחשב את הפסד על קבוצה של חמש דוגמאות:

ערך בפועל	החיזוי של המודל	הפסד	פונקציית הפסד ריבועי
7	6	1	1
5	4	1	1
8	11	3	9
4	6	2	4
9	8	1	1
			‫16 = L₂ loss

לכן, השגיאה הריבועית הממוצעת היא:

Mean Squared Error = L₂ loss / Number of Examples
Mean Squared Error = 16/5 = 3.2

השגיאה הריבועית הממוצעת היא אופטימיזציה פופולרית לאימון, במיוחד עבור רגרסיה לינארית.

השוואה בין שורש טעות ריבועית ממוצעת לבין טעות מוחלטת ממוצעת ושגיאה ריבועית ממוצעת.

‫TensorFlow Playground משתמש בטעות ריבועית ממוצעת כדי לחשב את ערכי ההפסד.

כדי לראות פרטים נוספים על חריגים, לוחצים על הסמל.

ערכים חריגים משפיעים מאוד על שגיאה ריבועית ממוצעת. לדוגמה, הפסד של 1 הוא הפסד בריבוע של 1, אבל הפסד של 3 הוא הפסד בריבוע של 9. בדוגמה עם אובדן של 3 חשבונות בטבלה שלמעלה, האובדן הזה מייצג כ-56% משגיאת הריבוע הממוצעת, בעוד שכל אחת מהדוגמאות עם אובדן של חשבון אחד מייצגת רק 6% משגיאת הריבוע הממוצעת.

לערכים חריגים אין השפעה חזקה על שגיאה ממוצעת מוחלטת כמו על שגיאה ממוצעת ריבועית. לדוגמה, איבוד של 3 חשבונות מייצג רק כ-38% מהשגיאה הממוצעת המוחלטת.

חיתוך הוא כיוון אחד למנוע ממקרים חריגים קיצוניים לפגוע ביכולת החיזוי של המודל.

רשת

#TensorFlow

#GoogleCloud

במקביל למידת מכונה, מונח שקשור להקצאת הנתונים והמודל לשבבי TPU, ולהגדרת האופן שבו הערכים האלה יחולקו או ישוכפלו.

המונח Mesh (רשת) הוא מונח עמוס שיכול להתייחס לאחד מהדברים הבאים:

פריסה פיזית של שבבי TPU.
מבנה לוגי מופשט למיפוי הנתונים והמודל לשבבי TPU.

בכל מקרה, רשת מוגדרת כצורה סגורה.

מטא-למידה

תת-קבוצה של למידת מכונה שמגלה או משפרת אלגוריתם למידה. מערכת מטא-למידה יכולה גם לאמן מודל ללמוד במהירות משימה חדשה מכמות קטנה של נתונים או מניסיון שנרכש במשימות קודמות. אלגוריתמים של למידת-על בדרך כלל מנסים להשיג את המטרות הבאות:

לשפר או ללמוד תכונות שנוצרו באופן ידני (כמו פונקציית אתחול או פונקציית אופטימיזציה).
להיות יעילים יותר מבחינת נתונים וחישובים.
שיפור ההכללה.

מטא-למידה קשורה ללמידה מכמה דוגמאות.

ערך

#TensorFlow

#Metric

נתון סטטיסטי שחשוב לכם.

יעד הוא מדד שמערכת למידת מכונה מנסה לבצע לו אופטימיזציה.

Metrics API (tf.metrics)

#Metric

‫TensorFlow API להערכת מודלים. לדוגמה, tf.metrics.accuracy קובע את התדירות שבה התחזיות של מודל תואמות לתוויות.

מיני-batch

#fundamentals

קבוצת משנה קטנה שנבחרה באופן אקראי מתוך batch שעובר עיבוד באיטרציה אחת. גודל האצווה של מיני-אצווה הוא בדרך כלל בין 10 ל-1,000 דוגמאות.

לדוגמה, נניח שקבוצת נתונים לאימון כולה (הקבוצה המלאה) כוללת 1,000 דוגמאות. נניח שקבעתם את גודל הקבוצה של כל קבוצת נתונים קטנה ל-20. לכן, בכל איטרציה נקבע ההפסד על סמך 20 דוגמאות אקראיות מתוך 1,000 הדוגמאות, ואז מתבצעים שינויים במשקלים ובהטיות בהתאם.

יעיל הרבה יותר לחשב את ההפסד במיני-אצווה מאשר לחשב את ההפסד בכל הדוגמאות באצווה המלאה.

מידע נוסף זמין במאמר רגרסיה ליניארית: היפר-פרמטרים בקורס המקוצר על למידת מכונה.

ירידה סטוכסטית בגרדיאנט של קבוצת נתונים קטנה

אלגוריתם gradient descent שמשתמש בmini-batches. במילים אחרות, שיטת הגרדיאנט הסתוקסטי של קבוצות קטנות מעריכה את הגרדיאנט על סמך קבוצת משנה קטנה של נתוני האימון. בשיטה הרגילה של ירידת גרדיאנט סטוכסטית משתמשים במיני-אצווה בגודל 1.

הפסד מינימקס

#Metric

פונקציית הפסד של רשתות יריבות גנרטיביות, שמבוססת על אנטרופיה צולבת בין ההתפלגות של הנתונים שנוצרו לבין הנתונים האמיתיים.

הפסד מינימקס משמש במאמר הראשון לתיאור רשתות יריבות גנרטיביות.

מידע נוסף זמין במאמר פונקציות הפסד בקורס בנושא רשתות יריבות גנרטיביות.

קבוצת מיעוט

#fundamentals

התווית הפחות נפוצה במערך נתונים לא מאוזן של מחלקות. לדוגמה, אם יש מערך נתונים שמכיל 99% תוויות שליליות ו-1% תוויות חיוביות, התוויות החיוביות הן המחלקה הקטנה.

ההפך ממחלקת הרוב.

כדי לראות טיפים ממשתמשים נוספים, לוחצים על הסמל.

קבוצת נתונים לאימון עם מיליון דוגמאות נשמעת מרשימה. עם זאת, אם המחלקה של המיעוט לא מיוצגת בצורה טובה, יכול להיות שגם קבוצת נתונים לאימון גדולה מאוד לא תספיק. חשוב להתמקד יותר במספר הדוגמאות בסיווג המיעוט, ולא במספר הכולל של הדוגמאות במערך הנתונים.

אם מערך הנתונים לא מכיל מספיק דוגמאות של מחלקת המיעוט, כדאי להשתמש בדילול (ההגדרה בתבליט השני) כדי להשלים את מחלקת המיעוט.

מידע נוסף זמין במאמר קבוצות נתונים: קבוצות נתונים לא מאוזנות בסדנה ללימוד מכונת למידה.

תערובת של מומחים

#generativeAI

שיטה להגדלת היעילות של רשת נוירונים באמצעות שימוש רק בקבוצת משנה של הפרמטרים שלה (שנקראת מומחה) כדי לעבד טוקן או דוגמה נתונים. רשת שערים מעבירה כל טוקן קלט או דוגמה למומחה המתאים.

פרטים נוספים זמינים במאמרים הבאים:

ML

קיצור של למידת מכונה.

MMIT

#generativeAI

קיצור של multimodal instruction-tuned.

MNIST

קבוצת נתונים בנחלת הכלל שאוסף LeCun,‏ Cortes ו-Burges, שמכילה 60,000 תמונות. בכל תמונה מוצג אופן הכתיבה הידנית של ספרה מסוימת מ-0 עד 9. כל תמונה מאוחסנת כמערך של מספרים שלמים בגודל 28x28, כאשר כל מספר שלם הוא ערך של גוון אפור בין 0 ל-255, כולל.

‫MNIST הוא מערך נתונים קנוני ללמידת מכונה, שמשמש לעיתים קרובות לבדיקת גישות חדשות ללמידת מכונה. פרטים נוספים זמינים במאמר The MNIST Database of Handwritten Digits.

אופן הפעולה

קטגוריית נתונים ברמה גבוהה. לדוגמה, מספרים, טקסט, תמונות, וידאו ואודיו הם חמש שיטות שונות.

מודל

#fundamentals

באופן כללי, כל מבנה מתמטי שמעבד נתוני קלט ומחזיר פלט. במילים אחרות, מודל הוא קבוצת הפרמטרים והמבנה שדרושים למערכת כדי ליצור תחזיות. בלמידת מכונה מבוקרת, מודל מקבל דוגמה כקלט ומסיק חיזוי כפלט. בלמידת מכונה בפיקוח, יש הבדלים בין המודלים. לדוגמה:

מודל רגרסיה לינארית מורכב מקבוצה של משקלים ומהטיה.
מודל של רשת נוירונים מורכב מ:
- קבוצה של שכבות מוסתרות, שכל אחת מהן מכילה נוירון אחד או יותר.
- המשקלים וההטיות שמשויכים לכל נוירון.
מודל של עץ החלטה מורכב מ:
- הצורה של העץ, כלומר התבנית שבה התנאים והעלים מחוברים.
- התנאים והעזיבות.

אפשר לשמור מודל, לשחזר אותו או ליצור ממנו עותקים.

למידת מכונה לא מפוקחת גם יוצרת מודלים, בדרך כלל פונקציה שיכולה למפות דוגמה של קלט לאשכול המתאים ביותר.

לוחצים על הסמל כדי להשוות בין פונקציות אלגבריות ופונקציות תכנות לבין מודלים של ML.

פונקציה אלגברית כמו הבאה היא מודל:

  f(x, y) = 3x -5xy + y² + 17

הפונקציה הקודמת ממפה ערכי קלט (x ו-y) לפלט.

באופן דומה, פונקציית תכנות כמו הבאה היא גם מודל:

def half_of_greater(x, y):
  if (x > y):
    return(x / 2)
  else
    return(y / 2)

הפונקציה הקוראת מעבירה ארגומנטים לפונקציית Python הקודמת, ופונקציית Python יוצרת פלט (באמצעות ההצהרה return).

למרות שלרשת עצבית עמוקה יש מבנה מתמטי שונה מאוד מזה של פונקציה אלגברית או פונקציית תכנות, רשת עצבית עמוקה עדיין מקבלת קלט (דוגמה) ומחזירה פלט (תחזית).

מתכנת אנושי מקודד פונקציית תכנות באופן ידני. לעומת זאת, מודל מצב למידה של מכונה לומד בהדרגה את הפרמטרים האופטימליים במהלך אימון אוטומטי.

קיבולת המודל

#Metric

מורכבות הבעיות שהמודל יכול ללמוד. ככל שהבעיות שמודל יכול ללמוד מורכבות יותר, כך הקיבולת של המודל גבוהה יותר. הקיבולת של מודל בדרך כלל גדלה עם מספר הפרמטרים של המודל. הגדרה רשמית של הקיבולת של מודל סיווג מופיעה במאמר בנושא ממד VC.

מודל מדורג

#generativeAI

מערכת שבוחרת את המודל האידיאלי לשאילתת הסקה ספציפית.

תארו לעצמכם קבוצה של מודלים, החל ממודלים גדולים מאוד (עם הרבה פרמטרים) ועד למודלים קטנים בהרבה (עם הרבה פחות פרמטרים). מודלים גדולים מאוד צורכים יותר משאבי מחשוב בזמן הסקת מסקנות מאשר מודלים קטנים יותר. עם זאת, מודלים גדולים מאוד יכולים בדרך כלל להסיק בקשות מורכבות יותר ממודלים קטנים יותר. המודל קובע את מורכבות שאילתת ההיקש, ואז בוחר את המודל המתאים לביצוע ההיקש. הסיבה העיקרית לשימוש במודלים מדורגים היא להפחית את עלויות ההסקה. בדרך כלל נבחרים מודלים קטנים יותר, ומודל גדול יותר נבחר רק עבור שאילתות מורכבות יותר.

נניח שמודל קטן פועל בטלפון וגרסה גדולה יותר של אותו מודל פועלת בשרת מרוחק. העברה מדורגת טובה של מודלים מפחיתה את העלות ואת זמן האחזור, כי המודל הקטן יותר יכול לטפל בבקשות פשוטות, והמערכת קוראת למודל המרוחק רק כדי לטפל בבקשות מורכבות.

מידע נוסף מופיע במאמר בנושא ניתוב מודלים.

מקביליות של מודלים

שיטה להרחבת האימון או ההסקת מסקנות, שבה חלקים שונים של מודל אחד ממוקמים במכשירים שונים. מקביליות של מודלים מאפשרת להשתמש במודלים גדולים מדי שלא נכנסים למכשיר אחד.

כדי ליישם מקביליות של מודלים, מערכת בדרך כלל מבצעת את הפעולות הבאות:

מפצלים את המודל לחלקים קטנים יותר.
מפיץ את האימון של החלקים הקטנים האלה בין כמה מעבדים. כל מעבד מאמן חלק משלו במודל.
התוצאות משולבות ליצירת מודל יחיד.

מקביליות של מודלים מאטה את האימון.

אפשר לעיין גם במקביליות נתונים.

נתב לדוגמה

#generativeAI

האלגוריתם שקובע את המודל האידיאלי להסקת מסקנות במודל מדורג. נתב מודלים הוא בדרך כלל מודל למידת מכונה שלומד בהדרגה איך לבחור את המודל הכי טוב לקלט נתון. עם זאת, נתב מודלים יכול להיות לפעמים אלגוריתם פשוט יותר שאינו מבוסס על למידת מכונה.

אימון מודל

התהליך של קביעת המודל הטוב ביותר.

MOE

#generativeAI

קיצור של תערובת של מומחים.

מומנטום

אלגוריתם מורכב של ירידת גרדיאנט שבו שלב הלמידה תלוי לא רק בנגזרת בשלב הנוכחי, אלא גם בנגזרות של השלבים שקדמו לו. המומנטום כולל חישוב של ממוצע נע משוקלל אקספוננציאלית של הגרדיאנטים לאורך זמן, בדומה למומנטום בפיזיקה. המומנטום מונע לפעמים את התקיעה של מצב למידה במינימום מקומי.

בעיות בסיסיות ב-Python (MBPP)

#Metric

מערך נתונים להערכת רמת המיומנות של מודל שפה גדולה (LLM) ביצירת קוד Python. ‫Mostly Basic Python Problems כולל כ-1,000 בעיות תכנות שמקורן במיקור המונים. כל בעיה במערך הנתונים מכילה:

תיאור המשימה
קוד הפתרון
שלושה מקרי בדיקה אוטומטיים

MT

#generativeAI

קיצור של תרגום אוטומטי.

סיווג רב-מחלקתי

#fundamentals

בלמידה מפוקחת, בעיית סיווג שבה מערך הנתונים מכיל יותר משני סוגים של תוויות. לדוגמה, התוויות במערך הנתונים של סגול איריס חייבות להיות אחת משלוש המחלקות הבאות:

Iris setosa
Iris virginica
Iris versicolor

מודל שאומן על מערך הנתונים של איריס ומנבא את סוג האיריס בדוגמאות חדשות, מבצע סיווג רב-מחלקתי.

לעומת זאת, בעיות סיווג שמבחינות בין שתי קטגוריות בדיוק הן מודלים של סיווג בינארי. לדוגמה, מודל אימייל שמנבא אם אימייל הוא ספאם או לא ספאם הוא מודל סיווג בינארי.

בבעיות של קיבוץ לאשכולות, סיווג רב-מחלקה מתייחס ליותר משני אשכולות.

מידע נוסף זמין במאמר רשתות עצביות: סיווג רב-מחלקתי בקורס המקוצר על למידת מכונה.

רגרסיה לוגיסטית רב-סיווגית

שימוש ברגרסיה לוגיסטית בבעיות של סיווג רב-מחלקתי.

multi-head self-attention

הרחבה של קשב עצמי שבה מנגנון הקשב העצמי מופעל כמה פעמים לכל מיקום ברצף הקלט.

טרנספורמרים הציגו קשב עצמי מרובה ראשים.

מכוונן להוראות מולטי-מודאליות

מודל שעבר כוונון לפי הוראות שיכול לעבד קלט שהוא לא רק טקסט, כמו תמונות, סרטונים ואודיו.

מודל מולטי-מודאלי

מודל שהקלט, הפלט או שניהם כוללים יותר מאופן פעולה אחד. לדוגמה, נניח שיש מודל שמקבל כמאפיינים גם תמונה וגם כיתוב (שני סוגים של נתונים), ומוציא ציון שמציין עד כמה הכיתוב מתאים לתמונה. לכן, הקלט של המודל הזה הוא מולטי-מודאלי והפלט הוא אונימודאלי.

סיווג רב-נומינלי

מילה נרדפת לסיווג רב-כיתתי.

רגרסיה מולטינומיאלית

מילה נרדפת לרגרסיה לוגיסטית רב-סיווגית.

הבנת הנקרא של כמה משפטים (MultiRC)

מערך נתונים להערכת היכולת של מודל LLM לענות על שאלות אמריקאיות. כל דוגמה במערך הנתונים מכילה:

פסקה עם הקשר
שאלה לגבי הפסקה הזו
כמה תשובות לשאלה. כל תשובה מסומנת בתווית True או False. יכול להיות שכמה תשובות יהיו TRUE.

לדוגמה:

פסקה עם הקשר:

סוזן רצתה לערוך מסיבת יום הולדת. היא התקשרה לכל החברים שלה. יש לה חמישה חברים. אמא שלה אמרה לסוזן שהיא יכולה להזמין את כולם למסיבה. החברה הראשונה שלה לא יכלה להגיע למסיבה כי היא הייתה חולה. החברה השנייה שלה נסעה מחוץ לעיר. החברה השלישית לא הייתה בטוחה שההורים שלה יאפשרו לה. החבר הרביעי אמר שאולי. החבר החמישי יכול להגיע למסיבה בוודאות. סוזן הייתה קצת עצובה. ביום המסיבה, כל חמשת החברים הגיעו. לכל חבר הייתה מתנה בשביל סוזן. סוזן שמחה ושלחה לכל חברה כרטיס תודה בשבוע שלאחר מכן.
שאלה: Did Susan's sick friend recover?
שאלות אמריקאיות:
- כן, היא החלימה. (True)
- לא (False)
- כן. (True)
- לא, היא לא החלימה. (False)
- כן, היא הייתה במסיבה של סוזן. (True)

‫MultiRC הוא רכיב של SuperGLUE ensemble.

פרטים נוספים זמינים במאמר Looking Beyond the Surface: A Challenge Set for Reading Comprehension over Multiple Sentences.

ריבוי משימות

טכניקה של למידת מכונה שבה מודל אחד מאומן לבצע כמה משימות.

מודלים לביצוע כמה משימות נוצרים על ידי אימון על נתונים שמתאימים לכל אחת מהמשימות השונות. כך המודל לומד לשתף מידע בין המשימות, מה שעוזר לו ללמוד בצורה יעילה יותר.

למודל שאומן למספר משימות יש לרוב יכולות הכללה משופרות, והוא יכול להיות חזק יותר בטיפול בסוגים שונים של נתונים.

לא

Nano

#generativeAI

מודל Gemini קטן יחסית שמיועד לשימוש במכשיר. פרטים נוספים זמינים במאמר בנושא Gemini Nano.

כדאי לעיין גם בPro וב-Ultra.

מלכודת NaN

כשמספר אחד במודל הופך ל-NaN במהלך האימון, הרבה או כל המספרים האחרים במודל הופכים בסופו של דבר ל-NaN.

‫NaN הוא קיצור של Not a Number (לא מספר).

עיבוד שפה טבעית (NLP)

תחום שמלמד מחשבים לעבד את מה שהמשתמש אמר או הקליד באמצעות כללים לשוניים. כמעט כל עיבוד השפה הטבעית המודרני מסתמך על למידת מכונה.

הבנת שפה טבעית (NLU)

קבוצת משנה של עיבוד שפה טבעית שקובעת את הכוונות של משהו שנאמר או הוקלד. הבנת שפה טבעית יכולה לכלול גם עיבוד שפה טבעית, וגם היבטים מורכבים של השפה כמו הקשר, סרקזם וסנטימנט.

סיווג שלילי

#fundamentals

#Metric

בסיווג בינארי, מחלקים את הנתונים לשתי קבוצות: חיובית ושלילית. הסיווג החיובי הוא הדבר או האירוע שהמודל בודק, והסיווג השלילי הוא האפשרות השנייה. לדוגמה:

הסיווג השלילי בבדיקה רפואית יכול להיות 'לא גידול'.
הסיווג השלילי במודל סיווג של אימייל יכול להיות 'לא ספאם'.

ההגדרה הזו שונה מהכיתה החיובית.

דגימה שלילית

מילה נרדפת לדגימת מועמדים.

Neural Architecture Search (NAS)

טכניקה לעיצוב אוטומטי של הארכיטקטורה של רשת נוירונים. אלגוריתמים של NAS יכולים לצמצם את כמות הזמן והמשאבים שנדרשים לאימון רשת נוירונים.

בדרך כלל נעשה שימוש ב-NAS ב:

מרחב חיפוש, שהוא קבוצה של ארכיטקטורות אפשריות.
פונקציית כושר, שהיא מדד לביצועים של ארכיטקטורה מסוימת במשימה נתונה.

אלגוריתמים של NAS מתחילים בדרך כלל עם קבוצה קטנה של ארכיטקטורות אפשריות, ומרחיבים בהדרגה את מרחב החיפוש ככל שהאלגוריתם לומד יותר על הארכיטקטורות האפקטיביות. פונקציית הכושר מבוססת בדרך כלל על הביצועים של הארכיטקטורה במערך אימון, והאלגוריתם מאומן בדרך כלל באמצעות טכניקה של למידת חיזוק.

אלגוריתמים של NAS הוכחו כיעילים במציאת ארכיטקטורות עם ביצועים גבוהים למגוון משימות, כולל סיווג תמונות, סיווג טקסט ותרגום אוטומטי.

רשת הזרימה קדימה

#fundamentals

מודל שמכיל לפחות שכבה מוסתרת אחת. רשת נוירונים עמוקה היא סוג של רשת נוירונים שכוללת יותר משכבה נסתרת אחת. לדוגמה, בתרשים הבא מוצגת רשת עצבית עמוקה שמכילה שתי שכבות נסתרות.

רשת נוירונים עם שכבת קלט, שתי שכבות נסתרות ושכבת פלט.

כל נוירון ברשת נוירונים מתחבר לכל הצמתים בשכבה הבאה. לדוגמה, בתרשים הקודם אפשר לראות שכל אחד משלושת הנוירונים בשכבה הנסתרת הראשונה מקושר בנפרד לשני הנוירונים בשכבה הנסתרת השנייה.

רשתות נוירונים שמיושמות במחשבים נקראות לפעמים רשתות נוירונים מלאכותיות כדי להבדיל ביניהן לבין רשתות נוירונים שנמצאות במוח ובמערכות עצבים אחרות.

חלק מהרשתות העצביות יכולות לחקות קשרים לא לינאריים מורכבים במיוחד בין תכונות שונות לבין התווית.

ראו גם רשת נוירונים קונבולוציונית ורשת נוירונים חוזרת.

מידע נוסף זמין במאמר רשתות עצביות בקורס המקוצר על למידת מכונה.

נוירון

#fundamentals

בלמידת מכונה, יחידה נפרדת בשכבה נסתרת של רשת נוירונים. כל נוירון מבצע את הפעולה הבאה בשני שלבים:

הפונקציה מחשבת את הסכום המשוקלל של ערכי הקלט כפול המשקלים התואמים שלהם.
הפונקציה מעבירה את הסכום המשוקלל כקלט לפונקציית הפעלה.

נוירון בשכבה הנסתרת הראשונה מקבל קלט מערכי המאפיינים בשכבת הקלט. נוירון בכל שכבה מוסתרת מעבר לשכבה הראשונה מקבל קלט מהנוירונים בשכבה המוסתרת הקודמת. לדוגמה, נוירון בשכבה הנסתרת השנייה מקבל קלט מהנוירונים בשכבה הנסתרת הראשונה.

באיור הבא מודגמים שני נוירונים והקלט שלהם.

רשת נוירונים עם שכבת קלט, שתי שכבות נסתרות ושכבת פלט. שני נוירונים מודגשים: אחד בשכבה הנסתרת הראשונה ואחד בשכבה הנסתרת השנייה. הנוירון המודגש בשכבה הנסתרת הראשונה מקבל קלט משני המאפיינים בשכבת הקלט. הנוירון המודגש בשכבה הנסתרת השנייה מקבל קלט מכל אחד משלושת הנוירונים בשכבה הנסתרת הראשונה.

נוירון ברשת נוירונים מחקה את ההתנהגות של נוירונים במוח ובחלקים אחרים של מערכת העצבים.

N-gram

רצף מסודר של N מילים. לדוגמה, truly madly הוא ביגרם. הסדר חשוב, ולכן madly truly הוא ביגרם שונה מ-truly madly.

לא	השמות של סוג ה-N-gram הזה	דוגמאות
2	ביגרם או 2-גרם	to go, go to, eat lunch, eat dinner
3	טריגרם או 3-גרם	ate too much, happily ever after, the bell tolls
4	‫4 גרם	walk in the park, dust in the wind, the boy ate lentils

הרבה מודלים של הבנת שפה טבעית מסתמכים על N-grams כדי לחזות את המילה הבאה שהמשתמש יקליד או יגיד. לדוגמה, נניח שמשתמש הקליד happily ever. מודל NLU שמבוסס על טריגרמות צפוי לחזות שהמשתמש יקליד את המילה after.

ההבדל בין N-grams לבין bag of words הוא ש-bag of words הם קבוצות לא מסודרות של מילים.

מידע נוסף זמין במאמר מודלים גדולים של שפה בקורס Machine Learning Crash Course.

NLP

קיצור של עיבוד שפה טבעית.

NLU

קיצור של הבנת שפה טבעית.

צומת (עץ החלטה)

#df

בעץ החלטה, כל תנאי או עלה.

עץ החלטה עם שני תנאים ושלושה עלים.

מידע נוסף זמין במאמר עצי החלטה בקורס בנושא יערות החלטה.

צומת (רשת נוירונים)

#fundamentals

נוירון בשכבה נסתרת.

מידע נוסף מופיע במאמר רשתות עצביות בקורס המקוצר על למידת מכונה.

צומת (תרשים TensorFlow)

#TensorFlow

פעולה בגרף של TensorFlow.

רעש

באופן כללי, כל דבר שמסתיר את האות במערך נתונים. רעשים יכולים להופיע בנתונים במגוון דרכים. לדוגמה:

המעריכים האנושיים טועים לפעמים בתיוג.
במקרים מסוימים, בני אדם ומכשירים לא מתעדים או משמיטים ערכים של תכונות.

מצב א-בינארי

#df

תנאי שמכיל יותר משני תוצאות אפשריות. לדוגמה, התנאי הא-בינארי הבא מכיל שלושה תוצאות אפשריות:

תנאי (number_of_legs = ?) שמוביל לשלוש תוצאות אפשריות. תוצאה אחת (number_of_legs = 8) מובילה לצומת עלים
בשם spider. תוצאה שנייה (number_of_legs = 4) מובילה ל-
צומת עלה בשם dog. תוצאה שלישית (number_of_legs = 2) מובילה ל-
צומת עלה בשם penguin.

מידע נוסף זמין במאמר סוגי תנאים בקורס בנושא יערות החלטה.

לא לינארי

#fundamentals

קשר בין שני משתנים או יותר שלא ניתן לייצג רק באמצעות חיבור וכפל. אפשר לייצג קשר לינארי כקו, אבל אי אפשר לייצג קשר לא לינארי כקו. לדוגמה, נניח שיש שני מודלים שכל אחד מהם מקשר בין תכונה אחת לתווית אחת. המודל בצד ימין הוא ליניארי והמודל בצד שמאל הוא לא ליניארי:

שני תרשימים. אחד מהגרפים הוא קו, ולכן זהו קשר לינארי.
התרשים השני הוא עקומה, ולכן מדובר בקשר לא לינארי.

בקורס המקוצר בנושא למידת מכונה, אפשר לעיין בקטע רשתות עצביות: צמתים ושכבות מוסתרות כדי להתנסות בסוגים שונים של פונקציות לא לינאריות.

הטיית סקר שלא מולא

#responsible

ראו הטיית בחירה.

nonstationarity

#fundamentals

תכונה שהערכים שלה משתנים לאורך מאפיין אחד או יותר, בדרך כלל זמן. לדוגמה, הנה כמה דוגמאות לנתונים לא סטציונריים:

מספר בגדי הים שנמכרים בחנות מסוימת משתנה בהתאם לעונה.
הכמות של פרי מסוים שנקטף באזור מסוים היא אפס במשך רוב השנה, אבל גדולה לתקופה קצרה.
בגלל שינויי האקלים, הטמפרטורות הממוצעות השנתיות משתנות.

הניגוד לסטציונריות.

אין תשובה נכונה אחת (NORA)

#generativeAI

הנחיה עם כמה תשובות נכונות. לדוגמה, להנחיה הבאה אין תשובה נכונה אחת:

תספר לי בדיחה מצחיקה על פילים.

הערכת התשובות להנחיות שאין להן תשובה נכונה אחת היא בדרך כלל סובייקטיבית הרבה יותר מהערכת הנחיות עם תשובה נכונה אחת. לדוגמה, כדי להעריך בדיחה על פיל צריך שיטה שיטתית לקביעת רמת ההומור של הבדיחה.

NORA

#generativeAI

קיצור של אין תשובה נכונה אחת.

נירמול

#fundamentals

באופן כללי, תהליך ההמרה של טווח הערכים בפועל של משתנה לטווח ערכים סטנדרטי, כמו:

‫‎-1 עד ‎+1
‫0 עד 1
ציוני תקן (בערך, ‎-3 עד ‎+3)

לדוגמה, נניח שהטווח בפועל של ערכי תכונה מסוימת הוא 800 עד 2,400. במסגרת הנדסת התכונות, אפשר לנרמל את הערכים בפועל לטווח סטנדרטי, למשל מ-1 עד +1.

נורמליזציה היא משימה נפוצה בהנדסת תכונות. בדרך כלל, אימון המודלים מהיר יותר (והתחזיות מדויקות יותר) כשכל תכונה מספרית בווקטור התכונות נמצאת בטווח דומה.

אפשר לעיין גם במאמר נירמול לפי ציון Z.

מידע נוסף זמין במאמר נתונים מספריים: נורמליזציה בסדנה ללימוד למידת מכונה.

Notebook LM

#generativeAI

כלי מבוסס Gemini שמאפשר למשתמשים להעלות מסמכים ואז להשתמש בהנחיות כדי לשאול שאלות לגבי המסמכים, לסכם אותם או לארגן אותם. לדוגמה, סופר יכול להעלות כמה סיפורים קצרים ולבקש מ-NotebookLM למצוא את הנושאים המשותפים שלהם או לזהות איזה מהם יהיה הכי מתאים לעיבוד לסרט.

זיהוי של תכנים חדשים

התהליך של קביעה אם דוגמה חדשה (חדשנית) מגיעה מאותו פיזור כמו קבוצת נתונים לאימון. במילים אחרות, אחרי אימון על קבוצת נתונים לאימון, זיהוי חריגות קובע אם דוגמה חדשה (במהלך הסקת מסקנות או במהלך אימון נוסף) היא חריג חשוד טעות.

ההבדל בין התכונה הזו לבין זיהוי חריג חשוד טעות.

נתונים מספריים

#fundamentals

מאפיינים שמיוצגים כמספרים שלמים או כמספרים ממשיים. לדוגמה, במודל להערכת שווי של בית, גודל הבית (במטרים רבועים או ברגל רבוע) כנראה ייוצג כנתונים מספריים. ייצוג של תכונה כנתונים מספריים מציין שלערכים של התכונה יש קשר מתמטי לתווית. כלומר, למספר המטרים הרבועים בבית יש כנראה קשר מתמטי כלשהו לערך הבית.

לא כל נתוני המספרים השלמים צריכים להיות מיוצגים כנתונים מספריים. לדוגמה, מיקודים בחלקים מסוימים בעולם הם מספרים שלמים, אבל מיקודים שהם מספרים שלמים לא צריכים להיות מיוצגים כנתונים מספריים במודלים. הסיבה לכך היא שמיקוד של 20000 לא חזק פי שניים (או חצי) ממיקוד של 10000. בנוסף, למרות שיש קשר בין מיקודים שונים לבין ערכי נדל"ן שונים, אי אפשר להניח שערכי הנדל"ן במיקוד 20000 הם כפולים מערכי הנדל"ן במיקוד 10000. במקום זאת, צריך להציג את המיקודים כנתונים קטגוריים.

תכונות מספריות נקראות לפעמים תכונות רציפות.

מידע נוסף זמין במאמר עבודה עם נתונים מספריים בקורס המקוצר על למידת מכונה.

NumPy

ספרייה מתמטית בקוד פתוח שמספקת פעולות יעילות על מערכים ב-Python. הספרייה pandas מבוססת על NumPy.

O

יעד

#Metric

מדד שהאלגוריתם מנסה לבצע לו אופטימיזציה.

פונקציית היעד

#Metric

הנוסחה המתמטית או המדד שהמודל מנסה לבצע אופטימיזציה לגביהם. לדוגמה, פונקציית היעד של רגרסיה לינארית היא בדרך כלל Mean Squared Loss (אובדן ממוצע בריבוע). לכן, כשמאמנים מודל רגרסיה לינארית, האימון נועד לצמצם את אובדן המידע הממוצע בריבוע.

במקרים מסוימים, המטרה היא למקסם את פונקציית היעד. לדוגמה, אם פונקציית היעד היא דיוק, המטרה היא למקסם את הדיוק.

מידע נוסף זמין במאמר בנושא הפסד.

תנאי עקיף

#df

בעץ החלטה, תנאי שכולל יותר ממאפיין אחד. לדוגמה, אם הגובה והרוחב הם מאפיינים, אז התנאי הבא הוא תנאי אלכסוני:

  height > width

ההבדל בין תנאי שמתייחס לציר לבין תנאי שמתייחס למיקום.

מידע נוסף זמין במאמר סוגי תנאים בקורס בנושא יערות החלטה.

לא מקוון

#fundamentals

מילה נרדפת ל-static.

הסקת מסקנות אופליין

#fundamentals

התהליך שבו מודל יוצר קבוצה של חיזויים ואז שומר אותם במטמון. לאחר מכן, האפליקציות יכולות לגשת לתחזית המשוערת מהמטמון במקום להפעיל מחדש את המודל.

לדוגמה, נניח שיש מודל שמפיק תחזיות מזג אוויר מקומיות (חיזויים) פעם בארבע שעות. אחרי כל הרצת מודל, המערכת שומרת במטמון את כל התחזיות המקומיות. אפליקציות מזג האוויר מאחזרות את התחזיות מהמטמון.

הסקת מסקנות אופליין נקראת גם הסקת מסקנות סטטית.

השוואה להסקת מסקנות אונליין. מידע נוסף זמין במאמר מערכות ML לייצור: הסקה סטטית לעומת הסקה דינמית בתוכנית Machine Learning Crash Course.

קידוד one-hot

#fundamentals

ייצוג נתונים קטגוריים כווקטור שבו:

רכיב אחד מוגדר ל-1.
כל שאר הרכיבים מוגדרים כ-0.

קידוד one-hot משמש בדרך כלל לייצוג מחרוזות או מזהים שיש להם קבוצה סופית של ערכים אפשריים. לדוגמה, נניח שלתכונה קטגורית מסוימת בשם Scandinavia יש חמישה ערכים אפשריים:

"Denmark"
"Sweden"
"Norway"
"Finland"
"איסלנד"

קידוד one-hot יכול לייצג כל אחד מחמשת הערכים באופן הבא:

מדינה	וקטור
"Denmark"	1	0	0	0	0
"Sweden"	0	1	0	0	0
"Norway"	0	0	1	0	0
"Finland"	0	0	0	1	0
"איסלנד"	0	0	0	0	1

הודות לקידוד one-hot, מודל יכול ללמוד קשרים שונים על סמך כל אחת מחמש המדינות.

ייצוג מאפיין כנתונים מספריים הוא חלופה לקידוד "חם-יחיד". לצערנו, ייצוג מספרי של המדינות הסקנדינביות הוא לא בחירה טובה. לדוגמה, הנה ייצוג מספרי:

‫"Denmark" הוא 0
‫"Sweden" הוא 1
‫"Norway" הוא 2
‫"Finland" הוא 3
‫"Iceland" הוא 4

בקידוד מספרי, המודל יפרש את המספרים הגולמיים באופן מתמטי וינסה להתאמן על המספרים האלה. עם זאת, איסלנד לא גדולה פי שניים (או קטנה פי שניים) מנורווגיה, ולכן המודל יגיע למסקנות מוזרות.

מידע נוסף זמין במאמר נתונים קטגוריים: אוצר מילים וקידוד one-hot בסדנה ללימוד למידת מכונה.

תשובה נכונה אחת (ORA)

#generativeAI

הנחיה עם תשובה נכונה אחת. לדוגמה, נניח את ההנחיה הבאה:

TRUE או FALSE: שבתאי גדול יותר מ-Google Mars.

התשובה הנכונה היחידה היא true.

ההפך מאין תשובה נכונה אחת.

one-shot learning

גישה של למידת מכונה, שמשמשת לעיתים קרובות לסיווג אובייקטים, ומיועדת ללמוד מודל סיווג יעיל מדוגמה אחת לאימון.

כדאי לעיין גם במצב למידה מכמה דוגמאות ובמצב למידה ללא דוגמאות.

הנחיות עם דוגמה אחת (one-shot prompting)

#generativeAI

הנחיה שמכילה דוגמה אחת שמראה למודל שפה גדול איך להגיב. לדוגמה, ההנחיה הבאה מכילה דוגמה אחת שמראה למודל שפה גדול איך עליו לענות על שאילתה.

החלקים של הנחיה	הערות
`מהו המטבע הרשמי של המדינה שצוינה?`	השאלה שרוצים שה-LLM יענה עליה.
`צרפת: EUR`	דוגמה אחת.
`הודו:`	השאילתה בפועל.

השוואה וניגוד בין הנחיות עם דוגמה אחת (one-shot prompting) לבין המונחים הבאים:

הנחיות בלי דוגמאות (zero-shot prompting)
מתן הנחיות עם כמה דוגמאות

אחד מול כולם

#fundamentals

בהינתן בעיית סיווג עם N מחלקות, פתרון שמורכב ממודל סיווג בינארי נפרד של N – מודל סיווג בינארי אחד לכל תוצאה אפשרית. לדוגמה, אם יש מודל שמסווג דוגמאות כבעלי חיים, ירקות או מינרלים, פתרון של אחד מול כולם יספק את שלושת מודלי הסיווג הבינאריים הנפרדים הבאים:

בעל חיים לעומת לא בעל חיים
ירק לעומת לא ירק
מינרל לעומת לא מינרל

online

#fundamentals

מילה נרדפת לדינמי.

היקש אונליין

#fundamentals

יצירת תחזיות על פי דרישה. לדוגמה, נניח שאפליקציה מעבירה קלט למודל ושולחת בקשה לתחזית. מערכת שמשתמשת בהסקת מסקנות אונליין מגיבה לבקשה על ידי הפעלת המודל (והחזרת החיזוי לאפליקציה).

ההבדל בין זה לבין הסקת מסקנות אופליין.

מידע נוסף זמין במאמר מערכות ML לייצור: הסקה סטטית לעומת הסקה דינמית בתוכנית Machine Learning Crash Course.

פעולה (op)

#TensorFlow

ב-TensorFlow, כל הליך שיוצר, משנה או משמיד Tensor. לדוגמה, כפל מטריצות הוא פעולה שמקבלת שני טנסורים כקלט ומפיקה טנסור אחד כפלט.

Optax

ספרייה לעיבוד ולאופטימיזציה של גרדיאנטים ל-JAX. ‫Optax מספקת אבני בניין שאפשר לשלב מחדש בדרכים מותאמות אישית כדי לבצע אופטימיזציה של מודלים פרמטריים כמו רשתות נוירונים עמוקות, וכך היא מסייעת במחקר. יעדים נוספים:

לספק הטמעות קריאות, שנבדקו היטב ויעילות של רכיבי ליבה.
שיפור הפרודוקטיביות על ידי האפשרות לשלב רכיבים ברמה נמוכה באופטימיזטורים בהתאמה אישית (או ברכיבים אחרים לעיבוד גרדיאנטים).
האפשרות לכל אחד לתרום רעיונות מאפשרת להטמיע רעיונות חדשים במהירות.

optimizer

הטמעה ספציפית של האלגוריתם gradient descent ‎. בין האופטימיזטורים הפופולריים:

‫AdaGrad, קיצור של ADAptive GRADient descent (שיפוע אדפטיבי).
‫Adam, קיצור של ADAptive with Momentum (מותאם עם מומנטום).

ORA

#generativeAI

קיצור של תשובה נכונה אחת.

הטיית הומוגניות של קבוצת חוץ

#responsible

הנטייה לראות חברים בקבוצה החיצונית כדומים יותר מאשר חברים בקבוצה הפנימית, כשמשווים בין עמדות, ערכים, תכונות אישיות ומאפיינים אחרים. בתוך הקבוצה – אנשים שיש לכם איתם אינטראקציה באופן קבוע; מחוץ לקבוצה – אנשים שאין לכם איתם אינטראקציה באופן קבוע. אם יוצרים מערך נתונים על ידי בקשה מאנשים לספק מאפיינים לגבי קבוצות חיצוניות, יכול להיות שהמאפיינים האלה יהיו פחות מדויקים ויותר סטריאוטיפיים מאשר מאפיינים שהמשתתפים מפרטים לגבי אנשים בקבוצה הפנימית שלהם.

לדוגמה, יכול להיות שאנשים מליליפוט יתארו בפירוט רב את הבתים של אנשים אחרים מליליפוט, ויציינו הבדלים קטנים בסגנונות האדריכלות, בחלונות, בדלתות ובגדלים. אבל יכול להיות שאנשי ליליפוט פשוט יצהירו שכל הענקים בברובדינגנאג חיים בבתים זהים.

הטיית הומוגניות של קבוצה חיצונית היא סוג של הטיית ייחוס לקבוצה.

אפשר לעיין גם במאמר בנושא הטיה לטובת קבוצת השייכות.

זיהוי חריג חשוד טעות

תהליך הזיהוי של חריגים בקבוצת נתונים לאימון.

ההבדל בין זה לבין זיהוי של תכונות חדשות.

ערכים חריגים

ערכים שרחוקים מרוב הערכים האחרים. בלמידת מכונה, כל אחד מהפריטים הבאים נחשב לחריג:

נתוני קלט שהערכים שלהם חורגים ביותר מ-3 סטיות תקן מהממוצע.
משקלים עם ערכים מוחלטים גבוהים.
הערכים החזויים רחוקים יחסית מהערכים בפועל.

לדוגמה, נניח ש-widget-price היא תכונה של מודל מסוים. נניח שהממוצע widget-price הוא 7 אירו וסטיית התקן היא אירו אחד. לכן, דוגמאות שמכילות widget-price של 12 אירו או 2 אירו ייחשבו לערכים חריגים, כי כל אחד מהמחירים האלה הוא חמש סטיות תקן מהממוצע.

בדרך כלל, חריגים נובעים משגיאות הקלדה או משגיאות אחרות בהזנה. במקרים אחרים, חריגים הם לא טעויות. אחרי הכול, ערכים שחמישה סטיות תקן מהממוצע הם נדירים אבל לא בלתי אפשריים.

ערכים חריגים גורמים לרוב לבעיות באימון המודל. חיתוך הוא דרך אחת לנהל חריגים.

מידע נוסף זמין במאמר עבודה עם נתונים מספריים בקורס המקוצר על למידת מכונה.

הערכה מחוץ לתיק (OOB)

#df

מנגנון להערכת האיכות של יער החלטות על ידי בדיקה של כל עץ החלטות מול הדוגמאות שלא שימשו במהלך האימון של עץ ההחלטות הזה. לדוגמה, בתרשים הבא אפשר לראות שהמערכת מאמנת כל עץ החלטה על כשני שלישים מהדוגמאות, ואז מבצעת הערכה על השליש הנותר של הדוגמאות.

יער החלטות שמורכב משלושה עצי החלטות.
עץ החלטה אחד מתאמן על שני שלישים מהדוגמאות
ואז משתמש בשליש הנותר להערכת OOB.
עוד עץ החלטה מתאמן על שני שלישים שונים של הדוגמאות בהשוואה לעץ ההחלטה הקודם, ואז משתמש בשליש שונה להערכת OOB בהשוואה לעץ ההחלטה הקודם.

הערכה מחוץ לתיק היא קירוב יעיל מבחינה חישובית ושמרני של מנגנון האימות הצולב. באימות צולב, מאמנים מודל אחד לכל סבב של אימות צולב (לדוגמה, 10 מודלים מאומנים באימות צולב של 10 חלקים). בהערכה מחוץ לתיבת האימון, מאמנים מודל יחיד. מכיוון שbagging מעכב חלק מהנתונים מכל עץ במהלך האימון, אפשר להשתמש בנתוני OOB כדי לבצע קירוב של אימות צולב.

מידע נוסף זמין במאמר הערכה מחוץ לתיק בקורס בנושא יערות החלטה.

שכבת הפלט

#fundamentals

השכבה ה'הסופית' של רשת נוירונים. שכבת הפלט מכילה את החיזוי.

האיור הבא מציג רשת עצבית עמוקה קטנה עם שכבת קלט, שתי שכבות נסתרות ושכבת פלט:

התאמת יתר (overfitting)

#fundamentals

יצירת מודל שתואם לנתוני האימון בצורה כל כך מדויקת, שהמודל לא מצליח לבצע חיזויים נכונים לגבי נתונים חדשים.

רגולריזציה יכולה לצמצם את התאמת היתר. אימון על קבוצת נתונים גדולה ומגוונת לאימון יכול גם להפחית התאמת יתר.

כדי לראות טיפים ממשתמשים נוספים, לוחצים על הסמל.

התאמת יתר היא כמו לפעול לפי העצות של המורה האהוב עליך בלבד. סביר להניח שתצליחו בכיתה של המורה הזה, אבל יכול להיות שתתאימו את עצמכם יותר מדי לרעיונות של המורה ולא תצליחו בכיתות אחרות. הקשבה לעצות ממגוון מורים תאפשר לכם להסתגל טוב יותר למצבים חדשים.

מידע נוסף מופיע במאמר בנושא התאמת יתר בקורס המקוצר על למידת מכונה.

דגימת יתר

שימוש חוזר בדוגמאות של מחלקת מיעוט במערך נתונים עם חוסר איזון בין המחלקות כדי ליצור קבוצת נתונים לאימון מאוזנת יותר.

לדוגמה, נניח שיש בעיית סיווג בינארית שבה היחס בין מחלקת הרוב למחלקת המיעוט הוא 5,000:1. אם מערך הנתונים מכיל מיליון דוגמאות, אז הוא מכיל רק כ-200 דוגמאות של המחלקה המיעוטית, וזה יכול להיות מעט מדי דוגמאות לאימון יעיל. כדי להתגבר על החוסר הזה, אפשר לבצע דגימת יתר (שימוש חוזר) ב-200 הדוגמאות האלה מספר פעמים, וכך אולי להגיע למספר מספיק של דוגמאות לאימון יעיל.

כשמבצעים דגימת יתר, צריך להיזהר מהתאמת יתר.

ההבדל בין זה לבין דילול יתר.

P

נתונים ארוזים

גישה לאחסון נתונים בצורה יעילה יותר.

נתונים דחוסים הם נתונים שמאוחסנים בפורמט דחוס או בפורמט אחר שמאפשר גישה יעילה יותר לנתונים. נתונים דחוסים מצמצמים את כמות הזיכרון והחישובים שנדרשים כדי לגשת אליהם, וכך האימון מהיר יותר וההסקה של המודל יעילה יותר.

לרוב משתמשים בנתונים דחוסים בשילוב עם טכניקות אחרות, כמו הגדלת מערך הנתונים ורגולריזציה, כדי לשפר עוד יותר את הביצועים של מודלים.

PaLM

קיצור של Pathways Language Model (מודל שפה של Pathways).

פנדות

#fundamentals

‫API לניתוח נתונים שמבוסס על עמודות, שנבנה על בסיס numpy. הרבה מסגרות של למידת מכונה, כולל TensorFlow, תומכות במבני נתונים של pandas כקלט. פרטים נוספים זמינים במאמרי העזרה של pandas.

פרמטר

#fundamentals

המשקולות וההטיות שהמודל לומד במהלך האימון. לדוגמה, במודל רגרסיה לינארית, הפרמטרים מורכבים מההטיה (b) ומכל המשקלים (w₁,‏ w₂ וכן הלאה) בנוסחה הבאה:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

לעומת זאת, היפר-פרמטרים הם הערכים שאתם (או שירות להתאמת היפר-פרמטרים) מספקים למודל. לדוגמה, קצב הלמידה הוא היפר-פרמטר.

כוונון יעיל בפרמטרים

#generativeAI

קבוצה של טכניקות לכוונון עדין של מודל שפה גדול שאומן מראש (PLM) בצורה יעילה יותר מאשר כוונון עדין מלא. בדרך כלל, כוונון יעיל בפרמטרים מכוונן הרבה פחות פרמטרים מאשר כוונון מלא, אבל בדרך כלל הוא יוצר מודל שפה גדול עם ביצועים טובים (או כמעט טובים) כמו מודל שפה גדול שנבנה מכוונון מלא.

השוואה בין כוונון יעיל בפרמטרים לבין:

instruction tuning
שיפור הנחיות

כוונון יעיל בפרמטרים נקרא גם כוונון עדין ויעיל בפרמטרים.

שרת פרמטרים (PS)

#TensorFlow

משימה שעוקבת אחרי הפרמטרים של מודל בהגדרה מבוזרת.

עדכון הפרמטרים

הפעולה של התאמת הפרמטרים של מודל במהלך האימון, בדרך כלל במסגרת איטרציה אחת של ירידת גרדיאנט.

נגזרת חלקית

נגזרת שבה כל המשתנים, למעט אחד, נחשבים לקבועים. לדוגמה, הנגזרת החלקית של f(x, y) ביחס ל-x היא הנגזרת של f שנחשבת כפונקציה של x בלבד (כלומר, תוך שמירה על y כקבוע). הנגזרת החלקית של f ביחס ל-x מתמקדת רק בשינוי של x ומתעלמת מכל המשתנים האחרים במשוואה.

הטיית השתתפות

#responsible

מילה נרדפת להטיית סקר שלא מולא. ראו הטיית בחירה.

אסטרטגיית חלוקה למחיצות

האלגוריתם שבאמצעותו משתנים מחולקים בין שרתי פרמטרים.

pass at k (pass@k)

#Metric

מדד לקביעת איכות הקוד (לדוגמה, Python) שנוצר על ידי מודל שפה גדול. באופן ספציפי יותר, הערך של pass at k מציין את הסבירות שלפחות בלוק אחד מתוך k בלוקים של קוד שנוצרו יעבור את כל בדיקות היחידה שלו.

למודלים גדולים של שפה (LLM) יש לעיתים קרובות קושי ליצור קוד טוב לבעיות תכנות מורכבות. מהנדסי תוכנה מתמודדים עם הבעיה הזו על ידי הנחיית מודל השפה הגדול (LLM) ליצור כמה (k) פתרונות לאותה בעיה. לאחר מכן, מהנדסי תוכנה בודקים כל אחד מהפתרונות באמצעות בדיקות יחידה. החישוב של pass@k תלוי בתוצאה של בדיקות היחידה:

אם אחד או יותר מהפתרונות האלה עוברים את בדיקת היחידה, אז ה-LLM עובר את האתגר של יצירת הקוד.
אם אף אחד מהפתרונות לא עובר את בדיקת היחידה, מודל ה-LLM נכשל באתגר הזה של יצירת קוד.

הנוסחה לחישוב המעבר ב-k היא:

\[\text{pass at k} = \frac{\text{total number of passes}} {\text{total number of challenges}}\]

באופן כללי, ערכים גבוהים יותר של k מניבים ציונים גבוהים יותר של מעבר ב-k, אבל ערכים גבוהים יותר של k דורשים יותר משאבים של מודל שפה גדול (LLM) ובדיקות יחידה.

לוחצים על הסמל כדי לראות דוגמה.

נניח שמהנדס תוכנה מבקש ממודל שפה גדול ליצור k=10 פתרונות ל-n=50 בעיות מאתגרות בתכנות. אלה התוצאות:

30 כרטיסים
20 נכשלו

לכן, הציון שמעיד על מעבר הוא 10:

$$\text{pass at 10} = \frac{\text{30}} {\text{50}} = 0.6$$

מודל השפה Pathways (PaLM)

מודל ישן יותר, שקדם למודלים של Gemini.

Pax

#generativeAI

‫Framework לתכנות שנועד לאימון של מודלים של רשתות נוירונים בקנה מידה גדול, כלומר מודלים כל כך גדולים שהם משתרעים על פני כמה פרוסות או אשכולות של שבבי האצה מסוג TPU.

‫Pax מבוסס על Flax, שמבוסס על JAX.

דיאגרמה שמציינת את המיקום של Pax במערך התוכנה.
‫Pax מבוסס על JAX. ‫Pax עצמו מורכב משלוש שכבות. השכבה התחתונה מכילה את TensorStore ו-Flax.
השכבה האמצעית מכילה את Optax ו-Flaxformer. השכבה העליונה מכילה את Praxis Modeling Library. ‫Fiddle מבוסס על Pax.

‫

פרספטרון

מערכת (חומרה או תוכנה) שמקבלת ערך קלט אחד או יותר, מפעילה פונקציה על הסכום המשוקלל של הקלטים ומחשבת ערך פלט יחיד. בלמידת מכונה, הפונקציה היא בדרך כלל לא לינארית, כמו ReLU,‏ sigmoid או tanh. לדוגמה, הפרספטרון הבא מסתמך על פונקציית הסיגמואיד כדי לעבד שלושה ערכי קלט:

$$f(x_1, x_2, x_3) = \text{sigmoid}(w_1 x_1 + w_2 x_2 + w_3 x_3)$$

באיור הבא, הפרספטרון מקבל שלושה קלטים, שכל אחד מהם עובר שינוי באמצעות משקל לפני שהוא נכנס לפרספטרון:

פרספטרון שמקבל 3 קלטים, שכל אחד מהם מוכפל במשקלים נפרדים. הפרספטרון מוציא ערך יחיד.

פרספטרונים הם הנוירונים ברשתות נוירונים.

ביצועים

#Metric

מונח עם עומס יתר שכולל את המשמעויות הבאות:

המשמעות הסטנדרטית בהנדסת תוכנה. כלומר: עד כמה התוכנה הזו פועלת מהר (או ביעילות)?
המשמעות בהקשר של למידת מכונה. התשובה לשאלה הבאה: עד כמה המודל הזה מדויק? כלומר, עד כמה התחזיות של המודל טובות?

חשיבות משתנים בתמורה

#df

#Metric

סוג של חשיבות משתנה שמעריך את העלייה בשגיאת החיזוי של מודל אחרי שינוי הערכים של התכונה. חשיבות המשתנה בפרמוטציה היא מדד שלא תלוי במודל.

תמיהה

#Metric

מדד אחד שמשקף את מידת ההצלחה של מודל בהשגת המטרה שלו. לדוגמה, נניח שהמשימה שלכם היא לקרוא את כמה האותיות הראשונות של מילה שמשתמש מקליד במקלדת של טלפון, ולהציע רשימה של מילים אפשריות להשלמה. הערך של Perplexity, ‏ P, למשימה הזו הוא בערך מספר הניחושים שצריך להציע כדי שהרשימה תכיל את המילה שהמשתמש מנסה להקליד.

המדד Perplexity קשור לcross-entropy באופן הבא:

$$P= 2^{-\text{cross entropy}}$$

צינור עיבוד נתונים

התשתית שמקיפה אלגוריתם של למידת מכונה. הצינור כולל את איסוף הנתונים, הכנסת הנתונים לקובצי נתוני אימון, אימון של מודל אחד או יותר וייצוא המודלים לסביבת הייצור.

מידע נוסף זמין במאמר צינורות ML בקורס בנושא ניהול פרויקטים של ML.

צינור עיבוד נתונים

סוג של מקביליות מודל שבו העיבוד של מודל מחולק לשלבים עוקבים, וכל שלב מבוצע במכשיר אחר. בזמן ששלב מסוים מעבד אצווה אחת, השלב הקודם יכול לעבוד על האצווה הבאה.

אפשר לעיין גם במאמר בנושא הדרכה שהועברה לסביבת Staging.

pjit

פונקציית JAX שמפצלת קוד להרצה בכמה שבבי האצה. המשתמש מעביר פונקציה ל-pjit, שמחזירה פונקציה עם סמנטיקה שוות ערך, אבל היא עוברת קומפילציה לחישוב XLA שפועל בכמה מכשירים (כמו ליבות של GPU או TPU).

‫pjit מאפשר למשתמשים לפצל חישובים בלי לשכתב אותם באמצעות מחלקת המחיצות SPMD.

נכון למרץ 2023, ‏pjit מוזג עם jit. פרטים נוספים זמינים במאמר בנושא מערכים מבוזרים והקבלה אוטומטית.

PLM

#generativeAI

קיצור של מודל שפה שעבר אימון מראש.

pmap

פונקציית JAX שמבצעת עותקים של פונקציית קלט במכשירי חומרה בסיסיים מרובים (מעבדים, מעבדים גרפיים או TPU), עם ערכי קלט שונים. פונקציית pmap מסתמכת על SPMD.

מדיניות

בלמידת חיזוק, מיפוי הסתברותי של סוכן ממצבי למידה לפעולות.

איגום

הקטנת מטריצה (או מטריצות) שנוצרה על ידי שכבת קונבולוציה קודמת למטריצה קטנה יותר. בדרך כלל, איגום נתונים כולל שימוש בערך המקסימלי או הממוצע של האזור המאוגם. לדוגמה, נניח שיש לנו את מטריצת 3x3 הבאה:

המטריצה 3x3‏ [[5,3,1], [8,2,5], [9,4,3]].

פעולת איגום, כמו פעולת קונבולוציה, מחלקת את המטריצה לפרוסות ואז מחליקה את פעולת הקונבולוציה בצעדים. לדוגמה, נניח שפעולת האיגום מחלקת את מטריצת הקונבולוציה לפרוסות בגודל 2x2 עם צעד של 1x1. כפי שהדיאגרמה הבאה ממחישה, מתבצעות ארבע פעולות של שיתוף משאבים. נניח שכל פעולת איגום בוחרת את הערך המקסימלי מתוך ארבעת הערכים בפרוסה הזו:

האיגום עוזר לאכוף אי-תלות בתרגום במטריצת הקלט.

האיגום ליישומי ראייה נקרא באופן רשמי יותר איגום מרחבי. בדרך כלל, ביישומים של סדרות עיתיות, איגום נקרא איגום זמני. בשימוש פחות רשמי, לפעולת ה-Pooling קוראים לעיתים קרובות subsampling או downsampling.

קידוד לפי מיקום

טכניקה להוספת מידע על המיקום של טוקן ברצף להטמעה של הטוקן. מודלים מסוג טרנספורמר משתמשים בקידוד מיקום כדי להבין טוב יותר את הקשר בין חלקים שונים ברצף.

בדרך כלל, קידוד לפי מיקום מבוסס על פונקציה סינוסואידית. (באופן ספציפי, התדירות והמשרעת של הפונקציה הסינוסואידית נקבעות לפי המיקום של הטוקן ברצף). הטכניקה הזו מאפשרת למודל Transformer ללמוד להתמקד בחלקים שונים של הרצף על סמך המיקום שלהם.

positive class

#fundamentals

#Metric

הכיתה שאתם נבחנים בה.

לדוגמה, המחלקה החיובית במודל לסרטן יכולה להיות 'גידול'. הסיווג החיובי במודל סיווג של אימייל יכול להיות 'ספאם'.

הניגוד לסיווג שלילי.

כדי לראות טיפים ממשתמשים נוספים, לוחצים על הסמל.

המונח סיווג חיובי עלול לבלבל, כי התוצאה ה'חיובית' של הרבה בדיקות היא לרוב תוצאה לא רצויה. לדוגמה, המחלקה החיובית בהרבה בדיקות רפואיות מתאימה לגידולים או למחלות. באופן כללי, אתם רוצים לשמוע מרופא את המילים: "מזל טוב! תוצאות הבדיקה שלך היו שליליות". בכל מקרה, המחלקה החיובית היא האירוע שהבדיקה מנסה למצוא.

אמנם, אתם בודקים בו-זמנית את המחלקות החיוביות והשליליות.

עיבוד תמונה (Post Processing)

#responsible

#fundamentals

שינוי הפלט של מודל אחרי שהמודל הופעל. אפשר להשתמש בעיבוד שלאחר מכן כדי לאכוף אילוצי הוגנות בלי לשנות את המודלים עצמם.

לדוגמה, אפשר להחיל עיבוד אחרי על מודל סיווג בינארי על ידי הגדרת סף סיווג כך ששוויון הזדמנויות יישמר עבור מאפיין מסוים. כדי לעשות זאת, צריך לוודא ששיעור החיוביים האמיתיים זהה לכל הערכים של אותו מאפיין.

מודל שעבר אימון אחרי האימון הראשוני

#generativeAI

מונח לא מוגדר היטב שמתייחס בדרך כלל למודל שעבר אימון מקדים ועבר עיבוד כלשהו, כמו אחד או יותר מהשלבים הבאים:

זיקוק
כוונון עדין
התאמה להוראות

PR AUC (השטח מתחת לעקומת ה-PR)

#Metric

השטח מתחת לעקומת הדיוק וההחזרה שחושבה על ידי אינטרפולציה, שהתקבלה משרטוט נקודות (החזרה, דיוק) עבור ערכים שונים של סף הסיווג.

Praxis

ספריית ליבה של Pax ללמידת מכונה (ML) עם ביצועים גבוהים. לפעמים קוראים ל-Praxis 'ספריית השכבות'.

‫Praxis מכיל לא רק את ההגדרות של מחלקת Layer, אלא גם את רוב רכיבי התמיכה שלה, כולל:

קלט של נתונים
ספריות הגדרה (HParam ו-Fiddle)
optimizers

‫Praxis מספק את ההגדרות של המחלקה Model.

דיוק

#fundamentals

#Metric

מדד למודלים של סיווג שעונה על השאלה הבאה:

כשהמודל חזה את הסיווג החיובי, מה אחוז החיזויים הנכונים?

זו הנוסחה:

$$\text{Precision} = \frac{\text{true positives}} {\text{true positives} + \text{false positives}}$$

where:‎

חיובי אמיתי פירושו שהמודל חזה נכון את המחלקה החיובית.
תוצאה חיובית שגויה פירושה שהמודל טעה וחיזוי את הסיווג החיובי.

לדוגמה, נניח שמודל מסוים הפיק 200 חיזויים חיוביים. מתוך 200 התחזיות החיוביות האלה:

150 היו TRUE.
50 מהן היו תוצאות חיוביות כוזבות.

במקרה זה:

$$\text{Precision} = \frac{\text{150}} {\text{150} + \text{50}} = 0.75$$

ההגדרה הזו שונה מדיוק ומהחזרה.

מידע נוסף זמין במאמר סיווג: דיוק, היזכרות, פרסיזיה ומדדים קשורים בסדנה ללמידת מכונה.

דיוק ב-k‏ (precision@k)

#Metric

מדד להערכת רשימה מדורגת (מסודרת) של פריטים. המדד 'דיוק ב-k' מזהה את החלק של k הפריטים הראשונים ברשימה שהם 'רלוונטיים'. כלומר:

\[\text{precision at k} = \frac{\text{relevant items in first k items of the list}} {\text{k}}\]

הערך של k צריך להיות קטן מאורך הרשימה שמוחזרת או שווה לו. שימו לב שאורך הרשימה שמוחזרת לא נכלל בחישוב.

רלוונטיות היא לרוב סובייקטיבית. אפילו מעריכים אנושיים מומחים חלוקים בדעתם לגבי הפריטים הרלוונטיים.

השווה ל:

דיוק ממוצע ב-k
דיוק ממוצע ב-k

כדי לראות דוגמה, לוחצים על הסמל.

נניח שמודל שפה גדול מקבל את השאילתה הבאה:

List the 6 funniest movies of all time in order.

מודל השפה הגדול מחזיר את הרשימה שמוצגת בשתי העמודות הראשונות של הטבלה הבאה:

מיקום	סרט	רלוונטי?
1	The General	כן
2	Mean Girls	כן
3	Platoon	לא
4	שושבינות	כן
5	האזרח קיין	לא
6	This is Spinal Tap	כן

שניים מתוך שלושת הסרטים הראשונים רלוונטיים, ולכן רמת הדיוק ב-3 היא:

$$\text{precision at 3} = \frac{\text{2}} {\text{3}} = 0.67$$

שלושה מתוך חמשת הסרטים הראשונים מצחיקים מאוד, ולכן הדיוק ב-5 הוא:

$$\text{precision at 5} = \frac{\text{3}} {\text{5}} = 0.6$$

עקומת דיוק-החזרה

#Metric

עקומת הדיוק לעומת ההחזרה בספי סיווג שונים.

חיזוי (prediction)

#fundamentals

הפלט של המודל. לדוגמה:

החיזוי של מודל סיווג בינארי הוא או המחלקה החיובית או המחלקה השלילית.
החיזוי של מודל סיווג רב-מחלקתי הוא מחלקה אחת.
החיזוי של מודל רגרסיה לינארית הוא מספר.

הטיה בתחזית

#Metric

ערך שמציין את המרחק בין הממוצע של התחזיות לבין הממוצע של התוויות במערך הנתונים.

לא להתבלבל עם מונח ההטיה במודלים של למידת מכונה או עם הטיה באתיקה ובהוגנות.

למידת מכונה חזויה

כל מערכת למידת מכונה רגילה (קלאסית).

למונח predictive ML אין הגדרה רשמית. המונח הזה מבחין בין קטגוריה של מערכות ML שלא מבוססות על AI גנרטיבי.

שוויון חיזוי

#responsible

#Metric

מדד הוגנות שבודק אם שיעורי הדיוק שווים עבור קבוצות משנה שנבדקות במודל סיווג נתון.

לדוגמה, מודל שמנבא קבלה למכללה יעמוד בדרישות של שוויון חיזוי לפי לאום אם שיעור הדיוק שלו זהה עבור אנשים מליליפוט ואנשים מברובדינגנאג.

לפעמים קוראים לשיטה הזו גם שוויון חזוי בשיעורי ההמרה.

דיון מפורט יותר בנושא שוויון חיזוי זמין במאמר הסבר על הגדרות ההוגנות (סעיף 3.2.1).

השוואת מחירים חזויה

#responsible

#Metric

שם נוסף לשוויון חיזוי.

עיבוד מקדים

#responsible

עיבוד נתונים לפני השימוש בהם לאימון מודל. העיבוד המקדים יכול להיות פשוט כמו הסרת מילים מ קורפוס טקסט באנגלית שלא מופיעות במילון האנגלי, או מורכב כמו שינוי של נקודות נתונים באופן שמבטל כמה שיותר מאפיינים שקשורים למאפיינים רגישים. עיבוד מקדים יכול לעזור לעמוד באילוצי הוגנות.

מודל שעבר אימון מראש

#generativeAI

למרות שהמונח הזה יכול להתייחס לכל מודל או וקטור הטמעה שעברו אימון, כיום המונח 'מודל שעבר אימון מראש' מתייחס בדרך כלל למודל שפה גדול (LLM) שעבר אימון או לצורה אחרת של מודל בינה מלאכותית גנרטיבית שעבר אימון.

כדאי לעיין גם בערכים מודל בסיס ומודל בסיסי.

אימון מראש

#generativeAI

אימון ראשוני של מודל על מערך נתונים גדול. חלק מהמודלים שעברו אימון מראש הם מודלים גדולים ומסורבלים, ובדרך כלל צריך לשפר אותם באמצעות אימון נוסף. לדוגמה, מומחים ללמידת מכונה יכולים לאמן מראש מודל שפה גדול על מערך נתונים עצום של טקסט, כמו כל הדפים באנגלית בוויקיפדיה. אחרי האימון המקדים, אפשר לשפר את המודל שמתקבל באמצעות אחת מהטכניקות הבאות:

זיקוק
שיפור הדיוק
instruction tuning
כוונון יעיל בפרמטרים
שיפור הנחיות

הסתברות פריורית

מה אתם חושבים על הנתונים לפני שמתחילים לאמן את המודל על סמך הנתונים האלה. לדוגמה, רגולריזציה מסוג _L2 מסתמכת על הסתברות פריורית שמשקלים צריכים להיות קטנים ולהתפלג באופן נורמלי סביב אפס.

Pro

#generativeAI

מודל Gemini עם פחות פרמטרים מ-Ultra אבל יותר פרמטרים מ-Nano. פרטים נוספים זמינים במאמר בנושא Gemini Pro.

מודל רגרסיה הסתברותי

מודל רגרסיה שמשתמש לא רק במשקלים של כל תכונה, אלא גם במידת אי הוודאות של המשקלים האלה. מודל רגרסיה הסתברותי יוצר חיזוי ואת אי הוודאות של החיזוי הזה. לדוגמה, מודל רגרסיה הסתברותי עשוי להניב תחזית של 325 עם סטיית תקן של 12. מידע נוסף על מודלים של רגרסיה הסתברותית זמין במאמר הזה ב-Colab בכתובת tensorflow.org.

פונקציית צפיפות ההסתברות

#Metric

פונקציה שמזהה את התדירות של דגימות נתונים עם ערך מסוים בדיוק. כשערכים של מערך נתונים הם מספרים רציפים עם נקודה צפה, התאמות מדויקות הן נדירות. עם זאת, שילוב של פונקציית צפיפות הסתברות מהערך x לערך y מניב את התדירות הצפויה של דגימות נתונים בין x ל-y.

לדוגמה, נניח שיש התפלגות נורמלית עם ממוצע של 200 וסטיית תקן של 30. כדי לקבוע את התדירות הצפויה של דגימות נתונים שנמצאות בטווח 211.4 עד 218.7, אפשר לבצע אינטגרציה של פונקציית צפיפות ההסתברות להתפלגות נורמלית מ-211.4 עד 218.7.

הנחיה

#generativeAI

כל טקסט שמוזן כקלט למודל שפה גדול כדי להתנות את המודל להתנהג בצורה מסוימת. ההנחיות יכולות להיות קצרות כמו ביטוי, או ארוכות ככל שרוצים (לדוגמה, הטקסט המלא של רומן). ההנחיות מחולקות לכמה קטגוריות, כולל אלה שמוצגות בטבלה הבאה:

קטגוריית ההנחיה	דוגמה	הערות
שאלה	`מהי מהירות התעופה של יונה?`
הוראות	`תכתוב שיר מצחיק על ארביטראז'.`	פרומפט שמבקש ממודל שפה גדול לעשות משהו.
דוגמה	`תרגום קוד Markdown ל-HTML. לדוגמה: ‫Markdown:‏ * list item ‫HTML:‏ <ul> <li>list item</li> </ul>`	המשפט הראשון בהנחיה לדוגמה הזו הוא הוראה. שאר ההנחיה היא הדוגמה.
תפקיד	`תסביר למה משתמשים בשיטת גרדיאנט ירידה באימון של למידת מכונה, ברמה של דוקטורט בפיזיקה.`	החלק הראשון של המשפט הוא הוראה, והביטוי "to a PhD in Physics" הוא החלק שמתייחס לתפקיד.
קלט חלקי שהמודל צריך להשלים	`ראש ממשלת בריטניה מתגורר בכתובת`	הנחיה חלקית לקלט יכולה להסתיים בפתאומיות (כמו בדוגמה הזו) או להסתיים בקו תחתון.

מודל בינה מלאכותית גנרטיבית יכול להגיב להנחיה באמצעות טקסט, קוד, תמונות, הטמעות, סרטונים… כמעט כל דבר.

מצב למידה מבוסס-הנחיות

#generativeAI

יכולת של מודלים מסוימים שמאפשרת להם להתאים את ההתנהגות שלהם בתגובה לקלט טקסט שרירותי (הנחיות). בפרדיגמה טיפוסית של למידה מבוססת-הנחיה, מודל שפה גדול מגיב להנחיה על ידי יצירת טקסט. לדוגמה, נניח שמשתמש מזין את ההנחיה הבאה:

סכמו את חוק צילום בתנועה השלישי של ניוטון.

מודל שיכול להיות במצב למידה על סמך הנחיות לא עובר אימון ספציפי כדי לענות על ההנחיה הקודמת. במקום זאת, המודל 'יודע' הרבה עובדות על פיזיקה, הרבה על כללי שפה כלליים והרבה על מה נחשב לתשובות שימושיות באופן כללי. הידע הזה מספיק כדי לספק תשובה (בתקווה) מועילה. משוב אנושי נוסף ("התשובה הזו הייתה מסובכת מדי" או "מה זה תגובה?") מאפשר למערכות מסוימות של למידה מבוססת-הנחיות לשפר בהדרגה את התועלת של התשובות שלהן.

עיצוב הנחיות

#generativeAI

מילה נרדפת להנדסת הנחיות.

הנדסת הנחיות

#generativeAI

האומנות של יצירת הנחיות שמניבות תשובות רצויות ממודל שפה גדול. בני אדם מבצעים הנדסת הנחיות. כתיבת הנחיות מובנות היטב היא חלק חיוני בהבטחת תשובות מועילות ממודל שפה גדול. הנדסת הנחיות תלויה בהרבה גורמים, כולל:

קבוצת הנתונים שמשמשת לאימון מראש ולכוונון עדין של מודל השפה הגדול.
רמת האקראיות ופרמטרים אחרים של פענוח שהמודל משתמש בהם כדי ליצור תשובות.

עיצוב פרומפטים הוא מילה נרדפת להנדסת פרומפטים.

פרטים נוספים על כתיבת הנחיות מועילות זמינים במאמר בנושא מבוא לעיצוב הנחיות.

קבוצת הנחיות

#generativeAI

קבוצה של הנחיות להערכה של מודל שפה גדול. לדוגמה, באיור הבא מוצג סט של הנחיות שכולל שלוש הנחיות:

שלוש הנחיות למודל LLM יוצרות שלוש תשובות. שלושת הפרומפטים
הם קבוצת הפרומפטים. שלוש התשובות הן קבוצת התשובות.

קבוצות טובות של פרומפטים כוללות אוסף מספיק 'רחב' של פרומפטים כדי להעריך באופן יסודי את הבטיחות והתועלת של מודל שפה גדול.

אפשר לעיין גם במאמר בנושא קבוצת תשובות.

כוונון הנחיות

#generativeAI

מנגנון כוונון יעיל בפרמטרים שלומד "קידומת" שהמערכת מוסיפה לפני ההנחיה עצמה.

אחת מהווריאציות של שינוי ההנחיות – שנקראת לפעמים שינוי של התחילית – היא הוספת התחילית לכל שכבה. לעומת זאת, ברוב המקרים של שיפור הנחיות מוסיפים רק קידומת לשכבת הקלט.

כדי לקבל מידע נוסף על קידומות, לוחצים על הסמל.

בשיפור הנחיות, הקידומת (שנקראת גם הנחיה רכה) היא קבוצה קטנה של וקטורים שנלמדו וספציפיים למשימה, שמוצמדים לפני הטמעות של טוקנים של טקסט מההנחיה בפועל. המערכת לומדת את ההנחיה הרכה על ידי הקפאת כל שאר הפרמטרים של המודל וביצוע התאמה עדינה למשימה ספציפית.

proxy (מאפיינים רגישים)

#responsible

מאפיין שמשמש כתחליף למאפיין רגיש. לדוגמה, יכול להיות שמיקוד של אדם מסוים ישמש כאינדיקטור לנתונים כמו הכנסה, גזע או מוצא אתני.

תוויות לשרת proxy

#fundamentals

הנתונים שמשמשים להערכת התוויות לא זמינים ישירות במערך נתונים.

לדוגמה, נניח שאתם צריכים לאמן מודל כדי לחזות את רמת הלחץ של העובדים. מערך הנתונים מכיל הרבה תכונות חיזוי, אבל לא מכיל תווית בשם stress level. אתם לא מתייאשים ובוחרים בתווית 'תאונות במקום העבודה' כתווית חלופית לרמת הלחץ. בסופו של דבר, עובדים שנמצאים במתח גבוה מעורבים ביותר תאונות מעובדים רגועים. או שכן? יכול להיות ששיעור התאונות במקומות העבודה עולה ויורד מכמה סיבות.

דוגמה נוספת: נניח שרוצים להגדיר את התווית is it raining?‎ כתווית בוליאנית לקבוצת הנתונים, אבל קבוצת הנתונים לא מכילה נתוני גשם. אם יש תמונות זמינות, יכול להיות שתגדירו תמונות של אנשים עם מטריות כתווית שרת proxy לשאלה is it raining? (האם יורד גשם?). האם זו תווית טובה לשימוש כשרת proxy? יכול להיות, אבל אנשים בתרבויות מסוימות נוטים יותר לשאת מטרייה כדי להגן על עצמם מפני השמש ולא מפני הגשם.

תוויות של שרתי proxy הן לרוב לא מושלמות. במידת האפשר, עדיף לבחור תוויות בפועל ולא תוויות שרת proxy. עם זאת, אם אין תווית בפועל, צריך לבחור את שרת ה-proxy בזהירות רבה, ולבחור את מועמד שרת ה-proxy שהכי פחות נוראית.

מידע נוסף זמין במאמר Datasets: Labels (קבוצות נתונים: תוויות) בקורס המקוצר על למידת מכונה.

פונקציה טהורה

פונקציה שהפלט שלה מבוסס רק על הקלט שלה, ואין לה תופעות לוואי. במילים אחרות, פונקציה טהורה לא משתמשת במצב גלובלי ולא משנה אותו, כמו התוכן של קובץ או הערך של משתנה מחוץ לפונקציה.

אפשר להשתמש בפונקציות טהורות כדי ליצור קוד thread-safe, וזה מועיל כשמבצעים שרדינג של קוד מודל בכמה שבבי האצה.

שיטות ההמרה של פונקציות ב-JAX מחייבות שהפונקציות שמוזנות יהיו פונקציות טהורות.

Q

פונקציית Q

בלמידת חיזוק, הפונקציה שמנבאת את התגמול הצפוי מביצוע פעולה במצב מסוים, ולאחר מכן מביצוע מדיניות מסוימת.

פונקציית Q נקראת גם פונקציית ערך של מצב-פעולה.

Q-learning

בלמידת חיזוק, אלגוריתם שמאפשר לסוכן ללמוד את פונקציית Q האופטימלית של תהליך קבלת החלטות של מרקוב באמצעות משוואת בלמן. תהליך קבלת ההחלטות של מרקוב מדמה סביבה.

quantile

כל קטגוריה בקטגוריות של קוונטילים.

חלוקה לקוונטילים

חלוקת הערכים של מאפיין לקבוצות כך שכל קבוצה מכילה את אותו מספר דוגמאות (או מספר כמעט זהה). לדוגמה, באיור הבא, 44 נקודות מחולקות ל-4 קטגוריות, שבכל אחת מהן יש 11 נקודות. כדי שכל קטגוריה באיור תכיל את אותו מספר נקודות, חלק מהקטגוריות משתרעות על רוחב שונה של ערכי x.

44 נקודות נתונים מחולקות ל-4 קטגוריות של 11 נקודות כל אחת.
למרות שבכל דלי יש את אותו מספר של נקודות נתונים,
חלק מהדליים מכילים טווח רחב יותר של ערכי מאפיינים מאשר דליים אחרים.

מידע נוסף מופיע במאמר נתונים מספריים: חלוקה לקטגוריות בקורס המקוצר על למידת מכונה.

קוונטיזציה

מונח עמוס שיכול לשמש בכל אחת מהדרכים הבאות:

הטמעה של חלוקה לקבוצות לפי אחוזון בתכונה מסוימת.
הפיכת הנתונים לאפסים ולאחדות כדי לאחסן, לאמן ולהסיק מסקנות מהר יותר. נתונים בוליאניים עמידים יותר לרעשי רקע ולשגיאות בהשוואה לפורמטים אחרים, ולכן כימות יכול לשפר את נכונות המודל. טכניקות הכמותיות כוללות עיגול, חיתוך וחלוקה לתאים.
הפחתת מספר הביטים שמשמשים לאחסון הפרמטרים של מודל. לדוגמה, נניח שהפרמטרים של מודל מאוחסנים כמספרים נקודה צפה (floating-point) של 32 ביט. קוונטיזציה ממירה את הפרמטרים האלה מ-32 ביט ל-4, 8 או 16 ביט. הכימות מצמצם את:
- שימוש במחשוב, בזיכרון, בדיסק וברשת
- הזמן להסקת תחזית
- צריכת חשמל
עם זאת, לפעמים הכמתה מפחיתה את מידת הדיוק של התחזיות של המודל.

רשימת סרטונים

#TensorFlow

‫Operation של TensorFlow שמטמיע מבנה נתונים של תור. בדרך כלל נמצא בשימוש בקלט/פלט.

R

RAG

#fundamentals

קיצור של retrieval-augmented generation (יצירה משופרת באמצעות אחזור).

יער אקראי

#df

אנסמבל של עצי החלטה שבהם כל עץ החלטה מאומן עם רעש אקראי ספציפי, כמו bagging.

יערות אקראיים הם סוג של יער החלטות.

מידע נוסף זמין במאמר Random Forest (יער אקראי) בקורס בנושא Decision Forests (יערות החלטה).

מדיניות אקראית

בלמידת חיזוק, מדיניות שבוחרת פעולה באופן אקראי.

rank (ordinality)

המיקום הסידורי של מחלקה בבעיה של למידה חישובית שמסווגת מחלקות מהגבוה לנמוך. לדוגמה, מערכת דירוג התנהגות יכולה לדרג את התגמולים של כלב מהגבוה ביותר (סטייק) לנמוך ביותר (כרוב עלים נבול).

rank (Tensor)

#TensorFlow

מספר המאפיינים ב-Tensor. לדוגמה, לערך סקלרי יש דרגה 0, לווקטור יש דרגה 1 ולמטריצה יש דרגה 2.

לא להתבלבל עם דירוג (סדר).

דירוג

סוג של למידה מונחית שמטרתה לסדר רשימה של פריטים.

מעריך

#fundamentals

אדם שמספק תוויות לדוגמאות. 'מורשה לרישום מעל המסך' הוא שם נוסף ל'מדרג'.

מידע נוסף זמין במאמר נתונים קטגוריים: בעיות נפוצות בקורס המזורז ללמידת מכונה.

הבנת הנקרא עם מערך נתונים של חשיבה הגיונית (ReCoRD)

#Metric

מערך נתונים להערכת היכולת של מודל LLM לבצע חשיבה רציונלית. כל דוגמה במערך הנתונים מכילה שלושה רכיבים:

פסקה או שתיים מכתבה
שאילתה שבה אחת מהישויות שזוהו במפורש או במרומז בפסקה מוסתרת.
התשובה (שם הישות שצריך להופיע במסכה)

רשימה מקיפה של דוגמאות מופיעה במאמר בנושא ReCoRD.

‫ReCoRD הוא רכיב של SuperGLUE ensemble.

RealToxicityPrompts

#Metric

מערך נתונים שמכיל קבוצה של התחלות משפטים שעשויות להכיל תוכן רעיל. משתמשים במערך הנתונים הזה כדי להעריך את היכולת של מודל שפה גדול (LLM) ליצור טקסט לא רעיל כדי להשלים את המשפט. בדרך כלל, משתמשים ב-Perspective API כדי לקבוע את רמת הביצוע של ה-LLM במשימה הזו.

פרטים נוספים זמינים במאמר RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language Models.

recall

#fundamentals

#Metric

מדד למודלים של סיווג שעונה על השאלה הבאה:

כאשר אמת קרקע הייתה הסיווג החיובי, איזה אחוז מהתחזיות המודל זיהה נכון כסיווג החיובי?

זו הנוסחה:

\[\text{Recall} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}} \]

where:‎

חיובי אמיתי פירושו שהמודל חזה נכון את המחלקה החיובית.
שלילי שגוי פירושו שהמודל טעה וחיזה את הסיווג השלילי.

לדוגמה, נניח שהמודל שלכם ביצע 200 חיזויים על דוגמאות שבהן אמת הקרקע הייתה הסיווג החיובי. מתוך 200 התחזיות האלה:

180 היו TRUE חיוביים.
20 מהן היו תוצאות שליליות שגויות.

במקרה זה:

\[\text{Recall} = \frac{\text{180}} {\text{180} + \text{20}} = 0.9 \]

לוחצים על הסמל כדי לראות טיפים ממשתמשים לגבי מערכי נתונים עם חוסר איזון בין הכיתות.

המדד Recall שימושי במיוחד לקביעת כוח החיזוי של מודלים לסיווג שבהם המחלקה החיובית נדירה. לדוגמה, נניח שיש מערך נתונים עם חוסר איזון בין המחלקות שבו המחלקה החיובית למחלה מסוימת מופיעה רק אצל 10 מתוך מיליון מטופלים. נניח שהמודל שלכם מבצע חמישה מיליון חיזויים שמניבים את התוצאות הבאות:

30 TRUE חיוביים
20 FALSE Negatives
4,999,000 תוצאות שליליות TRUE
950 FALSE Positives

לכן, ערך ה-recall של המודל הזה הוא:

recall = TP / (TP + FN)
recall = 30 / (30 + 20) = 0.6 = 60%

לעומת זאת, רמת הדיוק של המודל הזה היא:

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (30 + 4,999,000) / (30 + 4,999,000 + 950 + 20) = 99.98%

ערך הדיוק הגבוה הזה נראה מרשים, אבל הוא חסר משמעות. המדד Recall שימושי הרבה יותר למערכי נתונים לא מאוזנים מבחינת כמות הנתונים בכל מחלקה מאשר המדד Accuracy.

מידע נוסף זמין במאמר סיווג: דיוק, היזכרות, פרסיזיה ומדדים קשורים.

ריקול ב-k (recall@k)

#Metric

מדד להערכת מערכות שמפיקות רשימה מדורגת (מסודרת) של פריטים. המדד Recall at k מזהה את החלק של הפריטים הרלוונטיים מתוך k הפריטים הראשונים ברשימה, מתוך המספר הכולל של הפריטים הרלוונטיים שהוחזרו.

\[\text{recall at k} = \frac{\text{relevant items in first k items of the list}} {\text{total number of relevant items in the list}}\]

השוואה לדיוק ב-k.

כדי לראות דוגמה, לוחצים על הסמל.

נניח שמודל שפה גדול מקבל את השאילתה הבאה:

List the 10 funniest movies of all time in order.

מודל השפה הגדול מחזיר את הרשימה שמוצגת בשתי העמודות הראשונות:

מיקום	סרט	רלוונטי?
1	The General	כן
2	Mean Girls	כן
3	Platoon	לא
4	שושבינות	כן
5	This is Spinal Tap	כן
6	Airplane!	כן
7	יום המרמיטה	כן
8	מונטי פייתון והגביע הקדוש	כן
9	אופנהיימר	לא
10	Clueless	כן

שמונה מהסרטים ברשימה הקודמת הם מאוד מצחיקים, ולכן הם נחשבים ל'פריטים רלוונטיים ברשימה'. לכן, 8 יהיה המכנה בכל החישובים של ההחזרה ב-k. מה לגבי המונה? ובכן, 3 מתוך 4 הפריטים הראשונים רלוונטיים, ולכן ערך הזיכרון ב-4 הוא:

$$\text{recall at 4} = \frac{\text{3}} {\text{8}} = 0.375$$

7 מתוך 8 הסרטים הראשונים מצחיקים מאוד, ולכן רמת הזכירה בסרטון 8 היא:

$$\text{recall at 8} = \frac{\text{7}} {\text{8}} = 0.875$$

זיהוי של הסקה לוגית מטקסט (RTE)

#Metric

מערך נתונים להערכת היכולת של מודל שפה גדול לקבוע אם אפשר להסיק השערה (לוגית) מקטע טקסט. כל דוגמה בהערכה של RTE מורכבת משלושה חלקים:

קטע, בדרך כלל מכתבות חדשותיות או ממאמרי ויקיפדיה
השערה
התשובה הנכונה, שהיא אחת מהאפשרויות הבאות:
- True, meaning the hypothesis can be entailed from the passage
- False, כלומר ההשערה לא נגזרת מהפסקה

לדוגמה:

פסקה: האירו הוא המטבע של האיחוד האירופי.
השערה: בצרפת משתמשים באירו כמטבע.
היסק: True, כי צרפת היא חלק מהאיחוד האירופי.

RTE הוא רכיב של SuperGLUE.

מערכת ההמלצות

מערכת שבוחרת לכל משתמש קבוצה קטנה יחסית של פריטים רצויים מתוך מאגר גדול. לדוגמה, מערכת להמלצה על סרטונים עשויה להמליץ על שני סרטונים מתוך מאגר של 100,000 סרטונים. למשתמש אחד היא תבחר את הסרטונים קזבלנקה וסיפור פילדלפיה, ולמשתמש אחר את הסרטונים וונדר וומן והפנתר השחור. מערכת המלצות לסרטונים עשויה לבסס את ההמלצות שלה על גורמים כמו:

סרטים שמשתמשים דומים דירגו או צפו בהם.
ז'אנר, במאים, שחקנים, קבוצה דמוגרפית לטירגוט...

מידע נוסף זמין בקורס בנושא מערכות המלצות.

ReCoRD

#Metric

קיצור של Reading Comprehension with Commonsense Reasoning Dataset (הבנת הנקרא עם מערך נתונים של חשיבה הגיונית).

יחידה לינארית מתוקנת (ReLU)

#fundamentals

פונקציית הפעלה עם ההתנהגות הבאה:

אם הקלט שלילי או אפס, הפלט הוא 0.
אם הקלט חיובי, הפלט שווה לקלט.

לדוגמה:

אם הקלט הוא ‎-3, הפלט הוא 0.
אם הקלט הוא ‎+3, הפלט הוא 3.0.

הנה גרף של ReLU:

‫ReLU היא פונקציית הפעלה פופולרית מאוד. למרות ההתנהגות הפשוטה שלה, ReLU עדיין מאפשרת לרשת נוירונים ללמוד על קשרים לא לינאריים בין תכונות לבין התווית.

רשת נוירונים חוזרת

רשת נוירונים שמופעלת בכוונה כמה פעמים, כשחלקים מכל הפעלה מוזנים להפעלה הבאה. באופן ספציפי, שכבות מוסתרות מההרצה הקודמת מספקות חלק מהקלט לאותה שכבה מוסתרת בהרצה הבאה. רשתות נוירונים חוזרות שימושיות במיוחד להערכת רצפים, כך שהשכבות הנסתרות יכולות ללמוד מהרצות קודמות של רשת הנוירונים בחלקים קודמים של הרצף.

לדוגמה, באיור הבא מוצגת רשת נוירונים חוזרת שפועלת ארבע פעמים. שימו לב שהערכים שנלמדו בשכבות הנסתרות מההרצה הראשונה הופכים לחלק מהקלט לאותן שכבות נסתרות בהרצה השנייה. באופן דומה, הערכים שנלמדו בשכבה הנסתרת בהרצה השנייה הופכים לחלק מהקלט לאותה שכבה נסתרת בהרצה השלישית. כך, רשת הנוירונים החוזרת מתאמנת בהדרגה ומנבאת את המשמעות של הרצף כולו, ולא רק את המשמעות של מילים בודדות.

רשת RNN שפועלת ארבע פעמים כדי לעבד ארבע מילים כקלט.

טקסט הפניה

#generativeAI

תשובה של מומחה להנחיה. לדוגמה, אם נותנים את ההנחיה הבאה:

תרגם את השאלה "What is your name?‎" מאנגלית לצרפתית.

תשובה של מומחה יכולה להיות:

Quel est votre nom?

מדדים שונים (כמו ROUGE) מודדים את מידת ההתאמה בין טקסט ההפניה לבין הטקסט שנוצר על ידי מודל ML.

הרהורים

#generativeAI

אסטרטגיה לשיפור האיכות של תהליך עבודה מבוסס-סוכן על ידי בדיקה (רפלקציה) של פלט של שלב לפני העברת הפלט הזה לשלב הבא.

הבודק הוא לרוב אותו LLM שיצר את התשובה (אבל יכול להיות שזה יהיה LLM אחר). איך יכול להיות שאותו LLM שיצר תשובה ישפוט אותה בצורה הוגנת? הטריק הוא להכניס את ה-LLM למצב חשיבה ביקורתי (רפלקטיבי). התהליך הזה דומה לתהליך שבו בעל הרשאת כתיבה משתמש בחשיבה יצירתית כדי לכתוב טיוטה ראשונה, ואז עובר לחשיבה ביקורתית כדי לערוך אותה.

לדוגמה, נניח שיש תהליך עבודה מבוסס-סוכנים שהשלב הראשון שלו הוא ליצור טקסט לספלי קפה. ההנחיה לשלב הזה יכולה להיות:

אתם אנשים יצירתיים. תייצר טקסט הומוריסטי ומקורי באורך של פחות מ-50 תווים שמתאים לספל קפה.

עכשיו דמיינו את ההנחיה הרפלקטיבית הבאה:

אתה שותה קפה. האם התגובה הקודמת מצחיקה?

לאחר מכן, יכול להיות שרק טקסט שמקבל ציון גבוה של השתקפות יעבור לשלב הבא בתהליך העבודה.

מודל רגרסיה

#fundamentals

באופן לא רשמי, מודל שמפיק חיזוי מספרי. (לעומת זאת, מודל סיווג יוצר חיזוי של סיווג.) לדוגמה, כל המודלים הבאים הם מודלים של רגרסיה:

מודל שמנבא את הערך של בית מסוים באירו, למשל 423,000.
מודל שמנבא את תוחלת החיים של עץ מסוים בשנים, למשל 23.2.
מודל שמנבא את כמות הגשם באינצ'ים שתירד בעיר מסוימת במהלך שש השעות הבאות, למשל 0.18.

שני סוגים נפוצים של מודלים של רגרסיה הם:

רגרסיה לינארית, שמוצאת את הקו שהכי מתאים לערכי התוויות ולמאפיינים.
רגרסיה לוגיסטית, שיוצרת הסתברות בין 0.0 ל-1.0, שבדרך כלל ממופה על ידי המערכת לחיזוי של סיווג.

לא כל מודל שמפיק תחזיות מספריות הוא מודל רגרסיה. במקרים מסוימים, חיזוי מספרי הוא למעשה מודל סיווג עם שמות מחלקות מספריים. לדוגמה, מודל שמנבא מיקוד מספרי הוא מודל סיווג ולא מודל רגרסיה.

רגולריזציה (regularization)

#fundamentals

כל מנגנון שמפחית התאמת יתר. סוגים פופולריים של רגולריזציה כוללים:

רגולריזציה מסוג L₁
רגולריזציה מסוג _L2
dropout regularization
עצירה מוקדמת (זו לא שיטה רשמית של רגולריזציה, אבל היא יכולה להגביל ביעילות את התאמת היתר)

אפשר גם להגדיר רגולריזציה כעונש על מורכבות של מודל.

כדי לראות טיפים ממשתמשים נוספים, לוחצים על הסמל.

רגולריזציה היא תהליך לא אינטואיטיבי. הגדלת הרגולריזציה בדרך כלל מגדילה את הפסד האימון, וזה מבלבל כי המטרה היא למזער את הפסד האימון.

למעשה, לא. המטרה היא לא למזער את הפסד האימון. המטרה היא ליצור תחזיות מצוינות על דוגמאות מהעולם האמיתי. חשוב לציין שאף על פי שהגדלת הרגולריזציה מגדילה את אובדן האימון, היא בדרך כלל עוזרת למודלים לבצע תחזיות טובות יותר בדוגמאות מהעולם האמיתי.

מידע נוסף זמין במאמר התאמת יתר: מורכבות המודל בסדנה ללמידת מכונה.

שיעור הרגולריזציה

#fundamentals

מספר שמציין את החשיבות היחסית של רגולריזציה במהלך האימון. העלאת שיעור הרגולריזציה מפחיתה את ההתאמה העודפת, אבל עשויה להפחית את יכולת החיזוי של המודל. לעומת זאת, הקטנה של שיעור הרגולריזציה או השמטה שלו מגדילות את התאמת היתר.

כדי לראות את החישוב, לוחצים על הסמל.

שיעור הרגולריזציה מיוצג בדרך כלל באמצעות האות היוונית למדא. המשוואה הפשוטה הבאה של loss מראה את ההשפעה של lambda:

$$\text{minimize(loss function + }\lambda\text{(regularization))}$$

כאשר regularization הוא כל מנגנון regularization, כולל:

רגולריזציה מסוג L₁
רגולריזציה מסוג _L2

מידע נוסף זמין במאמר התאמת יתר: רגולריזציה מסוג L2 בקורס המקוצר על למידת מכונה.

למידת חיזוק (RL)

משפחה של אלגוריתמים שמלמדים מדיניות אופטימלית, שמטרתה למקסם את ההחזר באינטראקציה עם סביבה. לדוגמה, התגמול האולטימטיבי ברוב המשחקים הוא ניצחון. מערכות של מצב למידה חיזוק יכולות להפוך למומחיות במשחקים מורכבים על ידי הערכה של רצפים של מהלכים קודמים במשחק שהובילו בסופו של דבר לניצחונות, ורצפים שהובילו בסופו של דבר להפסדים.

למידה חיזוקית ממשוב אנושי (RLHF)

#generativeAI

שימוש במשוב ממדרגים אנושיים כדי לשפר את האיכות של התשובות של המודל. לדוגמה, מנגנון RLHF יכול לבקש מהמשתמשים לדרג את איכות התשובה של המודל באמצעות אמוג'י של לייק (👍) או דיסלייק (👎). המערכת יכולה לשנות את התשובות העתידיות שלה על סמך המשוב הזה.

ReLU

#fundamentals

קיצור של Rectified Linear Unit (יחידה לינארית מתוקנת).

מאגר נתונים זמני להפעלה מחדש

באלגוריתמים דמויי DQN, הזיכרון שבו הסוכן משתמש כדי לאחסן מעברים בין מצבים לשימוש בחזרה על ניסיון.

רפליקה

עותק (או חלק ממנו) של קבוצת נתונים לאימון או של מודל, שבדרך כלל מאוחסן במחשב אחר. לדוגמה, מערכת יכולה להשתמש באסטרטגיה הבאה כדי ליישם מקביליות נתונים:

מציבים רפליקות של מודל קיים בכמה מכונות.
שליחת קבוצות משנה שונות של קבוצת נתונים לאימון לכל רפליקה.
מצברים את העדכונים של הפרמטר.

המונח 'רפליקה' יכול להתייחס גם לעותק אחר של שרת הסקת מסקנות. הגדלת מספר הרפליקות מגדילה את מספר הבקשות שהמערכת יכולה לטפל בהן בו-זמנית, אבל גם מגדילה את עלויות ההצגה.

הטיית דיווח

#responsible

העובדה שהתדירות שבה אנשים כותבים על פעולות, תוצאות או מאפיינים לא משקפת את התדירות שלהם בעולם האמיתי או את המידה שבה מאפיין מסוים מאפיין קבוצה של אנשים. הטיה בדיווח יכולה להשפיע על הרכב הנתונים שמערכות מצב למידה לומדות מהם.

לדוגמה, בספרים, המילה צחק נפוצה יותר מהמילה נשם. מודל למידת מכונה שמעריך את התדירות היחסית של צחוק ונשימה מתוך קורפוס של ספרים, כנראה יקבע שצחוק נפוץ יותר מנשימה.

מידע נוסף זמין במאמר הוגנות: סוגי הטיה בסדנת מבוא ללמידת מכונה.

בווקטור יהיה זהה,

תהליך מיפוי הנתונים לתכונות שימושיות.

דירוג מחדש

השלב האחרון של מערכת המלצות, שבמהלכו יכול להיות שהמערכת תדרג מחדש פריטים שקיבלו ציון לפי אלגוריתם אחר (בדרך כלל, לא אלגוריתם של למידת מכונה). בשלב הדירוג מחדש מתבצעת הערכה של רשימת הפריטים שנוצרה בשלב הניקוד, ומתבצעות פעולות כמו:

הסרת פריטים שהמשתמש כבר רכש.
העלאת הניקוד של פריטים עדכניים יותר.

מידע נוסף זמין במאמר בנושא דירוג מחדש בקורס בנושא מערכות המלצה.

תשובה

#generativeAI

טקסט, תמונות, אודיו או סרטונים שנוצרו על ידי מודל AI גנרטיבי על סמך הנחיות. במילים אחרות, הנחיה היא הקלט למודל AI גנרטיבי, והתשובה היא הפלט.

קבוצת תשובות

#generativeAI

אוסף התשובות שמודל שפה גדול מחזיר לקלט של הנחיות.

יצירה משופרת בעזרת אחזור מידע (RAG)

#fundamentals

טכניקה לשיפור האיכות של הפלט של מודל שפה גדול (LLM) על ידי עיגון הפלט למקורות ידע שאוחזרו אחרי שהמודל אומן. טכנולוגיית RAG משפרת את הדיוק של התשובות של מודלי LLM בכך שהיא מספקת למודל LLM מאומן גישה למידע שאוחזר ממסמכים או ממאגרי ידע מהימנים.

הנה כמה מהסיבות הנפוצות לשימוש ב-RAG:

שיפור הדיוק העובדתי של התשובות שהמודל יוצר.
מתן גישה למודל לידע שהוא לא אומן עליו.
שינוי הידע שבו המודל משתמש.
הפעלת האפשרות לציטוט מקורות על ידי המודל.

לדוגמה, נניח שאפליקציה ללימוד כימיה משתמשת ב-PaLM API כדי ליצור סיכומים שקשורים לשאילתות של משתמשים. כאשר ה-בק-אנד של האפליקציה מקבל שאילתה, ה-בק-אנד:

מחפש (או מאחזר) נתונים שרלוונטיים לשאילתה של המשתמש.
מצרף ("מרחיב") את נתוני הכימיה הרלוונטיים לשאילתה של המשתמש.
ההנחיה הזו גורמת ל-LLM ליצור סיכום על סמך הנתונים שנוספו.

שורה חדשה

בלמידת חיזוק, בהינתן מדיניות מסוימת ומצב מסוים, הערך המוחזר הוא סכום כל התגמולים שהסוכן מצפה לקבל כשהוא פועל לפי המדיניות מהמצב ועד לסיום הפרק. הסוכן מתחשב באופי המעוכב של התגמולים הצפויים על ידי הנחה של התגמולים בהתאם למעברי המצב הנדרשים כדי לקבל את התגמול.

לכן, אם מקדם ההנחה הוא $\gamma$, ו $r_0, \ldots, r_{N}$מציין את התגמולים עד סוף הפרק, חישוב התשואה הוא כדלקמן:

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

הטבה

בשיטת הלמידה באמצעות חיזוקים, התוצאה המספרית של ביצוע פעולה במצב, כפי שמוגדר על ידי הסביבה.

רגולריזציה של רכסים

מילה נרדפת לרגולריזציה של _L2. המונח רגולריזציה של רכס נפוץ יותר בהקשרים של סטטיסטיקה טהורה, ואילו המונח רגולריזציה של _L2 נפוץ יותר בהקשרים של למידת מכונה.

RNN

קיצור של רשתות נוירונים חוזרות.

עקומת ROC (מאפיין הפעולה של המקלט)

#fundamentals

#Metric

תרשים של שיעור החיוביים האמיתיים לעומת שיעור החיוביים הכוזבים עבור ערכי סף שונים לסיווג בסיווג בינארי.

הצורה הסגורה של עקומת ROC מצביעה על היכולת של מודל סיווג בינארי להפריד בין סיווגים חיוביים לסיווגים שליליים. נניח, לדוגמה, שמודל סיווג בינארי מפריד בצורה מושלמת בין כל המחלקות השליליות לבין כל המחלקות החיוביות:

קו מספרים עם 8 דוגמאות חיוביות בצד ימין ו-7 דוגמאות שליליות בצד שמאל.

עקומת ה-ROC של המודל הקודם נראית כך:

עקומת ROC. ציר ה-X מייצג את שיעור התוצאות החיוביות הכוזבות וציר ה-Y מייצג את שיעור התוצאות החיוביות האמיתיות. העקומה היא בצורת L סגורה הפוכה. העקומה מתחילה בנקודה (0.0,0.0) ועולה ישר עד לנקודה (0.0,1.0). אחרי כן, העקומה עוברת מ-(0.0,1.0) אל (1.0,1.0).

לעומת זאת, באיור הבא מוצגים ערכי הרגרסיה הלוגיסטית הגולמיים של מודל גרוע שלא מצליח להפריד בין מחלקות שליליות למחלקות חיוביות:

קו מספרים עם דוגמאות חיוביות וסיווגים שליליים
שמעורבבים לחלוטין.

עקומת ה-ROC של המודל הזה נראית כך:

עקומת ROC, שהיא למעשה קו ישר מנקודה (0.0,0.0)
עד נקודה (1.0,1.0).

בינתיים, בעולם האמיתי, רוב מודלי הסיווג הבינארי מפרידים בין מחלקות חיוביות ושליליות במידה מסוימת, אבל בדרך כלל לא בצורה מושלמת. לכן, עקומת ROC אופיינית נמצאת איפשהו בין שני הקצוות:

עקומת ROC. ציר ה-X מייצג את שיעור התוצאות החיוביות הכוזבות וציר ה-Y מייצג את שיעור התוצאות החיוביות האמיתיות. עקומת ה-ROC היא בקירוב קשת לא יציבה
שעוברת בין נקודות המצפן ממערב לצפון.

הנקודה בעקומת ROC שהכי קרובה ל-(0.0,1.0) מזהה באופן תיאורטי את סף הסיווג האידיאלי. עם זאת, יש כמה בעיות אחרות בעולם האמיתי שמשפיעות על הבחירה של סף הסיווג האידיאלי. לדוגמה, אולי FALSE שליליים גורמים להרבה יותר כאב מאשר FALSE חיוביים.

מדד מספרי שנקרא AUC מסכם את עקומת ה-ROC לערך יחיד של נקודה צפה.

הנחיות לשינוי תפקיד

#generativeAI

הנחיה, בדרך כלל מתחילה בכינוי הגוף אתה, שמורה למודל AI גנרטיבי להתנהג כמו אדם מסוים או למלא תפקיד מסוים כשהוא יוצר את התשובה. הנחיות שקשורות לתפקיד יכולות לעזור למודל AI גנרטיבי להיכנס ל "מצב המחשבה" הנכון כדי ליצור תשובה שימושית יותר. לדוגמה, כל אחת מההנחיות הבאות להגדרת תפקיד יכולה להתאים בהתאם לסוג התשובה שאתם מחפשים:

יש לך דוקטורט במדעי המחשב.

אתה מהנדס תוכנה שאוהב לתת הסברים סבלניים על Python לתלמידים חדשים בתחום התכנות.

אתה גיבור פעולה עם כישורי תכנות מאוד ספציפיים. תמצא פריט מסוים ברשימת Python.

הרמה הבסיסית (root)

#df

הצומת ההתחלתי (התנאי הראשון) בעץ החלטה. לפי המוסכמה, הרמה הבסיסית (root) מופיעה בחלק העליון של תרשימי עץ ההחלטות. לדוגמה:

עץ החלטה עם שני תנאים ושלושה עלים. תנאי ההתחלה (x > 2) הוא הרמה הבסיסית (root).

ספריית הרמה הבסיסית

#TensorFlow

הספרייה שאתם מציינים לאירוח ספריות משנה של קובצי TensorFlow checkpoint וקובצי אירועים של כמה מודלים.

שורש טעות ריבועית ממוצעת (RMSE)

#fundamentals

#Metric

השורש הריבועי של הטעות הריבועית הממוצעת.

אינווריאנטיות סיבובית

בבעיה של סיווג תמונות, היכולת של אלגוריתם לסווג תמונות בהצלחה גם כשמשנים את הכיוון של התמונה. לדוגמה, האלגוריתם יכול לזהות מחבט טניס גם אם הוא מוצג כלפי מעלה, כיוון התמונה לא נכון או כלפי מטה. חשוב לציין שלא תמיד רצוי להשתמש בתכונה הזו. לדוגמה, אם הספרה 9 מוצגת הפוכה, היא לא צריכה להיות מסווגת כ-9.

אפשר גם לקרוא על אינווריאנטיות להזזה ועל אינווריאנטיות לגודל.

ROUGE (Recall-Oriented Understudy for Gisting Evaluation)

#Metric

משפחה של מדדים להערכת מודלים של סיכום אוטומטי ותרגום מכונה. מדדי ROUGE קובעים את מידת החפיפה בין טקסט ייחוס לבין טקסט שנוצר על ידי מודל ML. כל אחד מהמדדים במשפחת ROUGE מודד חפיפה בצורה שונה. ציוני ROUGE גבוהים יותר מצביעים על דמיון רב יותר בין טקסט ההפניה לבין הטקסט שנוצר, בהשוואה לציוני ROUGE נמוכים יותר.

בדרך כלל, כל חבר במשפחת ROUGE יוצר את המדדים הבאים:

דיוק
זכירות
F₁

לפרטים נוספים ולעיון בדוגמאות, ראו:

ROUGE-L
ROUGE-N
ROUGE-S

ROUGE-L

#Metric

חבר במשפחת ROUGE שמתמקד באורך של הרצף המשותף הארוך ביותר בטקסט ההפניה ובטקסט שנוצר. הנוסחאות הבאות משמשות לחישוב ההחזרה והדיוק של ROUGE-L:

$$\text{ROUGE-L recall} = \frac{\text{longest common sequence}} {\text{number of words in the reference text} }$$

$$\text{ROUGE-L precision} = \frac{\text{longest common sequence}} {\text{number of words in the generated text} }$$

אחר כך אפשר להשתמש ב-F₁ כדי לסכם את הנתונים של ROUGE-L recall ו-ROUGE-L precision למדד אחד:

$$\text{ROUGE-L F} {_1} = \frac{\text{2} * \text{ROUGE-L recall} * \text{ROUGE-L precision}} {\text{ROUGE-L recall} + \text{ROUGE-L precision} }$$

לוחצים על הסמל כדי לראות דוגמה לחישוב של ROUGE-L.

כדאי לעיין בטקסט המקורי ובטקסט שנוצר.

קטגוריה	מי הפיק?	טקסט
טקסט לדוגמה	מתרגם אנושי	אני רוצה להבין מגוון רחב של דברים.
הטקסט שנוצר	מודל ML	אני רוצה ללמוד הרבה דברים.

לכן:

הרצף המשותף הארוך ביותר הוא 5 (I want to of things)
מספר המילים בטקסט ההפניה הוא 9.
מספר המילים בטקסט שנוצר הוא 7.

כתוצאה מכך:

$$\text{ROUGE-L recall} = \frac{\text{5}} {\text{9} } = 0.56$$

$$\text{ROUGE-L precision} = \frac{\text{5}} {\text{7} } = 0.71$$

$$\text{ROUGE-L F} {_1} = \frac{\text{2} * \text{0.56} * \text{0.71}} {\text{0.56} + \text{0.71} } = 0.63$$

המדד ROUGE-L מתעלם ממעברי שורה בטקסט הייחוס ובטקסט שנוצר, ולכן הרצף המשותף הארוך ביותר יכול לחצות כמה משפטים. אם טקסט ההפניה והטקסט שנוצר כוללים כמה משפטים, מדד טוב יותר הוא בדרך כלל וריאציה של ROUGE-L שנקראת ROUGE-Lsum. המדד ROUGE-Lsum קובע את הרצף המשותף הארוך ביותר לכל משפט בפסקה, ואז מחשב את הממוצע של הרצפים המשותפים הארוכים האלה.

לוחצים על הסמל כדי לראות דוגמה לחישוב של ROUGE-Lsum.

כדאי לעיין בטקסט המקורי ובטקסט שנוצר.

קטגוריה	מי הפיק?	טקסט
טקסט לדוגמה	מתרגם אנושי	הפלטפורמה של Google Mars יבשה. כמעט כל המים נמצאים עמוק מתחת לאדמה.
הטקסט שנוצר	מודל ML	ל-Google Mars יש פלטפורמה יבשה. עם זאת, רוב המים נמצאים מתחת לאדמה.

לכן:

	המשפט הראשון	המשפט השני
הרצף המשותף הארוך ביותר	‫2 (Mars dry)	‫3 (מים מתחת לפני הקרקע)
אורך המשפט של טקסט העזר	6	7
אורך המשפט בטקסט שנוצר	5	8

לכן:

$$\text{recall of first sentence} = \frac{\text{2}} {\text{6}} = 0.33 $$

$$\text{recall of second sentence} = \frac{\text{3}} {\text{7}} = 0.43 $$

$$\text{ROUGE-Lsum recall} = \frac{\text{0.33} + \text{0.43}} {\text{2}} = 0.38 $$

$$\text{precision of first sentence} = \frac{\text{2}} {\text{5}} = 0.4 $$

$$\text{precision of second sentence} = \frac{\text{3}} {\text{8}} = 0.38 $$

$$\text{ROUGE-Lsum precision} = \frac{\text{0.4} + \text{0.38}} {\text{2}} = 0.39 $$

$$\text{ROUGE-Lsum F}{_1} = \frac{\text{2} * \text{0.38} * \text{0.39}} {\text{0.38} + \text{0.39}} = 0.38 $$

ROUGE-N

#Metric

קבוצה של מדדים במשפחת ROUGE שמשווה בין ה-N-grams המשותפים בגודל מסוים בטקסט ההשוואה לבין הטקסט שנוצר. לדוגמה:

המדד ROUGE-1 מודד את מספר הטוקנים המשותפים בטקסט ההפניה ובטקסט שנוצר.
‫ROUGE-2 מודד את מספר הביגרמות (2-גרמות) המשותפות בטקסט ההפניה ובטקסט שנוצר.
המדד ROUGE-3 מודד את מספר הטריגרמים (3-גרמים) המשותפים בטקסט ההפניה ובטקסט שנוצר.

אפשר להשתמש בנוסחאות הבאות כדי לחשב את מדד הזיכרון (recall) של ROUGE-N ואת מדד הדיוק (precision) של ROUGE-N לכל חבר במשפחת ROUGE-N:

$$\text{ROUGE-N recall} = \frac{\text{number of matching N-grams}} {\text{number of N-grams in the reference text} }$$

$$\text{ROUGE-N precision} = \frac{\text{number of matching N-grams}} {\text{number of N-grams in the generated text} }$$

אחר כך אפשר להשתמש ב-F₁ כדי לצמצם את הנתונים של ROUGE-N recall ו-ROUGE-N precision למדד אחד:

$$\text{ROUGE-N F}{_1} = \frac{\text{2} * \text{ROUGE-N recall} * \text{ROUGE-N precision}} {\text{ROUGE-N recall} + \text{ROUGE-N precision} }$$

לוחצים על הסמל כדי לראות דוגמה.

נניח שאתם מחליטים להשתמש ב-ROUGE-2 כדי למדוד את היעילות של תרגום שבוצע על ידי מודל ML בהשוואה לתרגום שבוצע על ידי מתרגם אנושי.

קטגוריה	מי הפיק?	טקסט	ביגרמות
טקסט לדוגמה	מתרגם אנושי	אני רוצה להבין מגוון רחב של דברים.	אני רוצה, רוצה, להבין, להבין מגוון, מגוון רחב, רחב של דברים
הטקסט שנוצר	מודל ML	אני רוצה ללמוד הרבה דברים.	I want, want to, to learn, learn plenty, plenty of, of things

לכן:

מספר ה-2-גרמים התואמים הוא 3 (I want,‏ want to ו-of things).
מספר ה-2-גרמים בטקסט ההפניה הוא 8.
מספר ה-2-גרמים בטקסט שנוצר הוא 6.

כתוצאה מכך:

$$\text{ROUGE-2 recall} = \frac{\text{3}} {\text{8} } = 0.375$$

$$\text{ROUGE-2 precision} = \frac{\text{3}} {\text{6} } = 0.5$$

$$\text{ROUGE-2 F}{_1} = \frac{\text{2} * \text{0.375} * \text{0.5}} {\text{0.375} + \text{0.5} } = 0.43$$

ROUGE-S

#Metric

גרסה סלחנית של ROUGE-N שמאפשרת התאמה של skip-gram. כלומר, ROUGE-N סופר רק N-grams שתואמים בדיוק, אבל ROUGE-S סופר גם N-grams שמפרידה ביניהם מילה אחת או יותר. לדוגמה, שקול את הדברים הבאים:

טקסט להפניה: White clouds
טקסט שנוצר: White billowing clouds

כשמחשבים את ROUGE-N, ה-2-gram, ‏ White clouds לא תואם ל-White billowing clouds. עם זאת, כשמחשבים את ROUGE-S, ‏ White clouds תואם ל-White billowing clouds.

R בריבוע

#Metric

מדד רגרסיה שמציין כמה מהשונות בתווית נובעת מתכונה ספציפית או מקבוצת תכונות. מקדם המתאם R² הוא ערך בין 0 ל-1, שאפשר לפרש אותו באופן הבא:

ערך של 0 ב-R-squared מציין שאף אחת מהוריאציות של תווית לא נובעת ממערכת התכונות.
ערך של 1 ב-R בריבוע מציין שכל הוריאציה של התווית נובעת מקבוצת התכונות.
ערך R בריבוע בין 0 ל-1 מציין את המידה שבה אפשר לחזות את הוריאציה של התווית ממאפיין מסוים או מקבוצת המאפיינים. לדוגמה, אם ערך ה-R בריבוע הוא 0.10, המשמעות היא ש-10 אחוז מהשונות בתווית נובעים מקבוצת התכונות. אם ערך ה-R בריבוע הוא 0.20, המשמעות היא ש-20 אחוז מהשונות נובעים מקבוצת התכונות, וכן הלאה.

R בריבוע הוא הריבוע של מקדם המתאם של פירסון בין הערכים שהמודל חזה לבין אמת הקרקע.

RTE

#Metric

קיצור של Recognizing Textual Entailment.

S

הטיית דגימה

#responsible

ראו הטיית בחירה.

דגימה עם החזרה

#df

שיטה לבחירת פריטים מתוך קבוצת פריטים אפשריים, שבה אפשר לבחור את אותו פריט כמה פעמים. הביטוי 'עם החזרה' מציין שאחרי כל בחירה, הפריט שנבחר מוחזר למאגר של הפריטים שאפשר לבחור מתוכם. השיטה ההפוכה, דגימה ללא החזרה, פירושה שניתן לבחור פריט מועמד רק פעם אחת.

לדוגמה, נניח שיש לכם את קבוצת הפירות הבאה:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

נניח שהמערכת בוחרת באופן אקראי את fig כפריט הראשון. אם משתמשים בדגימה עם החזרה, המערכת בוחרת את הפריט השני מתוך הקבוצה הבאה:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

כן, זה אותו סט כמו קודם, כך שהמערכת יכולה לבחור שוב את fig.

אם משתמשים בדגימה ללא החזרה, אחרי שבוחרים דגימה אי אפשר לבחור אותה שוב. לדוגמה, אם המערכת בוחרת באופן אקראי את fig כמדגם הראשון, היא לא יכולה לבחור בו שוב.fig לכן, המערכת בוחרת את הדגימה השנייה מתוך הקבוצה הבאה (המצומצמת):

fruit = {kiwi, apple, pear, cherry, lime, mango}

כדי לראות טיפים ממשתמשים נוספים, לוחצים על הסמל.

המילה החלפה במונח דגימה עם החלפה מבלבלת הרבה אנשים. באנגלית, replacement פירושו "החלפה". עם זאת, דגימה עם החזרה משתמשת למעשה בהגדרה הצרפתית של החזרה, שמשמעותה היא "החזרת משהו".

המילה האנגלית replacement מתורגמת למילה הצרפתית remplacement.

SavedModel

#TensorFlow

הפורמט המומלץ לשמירה ולשחזור של מודלים של TensorFlow. ‫SavedModel הוא פורמט סריאליזציה שאינו תלוי בשפה וניתן לשחזור, שמאפשר למערכות ולכלים ברמה גבוהה יותר ליצור, להשתמש ולהמיר מודלים של TensorFlow.

פרטים מלאים מופיעים בקטע שמירה ושחזור במדריך לתכנתים של TensorFlow.

חסכוני

#TensorFlow

אובייקט TensorFlow שאחראי לשמירת נקודות ביקורת (checkpoint) של המודל.

סקלרי

מספר בודד או מחרוזת בודדת שאפשר לייצג כטנזור מדרגה 0. לדוגמה, כל אחת משורות הקוד הבאות יוצרת סקלר אחד ב-TensorFlow:

breed = tf.Variable("poodle", tf.string)
temperature = tf.Variable(27, tf.int16)
precision = tf.Variable(0.982375101275, tf.float64)

התאמה לעומס (scaling)

כל טרנספורמציה או טכניקה מתמטית שמשנה את הטווח של תווית, של ערך מאפיין או של שניהם. חלק מהשיטות לשינוי קנה מידה שימושיות מאוד לטרנספורמציות כמו נורמליזציה.

כמה דוגמאות לשיטות נפוצות של שינוי קנה מידה ששימושיות בלמידת מכונה:

קנה מידה לינארי, שבדרך כלל משתמש בשילוב של חיסור וחילוק כדי להחליף את הערך המקורי במספר בין -1 ל-+1 או בין 0 ל-1.
קנה מידה לוגריתמי, שמחליף את הערך המקורי בלוגריתם שלו.
נורמליזציה של ציון Z, שמחליפה את הערך המקורי בערך נקודה צפה שמייצג את מספר סטיות התקן מהממוצע של התכונה.

scikit-learn

פלטפורמה פופולרית ללמידת מכונה בקוד פתוח. מידע נוסף זמין באתר scikit-learn.org.

דירוג

#Metric

החלק במערכת ההמלצות שמספק ערך או דירוג לכל פריט שנוצר בשלב יצירת המועמדים.

הטיית בחירה

#responsible

שגיאות במסקנות שמוסקים מנתונים מדוגמים בגלל תהליך בחירה שמייצר הבדלים שיטתיים בין הדגימות שנצפו בנתונים לבין הדגימות שלא נצפו. אלה סוגי הטיית הבחירה שקיימים:

הטיה בכיסוי: האוכלוסייה שמיוצגת במערך הנתונים לא תואמת לאוכלוסייה שלגביה מודל למידת המכונה מפיק תחזיות.
הטיית דגימה: הנתונים לא נאספים באופן אקראי מקבוצת היעד.
הטיית סקר שלא מולא (נקראת גם הטיית השתתפות): משתמשים מקבוצות מסוימות בוחרים שלא להשתתף בסקרים בשיעורים שונים ממשתמשים מקבוצות אחרות.

לדוגמה, נניח שאתם יוצרים מודל למידת מכונה שמנבא את מידת ההנאה של אנשים מסרט. כדי לאסוף נתונים לאימון, אתם מחלקים שאלון לכל מי שיושב בשורה הראשונה באולם קולנוע שבו מוקרן הסרט. מבלי לחשוב על זה יותר מדי, יכול להיות שזו נראית דרך סבירה לאסוף מערך נתונים. עם זאת, צורת איסוף הנתונים הזו עלולה להוביל להטיות הבחירה הבאות:

הטיה בכיסוי: אם המודל מתבסס על מדגם של אנשים שבחרו לצפות בסרט, יכול להיות שהתחזיות שלו לא יהיו רלוונטיות לאנשים שלא הביעו עניין ברמה הזו בסרט.
הטיה בדגימה: במקום לדגום באופן אקראי מתוך האוכלוסייה המיועדת (כל האנשים בסרט), דגמת רק את האנשים בשורה הראשונה. יכול להיות שהאנשים שישבו בשורה הראשונה התעניינו בסרט יותר מאלה שישבו בשורות אחרות.
הטיה בגלל סקר שלא מולא: באופן כללי, אנשים עם דעות מוצקות נוטים להשיב לסקרים אופציונליים בתדירות גבוהה יותר מאנשים עם דעות מתונות. מכיוון שהשתתפות בסקר על הסרט היא אופציונלית, סביר יותר שהתשובות יצרו התפלגות דו-אופנית ולא התפלגות נורמלית (בצורת פעמון).

קשב עצמי (נקרא גם שכבת קשב עצמי)

שכבת רשת נוירונים שמבצעת טרנספורמציה של רצף הטמעות (לדוגמה, הטמעות של טוקנים) לרצף אחר של הטמעות. כל הטמעה ברצף הפלט נוצרת על ידי שילוב מידע מהאלמנטים של רצף הקלט באמצעות מנגנון הפניית תשומת לב.

החלק self במונח self-attention מתייחס לרצף שמתייחס לעצמו ולא להקשר אחר. מנגנון הקשב העצמי הוא אחד מאבני הבניין העיקריות של טרנספורמרים, והוא משתמש בטרמינולוגיה של חיפוש במילון, כמו 'שאילתה', 'מפתח' ו'ערך'.

שכבת קשב עצמי מתחילה ברצף של ייצוגי קלט, אחד לכל מילה. ייצוג הקלט של מילה יכול להיות הטמעה פשוטה. לכל מילה ברצף הקלט, הרשת מחשבת את מידת הרלוונטיות של המילה לכל רכיב ברצף המילים כולו. הציונים לרלוונטיות קובעים עד כמה הייצוג הסופי של המילה משלב את הייצוגים של מילים אחרות.

לדוגמה, נבחן את המשפט הבא:

החיה לא חצתה את הכביש כי היא הייתה עייפה מדי.

באיור הבא (מתוך Transformer: A Novel Neural Network Architecture for Language Understanding) מוצג דפוס הקשב של שכבת קשב עצמי עבור כינוי הגוף it. עובי הקו מציין את מידת התרומה של כל מילה לייצוג:

המשפט הבא מופיע פעמיים: The animal didn't cross the
street because it was too tired. קווים מחברים בין כינוי הגוף it במשפט אחד לבין חמישה טוקנים (The, animal, street, it, והנקודה) במשפט השני. הקשר בין כינוי הגוף it לבין המילה animal הוא החזק ביותר.

שכבת הקשב העצמי מדגישה מילים שרלוונטיות למילה it. במקרה הזה, שכבת תשומת הלב למדה להדגיש מילים שהיא עשויה להתייחס אליהן, והיא מקצה את המשקל הגבוה ביותר למילה animal (חיה).

ברצף של n טוקנים, מנגנון הקשב העצמי מבצע טרנספורמציה של רצף הטמעות n פעמים נפרדות, פעם אחת בכל מיקום ברצף.

כדאי לעיין גם במאמרים בנושא תשומת לב ותשומת לב עצמית עם מספר ראשים.

למידה בפיקוח עצמי

משפחה של טכניקות להמרת בעיה של למידת מכונה לא מבוקרת לבעיה של למידת מכונה מבוקרת על ידי יצירת תוויות חלופיות מדוגמאות לא מתויגות.

חלק מהמודלים שמבוססים על טרנספורמרים, כמו BERT, משתמשים בלמידה בפיקוח עצמי.

אימון בפיקוח עצמי הוא גישה של למידה מונחית למחצה.

אימון עצמי

וריאציה של למידה בפיקוח עצמי, שימושית במיוחד כשכל התנאים הבאים הם TRUE:

היחס בין דוגמאות לא מסומנות לבין דוגמאות מסומנות במערך הנתונים גבוה.
זו בעיה של סיווג.

באימון עצמי, המערכת חוזרת על שני השלבים הבאים עד שהמודל מפסיק להשתפר:

משתמשים בלמידת מכונה מבוקרת כדי לאמן מודל על הדוגמאות המתויגות.
משתמשים במודל שנוצר בשלב 1 כדי ליצור תחזיות (תוויות) בדוגמאות לא מסומנות, ומעבירים את הדוגמאות שבהן רמת הביטחון גבוהה לדוגמאות המסומנות עם התווית החזויה.

שימו לב שבכל איטרציה של שלב 2 מתווספות דוגמאות מתויגות נוספות לשלב 1, לצורך אימון.

למידה מונחית למחצה

אימון מודל על נתונים שחלק מדוגמאות האימון שלהם מתויגות וחלק לא. טכניקה אחת ללמידה מונחית למחצה היא להסיק תוויות לדוגמאות לא מסומנות, ואז לאמן את התוויות שהוסקו כדי ליצור מודל חדש. למידה חצי-מפוקחת יכולה להיות שימושית אם קשה להשיג תוויות, אבל יש הרבה דוגמאות לא מסומנות.

אימון עצמי הוא שיטה אחת ללמידה מונחית למחצה.

מאפיין רגיש

#responsible

מאפיין אנושי שעשוי לקבל התייחסות מיוחדת מסיבות משפטיות, אתיות, חברתיות או אישיות.

ניתוח סנטימנט

שימוש באלגוריתמים סטטיסטיים או של למידת מכונה כדי לקבוע את הגישה הכללית של קבוצה – חיובית או שלילית – כלפי שירות, מוצר, ארגון או נושא. לדוגמה, באמצעות הבנת שפה טבעית, אלגוריתם יכול לבצע ניתוח סנטימנטים על המשוב הטקסטואלי מקורס באוניברסיטה כדי לקבוע עד כמה התלמידים אהבו או לא אהבו את הקורס באופן כללי.

מידע נוסף זמין במדריך בנושא סיווג טקסט.

מודל רצף

מודל שהקלט שלו תלוי ברצף. לדוגמה, חיזוי הסרטון הבא שייצפה מתוך רצף של סרטונים שנצפו בעבר.

משימה של רצף לרצף

משימה שממירה רצף קלט של טוקנים לרצף פלט של טוקנים. לדוגמה, שני סוגים פופולריים של משימות 'רצף לרצף' הם:

מתרגמים:
- רצף קלט לדוגמה: "I love you".
- רצף פלט לדוגמה: "Je t'aime".
מענה לשאלות:
- רצף קלט לדוגמה: "Do I need my car in New York City?"
- רצף פלט לדוגמה: "לא. עדיף להשאיר את הרכב בבית".

מנה

התהליך של הפיכת מודל מאומן לזמין כדי לספק תחזיות באמצעות הסקת מסקנות אונליין או הסקת מסקנות אופליין.

shape (Tensor)

מספר הרכיבים בכל ממד של טנזור. הצורה הסגורה מיוצגת כרשימה של מספרים שלמים. לדוגמה, לטנזור הדו-ממדי הבא יש צורה של [3,4]:

[[5, 7, 6, 4],
 [2, 9, 4, 8],
 [3, 6, 5, 1]]

TensorFlow משתמש בפורמט row-major (בסגנון C) כדי לייצג את סדר המימדים, ולכן הצורה סגורה ב-TensorFlow היא [3,4] ולא [4,3]. במילים אחרות, בטנזור דו-ממדי של TensorFlow, הצורה סגורה היא [[מספר השורות, מספר העמודות]].

צורה סטטית היא צורה של טנסור שידועה במשך הזמן לקימפול.

צורה סגורה דינמית היא לא ידועה במשך הזמן לקימפול ולכן היא תלויה בנתוני זמן הריצה. טנסור כזה יכול להיות מיוצג באמצעות ממד placeholder ב-TensorFlow, כמו בדוגמה [3, ?].

פצל

#TensorFlow

#GoogleCloud

חלוקה לוגית של קבוצת הנתונים לאימון או של המודל. בדרך כלל, תהליך מסוים יוצר רסיסים על ידי חלוקה של הדוגמאות או הפרמטרים לחלקים בגודל שווה (בדרך כלל). לאחר מכן, כל רסיס מוקצה למכונה אחרת.

החלוקה של מודל נקראת מקבילות של מודל, והחלוקה של נתונים נקראת מקבילות של נתונים.

כיווץ

#df

היפר-פרמטר בחיזוק גרדיאנט ששולט בהתאמת יתר. ההתכווצות בחיזוק גרדיאנט דומה לקצב הלמידה בירידת גרדיאנט. הערך של ההתכווצות הוא מספר עשרוני בין 0.0 ל-1.0. ערך כיווץ נמוך יותר מפחית את התאמת היתר יותר מערך כיווץ גבוה יותר.

הערכה מקבילה

השוואה בין האיכות של שני מודלים על סמך התשובות שלהם לאותה הנחיה. לדוגמה, נניח שנותנים את ההנחיה הבאה ל-2 מודלים שונים:

צור תמונה של כלב חמוד שמלהטט עם שלושה כדורים.

בבדיקה של תמונות זו לצד זו, בודק בוחר את התמונה ה'טובה יותר' (יותר מדויקת? סמל האפשרויות הנוספות יפה יותר? יותר חמודים?).

פונקציית סיגמואיד

#fundamentals

פונקציה מתמטית ש'דוחסת' ערך קלט לטווח מוגבל, בדרך כלל 0 עד 1 או ‎-1 עד ‎+1. כלומר, אפשר להעביר כל מספר (שניים, מיליון, מינוס מיליארד, מה שרוצים) לפונקציית הסיגמואיד, והפלט עדיין יהיה בטווח המוגבל. גרף של פונקציית ההפעלה הסיגמואידית נראה כך:

לפונקציית הסיגמואיד יש כמה שימושים בלמידת מכונה, כולל:

המרת הפלט הגולמי של מודל רגרסיה לוגיסטית או רגרסיה מולטינומיאלית להסתברות.
משמשת כפונקציית הפעלה בחלק מהרשתות העצביות.

כדי לראות את החישוב, לוחצים על הסמל.

הנוסחה של פונקציית הסיגמואיד על מספר קלט x היא:

$$ sigmoid(x) = \frac{1}{1 + e^{-\text{x}}} $$

בלמידת מכונה, x הוא בדרך כלל סכום משוקלל.

מדד הדמיון

#clustering

#Metric

באלגוריתמים של אשכולות, המדד שמשמש לקביעת מידת הדמיון בין שתי דוגמאות.

תוכנית יחידה / נתונים מרובים (SPMD)

טכניקה של מקביליות שבה אותו חישוב מורץ על נתוני קלט שונים במקביל במכשירים שונים. המטרה של SPMD היא להשיג תוצאות מהר יותר. זהו הסגנון הנפוץ ביותר של תכנות מקבילי.

אי-תלות בגודל

בבעיה של סיווג תמונות, היכולת של אלגוריתם לסווג תמונות בהצלחה גם כשגודל התמונה משתנה. לדוגמה, האלגוריתם עדיין יכול לזהות חתול גם אם הוא צורך 2 מיליון פיקסלים וגם אם הוא צורך 200,000 פיקסלים. חשוב לציין שגם לאלגוריתמים הטובים ביותר לסיווג תמונות יש מגבלות מעשיות לגבי אי-תלות בגודל. לדוגמה, סביר להניח שאלגוריתם (או אדם) לא יסווג נכון תמונה של חתול אם התמונה תהיה בגודל של 20 פיקסלים בלבד.

אפשר גם לקרוא על אינווריאנטיות להזזה ועל אינווריאנטיות לסיבוב.

מידע נוסף זמין בקורס בנושא אשכולות.

רישום

#clustering

בלמידת מכונה לא מפוקחת, קטגוריה של אלגוריתמים שמבצעים ניתוח דמיון מקדים על דוגמאות. אלגוריתמים של סקיצה משתמשים ב פונקציית גיבוב (hash) שרגישה למיקום כדי לזהות נקודות שסביר להניח שהן דומות, ואז מקבצים אותן לדליים.

השימוש בשיטת הסקיצה מצמצם את החישובים שנדרשים לחישובי דמיון במערכי נתונים גדולים. במקום לחשב את הדמיון לכל זוג דוגמאות במערך הנתונים, אנחנו מחשבים את הדמיון רק לכל זוג נקודות בכל קטגוריה.

skip-gram

n-gram שבו יכול להיות שמושמטות (או 'מדלגים') מילים מההקשר המקורי, כלומר יכול להיות שהמילים לא היו סמוכות במקור. סמל האפשרויות הנוספות באופן מדויק יותר, k-skip-n-gram הוא n-gram שבו יכול להיות שדילגו על עד k מילים.

לדוגמה, המשפט "the quick brown fox" מכיל את ה-2-גרמים האפשריים הבאים:

‫"the quick"
"quick brown"
"brown fox"

‫'1-skip-2-gram' הוא צמד מילים שיש ביניהן מילה אחת לכל היותר. לכן, הביטוי "the quick brown fox" כולל את ה-2-grams הבאים עם דילוג של 1:

"the brown"
"quick fox"

בנוסף, כל ה-2-גרמים הם גם 1-skip-2-grams, כי אפשר לדלג על פחות ממילה אחת.

דיאגרמות דילוג שימושיות להבנת ההקשר הרחב יותר של מילה. בדוגמה, המילה fox קושרה ישירות למילה quick בקבוצה של 1-skip-2-grams, אבל לא בקבוצה של 2-grams.

השיטה skip-gram עוזרת לאמן מודלים של הטמעת מילה.

softmax

#fundamentals

פונקציה שקובעת הסתברויות לכל מחלקה אפשרית במודל סיווג רב-מחלקה. סכום ההסתברויות הוא בדיוק 1.0. לדוגמה, בטבלה הבאה אפשר לראות איך פונקציית softmax מחלקת הסתברויות שונות:

התמונה היא…	Probability
כלב	‫0.85
cat	‫.13
סוס	‫.02

‫Softmax נקרא גם full softmax.

ההבדל בין שיטת הדגימה הזו לבין דגימת מועמדים.

כדי לראות את החישוב, לוחצים על הסמל.

המשוואה של softmax היא:

$$\sigma_i = \frac{e^{\text{z}_i}} {\sum_{j=1}^{j=K} {e^{\text{z}_j}}} $$

כאשר:

‫$\sigma_i$ הוא וקטור הפלט. כל רכיב של וקטור הפלט מציין את ההסתברות של הרכיב הזה. סכום כל הרכיבים בווקטור הפלט הוא 1.0. וקטור הפלט מכיל את אותו מספר רכיבים כמו וקטור הקלט, ‎$z$‎.
‫$z$ הוא וקטור הקלט. כל רכיב של וקטור הקלט מכיל ערך של נקודה צפה.
‫$K$ הוא מספר הרכיבים בווקטור הקלט (ובווקטור הפלט).

לדוגמה, נניח שווקטור הקלט הוא:

[1.2, 2.5, 1.8]

לכן, פונקציית softmax מחשבת את המכנה באופן הבא:

$$\text{denominator} = e^{1.2} + e^{2.5} + e^{1.8} = 21.552$$

לכן, ההסתברות של כל אלמנט ב-softmax היא:

$$\sigma_1 = \frac{e^{1.2}}{21.552} = 0.154 $$ $$\sigma_2 = \frac{e^{2.5}}{21.552} = 0.565 $$ $$\sigma_1 = \frac{e^{1.8}}{21.552} = 0.281 $$

לכן, וקטור הפלט הוא:

$$\sigma = [0.154, 0.565, 0.281]$$

סכום שלושת הרכיבים ב-$\sigma$ הוא 1.0. סוף סוף!

מידע נוסף זמין במאמר רשתות עצביות: סיווג רב-מחלקתי בקורס המקוצר על למידת מכונה.

כוונון הנחיות רך

#generativeAI

טכניקה לכוונון מודל שפה גדול למשימה מסוימת, בלי כוונון עדין שדורש הרבה משאבים. במקום לאמן מחדש את כל המשקלים במודל, שינוי עדין של הנחיה משנה באופן אוטומטי הנחיה כדי להשיג את אותה מטרה.

בהינתן הנחיה טקסטואלית, בדרך כלל מוסיפים להנחיה הטמעה של טוקנים נוספים ומבצעים אופטימיזציה של הקלט באמצעות הפצת שגיאה לאחור.

הנחיה 'קשה' מכילה טוקנים בפועל במקום הטבעות של טוקנים.

תכונה דלילה

#fundamentals

תכונה שהערכים שלה הם בעיקר אפס או ריקים. לדוגמה, תכונה שמכילה ערך 1 יחיד ומיליון ערכים של 0 היא דלילה. לעומת זאת, לתכונה צפופה יש ערכים שהם בעיקר לא אפס או לא ריקים.

בלמידת מכונה, מספר מפתיע של תכונות הן תכונות דלילות. תכונות קטגוריות הן בדרך כלל תכונות דלילות. לדוגמה, מתוך 300 מיני עצים אפשריים ביער, דוגמה אחת יכולה לזהות רק עץ אדר. או, מתוך מיליוני הסרטונים האפשריים בספריית סרטונים, דוגמה אחת עשויה לזהות רק את הסרט 'קזבלנקה'.

במודל, בדרך כלל מייצגים מאפיינים חסכוניים באמצעות קידוד "חם-יחיד" (one-hot). אם קידוד one-hot גדול, אפשר להוסיף שכבת הטמעה מעל קידוד one-hot כדי לשפר את היעילות.

ייצוג חסכוני

#fundamentals

אחסון רק של המיקומים של רכיבים שאינם אפס בתכונה דלילה.

לדוגמה, נניח שיש תכונה קטגורית בשם species שמזהה את 36 מיני העצים ביער מסוים. בנוסף, נניח שכל דוגמה מזהה רק מין אחד.

אפשר להשתמש בווקטור one-hot כדי לייצג את מיני העצים בכל דוגמה. וקטור one-hot יכיל ערך 1 אחד (לייצוג של מין העץ הספציפי בדוגמה) ו-35 ערכים של 0 (לייצוג של 35 מיני העצים שלא בדוגמה). לכן, ייצוג one-hot של maple יכול להיראות כך:

וקטור שבו במיקומים 0 עד 23 מופיע הערך 0, במיקום 24 מופיע הערך 1 ובמיקומים 25 עד 35 מופיע הערך 0.

לחלופין, ייצוג דליל יזהה פשוט את המיקום של המינים הספציפיים. אם maple נמצא במיקום 24, הייצוג החסכוני של maple יהיה פשוט:

שימו לב שהייצוג החסכוני הרבה יותר קומפקטי מהייצוג one-hot.

כדי לראות דוגמה קצת יותר מורכבת, לוחצים על הסמל.

נניח שכל דוגמה במודל צריכה לייצג את המילים – אבל לא את הסדר שלהן – במשפט באנגלית. האנגלית כוללת כ-170,000 מילים, ולכן היא מאפיין קטגורי עם כ-170,000 רכיבים. רוב המשפטים באנגלית משתמשים בחלק קטן מאוד מ-170,000 המילים האלה, ולכן קבוצת המילים בדוגמה אחת כמעט בוודאות תהיה נתונים דלילים.

נניח שיש לכם את המשפט הבא:

My dog is a great dog

אפשר להשתמש בווקטור one-hot כדי לייצג את המילים במשפט הזה. בגרסה הזו, כמה תאים בווקטור יכולים להכיל ערך שונה מאפס. בנוסף, בגרסה הזו, תא יכול להכיל מספר שלם שאינו אחד. המילים my, is, a ו-great מופיעות רק פעם אחת במשפט, אבל המילה dog מופיעה פעמיים. שימוש בווריאציה הזו של וקטורים עם קידוד one-hot כדי לייצג את המילים במשפט הזה יוצר את הווקטור הבא עם 170,000 רכיבים:

ייצוג חסכוני של אותו משפט יהיה פשוט:

אם אתם לא מבינים משהו, לוחצים על הסמל.

המונח 'ייצוג חסכוני' מבלבל הרבה אנשים כי ייצוג חסכוני הוא לא וקטור דליל. במקום זאת, ייצוג חסכוני הוא למעשה ייצוג צפוף של וקטור חסכוני. המונח הנרדף ייצוג אינדקס קצת יותר ברור מ"ייצוג חסכוני".

מידע נוסף זמין במאמר עבודה עם נתונים שמחולקים לקטגוריות בסדנת מבוא ללמידת מכונה.

וקטור חסכוני

#fundamentals

וקטור שהערכים שלו הם בעיקר אפסים. כדאי לעיין גם במאמרים בנושא תכונת הדלילות ודלילות.

sparsity

#Metric

מספר הרכיבים שמוגדרים לאפס (או לערך null) בווקטור או במטריצה, חלקי המספר הכולל של הערכים בווקטור או במטריצה. לדוגמה, נניח שיש מטריצה עם 100 רכיבים, שבה 98 תאים מכילים אפס. החישוב של sparsity מתבצע כך:

$$ {\text{sparsity}} = \frac{\text{98}} {\text{100}} = {\text{0.98}} $$

דלילות מאפיינים מתייחסת לדלילות של וקטור מאפיינים, ודלילות מודל מתייחסת לדלילות של משקלי המודל.

איגום מרחבי

מידע נוסף זמין במאמר בנושא איגום.

תכנות לפי מפרט

#generativeAI

התהליך של כתיבה ותחזוקה של קובץ בשפה טבעית (לדוגמה, אנגלית) שמתאר תוכנה. אחר כך אפשר להנחות מודל AI גנרטיבי או מהנדס תוכנה אחר ליצור את התוכנה שתואמת לתיאור הזה.

בדרך כלל צריך לבצע איטרציה על קוד שנוצר באופן אוטומטי. בקידוד ספציפי, מבצעים איטרציה על קובץ התיאור. לעומת זאת, בתכנות שיחתי, מבצעים איטרציה בתיבת ההנחיה. בפועל, יצירת קוד אוטומטית כוללת לפעמים שילוב של גם קידוד ספציפי וגם קידוד שיחתי.

פיצול

#df

בעץ החלטות, שם נוסף לתנאי.

מפצל

#df

במהלך אימון של עץ החלטה, השגרה (והאלגוריתם) שאחראית למציאת התנאי הטוב ביותר בכל צומת.

SPMD

קיצור של single program / multiple data (תוכנית אחת / נתונים מרובים).

SQuAD

#Metric

ראשי תיבות של Stanford Question Answering Dataset (מערך נתונים של סטנפורד למענה על שאלות), שהוצג במאמר SQuAD: 100,000+ Questions for Machine Comprehension of Text (מערך SQuAD: יותר מ-100,000 שאלות להבנת טקסט על ידי מכונה). השאלות במערך הנתונים הזה מגיעות מאנשים ששואלים שאלות על מאמרים בוויקיפדיה. לחלק מהשאלות ב-SQuAD יש תשובות, אבל לחלק אחר אין תשובות בכוונה. לכן, אפשר להשתמש ב-SQuAD כדי להעריך את היכולת של מודל שפה גדול (LLM) לבצע את שתי הפעולות הבאות:

לענות על שאלות שאפשר לענות עליהן.
לזהות שאלות שאי אפשר לענות עליהן.

התאמה מדויקת בשילוב עם F₁ הם המדדים הנפוצים ביותר להערכת מודלים גדולים של שפה (LLM) בהשוואה ל-SQuAD.

squared hinge loss

#Metric

הריבוע של הפסד הציר. הפסד ציר בריבוע מעניש חריגים בצורה חמורה יותר מאשר הפסד ציר רגיל.

squared loss

#fundamentals

#Metric

מילה נרדפת לירידה ברמת _L2.

אימון מדורג

טקטיקה לאימון מודל ברצף של שלבים נפרדים. המטרה יכולה להיות האצת תהליך האימון או שיפור איכות המודל.

האיור הבא מציג את הגישה של יצירת מקבצים מתקדמת:

שלב 1 מכיל 3 שכבות מוסתרות, שלב 2 מכיל 6 שכבות מוסתרות ושלב 3 מכיל 12 שכבות מוסתרות.
בשלב 2 מתחילים באימון עם המשקלים שנלמדו ב-3 השכבות המוסתרות של שלב 1. בשלב 3 מתחילים באימון עם המשקלים שנלמדו ב-6 השכבות המוסתרות של שלב 2.

שלושה שלבים, שמסומנים כשלב 1, שלב 2 ושלב 3.
כל שלב מכיל מספר שונה של שכבות: שלב 1 מכיל 3 שכבות, שלב 2 מכיל 6 שכבות ושלב 3 מכיל 12 שכבות.
3 השכבות משלב 1 הופכות ל-3 השכבות הראשונות בשלב 2.
באופן דומה, 6 השכבות משלב 2 הופכות ל-6 השכבות הראשונות של שלב 3.

מידע נוסף זמין במאמר בנושא צינורות.

הסמוי הסופי

ההפך מאי-סטציונריות.

שלב

העברה קדימה והעברה אחורה של קבוצת תמונות אחת.

מידע נוסף על העברה קדימה והעברה אחורה זמין במאמר בנושא backpropagation.

גודל השלב

מילה נרדפת לקצב למידה.

ירידת גרדיאנט סטוכסטית (SGD)

#fundamentals

אלגוריתם gradient descent שבו גודל האצווה הוא אחד. במילים אחרות, SGD מתאמן על דוגמה אחת שנבחרה באופן אחיד ואקראי מתוך קבוצת נתונים לאימון.

מידע נוסף זמין במאמר רגרסיה ליניארית: היפר-פרמטרים בקורס המקוצר על למידת מכונה.

פסיעה

בפעולת קונבולוציה או איגום, הדלתא בכל מימד של הסדרה הבאה של פרוסות הקלט. לדוגמה, באנימציה הבאה מוצג מעבר (1,1) במהלך פעולת קונבולוציה. לכן, פרוסת הקלט הבאה מתחילה מיקום אחד מימין לפרוסת הקלט הקודמת. כשהפעולה מגיעה לקצה הימני, הפרוסה הבאה נמצאת בצד השמאלי, אבל במקום אחד למטה.

בדוגמה שלמעלה מוצג דילוג דו-ממדי. אם מטריצת הקלט היא תלת-ממדית, גם הצעד יהיה תלת-ממדי.

מזעור סיכונים מבניים (SRM)

אלגוריתם שמאזן בין שני יעדים:

הצורך לבנות את המודל הכי מדויק (לדוגמה, עם האובדן הכי נמוך).
הצורך לשמור על מודל פשוט ככל האפשר (לדוגמה, רגולריזציה חזקה).

לדוגמה, פונקציה שממזערת את אובדן הנתונים + הרגולריזציה בקבוצת נתונים לאימון היא אלגוריתם של מזעור סיכונים מבניים.

ההפך מצמצום סיכונים אמפירי.

דגימת משנה

מידע נוסף זמין במאמר בנושא איגום.

טוקן של תת-מילה

במודלים של שפה, טוקן הוא מחרוזת משנה של מילה, שיכולה להיות המילה כולה.

לדוגמה, מילה כמו "itemize" עשויה להתפרק לחלקים "item" (מילת הרמה הבסיסית) ו-"ize" (סיומת), וכל אחד מהם מיוצג על ידי טוקן משלו. פיצול מילים לא נפוצות לחלקים כאלה, שנקראים תת-מילים, מאפשר למודלים של שפה לפעול על החלקים הנפוצים יותר של המילה, כמו תחיליות וסיומות.

לעומת זאת, מילים נפוצות כמו going לא יפוצלו ועשויות להיות מיוצגות על ידי טוקן יחיד.

סיכום

#TensorFlow

ב-TensorFlow, ערך או קבוצת ערכים שמחושבים בשלב מסוים, בדרך כלל משמשים למעקב אחרי מדדי המודל במהלך האימון.

SuperGLUE

#Metric

קבוצה של מערכי נתונים לדירוג היכולת הכוללת של מודל שפה גדול (LLM) להבין וליצור טקסט. האנסמבל מורכב ממערכי הנתונים הבאים:

שאלות בוליאניות (BoolQ)
CommitmentBank (CB)
בחירת חלופות סבירות (COPA)
הבנת הנקרא של כמה משפטים (MultiRC)
מערך נתונים של הבנת הנקרא עם חשיבה רציונלית שמבוססת על שכל ישר (ReCoRD)
Recognizing Textual Entailment (RTE)
מילים בהקשר (WiC)
Winograd Schema Challenge (WSC)

פרטים נוספים זמינים במאמר SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems.

למידת מכונה מפוקחת

#fundamentals

אימון מודל ממאפיינים והתוויות התואמות שלהם. למידת מכונה מפוקחת דומה למצב למידה של נושא מסוים על ידי עיון בסדרת שאלות ובתשובות המתאימות להן. אחרי שהתלמידים יבינו את הקשר בין השאלות לתשובות, הם יוכלו לענות על שאלות חדשות (שלא נראו קודם) באותו נושא.

השוואה ללמידת מכונה לא מפוקחת.

מידע נוסף זמין במאמר Supervised Learning (למידה מפוקחת) בקורס Introduction to ML (מבוא ל-ML).

תכונה סינתטית

#fundamentals

תכונה שלא מופיעה בין תכונות הקלט, אבל מורכבת מאחת או יותר מהן. שיטות ליצירת תכונות סינתטיות:

חלוקה לקטגוריות של תכונה רציפה לקטגוריות של טווחים.
יצירת תכונה חוצה.
הכפלה (או חלוקה) של ערך תכונה אחד בערך תכונה אחר או בכמה ערכים אחרים, או בעצמו. לדוגמה, אם a ו-b הם מאפייני קלט, אלה דוגמאות למאפיינים סינתטיים:
- ab
- a²
החלת פונקציה טרנסצנדנטית על ערך של תכונה. לדוגמה, אם c הוא מאפיין קלט, אלה דוגמאות למאפיינים סינתטיים:
- sin(c)
- ln(c)

תכונות שנוצרו על ידי נרמול או שינוי קנה מידה בלבד לא נחשבות לתכונות סינתטיות.

T

T5

מודל ללמידת העברה מטקסט לטקסט, שהוצג על ידי Google AI בשנת 2020. ‫T5 הוא מודל מקודד-מפענח שמבוסס על ארכיטקטורת Transformer, שאומן על מערך נתונים גדול במיוחד. הוא יעיל במגוון משימות של עיבוד שפה טבעית (NLP), כמו יצירת טקסט, תרגום שפות ומענה על שאלות בסגנון שיחה.

השם T5 מגיע מחמש האותיות T בביטוי Text-to-Text Transfer Transformer (טרנספורמר להעברת יצירת טקסט על סמך טקסט).

T5X

מסגרת למידת מכונה מבוססת קוד פתוח שנועדה ליצור ולאמן מודלים של עיבוד שפה טבעית (NLP) בקנה מידה גדול. ‫T5 מיושם בבסיס הקוד של T5X (שמבוסס על JAX ועל Flax).

tabular Q-learning

בלמידת חיזוק, מיישמים Q-learning באמצעות טבלה לאחסון פונקציות Q לכל שילוב של מצב ופעולה.

יעד

מילה נרדפת לתווית.

רשת יעד

ב-Deep Q-learning, רשת נוירונים שהיא קירוב יציב של רשת הנוירונים הראשית, כאשר רשת הנוירונים הראשית מיישמת פונקציית Q או מדיניות. לאחר מכן, אפשר לאמן את הרשת הראשית על ערכי ה-Q שחזתה רשת היעד. לכן, אתם מונעים את לולאת המשוב שמתרחשת כשהרשת הראשית מתאמנת על ערכי Q שחזתה בעצמה. הימנעות מהמשוב הזה משפרת את יציבות האימון.

משימה

בעיה שאפשר לפתור באמצעות טכניקות של למידת מכונה, כמו:

‫classification
regression
clustering
זיהוי אנומליות

טמפרטורה

#generativeAI

היפר-פרמטר ששולט במידת האקראיות של הפלט של מודל. טמפרטורות גבוהות יותר יובילו לתוצאות אקראיות יותר, ואילו טמפרטורות נמוכות יותר יובילו לתוצאות פחות אקראיות.

#TensorFlow

המספר הכולל של ערכים סקלריים שמוכלים ב-Tensor. לדוגמה, לטנזור [5, 10] יש גודל של 50.

TensorStore

ספרייה לקריאה ולכתיבה יעילות של מערכים גדולים רב-ממדיים.

תנאי סיום

בלמידת חיזוק, התנאים שמגדירים מתי פרק מסתיים, למשל כשהסוכן מגיע למצב מסוים או חורג ממספר סף של מעברים בין מצבים. לדוגמה, באיקס עיגול, פרק מסתיים כששחקן מסמן שלושה ריבועים רצופים או כשכל הריבועים מסומנים.

בדיקה

#df

בעץ החלטות, שם נוסף לתנאי.

הפסד בבדיקה

#fundamentals

#Metric

מדד שמייצג את ההפסד של מודל בהשוואה לקבוצת נתונים לבדיקה. כשבונים מודל, בדרך כלל מנסים לצמצם את הפסד הבדיקה. הסיבה לכך היא שערך נמוך של הפסד בבדיקה הוא אות איכות חזק יותר מערך נמוך של הפסד באימון או ערך נמוך של הפסד באימות.

פער גדול בין הפסד הבדיקה לבין הפסד האימון או הפסד האימות מצביע לפעמים על הצורך להגדיל את שיעור הרגולריזציה.

קבוצת נתונים לבדיקה

קבוצת משנה של מערך הנתונים ששמורה לבדיקה של מודל שאומן.

באופן מסורתי, מחלקים את הדוגמאות במערך הנתונים לשלוש קבוצות משנה נפרדות:

קבוצת נתונים לאימון
קבוצת נתונים לתיקוף
קבוצת נתונים לבדיקה

כל דוגמה בקבוצת נתונים צריכה להיות שייכת רק לאחת מקבוצות המשנה הקודמות. לדוגמה, דוגמה אחת לא יכולה להיות גם בקבוצת נתונים לאימון וגם בקבוצת נתונים לבדיקה.

קבוצת הנתונים לאימון וקבוצת הנתונים לתיקוף קשורות קשר הדוק לאימון של מודל. מכיוון שקבוצת נתונים לבדיקה משויכת לאימון באופן עקיף בלבד, ההפסד של הבדיקה הוא מדד פחות מוטה ואיכותי יותר מאשר ההפסד של האימון או ההפסד של האימות.

מידע נוסף זמין במאמר מערכי נתונים: חלוקת מערך הנתונים המקורי בסדנה ללימוד למידת מכונה.

יחידה לוגית למעקב

טווח האינדקסים במערך שמשויך לחלק משני במחרוזת טקסט. לדוגמה, המילה good במחרוזת Python‏ s="Be good now" תופסת את יחידה לוגית למעקב הטקסט מ-3 עד 6.

tf.Example

#TensorFlow

‫מאגר אחסון לפרוטוקולים סטנדרטי לתיאור נתוני קלט לאימון או להסקת מסקנות של מודל למידת מכונה.

tf.keras

#TensorFlow

הטמעה של Keras שמשולבת ב-TensorFlow.

סף (עבור עצי החלטה)

#df

בתנאי שמוגדר לאורך ציר, הערך שמאפיין מושווה אליו. לדוגמה, 75 הוא ערך הסף בתנאי הבא:

grade >= 75

מידע נוסף זמין במאמר Exact splitter for binary classification with numerical features בקורס בנושא Decision Forests.

ניתוח של סדרות זמנים

#clustering

תחום משנה של למידת מכונה וסטטיסטיקה שבו מנתחים נתונים זמניים. סוגים רבים של בעיות בלמידת מכונה דורשים ניתוח של סדרות זמן, כולל סיווג, אשכולות, חיזוי וזיהוי אנומליות. לדוגמה, אפשר להשתמש בניתוח של סדרות עיתיות כדי לחזות את נתוני המכירות העתידיים של מעילי חורף לפי חודש, על סמך נתוני מכירות היסטוריים.

timestep

תא אחד 'לא מגולגל' בתוך רשת נוירונים חוזרת. לדוגמה, באיור הבא מוצגים שלושה שלבים בזמן (מסומנים במדדי המשנה t-1,‏ t ו-t+1):

שלושה צעדים בזמן ברשת נוירונים חוזרת. הפלט של
השלב הראשון הופך לקלט של השלב השני. הפלט
של צעד הזמן השני הופך לקלט של צעד הזמן השלישי.

token

במודל שפה, היחידה האטומית שהמודל מתאמן עליה ומבצע חיזויים לגביה. אסימון הוא בדרך כלל אחד מהבאים:

מילה – לדוגמה, הביטוי "dogs like cats" מורכב משלושה טוקנים של מילים: "dogs",‏ "like" ו-"cats".
תו – לדוגמה, הביטוי bike fish מורכב מתשעה טוקנים של תווים. (שימו לב שהרווח הריק נספר כאחד מהטוקנים).
מילים חלקיות – מילה אחת יכולה להיות טוקן אחד או כמה טוקנים. מילת משנה מורכבת ממילת בסיס, תחילית או סיומת. לדוגמה, מודל שפה שמשתמש במילים חלקיות כאסימונים עשוי לראות את המילה dogs כשני אסימונים (מילת הבסיס dog והסיומת לרבים s). אותו מודל שפה עשוי לראות במילה היחידה "taller" (גבוה יותר) שתי מילים משנה (מילת הבסיס tall (גבוה) והסיומת er).

בדומיינים מחוץ למודלי שפה, טוקנים יכולים לייצג סוגים אחרים של יחידות אטומיות. לדוגמה, בראייה ממוחשבת, טוקן יכול להיות קבוצת משנה של תמונה.

מידע נוסף זמין במאמר מודלים גדולים של שפה בקורס Machine Learning Crash Course.

tokenizer

מערכת או אלגוריתם שמתרגמים רצף של נתוני קלט לטוקנים.

רוב מודלי היסוד המודרניים הם מולטי-מודאליים. טוקנייזר למערכת מולטימודלית צריך לתרגם כל סוג קלט לפורמט המתאים. לדוגמה, אם נתוני הקלט כוללים גם טקסט וגם גרפיקה, יכול להיות שהטוקנייזר יתרגם את טקסט הקלט למילים חלקיות ואת תמונות הקלט לתיקונים קטנים. לאחר מכן, הטוקנייזר צריך להמיר את כל הטוקנים למרחב הטמעה מאוחד יחיד, כדי שהמודל יוכל 'להבין' זרם של קלט מולטימודאלי.

דיוק top-k

#Metric

אחוז הפעמים שבהן 'תווית היעד' מופיעה בתוך k המיקומים הראשונים של רשימות שנוצרו. הרשימות יכולות להיות המלצות מותאמות אישית או רשימה של פריטים שמסודרים לפי softmax.

דיוק k המובילים נקרא גם דיוק ב-k.

לוחצים על הסמל כדי לראות דוגמה.

נניח שיש מערכת למידת מכונה שמשתמשת ב-softmax כדי לזהות הסתברויות של עצים על סמך תמונה של עלי עצים. בטבלה הבאה מוצגות רשימות פלט שנוצרו מחמש תמונות של עצים כקלט. כל שורה מכילה תווית יעד וחמישה עצים עם הסבירות הגבוהה ביותר. לדוגמה, אם תווית היעד הייתה maple, מודל למידת המכונה זיהה את elm כעץ הכי סביר, את oak כעץ השני הכי סביר וכן הלאה.

תווית היעד	1	2	3	4	5
מייפל	בוקיצה	אלון	maple	אשור	צפצפה
קרנית	אלון	dogwood	צפצפה	Hickory	מייפל
אלון	oak	טיליה	ארבה	אלמון	Linden
Linden	מייפל	פפאיה	אלון	טיליה	צפצפה
אלון	ארבה	Linden	oak	מייפל	פפאיה

תווית היעד מופיעה במיקום הראשון רק פעם אחת, ולכן דיוק המיקום הראשון הוא:

$$\text{top-1 accuracy} = \frac{\text{1}} {\text{5}} = 0.2$$

תווית היעד מופיעה באחד משלושת המיקומים הראשונים ארבע פעמים, לכן רמת הדיוק של 3 המיקומים הראשונים היא:

$$\text{top-1 accuracy} = \frac{\text{4}} {\text{5}} = 0.8$$

מגדל

רכיב של רשת עצבית עמוקה שהוא בעצמו רשת עצבית עמוקה. במקרים מסוימים, כל מגדל קורא ממקור נתונים עצמאי, והמגדלים האלה נשארים עצמאיים עד שהפלט שלהם משולב בשכבה סופית. במקרים אחרים (לדוגמה, במקודד ובמפענח של טרנספורמרים), יש קשרים בין המגדלים.

#fundamentals

התהליך של קביעת הפרמטרים האידיאליים (משקלים והטיות) שמרכיבים מודל. במהלך האימון, המערכת קוראת דוגמאות ומתאימה בהדרגה את הפרמטרים. במהלך האימון, כל דוגמה משמשת בין כמה פעמים למיליארדי פעמים.

מידע נוסף זמין במאמר Supervised Learning (למידה מפוקחת) בקורס Introduction to ML (מבוא ל-ML).

הפסד האימון

#fundamentals

#Metric

מדד שמייצג את האובדן של מודל במהלך איטרציה מסוימת של אימון. לדוגמה, נניח שפונקציית ההפסד היא Mean Squared Error. יכול להיות שההפסד של האימון (השגיאה הממוצעת בריבוע) באיטרציה העשירית הוא 2.2, וההפסד של האימון באיטרציה ה-100 הוא 1.9.

בעקומת הפסד מוצג הפסד האימון לעומת מספר האיטרציות. עקומת הפסד מספקת את הרמזים הבאים לגבי האימון:

שיפוע כלפי מטה מעיד על שיפור במודל.
שיפוע כלפי מעלה מרמז שהמודל הולך ונעשה גרוע יותר.
שיפוע מתון מעיד שהמודל הגיע להתכנסות.

לדוגמה, עקומת ההפסד הבאה היא אידיאלית במידה מסוימת, והיא מציגה:

שיפוע חד כלפי מטה במהלך האיטרציות הראשוניות, שמצביע על שיפור מהיר של המודל.
שיפוע שמשתטח בהדרגה (אבל עדיין יורד) עד לסיום האימון, מה שמצביע על שיפור מתמשך של המודל בקצב איטי יותר מאשר במהלך האיטרציות הראשוניות.
שיפוע מתון לקראת סוף האימון, שמצביע על התכנסות.

הגרף של הפסד האימון לעומת האיטרציות. עקומת ההפסד הזו מתחילה עם שיפוע תלול כלפי מטה. השיפוע משתטח בהדרגה עד שהוא הופך לאפס.

למרות שחשוב להבין את הפסדי האימון, כדאי גם לעיין במושג הכללה.

training-serving skew

#fundamentals

ההבדל בין הביצועים של מודל מסוים במהלך האימון לבין הביצועים של אותו מודל במהלך הצגת המודעות.

קבוצת נתונים לאימון

#fundamentals

קבוצת המשנה של מערך הנתונים שמשמשת לאימון מודל.

באופן מסורתי, הדוגמאות במערך הנתונים מחולקות לשלוש קבוצות משנה נפרדות:

קבוצת נתונים לאימון
קבוצת נתונים לתיקוף
קבוצת נתונים לבדיקה

באופן אידיאלי, כל דוגמה בקבוצת הנתונים צריכה להיות שייכת רק לאחת מקבוצות המשנה הקודמות. לדוגמה, דוגמה אחת לא יכולה להיות גם בקבוצת נתונים לאימון וגם בקבוצת נתונים לתיקוף.

מידע נוסף זמין במאמר מערכי נתונים: חלוקת מערך הנתונים המקורי בסדנה ללימוד למידת מכונה.

מסלול

בלמידת חיזוק, רצף של טופלים שמייצגים רצף של מעברי מצב של הסוכן, כאשר כל טופל מתאים למצב, לפעולה, לתגמול ולמצב הבא של מעבר מצב נתון.

העברה במצב למידה

העברת מידע ממשימת למידת מכונה אחת לאחרת. לדוגמה, בלמידה מרובת-משימות, מודל יחיד פותר כמה משימות, כמו מודל עמוק שיש לו צמתי פלט שונים למשימות שונות. העברת ידע יכולה לכלול העברת ידע מפתרון של משימה פשוטה יותר למשימה מורכבת יותר, או העברת ידע ממשימה שבה יש יותר נתונים למשימה שבה יש פחות נתונים.

רוב מערכות הלמידה החישובית פותרות משימה אחת. למידה בהעברה היא צעד ראשון לקראת בינה מלאכותית, שבו תוכנית אחת יכולה לפתור כמה משימות.

Transformer

ארכיטקטורה של רשת נוירונים שפותחה ב-Google ומסתמכת על מנגנוני self-attention כדי להמיר רצף של הטמעות קלט לרצף של הטמעות פלט, בלי להסתמך על convolutions או על רשתות עצביות חוזרות. אפשר לראות טרנספורמר כסטאק של שכבות קשב עצמי.

טרנספורמציה יכולה לכלול כל אחד מהרכיבים הבאים:

מקודד
מפענח
גם מקודד וגם מפענח

מקודד הופך רצף של הטמעות לרצף חדש באורך זהה. מקודד כולל N שכבות זהות, שכל אחת מהן מכילה שתי תת-שכבות. שתי שכבות המשנה האלה מוחלות בכל מיקום של רצף הטמעת הקלט, והן משנות כל אלמנט ברצף להטמעה חדשה. שכבת המשנה הראשונה של המקודד צוברת מידע מרצף הקלט. שכבת המשנה השנייה של המקודד הופכת את המידע המצטבר להטמעה של פלט.

מפענח הופך רצף של הטמעות קלט לרצף של הטמעות פלט, שאולי יש לו אורך שונה. מפענח כולל גם N שכבות זהות עם שלוש שכבות משנה, שתיים מהן דומות לשכבות המשנה של המקודד. שכבת המשנה השלישית של המפענח מקבלת את הפלט של המקודד ומפעילה את מנגנון הקשב העצמי כדי לאסוף ממנו מידע.

בפוסט בבלוג Transformer: A Novel Neural Network Architecture for Language Understanding מוצג מבוא טוב לטרנספורמרים.

מידע נוסף זמין במאמר LLMs: What's a large language model? (מודלים גדולים של שפה: מהו מודל שפה גדול?) בקורס Machine Learning Crash Course (קורס מקוצר על למידת מכונה).

אינווריאנטיות ביחס להזזה

בבעיה של סיווג תמונות, היכולת של אלגוריתם לסווג תמונות בהצלחה גם כשמיקום האובייקטים בתוך התמונה משתנה. לדוגמה, האלגוריתם עדיין יכול לזהות כלב, בין אם הוא נמצא במרכז הפריים או בקצה השמאלי של הפריים.

אפשר גם לקרוא על אי-תלות בגודל ועל אי-תלות בסיבוב.

טריגרמה

N-gram שבו N=3.

מענה על שאלות טריוויה

#Metric

מערכי נתונים להערכת היכולת של מודל שפה גדול לענות על שאלות טריוויה. כל מערך נתונים מכיל זוגות של שאלות ותשובות שנכתבו על ידי חובבי טריוויה. מערכי נתונים שונים מבוססים על מקורות שונים, כולל:

חיפוש באינטרנט (TriviaQA)
ויקיפדיה (TriviaQA_wiki)

מידע נוסף זמין במאמר TriviaQA: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension.

TRUE שלילי (TN)

#fundamentals

#Metric

Ultra

#generativeAI

מודל Gemini עם הכי הרבה פרמטרים. פרטים נוספים זמינים במאמר בנושא Gemini Ultra.

כדאי לעיין גם בPro ובNano.

חוסר מודעות (למאפיין רגיש)

#responsible

מצב שבו קיימים מאפיינים רגישים, אבל הם לא נכללים בנתוני האימון. מאחר שלעתים קרובות יש קורלציה בין מאפיינים רגישים לבין מאפיינים אחרים בנתונים שלכם, יכול להיות שלמודל שאומן בלי להביא בחשבון מאפיין רגיש עדיין תהיה השפעה לא שוויונית ביחס למאפיין הזה, או שהוא יפר אילוצים אחרים של הוגנות.

התאמה חסרה (underfitting)

#fundamentals

יצירת מודל עם יכולת חיזוי נמוכה, כי המודל לא הצליח לתפוס באופן מלא את המורכבות של נתוני האימון. יש הרבה בעיות שיכולות לגרום להתאמה חסרה, כולל:

אימון על קבוצה שגויה של תכונות.
אימון למספר קטן מדי של תקופות אימון או בקצב למידה נמוך מדי.
אימון עם שיעור רגולריזציה גבוה מדי.
מספר קטן מדי של שכבות נסתרות ברשת עצבית עמוקה.

מידע נוסף מופיע במאמר בנושא התאמת יתר בקורס המקוצר על למידת מכונה.

תת-דגימה

הסרת דוגמאות מהסיווג הרוב במערך נתונים לא מאוזן של סיווגים כדי ליצור קבוצת נתונים לאימון מאוזנת יותר.

לדוגמה, נניח שיש מערך נתונים שבו היחס בין הסיווג הנדיר לבין הסיווג הנפוץ הוא 1:20. כדי להתגבר על חוסר האיזון הזה בין המחלקות, אפשר ליצור קבוצת נתונים לאימון שמורכבת מכל הדוגמאות של מחלקת המיעוט, אבל רק מעשירית מהדוגמאות של מחלקת הרוב. כך נוצר יחס של 2:1 בין המחלקות בקבוצת הנתונים לאימון. הודות לדילול, יכול להיות שקבוצת הנתונים לאימון המאוזנת יותר הזו תניב מודל טוב יותר. לחלופין, יכול להיות שקבוצת הנתונים לאימון המאוזנת יותר הזו לא תכיל מספיק דוגמאות לאימון מודל יעיל.

ההבדל בין השיטה הזו לבין דגימת יתר.

חד-כיווני

מערכת שמעריכה רק את הטקסט שקודם לקטע טקסט היעד. לעומת זאת, במערכת דו-כיוונית מתבצעת הערכה של הטקסט שקודם לקטע הטקסט המיועד ושל הטקסט שאחריו. פרטים נוספים מופיעים במאמר בנושא דו-כיווניות.

מודל שפה חד-כיווני

מודל שפה שמבוסס על הסתברויות רק של טוקנים שמופיעים לפני הטוקנים המטורגטים, ולא אחריהם. ההפך ממודל שפה דו-כיווני.

דוגמה ללא תווית

#fundamentals

דוגמה שמכילה features אבל לא label. לדוגמה, בטבלה הבאה מוצגות שלוש דוגמאות לא מסומנות ממודל להערכת שווי של בית. לכל דוגמה יש שלושה מאפיינים, אבל לא מצוין ערך הבית:

מספר חדרי שינה	מספר חדרי אמבטיה	גיל הבית
3	2	15
2	1	72
4	2	34

בלמידת מכונה מבוקרת, מודלים מתאמנים על דוגמאות מתויגות ומבצעים חיזויים על דוגמאות לא מתויגות.

בלמידה מונחית למחצה ובלמידה לא מונחית, נעשה שימוש בדוגמאות לא מסומנות במהלך האימון.

השוו בין דוגמה ללא תוויות לבין דוגמה עם תוויות.

למידת מכונה לא מפוקחת

#clustering

#fundamentals

אימון מודל כדי לזהות דפוסים במערך נתונים, בדרך כלל מערך נתונים לא מסומן.

השימוש הנפוץ ביותר בלמידת מכונה לא מפוקחת הוא אשכול נתונים לקבוצות של דוגמאות דומות. לדוגמה, אלגוריתם ללמידת מכונה לא מפוקחת יכול לקבץ שירים לאשכולות על סמך מאפיינים שונים של המוזיקה. האשכולות שמתקבלים יכולים לשמש כקלט לאלגוריתמים אחרים של למידת מכונה (למשל, לשירות המלצות למוזיקה). האשכולות יכולים לעזור אם יש מעט תוויות שימושיות או אם אין כאלה בכלל. לדוגמה, בתחומים כמו מניעת ניצול לרעה והונאה, אשכולות יכולים לעזור לאנשים להבין טוב יותר את הנתונים.

ההבדל בין למידת מכונה לא מפוקחת לבין למידת מכונה מפוקחת.

כדי לראות טיפים ממשתמשים נוספים, לוחצים על הסמל.

דוגמה נוספת ללמידת מכונה לא מפוקחת היא ניתוח רכיבים עיקריים (PCA). לדוגמה, יישום PCA על מערך נתונים שמכיל את התוכן של מיליוני עגלות קניות עשוי לחשוף שעגלות קניות שמכילות לימונים מכילות גם תרופות נגד צרבת.

מידע נוסף זמין במאמר מהי למידת מכונה? בקורס 'מבוא ל-ML'.

מידול של שיפור הביצועים

טכניקת מידול, שנפוצה בשימוש בשיווק, שמדמה את ה"השפעה הסיבתית" (שנקראת גם "ההשפעה המצטברת") של "טיפול" על "פרט". להלן שתי דוגמאות:

רופאים יכולים להשתמש במודלים לחיזוי שיפור כדי לחזות את הירידה בשיעור התמותה (השפעה סיבתית) של הליך רפואי (טיפול) בהתאם לגיל ולהיסטוריה הרפואית של מטופל (אדם).
משווקים יכולים להשתמש במודלים של עלייה כדי לחזות את העלייה בהסתברות לרכישה (השפעה סיבתית) כתוצאה ממודעה (טיפול) שמוצגת לאדם (משתמש).

ההבדל בין מודלים לחיזוי עלייה לבין סיווג או רגרסיה הוא שבמודלים לחיזוי עלייה תמיד חסרות חלק מהתוויות (לדוגמה, מחצית מהתוויות בטיפולים בינאריים). לדוגמה, מטופל יכול לקבל טיפול או לא לקבל טיפול. לכן, אנחנו יכולים לראות אם המטופל יחלים או לא יחלים רק באחד משני המצבים האלה (אבל אף פעם לא בשניהם). היתרון העיקרי של מודל עלייה הוא שהוא יכול ליצור תחזיות לגבי מצב שלא נצפה (ההפוך לעובדה) ולהשתמש בהן כדי לחשב את ההשפעה הסיבתית.

הגדלת המשקל

החלת משקל על המחלקה downsampled ששווה לגורם שבו נעשה downsampling.

מטריצת משתמשים

קבוצת המשנה של מערך הנתונים שמשמשת לביצוע הערכה ראשונית של מודל מאומן. בדרך כלל, מעריכים את המודל שאומן ביחס לקבוצת נתונים לתיקוף כמה פעמים לפני שמעריכים את המודל ביחס לקבוצת נתונים לבדיקה.

באופן מסורתי, מחלקים את הדוגמאות במערך הנתונים לשלושה תת-קבוצות נפרדות:

קבוצת נתונים לאימון
קבוצת נתונים לתיקוף
קבוצת נתונים לבדיקה

מידע נוסף זמין במאמר מערכי נתונים: חלוקת מערך הנתונים המקורי בסדנה ללימוד למידת מכונה.

השלמת ערכים חסרים

התהליך של החלפת ערך חסר בתחליף קביל. אם חסר ערך, אפשר לפסול את הדוגמה כולה או להשתמש בהשלמת ערכים כדי להציל את הדוגמה.

לדוגמה, נניח שיש קבוצת נתונים שמכילה מאפיין temperature שאמור להירשם כל שעה. עם זאת, קריאת רמת האקראיות לא הייתה זמינה בשעה מסוימת. קטע מקבוצת הנתונים:

חותמת זמן	טמפרטורה
1680561000	10
1680564600	12
1680568200	חסר
1680571800	20
1680575400	21
1680579000	21

המערכת יכולה למחוק את הדוגמה החסרה או להזין את רמת האקראיות החסרה כ-12, 16, 18 או 20, בהתאם לאלגוריתם ההשלמה.

בעיית הגרדיאנט הנעלם

הנטייה של הגרדיאנטים של שכבות מוסתרות מוקדמות של חלק מרשתות עצביות עמוקות להיות שטוחים (נמוכים) באופן מפתיע. שיפועים נמוכים יותר ויותר מובילים לשינויים קטנים יותר ויותר במשקלים של הצמתים ברשת עצבית עמוקה, וכתוצאה מכך למידה מועטה או ללא למידה בכלל. קשה או בלתי אפשרי לאמן מודלים שסובלים מבעיית הגרדיאנט הנעלם. תאי זיכרון לטווח קצר לזמן ארוך פותרים את הבעיה הזו.

השוואה לבעיית הגרדיאנט המתפוצץ.

חשיבות המשתנים

#df

#Metric

קבוצת ציונים שמציינת את החשיבות היחסית של כל תכונה למודל.

לדוגמה, נניח שיש עץ החלטה שמבצע הערכה של מחירי בתים. נניח שעץ ההחלטה הזה משתמש בשלושה מאפיינים: גודל, גיל וסגנון. אם קבוצת חשיבות המשתנים של שלושת המאפיינים היא {size=5.8, age=2.5, style=4.7}, אז המאפיין size חשוב יותר לעץ ההחלטה מהמאפיינים age או style.

קיימים מדדים שונים לחשיבות משתנים, שיכולים לספק למומחי למידת מכונה מידע על היבטים שונים של מודלים.

מקודד אוטומטי משתנה (VAE)

סוג של מקודד אוטומטי שמנצל את הפער בין הקלט לפלט כדי ליצור גרסאות משופרות של הקלט. מקודדים אוטומטיים משתנים שימושיים ל-AI גנרטיבי.

מודלים של VAE מבוססים על הסקה וריאציונית: טכניקה להערכת הפרמטרים של מודל הסתברותי.

וקטור

מונח עמוס מאוד שהמשמעות שלו משתנה בין תחומים מתמטיים ומדעיים שונים. במסגרת למידת מכונה, לווקטור יש שתי תכונות:

סוג הנתונים: וקטורים בלמידת מכונה מכילים בדרך כלל מספרים עם נקודה צפה.
מספר האלמנטים: זהו האורך של הווקטור או הממד שלו.

לדוגמה, נניח שיש וקטור תכונות שמכיל שמונה מספרים בנקודה צפה. וקטור המאפיינים הזה הוא באורך או בממד של שמונה. שימו לב שלוקטורים של למידת מכונה יש בדרך כלל מספר עצום של ממדים.

אפשר לייצג סוגים רבים ושונים של מידע כווקטור. לדוגמה:

כל מיקום על פני כדור הארץ יכול להיות מיוצג כווקטור דו-ממדי, כאשר מימד אחד הוא קו הרוחב והשני הוא קו האורך.
המחירים הנוכחיים של כל אחת מ-500 מניות יכולים להיות מיוצגים כווקטור של 500 ממדים.
אפשר לייצג התפלגות הסתברות על מספר סופי של מחלקות כווקטור. לדוגמה, מערכת סיווג רב-מחלקתי שמנבאת אחד משלושה צבעי פלט (אדום, ירוק או צהוב) יכולה להפיק את הווקטור (0.3, 0.2, 0.5) כדי לציין P[red]=0.3, P[green]=0.2, P[yellow]=0.5.

אפשר לשרשר וקטורים, ולכן אפשר לייצג מגוון של מדיה שונה כווקטור יחיד. חלק מהמודלים פועלים ישירות על שרשור של הרבה קידודים חמים.

מעבדים ייעודיים כמו TPU מותאמים לביצוע פעולות מתמטיות על וקטורים.

וקטור הוא טנזור מדרגה 1.

שיא

#GoogleCloud

#generativeAI

הפלטפורמה של Google Cloud ל-AI ולמידת מכונה. ‫Vertex מספקת כלים ותשתית לפיתוח, לפריסה ולניהול של אפליקציות AI, כולל גישה למודלים של Gemini.

תכנות בשיטת Vibe coding

#generativeAI

הנחיה של מודל AI גנרטיבי ליצור תוכנה. כלומר, ההנחיות שלכם מתארות את המטרה והתכונות של התוכנה, ומודל AI גנרטיבי מתרגם אותן לקוד מקור. הקוד שנוצר לא תמיד תואם לכוונות שלכם, ולכן בדרך כלל צריך לחזור על התהליך של תכנות בשיטת Vibe coding.

אנדריי קרפטי (Andrej Karpathy) טבע את המונח 'תכנות בשיטת Vibe coding' בפוסט הזה ב-X. בפוסט ב-X, קרפתי מתאר את זה כ "סוג חדש של קידוד...שבו נכנעים לגמרי לאווירה..." לכן, המונח במקור התייחס לגישה מכוונת וגמישה ליצירת תוכנה, שבה יכול להיות שלא תבדקו את הקוד שנוצר. עם זאת, המונח התפתח במהירות בהרבה תחומים, ועכשיו הוא מתייחס לכל סוג של קידוד שנוצר על ידי AI.

תיאור מפורט יותר של תכנות בשיטת Vibe coding זמין במאמר מה זה תכנות בשיטת Vibe coding?

בנוסף, השוו והבדילו בין תכנות בשיטת Vibe coding לבין:

specificational coding
conversational coding

W

פונקציית הפסד Wasserstein

#Metric

אחת מפונקציות ההפסד שבהן נעשה שימוש בדרך כלל ברשתות יריבות גנרטיביות, על סמך המרחק בין חלוקת הנתונים שנוצרו לבין הנתונים האמיתיים.

משקל

#fundamentals

ערך שהמודל מכפיל בערך אחר. אימון הוא התהליך של קביעת המשקלים האידיאליים של המודל. הסקת מסקנות היא התהליך של שימוש במשקלים שנלמדו כדי ליצור תחזיות.

כדי לראות דוגמה למשקלים במודל ליניארי, לוחצים על הסמל.

דמיינו מודל לינארי עם שתי תכונות. נניח שהאימון קובע את המשקלים הבאים (והטיה):

ההטיה, b, היא 2.2
המשקל, w₁ שמשויך לתכונה אחת הוא 1.5.
המשקל, w₂ שמשויך לתכונה השנייה הוא 0.4.

עכשיו נדמיין דוגמה עם ערכי התכונות הבאים:

הערך של תכונה אחת, x₁, הוא 6.
הערך של התכונה השנייה, x₂, הוא 10.

המודל הליניארי הזה משתמש בנוסחה הבאה כדי ליצור תחזית, y':

$$y' = b + w_1x_1 + w_2x_2$$

לכן, התחזית היא:

$$y' = 2.2 + (1.5)(6) + (0.4)(10) = 15.2$$

אם המשקל הוא 0, התכונה המתאימה לא תורמת למודל. לדוגמה, אם w₁ הוא 0, אז הערך של x₁ לא רלוונטי.

מידע נוסף זמין במאמר בנושא רגרסיה לינארית בקורס המקוצר על למידת מכונה.

שיטת הריבועים הפחותים לסירוגין עם משקל (WALS)

אלגוריתם למזעור פונקציית המטרה במהלך פירוק מטריצות במערכות המלצות, שמאפשר להפחית את המשקל של הדוגמאות החסרות. אלגוריתם WALS ממזער את השגיאה הריבועית המשוקללת בין המטריצה המקורית לבין השחזור, על ידי מעבר לסירוגין בין תיקון הפירוק לשורות לבין תיקון הפירוק לעמודות. כל אחת מהאופטימיזציות האלה ניתנת לפתרון באמצעות אופטימיזציה קמורה של ריבועים פחותים. פרטים נוספים זמינים בקורס בנושא מערכות המלצה.

סכום משוקלל

#fundamentals

הסכום של כל ערכי הקלט הרלוונטיים כפול המשקלים המתאימים שלהם. לדוגמה, נניח שהקלט הרלוונטי מורכב מהרכיבים הבאים:

ערך קלט	משקל קלט
2	‫1.3-
-1	0.6
3	0.4

לכן הסכום המשוקלל הוא:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

סכום משוקלל הוא ארגומנט הקלט של פונקציית הפעלה.

WiC

#Metric

קיצור למילים בהקשר.

מודל רחב

מודל לינארי שבדרך כלל כולל הרבה תכונות קלט דלילות. אנחנו קוראים לו 'רחב' כי מודל כזה הוא סוג מיוחד של רשת נוירונים עם מספר גדול של נתוני קלט שמתחברים ישירות לצומת הפלט. לעתים קרובות קל יותר לנפות באגים במודלים רחבים ולבדוק אותם מאשר במודלים עמוקים. אמנם מודלים רחבים לא יכולים לבטא אי-ליניאריות באמצעות שכבות מוסתרות, אבל הם יכולים להשתמש בטרנספורמציות כמו שילוב תכונות וחלוקה לקטגוריות כדי ליצור מודלים של אי-ליניאריות בדרכים שונות.

ההבדל בינו לבין מודל עמוק.

רוחב

מספר הנוירונים בשכבה מסוימת של רשת נוירונים.

WikiLingua (wiki_lingua)

#Metric

מערך נתונים להערכת היכולת של מודל LLM לסכם מאמרים קצרים. ‫WikiHow, אנציקלופדיה של מאמרים שמסבירים איך לבצע משימות שונות, הוא המקור שנכתב על ידי בני אדם גם למאמרים וגם לסיכומים. כל רשומה במערך הנתונים כוללת:

מאמר שנוצר על ידי הוספה של כל שלב בגרסת הפרוזה (הפסקה) של הרשימה הממוספרת, ללא משפט הפתיחה של כל שלב.
סיכום של המאמר, שמורכב ממשפט הפתיחה של כל שלב ברשימה הממוספרת.

פרטים נוספים זמינים במאמר WikiLingua: A New Benchmark Dataset for Cross-Lingual Abstractive Summarization.

אתגר סכימת וינוגרד (WSC)

#Metric

פורמט (או מערך נתונים שתואם לפורמט הזה) להערכת היכולת של מודל שפה גדול (LLM) לקבוע את הצירוף הנומינלי שאליו מתייחסת מילת גוף.

כל רשומה באתגר סכימת וינוגרד כוללת:

פסקה קצרה שמכילה כינוי גוף של יעד
כינוי גוף ליעד
צירופי שם עצם אפשריים, ואחריהם התשובה הנכונה (ערך בוליאני). אם כינוי הגוף שאליו מתייחסים מתייחס למועמד הזה, התשובה היא True. אם כינוי הגוף לא מתייחס למועמד הזה, התשובה היא False.

לדוגמה:

פסקה: Mark told Pete many lies about himself, which Pete included in his book. הוא היה צריך להיות יותר כנה.
כינוי הגוף הממוקד: הוא
צירופי שם עצם מוצעים:
- סימון: True, כי כינוי הגוף המטורגט מתייחס למארק
- פיט: False, כי כינוי הגוף לא מתייחס לפיט

אתגר סכמת וינוגרד הוא רכיב של SuperGLUE.

חוכמת ההמונים

#df

הרעיון שלפיו חישוב ממוצע של דעות או הערכות של קבוצה גדולה של אנשים ("הקהל") מניב לעיתים קרובות תוצאות טובות באופן מפתיע. לדוגמה, נניח שמשחקים משחק שבו אנשים מנחשים כמה סוכריות ג'לי ארוזות בצנצנת גדולה. למרות שרוב הניחושים האישיים לא יהיו מדויקים, הוכח אמפירית שהממוצע של כל הניחושים קרוב באופן מפתיע למספר האמיתי של סוכריות הג'לי בצנצנת.

מודלים משולבים הם מקבילה תוכנתית לחוכמת ההמונים. גם אם מודלים ספציפיים מפיקים תחזיות לא מדויקות באופן קיצוני, ממוצע התחזיות של הרבה מודלים יוצר לעיתים קרובות תחזיות טובות באופן מפתיע. לדוגמה, למרות שעץ החלטה בודד עשוי לספק תחזיות לא טובות, יער החלטה לרוב מספק תחזיות טובות מאוד.

WMT

באופן מוזר, קיצור של Conference on Machine Translation (כנס בנושא תרגום מכונה). (הקיצור הוא WMT כי השם המקורי היה Workshop on Machine Translation). הכנס מתמקד בהתפתחויות במערכות של תרגום אוטומטי.

הטמעת מילה

ייצוג כל מילה בקבוצת מילים בווקטור הטמעה, כלומר ייצוג כל מילה כווקטור של ערכי נקודה צפה בין 0.0 ל-1.0. למילים עם משמעויות דומות יש ייצוגים דומים יותר מאשר למילים עם משמעויות שונות. לדוגמה, המילים גזר, סלרי ומלפפון יקבלו ייצוגים דומים יחסית, שיהיו שונים מאוד מהייצוגים של מטוס, משקפי שמש ומשחת שיניים.

מילים בהקשר (WiC)

#Metric

מערך נתונים להערכת היכולת של LLM להשתמש בהקשר כדי להבין מילים שיש להן כמה משמעויות. כל רשומה במערך הנתונים מכילה:

שני משפטים, שכל אחד מהם מכיל את מילת היעד
מילת היעד
התשובה הנכונה (ערך בוליאני), כאשר:
- הערך True מציין שלמילה המטרה יש את אותה משמעות בשני המשפטים
- הערך False מציין שלמילה המטרה יש משמעות שונה בשני המשפטים

לדוגמה:

שני משפטים:
- יש הרבה אשפה בקרקעית הנהר.
- אני תמיד מניח מים ליד המיטה כשאני הולך לישון.
מילת היעד: bed
תשובה נכונה: False, כי למילת היעד יש משמעות שונה בשני המשפטים.

פרטים נוספים זמינים במאמר WiC: the Word-in-Context Dataset for Evaluating Context-Sensitive Meaning Representations.

‫Words in Context הוא רכיב של SuperGLUE ensemble.

WSC

#Metric

קיצור של Winograd Schema Challenge (אתגר סכימת וינוגרד).

X

XLA (אלגברה לינארית מואצת)

קומפיילר ללמידת מכונה בקוד פתוח למעבדי GPU, מעבדי CPU ומאיצי ML.

הקומפיילר XLA לוקח מודלים ממסגרות פופולריות של למידת מכונה כמו PyTorch,‏ TensorFlow ו-JAX, ומבצע אופטימיזציה שלהם לביצועים גבוהים בפלטפורמות חומרה שונות, כולל מעבדי GPU, מעבדי CPU ומאיצי למידת מכונה.

‫XL-Sum (xlsum)

#Metric

מערך נתונים להערכת רמת המיומנות של מודל שפה גדול (LLM) בסיכום טקסט. ‫XL-Sum מספק רשומות בשפות רבות. כל רשומה במערך הנתונים מכילה:

מאמר שנלקח מ-British Broadcasting Company‏ (BBC).
סיכום של המאמר שנכתב על ידי מחבר המאמר. שימו לב שהסיכום יכול להכיל מילים או ביטויים שלא מופיעים במאמר.

פרטים נוספים זמינים במאמר XL-Sum: Large-Scale Multilingual Abstractive Summarization for 44 Languages (סיכום מופשט רב-לשוני בקנה מידה גדול ל-44 שפות).

xsum

קיצור של סיכום קיצוני.

Z

למידה ללא דוגמאות

סוג של אימון למידת מכונה שבו המודל מסיק תחזית למשימה שהוא לא אומן לבצע באופן ספציפי. במילים אחרות, המודל לא מקבל דוגמאות לאימון ספציפי למשימה, אבל מתבקש לבצע הסקת מסקנות לגבי אותה משימה.

הנחיות בלי דוגמאות (zero-shot prompting)

#generativeAI

הנחיה שלא כוללת דוגמה לאופן שבו מודל שפה גדול צריך להגיב. לדוגמה:

החלקים של הנחיה	הערות
`מהו המטבע הרשמי של המדינה שצוינה?`	השאלה שרוצים שה-LLM יענה עליה.
`הודו:`	השאילתה בפועל.

מודל השפה הגדול עשוי להגיב באחת מהדרכים הבאות:

רופיות
INR
₹
רופי הודי
רופי
רופי הודי

כל התשובות נכונות, אבל יכול להיות שתעדיפו פורמט מסוים.

השוואה וניגוד בין הנחיות בלי דוגמאות (zero-shot prompting) לבין המונחים הבאים:

הנחיות עם דוגמה אחת (one-shot prompting)
מתן הנחיות עם כמה דוגמאות

נורמליזציה של ציון תקן

#fundamentals

טכניקת שינוי קנה מידה שמחליפה ערך גולמי של מאפיין בערך נקודה צפה שמייצג את מספר סטיות התקן מהממוצע של המאפיין הזה. לדוגמה, נניח שיש תכונה שהממוצע שלה הוא 800 וסטיית התקן שלה היא 100. הטבלה הבאה מראה איך נורמליזציה של ציון Z ממפה את הערך הגולמי לציון Z שלו:

ערך גולמי	ציון תקן
800	0
950	‫+1.5
575	‫‎-2.25

לאחר מכן, המודל של למידת המכונה מתאמן על ציוני ה-Z של התכונה הזו במקום על הערכים הגולמיים.

מידע נוסף זמין במאמר נתונים מספריים: נורמליזציה בסדנה ללימוד מכונת למידה.

מילון מונחים ללמידת מכונה קל לארגן דפים בעזרת אוספים אפשר לשמור ולסווג תוכן על סמך ההעדפות שלך.

A

אבלציה

A/B Testing

צ'יפ של פעולה שכיחה

דיוק

כדי לקבל פרטים על רמת הדיוק ועל מערכי נתונים לא מאוזנים לפי סיווג, לוחצים על הסמל.

פעולה

פונקציית הפעלה

כדי לראות דוגמה, לוחצים על הסמל.

מצב למידה פעיל

AdaGrad

התאמה

נציג

אג'נטי

תהליך עבודה אג'נטי

סידור באשכולות (clustering) היררכי מצטבר

AI slop

זיהוי אנומליות

AR

השטח מתחת לעקומת ה-PR

השטח מתחת לעקומת ה-ROC

בינה מלאכותית כללית

לגבי בינה מלאכותית,

תשומת הלב,

מאפיין

דגימת מאפיינים

AUC (השטח מתחת לעקומת ROC)

כדי לקבל מידע על הקשר בין AUC לבין עקומות ROC, לוחצים על הסמל.

אפשר ללחוץ על הסמל כדי לראות הגדרה רשמית יותר של AUC.

מציאות רבודה

autoencoder

הערכה אוטומטית

הטיית אוטומציה

AutoML

הערכה של כלי לדירוג אוטומטי

מודל אוטו-רגרסיבי

הפסד עזר

דיוק ממוצע ב-k

לוחצים על הסמל כדי לראות דוגמה

תנאי שמתייחס לציר

B

backpropagation

bagging

bag of words

baseline

מודל בסיס

אצווה

היקש באצווה

נורמליזציה של אצווה

גודל אצווה

רשת נוירונים בייסיאנית

אופטימיזציה בייסיאנית

משוואת בלמן

‫BERT (ייצוגים דו-כיווניים של מקודד מטרנספורמרים)

הטיה (אתיקה/הוגנות)

הטיה (מתמטיקה) או מונח הטיה

דו-כיווני

מודל שפה דו-כיווני

ביגרמה

סיווג בינארי

תנאי בינארי

binning

מודל קופסה שחורה

BLEU (Bilingual Evaluation Understudy)

‫BLEURT (Bilingual Evaluation Understudy from Transformers)

שאלות בוליאניות (BoolQ)

BoolQ

הגדלה

תיבה תוחמת (bounding box)

שידור

לוחצים על הסמל כדי לראות דוגמה.

bucketing

כדי לראות טיפים ממשתמשים נוספים, לוחצים על הסמל.

C

שכבת כיול

יצירת מועמדים

דגימה של מועמדים

נתונים קטגוריים

מודל שפה סיבתי

מילון מונחים ללמידת מכונה