מילון מונחים ללמידת מכונה

במילון הזה מופיעים הגדרות של מונחי למידת מכונה.

A

אבלציה

טכניקה להערכת החשיבות של תכונה או רכיב על ידי הסרה זמנית שלהם ממודל. לאחר מכן, מאומנים מחדש את המודל בלי התכונה או הרכיב האלה. אם הביצועים של המודל המאומן מחדש גרועים יותר באופן משמעותי, סביר להניח שהתכונה או הרכיב שהוסרו היו חשובים.

לדוגמה, נניח שאתם מאומנים מודל סיווג על 10 תכונות ומגיעים ל-88% דיוק בקבוצת הבדיקה. כדי לבדוק את החשיבות של המאפיין הראשון, אפשר לאמן מחדש את המודל רק באמצעות תשעת המאפיינים האחרים. אם הביצועים של המודל המאומן מחדש גרועים יותר באופן משמעותי (לדוגמה, דיוק של 55%), סביר להניח שהתכונה שהוסרה הייתה חשובה. לעומת זאת, אם הביצועים של המודל המאומן מחדש זהים, סביר להניח שהתכונה הזו לא הייתה חשובה במיוחד.

בנוסף, אבלציה יכולה לעזור לקבוע את החשיבות של:

  • רכיבים גדולים יותר, כמו מערכת משנה שלמה במערכת ML גדולה יותר
  • תהליכים או שיטות, כמו שלב עיבוד נתונים מראש

בשני המקרים, תוכלו לראות איך הביצועים של המערכת משתנים (או לא משתנים) אחרי הסרת הרכיב.

בדיקת A/B

שיטה סטטיסטית להשוואה בין שתי שיטות (או יותר) – A ו-B. בדרך כלל, A היא שיטה קיימת ו-B היא שיטה חדשה. בדיקת A/B לא רק קובעת איזו טכניקה מניבה ביצועים טובים יותר, אלא גם אם ההבדל מובהק מבחינה סטטיסטית.

בדרך כלל, בבדיקות A/B משווים בין מדד יחיד בשתי שיטות. לדוגמה, מה ההבדל בין הדיוק של המודל בשתי השיטות? עם זאת, בדיקות A/B יכולות גם להשוות בין מספר מוגבל של מדדים.

צ'יפ מאיץ

#GoogleCloud

קטגוריה של רכיבי חומרה ייעודיים שנועדו לבצע חישובים מרכזיים שנדרשים לאלגוריתמים של למידת עומק.

צ'יפים למעבד מהיר (או מעבדים מהירים בקיצור) יכולים לשפר באופן משמעותי את המהירות והיעילות של משימות אימון ותובנות בהשוואה למעבד כללי. הם אידיאליים לאימון רשתות נוירונליות ולמשימות דומות עם עומס חישוב גבוה.

דוגמאות למעבדים למהירות גבוהה:

  • יחידות עיבוד נתונים של Google (TPUs) עם חומרה ייעודית ללמידת עומק.
  • מעבדי ה-GPU של NVIDIA, שנועדו במקור לעיבוד גרפיקה, מאפשרים עיבוד מקביל שיכול להאיץ משמעותית את מהירות העיבוד.

דיוק

#fundamentals

מספר התחזיות של הסיווג הנכון חלקי מספר התחזיות הכולל. כלומר:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

לדוגמה, מודל שהניב 40 תחזיות נכונות ו-10 תחזיות שגויות יהיה בעל רמת דיוק של:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

סיווג בינארי מספק שמות ספציפיים לקטגוריות השונות של תחזיות נכונות ותחזיות שגויות. לכן, הנוסחה של הדיוק בסיווג בינארי היא:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

כאשר:

השוו בין הדיוק לבין הדיוק והחזר.

למידע נוסף, ראו סיווג: דיוק, זיכרון, רמת דיוק ומדדים קשורים במדריך למתחילים בנושא למידת מכונה.

פעולה

#rl

בלמידת חיזוק, המנגנון שבו הסוכן עובר בין מצבים של הסביבה. הסוכן בוחר את הפעולה באמצעות מדיניות.

פונקציית הפעלה

#fundamentals

פונקציה שמאפשרת לרשתות נוירונים ללמוד יחסים לא ליניאריים (מורכבים) בין המאפיינים לבין התווית.

פונקציות הפעלה פופולריות כוללות:

התרשימים של פונקציות ההפעלה אף פעם לא הם קווים ישרים בודדים. לדוגמה, התרשים של פונקציית ההפעלה ReLU מורכב משתי קווים ישרים:

תרשים קרטוזי של שתי שורות. לשורה הראשונה יש ערך y קבוע של 0, שפועל לאורך ציר ה-x מ--infinity,0 עד 0,-0.
          השורה השנייה מתחילה ב-0,0. לשיפוע של הקו הזה יש ערך +1, ולכן הוא עובר מ-0,0 ל-+infinity,+infinity.

תרשים של פונקציית ההפעלה הסיגמואידית נראה כך:

תרשים עקומה דו-מימדי עם ערכי x שנעים בין אינסוף שלילי לבין חיובי, וערכי y שנעים בין כמעט 0 לבין כמעט 1. כש-x הוא 0, הערך של y הוא 0.5. השיפוע של העקומה הוא תמיד חיובי, עם השיפוע הגבוה ביותר ב-0,0.5 ושיפועים הולכים ופוחתים ככל שהערך המוחלט של x עולה.

מידע נוסף זמין בקטע רשתות נוירונליות: פונקציות הפעלה במסגרת קורס המבוא למכונות למידה.

למידה פעילה

גישה לאימון שבה האלגוריתם בוחר חלק מהנתונים שמהם הוא לומד. למידה פעילה היא דרך יעילה במיוחד כשדוגמאות מתויגות נדירות או שהעלות של קבלתן גבוהה. במקום לחפש באופן עיוור מגוון רחב של דוגמאות מתויגות, אלגוריתם של למידה פעילה מחפש באופן סלקטיבי את מגוון הדוגמאות הספציפי שהוא צריך לצורך למידה.

AdaGrad

אלגוריתם מתוחכם של ירידה בגרדינט שמשנה את קנה המידה של הגרדינטים של כל פרמטר, וכך מקצה לכל פרמטר שיעור למידה עצמאי. הסבר מלא זמין במאמר שיטות אדפטיביות של נגזרות משנה ללמידה אונליין ולביצוע אופטימיזציה סטוכסטית.

נציג

#rl

בלמידת חיזוק, הישות שמשתמשת במדיניות כדי למקסם את התשואה הצפויה מהמעבר בין המצבים של הסביבה.

באופן כללי, סוכן הוא תוכנה שמתכננת ומבצעת באופן עצמאי סדרה של פעולות כדי להשיג מטרה, עם היכולת להתאים את עצמה לשינויים בסביבה. לדוגמה, סוכן שמבוסס על LLM עשוי להשתמש ב-LLM כדי ליצור תוכנית, במקום להחיל מדיניות של למידת חיזוק.

אשכולות אגרגטורים

#clustering

ראו אשכולות היררכיים.

זיהוי אנומליות

תהליך זיהוי חריגים. לדוגמה, אם הממוצע של מאפיין מסוים הוא 100 עם סטיית תקן של 10, זיהוי החריגות אמור לסמן ערך של 200 כחשוד.

AR

קיצור של מציאות רבודה.

השטח מתחת לעקומת ה-PR

שטח מתחת לעקומת יחסי הציבור (PR AUC)

השטח מתחת לעקומת ROC

ראו AUC (השטח מתחת לעקומת ROC).

בינה מלאכותית כללית

מנגנון לא אנושי שמפגין מגוון רחב של יכולות פתרון בעיות, יצירתיות והתאמה. לדוגמה, תוכנית שממחישה אינטליגנציה כללית מלאכותית יכולה לתרגם טקסט, לחבר סימפוניות וגם להצטיין במשחקים שעדיין לא הומצאו.

לגבי בינה מלאכותית,

#fundamentals

תוכנית או מודל לא אנושיים שיכולים לפתור משימות מורכבות. לדוגמה, תוכנה או מודל שמתרגמים טקסט, או תוכנה או מודל שמזהים מחלות מתמונות רדיולוגיות, הם דוגמאות לשימוש בבינה מלאכותית.

באופן רשמי, למידת מכונה היא תחום משנה של בינה מלאכותית. עם זאת, בשנים האחרונות ארגונים מסוימים התחילו להשתמש במונחים בינה מלאכותית ולמידת מכונה באופן חלופי.

תשומת הלב,

#language

מנגנון שמשמש ברשת נוירונים ומציין את החשיבות של מילה מסוימת או של חלק ממילה. תשומת הלב מצמצמת את כמות המידע שהמודל צריך כדי לחזות את האסימון או המילה הבאים. מנגנון תשומת לב טיפוסי עשוי להכיל סכום משוקלל של קבוצת מקורות קלט, כאשר המשקל של כל מקור קלט מחושב על ידי חלק אחר של רשת העצבים.

מומלץ לעיין גם במאמרים בנושא תשומת לב עצמית ותשומת לב עצמית עם כמה ראשים, שהם אבני הבניין של טרנספורמרים.

מידע נוסף על התכונה 'תשומת לב עצמית' זמין במאמר LLMs: What's a large language model? בקורס המזורז בנושא למידת מכונה.

מאפיין

#fairness

מילה נרדפת ל-feature.

כשמדברים על הוגנות בלמידת מכונה, מאפיינים מתייחסים לרוב למאפיינים שקשורים לאנשים פרטיים.

דגימת מאפיינים

#df

טקטיקה לאימון יער החלטות, שבה כל עץ החלטות מתייחס רק לקבוצת משנה אקראית של מאפיינים אפשריים במהלך הלמידה של התנאי. באופן כללי, נדגמת קבוצת משנה שונה של מאפיינים לכל צומת. לעומת זאת, כשמאמנים עץ החלטות בלי דגימת מאפיינים, כל המאפיינים האפשריים נלקחים בחשבון לכל צומת.

AUC (השטח מתחת לעקומת ROC)

#fundamentals

מספר בין 0.0 ל-1.0 שמייצג את היכולת של מודל סיווג בינארי להפריד בין כיתות חיוביות לבין כיתות שליליות. ככל ש-AUC קרוב יותר ל-1.0, כך יכולת המודל להפריד בין הכיתות גבוהה יותר.

לדוגמה, באיור הבא מוצג מודל סיווג שמפריד בצורה מושלמת בין כיתות חיוביות (אליפסות ירוקות) לכיתות שליליות (ריבועים סגולים). המודל המושלם הלא ריאליסטי הזה כולל AUC של 1.0:

קו מספרים עם 8 דוגמאות חיוביות בצד אחד ו-9 דוגמאות שליליות בצד השני.

לעומת זאת, באיור הבא מוצגות התוצאות של מודל סיווג שיצר תוצאות אקראיות. ערך ה-AUC של המודל הזה הוא 0.5:

קו מספרים עם 6 דוגמאות חיוביות ו-6 דוגמאות שליליות.
          רצף הדוגמאות הוא חיובי, שלילי, חיובי, שלילי, חיובי, שלילי, חיובי, שלילי, חיובי, שלילי.

כן, ערך AUC של המודל הקודם הוא 0.5 ולא 0.0.

רוב המודלים נמצאים במקום כלשהו בין שני הקצוות. לדוגמה, המודל הבא מפריד באופן חלקי בין תוצאות חיוביות לשליליות, ולכן ערך ה-AUC שלו הוא בין 0.5 ל-1.0:

קו מספרים עם 6 דוגמאות חיוביות ו-6 דוגמאות שליליות.
          רצף הדוגמאות הוא שלילי, שלילי, שלילי, שלילי, חיובי, שלילי, חיובי, חיובי, שלילי, חיובי, חיובי, חיובי.

פונקציית AUC מתעלמת מכל ערך שתגדירו לסף הסיווג. במקום זאת, AUC מתייחס לכל ערכי הסף האפשריים לסיווג.

למידע נוסף, ראו סיווג: ROC ו-AUC בקורס המקוצר בנושא למידת מכונה.

מציאות רבודה

#image

טכנולוגיה שמאפשרת להציג תמונה שנוצרה על ידי מחשב על התצוגה של המשתמש בעולם האמיתי, וכך ליצור תצוגה מורכבת.

אוטו-קונדרטור

#language
#image

מערכת שמלמדת לחלץ את המידע החשוב ביותר מהקלט. אוטו-קונדים הם שילוב של מקודד ומפענח. אוטו-קונדים מסתמכים על התהליך הדו-שלבי הבא:

  1. המקודד ממפה את הקלט לפורמט (בדרך כלל) עם אובדן נתונים (לא איכותי) בעל ממדים נמוכים יותר (פורמט ביניים).
  2. המפענח יוצר גרסה עם אובדן נתונים של הקלט המקורי על ידי מיפוי של הפורמט בעל המאפיינים הנמוכים יותר לפורמט הקלט המקורי בעל המאפיינים הגבוהים יותר.

מקודדים אוטומטיים עוברים אימון מקצה לקצה, כך שהפעמקוד מנסה לשחזר את הקלט המקורי מהפורמט הביניים של המקודד בצורה הקרובה ביותר האפשרית. מכיוון שהפורמט הביניים קטן יותר (בממדים נמוכים יותר) מהפורמט המקורי, האוטו-קונדרטור נאלץ ללמוד איזה מידע בקלט חיוני, והפלט לא יהיה זהה לחלוטין לקלט.

לדוגמה:

  • אם נתוני הקלט הם גרפיקה, העותק הלא מדויק יהיה דומה לגרפיקה המקורית, אבל ישתנה במידה מסוימת. יכול להיות שהעותק הלא מדויק מסיר רעש מהגרפיקה המקורית או ממלא פיקסלים חסרים.
  • אם נתוני הקלט הם טקסט, אוטו-קונדר יוצר טקסט חדש שמחקה את הטקסט המקורי (אבל לא זהה לו).

אפשר לעיין גם במאמר בנושא מקודדים אוטומטיים וריאציוניים (VAE).

הערכה אוטומטית

#language
#generativeAI

שימוש בתוכנה כדי לשפוט את איכות הפלט של מודל.

כשפלט המודל פשוט יחסית, אפשר להשתמש בסקריפט או בתוכנית כדי להשוות את הפלט של המודל לתשובה מושלמת. סוג ההערכה האוטומטי הזה נקרא לפעמים הערכה פרוגרמטית. מדדים כמו ROUGE או BLEU הם לרוב שימושיים להערכה פרוגרמטית.

כשפלט המודל מורכב או שיש בו יותר מתשובה נכונה אחת, לפעמים תוכנית למידת מכונה נפרדת שנקראת מעריך אוטומטי מבצעת את ההערכה האוטומטית.

בניגוד לבדיקה אנושית.

הטיית אוטומציה

#fairness

כשגורם קבלת החלטות אנושי מעדיף המלצות של מערכת אוטומטית לקבלת החלטות על פני מידע שנוצר ללא אוטומציה, גם אם מערכת קבלת ההחלטות האוטומטית טועה.

למידע נוסף, ראו צדק: סוגים של הטיה במדריך למתחילים בנושא למידת מכונה.

AutoML

כל תהליך אוטומטי לפיתוח מודלים של למידת מכונה. AutoML יכול לבצע באופן אוטומטי משימות כמו:

AutoML שימושי למדעני נתונים כי הוא יכול לחסוך להם זמן ומאמץ בפיתוח צינורות עיבוד נתונים ללמידת מכונה ולשפר את דיוק החיזוי. הוא גם שימושי לאנשים שאינם מומחים, כי הוא מאפשר להם לבצע משימות מורכבות של למידת מכונה בקלות רבה יותר.

למידע נוסף, אפשר לעיין בקטע למידת מכונה אוטומטית (AutoML) בקורס המקוצר על למידת מכונה.

הערכה של המערכת האוטומטית

#language
#generativeAI
מנגנון היברידי לשיפוט האיכות של הפלט של מודל AI גנרטיבי, שמשלב הערכה אנושית עם הערכה אוטומטית. מערכת הערכה אוטומטית היא מודל למידת מכונה (ML) שמתאמן על נתונים שנוצרו על ידי הערכה אנושית. באופן אידיאלי, המערכת האוטומטית לניקוד לומדת לחקות את הבודק האנושי.

יש מודלים מוכנים מראש של מודלים אוטומטיים, אבל המודלים האוטומטיים הטובים ביותר מותאמים במיוחד למשימה שאתם מעריכים.

מודל אוטו-רגרסיבי

#language
#image
#generativeAI

מודל שמסיק חיזוי על סמך החיזויים הקודמים שלו. לדוגמה, מודלים של שפה חזרהית חוזים את האסימון הבא על סמך האסימונים שחזו קודם. כל המודלים הגדולים של השפה שמבוססים על Transformer הם אוטו-רגרסיביים.

לעומת זאת, מודלים של תמונות שמבוססים על GAN הם בדרך כלל לא רגרסיביים אוטומטיים, כי הם יוצרים תמונה בפעולה קדימה אחת ולא באופן איטרטיבי בשלבים. עם זאת, מודלים מסוימים ליצירת תמונות הם מודלים רגרסיביים אוטומטיים כי הם יוצרים תמונה בשלבים.

אובדן עזר

פונקציית אובדן – פונקציה שמשמשת בשילוב עם רשת עצבית פונקציית האובדן הראשית של המודל – שעוזרת לזרז את האימון במהלך האיטרציות המוקדמות, כשהמשקלים מופעלים באופן אקראי.

פונקציות אובדן עזרות מעבירות נגזרות יעילות לשכבות הקודמות. כך אפשר להגיע להתכנסות במהלך האימון, על ידי התמודדות עם בעיית שיפוע הולך ופוחת.

דיוק ממוצע ב-k

#language

מדד שמסכם את הביצועים של מודל בהנחיה אחת, שמניבה תוצאות מדורגות, כמו רשימה ממוספרת של המלצות לספרים. רמת הדיוק הממוצעת ב-k היא הממוצע של ערכי רמת הדיוק ב-k לכל תוצאה רלוונטית. לכן, הנוסחה לחישוב הדיוק הממוצע ב-k היא:

\[{\text{average precision at k}} = \frac{1}{n} \sum_{i=1}^n {\text{precision at k for each relevant item} } \]

כאשר:

  • \(n\) הוא מספר הפריטים הרלוונטיים ברשימה.

בניגוד להחזרה למצב הקודם ב-k.

תנאי מוצלב

#df

בעץ החלטות, תנאי שמערב רק תכונה אחת. לדוגמה, אם area הוא מאפיין, אז התנאי הבא הוא תנאי משויך לציר:

area > 200

בניגוד לתנאי עקיף.

B

חזרה לאחור (backpropagation)

#fundamentals

האלגוריתם שמטמיע את ירידה בגרדינט ברשתות נוירונים.

אימון של רשת נוירונים כרוך בהרבה iterations של המחזור הבא בשני שלבים:

  1. במהלך העברה קדימה, המערכת מעבדת קבוצה של דוגמאות כדי להפיק חיזויים. המערכת משווה בין כל תחזית לכל ערך של תווית. ההפרש בין התחזית לערך התווית הוא האובדן של הדוגמה הזו. המערכת אוספת את ההפסדים של כל הדוגמאות כדי לחשב את ההפסד הכולל של האצווה הנוכחית.
  2. במהלך החזרה לאחור (backpropagation), המערכת מפחיתה את האובדן על ידי התאמת המשקלים של כל הנוירונים בכל השכבות המוסתרות.

רשתות נוירונים מכילות לעיתים קרובות הרבה נוירונים במספר שכבות חבויות. כל אחד מהנוירונים האלה תורם להפסד הכולל בדרכים שונות. התפשטות לאחור קובעת אם להגדיל או להקטין את המשקלים שחלים על תאי עצב מסוימים.

שיעור הלמידה הוא מכפיל שקובע את מידת העלייה או הירידה של כל משקל בכל מעבר לאחור. שיעור למידה גבוה יגדיל או יקטין כל משקל יותר מאשר שיעור למידה נמוך.

במונחים של חשבון, החזרה לאחור מיישמת את כלל השרשרת. מחשבון. כלומר, חזרה לאחור מחשבת את הנגזרת החלוקה של השגיאה בנוגע לכל פרמטר.

לפני שנים, מומחי למידת מכונה נאלצו לכתוב קוד כדי להטמיע חזרה לאחור. ממשקי API מודרניים של למידת מכונה כמו Keras מטמיעים עכשיו עבורכם חזרה לאחור (backpropagation). סוף סוף!

מידע נוסף זמין בקטע רשתות נוירונליות בקורס המקוצר על למידת מכונה.

bagging

#df

שיטה לאימון של אוסף מודלים שבו כל מודל מרכיב מתאמן על קבוצת משנה אקראית של דוגמאות אימון שנבחרו עם החלפה. לדוגמה, יער אקראי הוא אוסף של עצים של החלטות שהוכשרו באמצעות bagging.

המונח bagging הוא קיצור של bootstrap aggregating.

מידע נוסף זמין בקטע יערות אקראיים בקורס 'יערות החלטות'.

תיק מילים

#language

ייצוג של המילים בביטוי או בפסקה, ללא קשר לסדר. לדוגמה, תיקיית מילים מייצגת את שלושת הביטויים הבאים באופן זהה:

  • הכלב קופץ
  • קופץ על הכלב
  • כלב קופץ

כל מילה ממופה לאינדקס בוקטור דליל, שבו לכל מילה באוצר המילים יש אינדקס. לדוגמה, הביטוי the dog jumps ממופה למילת וקטור של מאפיינים עם ערכים שונים מאפס בשלושת המדדים התואמים למילים the,‏ dog ו-jumps. הערך שאינו אפס יכול להיות כל אחד מהערכים הבאים:

  • 1 כדי לציין את נוכחות המילה.
  • ספירה של מספר הפעמים שמילה מופיעה בתיק. לדוגמה, אם הביטוי היה the maroon dog is a dog with maroon fur, גם maroon וגם dog יצוינו בספרה 2, והמילים האחרות יצוינו בספרה 1.
  • ערך אחר כלשהו, כמו הלוגריתם של מספר הפעמים שמילה מופיעה בתיק.

קו בסיס

מודל המשמש כנקודת ייחוס להשוואה של הביצועים של מודל אחר (בדרך כלל מודל מורכב יותר). לדוגמה, מודל רגרסיה לוגיסטית יכול לשמש כבסיס טוב למודל עומק.

כשמדובר בבעיה מסוימת, קו הבסיס עוזר למפתחי המודלים לכמת את רמת הביצועים המינימלית הצפויה שמודל חדש צריך להשיג כדי שיהיה שימושי.

אצווה

#fundamentals

קבוצת הדוגמאות שמשמשות במחזור אחד של אימון. גודל האצווה קובע את מספר הדוגמאות באצווה.

בקטע epoch מוסבר איך קבוצה קשורה ל-epoch.

מידע נוסף זמין בקטע רגרסיה לינארית: היפר-פרמטרים בקורס המקוצר בנושא למידת מכונה.

הסקת מסקנות באצווה

#TensorFlow
#GoogleCloud

תהליך הסקת תחזיות על סמך כמה דוגמאות ללא תוויות שמחולקות לקבוצות משנה קטנות יותר ('קבוצות').

ניתן להשתמש בהסקת נתונים בכמות גדולה (batch) כדי לנצל את תכונות ההרצה במקביל של שבבי המאיץ. כלומר, כמה מאיצים יכולים להסיק בו-זמנית תחזיות על קבוצות שונות של דוגמאות ללא תוויות, וכך להגדיל באופן משמעותי את מספר ההסקות לשנייה.

למידע נוסף, ראו מערכות למידת מכונה בסביבת ייצור: יצירת מסקנות סטטיות לעומת יצירת מסקנות דינמיות במדריך למתחילים בנושא למידת מכונה.

נירמול באצווה

נורמליזציה של הקלט או הפלט של פונקציות ההפעלה בשכבה מוסתרת. ל-Batch normalization יש את היתרונות הבאים:

גודל אצווה

#fundamentals

מספר הדוגמאות בקבוצה. לדוגמה, אם גודל האצווה הוא 100, המערכת מעבדת 100 דוגמאות לכל מחזור.

אלה כמה מהשיטות הפופולריות לבחירת גודל האצווה:

  • Stochastic Gradient Descent‏ (SGD), שבה גודל האצווה הוא 1.
  • קבוצה מלאה, שבה גודל הקבוצה הוא מספר הדוגמאות בכל קבוצת האימון. לדוגמה, אם קבוצת האימון מכילה מיליון דוגמאות, גודל האצווה יהיה מיליון דוגמאות. בדרך כלל, שיטת 'קבוצה מלאה' היא לא יעילה.
  • מיני-באצ', שבהם גודל הקבוצה הוא בדרך כלל בין 10 ל-1,000. בדרך כלל, שיטת ה-mini-batch היא השיטה היעילה ביותר.

מידע נוסף זמין במאמרים הבאים:

רשת נוירונים בייסינית

רשת נוירונים פרובאבליסטית שמביאה בחשבון את אי-הוודאות במשקולות ובפלטים. בדרך כלל, מודל רגרסיה סטנדרטי של רשת נוירונים תחזית ערך סקלרי. לדוגמה, מודל סטנדרטי מנבא מחיר בית של 853,000. לעומת זאת, רשת נוירונים בייסינית צופה חלוקה של ערכים. לדוגמה, מודל בייסיאני צופה מחיר בית של 853,000 ש"ח עם סטיית תקן של 67,200 ש"ח.

רשת נוירונים בייסינית מסתמכת על משפט בייסי כדי לחשב את אי-הוודאות במשקלים ובתחזיות. רשת עצבית בייסינית יכולה להיות שימושית כשחשוב לכמת את אי-הוודאות, למשל במודלים שקשורים לתרופות. רשתות נוירונים בייסיאניות יכולות גם לעזור למנוע התאמה יתר.

אופטימיזציה לפי מודלים בייסיאניים

טכניקה של מודל רגרסיה פרובובלסטי לביצוע אופטימיזציה של פונקציות יעד שדורשות חישוב יקר, באמצעות אופטימיזציה של חלופה שמציגה כמותית את אי-הוודאות באמצעות טכניקת למידה בייסינית. מכיוון שאופטימיזציה בייסינית היא בעצמה יקרה מאוד, בדרך כלל משתמשים בה כדי לבצע אופטימיזציה של משימות שהערכתן יקרה ויש להן מספר קטן של פרמטרים, כמו בחירת היפר-פרמטרים.

משוואת בלמן

#rl

בלמידת חיזוקים, הזהות הבאה מתקיימת בפונקציית Q האופטימלית:

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

אלגוריתמים של למידת חיזוק מחילים את הזהות הזו כדי ליצור למידת Q באמצעות כלל העדכון הבא:

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]

מלבד למידה לחיזוק, למשוואת בלמן יש יישומים בתוכנית דינמית. הרשומה ב-Wikipedia על משוואת Bellman

BERT (ייצוגים דו-כיווניים של מקודד מטרנספורמרים)

#language

ארכיטקטורת מודל לייצוג של טקסט. מודל BERT מאומן יכול לשמש כחלק ממודל גדול יותר לסיווג טקסט או למשימות אחרות של למידת מכונה.

ל-BERT יש את המאפיינים הבאים:

הווריאציות של BERT כוללות:

  • ALBERT, שהוא ראשי תיבות של A Light BERT.
  • LaBSE.

Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing (העברת BERT לקוד פתוח: אימון מקדים מתקדם לעיבוד שפה טבעית) – סקירה כללית על BERT.

הטיה (אתיקה/הוגנות)

#fairness
#fundamentals

1. יצירת קלישאות, דעות קדומות או העדפה של דברים, אנשים או קבוצות מסוימים על פני אחרים. ההטיות האלה יכולות להשפיע על איסוף הנתונים ועל הפרשתם, על תכנון המערכת ועל האופן שבו המשתמשים מקיימים אינטראקציה עם המערכת. דוגמאות לסוג הזה של הטיה:

2. שגיאה שיטתית שנובעת מפרוצדורה של דגימה או דיווח. דוגמאות לסוג הזה של הטיה:

חשוב לא להתבלבל עם מונח ההטיה במודלים של למידת מכונה או עם הטיית החיזוי.

למידע נוסף, ראו צדק: סוגי הטיות במדריך למתחילים בנושא למידת מכונה.

הטיה (מתמטית) או מונח הטיה

#fundamentals

ציר או סטייה ממקור. הטיה היא פרמטר במודלים של למידת מכונה, שסימונו הוא אחד מהסמלים הבאים:

  • b
  • w0

לדוגמה, הטיה היא הערך b בנוסחה הבאה:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

בקווים דו-ממדיים פשוטים, הטיה היא פשוט 'נקודת הצטלבות עם ציר y'. לדוגמה, ההטיה של הקו באיור הבא היא 2.

התרשים של קו עם שיפוע של 0.5 וסטייה (נקודת המפגש של הקו עם ציר y) של 2.

הטיה קיימת כי לא כל המודלים מתחילים בנקודת המוצא (0,0). לדוגמה, נניח שהכניסה לפארק שעשועים עולה 2 אירו ועוד 0.5 אירו לכל שעה שהלקוח שוהה בפארק. לכן, לדגם שממפה את העלות הכוללת יש הטיה של 2, כי העלות הנמוכה ביותר היא 2 אירו.

חשוב לא להתבלבל בין הטיה לבין הטיה מבחינה אתית והוגנת או הטיה בתחזית.

מידע נוסף זמין בקטע רגרסיה לינארית בקורס המקוצר בנושא למידת מכונה.

דו-כיווני

#language

מונח שמתאר מערכת שמעריכה את הטקסט לפני וגם אחרי קטע טקסט יעד. לעומת זאת, מערכת חד-כיוונית מעריכה רק את הטקסט שמקדים לקטע היעד בטקסט.

לדוגמה, נניח שיש מודל שפה מוצפן שצריך לקבוע את ההסתברויות למילה או למילים שמייצגות את הקו התחתון בשאלה הבאה:

מה הבעיה שלך בנושא _____?

מודל שפה חד-כיווני יצטרך לבסס את ההסתברויות שלו רק על ההקשר שמספקות המילים 'מה', 'הוא' ו'ה'. לעומת זאת, מודל שפה דו-כיווני יכול לקבל הקשר גם מהמילים 'עם' ו'את/ה', וכך לעזור למודל ליצור תחזיות טובות יותר.

מודל שפה דו-כיווני

#language

מודל שפה שמאפשר לקבוע את הסבירות לאסימון נתון במיקום נתון בקטע טקסט, על סמך הטקסט הקודם והבא.

bigram

#seq
#language

N-gram שבו N=2.

סיווג בינארי

#fundamentals

סוג של משימה של סיווג שמטרתה לחזות אחת משתי קטגוריות בלתי ניתנות להפרדה:

לדוגמה, שני המודלים הבאים של למידת מכונה מבצעים כל אחד סיווג בינארי:

  • מודל שקובע אם הודעות אימייל הן ספאם (הקבוצה החיובית) או לא ספאם (הקבוצה השלילית).
  • מודל שמעריך תסמינים רפואיים כדי לקבוע אם לאדם יש מחלה מסוימת (הסיווג החיובי) או שאין לו אותה מחלה (הסיווג השלילי).

בניגוד לסיווג של כמה מחלקות.

אפשר לעיין גם במאמרים רגרסיה לוגיסטית וסף סיווג.

מידע נוסף זמין בקטע סיווג במאמר קורס מקוצר על למידת מכונה.

תנאי בינארי

#df

בעץ החלטות, תנאי שיש לו רק שתי תוצאות אפשריות, בדרך כלל כן או לא. לדוגמה, זהו תנאי בינארי:

temperature >= 100

בניגוד לתנאי לא בינארי.

למידע נוסף, ראו סוגי תנאים בקורס 'יערות החלטות'.

קיבוץ (binning)

מילה נרדפת ל-bucketing.

BLEU (Bilingual Evaluation Understudy)

#language

מדד בין 0.0 ל-1.0 להערכת תרגומים של מכונה, לדוגמה, מספרדית ליפנית.

כדי לחשב את הדירוג, בדרך כלל נעשה שימוש ב-BLEU כדי להשוות בין התרגום של מודל ה-ML (טקסט שנוצר) לבין התרגום של מומחה אנושי (טקסט העזר). מידת ההתאמה של N-grams בטקסט שנוצר ובטקסט העזרה קובעת את ציון BLEU.

המאמר המקורי על המדד הזה הוא BLEU: a Method for Automatic Evaluation of Machine Translation.

אפשר לעיין גם במאמר BLEURT.

BLEURT‏ (Bilingual Evaluation Understudy from Transformers)

#language

מדד להערכת תרגומים של מכונה משפה אחת לאחרת, במיוחד מאנגלית ומאנגלית.

בתרגומים מאנגלית ומאנגלית, BLEURT תואם יותר לדירוגים של בני אדם מאשר BLEU. בניגוד ל-BLEU, ה-BLEURT מדגיש את הדמיון הסמנטי (המשמעותי) ויכול להתאים לניסוח מחדש.

BLEURT מבוסס על מודל שפה גדול (LLM) שעבר אימון מראש (למעשה, BERT), שעבר כוונון מדויק על סמך טקסט מתרגמים אנושיים.

המאמר המקורי בנושא המדד הזה הוא BLEURT: Learning Robust Metrics for Text Generation.

הגדלה

טכניקה של למידת מכונה שמשתמשת באינטראקציה חוזרת כדי לשלב קבוצה של מסווגים פשוטים ולא מדויקים במיוחד (שנקראים מסווגים 'חלשים') במסווג עם דיוק גבוה (מסוגר 'חזק'). לשם כך, הטכניקה מעלה את המשקל של הדוגמאות שהמודל מסווג כרגע באופן שגוי.

למידע נוסף, אפשר לעיין בקטע Gradient Boosted Decision Trees? בקורס Decision Forests.

תיבה תוחמת (bounding box)

#image

בתמונה, הקואורדינטות (x, y) של מלבן סביב אזור עניין, כמו הכלב בתמונה שבהמשך.

צילום של כלב שיושב על ספה. תיבת גבול ירוקה עם קואורדינטות של (275,‏ 1271) בפינה הימנית העליונה ושל (2954,‏ 2761) בפינה הימנית התחתונה, שמקיפות את גוף הכלב

שידור

הרחבת הצורה של אופרנד בפעולת מתמטיקה של מטריצה למימדים שתואמים לפעולה הזו. לדוגמה, באלגברה לינארית, לשני המשתנים בפעולת הוספה של מטריצות צריכים להיות אותם מאפיינים. לכן, אי אפשר להוסיף מטריצה בגודל (m, n) לווקטור באורך n. השידור מאפשר לבצע את הפעולה הזו על ידי הרחבה וירטואלית של הווקטור באורך n למטריצה בפורמט (m, n) באמצעות שכפול של אותם ערכים בתוך כל עמודה.

פרטים נוספים זמינים בתיאור הבא של שידור ב-NumPy.

bucketing

#fundamentals

המרת מאפיין יחיד למספר מאפיינים בינאריים שנקראים קטגוריות או תאים, בדרך כלל על סמך טווח ערכים. התכונה המקוצצת היא בדרך כלל תכונה רציפה.

לדוגמה, במקום לייצג את הטמפרטורה כמאפיין יחיד רצוף של נקודה צפה, אפשר לפצל טווחי טמפרטורות לקטגוריות נפרדות, כמו:

  • קטגוריית 'קר' תהיה קטגוריה עם הטמפרטורה<= 10 מעלות צלזיוס.
  • 11 עד 24 מעלות צלזיוס ייכללו בקטגוריה 'מזג אוויר נוח'.
  • 'חם': 25 מעלות צלזיוס ומעלה.

המודל יתייחס לכל ערך באותו קטגוריה באופן זהה. לדוגמה, הערכים 13 ו-22 נמצאים בקטגוריה 'אקלים ממוזג', ולכן המודל מתייחס לשני הערכים באופן זהה.

למידע נוסף, ראו נתונים מספריים: חלוקה לקבוצות בקורס המקוצר בנושא למידת מכונה.

C

שכבת כיול

התאמה לאחר חיזוי, בדרך כלל כדי להביא בחשבון הטיה בחיזוי. התחזיות וההסתברויות המותאמות צריכות להתאים להתפלגות של קבוצת תוויות שנצפתה.

יצירת שילובים אפשריים למיקוד

#recsystems

הקבוצה הראשונית של ההמלצות שנבחרה על ידי מערכת המלצות. לדוגמה, נניח שיש חנות ספרים שמציעה 100,000 כותרים. בשלב יצירת המועמדים נוצרת רשימה קטנה בהרבה של ספרים מתאימים למשתמש מסוים, למשל 500 ספרים. אבל גם 500 ספרים הם יותר מדי כדי להמליץ למשתמש. בשלבים הבאים של מערכת ההמלצות, שהם יקרים יותר (כמו מתן ציונים ודירוג מחדש), 500 ההמלצות האלה מצטמצמות לקבוצה קטנה בהרבה של המלצות מועילות יותר.

מידע נוסף זמין בסקירה הכללית על יצירת מועמדים בקורס 'מערכות המלצות'.

דגימת מודעות

אופטימיזציה בזמן האימון שמחשבת את ההסתברות לכל התוויות החיוביות, באמצעות, למשל, softmax, אבל רק לדגימה אקראית של תוויות שליליות. לדוגמה, בהינתן דוגמה שמסומנת בתווית beagle ו-dog, דגימת המועמדים מחשבת את ההסתברויות הצפויות ואת תנאי ההפסד התואמים עבור:

  • beagle
  • dog
  • קבוצת משנה אקראית של שאר הכיתות השליליות (לדוגמה, cat,‏ lollipop, ‏ fence).

הרעיון הוא שהקלאסות השליליות יכולות ללמוד מחיזוק שלילי בתדירות נמוכה יותר, כל עוד הקלאסות החיוביות מקבלות תמיד חיזוק חיובי מתאים, וזה אכן נצפה באופן אמפירי.

דגימת מועמדים יעילה יותר מבחינה חישובית מאשר אימון של אלגוריתמים שמחשבים תחזיות לכל הכיתות השליליות, במיוחד כשמספר הכיתות השליליות גדול מאוד.

נתונים קטגוריאליים

#fundamentals

מאפיינים שיש להם קבוצה ספציפית של ערכים אפשריים. לדוגמה, נניח שיש מאפיין קטגוריאלי בשם traffic-light-state, שיכול לקבל רק אחד משלושת הערכים האפשריים הבאים:

  • red
  • yellow
  • green

ייצוג המאפיין traffic-light-state כמאפיין קטגוריאלי מאפשר למודל ללמוד את ההשפעות השונות של red,‏ green ו-yellow על התנהגות הנהגים.

לפעמים תכונות קטגוריות נקראות תכונות בדידות.

בניגוד לנתונים מספריים.

מידע נוסף זמין בקטע עבודה עם נתונים קטגוריאליים בקורס המקוצר בנושא למידת מכונה.

מודל שפה סיבתי

#language

מונח נרדף למודל שפה חד-כיווני.

במאמר מודל שפה דו-כיווני מוסבר על ההבדל בין גישות שונות למודלים של שפה.

מרכז כובד

#clustering

מרכז האשכול, כפי שנקבע על ידי אלגוריתם k-means או k-median. לדוגמה, אם k הוא 3, אז האלגוריתם k-means או k-median מוצא 3 מרכזי מסה.

מידע נוסף זמין בקטע אלגוריתמים של קיבוץ בקורס 'קיבוץ'.

קיבוץ מבוסס-מוקד

#clustering

קטגוריה של אלגוריתמים של קיבוץ שמארגנת נתונים באשכולות לא היררכיים. k-means הוא אלגוריתם הקיבוץ הנפוץ ביותר שמבוסס על מרכז כובד.

בניגוד לאלגוריתמים של קיבוץ היררכי.

מידע נוסף זמין בקטע אלגוריתמים של קיבוץ בקורס 'קיבוץ'.

הנחיות בטכניקת שרשרת מחשבה

#language
#generativeAI

טכניקה של הנדסת הנחיות שמעודדת מודל שפה גדול (LLM) להסביר את התהליך של המסקנה שלו, שלב אחרי שלב. לדוגמה, הנה הנחיה לדוגמה, שימו לב במיוחד למשפט השני:

כמה כוחות גרביטציה (G) יפעלו על הנהג ברכב שנוסע מ-0 ל-96 קמ"ש תוך 7 שניות? בתשובה, צריך להציג את כל החישובים הרלוונטיים.

התשובה של ה-LLM תהיה ככל הנראה:

  • הצגת רצף של נוסחאות פיזיקה, עם הכנסת הערכים 0,‏ 60 ו-7 במקומות המתאימים.
  • הסבירו למה המערכת בחרה את הנוסחאות האלה ומה המשמעות של המשתנים השונים.

הנחיות לגבי שרשרת המחשבות מאלצות את ה-LLM לבצע את כל החישובים, מה שעלול להוביל לתשובה נכונה יותר. בנוסף, ההנחיות של שרשרת המחשבות מאפשרות למשתמש לבדוק את השלבים של LLM כדי לקבוע אם התשובה הגיונית.

צ'אט, צ'ט, צאט, צט

#language
#generativeAI

התוכן של דיאלוג הדדי עם מערכת למידת מכונה, בדרך כלל מודל שפה גדול. האינטראקציה הקודמת בצ'אט (מה שהקלדתם ואיך מודל השפה הגדול הגיב) הופכת להקשר של החלקים הבאים בצ'אט.

צ'אט בוט הוא יישום של מודל שפה גדול.

נקודת ביקורת

נתונים שמתעדים את המצב של הפרמטרים של מודל, במהלך האימון או אחרי שהאימון מסתיים. לדוגמה, במהלך האימון תוכלו:

  1. הפסקת האימון, אולי בכוונה או כתוצאה משגיאות מסוימות.
  2. מצלמים את נקודת הביקורת.
  3. מאוחר יותר, אפשר לטעון מחדש את נקודת הבדיקה, אולי בחומרה אחרת.
  4. מתחילים מחדש את האימון.

מחלקה

#fundamentals

קטגוריה שתווית יכולה להשתייך אליה. לדוגמה:

  • במודל סיווג בינארי לזיהוי ספאם, שני הכיתות יכולות להיות ספאם ולא ספאם.
  • במודל סיווג מרובה-כיתתי שמזהה גזעי כלבים, הכיתות יכולות להיות פודל, ביגל, מולוס וכן הלאה.

מודל סיווג חוזה סיווג. לעומת זאת, מודל רגרסיה חוזה מספר ולא סיווג.

מידע נוסף זמין בקטע סיווג במאמר קורס מקוצר על למידת מכונה.

מודל סיווג

#fundamentals

מודל שהחיזוי שלו הוא מחלקה. לדוגמה, אלה כולם מודלים של סיווג:

  • מודל לחיזוי השפה של משפט קלט (צרפתית? ספרדית? איטלקית?).
  • מודל לחיזוי מיני עצים (אדר? אלון? באובב?).
  • מודל שמתאר את הסבירות לקבלת תוצאה חיובית או שלילית לגבי מצב רפואי מסוים.

לעומת זאת, מודלים של רגרסיה צופים מספרים ולא כיתות.

שני סוגים נפוצים של מודלים של סיווג הם:

סף סיווג (classification threshold)

#fundamentals

בסיווג בינארי, מספר בין 0 ל-1 שממיר את הפלט הגולמי של מודל רגרסיה לוגיסטית לחיזוי של הקלאס החיובי או של הקלאס השלילי. חשוב לזכור שסף הסיווג הוא ערך שבני אדם בוחרים, ולא ערך שנבחר על ידי אימון המודל.

מודל רגרסיה לוגיסטית מניב ערך גולמי בין 0 ל-1. לאחר מכן:

  • אם הערך הגולמי הזה גדול מסף הסיווג, המערכת תחזה את הכיתה החיובית.
  • אם הערך הגולמי הזה קטן מערך הסף לסיווג, תתבצע חיזוי של הכיתה השלילית.

לדוגמה, נניח שסף הסיווג הוא 0.8. אם הערך הגולמי הוא 0.9, המודל חוזה את הכיתה החיובית. אם הערך הגולמי הוא 0.7, המודל מנבא את הכיתה השלילית.

הבחירה של סף הסיווג משפיעה מאוד על מספר התוצאות החיוביות הכוזבות ועל מספר התוצאות השליליות הכוזבות.

מידע נוסף זמין בקטע סף וערכי מטריצת הבלבול בקורס המקוצר בנושא למידת מכונה.

מערך נתונים עם אי-איזון בין הכיתות

#fundamentals

מערך נתונים לבעיית סיווג שבה המספר הכולל של תוויות בכל סיווג שונה באופן משמעותי. לדוגמה, נניח שיש מערך נתונים של סיווג בינארי, ושתי התוויות שלו מחולקות באופן הבא:

  • 1,000,000 תוויות שליליות
  • 10 תוויות חיוביות

היחס בין תוויות שליליות לתוויות חיוביות הוא 100,000 ל-1, כך שמדובר במערך נתונים עם חוסר איזון בין הכיתות.

לעומת זאת, מערך הנתונים הבא לא לא מאוזן מבחינת סיווג כי היחס בין תוויות שליליות לתוויות חיוביות קרוב ל-1:

  • 517 תוויות שליליות
  • 483 תוויות חיוביות

גם מערכי נתונים עם כמה סיווגים יכולים להיות לא מאוזנים מבחינת הסיווגים. לדוגמה, מערך הנתונים הבא של סיווג בכמה כיתות גם הוא לא מאוזן מבחינת הכיתות, כי לתוויות אחת יש הרבה יותר דוגמאות מאשר לשתי האחרות:

  • 1,000,000 תוויות עם הכיתה 'ירוק'
  • 200 תוויות עם הכיתה 'purple'
  • 350 תוויות עם הכיתה 'כתום'

מידע נוסף זמין במאמרים בנושא אנטרופי, הרוב והמיעוט.

חיתוך

#fundamentals

טכניקה לטיפול בחריגים באמצעות אחת מהפעולות הבאות או שתיהן:

  • הפחתת הערכים של המאפיין שגבוהים מסף מקסימלי עד לסף המקסימלי.
  • הגדלת ערכי המאפיינים שקטנים מסף מינימלי עד לסף המינימלי הזה.

לדוגמה, נניח שפחות מ-0.5% מהערכים של מאפיין מסוים נמצאים מחוץ לטווח 40 עד 60. במקרה כזה, תוכלו לבצע את הפעולות הבאות:

  • חיסור של כל הערכים שמעל 60 (הסף המקסימלי) כך שהם יהיו בדיוק 60.
  • כל הערכים שקטנים מ-40 (הסף המינימלי) יקוצצו לערך 40.

ערכים חריגים עלולים לפגוע במודלים, ולפעמים לגרום למשקלים לחרוג מטווח הערכים שלהם במהלך האימון. ערכים חריגים מסוימים יכולים גם לפגוע באופן משמעותי במדדים כמו דיוק. חיתוך הוא שיטה נפוצה להגבלת הנזק.

חיתוך שיפוע מאלץ את הערכים של השיפוע להישאר בטווח שנקבע במהלך האימון.

מידע נוסף זמין בקטע נתונים מספריים: נורמליזציה במדריך למתחילים בנושא למידת מכונה.

Cloud TPU

#TensorFlow
#GoogleCloud

מעבד חומרה ייעודי שמיועד להאיץ עומסי עבודה של למידת מכונה ב-Google Cloud.

קיבוץ

#clustering

קיבוץ דוגמאות קשורות, במיוחד במהלך למידה ללא הדרכה. אחרי שכל הדוגמאות מקובצות, אדם יכול לספק משמעות לכל אשכול.

יש הרבה אלגוריתמים של קיבוץ באשכולות. לדוגמה, האלגוריתם k-means מקבצ דוגמאות על סמך הקרבה שלהן למוקד, כפי שמתואר בתרשים הבא:

תרשים דו-מימדי שבו ציר ה-X מסומן כרוחב העץ וציר ה-Y מסומן כגובה העץ. הגרף מכיל שני מרכזי מסה וכמה עשרות נקודות נתונים. נקודות הנתונים מסווגות לפי הקרבה שלהן. כלומר, נקודות הנתונים הקרובות ביותר למרכז המסה אחד מסווגות כאשכול 1, ואילו נקודות הנתונים הקרובות ביותר למרכז המסה השני מסווגות כאשכול 2.

לאחר מכן, חוקר אנושי יוכל לבדוק את האשכולות, ולתת להם תוויות, לדוגמה, אשכול 1 יסומן בתווית 'עצים ננסיים' ואשכול 2 יסומן בתווית 'עצים בגודל מלא'.

דוגמה נוספת היא אלגוריתם קיבוץ שמבוסס על המרחק של דוגמה מנקודת מרכז, כפי שמוצג בהמשך:

עשרות נקודות נתונים מסודרות במעגלים קונצנטריים, כמעט כמו חורים סביב מרכז לוח חצים. הטבעת הפנימית ביותר של נקודות הנתונים מסווגת כאשכול 1, הטבעת האמצעית מסווגת כאשכול 2 והטבעת החיצונית מסווגת כאשכול 3.

מידע נוסף זמין בקורס הקיבוץ.

הסתגלות הדדית

כשנוירונים צופים דפוסים בנתוני האימון על ידי הסתמכות כמעט בלעדית על תוצאות של נוירונים ספציפיים אחרים, במקום להסתמך על התנהגות הרשת בכללותה. אם התבניות שגורמות להתאמה הדדית לא נמצאות בנתוני האימות, ההתאמה הדדית גורמת להתאמה יתר. תיקון Dropout מפחית את ההתאמה המשותפת, כי Dropout מוודא שהנוירונים לא יכולים להסתמך רק על נוירונים ספציפיים אחרים.

סינון שיתופי

#recsystems

ביצוע תחזיות לגבי תחומי העניין של משתמש אחד על סמך תחומי העניין של משתמשים רבים אחרים. סינון שיתופי משמש לעיתים קרובות במערכות המלצות.

מידע נוסף זמין בקטע סינון שיתופי בקורס 'מערכות המלצות'.

שינויים בקונספט

שינוי בקשר בין התכונות לבין התווית. עם הזמן, תנודות במושגים גורמות לירידה באיכות המודל.

במהלך האימון, המודל לומד את הקשר בין המאפיינים לבין התוויות שלהם בקבוצת האימון. אם התוויות בקבוצת האימון מייצגות היטב את העולם האמיתי, המודל אמור לספק חיזויים טובים בעולם האמיתי. עם זאת, בגלל תנודות בקונספט, התחזיות של המודל נוטים להידרדר עם הזמן.

לדוגמה, מודל סיווג בינארי שמתבסס על נתונים כדי לחזות אם מודל רכב מסוים הוא 'חסכוני בדלק' או לא. כלומר, התכונות יכולות להיות:

  • משקל הרכב
  • דחיסת מנוע
  • סוג השידור

בזמן שהתווית היא:

  • חסכוני בדלק
  • לא חסכוני בדלק

עם זאת, ההגדרה של 'רכב חסכוני בדלק' משתנה כל הזמן. מודל רכב שסומן בתווית חסכוני בדלק בשנת 1994 יהיה כמעט בוודאות מסומן בתווית לא חסכוני בדלק בשנת 2024. מודלים שסובלים מתנודות בקונספט נוטים להפיק חיזויים פחות שימושיים עם הזמן.

השוואה וניגוד לחוסר סטציונריות.

תנאי

#df

בעץ החלטות, כל צומת שמעריך ביטוי. לדוגמה, החלק הבא של עץ החלטות מכיל שני תנאים:

עץ החלטות שמורכב משני תנאים: (x > 0) ו-(y > 0).

תנאי נקרא גם חלוקה או בדיקה.

תנאי ניגודיות עם leaf.

ראה גם:

למידע נוסף, ראו סוגי תנאים בקורס 'יערות החלטות'.

סיפורים

#language

מילה נרדפת ל-hallucination.

כנראה שהמונח 'הזיה' מדויק יותר מבחינה טכנית מאשר 'הזיה'. עם זאת, ההזיה הפכה לפופולרית קודם.

הגדרות אישיות

תהליך הקצאת ערכי המאפיינים הראשוניים ששימשו לאימון מודל, כולל:

בפרויקטים של למידת מכונה, אפשר לבצע את ההגדרה באמצעות קובץ תצורה מיוחד או באמצעות ספריות תצורה כמו:

הטיית אישור

#fairness

הנטייה לחפש מידע, לפרש אותו, להעדיף אותו ולזכור אותו באופן שמאשר את האמונות או ההשערות הקיימות של האדם. מפתחי למידת מכונה עשויים לאסוף או לתייג נתונים בטעות בדרכים שמשפיעות על תוצאה שתומכת בדעות הקיימות שלהם. הטיית אישור היא סוג של הטיה משתמעת.

הטיה של הנסיין היא סוג של הטיית אישור, שבה הנסיין ממשיך לאמן מודלים עד שהשערה קיימת מאומתת.

מטריצת בלבול

#fundamentals

טבלה בגודל NxN שמסכמת את מספר התחזיות הנכונות והשגויות של מודל הסיווג. לדוגמה, שימו לב למטריית הבלבול הבאה של מודל סיווג בינארי:

גידול (חזוי) ללא גידול (חזוי)
גידול (ערכי סף) 18 (TP) 1 (FN)
ללא גידול (ערכי סף) 6 (FP) 452 (TN)

במטריית הבלבול שלמעלה מוצגים הנתונים הבאים:

  • מתוך 19 התחזיות שבהן העובדות האמיתיות היו 'גידול', המודל סיווג בצורה נכונה 18 תחזיות וסיווג בצורה שגויה תחזית אחת.
  • מתוך 458 התחזיות שבהן האמת בפועל הייתה 'ללא גידול', המודל סיווג בצורה נכונה 452 תחזיות וסיווג בצורה שגויה 6 תחזיות.

מטריצת הבלבול של בעיית סיווג במספר מחלקות יכולה לעזור לכם לזהות דפוסים של שגיאות. לדוגמה, ניקח את מטריצת הבלבול הבאה של מודל סיווג בן 3 סיווגים שמסווג שלושה סוגים שונים של איריס (Virginica,‏ Versicolor ו-Setosa). כשהתשתית האמינה הייתה Virginica, מתוך מטריצת הבלבול עולה שהמודל היה צפוי לחזות בטעות את Versicolor הרבה יותר מאשר את Setosa:

  Setosa (חזוי) Versicolor (חזוי) Virginica (חזוי)
Setosa (ערכי סף) 88 12 0
Versicolor (ערכי סף) 6 141 7
Virginica (ערכי סף) 2 27 109

דוגמה נוספת: מטריצת בלבול עשויה לחשוף שמודל שהודרן לזיהוי ספרות בכתב יד נוטה לחזות בטעות את המספר 9 במקום 4, או בטעות את המספר 1 במקום 7.

מטריצות בלבול מכילות מספיק מידע כדי לחשב מגוון מדדי ביצועים, כולל רמת הדיוק ורמת החזרה.

ניתוח של מחוזות בחירה

#language

חלוקת משפט למבנים דקדוקיים קטנים יותר ('רכיבים'). חלק מאוחר יותר במערכת ה-ML, כמו מודל של הבנת שפה טבעית, יכול לנתח את הרכיבים בקלות רבה יותר מאשר את המשפט המקורי. לדוגמה, המשפט הבא:

חברתי אימצה שני חתולים.

מנתח משפטים יכול לחלק את המשפט הזה לשני הרכיבים הבאים:

  • החבר שלי הוא ביטוי שם.
  • אימצה שני חתולים הוא ביטוי פועל.

אפשר לחלק את הרכיבים האלה לרכיבים קטנים יותר. לדוגמה, ביטוי הפועל

אימצו שני חתולים

ניתן לחלק אותם לקטגוריות נוספות:

  • adopted הוא פועל.
  • שני חתולים הוא ביטוי נוסף של שם עצם.

הטמעת שפה בהקשר

#language
#generativeAI

הטמעה שמגיעה קרוב ל'הבנה' של מילים וביטויים בדרכים שדוברים אנושיים שוטפים יכולים. הטמעות של שפה בהקשר יכולות להבין תחביר, סמנטיקה והקשר מורכבים.

לדוגמה, ניקח את הטמעות המילים של המילה האנגלית cow. הטמעות ישנות יותר, כמו word2vec, יכולות לייצג מילים באנגלית כך שהמרחק במרחב ההטמעה מ-cow ל-bull דומה למרחק מ-ewe (כבשה) ל-ram (איל) או מ-female ל-male. הטמעת שפה בהקשר יכולה להתקדם צעד נוסף על ידי זיהוי שלפעמים דוברי אנגלית משתמשים במילה cow באופן לא רשמי כדי לציין פרה או שור.

חלון ההקשר

#language
#generativeAI

מספר האסימונים שהמודל יכול לעבד בהנחיה נתונה. ככל שחלון ההקשר גדול יותר, כך המודל יכול להשתמש במידע רב יותר כדי לספק תשובות עקביות ועומדות בקו אחד להנחיה.

תכונה רציפה

#fundamentals

תכונה של נקודה צפה עם טווח אינסופי של ערכים אפשריים, כמו טמפרטורה או משקל.

בניגוד לתכונה בדידה.

דגימת נוחות [ברבים: דגימות נוחוּת]

שימוש בקבוצת נתונים שלא נאספה באופן מדעי כדי להריץ ניסויים מהירים. בשלב מאוחר יותר, חשוב לעבור למערך נתונים שנאסף באופן מדעי.

התכנסות

#fundamentals

מצב שמגיעים אליו כשהערכים של loss משתנים מעט מאוד או בכלל לא בכל חזרה. לדוגמה, עקומת האובדן הבאה מציעה שצבירת ההסכמה תתרחש אחרי כ-700 חזרות:

תרשים קרטוזי. ציר ה-X הוא אובדן. ציר ה-Y הוא מספר החזרות של האימון. האובדן גבוה מאוד במהלך החזרות הראשונות, אבל יורד בחדות. אחרי כ-100 חזרות, האובדן עדיין יורד, אבל באופן הדרגתי הרבה יותר. אחרי כ-700 חזרות, אובדן הלמידה נשאר יציב.

מודל מתכנס כשאימון נוסף לא משפרת אותו.

בלמידת עומק, ערכי האובדן נשארים לפעמים קבועים או כמעט קבועים במשך הרבה חזרות לפני שהם יורדים. במהלך תקופה ארוכה של ערכי אובדן קבועים, יכול להיות שתקבלו תחושה מוטעית של התקרבות.

אפשר לעיין גם במאמר בנושא עצירה מוקדמת.

מידע נוסף זמין בקטע התכנסות של מודלים ועקומות אובדן בקורס המקוצר בנושא למידת מכונה.

פונקציה קמורה

פונקציה שבה האזור שמעל לתרשים של הפונקציה הוא קבוצה קמורה. פונקציה Convex אופיינית נראית כמו האות U. לדוגמה, הפונקציות הבאות הן פונקציות קמורות:

עקומות בצורת U, עם נקודת מינימום אחת בכל אחת מהן.

לעומת זאת, הפונקציה הבאה לא קמורה. שימו לב שהאזור שמעל לתרשים הוא לא קבוצה קמורה:

עקומה בצורת W עם שתי נקודות שונות של מינימום מקומי.

לפונקציה קמורה לחלוטין יש בדיוק נקודה אחת של מינימום מקומי, שהיא גם נקודה של מינימום גלובלי. הפונקציות הקלאסיות בצורת U הן פונקציות קמורות לחלוטין. עם זאת, יש פונקציות Convex (למשל, קווים ישרים) שלא בצורת U.

מידע נוסף זמין בקטע Convergence and convex functions במדריך למתחילים בנושא למידת מכונה.

אופטימיזציה קמורה

תהליך שבו משתמשים בשיטות מתמטיות כמו ירידה בגרדינט כדי למצוא את הערך המינימלי של פונקציה קמורה. חלק גדול מהמחקר בתחום למידת המכונה התמקד בניסוח בעיות שונות כבעיות אופטימיזציה קונוווקסיות ובפתרון הבעיות האלה בצורה יעילה יותר.

פרטים מלאים זמינים במאמר של Boyd ו-Vandenberghe,‏ Convex Optimization.

קבוצה קמורה

קבוצת משנה של מרחב אוקלידיאני, כך שקו שמצויר בין שתי נקודות כלשהן בקבוצת המשנה נשאר לגמרי בתוך קבוצת המשנה. לדוגמה, שני הצורות הבאות הן קבוצות קמורות:

איור אחד של מלבן. איור נוסף של אליפסה.

לעומת זאת, שני הצורות הבאות הן לא קבוצות קמורות:

איור אחד של תרשים עוגה שבו חסר פרוסה.
          איור נוסף של מצולע לא סדיר במיוחד.

convolve

#image

במתמטיקה, באופן לא רשמי, שילוב של שתי פונקציות. בלמידת מכונה, עיבוד נתונים מבוסס-קוונטיל (convolution) מעורבב עם מסנן קוונטיל (convolutional) ומטריצת הקלט כדי לאמן משקלים.

המונח 'קבולציה' בלמידת מכונה הוא בדרך כלל דרך קצרה להתייחס לפעולה קונבולוציה או לשכבה קונבולוציה.

בלי עיבוד קוונטי, אלגוריתם למידת מכונה יצטרך ללמוד משקל נפרד לכל תא בטנסור גדול. לדוגמה, אימון של אלגוריתם למידת מכונה על תמונות בגודל 2K x 2K יאלץ למצוא 4 מיליון משקלים נפרדים. בזכות עיבוד קוונטי, אלגוריתם של למידת מכונה צריך למצוא משקלים רק לכל תא במסנן קוונטי, וכך לצמצם באופן משמעותי את נפח הזיכרון הנדרש לאימון המודל. כשמחילים את המסנן הקוונטי, הוא מוכפל בכל התאים כך שכל אחד מהם מוכפל במסנן.

מידע נוסף זמין בקטע מבוא לרשתות נוירונליות קונבולוציוניות בקורס 'סיווג תמונות'.

מסנן קוונטילי

#image

אחד משני הגורמים בפעולת עיבוד נתונים (convolution). (השחקן השני הוא פרוסת מטריצה של קלט). מסנן קוונטי הוא מטריצה שיש לה את אותו דרג כמו למטריצה של הקלט, אבל בצורה קטנה יותר. לדוגמה, אם נתונה מטריצת קלט בגודל 28x28, המסנן יכול להיות כל מטריצת 2D בגודל קטן מ-28x28.

בתמונות שעברו מניפולציה, בדרך כלל כל התאים במסנן קוונטי מוגדר לדפוס קבוע של אפסים ואחדים. בלמידת מכונה, בדרך כלל מסננים קונבולוציוניים מתחילים עם מספרים אקראיים, ואז הרשת מתאמנת על הערכים האידיאליים.

מידע נוסף זמין בקטע Convolution בקורס 'סיווג תמונות'.

שכבת convolve

#image

שכבה של רשת עצבית עמוקה שבה מסנן קוונטי עובר לאורך מטריצת קלט. לדוגמה, מסנן קוונטילציה בגודל 3x3:

מטריצת 3x3 עם הערכים הבאים: [[0,1,0], [1,0,1], [0,1,0]]

באנימציה הבאה מוצגת שכבת convolutinon שמכילה 9 פעולות convolutinon שכוללות את מטריית הקלט 5x5. שימו לב שכל פעולה קוונטית פועלת על פרוסה שונה בגודל 3x3 של מטריצת הקלט. המטריצה 3x3 שמתקבלת (בצד שמאל) מורכבת מהתוצאות של 9 פעולות הקיפול:

אנימציה שמוצגות בה שתי מטריצות. המטריצה הראשונה היא מטריצה 5x5:‏ [[128,97,53,201,198], [35,22,25,200,195],
          [37,24,28,197,182], [33,28,92,195,179], [31,40,100,192,177]].
          המטריצה השנייה היא המטריצה 3x3:
          [[181,303,618], [115,338,605], [169,351,560]].
          המטריצה השנייה מחושבת על ידי החלת המסנן הקוונטי [[0, 1, 0], [1, 0, 1], [0, 1, 0]] על קבוצות משנה שונות בגודל 3x3 של המטריצה בגודל 5x5.

מידע נוסף זמין בקטע שכבות מחוברות בקורס 'סיווג תמונות'.

רשת נוירונים מלאכותית (CNN)

#image

רשת נוירונים שבה שכבה אחת לפחות היא שכבה קוונטית. רשת נוירונלית רגילה מסוג convolutional מורכבת משילוב כלשהו של השכבות הבאות:

רשתות נוירונים מלאכותיות (CNN) הצליחו מאוד בפתרון בעיות מסוימות, כמו זיהוי תמונות.

פעולת convolve

#image

הפעולה המתמטית הבאה בשני שלבים:

  1. הכפלה של כל רכיב במסנן קוונטי ופרוסה של מטריצה של קלט. (לפרוסת מטריצת הקלט יש את אותו דירוג וגודל כמו למסנן הקוונטי.)
  2. סיכום כל הערכים במטריצה של המוצר שנוצר.

לדוגמה, נניח את מטריצת הקלט הבאה בגודל 5x5:

המטריצה 5x5: [[128,97,53,201,198], [35,22,25,200,195],
          [37,24,28,197,182], [33,28,92,195,179], [31,40,100,192,177]].

עכשיו נדמיין מסנן קוונטי 2x2:

המטריצה 2x2: [[1, 0], [0, 1]]

כל פעולת convolve כוללת פרוסה אחת בגודל 2x2 של מטריצת הקלט. לדוגמה, נניח שאנחנו משתמשים בפרוסת 2x2 בפינה הימנית העליונה של מטריצת הקלט. לכן, פעולת ההתמרה ההרמונית על הפרוסה הזו נראית כך:

החלת המסנן הקוונטי [[1, 0], [0, 1]] על הקטע 2x2 בפינה הימנית העליונה של מטריצת הקלט, שהוא [[128,97], [35,22]].
          המסנן הקוונטי משנה את הערכים של 128 ו-22, אבל משאיר את הערכים של 97 ו-35 ללא שינוי. לכן, פעולת ההתמרה מניבת את הערך 150 (128+22).

שכבת convolve מורכבת מסדרה של פעולות convolve, שכל אחת פועלת על פרוסה שונה של מטריצת הקלט.

עלות

מילה נרדפת ל-loss.

אימון משותף

הגישה של למידה מונחית למחצה מועילה במיוחד כשכל התנאים הבאים מתקיימים:

למעשה, אימון משותף מגביר אותות עצמאיים ליצירת אות חזק יותר. לדוגמה, נניח שיש מודל סיווג שמסווג מכוניות יד שנייה מסוימות כטובות או כרעות. קבוצה אחת של תכונות חזויות עשויה להתמקד במאפיינים מצטברים כמו השנה, היצרן והדגם של הרכב. קבוצה אחרת של תכונות חזויות עשויה להתמקד ברשומות הנהיגה של הבעלים הקודם ובהיסטוריית התחזוקה של הרכב.

המאמר החשוב ביותר בנושא אימון משותף הוא Combining Labeled and Unlabeled Data with Co-Training (שילוב של נתונים מתויגים ולא מתויגים באמצעות אימון משותף) של Blum ו-Mitchell.

הוגנות תנאי-נגד

#fairness

מדד הוגנות שבודק אם סיווג נותן את אותו תוצאה לאדם אחד כמו לאדם אחר שזהה לראשון, מלבד מאפיינים רגישים אחד או יותר. בדיקת הסיווג לצורך בדיקת הוגנות נגדית היא אחת מהשיטות לזיהוי מקורות פוטנציאליים של הטיה במודל.

מידע נוסף זמין במאמרים הבאים:

הטיה של כיסוי

#fairness

ראו הטיה של תהליך הבחירה.

פריחת קריסה

#language

משפט או ביטוי עם משמעות לא ברורה. 'פריחת תאונות' היא בעיה משמעותית בהבנת שפה טבעית. לדוגמה, הכותרת Red Tape Holds Up Skyscraper היא 'פרח פגום' כי מודל NLU יכול לפרש את הכותרת באופן מילולי או מטאפורי.

מבקר/ת

#rl

כינוי ל-Deep Q-Network.

אנטרופיה חוצת-מודלים

הכללה של Log Loss לבעיות סיווג בכמה מחלקות. האנטרופיה הצולבת מאפשרת למדוד את ההבדל בין שתי התפלגויות הסתברות. מידע נוסף זמין במאמר תסבוכת.

אימות חוצה

מנגנון להערכת מידת הכלליות של מודל לנתונים חדשים, על ידי בדיקת המודל בקבוצות משנה של נתונים לא חופפות אחת או יותר שלא נכללות בקבוצת האימון.

פונקציית התפלגות מצטברת (CDF)

פונקציה שמגדירה את התדירות של דגימות שקטנות מערך היעד או שוות לו. לדוגמה, נניח התפלגות נורמלית של ערכים רציפים. CDF מראה ש-50% מהדגימות צריכות להיות קטנות מ-mean או שווה לו, ו-84% מהדגימות צריכות להיות קטנות מ-mean או שווה לו סטיית תקן אחת מעל mean.

D

ניתוח נתונים

הבנת הנתונים באמצעות דגימות, מדידה והמחשה. ניתוח נתונים יכול להיות שימושי במיוחד כשמקבלים לראשונה מערך נתונים, לפני שיוצרים את המודל הראשון. הוא גם חיוני להבנת הניסויים ולפתרון בעיות במערכת.

הרחבת נתונים

#image

הגדלה מלאכותית של המגוון והמספר של דוגמאות לאימון, על ידי שינוי של דוגמאות קיימות כדי ליצור דוגמאות נוספות. לדוגמה, נניח שתמונות הן אחת מהמאפיינים שלכם, אבל מערך הנתונים לא מכיל מספיק דוגמאות של תמונות כדי שהמודל יוכל ללמוד אסוציאציות מועילות. באופן אידיאלי, כדאי להוסיף למערך הנתונים מספיק תמונות מתויגות כדי לאפשר לאמן את המודל בצורה תקינה. אם זה לא אפשרי, אפשר להשתמש בהגדלת נתונים כדי לסובב, למתוח ולהציג תמונת מראה של כל תמונה כדי ליצור הרבה וריאציות של התמונה המקורית. כך אפשר לקבל מספיק נתונים מתויגים כדי לאפשר אימון מצוין.

DataFrame

#fundamentals

סוג נתונים פופולרי ב-pandas שמייצג מערכי נתונים בזיכרון.

DataFrame הוא מקביל לטבלה או לגיליון אלקטרוני. לכל עמודה של DataFrame יש שם (כותרת), וכל שורה מזוהה באמצעות מספר ייחודי.

כל עמודה ב-DataFrame מובנית כמו מערך דו-מימדי, אלא שאפשר להקצות לכל עמודה סוג נתונים משלה.

אפשר לעיין גם בדף העזרה הרשמי של pandas.DataFrame.

מקביליות נתונים

דרך להתאמה לעומס של אימון או הסקה, שבה מעתיקים מודל שלם למספר מכשירים, ולאחר מכן מעבירים קבוצת משנה של נתוני הקלט לכל מכשיר. במקביליות נתונים אפשר לבצע אימון והסקה בקבוצות גדולות מאוד. עם זאת, במקביליות נתונים, המודל צריך להיות קטן מספיק כדי להתאים לכל המכשירים.

בדרך כלל, במקביליות נתונים אפשר להאיץ את האימון וההסקה.

מידע נוסף זמין במאמר מודל מקבילי.

Dataset API‏ (tf.data)

#TensorFlow

ממשק API ברמה גבוהה של TensorFlow לקריאת נתונים ולהמרתם לפורמט הנדרש לאלגוריתם של למידת מכונה. אובייקט tf.data.Dataset מייצג רצף של רכיבים, שבהם כל רכיב מכיל Tensor אחד או יותר. אובייקט tf.data.Iterator מספק גישה לרכיבים של Dataset.

מערך נתונים

#fundamentals

אוסף של נתונים גולמיים, שמאורגנים בדרך כלל (אבל לא רק) באחד מהפורמטים הבאים:

  • גיליון אלקטרוני
  • קובץ בפורמט CSV (ערכים מופרדים בפסיקים)

גבול ההחלטה

התו המפריד בין הקטגוריות שלמד המודל בקטגוריה בינארית או בבעיות סיווג בכמה קטגוריות. לדוגמה, בתמונה הבאה שמייצגת בעיית סיווג בינארי, גבול ההחלטה הוא הגבול בין הכיתה הכתומה לכיתה הכחולה:

גבול מוגדר היטב בין כיתה אחת לאחרת.

יער החלטות

#df

מודל שנוצר מכמה עצי החלטות. יער החלטות מבצע חיבור של התחזיות של עצי ההחלטות שלו כדי להגיע לתחזית. סוגים פופולריים של יערות החלטות כוללים יערות אקראיים ועצי gradient boosted.

מידע נוסף זמין בקטע יערות החלטות בקורס 'יערות החלטות'.

סף לקבלת החלטות

מונח נרדף לסף סיווג.

עץ החלטות

#df

מודל של למידה מונחית שמורכב מקבוצה של תנאים ועלים שמאורגנים באופן היררכי. לדוגמה, זהו עץ החלטות:

עץ החלטות שמורכב מארבעה תנאים שמסודרים בהיררכיה, שמוביל לחמישה עלים.

מפענח

#language

באופן כללי, כל מערכת למידת מכונה שממירה ייצוג מעובד, צפוף או פנימי לייצוג גולמי, דל או חיצוני יותר.

פעמים רבות מפענחים הם רכיב של מודל גדול יותר, שבו הם מותאמים לרוב למקודד.

במשימות של רצף לרצף, המפענח מתחיל מהמצב הפנימי שנוצר על ידי המקודד כדי לחזות את הרצף הבא.

ההגדרה של מפענח בארכיטקטורה של טרנפורמר מפורטת במאמר Transformer.

למידע נוסף, אפשר לקרוא את המאמר מודלים גדולים של שפה בקורס המקוצר על למידת מכונה.

מודל עמוק

#fundamentals

רשת נוירונים שמכילה יותר משכבה מוסתרת אחת.

מודל עמוק נקרא גם רשת עצבית עמוקה.

בניגוד למודל רחב.

של רשת עצבית עמוקה

מודל עמוק (deep model) הוא מודל שבו יש שכבות רבות.

Deep Q-Network‏ (DQN)

#rl

ב-למידת Q, רשת עצבית עמוקה שמאפשרת לחזות פונקציות Q.

Critic הוא שם נרדף ל-Deep Q-Network.

שוויון דמוגרפי

#fairness

מדד הוגנות שמתקיים אם תוצאות הסיווג של מודל לא תלויות במאפיין רגיש נתון.

לדוגמה, אם גם תלמידים מליליפוט וגם תלמידים מברובדינגיאני מתקבלים לאוניברסיטת גלובדדבריב, המשמעות היא ששוויון דמוגרפי מתקיים אם אחוז הקבלה של התלמידים מליליפוט זהה לאחוז הקבלה של התלמידים מברובדינגיאני, ללא קשר לכך שקבוצה אחת כשירה יותר בממוצע מהקבוצה השנייה.

בניגוד להשוואת הסיכויים ולשוויון הזדמנויות, שבהם מותר לתוצאות הסיווג הכוללות להיות תלויות במאפיינים רגישים, אבל אסור לתוצאות הסיווג של תוויות מסוימות של אמת בפועל להיות תלויות במאפיינים רגישים. במאמר 'התמודדות עם אפליה באמצעות למידת מכונה חכמה יותר' מופיעה הדמיה שממחישה את הפשרות שצריך לעשות כשמבצעים אופטימיזציה להשגת שוויון דמוגרפי.

למידע נוסף, ראו צדק: שוויון דמוגרפי בקורס המקוצר בנושא למידת מכונה.

הסרת רעשי רקע

#language

גישה נפוצה ללמידה בלתי מונחית:

  1. רעש מתווסף באופן מלאכותי למערך הנתונים.
  2. המודל מנסה להסיר את הרעש.

הסרת הרעש מאפשרת ללמוד מדוגמאות ללא תוויות. מערך הנתונים המקורי משמש כיעד או תווית, והנתונים עם הרעש משמשים כקלט.

בחלק ממודלים של שפה עם מסכה נעשה שימוש בניטרול רעשי רקע באופן הבא:

  1. כדי להוסיף רעש באופן מלאכותי למשפט ללא תווית, מסתירים חלק מהאסימונים.
  2. המודל מנסה לחזות את האסימונים המקוריים.

תכונה צפופה

#fundamentals

מאפיין שבו רוב הערכים או כולם שונים מאפס, בדרך כלל Tensor של ערכים בספרות עשרוניות. לדוגמה, הטנזור הבא עם 10 רכיבים הוא צפוף כי 9 מהערכים שלו שונים מאפס:

8 3 7 5 2 4 0 4 9 6

בניגוד למאפיין דל.

שכבה צפופה

שם נרדף ל-שכבה מקושרת במלואה.

עומק

#fundamentals

הסכום של הגורמים הבאים ברשת נוירונים:

לדוגמה, רשת עצבית עם חמש שכבות חבויות ושכבת פלט אחת היא בעומק 6.

שימו לב ששכבת הקלט לא משפיעה על העומק.

רשת עצבית קונבולוציה (CNN) ניתנת להפרדה לפי עומק (sepCNN)

#image

ארכיטקטורה של רשת עצבית קונבולוציונית שמבוססת על Inception, אבל שבה המודולים של Inception מוחלפים בקונטרוולים נפרדים לפי עומק. ידוע גם כ-Xception.

עיבוד נתונים באמצעות convolve נפרד לפי עומק (נקרא גם convolve נפרד) מחלק convolve 3D רגיל לשתי פעולות convolve נפרדות שיעילות יותר מבחינה חישובית: קודם, convolve לפי עומק, עם עומק של 1 (n ✕ n ✕ 1), ואז convolve לפי נקודה, עם אורך ורוחב של 1 (1 ✕ 1 ✕ n).

מידע נוסף זמין במאמר Xception: Deep Learning with Depthwise Separable Convlutions.

תווית נגזרת

מילה נרדפת ל-תווית proxy.

מכשיר

#TensorFlow
#GoogleCloud

מונח עם עומס יתר עם שתי ההגדרות האפשריות הבאות:

  1. קטגוריה של חומרה שיכולה להריץ סשן של TensorFlow, כולל מעבדי CPU, מעבדי GPU ו-TPU.
  2. כשמאמנים מודל למידת מכונה בשבבי מאיץ (GPU או TPU), החלק במערכת שמבצע בפועל את הפעולות על טנסורים ומיקומים מוטמעים. המכשיר פועל על שבבי מאיץ. לעומת זאת, המארח פועל בדרך כלל במעבד.

פרטיות דיפרנציאלית

בלמידת מכונה, גישה של אנונימיזציה שמטרתה להגן על נתונים רגישים (למשל, פרטים אישיים של אדם פרטי) שכלולים בקבוצת האימון של מודל, מפני חשיפת המידע. הגישה הזו מבטיחה שהמודל לא לומד או זוכר הרבה על אדם ספציפי. כדי לעשות זאת, אנחנו מבצעים דגימה ומוסיפים רעש במהלך אימון המודל כדי להסתיר נקודות נתונים ספציפיות, וכך לצמצם את הסיכון לחשיפת נתוני אימון רגישים.

פרטיות דיפרנציאלית משמשת גם מחוץ ללמידת מכונה. לדוגמה, מדעני נתונים משתמשים לפעמים בפרטיות דיפרנציאלית כדי להגן על הפרטיות של אנשים פרטיים כשהם מחשבים נתונים סטטיסטיים של שימוש במוצרים לפי קבוצות דמוגרפיות שונות.

צמצום המאפיינים

הפחתת מספר המאפיינים שמייצגים מאפיין מסוים במערך מאפיינים, בדרך כלל על ידי המרה לוקטור הטמעה.

מימדים

מונח בעל עומס יתר עם אחת מההגדרות הבאות:

  • מספר רמות הקואורדינטות בTensor. לדוגמה:

    • למשתנה סקלרי יש אפס מאפיינים, לדוגמה ["Hello"].
    • וקטור כולל מימד אחד, לדוגמה, [3, 5, 7, 11].
    • למטריצה יש שני מאפיינים, לדוגמה [[2, 4, 18], [5, 7, 14]]. אפשר לציין באופן ייחודי תא מסוים בוקטור דו-מימדי באמצעות קואורדינטה אחת, אבל צריך שתי קואורדינטות כדי לציין באופן ייחודי תא מסוים במטריצה דו-מימדית.
  • מספר הרשומות בוקטור מאפיינים.

  • מספר הרכיבים בשכבת הטמעה.

הנחיה ישירה

#language
#generativeAI

מילה נרדפת להנחיה ישירה (Zero-shot).

תכונה בדידה

#fundamentals

תכונה עם קבוצה סופית של ערכים אפשריים. לדוגמה, מאפיין שערכיו יכולים להיות רק animal (חיה), vegetable (ירק) או mineral (מינרל) הוא מאפיין בדיד (או קטגורי).

בניגוד לתכונה רציפה.

מודל דיסקרימינטיבי

מודל שמתבסס על קבוצה של מאפיינים כדי לחזות תוויות. באופן רשמי יותר, מודלים דיסקרמנטיביים מגדירים את ההסתברות המותנית של פלט, בהתאם למאפיינים ולמשקלים. כלומר:

p(output | features, weights)

לדוגמה, מודל שמנבא אם אימייל הוא ספאם על סמך מאפיינים ומשקולות הוא מודל מבדיל.

רוב מודלים הלמידה המונחית, כולל מודלים של סיווג ורגרסיה, הם מודלים דיסקרימינטיביים.

בניגוד למודל גנרטיבי.

דיסקרימינטור

מערכת שמאפשרת לקבוע אם דוגמאות הן אמיתיות או מזויפות.

לחלופין, מערכת המשנה בתוך רשת גנרטיבית יריבה שמחליטה אם הדוגמאות שנוצרו על ידי הגנרטור הן אמיתיות או מזויפות.

מידע נוסף זמין בקטע המזהה בקורס GAN.

השפעה שונה

#fairness

קבלת החלטות לגבי אנשים שמשפיעות באופן לא פרופורציונלי על קבוצות משנה שונות באוכלוסייה. בדרך כלל מדובר במצבים שבהם תהליך קבלת החלטות אלגוריתמי פוגע בקבוצות משנה מסוימות או נותן להן יתרון על פני קבוצות אחרות.

לדוגמה, נניח שלפי אלגוריתם שקובע את הזכאות של אדם לקבלת הלוואה לבית קטן, סביר יותר שהוא יסווג את האדם כ'לא עומד בדרישות' אם כתובת האימייל שלו מכילה מיקוד מסוים. אם יש סיכוי גבוה יותר שלאנשים ב-Big-Endian יהיו כתובות למשלוח דואר עם קוד האימייל הזה מאשר לאנשים ב-Little-Endian, יכול להיות שהאלגוריתם הזה יוביל להשפעה שונה על קבוצות שונות.

בניגוד להתייחסות מפלה, שמתמקדת בפערים שנובעים כאשר מאפייני קבוצות משנה משמשים כקלט מפורש בתהליך קבלת ההחלטות האלגוריתמי.

טיפול מפלה

#fairness

הוספת מאפיינים רגישים של הנושאים לתהליך קבלת ההחלטות האלגוריתמיות, כך שקבוצות משנה שונות של אנשים יקבלו טיפול שונה.

לדוגמה, נניח שיש אלגוריתם שקובע את הזכאות של גמדים לקבלת הלוואה לבית מיניאטורי על סמך הנתונים שהם מספקים בבקשת ההלוואה. אם האלגוריתם משתמש בקשר של Lilliputian כ-Big-Endian או כ-Little-Endian כקלט, הוא מטפל באופן שונה בקבוצות שונות לפי המאפיין הזה.

בניגוד להשפעה שונה, שמתמקדת בהבדלים בהשפעות החברתיות של החלטות אלוגוריתמיות על קבוצות משנה, ללא קשר לכך שהקבוצות המשנה האלה הן קלט למודלים.

זיקוק

#generativeAI

תהליך הפחתת הגודל של מודל אחד (שנקרא מורה) למודל קטן יותר (שנקרא תלמיד) שמחקה את התחזיות של המודל המקורי בצורה נאמנה ככל האפשר. התהליך הזה שימושי כי למודל הקטן יש שני יתרונות מרכזיים על פני המודל הגדול (המורה):

  • זמן הסקת מסקנות מהיר יותר
  • הפחתת השימוש בזיכרון ובאנרגיה

עם זאת, התחזיות של התלמידים בדרך כלל לא טובות כמו התחזיות של המורים.

בתהליך הזיקוק, מודל התלמיד מתאמן לצמצום פונקציית אובדן על סמך ההבדל בין הפלט של התחזיות של מודל התלמיד למודל המורה.

השוו בין התהליך של זיקוק לבין המונחים הבאים:

מידע נוסף זמין בקטע LLMs: Fine-tuning, distillation, and prompt engineering במאמר קורס מקוצר על למידת מכונה.

distribution

התדירות והטווח של ערכים שונים של מאפיין או תווית נתון. ההתפלגות מתארת את הסבירות של ערך מסוים.

בתמונה הבאה מוצגים תרשים היסטוגרמות של שתי הפצות שונות:

  • בצד ימין, התפלגות עושר לפי חוק העוצמה לעומת מספר האנשים שיש להם את העושר הזה.
  • בצד שמאל, חלוקה רגילה של גובה לעומת מספר האנשים שיש להם את הגובה הזה.

שתי היסטוגרמות. היסטוגרמה אחת מציגה התפלגות של חוק העוצמה, עם עושר על ציר ה-X ומספר האנשים שיש להם את העושר הזה על ציר ה-Y. לרוב האנשים יש הון קטן מאוד, ולמעט אנשים יש הון רב. בתרשים ההיסטוגרמה השני מוצגת התפלגות רגילה עם הגובה בציר X ומספר האנשים עם הגובה הזה בציר Y. רוב האנשים מקובצים באזור של הממוצע.

הבנת ההתפלגות של כל מאפיין ותווית יכולה לעזור לכם לקבוע איך לנרמל ערכים ולזהות חריגים.

הביטוי out of distribution מתייחס לערך שלא מופיע במערך הנתונים או שהוא נדיר מאוד. לדוגמה, תמונה של כוכב שבת ייחשבו כתמונה שלא נכללת במערך נתונים שמכיל תמונות של חתולים.

אשכול חלוקת

#clustering

ראו אשכולות היררכיים.

downsampling

#image

מונח בעל עומס יתר שיכול להיות אחד מהמונחים הבאים:

  • הפחתת כמות המידע בתכונה כדי לאמן מודל בצורה יעילה יותר. לדוגמה, לפני אימון מודל לזיהוי תמונות, אפשר להקטין את הדגימה של תמונות ברזולוציה גבוהה לפורמט ברזולוציה נמוכה יותר.
  • אימון על אחוז נמוך באופן לא פרופורציונלי של דוגמאות לכיתות שמיוצגות יתר על המידה, כדי לשפר את אימון המודל על כיתות שמיוצגות פחות. לדוגמה, במערך נתונים עם חוסר איזון בין הקטגוריות, המודלים נוטים ללמוד הרבה על הקטגוריה הגדולה יותר ולא מספיק על הקטגוריה הקטנה יותר. דגימה לאחור עוזרת לאזן את כמות האימון של הכיתות הגדולות והקטנות.

למידע נוסף, ראו מערכי נתונים: מערכי נתונים לא מאוזנים בקורס המקוצר בנושא למידת מכונה.

DQN

#rl

קיצור של Deep Q-Network.

רגולריזציה של נשירת תאים (dropout)

סוג של סדרה שמועיל לאימון של רשתות נוירונים. ב-Dropout regularization, המערכת מסירה בחירה אקראית של מספר קבוע של היחידות בשכבת הרשת בשלב אחד של שיפוע. ככל שיהיו יותר יחידות שיוצאות משימוש, כך יתחזק תהליך הרגולריזציה. זה דומה לאימון הרשת כדי לדמות אנסמבל גדול באופן מעריכי של רשתות קטנות יותר. פרטים מלאים זמינים במאמר Dropout: דרך פשוטה למנוע התאמה יתר של רשתות נוירונליות.

דינמי

#fundamentals

משהו שנעשה לעיתים קרובות או באופן קבוע. המונחים דינמי ואונליין הם מונחים נרדפים בלמידת מכונה. אלה שימושים נפוצים של דינמי ואונליין בלמידת מכונה:

  • מודל דינמי (או מודל אונליין) הוא מודל שעובר אימון מחדש בתדירות גבוהה או באופן רציף.
  • הדרכה דינמית (או הדרכה אונליין) היא תהליך של אימון בתדירות גבוהה או באופן רציף.
  • הסקה דינמית (או הסקה אונליין) היא תהליך יצירת התחזיות על פי דרישה.

מודל דינמי

#fundamentals

מודל שמתאמן מחדש לעיתים קרובות (ואולי אפילו באופן רציף). מודל דינמי הוא 'לומד לכל החיים' שמתאים את עצמו כל הזמן לנתונים המשתנים. מודל דינמי נקרא גם מודל אונליין.

בניגוד למודל סטטי.

E

ביצוע מיידי

#TensorFlow

סביבת תכנות של TensorFlow שבה פעולות פועלות באופן מיידי. לעומת זאת, פעולות שנקראות בביצוע גרף לא פועלות עד שהן נבדקות באופן מפורש. ביצוע מיידי הוא ממשק אימפרטיבי, בדומה לקוד ברוב שפות התכנות. בדרך כלל קל יותר לנפות באגים בתוכניות לביצוע מיידי מאשר בתוכניות לביצוע גרפי.

הפסקה מוקדמת

#fundamentals

שיטה לסדרת שכוללת סיום של אימון לפני שהירידה בהפסד האימון מסתיימת. כשמשתמשים בעצירה מוקדמת, מפסיקים את אימון המודל בכוונה כשהאובדן במערך נתוני אימות מתחיל לעלות, כלומר כשהביצועים של הכללה נפגעים.

מרחק העברה של ציוד הנדסי (EMD)

מדד הדמיון היחסי בין שתי התפלגויות. ככל שהמרחק של 'הגורם המניע' נמוך יותר, כך התפלגויות דומות יותר.

edit distance

#language

מדידה של מידת הדמיון בין שתי מחרוזות טקסט. בלמידת מכונה, מרחק העריכה שימושי מהסיבות הבאות:

  • קל לחשב את מרחק העריכה.
  • אפשר להשתמש במרחק העריכה כדי להשוות בין שתי מחרוזות שידוע שהן דומות זו לזו.
  • מרחק העריכה יכול לקבוע את מידת הדמיון בין מחרוזות שונות למחרוזת נתונה.

יש כמה הגדרות של מרחק עריכה, וכל אחת מהן משתמשת בפעולות שונות על מחרוזות. דוגמה לכך מופיעה בקטע מרחק Levenshtein.

סימון Einsum

סימון יעיל לתיאור האופן שבו משלבים שני טנסורים. כדי לשלב את הטנסורים, מכפילים את הרכיבים של הטנסור אחד ברכיבים של הטנסור השני, ואז מסכמים את המכפלות. בסימן Einsum נעשה שימוש בסמלים כדי לזהות את הצירים של כל טינסור, והסמלים האלה ממוינים מחדש כדי לציין את הצורה של הטנסור החדש שנוצר.

NumPy מספקת הטמעה נפוצה של Einsum.

שכבת הטמעה

#language
#fundamentals

שכבה מוסתרת מיוחדת שמתאמנה על מאפיין קטגוריאלי בעל מאפיינים רבים, כדי ללמוד בהדרגה וקטור הטמעה בעל מאפיינים פחותים. שכבת הטמעה מאפשרת לרשת נוירונים להתאמן בצורה יעילה הרבה יותר מאשר אימון רק על התכונה הקטגורית בעלת המאפיינים הרב-ממדיים.

לדוגמה, נכון לעכשיו יש ב-Earth תמיכה בכ-73,000 מינים של עצים. נניח שסוג העץ הוא מאפיין במודל, כך ששכבת הקלט של המודל כוללת וקטור one-hot באורך 73,000 רכיבים. לדוגמה, יכול להיות ש-baobab יוצג כך:

מערך של 73,000 רכיבים. ב-6,232 הרכיבים הראשונים מופיע הערך 0. הרכיב הבא מכיל את הערך 1. 66,767 האלמנטים האחרונים מכילים את הערך אפס.

מערך של 73,000 רכיבים הוא ארוך מאוד. אם לא מוסיפים שכבת הטמעה למודל, תהליך האימון יהיה מאוד ממושך בגלל הכפלה של 72,999 אפסים. אולי בחרתם שכבת הטמעה שתכלול 12 מאפיינים. כתוצאה מכך, שכבת ההטמעה תלמד בהדרגה וקטור הטמעה חדש לכל מין עץ.

במצבים מסוימים, גיבוב הוא חלופה סבירה לשכבת הטמעה.

מידע נוסף זמין בקטע הטמעות (Embeddings) בקורס המקוצר על למידת מכונה.

מרחב הטמעה

#language

מרחב וקטורי בעל d ממדים שאליו ממופה המאפיין ממרחב וקטורי בעל ממדים גבוהים יותר. מרחב ההטמעה עובר אימון כדי לתעד מבנה שמשמעותי לאפליקציה המיועדת.

המכפלה הפנימית של שני הטמעות היא מדד הדמיון ביניהן.

וקטור הטמעה

#language

באופן כללי, מערך של מספרים בנקודה צפה שנלקחים מכל שכבה מוסתרת שמתארים את הקלט לשכבה המוסתרת הזו. לרוב, וקטור הטמעה הוא מערך של מספרים עם נקודה צפה (float) שהוכשרו בשכבת הטמעה. לדוגמה, נניח ששכבת הטמעה צריכה ללמוד ווקטור הטמעה לכל אחד מ-73,000 מיני העצים בעולם. יכול להיות שהמערך הבא הוא וקטור ההטמעה של עץ באובב:

מערך של 12 רכיבים, שכל אחד מהם מכיל מספר נקודה צפה (floating-point) בין 0.0 ל-1.0.

וקטור הטמעה הוא לא קבוצה של מספרים אקראיים. שכבת הטמעה (embedding) קובעת את הערכים האלה באמצעות אימון, בדומה לאופן שבו רשת עצבית לומדת משקלים אחרים במהלך האימון. כל רכיב במערך הוא דירוג של מאפיין כלשהו של מין עץ. איזה רכיב מייצג את המאפיין של איזה מין עץ? קשה מאוד לבני אדם לקבוע זאת.

החלק המדהים מבחינה מתמטית של וקטור הטמעה הוא שלפריטים דומים יש קבוצות דומות של מספרים עם נקודה צפה. לדוגמה, למינים דומים של עצים יש קבוצה דומה יותר של מספרים בספרות עשרוניות מאשר למינים שונים של עצים. עצי סקויה ועצי סקויה אדומה הם זני עצים קשורים, ולכן הם יהיו בעלי קבוצה דומה יותר של מספרים עם נקודה צפה מאשר עצי סקויה ודקלים. המספרים בוקטור ההטמעה ישתנו בכל פעם שתתאמנו מחדש את המודל, גם אם תתאמנו אותו מחדש עם קלט זהה.

פונקציית ההתפלגות המצטברת האמפירית (eCDF או EDF)

פונקציית התפלגות מצטברת שמבוססת על מדידות אמפיריות ממערך נתונים אמיתי. הערך של הפונקציה בכל נקודה על ציר ה-x הוא החלק היחסי של התצפיות במערך הנתונים שקטנות מהערך שצוין או שוות לו.

מזעור סיכון אמפירי (ERM)

בחירת הפונקציה שמקטינה את האובדן בקבוצת האימון. בניגוד לצמצום סיכונים מבניים.

מקודד

#language

באופן כללי, כל מערכת למידת מכונה שממירה ייצוג גולמי, דליל או חיצוני לייצוג מעובד יותר, צפוף יותר או פנימי יותר.

מקודדים הם לרוב רכיב של מודל גדול יותר, שבו הם מותאמים לעיתים קרובות למפענח. חלק מהטרנספורמרים מתאימים מקודדים למפענחים, אבל טרנספורמרים אחרים משתמשים רק במקודד או רק במפענח.

במערכות מסוימות, הפלט של המקודד משמש כקלט לרשת סיווג או רשת רגרסיה.

במשימות מסוג רצף לרצף, מקודד מקבל רצף קלט ומחזיר מצב פנימי (וקטור). לאחר מכן, המפענח משתמש במצב הפנימי הזה כדי לחזות את הרצף הבא.

אפשר לעיין במאמר Transformer כדי לקרוא את ההגדרה של מקודד בארכיטקטורה של טרנספורמרים.

למידע נוסף, אפשר לקרוא את המאמר LLMs: What's a large language model בקורס המקוצר על למידת מכונה.

אנסמבל

אוסף של מודלים שהוכשרו בנפרד, והתחזיות שלהם ממוצעות או נצברות. במקרים רבים, קבוצת מודלים מניבה תחזיות טובות יותר מאשר מודל יחיד. לדוגמה, יער אקראי הוא אנסמבל שנוצר מכמה עצים של החלטות. חשוב לזכור שלא כל יערות ההחלטות הם אנסמבלים.

מידע נוסף זמין בקטע Random Forest בקורס המקוצר על למידת מכונה.

אנטרופיה

#df

ב תיאוריית המידע, תיאור של מידת הבלתי צפוי של התפלגות הסתברות. לחלופין, אנטרופי מוגדר גם ככמות המידע שמכילה כל דוגמה. ההסתברות הגבוהה ביותר של אנטרופי בחלוקה מתקבלת כאשר כל הערכים של משתנה אקראי סבירים באותה מידה.

הנוסחה של האנטרופיה של קבוצה עם שני ערכים אפשריים, '0' ו-'1' (לדוגמה, התוויות בבעיה של סיווג בינארי) היא:

  H = -p log p - q log q = -p log p - (1-p) * log (1-p)

כאשר:

  • H היא האנטרופיה.
  • p הוא החלק היחסי של הדוגמאות עם הערך '1'.
  • q הוא החלק היחסי של דוגמאות עם ערך '0'. הערה: q = (1 - p)
  • בדרך כלל, log הוא log2. במקרה הזה, יחידת האנטרופי היא ביט.

לדוגמה, נניח את הפרטים הבאים:

  • 100 דוגמאות מכילות את הערך '1'
  • 300 דוגמאות מכילות את הערך '0'

לכן, ערך האנטרופיה הוא:

  • p = 0.25
  • q = 0.75
  • H = (-0.25)log2(0.25) - (0.75)log2(0.75) = 0.81 ביט לדוגמה

לאוסף מאוזן באופן מושלם (לדוגמה, 200 '0' ו-200 '1') תהיה אנטרופיה של 1.0 ביט לכל דוגמה. ככל שהקבוצה לא מאוזנת יותר, האנטרופי שלה מתקרב ל-0.0.

בעצים של החלטות, האנטרופיה עוזרת לנסח את השיפור במידע כדי לעזור למחלץ לבחור את התנאים במהלך הצמיחה של עץ החלטות לסיווג.

השוואה בין האנטרופיה לבין:

לעיתים קרובות קוראים לאנטרופיה אנטרופיית שרנון.

מידע נוסף זמין בקטע Exact splitter for binary classification with numerical features בקורס Decision Forests.

environment

#rl

בלמידת חיזוקים, העולם שמכיל את הסוכן ומאפשר לסוכן לצפות במצב של העולם הזה. לדוגמה, העולם שמוצג יכול להיות משחק כמו שחמט או עולם פיזי כמו מבוך. כשהסוכן מחיל פעולה על הסביבה, הסביבה עוברת בין מצבים.

פרק

#rl

בלמידת חיזוקים, כל אחת מהניסיונות החוזרים של הסוכן ללמוד סביבה.

תקופה של זמן מערכת

#fundamentals

סבב אימון מלא על כל קבוצת האימון, כך שכל דוגמה עובדה פעם אחת.

תקופת אימון מייצגת חזרות של אימון N/גודל האצווה, כאשר N הוא המספר הכולל של הדוגמאות.

לדוגמה, נניח את הפרטים הבאים:

  • מערך הנתונים מורכב מ-1,000 דוגמאות.
  • גודל האצווה הוא 50 דוגמאות.

לכן, כדי להשלים עידן אחד נדרשות 20 חזרות:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

מידע נוסף זמין בקטע רגרסיה לינארית: היפר-פרמטרים בקורס המקוצר בנושא למידת מכונה.

מדיניות 'אפסילון חמדן'

#rl

בלמידת חיזוי, מדיניות שמצייתת למדיניות אקראית עם הסתברות של אפסון, או למדיניות תאוותנית במקרים אחרים. לדוגמה, אם הערך של epsilon הוא 0.9, המדיניות תהיה מדיניות אקראית ב-90% מהמקרים ותהיה מדיניות תאוותנית ב-10% מהמקרים.

במהלך פרקים עוקבים, האלגוריתם מקטין את הערך של epsilon כדי לעבור ממדיניות אקראית למדיניות תאוותנית. כשמשנים את המדיניות, הסוכן קודם בודק את הסביבה באופן אקראי ואז מנצל בצורה תאוותנית את תוצאות הבדיקה האקראית.

שוויון הזדמנויות

#fairness

מדד הוגנות שמאפשר להעריך אם מודל מסוים מנבא את התוצאה הרצויה באותה מידה לכל הערכים של מאפיין רגיש. במילים אחרות, אם התוצאה הרצויה של מודל היא הסיווג החיובי, המטרה היא ששיעור החיוביים האמיתיים יהיה זהה בכל הקבוצות.

שוויון הזדמנויות קשור לשוויון הסיכויים, שמחייב שגם שיעורי החיובים האמיתיים וגם שיעורי החיובים השקריים יהיו זהים בכל הקבוצות.

נניח ש-Glubbdubdrib University מקבלת גם ליליפוטים וגם ברודינגנגיים לתוכנית מתמטיקה מחמירה. בתי הספר העל-יסודיים של ליליפוט מציעים תוכנית לימודים עשירה של שיעורי מתמטיקה, ורוב התלמידים עומדים בדרישות הקבלה לתוכנית האוניברסיטאית. בתי הספר התיכוניים בברודינגנ' לא מציעים שיעורי מתמטיקה בכלל, וכתוצאה מכך, הרבה פחות תלמידים עומדים בדרישות. שוויון הזדמנויות מתקיים לגבי התווית המועדפת 'התקבל' ביחס לאזרחות (ליליפוטי או ברודינגיאני) אם הסיכוי של תלמידים שעומדים בדרישות להתקבל הוא זהה, ללא קשר לכך שהם ליליפוטיים או ברודינגיאניים.

לדוגמה, נניח ש-100 תלמידים מליליפוט ו-100 תלמידים מברובדינגינג מגישים בקשה לאוניברסיטת Glubbdubdrib, וההחלטות לגבי הקבלה מתקבלות באופן הבא:

טבלה 1. מועמדים קטנים (90% מהם עומדים בדרישות)

  כשיר לא מתאים
התקבל 45 3
נדחה 45 7
סה"כ 90 10
אחוז התלמידים שעומדים בדרישות והתקבלו: 45/90 = 50%
אחוז התלמידים שלא עומדים בדרישות והודחו: 7/10 = 70%
אחוז התלמידים מליליפוטיה שהתקבלו בסה"כ: (45+3)/100 = 48%

 

טבלה 2. מועמדים עם נתונים עצומים (10% מהם עומדים בדרישות):

  כשיר לא מתאים
התקבל 5 9
נדחה 5 81
סה"כ 10 90
אחוז הסטודנטים שעומדים בדרישות והתקבלו: 5/10 = 50%
אחוז הסטודנטים שלא עומדים בדרישות והודחו: 81/90 = 90%
אחוז הסטודנטים מברודינגיאניה שהתקבלו: (5+9)/100 = 14%

הדוגמאות הקודמות עומדות בקריטריון של שוויון הזדמנויות לקבלת תלמידים שעומדים בדרישות, כי לכל אחד מתלמידי ליליפוט וברודינגנז יש סיכוי של 50% להתקבל.

אמנם מדד השוויון הזדמנויות עומד בדרישות, אבל שני מדדי ההוגנות הבאים לא עומדים בדרישות:

  • שוויון דמוגרפי: סטודנטים מליליפוטי ומברודינגיאני מתקבלים לאוניברסיטה בשיעורים שונים: 48% מהסטודנטים מליליפוטי מתקבלים, אבל רק 14% מהסטודנטים מברודינגיאני מתקבלים.
  • שוויון סיכויים: לתלמידים שעומדים בדרישות מליליפוטין ומברודינגיאניה יש את אותה ההסתברות להתקבל, אבל לא מתקיים האילוץ הנוסף שלפיו לתלמידים שלא עומדים בדרישות מליליפוטין ומברודינגיאניה יש את אותה ההסתברות להידחות. בקשות של ליליפוטנים לא כשירים נדחות בשיעור של 70%, ואילו בקשות של ברודינגנזים לא כשירים נדחות בשיעור של 90%.

למידע נוסף, ראו צדק: שוויון הזדמנויות בקורס המקוצר בנושא למידת מכונה.

הסתברות שווה

#fairness

מדד הוגנות שמאפשר להעריך אם מודל מנבא תוצאות באותה רמה לכל הערכים של מאפיין רגיש, הן לגבי הסיווג החיובי והן לגבי הסיווג השלילי – ולא רק לגבי סיווג אחד או השני בלבד. במילים אחרות, גם שיעור החיובים האמיתיים וגם שיעור השלילים הכוזבים צריכים להיות זהים בכל הקבוצות.

האפשרות 'שוויון סיכויים' קשורה לשוויון הזדמנויות, שמתמקדת רק בשיעורי שגיאות של סיווג אחד (חיובי או שלילי).

לדוגמה, נניח שאוניברסיטת Glubbdubdrib מקבלת גם ליליפוטים וגם ברודינגנאים לתוכנית מתמטיקה מחמירה. בתי הספר התיכוניים של ליליפוט מציעים תוכנית לימודים עשירה של שיעורי מתמטיקה, ורוב התלמידים עומדים בדרישות הקבלה לתוכנית האוניברסיטאית. בתי הספר התיכוניים בברודינגנ' לא מציעים שיעורי מתמטיקה בכלל, וכתוצאה מכך, הרבה פחות תלמידים עומדים בדרישות. הקריטריון של שוויון הסיכויים מתקיים אם לא משנה אם המועמד הוא אדם קטן או אדם גדול, אם הוא עומד בדרישות, הסיכוי שלו להתקבל לתוכנית הוא זהה, ואם הוא לא עומד בדרישות, הסיכוי שלו להידחות הוא זהה.

נניח ש-100 תלמידים מליליפוט ו-100 תלמידים מברובדינגיאני שולחים בקשות לאוניברסיטת Glubbdubdrib, וההחלטות לגבי הקבלה מתקבלות באופן הבא:

טבלה 3 מועמדים קטנים (90% מהם עומדים בדרישות)

  כשיר לא מתאים
התקבל 45 2
נדחה 45 8
סה"כ 90 10
אחוז התלמידים שעומדים בדרישות והתקבלו: 45/90 = 50%
אחוז התלמידים שלא עומדים בדרישות והודחו: 8/10 = 80%
אחוז התלמידים מליליפוטיה שהתקבלו בסה"כ: (45+2)/100 = 47%

 

טבלה 4. מועמדים עם נתונים עצומים (10% מהם עומדים בדרישות):

  כשיר לא מתאים
התקבל 5 18
נדחה 5 72
סה"כ 10 90
אחוז הסטודנטים שעומדים בדרישות והתקבלו: 5/10 = 50%
אחוז הסטודנטים שלא עומדים בדרישות והודחו: 72/90 = 80%
אחוז הסטודנטים מברודינגיאניה שהתקבלו: (5+18)/100 = 23%

תנאי הקבלה של שוויון הסיכויים מתקיים כי לסטודנטים מתאימים מליליפוטי ומברודינגיאני יש סיכוי של 50% להתקבל, ולסטודנטים לא מתאימים מליליפוטי ומברודינגיאני יש סיכוי של 80% להידחות.

ההגדרה הרשמית של שוויון הסיכויים מופיעה במאמר 'שוויון הזדמנויות בלמידה בפיקוח' באופן הבא: "המנבא Ŷ עומד בתנאי של שוויון הסיכויים ביחס למאפיין המוגן A ולתוצאה Y אם Ŷ ו-A הם עצמאיים, מותנים ב-Y".

Estimator

#TensorFlow

ממשק API של TensorFlow שהוצא משימוש. שימוש ב-tf.keras במקום ב-Estimators.

evals

#language
#generativeAI

משמש בעיקר כקיצור של הערכות LLM. באופן כללי, evals היא קיצור של כל סוג של בדיקה.

הערכה

#language
#generativeAI

התהליך של מדידת האיכות של מודל או השוואה בין מודלים שונים.

כדי להעריך מודל של למידת מכונה מבוקרת, בדרך כלל משווים אותו לקבוצת אימות ולקבוצת בדיקה. הערכת LLM כוללת בדרך כלל הערכות איכות ובטיחות רחבות יותר.

דוגמה

#fundamentals

הערכים של שורה אחת של מאפיינים, ואפשר גם של תווית. דוגמאות ללמידה מונחית נכללות בשתי קטגוריות כלליות:

  • דוגמה מתויגת מורכבת מתכונה אחת או יותר ומתווית. דוגמאות מתויגות משמשות במהלך האימון.
  • דוגמה ללא תווית מורכבת ממאפיין אחד או יותר, אבל ללא תווית. דוגמאות ללא תוויות משמשות במהלך ההסקה.

לדוגמה, נניח שאתם מארגנים אימון של מודל כדי לקבוע את ההשפעה של תנאי מזג האוויר על הציונים של התלמידים בבחינות. לפניכם שלוש דוגמאות עם תוויות:

תכונות תווית
טמפרטורה לחות לחץ ציון הבדיקה
15 47 998 טוב
19 34 1020 מצוינת
18 92 1012 גרועה

לפניכם שלוש דוגמאות ללא תוויות:

טמפרטורה לחות לחץ  
12 62 1014  
21 47 1017  
19 41 1021  

השורה של מערך נתונים היא בדרך כלל המקור הגולמי לדוגמה. כלומר, דוגמה בדרך כלל מורכבת מקבוצת משנה של העמודות במערך הנתונים. בנוסף, המאפיינים בדוגמה יכולים לכלול גם מאפיינים סינתטיים, כמו מעבר בין מאפיינים.

למידע נוסף, אפשר לעיין בקטע למידה בפיקוח בקורס 'מבוא ללמידת מכונה'.

הפעלה מחדש של חוויית המשתמש

#rl

בלמידת חיזוקים, טכניקה של DQN שמשמשת לצמצום הקורלציות הזמניות בנתוני האימון. הסוכן שומר את מעברי המצב במאגר נתונים להפעלה חוזרת, ואז מדגם את המעברים מהמאגר כדי ליצור נתוני אימון.

הטיית הנסיין

#fairness

ראו הטיית אישור.

בעיית 'התפרצות שיפוע'

#seq

הנטייה של שיפועים ברשתות נוירונים עמוקות (במיוחד ברשתות נוירונים חוזרות) להיות תלולים (גבוהים) באופן מפתיע. לרוב, שיפועים תלולים גורמים לעדכונים גדולים מאוד במשקלים של כל צומת ברשת נוירונים עמוקה.

קשה או בלתי אפשרי לאמן מודלים שסובלים מבעיית הגרדינט המתפוצץ. אפשר לצמצם את הבעיה באמצעות חיתוך של גרדינט.

בהשוואה לבעיה של שיפוע נעלם.

F

F1

מדד 'צביר' של סיווג בינארי שמבוסס גם על דיוק וגם על החזר. זו הנוסחה:

$$F{_1} = \frac{\text{2 * precision * recall}} {\text{precision + recall}}$$

עובדתיות

#generativeAI

בעולם למידת המכונה, מאפיין שמתאר מודל שהפלט שלו מבוסס על המציאות. 'עובדתיות' הוא מושג ולא מדד. לדוגמה, נניח ששולחים את הפרומפט הבא למודל שפה גדול:

מהי הנוסחה הכימית של מלח שולחן?

מודל שמבצע אופטימיזציה של עובדות יגיב:

NaCl

קל להניח שכל המודלים צריכים להתבסס על עובדות. עם זאת, הנחיות מסוימות, כמו ההנחיה הבאה, אמורות לגרום למודל AI גנרטיבי לבצע אופטימיזציה של היצירתיות ולא של העובדות.

אשמח לשמוע חרוז על אסטרונאוט ועל זחל.

סביר להניח שהשיר שייווצר לא יהיה מבוסס על המציאות.

בניגוד ליצירת קשר עם הקרקע.

אילוץ הוגנות

#fairness
החלת אילוץ על אלגוריתם כדי לוודא שנענים להגדרה אחת או יותר של הוגנות. דוגמאות למגבלות של הוגנות:

מדד הוגנות

#fairness

הגדרה מתמטית של 'הוגנות' שניתנת למדידה. דוגמאות למדדי הוגנות נפוצים:

הרבה מדדי הוגנות הם בלתי ניתנים להפרדה. אפשר לקרוא מידע נוסף במאמר חוסר תאימות של מדדי הוגנות.

תוצאה שלילית שגויה (FN)

#fundamentals

דוגמה שבה המודל חוזה בטעות את המחלקה השלילית. לדוגמה, המודל צופה שהודעת אימייל מסוימת לא היא ספאם (הקבוצה השלילית), אבל ההודעה הזו באמת ספאם.

שיעור תוצאות שליליות שגויות

היחס בין הדוגמאות החיוביות בפועל שהמודל ניבא בטעות את הכיתה השלילית. הנוסחה הבאה מחשבת את שיעור השליפות השגויות של בקשות תמיכה:

$$\text{false negative rate} = \frac{\text{false negatives}}{\text{false negatives} + \text{true positives}}$$

מידע נוסף זמין בקטע סף וערכי מטריצת הבלבול בקורס המקוצר בנושא למידת מכונה.

תוצאה חיובית שגויה (FP)

#fundamentals

דוגמה שבה המודל חוזה בטעות את המחלקה החיובית. לדוגמה, המודל חוזה שהודעת אימייל מסוימת היא ספאם (הקלאס החיובי), אבל הודעת האימייל הזו בפועל לא ספאם.

מידע נוסף זמין בקטע סף וערכי מטריצת הבלבול בקורס המקוצר בנושא למידת מכונה.

שיעור תוצאות חיוביות שגויות (FPR)

#fundamentals

היחס בין דוגמאות שליליות בפועל שהמודל ניבא בטעות את הכיתה החיובית. הנוסחה הבאה מחשבת את שיעור התוצאות החיוביות השגויות:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

שיעור החיובים השקריים הוא ציר ה-x בעקומת ROC.

למידע נוסף, ראו סיווג: ROC ו-AUC בקורס המקוצר בנושא למידת מכונה.

מאפיין

#fundamentals

משתנה קלט של מודל למידת מכונה. דוגמה מורכבת מתכונה אחת או יותר. לדוגמה, נניח שאתם מארגנים אימון של מודל כדי לקבוע את ההשפעה של תנאי מזג האוויר על ציוני התלמידים במבחנים. בטבלה הבאה מוצגות שלוש דוגמאות, כל אחת מהן מכילה שלושה מאפיינים ותווית אחת:

תכונות תווית
טמפרטורה לחות לחץ ציון הבדיקה
15 47 998 92
19 34 1020 84
18 92 1012 87

בניגוד לתווית.

מידע נוסף זמין בקטע למידה בפיקוח בקורס 'מבוא ללמידת מכונה'.

תכונה חוצת

#fundamentals

תכונה סינתטית שנוצרת על ידי 'מיזוג' של תכונות קטגוריות או תכונות בקטגוריות.

לדוגמה, נניח שיש מודל 'חיזוי מצב רוח' שמייצג את הטמפרטורה באחת מארבעת הקטגוריות הבאות:

  • freezing
  • chilly
  • temperate
  • warm

והוא מייצג את מהירות הרוח באחד משלושת הקטגוריות הבאות:

  • still
  • light
  • windy

ללא צירופי תכונות, המערכת מאומנת בנפרד על כל אחד משבעת הקטגוריות השונות שלמעלה. כך, המודל מתאמן על freezing, למשל, בנפרד מהאימון על windy, למשל.

לחלופין, אפשר ליצור שילוב של תכונות של טמפרטורה ומהירות רוח. למאפיין הסינתטי הזה יהיו 12 הערכים האפשריים הבאים:

  • freezing-still
  • freezing-light
  • freezing-windy
  • chilly-still
  • chilly-light
  • chilly-windy
  • temperate-still
  • temperate-light
  • temperate-windy
  • warm-still
  • warm-light
  • warm-windy

בעזרת צירופי תכונות, המודל יכול ללמוד את ההבדלים במצב הרוח בין יום freezing-windy לבין יום freezing-still.

אם יוצרים מאפיין סינתטי משני מאפיינים שיש לכל אחד מהם הרבה קטגוריות שונות, למאפיין המצטלב שייווצר יהיו מספר עצום של שילובים אפשריים. לדוגמה, אם למאפיין אחד יש 1,000 קטגוריות ולמאפיין השני יש 2,000 קטגוריות, למאפיין המצטבר יהיו 2,000,000 קטגוריות.

באופן רשמי, צלב הוא מכפלה קרטוזיאנית.

בדרך כלל משתמשים במאפיינים משולבים עם מודלים לינאריים, ולעיתים רחוקות משתמשים בהם עם רשתות עצביות.

מידע נוסף זמין בקטע נתונים קטגוריאליים: צירופי מאפיינים בקורס המקוצר על למידת מכונה.

הנדסת פיצ'רים (feature engineering)

#fundamentals
#TensorFlow

תהליך שכולל את השלבים הבאים:

  1. לקבוע אילו תכונות עשויות להיות שימושיות באימון מודל.
  2. המרת נתונים גולמיים ממערך הנתונים לגרסאות יעילות של התכונות האלה.

לדוגמה, יכול להיות שתבחרו להשתמש בתכונה temperature. לאחר מכן, תוכלו להתנסות בחלוקה לקטגוריות כדי לבצע אופטימיזציה של מה שהמודל יכול ללמוד מטווחים שונים של temperature.

לפעמים ההנדסה של המאפיינים נקראת חילוץ מאפיינים או יצירת מאפיינים.

למידע נוסף, אפשר לעיין בקטע נתונים מספריים: איך מודל מטמיע נתונים באמצעות וקטורים של מאפיינים במדריך למתחילים בנושא למידת מכונה.

חילוץ מאפיינים

מונח בעל עומס יתר עם אחת מההגדרות הבאות:

מדדי החשיבות של המאפיינים

#df

שם נרדף לחשיבות המשתנים.

קבוצת תכונות

#fundamentals

הקבוצה של המאפיינים שבהם מתבצע אימון של המודל של למידת המכונה. לדוגמה, קבוצת מאפיינים פשוטה של מודל לחיזוי מחירי דיור עשויה לכלול את המיקוד, גודל הנכס ומצב הנכס.

מפרט של תכונה

#TensorFlow

תיאור המידע הנדרש כדי לחלץ נתוני מאפיינים ממאגר הפרוטוקול tf.Example. מאחר שמאגר הפרוטוקול tf.Example הוא רק מאגר לנתונים, צריך לציין את הפרטים הבאים:

  • הנתונים לחילוץ (כלומר, המפתחות של התכונות)
  • סוג הנתונים (לדוגמה, float או int)
  • האורך (קבוע או משתנה)

וקטור מאפיינים

#fundamentals

המערך של ערכי feature שמרכיבים דוגמה. הווקטור המאפיין מוזן במהלך האימון ובמהלך ההסקה. לדוגמה, וקטור המאפיינים של מודל עם שני מאפיינים נפרדים יכול להיות:

[0.92, 0.56]

ארבע שכבות: שכבת קלט, שתי שכבות סמויות ושכבת פלט אחת.
          שכבת הקלט מכילה שני צמתים, אחד מכיל את הערך
          0.92 והשני מכיל את הערך 0.56.

כל דוגמה מספקת ערכים שונים לוקטור המאפיינים, כך שוקטור המאפיינים לדוגמה הבאה יכול להיות משהו כזה:

[0.73, 0.49]

הנדסת מאפיינים קובעת איך לייצג את המאפיינים בוקטור המאפיינים. לדוגמה, מאפיין קטגוריאלי בינארי עם חמישה ערכים אפשריים יכול להיות מיוצג באמצעות קידוד one-hot. במקרה כזה, החלק של וקטור המאפיינים לדוגמה מסוימת יהיה מורכב מארבעה אפסים ומערך 1.0 יחיד במיקום השלישי, באופן הבא:

[0.0, 0.0, 1.0, 0.0, 0.0]

דוגמה נוספת: נניח שהמודל מורכב משלושה מאפיינים:

  • מאפיין קטגוריאלי בינארי עם חמישה ערכים אפשריים שמיוצגים באמצעות קידוד one-hot. לדוגמה: [0.0, 1.0, 0.0, 0.0, 0.0]
  • מאפיין קטגורי בינארי נוסף עם שלושה ערכים אפשריים שמיוצגים באמצעות קידוד one-hot. לדוגמה: [0.0, 0.0, 1.0]
  • מאפיין של נקודה צפה (floating-point), לדוגמה: 8.3.

במקרה כזה, וקטור המאפיינים של כל דוגמה יהיה מיוצג על ידי תשעה ערכים. בהתאם לערכים לדוגמה ברשימה הקודמת, וקטור המאפיינים יהיה:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

למידע נוסף, אפשר לעיין בקטע נתונים מספריים: איך מודל מטמיע נתונים באמצעות וקטורים של מאפיינים במדריך למתחילים בנושא למידת מכונה.

יצירת מאפיינים

תהליך החילוץ של מאפיינים ממקור קלט, כמו מסמך או סרטון, ומיפוי המאפיינים האלה לוקטור מאפיינים.

מומחים מסוימים ב-ML משתמשים ב-featurization כמילה נרדפת להנדסת פיצ'רים או לחילוץ פיצ'רים.

למידה משותפת (Federated)

גישה מבוזרת ללמידת מכונה שמאפשרת לאמן מודלים של למידת מכונה באמצעות דוגמאות מבוזרות שנמצאות במכשירים כמו סמארטפונים. בלמידה משותפת, קבוצת משנה של מכשירים מורידים את המודל הנוכחי משרת תיאום מרכזי. המכשירים משתמשים בדוגמאות ששמורות במכשירים כדי לשפר את המודל. לאחר מכן, המכשירים מעלים את השיפורים במודל (אבל לא את דוגמאות האימון) לשרת התיאום, שבו הם נצברים עם עדכונים אחרים כדי ליצור מודל גלובלי משופר. אחרי הצבירה, לא צריך יותר את עדכוני המודל שחושבו על ידי המכשירים, וניתן להשליך אותם.

מאחר שדוגמאות האימון אף פעם לא מועלות, למידה משותפת (Federated) פועלת בהתאם לעקרונות הפרטיות של איסוף נתונים ממוקד והגבלה על איסוף נתונים.

פרטים נוספים זמינים בקומיקס על למידה משותפת (כן, קומיקס).

לולאת משוב

#fundamentals

בלמידת מכונה, מצב שבו התחזיות של מודל משפיעות על נתוני האימון של אותו מודל או של מודל אחר. לדוגמה, מודל שממליץ על סרטים ישפיע על הסרטים שאנשים רואים, והם ישפיעו על מודלים עתידיים של המלצות לסרטים.

מידע נוסף זמין בקטע מערכות למידת מכונה בסביבת ייצור: שאלות שכדאי לשאול במדריך למתחילים בנושא למידת מכונה.

רשת נוירונים עם זרימה קדימה (FFN)

רשת נוירונים ללא חיבורים מחזוריים או רפלקסיביים. לדוגמה, רשתות נוירונים עמוקות מסורתיות הן רשתות נוירונים מסוג זרימה קדימה. בניגוד לרשתות נוירונים חוזרות, שהן מחזוריות.

למידה עם כמה דוגמאות

גישה של למידת מכונה, שמשמשת לרוב לסיווג אובייקטים, שנועדה לאמן סיווגים אפקטיביים על סמך מספר קטן בלבד של דוגמאות אימון.

אפשר גם לעיין במאמרים בנושא למידה מאירוע אחד ולמידה מאירוע אפס.

הנחיה עם כמה דוגמאות (Few-shot)

#language
#generativeAI

הנחיה שמכילה יותר מדוגמה אחת ('כמה' דוגמאות) שממחישות איך מודל השפה הגדול צריך להשיב. לדוגמה, ההנחיה הארוכה הבאה מכילה שתי דוגמאות שמראות למודל שפה גדול איך לענות על שאילתה.

חלקים של הנחיה אחת הערות
מהו המטבע הרשמי של המדינה שצוינה? השאלה שעליה רוצים שה-LLM יענה.
צרפת: EUR דוגמה אחת.
בריטניה: GBP דוגמה נוספת.
הודו: השאילתה בפועל.

בדרך כלל, תוצאות של פרומפטים למשפטים קצרים הן טובות יותר מפרומפטים ללא דוגמאות ומפרומפטים למשפט אחד. עם זאת, כדי להשתמש בהנחיות עם כמה דוגמאות צריך להשתמש בהנחיה ארוכה יותר.

הנחיה עם כמה דוגמאות (Few-shot) היא סוג של למידה מבוססת-דוגמאות שמופעלת בלמידה מבוססת-הנחיה.

מידע נוסף זמין בקטע הנדסת הנחיות בקורס המקוצר על למידת מכונה.

Fiddle

#language

ספריית הגדרות מבוססת-Python שמגדירה את הערכים של פונקציות וכיתות בלי קוד או תשתית פולשניים. במקרה של Pax – ושל מקודדי למידת מכונה אחרים – הפונקציות והכיתות האלה מייצגות מודלים ופרמטרים היפר-מרחביים של אימון.

Fiddle מתייחס לקוד של למידת מכונה כאל קוד שמחולק בדרך כלל לקטעים הבאים:

  • קוד הספרייה שמגדיר את השכבות ואת האופטימיזציות.
  • קוד 'דבק' של מערך נתונים, שמפעיל את הספריות ומחבר את הכול.

Fiddle מתעד את מבנה הקריאה של קוד הדבקה בצורה שלא נבדקה וניתנת לשינוי.

כוונון עדין

#language
#image
#generativeAI

סבב אימון שני ספציפי למשימה, שמתבצע במודל שעבר אימון מראש כדי לשפר את הפרמטרים שלו לצורך תרחיש לדוגמה ספציפי. לדוגמה, רצף האימון המלא של חלק ממודלים גדולים של שפה הוא:

  1. אימון מראש: אימון מודל גדול של שפה על מערך נתונים כללי עצום, כמו כל הדפים של ויקיפדיה באנגלית.
  2. התאמה אישית: אימון המודל שעבר אימון מראש לביצוע משימה ספציפית, כמו מענה לשאילתות רפואיות. תהליך השיפור בדרך כלל כולל מאות או אלפי דוגמאות שמתמקדות במשימה הספציפית.

דוגמה נוספת: רצף האימון המלא של מודל תמונה גדול הוא:

  1. אימון מראש: אימון מודל תמונות גדול על קבוצת נתונים כללית גדולה של תמונות, כמו כל התמונות ב-Wikimedia Commons.
  2. התאמה אישית: אימון המודל שעבר אימון מראש לביצוע משימה ספציפית, כמו יצירת תמונות של אורקות.

השיפור יכול לכלול כל שילוב של השיטות הבאות:

  • שינוי כל הפרמטרים הקיימים של המודל שעבר אימון מראש. התהליך הזה נקרא לפעמים כוונון מדויק מלא.
  • שינוי של חלק מהפרמטרים הקיימים של המודל המאומן מראש (בדרך כלל השכבות הקרובות ביותר לשכבת הפלט), תוך שמירה על הפרמטרים הקיימים האחרים ללא שינוי (בדרך כלל השכבות הקרובות ביותר לשכבת הקלט). למידע נוסף, ראו כוונון יעיל בפרמטרים.
  • הוספת שכבות נוספות, בדרך כלל מעל השכבות הקיימות הקרובות ביותר לשכבת הפלט.

כוונון מדויק הוא סוג של למידת העברה. לכן, יכול להיות שבתהליך השיפור המדויק נעשה שימוש בפונקציית אובדן או בסוג מודל שונים מאלה שבהם נעשה שימוש לאימון המודל המאומן מראש. לדוגמה, אפשר לשפר מודל תמונה גדול שעבר אימון מראש כדי ליצור מודל רגרסיה שמחזיר את מספר הציפורים בתמונה קלט.

השוואה וניגוד בין כוונון מדויק לבין המונחים הבאים:

מידע נוסף זמין בקטע התאמה אישית במאמר קורס מקוצר על למידת מכונה.

פשתן

#language

ספרייה בקוד פתוח עם ביצועים גבוהים ללמידת עומק, שמבוססת על JAX. Flax מספק פונקציות לאימון של רשתות נוירונליות, וגם שיטות להערכת הביצועים שלהן.

Flaxformer

#language

ספריית Transformer בקוד פתוח, שמבוססת על Flax. היא מיועדת בעיקר לעיבוד שפה טבעית ולמחקר רב-מודלי.

שער 'שכחה'

#seq

החלק בתא של זיכרון לטווח ארוך-קצר שמווסת את זרימת המידע דרך התא. שערי השכחה שומרים על ההקשר על ידי החלטה איזה מידע לזרוק מהמצב של התא.

חלוקת ההצלחות

#generativeAI

מדד להערכת הטקסט שנוצר של מודל למידת מכונה. החלק של ההצלחות הוא מספר הפלט של הטקסט שנוצר 'בהצלחה' חלקי המספר הכולל של הפלט של הטקסט שנוצר. לדוגמה, אם מודל שפה גדול יצר 10 בלוקים של קוד, מתוכם 5 בוצעו בהצלחה, החלק של ההצלחות יהיה 50%.

אמנם היחס בין מספר ההצלחות למספר הניסיונות שימושי באופן כללי בתחום הסטטיסטיקה, אבל ב-ML המדד הזה שימושי בעיקר למדידת משימות שניתן לאמת, כמו יצירת קוד או בעיות מתמטיות.

full softmax

מילה נרדפת ל-softmax.

בניגוד לדגימת מועמדים.

מידע נוסף זמין בקטע רשתות עצביות: סיווג של כמה סיווגים במסגרת קורס ה-Crash Course בנושא למידת מכונה.

שכבה מקושרת במלואה

שכבה מוסתרת שבה כל צומת מחובר לכל הצמתים בשכבה המוסתרת הבאה.

שכבה עם קישורים מלאים נקראת גם שכבה צפופה.

טרנספורמציה של פונקציה

פונקציה שמקבלת פונקציה כקלט ומחזירה פונקציה שעברה טרנספורמציה בתור פלט. ב-JAX נעשה שימוש בטרנספורמציות של פונקציות.

G

GAN

קיצור של רשת למידה חישובית גנרטיבית (GAN).

Gemini

#language
#image
#generativeAI

הסביבה העסקית שמכילה את ה-AI המתקדם ביותר של Google. רכיבים במערכת האקולוגית הזו כוללים:

מודלים של Gemini

#language
#image
#generativeAI

מודלים מולטימודאליים מבוססי Transformer מתקדמים של Google. המודלים של Gemini תוכננו במיוחד לשילוב עם סוכנים.

המשתמשים יכולים לקיים אינטראקציה עם המודלים של Gemini במגוון דרכים, כולל באמצעות ממשק אינטראקטיבי של תיבת דו-שיח ו-SDK.

הכללה

#fundamentals

היכולת של המודל לבצע חיזויים מדויקים לגבי נתונים חדשים שלא נראו בעבר. מודל שיכול לבצע הכללה הוא ההפך ממודל שמוגדר לפי נתונים ספציפיים מדי.

למידע נוסף, אפשר לקרוא את הקטע הכללה בקורס המקוצר על למידת מכונה.

עקומת הכללה

#fundamentals

תרשים של אובדן האימון ושל אובדן האימות כפונקציה של מספר החזרות.

עקומת הכללה יכולה לעזור לכם לזהות התאמה יתר. לדוגמה, עקומת הגנרליזציה הבאה מצביעה על התאמה יתר, כי אובדן האימות הופך בסופו של דבר גבוה בהרבה מאובדן האימון.

תרשים קרטוזי שבו ציר ה-Y מסומן בתווית &#39;אובדן&#39; וציר ה-X מסומן בתווית &#39;חזרות&#39;. יופיעו שני תרשימים. בתרשים אחד מוצג אובדן האימון ובתרשים השני מוצג אובדן האימות.
          שתי התרשימים מתחילים באופן דומה, אבל אובדן הלמידה יורד בסופו של דבר הרבה מתחת לאובדן האימות.

למידע נוסף, אפשר לקרוא את הקטע הכללה בקורס המקוצר על למידת מכונה.

מודל לינארי גנרי

הכללה של מודלים של רגרסיה לינארית רגילה, שמבוססים על רעש גאוסיאני, לסוגי מודלים אחרים שמבוססים על סוגי רעש אחרים, כמו רעש פואסון או רעש קטגורי. דוגמאות למודלים לינאריים מוכללים:

אפשר למצוא את הפרמטרים של מודל לינארי כללי באמצעות אופטימיזציה קונסווקסית.

למודלים לינאריים כלליים יש את המאפיינים הבאים:

  • התחזית הממוצעת של מודל הרגרסיה האופטימלי של הריבועים הקטנים ביותר שווה לתווית הממוצעת בנתוני האימון.
  • ההסתברות הממוצעת שחזתה רגרסיה לוגיסטית אופטימלית שווה לתווית הממוצעת בנתוני האימון.

עוצמת המודל הליניארי הכללי מוגבלת על ידי המאפיינים שלו. בניגוד למודל עמוק, מודל לינארי גנרטיבי לא יכול "ללמוד מאפיינים חדשים".

טקסט שנוצר

#language
#generativeAI

באופן כללי, הטקסט שמופק על ידי מודל למידת מכונה. כשבודקים מודלים גדולים של שפה, חלק מהמדדים משווים בין הטקסט שנוצר לבין טקסט עזר. לדוגמה, נניח שאתם מנסים לקבוע את מידת היעילות של מודל למידת מכונה בתרגום מצרפתית להולנדית. במקרה זה:

  • הטקסט שנוצר הוא התרגום ההולנדי שמופק על ידי מודל ה-ML.
  • טקסט העזר הוא התרגום ההולנדי שנוצר על ידי מתרגם אנושי (או תוכנה).

חשוב לזכור שחלק משיטות ההערכה לא כוללות טקסט עזר.

רשת למידה חישובית גנרטיבית (GAN)

מערכת ליצירת נתונים חדשים שבה גנרטור יוצר נתונים ומאפיין מבדיל קובע אם הנתונים שנוצרו תקינים או לא תקינים.

מידע נוסף זמין בקורס בנושא רשתות למידה חישובית גנרטיבית (GAN).

בינה מלאכותית גנרטיבית

#language
#image
#generativeAI

תחום מתפתח של טרנספורמציה ללא הגדרה רשמית. עם זאת, רוב המומחים מסכימים שמודלים של AI גנרטיבי יכולים ליצור ('לגנרט'] תוכן שעומד בכל הקריטריונים הבאים:

  • מורכב
  • עקבי
  • מקורית

לדוגמה, מודל של AI גנרטיבי יכול ליצור תמונות או מאמרים מתוחכמים.

גם טכנולוגיות קודמות מסוימות, כולל LSTM ו-RNN, יכולות ליצור תוכן מקורי ועקבי. יש מומחים שמתייחסים לטכנולוגיות הקודמות האלה כאל AI גנרטיבי, ויש מומחים אחרים שחושבים ש-AI גנרטיבי אמיתי דורש תוצרים מורכבים יותר ממה שאפשר ליצור באמצעות הטכנולוגיות הקודמות האלה.

בניגוד ללמידת מכונה חזוי.

מודל גנרטיבי

באופן מעשי, מודל שמבצע אחת מהפעולות הבאות:

  • יצירת (יצירת) דוגמאות חדשות ממערך הנתונים של האימון. לדוגמה, מודל גנרטיבי יכול ליצור שירה אחרי אימון על מערך נתונים של שירים. החלק של הגנרטור ברשת למידה חישובית גנרטיבית (GAN) נכלל בקטגוריה הזו.
  • קובעת את ההסתברות שדוגמה חדשה מגיעה מקבוצת האימון, או נוצרה מאותו מנגנון שיצר את קבוצת האימון. לדוגמה, אחרי אימון על מערך נתונים שמכיל משפטים באנגלית, מודל גנרטיבי יכול לקבוע את ההסתברות שהקלט החדש הוא משפט תקין באנגלית.

באופן תיאורטי, מודל גנרטיבי יכול לזהות את ההתפלגות של דוגמאות או תכונות ספציפיות במערך נתונים. כלומר:

p(examples)

מודלים של למידה בלתי מונחית הם גנרטיביים.

בניגוד למודלים דיסקרימינטיביים.

מחולל

מערכת המשנה ברשת גנרטיבית מתחרה שיוצרת דוגמאות חדשות.

בניגוד למודל דיסקרימינטיבי.

זיהום של Gini

#df

מדד דומה ל-אנטרופי. מחליקים משתמשים בערכים שמקורם בזיהום של Gini או באנטרופי כדי ליצור תנאים לסיווג של עצים של החלטות. רווח המידע נגזר מהאנטרופיה. אין מונח מקביל מקובל באופן אוניברסלי למדד שמתקבל מ-gini impurity. עם זאת, המדד הזה ללא שם חשוב באותה מידה כמו הרווח המידעי.

אי-הטהרה של Gini נקראת גם מדד Gini או פשוט Gini.

מערך נתונים מוביל

קבוצת נתונים שנאספו באופן ידני ומשקפים את המציאות. צוותים יכולים להשתמש במערך נתונים מוסמך אחד או יותר כדי להעריך את איכות המודל.

חלק ממערכי הנתונים המוזהבים מתעדים תת-דומיינים שונים של עובדות מוגמרות. לדוגמה, מערך נתונים מוביל לסיווג תמונות עשוי לכלול תנאי תאורה ורזולוציית תמונה.

תגובה מוזהבת

#language
#generativeAI

תשובה ידועה כטובה. לדוגמה, בהתאם להנחיה הבאה:

2 + 2

התשובה המושלמת היא:

4

GPT (Generative Pre-trained Transformer)

#language

משפחה של מודלים גדולים של שפה שמבוססים על טרנספורמרים, שפותחו על ידי OpenAI.

אפשר להחיל וריאנטים של GPT על כמה מודלים, כולל:

  • יצירת תמונות (לדוגמה, ImageGPT)
  • יצירת תמונות מטקסט (לדוגמה, DALL-E).

שינוי הדרגתי של צבעים

הווקטור של הנגזרות הפרטיות ביחס לכל המשתנים העצמאיים. בלמידת מכונה, השיפוע הוא הווקטור של הנגזרות החלקיות של פונקציית המודל. שיפוע המדרון מצביע לכיוון העלייה התלולה ביותר.

צבירת שיפועים

טכניקה של backpropagation שמעדכנת את הפרמטרים רק פעם אחת בכל תקופה של זמן מערכת, ולא פעם אחת בכל חזרה. אחרי עיבוד כל מיני-קבוצה, הצטברות הנגזרות היא פשוט עדכון של הסכום המצטבר של הנגזרות. לאחר מכן, אחרי עיבוד המיני-באצ' האחרון בתקופה, המערכת מעדכנת את הפרמטרים על סמך סך כל השינויים בגרדינט.

הצטברות שיפועים שימושית כשגודל האצווה גדול מאוד בהשוואה לכמות הזיכרון שזמינה לאימון. כשיש בעיה עם הזיכרון, הנטייה הטבעית היא לצמצם את גודל האצווה. עם זאת, צמצום גודל האצווה בהתפשטות לאחור רגילה מגדיל את מספר עדכוני הפרמטרים. הצטברות שיפועים מאפשרת למנוע בעיות זיכרון במודל, ועדיין להתאמן ביעילות.

עצים (החלטות) עם שיפור שיפוע (GBT)

#df

סוג של יער החלטות שבו:

מידע נוסף זמין בקטע Gradient Boosted Decision Trees בקורס Decision Forests.

שיפור הדרגתי

#df

אלגוריתם אימון שבו מודלים חלשים מאומנים כדי לשפר באופן איטרטיבי את האיכות (להפחית את האובדן) של מודל חזק. לדוגמה, מודל חלש יכול להיות מודל לינארי או מודל קטן של עץ החלטות. המודל החזק הופך לסכום של כל המודלים החלשים שאומנו בעבר.

בצורתה הפשוטה ביותר של שיפור שיפוע, בכל איטרציה מודל חלש מאומן לחזות את שיפוע האובדן של המודל החזק. לאחר מכן, הפלט של המודל החזק מתעדכן על ידי חיסור של שיפוע החיזוי, בדומה לירידה בגרדינט.

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

כאשר:

  • $F_{0}$ הוא המודל החזק ההתחלתי.
  • $F_{i+1}$ הוא המודל החזק הבא.
  • $F_{i}$ הוא המודל החזק הנוכחי.
  • הערך $\xi$ הוא ערך בין 0.0 ל-1.0 שנקרא צמצום, שהוא מקביל לשיעור הלמידה בירידה בגרדינט.
  • ‎$f_{i}$ הוא המודל החלש שאומן לחזות את שיפוע האובדן של ‎$F_{i}$.

וריאציות מודרניות של שיפור שיפוע כוללות גם את הנגזרת השנייה (הסיסון) של האובדן בחישוב שלהן.

עצים של החלטות משמשים בדרך כלל כמודלים חלשים בשיפור שיפוע (gradient boosting). למידע נוסף, ראו עצים משופרים (החלטות) של שיפוע.

חיתוך של גרדינט

#seq

מנגנון נפוץ שמוגבל באופן מלאכותי (חיתוך) את הערך המקסימלי של שיפועים כשמשתמשים בירידה בגרדינט כדי לאמן מודל, וכך מפחית את הבעיה של גרדינט מתפוצץ.

ירידה בגרדינט

#fundamentals

טכניקה מתמטית לצמצום הפסד. ירידה בגרדינט מתאימה באופן איטרטיבי את המשקלים ואת ההטיות, ומוצאת בהדרגה את השילוב הטוב ביותר לצמצום האובדן.

ירידה בגרדינט היא שיטה ישנה – הרבה יותר ישנה – מלמידת מכונה.

מידע נוסף זמין בקטע רגרסיה לינארית: ירידה בגרדינט במסגרת קורס ה-Crash Course בנושא למידת מכונה.

תרשים

#TensorFlow

ב-TensorFlow, מפרט חישוב. הצמתים בתרשים מייצגים פעולות. הקצוות הם מונחים ומציגים העברה של התוצאה של פעולה (Tensor) כאופרטנד לפעולה אחרת. שימוש ב-TensorBoard כדי להציג תרשים באופן חזותי.

ביצוע גרף

#TensorFlow

סביבת תכנות של TensorFlow שבה התוכנית יוצרת קודם תרשים ואז מבצעת את כל התרשים או חלק ממנו. ביצוע גרפים הוא מצב הביצוע שמוגדר כברירת מחדל ב-TensorFlow 1.x.

בניגוד לביצוע מיידי.

מדיניות חמדנית

#rl

בלמידת חיזוקים, מדיניות שבה תמיד נבחרת הפעולה עם החזר הצפוי הגבוה ביותר.

נקודת התייחסות

מאפיין של מודל שהפלט שלו מבוסס על חומר מקור ספציפי ('מבוסס על'). לדוגמה, נניח שאתם מספקים ספר פיזיקה שלם כקלט ('הקשר') למודל שפה גדול. לאחר מכן, מפעילים את מודל השפה הגדול הזה עם שאלה בנושא פיזיקה. אם התשובה של המודל משקפת מידע שמופיע בספר הלימוד הזה, המודל מבוסס על ספר הלימוד הזה.

חשוב לזכור שמודל מבוסס לא תמיד הוא מודל עובדתי. לדוגמה, ייתכן שספר הפיזיקה בקלט מכיל שגיאות.

ערכי סף (ground truth)

#fundamentals

מציאות.

מה שקרה בפועל.

לדוגמה, נניח שיש מודל סיווג בינארי שמנבא אם סטודנט בשנה הראשונה שלו באוניברסיטה יסיים את הלימודים תוך שש שנים. האמת בפועל של המודל הזה היא אם התלמיד סיים את הלימודים תוך שש שנים או לא.

הטיית שיוך קבוצתי

#fairness

ההנחה שכל מה שתקף לגבי אדם מסוים תקף גם לכל האנשים בקבוצה הזו. ההשפעות של הטיה בשיוך קבוצתי עלולות להחמיר אם נעשה שימוש בדגימת נוחות לאיסוף נתונים. בדגימה לא מייצגת, ייתכן שייערכו שיוך (Attribution) שלא משקף את המציאות.

כדאי לעיין גם בהטיה של הומוגניות מחוץ לקבוצה ובהטיה של הומוגניות בתוך הקבוצה. למידע נוסף, אפשר לקרוא את המאמר צדק: סוגים של הטיה בקורס המקוצר בנושא למידת מכונה.

H

הזיה

#language

יצירת פלט שנראה סביר אבל העובדות שבו שגויות על ידי מודל של AI גנרטיבי שמתיימר להציג טענה לגבי העולם האמיתי. לדוגמה, מודל AI גנרטיבי שטוען שברק אובמה מת בשנת 1865 הוא מופרע.

גיבוב (hashing)

בלמידת מכונה, מנגנון לחלוקה לקטגוריות של נתונים קטגוריים, במיוחד כשמספר הקטגוריות גדול אבל מספר הקטגוריות שמופיעות בפועל במערך הנתונים קטן יחסית.

לדוגמה, בכדור הארץ יש כ-73,000 מינים של עצים. אפשר לייצג כל אחד מ-73,000 מיני העצים ב-73,000 קטגוריות נפרדות. לחלופין, אם רק 200 מתוך מיני העצים האלה מופיעים במערך נתונים, אפשר להשתמש בגיבוב כדי לחלק את מיני העצים ל-500 קטגוריות.

קטגוריה אחת יכולה להכיל כמה מינים של עצים. לדוגמה, גיבוב יכול להעביר את הבאובב ואת האדר האדום – שני מינים שונים מבחינה גנטית – לאותו קטגוריה. עם זאת, גיבוב עדיין הוא דרך טובה למיפוי של קבוצות קטגוריות גדולות למספר הקטגוריות שנבחר. גיבוב הופך מאפיין קטגורי עם מספר גדול של ערכים אפשריים למספר קטן בהרבה של ערכים, על ידי קיבוץ ערכים באופן דטרמיניסטי.

מידע נוסף זמין בקטע נתונים קטגוריאליים: אוצר מילים וקידוד one-hot במדריך למתחילים בנושא למידת מכונה.

היוריסטי

פתרון פשוט ומיידי לבעיה. לדוגמה: "בעזרת שיטת ניתוח נתונים (heuristic), הגענו לרמת דיוק של 86%. כשעברנו לרשת עצבית עמוקה, רמת הדיוק עלתה ל-98%".

שכבה נסתרת

#fundamentals

שכבה ברשת עצבית בין שכבת הקלט (המאפיינים) לבין שכבת הפלט (החיזוי). כל שכבה מוסתרת מורכבת מנוירון אחד או יותר. לדוגמה, רשת העצבים הבאה מכילה שתי שכבות סמויות, השכבה הראשונה עם שלושה נוירונים והשנייה עם שני נוירונים:

ארבע שכבות. השכבה הראשונה היא שכבת קלט שמכילה שני מאפיינים. השכבה השנייה היא שכבה מוסתרת שמכילה שלושה נוירונים. השכבה השלישית היא שכבה מוסתרת שמכילה שני נוירונים. השכבה הרביעית היא שכבת פלט. כל מאפיין מכיל שלושה קצוות, שכל אחד מהם מפנה לנוירון אחר בשכבה השנייה. כל אחד מהנוירונים בשכבה השנייה מכיל שני קצוות, שכל אחד מהם מצביע על נוירון אחר בשכבה השלישית. כל אחד מהנוירונים בשכבה השלישית מכיל קצוות אחד, שמצביע על שכבת הפלט.

רשת עצבית עמוקה מכילה יותר משכבה אחת מוסתרת. לדוגמה, האיור הקודם הוא רשת נוירונלית עמוקה כי המודל מכיל שתי שכבות חבויות.

מידע נוסף זמין בקטע רשתות נוירונליות: צמתים ושכבות מוסתרות במסגרת קורס ה-Crash Course בנושא למידת מכונה.

קיבוץ היררכי

#clustering

קטגוריה של אלגוריתמים של קיבוץ שיוצרים עץ של אשכולות. קיבוץ היררכי מתאים במיוחד לנתונים היררכיים, כמו קטגוריות בוטניות. יש שני סוגים של אלגוריתמים של אשכולות היררכיים:

  • בקיבוץ אגרגטיבי, קודם כל מקצים כל דוגמה לאשכולות משלה, ולאחר מכן ממזגים באופן איטרטיבי את האשכולות הקרובים ביותר כדי ליצור עץ היררכי.
  • בקיבוץ מפצל, קודם כל מקובצים כל הדוגמאות לאשכול אחד, ולאחר מכן האשכול מחולק באופן איטרטיבי לעץ היררכי.

בניגוד לקיבוץ מבוסס-מרכז.

מידע נוסף זמין בקטע אלגוריתמים של קיבוץ בקורס 'קיבוץ'.

טיפוס גבעות

אלגוריתם לשיפור איטרטיבי ('עלייה במעלה ההר') של מודל למידת מכונה עד שהמודל מפסיק להשתפר ('מגיע לפסגת ההר'). הפורמט הכללי של האלגוריתם הוא:

  1. יוצרים מודל להתחלה.
  2. כדי ליצור מודלים מועמדים חדשים, מבצעים שינויים קלים באופן שבו מאנים או משדרגים את המודלים. יכול להיות שתצטרכו לעבוד עם קבוצת אימון שונה במקצת או עם פרמטרים היפר-מרחביים שונים.
  3. מעריכים את המודלים החדשים המועמדים ומבצעים אחת מהפעולות הבאות:
    • אם מודל מתמודד מניב ביצועים טובים יותר מהמודל ההתחלתי, המודל המתמודד הופך למודל ההתחלתי החדש. במקרה כזה, חוזרים על שלבים 1, 2 ו-3.
    • אם אף מודל לא מניב ביצועים טובים יותר מהמודל ההתחלתי, סימן שהגעתם לפסגה וצריך להפסיק את החזרה על התהליך.

הנחיות לכוונון של היפר-פרמטרים זמינות במאמר Deep Learning Tuning Playbook. במאמרים בנושא נתונים בקורס המקוצר על למידת מכונה מוסבר איך לבצע הנדסת תכונות.

אובדן ציר

משפחה של פונקציות אובדן לסיווג שנועדו למצוא את גבול ההחלטה במרחק הגדול ביותר האפשרי מכל דוגמה לאימון, וכך למקסם את המרווח בין הדוגמאות לגבול. KSVM משתמשים באובדן ציר (או בפונקציה קשורה, כמו אובדן ציר בריבוע). בסיווג בינארי, פונקציית הפסד של ציר ההטיה מוגדרת כך:

$$\text{loss} = \text{max}(0, 1 - (y * y'))$$

כאשר y הוא התווית האמיתית, 1 או -1, ו-y' הוא הפלט הגולמי של מודל הסיווג:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

לכן, התרשים של אובדן הצירים לעומת (y * y') נראה כך:

תרשים קרטוזי מורכב משני קטעי קו שמחוברים. מקטע הקו הראשון מתחיל ב-(-3, 4) ומסתיים ב-(1, 0). הקטע השני של הקו מתחיל ב-(1, 0) וממשיך ללא הגבלת זמן עם שיפוע של 0.

הטיה היסטורית

#fairness

סוג של הטיה שכבר קיימת בעולם ומצאה את דרכה למערך נתונים. ההטיות האלה נוטות לשקף סטריאוטיפים תרבותיים קיימים, אי-שוויון דמוגרפיות ודעות קדומות כלפי קבוצות חברתיות מסוימות.

לדוגמה, נניח שרוצים ליצור מודל סיווג שחוזה אם מגיש בקשה לקבלת הלוואה לא ישלם את ההלוואה. המודל הזה עבר אימון על סמך נתונים היסטוריים של אי-תשלום הלוואות משנות ה-80 מבנקים מקומיים בשתי קהילות שונות. אם בעבר, לבקשות מימון מקהילה א' הייתה פי שישה יותר סבירות להגיע לחדלות פירעון מאשר לבקשות מימון מקהילה ב', יכול להיות שהמודל ילמד הטיה היסטורית וכתוצאה מכך יהיה פחות סיכוי שהמודל יאשר הלוואות מקהילה א', גם אם התנאים ההיסטוריים שהובילו לשיעורי חדלות הפירעון הגבוהים יותר בקהילה הזו כבר לא רלוונטיים.

למידע נוסף, ראו צדק: סוגים של הטיה במדריך למתחילים בנושא למידת מכונה.

נתוני holdout

דוגמאות שלא נעשה בהן שימוש במכוון ('הוצאה משימוש') במהלך האימון. מערך הנתונים לצורך אימות ומערך הנתונים לצורך בדיקה הם דוגמאות לנתונים לצורך החזקה בצד. נתוני Holdout עוזרים להעריך את היכולת של המודל להכליל נתונים שונים מהנתונים שבהם הוא אומן. האובדן בקבוצת החזקה (holdout) מספק הערכה טובה יותר של האובדן במערך נתונים שלא נראה, בהשוואה לאובדן בקבוצת האימון.

מארח

#TensorFlow
#GoogleCloud

כשמאמנים מודל למידת מכונה בשבבי מאיץ (GPU או TPU), החלק במערכת ששולט בשני הדברים הבאים:

  • זרימת הקוד הכוללת.
  • החילוץ והטרנספורמציה של צינור הקלט.

המארח פועל בדרך כלל במעבד (CPU), ולא בצ'יפ מואץ. המכשיר מבצע מניפולציות על טנסורים בצ'יפים המואצים.

הערכה אנושית

#language
#generativeAI

תהליך שבו אנשים בודקים את איכות הפלט של מודל למידת מכונה. לדוגמה, אנשים דו-לשוניים בודקים את איכות מודל התרגום של למידת המכונה. הערכה אנושית שימושית במיוחד כשמדובר במודלים שאין להם תשובה נכונה אחת.

בניגוד להערכה אוטומטית ולהערכה על ידי מערכת למתן ציונים אוטומטית.

האדם שבתהליך (HITL)

#generativeAI

ביטוי פתוח שמשתמשים בו במשמעות אחת משתי האפשרויות הבאות:

  • מדיניות של בחינת התוצרים של AI גנרטיבי באופן ביקורתי או ספקני. לדוגמה, בני האדם שכותבים את מילון המונחים של ה-ML מופתעים מהיכולות של מודלים גדולים של שפה, אבל הם מודעים לשגיאות שהם עושים.
  • אסטרטגיה או מערכת שמאפשרות לאנשים לעזור בעיצוב, בהערכה ובשיפור של התנהגות המודל. כשאדם נמצא בתהליך, ה-AI יכול ליהנות גם מאינטליגנציה של מכונה וגם מאינטליגנציה אנושית. לדוגמה, מערכת שבה AI יוצר קוד שמהנדסי תוכנה בודקים לאחר מכן היא מערכת עם מעורבות אנושית.

היפר-פרמטר

#fundamentals

המשתנים שאתם או שירות לכוונון היפר-פרמטריםמשנים במהלך רצפים של אימון מודל. לדוגמה, שיעור הלמידה הוא היפר-פרמטר. אפשר להגדיר את קצב הלמידה ל-0.01 לפני סשן אימון אחד. אם 0.01 גבוה מדי, תוכלו להגדיר את קצב הלמידה ל-0.003 בסשן האימון הבא.

לעומת זאת, פרמטרים הם המשקלים וההטיות השונים שהמודל לומד במהלך האימון.

מידע נוסף זמין בקטע רגרסיה לינארית: היפר-פרמטרים בקורס המקוצר בנושא למידת מכונה.

מישור היפר

גבול שמפריד מרחב לשני מרחבים משניים. לדוגמה, קו הוא היפר-מישור בשני ממדים, ומישור הוא היפר-מישור בשלושה ממדים. בדרך כלל, בלמידת מכונה, מישור היפר הוא הגבול שמפריד בין מרחב בעל מספר רב של מאפיינים. מכונות וקטור תמיכה של ליבה משתמשות במישורים היפרפיזיים כדי להפריד בין כיתות חיוביות לכיתות שליליות, לרוב במרחב בעל מימדים גבוהים מאוד.

I

i.i.d.

קיצור של independently and identically distributed.

זיהוי תמונות, זיהוי תמונה

#image

תהליך שמסווג אובייקטים, דפוסים או מושגים בתמונה. זיהוי תמונות נקרא גם סיווג תמונות.

מידע נוסף זמין במאמר ML Practicum: Image Classification.

מידע נוסף זמין בקורס ML Practicum: Image Classification.

מערך נתונים לא מאוזן

שם נרדף ל-קבוצת נתונים עם חוסר איזון בין הכיתות.

הטיה מרומזת

#fairness

יצירת שיוך או הנחה באופן אוטומטי על סמך המודלים והזיכרונות של המוח. דעות קדומות משתמעות יכולות להשפיע על הגורמים הבאים:

  • איך הנתונים נאספים ומסווגים.
  • איך מתכננים ומפתחים מערכות של למידת מכונה.

לדוגמה, כשמפתחים סיווג לזיהוי תמונות חתונה, מהנדס יכול להשתמש בנוכחות של שמלה לבנה בתמונה כתכונה. עם זאת, שמלות לבנות היו נהוגות רק בתקופות מסוימות ובתרבויות מסוימות.

אפשר לעיין גם במאמר בנושא הטיית אישור.

שיוך (imputation)

קיצור של השלמה של ערכים.

אי-תאימות של מדדי הוגנות

#fairness

הרעיון שחלק מהמושגים של הוגנות לא תואמים זה לזה, ואי אפשר לעמוד בהם בו-זמנית. כתוצאה מכך, אין מדד אוניברסלי יחיד למדידה של הוגנות שאפשר להחיל על כל הבעיות של למידת המכונה.

יכול להיות שזה נשמע מייאש, אבל חוסר התאימות של מדדי הצדק לא מעיד על כך שהמאמצים לשמירה על הצדק לא מניבים תוצאות. במקום זאת, מוצע להגדיר את הצדק בהקשר של בעיה נתונה של למידת מכונה, במטרה למנוע נזקים ספציפיים לתרחישים לדוגמה שלה.

במאמר On the (im)possibility of fairness מפורטת יותר הבעיה של אי-התאימות בין מדדי הצדק.

למידה בהקשר

#language
#generativeAI

מונח נרדף להנחיות עם כמה דוגמאות.

נתונים בעלי התפלגות עצמאית זהה (i.i.d)

#fundamentals

נתונים שנשלפים מהתפלגות שלא משתנה, ושכל ערך שנשלף לא תלוי בערכים שנשלפו בעבר. נתונים בלתי תלויים זהים הם הגז האידיאלי של למידת המכונה – מבנה מתמטי שימושי, אבל כמעט אף פעם לא נמצא במדויק בעולם האמיתי. לדוגמה, חלוקת המבקרים בדף אינטרנט עשויה להיות בלתי תלויה בחלון זמן קצר. כלומר, החלוקה לא משתנה במהלך החלון הקצר הזה, ובדרך כלל הביקור של אדם אחד לא תלוי בביקורים של אנשים אחרים. עם זאת, אם תרחיבו את חלון הזמן הזה, יכול להיות שיופיעו הבדלים עונתיים במספר המבקרים בדף האינטרנט.

מידע נוסף זמין במאמר בנושא חוסר סטציונריות.

הוגנות אישית

#fairness

מדד הוגנות שבודק אם אנשים דומים מסווגים באופן דומה. לדוגמה, בית הספר Brobdingnagian Academy עשוי לרצות לשמור על הוגנות אישית על ידי הבטחת הסיכוי שווה של שני תלמידים עם ציונים זהים בבחינות סטנדרטיות להתקבל לבית הספר.

חשוב לזכור שצדק לכל תלמיד או תלמידה תלוי לחלוטין באופן שבו מגדירים את 'הדמיון' (במקרה הזה, ציונים במבחנים), ויש סיכון להוספת בעיות חדשות של צדק אם מדד הדמיון לא כולל מידע חשוב (למשל, רמת הקושי של תוכנית הלימודים של התלמיד או התלמידה).

במאמר 'הגינות באמצעות מודעוּת' מפורטת דיון מעמיק יותר בנושא הוגנות ברמת הפרט.

הסקה

#fundamentals

בלמידת מכונה, תהליך יצירת חיזויים על ידי החלת מודל מאומן על דוגמאות ללא תוויות.

למושג 'הסקה' יש משמעות שונה במעט בסטטיסטיקה. פרטים נוספים זמינים במאמר בנושא הסקת מסקנות סטטיסטיות בוויקיפדיה.

במאמר למידה מונחית בקורס 'מבוא ל-ML' מוסבר מה תפקיד ההסקה במערכת של למידה מונחית.

נתיב הסקה

#df

בעץ החלטות, במהלך הסקת המסקנות, הנתיב של דוגמה מסוימת מתחיל בשורש וממשיך לתנאים אחרים, ומסתיים בעלה. לדוגמה, בעץ ההחלטות הבא, החצים העבים יותר מצביעים על נתיב ההסקה לדוגמה עם ערכי המאפיינים הבאים:

  • x = 7
  • y = 12
  • z = -3

נתיב ההסקה באיור הבא עובר דרך שלושה תנאים לפני שהוא מגיע לעלעל (Zeta).

עץ החלטות שמורכב מארבעה תנאים וחמישה עלים.
          תנאי הבסיס הוא (x > 0). מכיוון שהתשובה היא &#39;כן&#39;, נתיב ההסקה עובר מהשורש לתנאי הבא (y > 0).
          מכיוון שהתשובה היא &#39;כן&#39;, נתיב ההסקה עובר לתנאי הבא (z > 0). מאחר שהתשובה היא &#39;לא&#39;, נתיב ההסקה עובר לצומת הקצה שלו, שהוא העלה (Zeta).

שלושת החיצים העבים מציגים את נתיב ההסקה.

מידע נוסף זמין בקטע עצים של החלטות בקורס 'יערות החלטות'.

רווח מידע

#df

ביערות החלטות, ההפרש בין האנטרופי של צומת לבין הסכום המשוקלל (לפי מספר הדוגמאות) של האנטרופיה של צומתי הצאצאים שלו. האנטרופיה של צומת היא האנטרופיה של הדוגמאות בצומת הזה.

לדוגמה, אלה ערכי האנטרופיה הבאים:

  • האנטרופיה של צומת ההורה = 0.6
  • האנטרופיה של צומת צאצא אחד עם 16 דוגמאות רלוונטיות = 0.2
  • האנטרופיה של צומת צאצא אחר עם 24 דוגמאות רלוונטיות = 0.1

כלומר, 40% מהדוגמאות נמצאות בצומת צאצא אחד ו-60% נמצאות בצומת הצאצא השני. לכן:

  • סכום האנטרופיה המשוקל של צומתי הצאצאים = (0.4 * 0.2) + (0.6 * 0.1) = 0.14

לכן, הרווח המידעי הוא:

  • רווח מידע = אנטרופיה של צומת הורה - סכום אנטרופיה משוקלל של צמתים צאצאים
  • רווח המידע = 0.6 - 0.14 = 0.46

רוב המחלקים מנסים ליצור תנאים שממקסמים את הרווח המידעי.

הטיה לטובת הקבוצה

#fairness

העדפה של הקבוצה שלכם או של המאפיינים שלכם. אם הבוחנים או המבקרים הם חברים, בני משפחה או עמיתים לעבודה של מפתח למידת המכונה, הטיה פנימית בקבוצה עלולה לפסול את בדיקת המוצר או את מערך הנתונים.

הטיה לטובת הקבוצה היא סוג של הטיה של שיוך לקבוצה. אפשר לעיין גם במאמר בנושא הטיה של הומוגניות בקבוצה חיצונית.

למידע נוסף, ראו צדק: סוגי הטיות במדריך למתחילים בנושא למידת מכונה.

מחולל קלט

מנגנון שבו נתונים נטענים ברשת נוירונים.

אפשר לחשוב על גנרטור קלט כרכיב שאחראי על עיבוד נתונים גולמיים לתוך טינסורים, שמתבצעים בהם איטרציות כדי ליצור קבוצות לאימון, להערכה ולהסקה.

שכבת קלט

#fundamentals

השכבה של רשת נוירונים שמכילה את וקטור המאפיינים. כלומר, שכבת הקלט מספקת דוגמאות לאימון או להסקה. לדוגמה, שכבת הקלט ברשת העצבית הבאה מורכבת משתי תכונות:

ארבע שכבות: שכבת קלט, שתי שכבות סמויות ושכבת פלט.

תנאי בקבוצה

#df

בעץ החלטות, תנאי שבודק אם פריט אחד נמצא בקבוצת פריטים. לדוגמה, זהו תנאי בקבוצה:

  house-style in [tudor, colonial, cape]

במהלך ההסקה, אם הערך של המאפיין של סגנון הבית הוא tudor או colonial או cape, התנאי הזה מקבל את הערך 'כן'. אם הערך של המאפיין house-style הוא ערך אחר (לדוגמה, ranch), התנאי הזה מקבל את הערך No.

תנאים בקבוצה בדרך כלל מובילים לעצי החלטות יעילים יותר מאשר תנאים שבוחנים מאפיינים מקודדים ב-one-hot.

מכונה

מילה נרדפת ל-example.

התאמת הוראות

#generativeAI

סוג של כוונון עדין שמשפר את היכולת של מודל AI גנרטיבי לפעול לפי הוראות. כוונון לפי הוראות כולל אימון של מודל על סדרה של הנחיות, בדרך כלל במגוון רחב של משימות. המודל שמתקבל לאחר התאמת ההוראות נוטה ליצור תשובות מועילות להנחיות ללא דוגמאות במגוון משימות.

השוואה וניגוד לבין:

יכולת הפרשנות

#fundamentals

היכולת להסביר או להציג את התובנות של מודל של למידת מכונה במונחים שאנשים יכולים להבין.

לדוגמה, רוב המודלים של רגרסיה לינארית ניתנים לניתוח בקלות רבה. (צריך רק לבדוק את המשקלים המאומנים של כל מאפיין). בנוסף, קל מאוד להבין את יערות ההחלטות. עם זאת, בחלק מהמודלים נדרשת תצוגה חזותית מתוחכמת כדי שאפשר יהיה להבין אותם.

אפשר להשתמש בכלי להסבר על למידת מכונה (LIT) כדי לפרש מודלים של למידת מכונה.

הסכמה בין בודקים

מדד של התדירות שבה בודקים אנושיים מסכימים כשהם מבצעים משימה. אם הדעות של הבודקים חלוקות, יכול להיות שצריך לשפר את הוראות המשימה. המדד הזה נקרא לפעמים גם הסכמה בין כותבי התווית או מהימנות בין בודקים. אפשר לעיין גם בקאפה של כהן, אחד המדדים הפופולריים ביותר למדידת הסכמה בין בודקים.

למידע נוסף, ראו נתונים קטגוריאליים: בעיות נפוצות בקורס המקוצר על למידת מכונה.

חיתוך על איחוד (IoU)

#image

החיתוך של שתי קבוצות חלקי האיחוד שלהן. במשימות של זיהוי תמונות בלמידת מכונה, נעשה שימוש ב-IoU כדי למדוד את הדיוק של תיבת הסימון הצפויה של המודל ביחס לתיבת הסימון של האמת המוחלטת. במקרה כזה, ערך ה-IoU של שתי התיבות הוא היחס בין האזור החופף לאזור הכולל, והוא נע בין 0 (אין חפיפה בין תיבת ה-bounding הצפויה לתיבת ה-bounding של עובדות הקרקע) ל-1 (תיבת ה-bounding הצפויה ותיבת ה-bounding של עובדות הקרקע כוללות את אותן קואורדינטות בדיוק).

לדוגמה, בתמונה הבאה:

  • הקו המודגש בצבע סגול מסמן את תיבת הגבול הצפויה (הקואורדינטות שמגדירות את המיקום שבו המודל צופה שהשולחן ליד המיטה נמצא בציור).
  • תיבת הגבול של האמת (הקואורדינטות שמגדירות את המיקום בפועל של שולחן הלילה בציור) מסומנת בקו ירוק.

הציור של ואן גוך &#39;חדר השינה של וינסנט בארל&#39;, עם שני תיבות מסגרת שונות סביב שולחן הלילה ליד המיטה. תיבת הגבול של האמת (בירוק) מקיף בצורה מושלמת את שולחן הלילה. תיבת הגבול הצפויה (בארגמן) מוסטת ב-50% למטה ולימין של תיבת הגבול של נתוני האמת. היא כוללת את הרבע השמאלי התחתון של שולחן הלילה, אבל לא את שאר הטבלה.

כאן, החיתוך של תיבות הסף לחיזוי ולעובדות (בפינה הימנית התחתונה) הוא 1, והאיחוד של תיבות הסף לחיזוי ולעובדות (בפינה הימנית התחתונה) הוא 7, כך ש-IoU הוא \(\frac{1}{7}\).

אותה תמונה כמו למעלה, אבל כל תיבת גבול מחולקת לארבעה רבעים. יש בסך הכול שבעה רבעונים, כי הרבעון הימני התחתון של תיבת ה-bounding של עובדות הקרקע והרבעון הימני העליון של תיבת ה-bounding הצפויה חופפים זה לזה. הקטע החופף הזה (מודגש בירוק) מייצג את הצומת, ושטחו הוא 1. אותה תמונה כמו למעלה, אבל כל תיבת גבול מחולקת לארבעה רבעונים. יש בסך הכול שבעה רבעונים, כי הרבעון הימני התחתון של תיבת ה-bounding של עובדות הקרקע והרבעון הימני העליון של תיבת ה-bounding הצפויה חופפים זה לזה.
          כל השטח הפנימי שמוקף בשני תיבות הסימון (מודגש בירוק) מייצג את האיחוד, ושטחו הוא 7.

IoU

קיצור של intersection over union.

מטריצת פריטים

#recsystems

במערכות המלצות, מטריצת ווקטורים של הטמעה שנוצרה על ידי פירוק מטריצות שמכילה אותות סמויים לגבי כל פריט. כל שורה במטריצה של הפריטים מכילה את הערך של מאפיין סמוי אחד לכל הפריטים. לדוגמה, ניקח מערכת המלצות לסרטים. כל עמודה במטריצה של הפריטים מייצגת סרט אחד. האותות הלא גלויים יכולים לייצג ז'אנרים, או אותות שקשה יותר לפרש שכוללים אינטראקציות מורכבות בין ז'אנר, שחקנים, גיל הסרט או גורמים אחרים.

למטריצה של הפריטים יש את אותו מספר עמודות כמו למטריצה היעד שמתבצעת בה גורמיזציה. לדוגמה, אם יש מערכת הממליצה על סרטים ומעריכה 10,000 שמות של סרטים, למטריצה של הפריטים יהיו 10,000 עמודות.

פריטים

#recsystems

במערכת המלצות, הישויות שהמערכת ממליצה עליהן. לדוגמה, סרטונים הם הפריטים שחנויות וידאו ממליצות עליהם, בעוד שספרים הם הפריטים שחנויות ספרים ממליצות עליהם.

איטרציה

#fundamentals

עדכון יחיד של הפרמטרים של המודלהמשקולות וההטיות של המודל – במהלך האימון. גודל האצווה קובע כמה דוגמאות המודל מעבד בחזרה אחת. לדוגמה, אם גודל האצווה הוא 20, המערכת מעבדת 20 דוגמאות לפני שהיא משייכת את הפרמטרים.

כשמאמנים רשת נוירונים, חזרה אחת כוללת את שני השלבים הבאים:

  1. העברה קדימה (forward pass) כדי להעריך את האובדן בקבוצה אחת.
  2. העברה לאחור (backpropagation) כדי לשנות את הפרמטרים של המודל על סמך האובדן וקצב הלמידה.

מידע נוסף זמין בקטע ירידה בגרדינט בקורס המקוצר על למידת מכונה.

J

JAX

ספריית מחשוב מערך, שמשלבת בין XLA (אלגברה לינארית מואצת) לבין חישוב דיפרנציאלי אוטומטי למחשוב מספרי עתיר ביצועים. JAX מספק ממשק API פשוט וחזק לכתיבה של קוד מספרי מואץ באמצעות טרנספורמציות שניתנות ליצירה. JAX כולל תכונות כמו:

  • grad (הבחנה אוטומטית)
  • jit (הדרכה בזמן אמת)
  • vmap (ווקטוריזציה או קיבוץ אוטומטיים)
  • pmap (ביצוע במקביל)

JAX היא שפה לביטוי וליצירה של טרנספורמציות של קוד מספרי, שדומה לספריית NumPy של Python, אבל בהיקף גדול בהרבה. (למעשה, הספרייה numpy .‎ ב-JAX היא גרסה פונקציונלית זהה של ספריית NumPy ב-Python, אבל היא נכתבה מחדש לגמרי).

JAX מתאים במיוחד להאצת משימות רבות של למידת מכונה, על ידי המרת המודלים והנתונים לפורמט שמתאים לעבודה במקביל ב-GPU ובשבבי האצה של TPU.

ספריות רבות, כמו Flax,‏ Optax,‏ Pax ועוד, מבוססות על התשתית של JAX.

K

Keras

ממשק API פופולרי ללמידת מכונה ב-Python. Keras פועל במספר מסגרות של למידת עומק, כולל TensorFlow, שם הוא זמין בתור tf.keras.

מכונות וקטור תמיכה בליבה (KSVM)

אלגוריתם סיווג שמטרתו למקסם את המרווח בין הקטגוריות החיוביות לבין הקטגוריות השליליות על ידי מיפוי של וקטורים של נתוני קלט למרחב בעל מספר רב יותר של מימדים. לדוגמה, נניח שמדובר בבעיית סיווג שבה למערך הנתונים של הקלט יש מאה מאפיינים. כדי למקסם את המרווח בין הכיתות החיוביות לשליליות, מערכת KSVM יכולה למפות את המאפיינים האלה באופן פנימי למרחב של מיליון מאפיינים. ב-KSVMs נעשה שימוש בפונקציית אובדן שנקראת hinge loss.

נקודות עיקריות

#image

הקואורדינטות של תכונות מסוימות בתמונה. לדוגמה, במודל של זיהוי תמונות שמבדיל בין מינים של פרחים, נקודות מפתח יכולות להיות מרכז כל כותרת, הגבעול, האבקן וכו'.

אימות חוצה (cross-validation) ב-k-fold

אלגוריתם לחיזוי היכולת של מודל להכליל נתונים חדשים. הערך k ב-k-fold מתייחס למספר הקבוצות השוות שאליהן מחלקים את הדוגמאות של מערך הנתונים. כלומר, מאומנים ובודקים את המודל k פעמים. בכל סיבוב של אימון ובדיקה, קבוצה אחרת משמשת כקבוצת הבדיקה, וכל הקבוצות הנותרות משמשות כקבוצת האימון. אחרי k מחזורי אימון ובדיקה, מחשבים את הממוצע ואת סטיית התקן של מדדי הבדיקה שנבחרו.

לדוגמה, נניח שמערך הנתונים מורכב מ-120 דוגמאות. נניח גם שהחלטתם להגדיר את k לערך 4. לכן, אחרי שמערבבים את הדוגמאות, צריך לפצל את מערך הנתונים לארבע קבוצות שוות של 30 דוגמאות ולבצע ארבעה סבבים של אימון ובדיקה:

מערך נתונים שמפוצל לארבע קבוצות שוות של דוגמאות. בסיבוב הראשון, שלוש הקבוצות הראשונות משמשות לאימון והקבוצה האחרונה משמשת לבדיקה. בסיבוב 2, שתי הקבוצות הראשונות והקבוצה האחרונה משמשות לאימון, והקבוצה השלישית משמשת לבדיקה. בסיבוב 3, הקבוצה הראשונה ושתי הקבוצות האחרונות משמשות לאימון, והקבוצה השנייה משמשת לבדיקה.
          בסיבוב 4, הקבוצה הראשונה משמשת לבדיקה, והשלוש הקבוצות האחרונות משמשות לאימון.

לדוגמה, השגיאה הריבובית הממוצעת (MSE) עשויה להיות המדד המשמעותי ביותר במודל של רגרסיה לינארית. לכן, צריך למצוא את הממוצע ואת סטיית התקן של MSE בכל ארבעת הסיבובים.

k-means

#clustering

אלגוריתם פופולרי של קיבוץ שמקבץ דוגמאות בלמידה ללא הדרכה. בעיקרון, האלגוריתם k-means מבצע את הפעולות הבאות:

  • מאתר באופן איטרטיבי את נקודות המרכז הטובות ביותר של k (שנקראות centroids).
  • הקצאה של כל דוגמה למרכז הכובד הקרוב ביותר. הדוגמאות הקרובות ביותר לאותו מרכז כובד שייכות לאותה קבוצה.

האלגוריתם של k-means בוחר מיקומי מרכז כובד כדי למזער את הריבוע המצטבר של המרחקים מכל דוגמה למרכז הכובד הקרוב ביותר שלה.

לדוגמה, התרשים הבא מציג את הגובה של כלב ביחס לרוחב שלו:

תרשים קרטוזי עם כמה עשרות נקודות נתונים.

אם k=3, האלגוריתם k-means יקבע שלושה מרכזי מסה. כל דוגמה מוקצה למרכז המסה הקרוב ביותר שלה, וכך נוצרות שלוש קבוצות:

אותו תרשים קרטוזי כמו באיור הקודם, רק עם שלושה מרכזי מסה נוספים.
          נקודות הנתונים הקודמות מקובצות לשלוש קבוצות נפרדות, כאשר כל קבוצה מייצגת את נקודות הנתונים הקרובות ביותר למרכז כובד מסוים.

נניח שחברה יצרנית רוצה לקבוע את המידות האידיאליות לסוודרים קטנים, בינוניים וגדולים לכלבים. שלושת מרכזי הכובד מזהים את הגובה הממוצע והרוחב הממוצע של כל כלב באשכול הזה. לכן, כנראה שהיצרן צריך לבסס את הגדלים של הסוודרים על שלושת מרכזי הכובד האלה. חשוב לזכור שבדרך כלל, מרכז הכובד של אשכול לא נכלל בדוגמאות שבאשכול.

בתמונות שלמעלה מוצגת חלוקה ל-k-means לדוגמאות עם שני מאפיינים בלבד (גובה ורוחב). חשוב לזכור ש-k-means יכול לקבץ דוגמאות לפי הרבה מאפיינים.

מידע נוסף זמין בקטע מהו קיבוץ לפי k-means? בקורס 'קיבוץ'.

k-median

#clustering

אלגוריתם קיבוץ שקשור מאוד ל-k-means. ההבדל המעשי בין שניהם:

  • ב-k-means, מרכזי הכובד נקבעים על ידי צמצום הסכום של הריבועים של המרחק בין מועמד למרכז הכובד לכל אחת מהדוגמאות שלו.
  • בשיטת k-median, מרכזי הכובד נקבעים על ידי צמצום הסכום של המרחק בין מועמד למרכז הכובד לכל אחת מהדוגמאות שלו.

חשוב לזכור שההגדרות של המרחק שונות גם הן:

  • השיטה k-means מבוססת על המרחק האוקלידי מהמוקד לדוגמה. (בשתי מימדים, המרחק האוקלידי מחושב באמצעות משפט פיתגורס לחישוב היתר). לדוגמה, המרחק ב-k-means בין (2,2) לבין (5,-2) יהיה:
$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$
  • ה-k-median מבוסס על המרחק של Manhattan מהמרכז הגיאוגרפי לדוגמה. המרחק הזה הוא הסכום של התנודות המוחלטות בכל מאפיין. לדוגמה, המרחק של k-median בין (2,2) לבין (5,-2) יהיה:
$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

L

רגולריזציה של L0

#fundamentals

סוג של תיקון (regularization) שמחייב על המספר הכולל של משקלים שאינם אפס במודל. לדוגמה, מודל עם 11 משקלים שאינם אפס יקבל עונש גבוה יותר מאשר מודל דומה עם 10 משקלים שאינם אפס.

לפעמים קוראים לרגולריזציה מסוג L0 רגולריזציה לפי נורמלי L0.

אובדן L1

#fundamentals

פונקציית אובדן שמחשבת את הערך המוחלט של ההפרש בין הערכים בפועל של התוויות לבין הערכים שהמודל צופה. לדוגמה, זהו החישוב של אובדן L1 בקבוצה של חמש דוגמאות:

הערך בפועל של הדוגמה הערך הצפוי של המודל הערך המוחלט של הדלתה
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = אובדן L1

אובדן L1 פחות רגיש לערכים חריגים מאשר אובדן L2.

השגיאה הממוצעת המוחלטת היא אובדן L1 הממוצע לכל דוגמה.

למידע נוסף, אפשר לעיין בקטע רגרסיה לינארית: אובדן (loss) במדריך למתחילים בנושא למידת מכונה.

רגולריזציה של L1

#fundamentals

סוג של רגולריזציה שמטיל קנס על משקלים ביחס לסכום הערך המוחלט של המשקלים. רגולריזציה של L1 עוזרת להקטין את המשקלים של מאפיינים לא רלוונטיים או כמעט לא רלוונטיים ל-0. תכונה עם משקל של 0 נחשבת כתכונה שהוסרה מהמודל.

בניגוד לרגילור L2.

אובדן L2

#fundamentals

פונקציית אובדן שמחשבת את הריבוע של ההפרש בין הערכים בפועל של התוויות לבין הערכים שהמודל צופה. לדוגמה, זהו החישוב של אובדן L2 בקבוצה של חמש דוגמאות:

הערך בפועל של הדוגמה הערך הצפוי של המודל ריבוע הדלתא
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
  16 = הפסד ב-L2

בגלל הריבועים, אובדן L2 מגביר את ההשפעה של ערכים חריגים. כלומר, אובדן L2 מגיב בצורה חזקה יותר לחיזויים גרועים מאשר אובדן L1. לדוגמה, האובדן ב-L1 של האצווה הקודמת יהיה 8 במקום 16. שימו לב שערכה חריגה אחת מהווה 9 מתוך 16 הערכים.

במודלים של רגרסיה נעשה בדרך כלל שימוש בפונקציית ההפסד L2.

השגיאה הריבובית הממוצעת היא אובדן L2 הממוצע לכל דוגמה. Squared loss הוא שם נוסף ל-L2 loss.

מידע נוסף זמין בקטע Logistic regression: Loss and regulation במדריך למתחילים בנושא למידת מכונה.

רגולריזציה של L2

#fundamentals

סוג של סדרה שמענישה את המשקלים ביחס לסכום של הריבועים של המשקלים. רגולריזציה של L2 עוזרת להביא את המשקלים של ערכים חריגים (אלה עם ערכים חיוביים גבוהים או ערכים שליליים נמוכים) קרוב יותר ל-0, אבל לא ממש ל-0. מאפיינים עם ערכים שקרובים מאוד ל-0 נשארים במודל, אבל הם לא משפיעים הרבה על התחזית של המודל.

תמיד קל יותר להכליל מודלים לינאריים כשמשתמשים ברגולציה L2.

בניגוד לרגילור 1.

מידע נוסף זמין בקטע Overfitting: L2 regulation בקורס המקוצר על למידת מכונה.

תווית

#fundamentals

בלמידת מכונה מבוקרת, החלק של הדוגמה שמכיל את התשובה או התוצאה.

כל דוגמה מתויגת מורכבת ממאפיין אחד או יותר ומתווית. לדוגמה, במערך נתונים לזיהוי ספאם, התווית תהיה כנראה 'ספאם' או 'לא ספאם'. במערך נתונים של כמות משקעים, התווית עשויה להיות כמות המשקעים שירדה בתקופה מסוימת.

למידע נוסף, אפשר לקרוא את הקטע למידה בפיקוח במאמר 'מבוא ללמידת מכונה'.

דוגמה עם תווית

#fundamentals

דוגמה שמכילה תכונה אחת או יותר ותווית. לדוגמה, בטבלה הבאה מוצגות שלוש דוגמאות עם תוויות ממודל להערכת ערך של בית, כל אחת עם שלוש תכונות ותווית אחת:

מספר חדרי שינה מספר חדרי האמבטיה גיל הבית מחיר הבית (תווית)
3 2 15 345,000$
2 1 72 179,000$
4 2 34 392,000$

בלמידת מכונה בפיקוח, המודלים עוברים אימון על דוגמאות מתויגות ומבצעים חיזויים על דוגמאות לא מתויגות.

השוואה בין דוגמה עם תוויות לבין דוגמאות ללא תוויות.

למידע נוסף, אפשר לקרוא את הקטע למידה בפיקוח במאמר 'מבוא ללמידת מכונה'.

זליגת תוויות

פגם בתכנון המודל שבו מאפיין משמש כ-proxy לתווית. לדוגמה, מודל של סיווג בינארי שמתבסס על נתונים כדי לחזות אם לקוח פוטנציאלי יקנה מוצר מסוים. נניח שתכונה אחת של המודל היא משתנה בוליאני בשם SpokeToCustomerAgent. נניח גם שסוכן לקוחות מוקצה רק אחרי שהלקוח הפוטנציאלי קנה את המוצר בפועל. במהלך האימון, המודל ילמד במהירות את השיוך בין SpokeToCustomerAgent לבין התווית.

מידע נוסף זמין בקטע מעקב אחרי צינורות עיבוד נתונים בקורס המקוצר על למידת מכונה.

lambda

#fundamentals

שם נרדף ל-שיעור רגולריזציה.

Lambda הוא מונח עם עומס יתר. כאן אנחנו מתמקדים בהגדרת המונח ברגולריזציה.

LaMDA (מודל שפה לאפליקציות שיחה)

#language

מודל שפה גדול (LLM) מבוסס Transformer שפותח על ידי Google. המודל הזה אומן על מערך נתונים גדול של שיחות, והוא יכול ליצור תשובות מציאותיות לשיחות.

סקירה כללית מופיעה במאמר LaMDA: הטכנולוגיה פורצת הדרך שלנו לשיחות.

ציוני דרך

#image

מילה נרדפת לנקודות מפתח.

מודל שפה

#language

מודל שמעריך את ההסתברות של אסימון או רצף של אסימונים שמתרחשים ברצף ארוך יותר של אסימונים.

מידע נוסף זמין בקטע מהי מודל שפה? בקורס המקוצר על למידת מכונה.

מודל שפה גדול (LLM)

#language

לפחות מודל שפה עם מספר גבוה מאוד של פרמטרים. באופן לא רשמי, כל מודל שפה שמבוסס על Transformer, כמו Gemini או GPT.

למידע נוסף, אפשר לקרוא את המאמר מודלים גדולים של שפה (LLMs) בקטע 'קורס מקוצר על למידת מכונה'.

מרחב סמוי

#language

שם נרדף למרחב להטמעה.

שכבה

#fundamentals

קבוצה של נוירונים ברשת נוירונים. שלושה סוגים נפוצים של שכבות:

לדוגמה, באיור הבא מוצגת רשת עצבית עם שכבת קלט אחת, שתי שכבות חבויות ושכבת פלט אחת:

רשת עצבית עם שכבת קלט אחת, שתי שכבות סמויות ושכבת פלט אחת. שכבת הקלט מורכבת משתי תכונות. השכבה החבויה הראשונה מורכבת משלושה תאי עצב, והשכבה החבויה השנייה מורכבת משני תאי עצב. שכבת הפלט מורכבת מצומת יחיד.

ב-TensorFlow, שכבות הן גם פונקציות Python שמקבלות Tensors ואפשרויות הגדרה כקלט, ויוצרות אחרים כפלט.

Layers API‏ (tf.layers)

#TensorFlow

ממשק API של TensorFlow ליצירת רשת עצבית עמוקה כהרכב של שכבות. באמצעות Layers API אפשר ליצור סוגים שונים של שכבות, כמו:

Layers API פועל לפי המוסכמות של ממשקי ה-API של השכבות ב-Keras. כלומר, מלבד תחילית שונה, לכל הפונקציות ב-Layers API יש את אותם שמות וחתימות כמו של המקבילות שלהן ב-Layers API של Keras.

עלה

#df

כל נקודת קצה בעץ החלטות. בניגוד לתנאי, עלה לא מבצע בדיקה. הוא מייצג תחזית אפשרית. עלה הוא גם הצומת הסופי של נתיב ההסקה.

לדוגמה, עץ ההחלטות הבא מכיל שלושה עלים:

עץ החלטות עם שני תנאים שמובילים לשלושה עלים.

מידע נוסף זמין בקטע עצים של החלטות בקורס 'יערות החלטות'.

כלי לניתוח תוצאות למידה (LIT)

כלי אינטראקטיבי חזותי להצגה חזותית של נתונים ולהבנת מודלים.

אפשר להשתמש ב-LIT בקוד פתוח כדי להסביר מודלים או כדי להציג נתונים טקסטואליים, נתוני תמונות ונתונים בטבלאות באופן חזותי.

קצב למידה

#fundamentals

מספר עם נקודה צפה שמציין לאלגוריתם gradient descent את מידת ההתאמה של המשקלים וההטיות בכל חזרה. לדוגמה, שיעור למידה של 0.3 יתאים את המשקלים וההטיות בעוצמה פי שלושה יותר מאשר שיעור למידה של 0.1.

קצב הלמידה הוא היפר-פרמטר מרכזי. אם תגדירו את קצב הלמידה נמוך מדי, תהליך האימון יימשך זמן רב מדי. אם מגדירים את קצב הלמידה גבוה מדי, לעיתים קרובות קשה להגיע להתכנסות בגרדינט דסצנט.

מידע נוסף זמין בקטע רגרסיה לינארית: היפר-פרמטרים בקורס המקוצר בנושא למידת מכונה.

רגרסיה של הריבועים הקטנים ביותר

מודל רגרסיה ליניארית שאומן על ידי צמצום האובדן מסוג L2.

מרחק Levenshtein

#language
#metric

מדד edit distance שמחשב את מספר פעולות המחיקה, ההוספה וההחלפה המינימלי שנדרש כדי לשנות מילה אחת למילה אחרת. לדוגמה, המרחק של Levenshtein בין המילים heart (לב) ו-darts (חץ) הוא שלוש, כי שלושת העריכות הבאות הן השינויים המינימליים שצריך לבצע כדי להפוך את המילה אחת לשנייה:

  1. heart → deart (החלפת האות 'h' באות 'd')
  2. deart → dart (מחיקה של האות 'e')
  3. חץ → חיצים (מוסיפים "s")

חשוב לזכור שהרצף הקודם הוא לא הנתיב היחיד של שלוש פעולות עריכה.

ליניארי

#fundamentals

קשר בין שני משתנים או יותר שאפשר לייצג רק באמצעות חיבור והכפלה.

הגרף של קשר לינארי הוא קו.

בניגוד לnonlinear.

מודל לינארי

#fundamentals

מודל שמקצה משקל אחד לכל מאפיין כדי לבצע חיזויים. (מודלים לינאריים כוללים גם הטיה). לעומת זאת, במודלים עמוקים, הקשר בין המאפיינים לתחזיות הוא בדרך כלל לא לינארי.

בדרך כלל קל יותר לאמן מודלים לינאריים, והם קלים יותר לפרש מאשר מודלים עמוקים. עם זאת, מודלים עמוקים יכולים ללמוד קשרים מורכבים בין תכונות.

רגרסיה ליניארית ורגרסיה לוגיסטית הם שני סוגים של מודלים לינאריים.

רגרסיה לינארית

#fundamentals

סוג של מודל למידת מכונה שבו מתקיימים שני התנאים הבאים:

השוואה בין רגרסיה לינארית לבין רגרסיה לוגיסטית. כמו כן, כדאי להבדיל בין רגרסיה לבין סיווג.

מידע נוסף זמין בקטע רגרסיה לינארית בקורס המקוצר על למידת מכונה.

LIT

קיצור של Learning Interpretability Tool‏ (LIT), שנקרא בעבר Language Interpretability Tool.

LLM

#language
#generativeAI

קיצור של מודל שפה גדול (LLM).

הערכות של LLM (evals)

#language
#generativeAI

קבוצה של מדדים ואמות מידה להערכת הביצועים של מודלים גדולים של שפה (LLMs). ברמת העל, הערכות LLM:

  • לעזור לחוקרים לזהות תחומים שבהם יש צורך בשיפור של LLM.
  • שימושיים להשוואה בין מודלים שונים של LLM ולזיהוי המודל הטוב ביותר למשימות מסוימות.
  • עוזרים לוודא שהשימוש ב-LLMs בטוח ואתי.

למידע נוסף, אפשר לקרוא את המאמר מודלים גדולים של שפה (LLMs) בקורס המקוצר על למידת מכונה.

רגרסיה לוגיסטית

#fundamentals

סוג של מודל רגרסיה שמנבא את הסבירות. למודלים של רגרסיה לוגיסטית יש את המאפיינים הבאים:

  • התווית היא קטגוריאלית. המונח רגרסיה לוגיסטית מתייחס בדרך כלל לרגרסיה לוגיסטית בינארית, כלומר למודל שמחשב הסתברויות לתווית עם שני ערכים אפשריים. וריאנט פחות נפוץ, רגרסיה לוגיסטית פולינומית, מחשב את הסבירויות לתוויות עם יותר משני ערכים אפשריים.
  • פונקציית האובדן במהלך האימון היא Log Loss. (אפשר להציב כמה יחידות של Log Loss במקביל לתווית עם יותר משני ערכים אפשריים).
  • למודל יש ארכיטקטורה לינארית, ולא רשת עצבית עמוקה. עם זאת, שאר ההגדרה הזו חלה גם על מודלים עמוקים שמנבאים את ההסתברויות של תוויות קטגוריות.

לדוגמה, נניח שאנחנו משתמשים במודל רגרסיה לוגיסטית שמחשב את הסבירות של כתובת אימייל להיחשב כספאם או לא כספאם. נניח שבמהלך ההסקה, המודל צופה ערך של 0.72. לכן המודל מעריך:

  • יש 72% סיכוי שהאימייל הוא ספאם.
  • יש 28% סיכוי שהאימייל לא ספאם.

מודל רגרסיה לוגיסטית משתמש בארכיטקטורה של שני שלבים:

  1. המודל יוצר חיזוי גולמי (y') על ידי החלת פונקציה לינארית של מאפייני הקלט.
  2. המודל משתמש בחיזוי הגולמי הזה כקלט לפונקציית סיגמויד, שממירה את החיזוי הגולמי לערך בין 0 ל-1, לא כולל.

כמו כל מודל רגרסיה, מודל רגרסיה לוגיסטית חוזה מספר. עם זאת, המספר הזה בדרך כלל הופך לחלק ממודל סיווג בינארי באופן הבא:

  • אם המספר הצפוי גבוה מסף הסיווג, מודל הסיווג הבינארי צופה את הכיתה החיובית.
  • אם המספר הצפוי קטן מסף הסיווג, מודל הסיווג הבינארי צופה את הכיתה השלילית.

מידע נוסף זמין בקטע רגרסיה לוגיסטית בקורס המקוצר על למידת מכונה.

לוגיסטים

הווקטור של התחזיות הגולמיות (לא מנורמלות) שמודל הסיווג יוצר, שבדרך כלל מועבר לאחר מכן לפונקציית נורמליזציה. אם המודל פותר בעיה של סיווג בכמה כיתות, בדרך כלל הלוגits הופכים לקלט של פונקציית softmax. לאחר מכן, פונקציית ה-softmax יוצרת וקטור של הסתברויות (נורמליות) עם ערך אחד לכל סיווג אפשרי.

אובדן נתונים ביומן

#fundamentals

פונקציית האובדן שמשמשת ברגרסיה לוגיסטית בינארית.

למידע נוסף, אפשר לקרוא את המאמר רגרסיה לוגיסטית: אובדן ורגולריזציה במסגרת קורס ה-Crash Course בנושא למידת מכונה.

log-odds

#fundamentals

הלוגריתם של ההסתברות של אירוע כלשהו.

זיכרון ארוך לטווח קצר (LSTM)

#seq

סוג של תא ברשת נוירונים חוזרת שמשמש לעיבוד רצפי נתונים באפליקציות כמו זיהוי כתב יד, תרגום מכונה והוספת כתוביות לתמונות. כדי לטפל בבעיית שיפוע הולך ופוחת שמתרחשת במהלך אימון של רשתות RNN בגלל רצפי נתונים ארוכים, רשתות LSTM שומרות את ההיסטוריה במצב של זיכרון פנימי על סמך קלט חדש והקשר מתאים מהתאים הקודמים ב-RNN.

LoRA

#language
#generativeAI

קיצור של התאמה לעומס ברמה נמוכה.

אובדן

#fundamentals

במהלך האימון של מודל בפיקוח, מדד למרחק בין התחזית של המודל לבין התווית שלו.

פונקציית אובדן מחשבת את האובדן.

מידע נוסף זמין בקטע רגרסיה לינארית: אובדן (loss) במדריך למתחילים בנושא למידת מכונה.

אגרגטור של אובדן נתונים

סוג של אלגוריתם למידת מכונה שמשפר את הביצועים של מודל על ידי שילוב של התחזיות של כמה מודלים ושימוש בתחזיות האלה כדי ליצור חיזוי יחיד. כתוצאה מכך, צבירה של אובדנים יכולה לצמצם את השונות של התחזיות ולשפר את הדיוק שלהן.

עקומת אובדן

#fundamentals

תרשים של הפסד כפונקציה של מספר החזרות של האימון. בתרשים הבא מוצגת פונקציית אובדן אופיינית:

תרשים קרטוזי של אובדן לעומת חזרות אימון, שבו מוצג ירידה מהירה באובדן בחזרות הראשונות, ואחריה ירידה הדרגתית ואז שיפוע שטוח במהלך החזרות האחרונות.

בעזרת עקומות אובדן אפשר לקבוע מתי המודל מתכנס או מתאים יותר מדי.

בעקומות אובדן אפשר להציג את כל סוגי האובדן הבאים:

אפשר לעיין גם במאמר הקו של הגנרליזציה.

למידע נוסף, אפשר לעיין בקטע Overfitting: Interpreting loss curves במדריך למתחילים בנושא למידת מכונה.

פונקציית אובדן

#fundamentals

במהלך האימון או הבדיקה, פונקציה מתמטית שמחשבת את האובדן בקבוצה של דוגמאות. פונקציית אובדן מחזירה אובדן נמוך יותר במודלים שמפיקים תחזיות טובות, בהשוואה למודלים שמפיקים תחזיות גרועות.

מטרת האימון היא בדרך כלל למזער את האובדן שפונקציית האובדן מחזירה.

יש סוגים רבים של פונקציות אובדן. בוחרים את פונקציית האובדן המתאימה לסוג המודל שאתם יוצרים. לדוגמה:

פני השטח של ההפסדים

תרשים של משקלים לעומת אובדן. המטרה של ירידה בגרדינט היא למצוא את המשקלים שבהם פני השטח של האובדן נמצאים במינימום מקומי.

התאמה לרמה נמוכה (LoRA)

#language
#generativeAI

טכניקה יעילה מבחינת פרמטרים לכוונון עדין, שבה "מקפיאים" את המשקולות שמוגדרים מראש במודל (כך שלא ניתן יותר לשנות אותם), ולאחר מכן מוסיפים למודל קבוצה קטנה של משקולות שניתן לאמן. קבוצת המשקלים הניתנים לאימון (שנקראת גם 'מטריצות עדכון') קטנה בהרבה מהמודל הבסיסי, ולכן אימון הקבוצה הזו מהיר הרבה יותר.

היתרונות של LoRA:

  • שיפור האיכות של התחזיות של מודל לדומיין שבו מתבצע השיפור.
  • התאמה אישית מתבצעת מהר יותר מאשר בשיטות שדורשות התאמה אישית של כל הפרמטרים של המודל.
  • הפחתת עלות החישוב של הסקת מסקנות על ידי הפעלת הצגה בו-זמנית של כמה מודלים מיוחדים שמשתמשים באותו מודל בסיס.

LSTM

#seq

קיצור של זיכרון לטווח ארוך-קצר.

M

למידה חישובית

#fundamentals

תוכנה או מערכת שמאמנות מודל מנתוני קלט. המודל המאומן יכול לבצע חיזויים מועילים מנתונים חדשים (שלא נראו בעבר) שנשלפו מאותה התפלגות שבה השתמשו לאימון המודל.

למידת מכונה מתייחסת גם לתחום המחקר שעוסק בתוכניות או במערכות האלה.

מידע נוסף זמין בקורס מבוא ללמידת מכונה.

תרגום אוטומטי

#generativeAI

שימוש בתוכנה (בדרך כלל מודל למידת מכונה) כדי להמיר טקסט משפה אנושית אחת לשפה אנושית אחרת, למשל מאנגלית ליפנית.

מחלקת הרוב

#fundamentals

התווית הנפוצה יותר במערך נתונים עם חוסר איזון בין הקטגוריות. לדוגמה, אם נתונה קבוצת נתונים שמכילה 99% תוויות שליליות ו-1% תוויות חיוביות, התוויות השליליות הן הכיתה הגדולה ביותר.

בניגוד לכיתה של מיעוט.

למידע נוסף, ראו מערכי נתונים: מערכי נתונים לא מאוזנים במדריך למתחילים בנושא למידת מכונה.

תהליך החלטה של מרקוב (MDP)

#rl

תרשים שמייצג את מודל קבלת ההחלטות, שבו מתקבלות החלטות (או פעולות) כדי לנווט ברצף של מצבים, בהנחה שמאפיין מרקוב תקף. בלמידת חיזוק, המעברים האלה בין המצבים מחזירים תגמול מספרי.

מאפיין מרקוב

#rl

מאפיין של סביבות מסוימות, שבהן מעברי המצבים נקבעים לחלוטין על סמך מידע שמשתמע מהמצב הנוכחי ומהפעולה של הסוכן.

מודל התממת שפה (MLM)

#language

מודל שפה שמתבסס על ניתוח נתונים כדי לחזות את הסבירות של אסימונים מועמדים למלא את החללים ברצף. לדוגמה, מודל שפה מוצפן יכול לחשב את הסבירויות של מילים מועמדות שיכולות להחליף את הקו התחתון במשפט הבא:

ה____ בכובע חזר.

בספרות בדרך כלל נעשה שימוש במחרוזת 'MASK' במקום קו תחתון. לדוגמה:

ה-'MASK' בכובע חזר.

רוב המודלים המודרניים של התממת שפה הם דו-כיווניים.

matplotlib

ספריית קוד פתוח ליצירת תרשימים דו-ממדיים ב-Python. matplotlib עוזרת להמחיש היבטים שונים של למידת מכונה.

פירוק מטריצות

#recsystems

במתמטיקה, מנגנון למציאת המטריצות שהמכפלה שלהן קרובה למטריצה היעד.

במערכות המלצות, לרוב מטריצת היעד מכילה את הדירוגים של המשתמשים בפריטים. לדוגמה, מטריצת היעד של מערכת המלצות לסרטים עשויה להיראות כך, כאשר המספרים החיוביים הם דירוגי המשתמשים והערך 0 מציין שהמשתמש לא נתן דירוג לסרט:

  קזבלנקה סיפור פילדלפיה הפנתר השחור וונדר וומן Pulp Fiction
משתמש 1 5.0 3.0 0.0 2.0 0.0
משתמש 2 4.0 0.0 0.0 1.0 5.0
משתמש 3 3.0 1.0 4.0 5.0 0.0

מטרת מערכת ההמלצות לסרטים היא לחזות את דירוגי המשתמשים בסרטים ללא סיווג. לדוגמה, האם משתמש 1 יאהב את הפנתר השחור?

אחת מהגישות ליצירת מערכות המלצות היא להשתמש בפירוק מטריצות כדי ליצור את שתי המטריצות הבאות:

לדוגמה, שימוש בפירוק מטריצות על שלושת המשתמשים וחמשת הפריטים שלנו יכול להניב את מטריצת המשתמשים ואת מטריצת הפריטים הבאות:

User Matrix                 Item Matrix

1.1   2.3           0.9   0.2   1.4    2.0   1.2
0.6   2.0           1.7   1.2   1.2   -0.1   2.1
2.5   0.5

מכפלת המכונים של מטריצת המשתמשים ומטריצת הפריטים מניבה מטריצת המלצות שמכילה לא רק את הדירוגים המקוריים של המשתמשים, אלא גם תחזיות לגבי הסרטים שכל משתמש לא צפה בהם. לדוגמה, נניח שמשתמש 1 נתן ל-Casablanca דירוג של 5.0. המכפלה של הנקודות שתואם לתא הזה במטריצה של ההמלצות אמורה להיות בערך 5.0, והיא:

(1.1 * 0.9) + (2.3 * 1.7) = 4.9

חשוב יותר, האם למשתמש 1 יהנה מהסרט הפנתר השחור? כשמעריכים את המכפלה של השורה הראשונה בעמודה השלישית, מקבלים דירוג צפוי של 4.3:

(1.1 * 1.4) + (2.3 * 1.2) = 4.3

בדרך כלל, גורם המטריצה מניב מטריצה של משתמשים ומטריצה של פריטים, ושניהם יחד קטנים בהרבה מהמטריצה היעד.

טעות ממוצעת (MAE)

האובדן הממוצע לכל דוגמה כשנעשה שימוש באובדן L1. מחשבים את שגיאת שור (MAE) באופן הבא:

  1. חישוב האובדן מסוג L1 של קבוצה.
  2. מחלקים את האובדן L1 במספר הדוגמאות באצווה.

לדוגמה, נבחן את החישוב של אובדן L1 על קבוצת חמישה דוגמאות הבאה:

הערך בפועל של הדוגמה הערך הצפוי של המודל אובדן (ההבדל בין הערך בפועל לבין הערך הצפוי)
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = אובדן L1

לכן, אובדן L1 הוא 8 ומספר הדוגמאות הוא 5. לכן, הטעות הממוצעת המוחלטת היא:

Mean Absolute Error = L1 loss / Number of Examples
Mean Absolute Error = 8/5 = 1.6

ניגודיות בין הטעות הממוצעת המוחלטת לבין השגיאה הריבובית הממוצעת והשגיאה הריבובית הממוצעת השורשית.

דיוק ממוצע ממוצע ב-k (mAP@k)

#language
#generativeAI

הממוצע הסטטיסטי של כל הציונים של דיוק ממוצע ב-k במערך נתונים לצורכי אימות. אחת מהשימושים של רמת הדיוק הממוצעת הממוצעת ב-k היא להעריך את איכות ההמלצות שנוצרות על ידי מערכת המלצות.

למרות שהביטוי 'ממוצע ממוצע' נשמע מיותר, השם של המדד מתאים. אחרי הכל, המדד הזה מחשב את הממוצע של כמה ערכים של רמת דיוק ממוצעת ב-k.

טעות ריבועית ממוצעת (MSE)

האובדן הממוצע לכל דוגמה כשמשתמשים באובדן L2. מחשבים את הטעות הריבובית הממוצעת באופן הבא:

  1. חישוב אובדן L2 של קבוצה.
  2. מחלקים את האובדן L2 במספר הדוגמאות בקבוצה.

לדוגמה, נניח שמדובר באובדן בקבוצה הבאה של חמש דוגמאות:

ערך בפועל החיזוי של המודל הפסד Squared loss
7 6 1 1
5 4 1 1
8 11 3 9
4 6 2 4
9 8 1 1
16 = הפסד ב-L2

לכן, הטעות הריבובית הממוצעת היא:

Mean Squared Error = L2 loss / Number of Examples
Mean Squared Error = 16/5 = 3.2

טעות ריבועית ממוצעת היא אופטימיזטור פופולרי של אימון, במיוחד לרגרסיה לינארית.

ניגוד בין הטעות הריבובית הממוצעת לבין השגיאה המוחלטת הממוצעת והשורש של הטעות הריבובית הממוצעת.

ב-TensorFlow Playground נעשה שימוש ב-Mean Squared Error כדי לחשב את ערכי האובדן.

רשת

#TensorFlow
#GoogleCloud

בתכנות מקבילי של למידת מכונה, מונח שמשויך להקצאת הנתונים והמודל לצ'יפים של TPU, ולהגדרת האופן שבו הערכים האלה יתחלקו או ייוצרו להם רפליקות.

למילה Mesh יש כמה משמעויות:

  • פריסה פיזית של צ'יפים של TPU.
  • מבנה לוגי מופשט למיפוי הנתונים והמודל לצ'יפים של ה-TPU.

בשני המקרים, רשת מצוינה כצורה.

למידה ברמת המטא

#language

תת-קבוצה של למידת מכונה שמאפשרת לגלות או לשפר אלגוריתם למידה. מערכת למטא-למידה יכולה גם לאמן מודל ללמוד במהירות משימה חדשה מכמות קטנה של נתונים או מהניסיון שנצבר במשימות קודמות. בדרך כלל, אלגוריתמים של למידה ברמת המטא מנסים להשיג את היעדים הבאים:

  • לשפר או ללמוד תכונות שפותחו באופן ידני (כמו מאתחלים או אופטימיזציות).
  • יעילות רבה יותר בשימוש בנתונים ובמחשוב.
  • שיפור היכולת להכליל.

מטא-למידה קשורה ללמידה מסוג few-shot.

ערך

#TensorFlow

נתון סטטיסטי שחשוב לכם.

יעד הוא מדד שמערכת למידת המכונה מנסה לבצע אופטימיזציה שלו.

Metrics API‏ (tf.metrics)

ממשק API של TensorFlow לבדיקת מודלים. לדוגמה, הערך של tf.metrics.accuracy קובע באיזו תדירות התחזיות של מודל תואמות לתוויות.

קבוצה קטנה של מודלים

#fundamentals

קבוצת משנה קטנה שנבחרה באופן אקראי מתוך קבוצה שעברה עיבוד במחזור אחד. גודל האצווה של קבוצת משנה בדרך כלל נע בין 10 ל-1,000 דוגמאות.

לדוגמה, נניח שקבוצת האימון כולה (הקבוצה המלאה) מורכבת מ-1,000 דוגמאות. נניח גם שהגדרתם את גודל האצווה של כל אצווה משנה ל-20. לכן, בכל מחזור, המערכת קובעת את האובדן ב-20 דוגמאות אקראיות מתוך 1,000 הדוגמאות, ולאחר מכן משייכת מחדש את המשקלים ואת ההטיות בהתאם.

קל יותר לחשב את האובדן בקבוצת משנה מאשר את האובדן בכל הדוגמאות בקבוצה המלאה.

מידע נוסף זמין בקטע רגרסיה לינארית: היפר-פרמטרים בקורס המקוצר בנושא למידת מכונה.

ירידה סטוכסטית בגרדינט של קבוצות קטנות (mini-batch)

אלגוריתם ירידה בגרדינט שמשתמש בקבוצות משנה קטנות. במילים אחרות, ירידה סטוכסטית בגרדינט בקבוצות קטנות (mini-batch) היא שיטת אומדן של הגרדינט על סמך קבוצת משנה קטנה של נתוני האימון. בירידה סטוכסטית בגרדינט רגילה נעשה שימוש בקבוצת משנה (mini-batch) בגודל 1.

אובדן מינימלי מקסימלי

פונקציית אובדן לרשתות יריבות גנרטיביות, שמבוססת על האנטרופי החוצה בין התפלגות הנתונים שנוצרו לבין הנתונים האמיתיים.

אובדן Minimax משמש במאמר הראשון כדי לתאר רשתות יריבות גנרטיביות.

מידע נוסף זמין בקטע פונקציות אובדן בקורס Generative Adversarial Networks.

קבוצת מיעוט

#fundamentals

התווית הפחות נפוצה במערך נתונים עם חוסר איזון בין הקטגוריות. לדוגמה, אם מערך נתונים מכיל 99% תוויות שליליות ו-1% תוויות חיוביות, התוויות החיוביות הן קבוצת המיעוט.

בניגוד למחלקת הרוב.

למידע נוסף, ראו מערכי נתונים: מערכי נתונים לא מאוזנים במדריך למתחילים בנושא למידת מכונה.

תערובת של מומחים

#language
#generativeAI

תוכנית להגדלת היעילות של רשת עצבית באמצעות שימוש רק בקבוצת משנה של הפרמטרים שלה (שנקראת מומחה) כדי לעבד אסימון או דוגמה מסוימים של קלט. רשת גידור מפנה כל אסימון קלט או דוגמה למומחים המתאימים.

פרטים נוספים זמינים במאמרים הבאים:

ML

קיצור של למידת מכונה.

MMIT

#language
#image
#generativeAI

קיצור של multimodal instruction-tuned.

MNIST

#image

מערך נתונים בתחום הציבורי שנאסף על ידי LeCun,‏ Cortes ו-Burges, ומכיל 60,000 תמונות. בכל תמונה מוצגת דרך שבה אדם כתב באופן ידני ספרה מסוימת מ-0 עד 9. כל תמונה מאוחסנת כמערך של מספרים שלמים בגודל 28x28, כאשר כל מספר שלם הוא ערך בגווני אפור בין 0 ל-255, כולל.

MNIST הוא מערך נתונים קנוני ללמידת מכונה, שמשמש לעיתים קרובות לבדיקת גישות חדשות ללמידת מכונה. פרטים נוספים זמינים במאמר בסיס הנתונים MNIST של ספרות בכתב יד.

מודל

#language

קטגוריית נתונים ברמה גבוהה. לדוגמה, מספרים, טקסט, תמונות, וידאו ואודיו הם חמישה מודלים שונים.

מודל

#fundamentals

באופן כללי, כל מבנה מתמטי שמעבד נתוני קלט ומחזיר פלט. במילים אחרות, מודל הוא קבוצת הפרמטרים והמבנה שנדרשים למערכת כדי לבצע תחזיות. בלמידת מכונה מבוקרת, המודל מקבל דוגמה כקלט ומסיק חיזוי כפלט. בתוך למידת המכונה בפיקוח, יש הבדלים מסוימים בין המודלים. לדוגמה:

אפשר לשמור, לשחזר או ליצור עותקים של מודל.

למידת מכונה לא בפיקוח גם יוצרת מודלים, בדרך כלל פונקציה שיכולה למפות דוגמה של קלט לאשכול המתאים ביותר.

קיבולת המודל

המורכבות של הבעיות שהמודל יכול ללמוד. ככל שהבעיות שהמודל יכול ללמוד הן מורכבות יותר, כך הקיבולת של המודל גבוהה יותר. בדרך כלל, הקיבולת של מודל עולה ככל שמספר הפרמטרים שלו עולה. להגדרה הרשמית של קיבולת הסיווג, ראו מאפיין VC.

שרשור מודלים

#generativeAI

מערכת שבוחרת את המודל האידיאלי לשאילתת היסק ספציפית.

נניח שיש קבוצה של מודלים, החל ממודלים גדולים מאוד (עם הרבה פרמטרים) ועד למודלים קטנים בהרבה (עם הרבה פחות פרמטרים). מודלים גדולים מאוד צורכים יותר משאבי מחשוב בזמן השקלול מאשר מודלים קטנים יותר. עם זאת, בדרך כלל מודלים גדולים מאוד יכולים להסיק בקשות מורכבות יותר מאשר מודלים קטנים יותר. היררכיית המודלים קובעת את המורכבות של שאילתה ההיקש, ואז בוחרת את המודל המתאים לביצוע ההיקש. המניע העיקרי לשימוש במודלים מדורגים הוא הפחתת עלויות ההסקה על ידי בחירה במודלים קטנים יותר באופן כללי, ובחירה במודל גדול יותר רק לשאילתות מורכבות יותר.

נניח שדגם קטן פועל בטלפון וגרסה גדולה יותר של אותו דגם פועלת בשרת מרוחק. שימוש נכון במודלים מדורגים מפחית את העלות ואת זמן האחזור, על ידי כך שהמודל הקטן יותר מטפל בבקשות פשוטות, והמודל המרוחק נקרא רק כדי לטפל בבקשות מורכבות.

אפשר לעיין גם במאמר בנושא נתב מודל.

מודל מקביל

#language

דרך להתאמת אימון או הסקה לעומס, שבה חלקים שונים של מודל אחד ממוקמים במכשירים שונים. באמצעות מודל מקבילי אפשר להשתמש במודלים גדולים מדי מכדי שיוכלו להתאים למכשיר אחד.

כדי להטמיע מקבילות של מודלים, המערכת בדרך כלל מבצעת את הפעולות הבאות:

  1. מחלק את המודל לחלקים קטנים יותר.
  2. המערכת מפזרת את אימון החלקים הקטנים האלה בין כמה מעבדים. כל מעבד מאמן את החלק שלו במודל.
  3. שילוב התוצאות ליצירת מודל אחד.

המודל המקביל מאט את האימון.

אפשר לעיין גם במאמר מקבילות נתונים.

נתב מודל

#generativeAI

האלגוריתם שקובע את המודל האידיאלי להסקת מסקנות בשרשור מודלים. בדרך כלל, ניתב מודלים הוא בעצמו מודל למידת מכונה, שמלמד בהדרגה איך לבחור את המודל הטוב ביותר לקלט נתון. עם זאת, לפעמים נתב מודל יכול להיות אלגוריתם פשוט יותר, ללא למידת מכונה.

אימון מודל

התהליך של קביעת המודל הטוב ביותר.

MOE

#language
#image
#generativeAI

קיצור של תערובת של מומחים.

מומנטום

אלגוריתם מתוחכם של ירידה בגרדינט שבו שלב הלמידה תלוי לא רק בנגזרת בשלב הנוכחי, אלא גם בנגזרות של השלבים שקדמו לו באופן מיידי. המומנטום כולל חישוב של ממוצע נע משוקלל באופן מעריכי של שיפועי הגרף לאורך זמן, בדומה למומנטום בפיזיקה. לפעמים המומנטום מונע מהלמידה להיתקע במינימום מקומי.

MT

#generativeAI

קיצור של תרגום אוטומטי.

סיווג של כמה מחלקות

#fundamentals

בלמידה מבוקרת, בעיית סיווג שבה מערך הנתונים מכיל יותר משתי קבוצות של תוויות. לדוגמה, התוויות במערך הנתונים של Iris חייבות להיות אחת משלוש הכיתות הבאות:

  • Iris setosa
  • Iris virginica
  • Iris versicolor

מודל שהודר על מערך הנתונים של Iris ומנבא את סוג Iris בדוגמאות חדשות מבצע סיווג בכמה כיתות.

לעומת זאת, בעיות סיווג שמבדילות בין שתי קטגוריות בדיוק הן מודלים של סיווג בינארי. לדוגמה, מודל אימייל שמתאים את ההודעה לקטגוריה ספאם או לא ספאם הוא מודל סיווג בינארי.

בבעיות של קיבוץ לאשכולות, סיווג למספר סיווגים מתייחס ליותר משני אשכולות.

מידע נוסף זמין במאמר רשתות עצביות: סיווג מרובה-כיתות בקורס המקוצר על למידת מכונה.

רגרסיה לוגיסטית עם כמה מחלקות

שימוש ברגרסיה לוגיסטית בבעיות של סיווג במספר מחלקות.

תשומת לב עצמית עם כמה ראשים

#language

תוספת לתשומת לב עצמית שמפעילה את מנגנון תשומת הלב העצמית כמה פעמים לכל מיקום ברצף הקלט.

Transformers הציגה תשומת לב עצמית עם כמה ראשים.

התאמה של הוראות למולטי-מודלים

#language

מודל המותאם להוראות שיכול לעבד קלט מעבר לטקסט, כמו תמונות, סרטונים וקטעי אודיו.

מודל מולטי-מודאלי

#language

מודל שהקלט, הפלט או שניהם כוללים יותר ממודוס אחד. לדוגמה, נניח שיש מודל שמקבל גם תמונה וגם כותרת טקסט (שתי מודליות) בתור מאפיינים, ומפיק ציון שמציין את מידת ההתאמה של כותרת הטקסט לתמונה. לכן, הקלט של המודל הזה הוא מרובת מצבים והפלט הוא חד-מצבי.

סיווג פולינומי

שם נרדף לסיווג של כמה מחלקות.

רגרסיה מונומיאלית

מילה נרדפת ל-רגרסיה לוגיסטית בכמה כיתות.

ריבוי משימות

טכניקה של למידת מכונה שבה מודל אחד מאומן לבצע כמה משימות.

כדי ליצור מודלים למשימות מרובות, מתבצעת הדרכה על נתונים שמתאימים לכל אחת מהמשימות השונות. כך המודל לומד לשתף מידע בין המשימות, וכך הוא לומד בצורה יעילה יותר.

לרוב, למודל שהוכשרה לו כמה משימות יש יכולות כלליות משופרות, והוא יכול לטפל בצורה יעילה יותר בסוגים שונים של נתונים.

לא

מלכודת NaN

כשמספר אחד במודל הופך ל-NaN במהלך האימון, וכתוצאה מכך רבים מהמספרים האחרים במודל או כולם הופכים בסופו של דבר ל-NaN.

NaN הוא קיצור של Not a Number (לא מספר).

עיבוד שפה טבעית (NLP)

#language
תחום שמטרתו ללמד מחשבים לעבד את מה שמשתמש אמר או הקליד באמצעות כללים לשוניים. כמעט כל עיבוד השפה הטבעי המודרני מבוסס על למידת מכונה.

הבנת שפה טבעית (NLU)

#language

קבוצת משנה של עיבוד שפה טבעית שמאפשרת לקבוע את הכוונות של משהו שנאמר או הקליד. הבנת שפה טבעית יכולה להתקדם מעבר לעיבוד שפה טבעית (NLP) ולקחת בחשבון היבטים מורכבים של שפה כמו הקשר, סרקזם ורגשות.

סיווג שלילי

#fundamentals

בסיווג בינארי, סיווג אחד נקרא חיובי והסיווג השני נקרא שלילי. המחלקה החיובית היא הדבר או האירוע שהמודל בודק, והמחלקה השלילית היא האפשרות השנייה. לדוגמה:

  • הכיתה השלילית בבדיקות רפואיות עשויה להיות 'לא גידול'.
  • הכיתה השלילית בסיווג אימיילים עשויה להיות 'לא ספאם'.

בניגוד לכיתה חיובית.

דגימה שלילית

שם נרדף לדגימת מועמדים.

חיפוש ארכיטקטורה עצבית (NAS)

טכניקה לעיצוב אוטומטי של הארכיטקטורה של רשת עצבית. אלגוריתמים של NAS יכולים לצמצם את משך הזמן ואת המשאבים הנדרשים לאימון רשת עצבית.

בדרך כלל, ב-NAS נעשה שימוש ב:

  • מרחב חיפוש, שהוא קבוצה של ארכיטקטורות אפשריות.
  • פונקציית התאמה, שמהווה מדד לביצועים של ארכיטקטורה מסוימת במשימה נתונה.

לרוב, אלגוריתמים של NAS מתחילים עם קבוצה קטנה של ארכיטקטורות אפשריות, ומרחיבים בהדרגה את מרחב החיפוש ככל שהאלגוריתם לומד יותר על הארכיטקטורות היעילות. פונקציית הכושר מבוססת בדרך כלל על הביצועים של הארכיטקטורה בקבוצת אימון, והאלגוריתם מאומן בדרך כלל באמצעות טכניקה של למידת חיזוק.

אלגוריתמים של NAS הוכיחו את היעילות שלהם במציאת ארכיטקטורות בעלות ביצועים גבוהים למגוון משימות, כולל סיווג תמונות, סיווג טקסט ותרגום אוטומטי.

רשת הזרימה קדימה

#fundamentals

מודל שמכיל לפחות שכבה מוסתרת אחת. רשת עצבית עמוקה היא סוג של רשת עצבית שמכילה יותר משכבה מוסתרת אחת. לדוגמה, בתרשים הבא מוצגת רשת עצבית עמוקה שמכילה שתי שכבות חבויות.

רשת עצבית עם שכבת קלט, שתי שכבות גלויות ושכבת פלט.

כל נוירון ברשת נוירונים מחובר לכל הצמתים בשכבה הבאה. לדוגמה, בתרשים הקודם, שימו לב שכל אחד משלושת הנוירונים בשכבה החבויה הראשונה מחובר בנפרד לשני הנוירונים בשכבה החבויה השנייה.

רשתות נוירונים שמוטמעות במחשבים נקראות לפעמים רשתות נוירונים מלאכותיות כדי להבדיל אותן מרשתות נוירונים שנמצאות במוחים ובמערכות עצביות אחרות.

חלק מרשתות נוירונליות יכולות לחקות יחסי לא לינאריים מורכבים מאוד בין מאפיינים שונים לבין התווית.

אפשר לעיין גם במאמרים בנושא רשת נוירונים מלאכותית (CNN) ורשת נוירונים חוזרת (RNN).

מידע נוסף זמין בקטע רשתות נוירונליות בקורס המקוצר על למידת מכונה.

נוירון

#fundamentals

בלמידת מכונה, יחידה נפרדת בשכבה מוסתרת של רשת נוירונים. כל נוירון מבצע את הפעולה הבאה בשני שלבים:

  1. הפונקציה מחשבת את הסכום המשוקלל של ערכי הקלט, כפול המשקלים התואמים שלהם.
  2. מעביר את הסכום המשוקלל כקלט לפונקציית הפעלה.

נוירון בשכבה החבויה הראשונה מקבל קלט מערכי המאפיינים בשכבת הקלט. נוירון בכל שכבה מוסתרת אחרי השכבה הראשונה מקבל קלט מהנוירונים בשכבה המוסתרת הקודמת. לדוגמה, נוירון בשכבה החבויה השנייה מקבל קלט מהנוירונים בשכבה החבויה הראשונה.

באיור הבא מוצגים שני תאי עצב והקלט שלהם.

רשת עצבית עם שכבת קלט, שתי שכבות גלויות ושכבת פלט. שני תאי עצב מודגשים: אחד בשכבה החבויה הראשונה ואחד בשכבה החבויה השנייה. הנוירון המודגש בשכבה החבויה הראשונה מקבל קלט משני המאפיינים בשכבת הקלט. הנוירון המודגש בשכבה הגלומה השנייה מקבל קלט מכל אחד משלושת הנוירונים בשכבה הגלומה הראשונה.

נוירון ברשת נוירונים מחקה את ההתנהגות של נוירונים במוח ובחלקים אחרים של מערכות העצבים.

N-gram

#seq
#language

רצף מסודר של N מילים. לדוגמה, truly madly הוא 2-gram. מכיוון שהסדר רלוונטי, madly truly הוא גרם דו-מילוני שונה מ-truly madly.

לא השמות של סוג ה-n-gram הזה דוגמאות
2 שתי מילים ברצף (bigram) או שתי מילים (2-gram) to go, go to, eat lunch, eat dinner
3 טריגרמ או 3-גרם ate too much, happily ever after, the bell tolls
4 4 גרם walk in the park, dust in the wind, the boy ate lentils

מודלים רבים של הבנת שפה טבעית מסתמכים על מילוני N-grams כדי לחזות את המילה הבאה שהמשתמש ידפיס או יגיד. לדוגמה, נניח שמשתמש הקליד happily ever. מודל NLU שמבוסס על טריגרמות צפוי לחזות שהמשתמש ידפיס את המילה after.

בניגוד ל-n-grams, תיק מילים הוא קבוצה של מילים ללא סדר.

למידע נוסף, אפשר לקרוא את המאמר מודלים גדולים של שפה בקורס המקוצר על למידת מכונה.

NLP

#language

קיצור של עיבוד שפה טבעית.

NLU

#language

קיצור של הבנת שפה טבעית.

צומת (עץ החלטות)

#df

בעץ החלטות, כל תנאי או עלה.

עץ החלטות עם שני תנאים ושלושה עלים.

מידע נוסף זמין בקטע עצים של החלטות בקורס 'יערות החלטות'.

צומת (רשת נוירונים)

#fundamentals

נוירון בשכבה מוסתרת.

מידע נוסף זמין בקטע רשתות נוירונליות בקורס המקוצר על למידת מכונה.

צומת (תרשים TensorFlow)

#TensorFlow

פעולה בתרשים של TensorFlow.

רעש

באופן כללי, כל דבר שמסתיר את האות במערך נתונים. יש הרבה דרכים שבהן רעש יכול להיכנס לנתונים. לדוגמה:

  • בודקים אנושיים יכולים לטעות בתיוג.
  • אנשים ומכשירים מתעדים ערכים של תכונות באופן שגוי או משמיטים אותם.

תנאי לא בינארי

#df

תנאי שמכיל יותר משתי תוצאות אפשריות. לדוגמה, התנאי הלא בינארי הבא מכיל שלושה תוצאות אפשריות:

תנאי (number_of_legs = ?) שמוביל לשלוש תוצאות אפשריות. תוצאה אחת (number_of_legs = 8) מובילה לעלה בשם ספיידר. תוצאה שנייה (number_of_legs = 4) מובילה להעלאת עלה בשם dog. תוצאה שלישית (number_of_legs = 2) מובילה
          לצמח בשם penguin.

למידע נוסף, ראו סוגי תנאים בקורס 'יערות החלטות'.

nonlinear

#fundamentals

קשר בין שני משתנים או יותר, שלא ניתן לייצג רק באמצעות חיבור ותכופל. אפשר לייצג יחס לינארי כקו, אבל אי אפשר לייצג יחס לא לינארי כקו. לדוגמה, נניח שיש שני מודלים שכל אחד מהם משיייך תכונה אחת לתווית אחת. המודל בצד ימין הוא לינארי והמודל בצד שמאל הוא לא לינארי:

שני תרשימים. תרשים אחד הוא קו, כך שמדובר בקשר לינארי.
          התרשים השני הוא עקומה, כך שמדובר בקשר לא לינארי.

בקטע רשתות נוירונליות: צמתים ושכבות מוסתרות בקורס המקוצר על למידת מכונה תוכלו להתנסות בסוגים שונים של פונקציות לא לינאריות.

הטיה של אי-תגובה

#fairness

ראו הטיה של תהליך הבחירה.

אי-סטציונריות

#fundamentals

מאפיין שהערכים שלו משתנים במאפיין אחד או יותר, בדרך כלל זמן. לדוגמה, ריכזנו כאן כמה דוגמאות לתנודות לא יציבות:

  • מספר בגדי הים שנמכרים בחנות מסוימת משתנה בהתאם לעונה.
  • כמות הפרי מסוים שנקטף באזור מסוים היא אפס במשך רוב השנה, אבל גדולה מאוד לתקופה קצרה.
  • עקב שינויי האקלים, הטמפרטורות השנתיות הממוצעות משתנות.

בניגוד לסטציונריות.

אין תשובה נכונה אחת (NORA)

#language
#generativeAI

הנחיה עם כמה תשובות מתאימות. לדוגמה, להנחיה הבאה אין תשובה נכונה אחת:

Tell me a joke about elephants.‎

הערכה של הנחיות ללא תשובה נכונה יכולה להיות מאתגרת.

NORA

#language
#generativeAI

קיצור של אין תשובה נכונה אחת.

נירמול

#fundamentals

באופן כללי, התהליך של המרת טווח הערכים בפועל של משתנה לטווח ערכים סטנדרטי, כמו:

  • -1 עד +1
  • 0 עד 1
  • ציונים סטנדרטיים (בערך, -3 עד +3)

לדוגמה, נניח שהטווח בפועל של הערכים של מאפיין מסוים הוא 800 עד 2,400. כחלק מפיתוח מאפיינים, אפשר לנרמל את הערכים בפועל לטווח סטנדרטי, למשל -1 עד +1.

נורמליזציה היא משימה נפוצה בפיתוח מאפיינים. בדרך כלל, אימון המודלים מהיר יותר (והחיזויים שהם מניבים טובים יותר) כשלכל מאפיין מספרי בוקטור המאפיינים יש בערך את אותו טווח.

אפשר לעיין גם במאמר נירמול לפי ציון תקן.

למידע נוסף, ראו נתונים מספריים: נורמליזציה במדריך למתחילים בנושא למידת מכונה.

זיהוי חידושים

התהליך של קביעת אם דוגמה חדשה (חדשנית) מגיעה מאותה התפלגות כמו קבוצת האימון. במילים אחרות, אחרי אימון על קבוצת האימון, זיהוי החידושים קובע אם דוגמה חדשה (במהלך ההסקה או במהלך אימון נוסף) היא חריגה.

בניגוד לזיהוי חריגים.

נתונים מספריים

#fundamentals

מאפיינים שמיוצגים כמספרים שלמים או כמספרים בעלי ערך ממשי. לדוגמה, מודל להערכת ערך של בית ייצג את גודל הבית (במטרים רבועים או בפוט רבועים) כנתונים מספריים. ייצוג מאפיין כנתונים מספריים מציין שלערכים של המאפיין יש קשר מתמטי לתווית. כלומר, סביר להניח שלמספר המטרות הרבועות בבית יש קשר מתימטי כלשהו לערך הבית.

לא כל נתוני המספרים השלמים צריכים להיות מיוצגים כנתונים מספריים. לדוגמה, בחלקים מסוימים בעולם, מקודמי דואר הם מספרים שלמים. עם זאת, לא צריך לייצג מקודמי דואר שלמים כנתונים מספריים במודלים. הסיבה לכך היא שמיקוד 20000 לא חזק פי שניים (או חצי) ממיקוד 10000. בנוסף, למרות שמיקודים שונים כן משויכים לערכי נדל"ן שונים, אי אפשר להניח שערכי הנדל"ן במיקוד 20000 גבוהים פי שניים מערכי הנדל"ן במיקוד 10000. במקום זאת, צריך לייצג את המיקוד כנתונים קטגוריאליים.

מאפיינים מספריים נקראים לפעמים מאפיינים רציפים.

למידע נוסף, ראו עבודה עם נתונים מספריים בקטע 'קורס מקוצר על למידת מכונה'.

NumPy

ספריית מתמטיקה בקוד פתוח שמספקת פעולות יעילות של מערכי נתונים ב-Python. ‏pandas מבוססת על NumPy.

O

יעד

מדד שהאלגוריתם מנסה לבצע אופטימיזציה שלו.

פונקציית היעד

הנוסחה המתמטית או המדד שהמודל שואף לבצע אופטימיזציה עבורם. לדוגמה, פונקציית היעד של רגרסיה לינארית היא בדרך כלל אובדן ממוצע ריבועים. לכן, כשמאמנים מודל של רגרסיה לינארית, המטרה של האימון היא למזער את אובדן הריבוע הממוצע.

במקרים מסוימים, המטרה היא למקסם את פונקציית היעד. לדוגמה, אם פונקציית היעד היא דיוק, היעד הוא למקסם את הדיוק.

מידע נוסף זמין במאמר אובדן.

תנאי משופע

#df

בעץ החלטות, תנאי שכולל יותר ממאפיין אחד. לדוגמה, אם הגובה והרוחב הם גם תכונות, אז התנאי הבא הוא תנאי עקיף:

  height > width

בניגוד לתנאי משויך לציר.

למידע נוסף, ראו סוגי תנאים בקורס 'יערות החלטות'.

לא מקוון

#fundamentals

מילה נרדפת ל-static.

הסקת מסקנות אופליין

#fundamentals

התהליך שבו מודל יוצר קבוצה של תחזיות ואז שומר אותן במטמון. לאחר מכן, האפליקציות יכולות לגשת לחיזוי המשוער מהמטמון במקום להריץ מחדש את המודל.

לדוגמה, נניח שיש מודל שיוצר תחזיות מזג אוויר מקומיות (חיזויים) פעם בארבע שעות. אחרי כל הפעלה של המודל, המערכת שומרת במטמון את כל תחזיות מזג האוויר המקומיות. אפליקציות מזג האוויר מאחזרות את התחזיות מהמטמון.

הסקת אופליין נקראת גם הסקה סטטית.

בניגוד להסקה אונליין.

למידע נוסף, אפשר לעיין בקטע מערכות למידת מכונה בסביבת ייצור: הסקת מסקנות סטטית לעומת דינמית במדריך למתחילים בנושא למידת מכונה.

קידוד one-hot

#fundamentals

ייצוג נתונים קטגוריים כוקטור שבו:

  • רכיב אחד מוגדר ל-1.
  • כל שאר הרכיבים מוגדרים ל-0.

בדרך כלל משתמשים בקידוד One-hot כדי לייצג מחרוזות או מזהים שיש להם קבוצה סופית של ערכים אפשריים. לדוגמה, נניח למאפיין קטגורי מסוים בשם Scandinavia יש חמישה ערכים אפשריים:

  • "Denmark"
  • "Sweden"
  • "Norway"
  • "Finland"
  • "Iceland"

קידוד One-hot יכול לייצג כל אחד מחמשת הערכים באופן הבא:

country וקטור
"Denmark" 1 0 0 0 0
"Sweden" 0 1 0 0 0
"Norway" 0 0 1 0 0
"Finland" 0 0 0 1 0
"Iceland" 0 0 0 0 1

בעזרת קידוד one-hot, המודל יכול ללמוד קשרים שונים על סמך כל אחת מחמש המדינות.

ייצוג של מאפיין כנתונים מספריים הוא חלופה לקידוד one-hot. לצערנו, הצגת המדינות הסקנדינביות באופן מספרי היא לא בחירה טובה. לדוגמה, נניח את הייצוג המספרי הבא:

  • הערך של 'דנמרק' הוא 0
  • הערך של 'שוודיה' הוא 1
  • הערך של 'נורווגיה' הוא 2
  • הערך של 'פינלנד' הוא 3
  • 'איסלנד' הוא 4

כשמשתמשים בקידוד מספרי, המודל מפרש את המספרים הגולמיים באופן מתמטי ומנסה להתאמן על המספרים האלה. עם זאת, איסלנד לא גדולה פי שניים (או חצי) בנורווגיה, ולכן המודל יגיע למסקנות מוזרות.

מידע נוסף זמין בקטע נתונים קטגוריאליים: אוצר מילים וקידוד one-hot במדריך למתחילים בנושא למידת מכונה.

למידה מסוג 'ירייה אחת'

גישה של למידת מכונה, שמשמשת לרוב לסיווג אובייקטים, שנועדה ללמוד מסווגים יעילים מדוגמה אחת לאימון.

אפשר גם לעיין במאמרים בנושא למידה מסוג few-shot ולמידה מסוג zero-shot.

הנחיה חד-פעמית

#language
#generativeAI

הנחיה שמכילה דוגמה אחת שמראה איך מודל השפה הגדול צריך להגיב. לדוגמה, ההנחיה הבאה מכילה דוגמה אחת שמראה למודל שפה גדול איך לענות על שאילתה.

חלקים של הנחיה אחת הערות
מהו המטבע הרשמי של המדינה שצוינה? השאלה שעליה רוצים שה-LLM יענה.
צרפת: EUR דוגמה אחת.
הודו: השאילתה בפועל.

הנחיה חד-פעמית לעומת המונחים הבאים:

אחד נגד כולם

#fundamentals

בהינתן בעיית סיווג עם N מחלקות, פתרון שמורכב מ-N סיווגים בינאריים נפרדים – סיווג בינארי אחד לכל תוצאה אפשרית. לדוגמה, אם יש מודל שמסווג דוגמאות כ'חי', 'צומח' או 'מינרל', פתרון של 'אחד מול כולם' יספק את שלושת הסיווגים הבינאריים הנפרדים הבאים:

  • בעל חיים לעומת לא בעל חיים
  • ירק לעומת לא ירק
  • מינרלי לעומת לא מינרלי

online

#fundamentals

שם נרדף ל-דינמי.

הסקת מסקנות אונליין

#fundamentals

יצירת תחזיות על פי דרישה. לדוגמה, נניח שאפליקציה מעבירה קלט למודל ומנפיקה בקשה לחיזוי. מערכת שמשתמשת בהסקה אונליין מגיבה לבקשה על ידי הפעלת המודל (והחזרת החיזוי לאפליקציה).

בניגוד להסקה אופליין.

למידע נוסף, אפשר לעיין בקטע מערכות למידת מכונה בסביבת ייצור: הסקת מסקנות סטטית לעומת דינמית במדריך למתחילים בנושא למידת מכונה.

פעולה (op)

#TensorFlow

ב-TensorFlow, כל פרוצדורה שיוצרת, מבצעת מניפולציות או מוחקת Tensor. לדוגמה, כפל מטריצות הוא פעולה שמקבלת שני עותקים של Tensor כקלט ויוצרת עותקי Tensor אחד כפלט.

Optax

ספריית עיבוד ואופטימיזציה של שיפועים ל-JAX. Optax מאפשרת לבצע מחקר על ידי מתן אבני בניין שאפשר לשלב מחדש בדרכים מותאמות אישית כדי לבצע אופטימיזציה של מודלים פרמטרים, כמו רשתות נוירונים עמוקות. יעדים נוספים כוללים:

  • מתן הטמעות יעילות, קריאות ובודקות היטב של רכיבי הליבה.
  • שיפור הפרודוקטיביות על ידי האפשרות לשלב רכיבים ברמה נמוכה באופטימיזטורים בהתאמה אישית (או ברכיבים אחרים לעיבוד שיפועים).
  • מאפשרים לכל אחד להשתתף בקלות, וכך מזרזים את אימוץ הרעיונות החדשים.

כלי אופטימיזציה

הטמעה ספציפית של האלגוריתם gradient descent. כלי אופטימיזציה פופולריים כוללים:

  • AdaGrad, ראשי תיבות של ADAptive GRADient descent (ירידה אדפטיבית בגרדינט).
  • Adam, ראשי תיבות של ADAptive with Momentum (התאמה עם מומנטום).

הטיה של הומוגניות בקבוצה חיצונית

#fairness

הנטייה לראות אנשים מחוץ לקבוצה שלכם דומים יותר זה לזה מאשר אנשים בקבוצה שלכם, כשמשווים בין עמדות, ערכים, מאפייני אישיות ומאפיינים אחרים. בקבוצה מתייחס לאנשים שיש לכם אינטראקציה איתם באופן קבוע, ומחוץ לקבוצה מתייחס לאנשים שאין לכם אינטראקציה איתם באופן קבוע. אם תיצרו מערך נתונים על ידי בקשה מאנשים לספק מאפיינים של קבוצות חיצוניות, יכול להיות שהמאפיינים האלה יהיו פחות מורכבים ויותר סטראוטיפיים מאשר המאפיינים שהמשתתפים יציינו לגבי אנשים בקבוצה שלהם.

לדוגמה, תושבי ליליפוט עשויים לתאר את הבתים של תושבי ליליפוט אחרים בפירוט רב, תוך ציון הבדלים קטנים בסגנונות הארכיטקטוניים, בחלונות, בדלתות ובגדלים. עם זאת, אותם ליליפוטים עשויים פשוט להצהיר שכל תושבי ברודינגנז חיים בבתים זהים.

הטיה של הומוגניות בקבוצה חיצונית היא סוג של הטיה של שיוך לקבוצה.

אפשר לעיין גם במאמר בנושא הטיה לטובת הקבוצה.

זיהוי חריגים

התהליך של זיהוי חריגים בקבוצת אימון.

בניגוד לזיהוי חידושים.

ערכים חריגים

ערכים שונים מרוב הערכים האחרים. בלמידת מכונה, כל אחד מהנתונים הבאים נחשב לחריג:

  • נתוני קלט שהערכים שלהם גדולים מ-3 סטיות סטנדרטיות בערך מהממוצע.
  • משקלים עם ערכים מוחלטים גבוהים.
  • ערכים צפויים שנמצאים רחוק יחסית מהערכים בפועל.

לדוגמה, נניח ש-widget-price היא תכונה של מודל מסוים. נניח שהערך הממוצע widget-price הוא 7 אירו וסטיית התקן היא אירו אחד. לכן, דוגמאות עם הערך widget-price של 12 אירו או 2 אירו ייחשבו כערכים חריגים, כי כל אחד מהמחירים האלה נמצא במרחק של חמש סטיות סטנדרטיות מהממוצע.

בדרך כלל, ערכים חריגים נובעים משגיאות הקלדה או משגיאות אחרות בהזנת נתונים. במקרים אחרים, ערכים חריגים הם לא שגיאות. אחרי הכל, ערכים שנמצאים במרחק של חמש סטיות סטנדרטיות מהממוצע הם נדירים, אבל לא בלתי אפשריים.

ערכים חריגים (outliers) גורמים לבעיות באימון המודלים. חיתוך הוא אחת מהשיטות לטיפול בערכים חריגים.

למידע נוסף, ראו עבודה עם נתונים מספריים בקטע 'קורס מקוצר על למידת מכונה'.

הערכה מחוץ לחבילה (OOB)

#df

מנגנון להערכת האיכות של יער החלטות על ידי בדיקת כל עץ החלטות מול דוגמאות שלא שימשו במהלך האימון של עץ ההחלטות הזה. לדוגמה, בתרשים הבא אפשר לראות שהמערכת מאומנת על כל עץ החלטות בכ-2/3 מהדוגמאות, ולאחר מכן מבצעת הערכה על סמך השליש הנותר של הדוגמאות.

יער החלטות שמורכב משלושה עצי החלטות.
          עץ החלטות אחד מתאמן על שני שלישים מהדוגמאות, ואז משתמש בשליש הנותר לצורך הערכה מחוץ למערך (OOB).
          עץ החלטות שני מתאמן על שני שלישים שונים של הדוגמאות לעומת עץ ההחלטות הקודם, ולאחר מכן משתמש בשליש שונה של הדוגמאות להערכה מחוץ למערך (OOB) לעומת עץ ההחלטות הקודם.

הערכה מחוץ לחבילה היא קירוב שמרני ויעיל מבחינה חישובית למנגנון של אימות חוצה. בתהליך אימות חוצה, מודל אחד מאומן בכל סיבוב של אימות חוצה (לדוגמה, 10 מודלים מאומנים באימות חוצה של 10 סבבים). כשמשתמשים בהערכה מחוץ לקופסה, מתבצע אימון של מודל יחיד. מכיוון שה-bagging משאיר חלק מהנתונים מכל עץ במהלך האימון, הערכה מחוץ למערך יכולה להשתמש בנתונים האלה כדי לבצע הערכה קרובה של אימות חוצה.

מידע נוסף זמין בקטע הערכה מחוץ לחבילה בקורס 'יערות החלטות'.

שכבת הפלט

#fundamentals

השכבה 'האחרונה' של רשת נוירונים. שכבת הפלט מכילה את החיזוי.

באיור הבא מוצגת רשת עצבית עמוקה קטנה עם שכבת קלט, שתי שכבות חבויות ושכבת פלט:

רשת עצבית עם שכבת קלט אחת, שתי שכבות סמויות ושכבת פלט אחת. שכבת הקלט מורכבת משתי תכונות. השכבה החבויה הראשונה מורכבת משלושה תאי עצב, והשכבה החבויה השנייה מורכבת משני תאי עצב. שכבת הפלט מורכבת מצומת יחיד.

התאמת יתר (overfitting)

#fundamentals

יצירת מודל שתואם לנתוני האימון בצורה כה הדוקה, עד שהמודל לא מצליח לבצע חיזויים נכונים על נתונים חדשים.

רגולריזציה יכולה לצמצם את ההתאמה היתרה. אימון על קבוצת אימון גדולה ומגוונת יכול גם לצמצם את ההתאמה היתרה.

מידע נוסף זמין בקטע התאמה יתר בקורס המקוצר על למידת מכונה.

oversampling

שימוש חוזר בדוגמאות של הקבוצה הקטנה יותר במערך נתונים עם חוסר איזון בין הקבוצות כדי ליצור קבוצת אימון מאוזנת יותר.

לדוגמה, נניח בעיית סיווג בינארי שבה היחס בין הרוב לבין המיעוט הוא 5,000:1. אם מערך הנתונים מכיל מיליון דוגמאות, הוא מכיל רק כ-200 דוגמאות של קבוצת המיעוט, ויכול להיות שמדובר במספר קטן מדי של דוגמאות לאימון יעיל. כדי להתגבר על הבעיה הזו, אפשר להשתמש שוב ושוב ב-200 הדוגמאות האלה (לעשות 'oversampling'), וכך לקבל מספיק דוגמאות לאימון שימושי.

חשוב להיזהר מהתאמה יתר כשמשתמשים במדגם גדול מדי.

בניגוד לדגימה חלקית.

P

נתונים ארוזים

גישה לאחסון נתונים בצורה יעילה יותר.

נתונים ארוזים מאוחסנים בפורמט דחוס או בדרך אחרת שמאפשרת גישה יעילה יותר אליהם. נתונים דחוסים מפחיתים את כמות הזיכרון והחישוב הנדרשים כדי לגשת אליהם, וכך מאפשרים אימון מהיר יותר והסקת מסקנות יעילה יותר מהמודל.

לרוב משתמשים בנתונים ארוזים בשילוב עם טכניקות אחרות, כמו הגדלת נתונים וסדרה, כדי לשפר עוד יותר את הביצועים של המודלים.

פנדות

#fundamentals

ממשק API לניתוח נתונים שמתמקד בעמודות, שנבנה על גבי numpy. הרבה מסגרות של למידת מכונה, כולל TensorFlow, תומכות במבני נתונים של pandas כקלט. פרטים נוספים זמינים במסמכי התיעוד של pandas.

פרמטר

#fundamentals

המשקולות וההטיות שהמודל לומד במהלך האימון. לדוגמה, במודל של רגרסיה לינארית, הפרמטרים מורכבים מההטיה (b) ומכל המשקלים (w1,‏ w2 וכן הלאה) בנוסחה הבאה:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

לעומת זאת, הפרמטרים העל-רמתיים הם הערכים שאתם (או שירות לכוונון של פרמטרים על-רמתיים) מספקים למודל. לדוגמה, שיעור הלמידה הוא היפר-פרמטר.

כוונון יעיל בפרמטרים

#language
#generativeAI

קבוצה של שיטות לביצוע כוונון מדויק של מודל שפה גדול (PLM) שהודרן מראש בצורה יעילה יותר מביצוע כוונון מדויק מלא. בכוונון יעיל בפרמטרים, בדרך כלל מתבצעת התאמה אישית של פחות פרמטרים בהשוואה להתאמה אישית מלאה, אבל בדרך כלל נוצר מודל שפה גדול שמניב ביצועים טובים (או כמעט טובים) כמו של מודל שפה גדול שנוצר כתוצאה מהתאמה אישית מלאה.

השוואה בין כוונון יעיל בפרמטרים לבין:

כוונון יעיל בפרמטרים נקרא גם כוונון יעיל בפרמטרים.

שרת פרמטרים (PS)

#TensorFlow

משימה שמשמשת למעקב אחרי הפרמטרים של מודל בסביבה מבוזרת.

עדכון פרמטר

הפעולה של שינוי הפרמטרים של מודל במהלך האימון, בדרך כלל במהלך חזרה אחת של ירידה בגרדינט.

נגזרת חלקית

נגזרת שבה כל המשתנים מלבד אחד נחשבים לקבועים. לדוגמה, הפונקציה המצטברת החלקית של f(x, y) ביחס ל-x היא הפונקציה המצטברת של f כפונקציה של x בלבד (כלומר, כש-y קבוע). נגזרת חלקית של f ביחס ל-x מתמקדת רק באופן שבו x משתנה, ומתעלמת מכל המשתנים האחרים במשוואה.

הטיית השתתפות

#fairness

מונח נרדף לנטייה לא לענות. ראו הטיה של תהליך הבחירה.

אסטרטגיית חלוקה

האלגוריתם שבו המשתנים מחולקים בין שרתי הפרמטרים.

pass at k‏ (pass@k)

מדד לקביעת איכות הקוד (לדוגמה, Python) שנוצר על ידי מודל שפה גדול. באופן ספציפי יותר, הערך pass at k מראה את הסבירות לכך שלפחות בלוק קוד אחד מתוך k בלוקים של קוד שנוצרו יעבור את כל בדיקות היחידה שלו.

לרוב, מודלים גדולים של שפה מתקשים ליצור קוד טוב לבעיות תכנות מורכבות. מהנדסי התוכנה מתמודדים עם הבעיה הזו על ידי בקשה מהמודל הגדול של השפה ליצור מספר (k) פתרונות לאותה בעיה. לאחר מכן, מהנדסי התוכנה בודקים כל אחד מהפתרונות באמצעות בדיקות יחידה. החישוב של 'הצלחה ב-k' תלוי בתוצאה של בדיקות היחידה:

  • אם פתרון אחד או יותר עובר את בדיקת היחידה, ה-LLM עובר את האתגר של יצירת הקוד.
  • אם אף אחד מהפתרונות לא עובר את בדיקת היחידה, ה-LLM נכשל באתגר יצירת הקוד.

הנוסחה לעבור ב-k היא:

\[\text{pass at k} = \frac{\text{total number of passes}} {\text{total number of challenges}}\]

באופן כללי, ככל שהערך של k גבוה יותר, כך ציון ה-pass ב-k גבוה יותר. עם זאת, ככל שהערך של k גבוה יותר, כך נדרשים יותר משאבים של מודלים גדולים של שפה ובדיקות יחידה.

Pax

מסגרת תכנות שמיועדת לאימון מודלים של רשתות נוירונים בקנה מידה נרחב, כל כך גדולים שהם נפרסים על פני כמה שבבי מאיץ פרוסות או אשכולות של TPU.

Pax מבוסס על Flax, שמבוסס על JAX.

תרשים שמציג את המיקום של Pax בסטאק התוכנה.
          Pax מבוסס על JAX. Pax עצמו מורכב משלוש שכבות. השכבה התחתונה מכילה את TensorStore ואת Flax.
          השכבה האמצעית מכילה את Optax ו-Flaxformer. השכבה העליונה מכילה את Praxis Modeling Library. Fiddle מבוסס על Pax.

פרצפטרון

מערכת (חומרה או תוכנה) שמקבלת ערך קלט אחד או יותר, מפעילה פונקציה על הסכום המשוקלל של הערכים הקלט ומחשבת ערך פלט יחיד. בלמידת מכונה, הפונקציה היא בדרך כלל לא לינארית, כמו ReLU,‏ sigmoid או tanh. לדוגמה, ה-perceptron הבא מסתמך על פונקציית ה-sigmoid כדי לעבד שלושה ערכים של קלט:

$$f(x_1, x_2, x_3) = \text{sigmoid}(w_1 x_1 + w_2 x_2 + w_3 x_3)$$

באיור הבא, ה-perceptron מקבל שלושה מקורות קלט, שכל אחד מהם עובר שינוי על ידי משקל לפני שהוא נכנס ל-perceptron:

פרצפטרון שמקבל 3 מקורות קלט, שכל אחד מהם מוכפל בערכים נפרדים של משקלים. הפלט של הפרספטרון הוא ערך יחיד.

פרצפטרון הוא נוירון ברשתות נוירונים.

ביצועים

מונח עם עומס יתר, עם המשמעויות הבאות:

  • המשמעות הרגילה בהנדסת תוכנה. כלומר: עד כמה התוכנה הזו פועלת במהירות (או ביעילות)?
  • המשמעות בלמידת מכונה. כאן, הביצועים עונים על השאלה הבאה: עד כמה המודל הזה מדויק? כלומר, מה רמת הדיוק של התחזיות של המודל?

רמות החשיבות של משתני תמורה

#df

סוג של חשיבות משתנה שמאפשר להעריך את העלייה בשגיאת החיזוי של מודל אחרי שינוי הסדר של הערכים של המאפיין. המדד 'חשיבות משתנה המַפְרִין' הוא מדד שאינו תלוי במודל.

בלבול

מדד אחד של מידת היעילות שבה מודל ממלא את המשימה שלו. לדוגמה, נניח שהמשימה שלכם היא לקרוא את האותיות הראשונות של מילה שהמשתמש מקליד במקלדת הטלפון, ולהציע רשימה של מילים אפשריות להשלמה. הערך של Perplexity‏, P, במשימה הזו הוא בערך מספר ההשערות שצריך להציע כדי שהרשימה תכיל את המילה בפועל שהמשתמש מנסה להקליד.

הבלבול קשור לאנtropy חוצה באופן הבא:

$$P= 2^{-\text{cross entropy}}$$

צינור עיבוד נתונים

התשתית שמקיפה אלגוריתם של למידת מכונה. צינור עיבוד נתונים כולל את איסוף הנתונים, הכנסת הנתונים לקובצי נתוני אימון, אימון של מודל אחד או יותר וייצוא המודלים לסביבת הייצור.

מידע נוסף זמין בקטע צינורות עיבוד נתונים ל-ML בקורס 'ניהול פרויקטים של למידת מכונה'.

צינור עיבוד נתונים

#language

סוג של מודל מקבילי שבו העיבוד של המודל מחולק לשלבים עוקבים וכל שלב מבוצע במכשיר אחר. בזמן ששלב מסוים מעבד קבוצה אחת, השלב הקודם יכול לעבד את הקבוצה הבאה.

אפשר גם לעיין במאמר הדרכה מדורגת.

pjit

פונקציית JAX שמחלקת את הקוד כך שיופעל בכמה שבבי מאיץ. המשתמש מעביר פונקציה ל-pjit, שמחזירה פונקציה עם סמנטיקה זהה, אבל היא מתורגמת לחישוב XLA שפועל במספר מכשירים (כמו מעבדי GPU או ליבות TPU).

בעזרת pjit, משתמשים יכולים לפצל חישובים בלי לכתוב אותם מחדש באמצעות מחלק המחיצות SPMD.

החל ממרץ 2023, pjit מוזג עם jit. פרטים נוספים זמינים במאמר מערכי משנה מבוזרים וביצוע מקבילי אוטומטי.

PLM

#language
#generativeAI

קיצור של מודל שפה שעבר אימון מראש.

pmap

פונקציית JAX שמריצה עותקים של פונקציית קלט במספר מכשירי חומרה בסיסיים (מעבדים, מעבדי GPU או TPU), עם ערכי קלט שונים. הפונקציה pmap מסתמכת על SPMD.

policy

#rl

בלמידת חיזוקים, מיפוי פרובוביליסטי של סוכן ממצבים לפעולות.

איחוד

#image

צמצום של מטריצה (או מטריצות) שנוצרו על ידי שכבת עיבוד קוונטי מוקדמת יותר למטריצה קטנה יותר. בדרך כלל, הצבירה כוללת את הערך המקסימלי או הממוצע של האזור המצטבר. לדוגמה, נניח שיש לנו את המטריצה הבאה בגודל 3x3:

המטריצה 3x3‏ [[5,3,1], [8,2,5], [9,4,3]].

פעולת צבירה, כמו פעולת convolve, מחלקת את המטריצה הזו לפרוסות ואז מחליקה את פעולת ה-convolve לפי strides. לדוגמה, נניח שפעולת ה-pooling מחלקת את מטריצת הקוונטילציה לפרוסות בגודל 2x2 עם צעד של 1x1. כפי שמוצג בתרשים הבא, מתבצעות ארבע פעולות של צבירת נתונים. נניח שכל פעולת איסוף בוחרת את הערך המקסימלי מתוך ארבעת הערכים באותו פרוסת זמן:

מטריצת הקלט היא 3x3 עם הערכים: [[5,3,1], [8,2,5], [9,4,3]].
          מטריצת המשנה 2x2 בפינה הימנית העליונה של מטריצת הקלט היא [[5,3], [8,2]], כך שפעולת ה-pooling בפינה הימנית העליונה מניבה את הערך 8 (הערך המקסימלי של 5, 3, 8 ו-2). מטריצת המשנה 2x2 בפינה השמאלית העליונה של מטריצת הקלט היא [[3,1], [2,5]], כך שפעולת ה-pooling בפינה השמאלית העליונה מניבה את הערך 5. מטריצת המשנה 2x2 בפינה הימנית התחתונה של מטריצת הקלט היא
          [[8,2], [9,4]], כך שפעולת ה-pooling בפינה הימנית התחתונה מניבה את הערך
          9. מטריצת המשנה 2x2 בפינה השמאלית התחתונה של מטריצת הקלט היא
          [[2,5], [4,3]], כך שפעולת ה-pooling בפינה השמאלית התחתונה מניבה את הערך
          5. לסיכום, פעולת ה-pooling מניבה את המטריצה 2x2‏ ‎[[8,5], [9,5]].

המצטבר עוזר לאכוף עמידות בטרנסלוציה במטריית הקלט.

הצבירה של מודלים לאפליקציות ראייה ידועה באופן רשמי יותר בתור צבירה מרחבית. באפליקציות של סדרות זמן, בדרך כלל קוראים לצבירה צבירה זמנית. באופן לא רשמי, יצירת מאגרים נקראת לעיתים קרובות דגימה משנית או דגימה לגודל קטן יותר.

מידע נוסף זמין במאמר מבוא לרשתות עצביות מתקפלות בקורס ML Practicum: Image Classification.

קידוד מיקומי

#language

שיטה להוספת מידע על המיקום של טוקן ברצף להטמעת הטוקן. מודלים של Transformer משתמשים בקידוד מיקומי כדי להבין טוב יותר את הקשר בין חלקים שונים ברצף.

הטמעה נפוצה של קידוד מיקומי מתבססת על פונקציה סינוסית. (בפרט, התדירות והמשרעת של הפונקציה הסינוסואידית נקבעות לפי המיקום של האסימון ברצף). הטכניקה הזו מאפשרת למודל Transformer ללמוד להתמקד בחלקים שונים של הרצף על סמך המיקום שלהם.

מחלקה חיובית

#fundamentals

הכיתה שאליה אתם בודקים את התלמידים.

לדוגמה, הכיתה החיובית בדגם של סרטן עשויה להיות 'גידול'. הכיתה החיובית בסיווג אימיילים עשויה להיות 'ספאם'.

בניגוד לכיתה שלילית.

עיבוד תמונה (Post Processing)

#fairness
#fundamentals

שינוי הפלט של מודל אחרי ההרצה שלו. אפשר להשתמש בעיבוד נתונים לאחר העיבוד כדי לאכוף אילוצים של הוגנות בלי לשנות את המודלים עצמם.

לדוגמה, אפשר להחיל עיבוד נתונים לאחר תהליך למסווג בינארי על ידי הגדרת סף סיווג כך ששוויון הזדמנויות יישמר למאפיין מסוים, על ידי בדיקה ששיעור החיובים האמיתיים זהה לכל הערכים של המאפיין הזה.

מודל לאחר אימון

#language
#image
#generativeAI

מונח לא מוגדר במדויק שמתייחס בדרך כלל למודל שהודרן מראש שעבר עיבוד פוסט-טראיטמנט, כמו אחת או יותר מהפעולות הבאות:

AUC של יחסי ציבור (השטח מתחת לעקומת יחסי הציבור)

האזור מתחת לעקומת הדיוק-הזיהוי שעבר אינטרפולציה, שנוצר על ידי הצגה גרפית של הנקודות (זיהוי, דיוק) לערכים שונים של סף הסיווג.

Praxis

ספריית ML ליבה בעלת ביצועים גבוהים של Pax. ל-Praxis קוראים לעתים קרובות 'ספריית השכבות'.

Praxis מכיל לא רק את ההגדרות של שכבת Layer, אלא גם את רוב הרכיבים התומכים שלה, כולל:

ב-Praxis מופיעות ההגדרות של Class Model.

דיוק

מדד למודלים של סיווג שמשיב על השאלה הבאה:

כשהמודל חזה את הקלאס החיובי, מהו אחוז התחזיות שהיו נכונות?

זו הנוסחה:

$$\text{Precision} = \frac{\text{true positives}} {\text{true positives} + \text{false positives}}$$

כאשר:

  • 'חיובי נכון' פירושו שהמודל חזה בצורה נכונה את הכיתה החיובית.
  • תוצאה חיובית שגויה פירושה שהמודל בטעות חזה את הכיתה החיובית.

לדוגמה, נניח שהמודל נתן 200 תחזיות חיוביות. מתוך 200 התחזיות החיוביות האלה:

  • 150 היו תוצאות חיוביות אמיתיות.
  • 50 מהן היו תוצאות חיוביות כוזבות.

במקרה זה:

$$\text{Precision} = \frac{\text{150}} {\text{150} + \text{50}} = 0.75$$

בניגוד לדיוק ולזיהוי.

למידע נוסף, ראו סיווג: דיוק, זיכרון, רמת דיוק ומדדים קשורים במדריך למתחילים בנושא למידת מכונה.

דיוק ברמה k (precision@k)

#language

מדד להערכת רשימה של פריטים (מסודרת) לפי דירוג. הדיוק ב-k מתייחס לחלק מהפריטים הראשונים ברשימה (k) שהם 'רלוונטיים'. כלומר:

\[\text{precision at k} = \frac{\text{relevant items in first k items of the list}} {\text{k}}\]

הערך של k חייב להיות קטן או שווה לאורך הרשימה שמוחזרת. שימו לב שאורך הרשימה שמוחזרת לא נכלל בחישוב.

הרלוונטיות היא לרוב סובייקטיבית, וגם בודקים אנושיים מומחים לא תמיד מסכימים על הפריטים הרלוונטיים.

השווה ל:

עקומת דיוק-זיהוי

עקומה של דיוק לעומת זיהוי בסף סיווג שונה.

חיזוי (prediction)

#fundamentals

הפלט של מודל. לדוגמה:

  • התחזית של מודל סיווג בינארי היא הכיתה החיובית או הכיתה השלילית.
  • התחזית של מודל סיווג עם כמה מחלקות היא מחלקה אחת.
  • התחזית של מודל רגרסיה ליניארית היא מספר.

הטיה בתחזית

ערך שמציין את המרחק בין הממוצע של התחזיות לבין הממוצע של התוויות במערך הנתונים.

חשוב לא להתבלבל עם המונח 'הטיה' במודלים של למידת מכונה, או עם הטיה מבחינה אתית וצודקת.

למידת מכונה חזוי

כל מערכת רגילה ('קלאסית') של למידת מכונה.

אין הגדרה רשמית למונח למידת מכונה חזוי. במקום זאת, המונח מבדיל בין קטגוריה של מערכות למידת מכונה שלא מבוססות על בינה מלאכותית גנרטיבית.

תאימות חזוי

#fairness

מדד הוגנות שבודק אם, למסווג נתון, שיעורי הדיוק זהים בקבוצות המשנה שנבדקות.

לדוגמה, מודל שמתבסס על נתונים היסטוריים כדי לחזות את הסיכוי להתקבל לקולג' יעמוד בקריטריון של שוויון חיזוי לפי לאום אם שיעור הדיוק שלו זהה לזה של נתונים היסטוריים לגבי סטודנטים ממדינות שונות.

'התאמה חזותית חזותית' נקראת לפעמים גם התאמה חזותית חזותית.

לסקירה מפורטת יותר על שוויון חיזוי, אפשר לעיין בקטע הסבר על הגדרות של הוגנות (סעיף 3.2.1).

שיעור חליפין חזוי

#fairness

שם נוסף להתאמה חזוי.

עיבוד מראש

#fairness
עיבוד נתונים לפני שהם משמשים לאימון מודל. עיבוד מקדים יכול להיות פשוט כמו הסרת מילים ממאגר טקסט באנגלית שלא מופיעות במילון האנגלי, או מורכב כמו ביטוי מחדש של נקודות נתונים באופן שמבטל כמה שיותר מאפיינים שיש להם קורלציה למאפיינים רגישים. עיבוד מקדים יכול לעזור לעמוד באילוצים של הוגנות.

מודל שעבר אימון מראש

#language
#image
#generativeAI

בדרך כלל, מודל שכבר אומן. המונח יכול גם להתייחס לוקטור הטמעה שעבר אימון קודם.

המונח מודל שפה שהודרן מראש מתייחס בדרך כלל למודל שפה גדול שכבר אומן.

אימון מקדים

#language
#image
#generativeAI

האימון הראשוני של מודל על מערך נתונים גדול. חלק מהמודלים שהוכשרו מראש הם 'ענקים גמלוניים', ובדרך כלל צריך לשפר אותם באמצעות אימון נוסף. לדוגמה, מומחי למידת מכונה עשויים לאמן מראש מודל שפה גדול על מערך נתונים עצום של טקסט, כמו כל הדפים באנגלית בוויקיפדיה. אחרי האימון המקדים, אפשר לשפר את המודל שנוצר באמצעות אחת מהשיטות הבאות:

אמונה פריורית

מה אתם מאמינים לגבי הנתונים לפני שאתם מתחילים לאמן אותם. לדוגמה, תיקון רגולרי מסוג L2 מבוסס על ההנחה המוקדמת שהמשקלים צריכים להיות קטנים ועם התפלגות נורמלית סביב אפס.

מודל רגרסיה פרוגנוסטי

מודל רגרסיה שמשתמש לא רק במשקלים לכל מאפיין, אלא גם בערפל הנתונים של המשקלים האלה. מודל רגרסיה פרובאבילסטי יוצר חיזוי ואת מידת אי-הבהירות של החיזוי. לדוגמה, מודל רגרסיה פרובאבילסטית עשוי להניב תחזית של 325 עם סטיית תקן של 12. מידע נוסף על מודלים של רגרסיה פרובאבליסטית זמין ב-Colab ב-tensorflow.org.

פונקציית צפיפות ההסתברות

פונקציה שמזהה את התדירות של דגימות נתונים שיש להן בדיוק ערך מסוים. כשהערכים של מערך נתונים הם מספרים רציפים של נקודה צפה, התאמות מדויקות מתרחשות לעיתים רחוקות. עם זאת, אינטגרציה של פונקציית צפיפות ההסתברות מהערך x לערך y מניבה את התדירות הצפויה של דגימות הנתונים בין x ל-y.

לדוגמה, נניח התפלגות נורמלית עם ממוצע של 200 וסטיית תקן של 30. כדי לקבוע את התדירות הצפויה של דגימות נתונים שנמצאות בטווח 211.4 עד 218.7, אפשר לשלב את פונקציית הצפיפות של ההסתברות להתפלגות נורמלית מ-211.4 עד 218.7.

הנחיה

#language
#generativeAI

כל טקסט שמוזן כקלט למודל שפה גדול כדי לכוונן את המודל להתנהגות מסוימת. ההנחיות יכולות להיות קצרות כמו ביטוי או ארוכות ככל הצורך (לדוגמה, כל הטקסט של רומן). ההנחיות מחולקות לכמה קטגוריות, כולל אלה שמפורטות בטבלה הבאה:

קטגוריית ההנחיה דוגמה הערות
שאלה מהי מהירות הטיסה של יונה?
הוראות כתיבת שיר מצחיק על מיקסום רווחים. הנחיה שמבקשת ממודל השפה הגדול לבצע משהו.
דוגמה תרגום קוד Markdown ל-HTML. לדוגמה:
Markdown: * פריט ברשימת
HTML: <ul> <li>פריט ברשימת</li> </ul>
המשפט הראשון בהנחיה הזו הוא הוראה. שאר ההנחיה היא הדוגמה.
תפקיד הסבר למה משתמשים בירידת שיפוע (gradient descent) באימון של למידת מכונה לצורך קבלת דוקטורט בפיזיקה. החלק הראשון של המשפט הוא הוראה, והביטוי "לתואר דוקטור בפיזיקה" הוא החלק של התפקיד.
קלט חלקי למודל להשלמה ראש ממשלת בריטניה מתגורר בכתובת הנחיה חלקית להזנת קלט יכולה להסתיים באופן פתאומי (כמו בדוגמה הזו) או להסתיים בקו תחתון.

מודל של בינה מלאכותית גנרטיבית יכול להגיב להנחיה באמצעות טקסט, קוד, תמונות, מיקומים מוטמעים, סרטונים… כמעט כל דבר.

למידה מבוססת-הנחיה

#language
#generativeAI

יכולת של מודלים מסוימים שמאפשרת להם להתאים את ההתנהגות שלהם בתגובה לקלט טקסט שרירותי (הנחיות). בפרדיגמה רגילה של למידה מבוססת-הנחיה, מודל שפה גדול מגיב להנחיה על ידי יצירת טקסט. לדוגמה, נניח שמשתמש מזין את ההנחיה הבאה:

לסכם את חוק התנועה השלישי של ניוטון.

מודל שיכול ללמוד על סמך הנחיות לא עובר אימון ספציפי כדי לענות על ההנחיה הקודמת. במקום זאת, המודל 'יודע' הרבה עובדות על פיזיקה, הרבה על כללי שפה כלליים והרבה על מה שמרכיב תשובות שימושיות באופן כללי. הידע הזה מספיק כדי לספק תשובה שימושית (אני מקווה). משוב אנושי נוסף ('התשובה הזו הייתה מורכבת מדי' או 'מהי תגובה?') מאפשר לחלק ממערכות הלמידה שמבוססות על הנחיות לשפר בהדרגה את התועלת של התשובות שלהן.

עיצוב הנחיות

#language
#generativeAI

מילה נרדפת ל-הנדסת הנחיות.

הנדסת הנחיות

#language
#generativeAI

האמנות של יצירת הנחיות שמניבות את התשובות הרצויות ממודל שפה גדול. בני אדם מבצעים את תהליך הנדסת ההנחיות. כתיבת הנחיות עם מבנה טוב היא חלק חיוני כדי לקבל תשובות מועילות ממודל שפה גדול. תכנון ההנחיות תלוי בגורמים רבים, כולל:

עיצוב הנחיות הוא מונח נרדף להנדסת הנחיות.

מבוא לתכנון הנחיות – מידע נוסף על כתיבת הנחיות מועילות.

כוונון של הנחיות

#language
#generativeAI

מנגנון כוונון יעיל בפרמטרים שמלמד את המערכת להוסיף 'תחילית' להנחיה בפועל.

וריאציה אחת של התאמת ההנחיה – שנקראת לפעמים התאמת תחילית – היא הוספת התחילית לכל שכבה. לעומת זאת, רוב ההתאמות של ההנחיות מוסיפות רק קידומת לשכבת הקלט.

שרת proxy (מאפיינים רגישים)

#fairness
מאפיין שמשמש כתחליף למאפיין רגיש. לדוגמה, יכול להיות שהמיקוד של אדם ישמש כסמל לנתונים כמו ההכנסה, הגזע או האתניות שלו.

תוויות proxy

#fundamentals

נתונים שמשמשים להערכת תוויות שלא זמינות באופן ישיר במערך נתונים.

לדוגמה, נניח שאתם צריכים לאמן מודל כדי לחזות את רמת הלחץ של העובדים. מערך הנתונים מכיל הרבה תכונות חיזוי, אבל לא מכיל תווית בשם רמת לחץ. לא מתייאשים ובוחרים ב'תאונות במקום העבודה' בתור תווית עקיפה לרמת הלחץ. אחרי הכל, עובדים שנמצאים במצב של לחץ גבוה מעורבים ביות יותר תאונות מאשר עובדים רגועים. או שמא לא? יכול להיות שמספר תאונות במקום העבודה עולה ויורד מכמה סיבות.

דוגמה שנייה: נניח שרוצים שהתוויות is it raining? יהיו תוויות בוליאניות למערך הנתונים, אבל מערך הנתונים לא מכיל נתוני גשם. אם יש לכם תמונות זמינות, תוכלו להגדיר תמונות של אנשים עם מטריות כתוויות חלופיות לשאלה is it raining? האם זו תווית proxy טובה? יכול להיות, אבל יכול להיות שאנשים בתרבויות מסוימות נוטים יותר לשאת מטרייה כדי להגן מפני השמש מאשר מפני הגשם.

לרוב, תוויות שרת proxy לא מושלמות. במידת האפשר, כדאי לבחור בתוויות אמיתיות במקום בתוויות proxy. עם זאת, אם אין תווית בפועל, צריך לבחור את תווית ה-proxy בקפידה רבה, ולבחור את תווית ה-proxy הכי פחות גרועה.

למידע נוסף, ראו מערכי נתונים: תוויות בקטע 'קורס מקוצר על למידת מכונה'.

פונקציה טהורה

פונקציה שהפלטים שלה מבוססים רק על הקלט שלה, ואין לה השפעות לוואי. באופן ספציפי, פונקציה טהורה לא משתמשת במצב גלובלי או משנה אותו, כמו תוכן של קובץ או ערך של משתנה מחוץ לפונקציה.

אפשר להשתמש בפונקציות טהורות כדי ליצור קוד בטוח לשרשור (thread-safe), וזה מועיל כשמחלקים את הקוד של המודל לכמה שבבי מאיץ.

שיטות הטרנספורמציה של פונקציות ב-JAX מחייבות שפונקציות הקלט יהיו פונקציות טהורות.

Q

פונקציית Q

#rl

בלמידת חיזוק, הפונקציה שמנבאת את התשואה הצפויה מביצוע פעולה במצב, ולאחר מכן ביצוע מדיניות נתונה.

פונקציית Q נקראת גם פונקציית ערך של מצב-פעולה.

Q-learning

#rl

בלמידת חיזוק, אלגוריתם שמאפשר לסוכן ללמוד את פונקציית ה-Q האופטימלית של תהליך החלטה של מרקוב על ידי החלת המשוואה של בלמן. תהליך קבלת ההחלטות של מרקוב מייצג סביבה.

quantile

כל קטגוריה בחלוקה לקטגוריות לפי רמת ריכוז (quantile).

חלוקה לקטגוריות לפי רמת ריכוז (quantile)

חלוקת הערכים של מאפיין לקטגוריות, כך שכל קטגוריה מכילה את אותו מספר דוגמאות (או כמעט אותו מספר). לדוגמה, באיור הבא 44 הנקודות מחולקות ל-4 קטגוריות, כל אחת מכילה 11 נקודות. כדי שכל קטגוריה בתרשים תכיל את אותו מספר נקודות, חלק מהקטגוריות מכסות רוחב שונה של ערכי x.

44 נקודות נתונים מחולקות ל-4 קטגוריות של 11 נקודות כל אחת.
          כל קטגוריה מכילה את אותו מספר נקודות נתונים, אבל יש קטגוריות שמכילות טווח רחב יותר של ערכי מאפיינים בהשוואה לקטגוריות אחרות.

למידע נוסף, ראו נתונים מספריים: קיבוץ בקטע 'קורס מקוצר על למידת מכונה'.

קצוב

מונח בעל עומס יתר שאפשר להשתמש בו בכל אחת מהדרכים הבאות:

  • הטמעת חלוקה לקטגוריות לפי רמת ריכוז (quantile) במאפיין מסוים.
  • טרנספורמציה של נתונים לאפסים ואחדים כדי לאפשר אחסון, אימון והסקה מהירים יותר. מאחר שנתונים בוליאנים עמידים יותר בפני רעש ושגיאות בהשוואה לפורמטים אחרים, קידוד קצבי יכול לשפר את תקינות המודל. טכניקות של כימות כוללות עיגול, חיתוך ומיון.
  • צמצום מספר הביטים שמשמש לאחסון הפרמטרים של המודל. לדוגמה, נניח שהפרמטרים של מודל מאוחסנים כמספרים של 32 ביט עם נקודה צפה. במסגרת הקידוד, המערכת ממירה את הפרמטרים האלה מ-32 ביט ל-4, 8 או 16 ביט. בעזרת הקידוד אפשר לצמצם את הנתונים הבאים:

    • שימוש במשאבי מחשוב, זיכרון, דיסק ורשת
    • זמן להסיק טענת נכוֹנוּת
    • צריכת חשמל

    עם זאת, לפעמים הקידוד מקטין את הדיוק של התחזיות של המודל.

רשימת סרטונים

#TensorFlow

פעולה ב-TensorFlow שמטמיעה מבנה נתונים של תור. בדרך כלל משתמשים בהם ב-I/O.

R

RAG

#fundamentals

קיצור של יצירת מודלים שמבוססת על אחזור.

יער אקראי

#df

אוסף של עצים של החלטות, שבהם כל עץ החלטות מאומן באמצעות רעש אקראי ספציפי, כמו bagging.

יערות אקראיים הם סוג של יער החלטות.

מידע נוסף זמין בקטע Random Forest בקורס 'יערות החלטות'.

מדיניות אקראית

#rl

בלמידת חיזוק, מדיניות שבוחרת פעולה באופן אקראי.

דירוג (סדר)

המיקום הסידורי של כיתה בבעיה של למידת מכונה, שמסווגת את הכיתות מהגבוהה ביותר לנמוכה ביותר. לדוגמה, מערכת לדירוג התנהגות יכולה לדרג את התגמולים של כלב מהגבוה ביותר (סטייק) עד הנמוך ביותר (כרוב חביתי דהוי).

rank (Tensor)

#TensorFlow

מספר המאפיינים בTensor. לדוגמה, למשתנה סקלרי יש דרגה 0, למשתנה וקטור יש דרגה 1 ולמטריצה יש דרגה 2.

לא להתבלבל עם דירוג (סדר).

דירוג

סוג של למידה מונחית שמטרתו לסדר רשימה של פריטים.

בודק/ת

#fundamentals

אדם שמספק תוויות לדוגמאות. 'מתעד' הוא שם נוסף למעריך.

למידע נוסף, אפשר לעיין בקטע נתונים קטגוריאליים: בעיות נפוצות במדריך למתחילים בלמידת מכונה.

recall

מדד למודלים של סיווג שמשיב על השאלה הבאה:

כשהעובדות האמיתיות היו הקלאס החיובי, מהו אחוז התחזיות שהמודל זיהה כקלאס החיובי בצורה נכונה?

זו הנוסחה:

\[\text{Recall} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}} \]

כאשר:

  • 'חיובי נכון' פירושו שהמודל חזה בצורה נכונה את הכיתה החיובית.
  • תוצאה שלילית שגויה (false negative) פירושה שהמודל בטעות חזה את הקטגוריה השלילית.

לדוגמה, נניח שהמודל שלכם ביצע 200 תחזיות לגבי דוגמאות שבהן האמת בפועל הייתה הכיתה החיובית. מתוך 200 התחזיות האלה:

  • 180 מהן היו תוצאות חיוביות אמיתיות.
  • 20 מהן היו תוצאות שליליות שגויות.

במקרה זה:

\[\text{Recall} = \frac{\text{180}} {\text{180} + \text{20}} = 0.9 \]

מידע נוסף זמין במאמר סיווג: דיוק, זיכרון, רמת דיוק ומדדים קשורים.

recall at k‏ (recall@k)

#language

מדד להערכת מערכות שמפיקות רשימה של פריטים (מסודרת) לפי דירוג. החזרה ב-k מזהה את החלק היחסי של הפריטים הרלוונטיים ב-k הפריטים הראשונים ברשימה הזו, מתוך המספר הכולל של הפריטים הרלוונטיים שהוחזרו.

\[\text{recall at k} = \frac{\text{relevant items in first k items of the list}} {\text{total number of relevant items in the list}}\]

בניגוד לדיוק ברמה k.

מערכת המלצות

#recsystems

מערכת שבוחרת לכל משתמש קבוצה קטנה יחסית של פריטים רצויים מתוך מאגר גדול. לדוגמה, מערכת המלצות לסרטונים עשויה להמליץ על שני סרטונים מתוך מאגר של 100,000 סרטונים, ולבחור את הסרטים קזבלנקה והסיפור על פילדלפיה למשתמש אחד, ואת הסרטים וונדר וומן והפנתר השחור למשתמש אחר. מערכת המלצות לסרטונים עשויה להסתמך על גורמים כמו:

  • סרטים שדירגתם או צפיתם בהם, וגם סרטים שדירגו או צפו בהם משתמשים דומים.
  • ז'אנר, במאים, שחקנים, דמוגרפיית יעד...

מידע נוסף זמין בקורס 'מערכות המלצות'.

יחידה לינארית מתוקנת (ReLU)

#fundamentals

פונקציית הפעלה עם ההתנהגות הבאה:

  • אם הקלט הוא שלילי או אפס, הפלט הוא 0.
  • אם הקלט חיובי, הפלט שווה לקלט.

לדוגמה:

  • אם הקלט הוא -3, הפלט הוא 0.
  • אם הקלט הוא +3, הפלט הוא 3.0.

זוהי תרשים של ReLU:

תרשים קרטוזי של שתי שורות. לשורה הראשונה יש ערך y קבוע של 0, שפועל לאורך ציר ה-x מ--infinity,0 עד 0,-0.
          השורה השנייה מתחילה ב-0,0. לשיפוע של הקו הזה יש ערך +1, ולכן הוא עובר מ-0,0 ל-+infinity,+infinity.

ReLU היא פונקציית הפעלה פופולרית מאוד. למרות ההתנהגות הפשוטה שלו, ReLU עדיין מאפשר לרשת עצבית ללמוד קשרים לא לינאריים בין המאפיינים לבין התוויות.

רשת נוירונים חוזרת

#seq

רשת נוירונים שמופעלת בכוונה כמה פעמים, כאשר חלקים מכל הפעלה מועברים להפעלה הבאה. באופן ספציפי, שכבות חבויות מהרצה הקודמת מספקות חלק מהקלט לאותה שכבה מוסתרת ברצפה הבאה. רשתות נוירונים חוזרות שימושיות במיוחד להערכת רצפים, כך שהשכבות המוסתרות יכולות ללמוד מפעולות קודמות של רשת העצבים בחלקים קודמים של הרצף.

לדוגמה, באיור הבא מוצגת רשת נוירונים חוזרת שפועלת ארבע פעמים. שימו לב שהערכים שנלמדו בשכבות המוסתרות מההרצה הראשונה הופכים לחלק מהקלט של אותן שכבות מוסתרות בהרצה השנייה. באופן דומה, הערכים שנלמדו בשכבה המוצפנת במהלך ההרצה השנייה הופכים לחלק מהקלט של אותה שכבה מוצפנת במהלך ההרצה השלישית. כך, רשת העצבים הרגולרית מתאמנת בהדרגה ומנבאת את המשמעות של הרצף כולו, ולא רק את המשמעות של מילים בודדות.

RNN שפועלת ארבע פעמים כדי לעבד ארבע מילות קלט.

טקסט עזר

#language
#generativeAI

תשובה של מומחה להנחיה. לדוגמה, בהנחיה הבאה:

תרגום השאלה "What is your name?‎" מאנגלית לצרפתית.

התשובה של המומחה עשויה להיות:

Comment vous appelez-vous?

מדדים שונים (כמו ROUGE) מודדים את מידת ההתאמה של טקסט העזר לטקסט שנוצר של מודל ה-ML.

מודל רגרסיה

#fundamentals

באופן לא רשמי, מודל שיוצר חיזוי מספרי. (לעומת זאת, מודל סיווג יוצר חיזוי של סיווג). לדוגמה, אלה כל המודלים של הרגרסיה:

  • מודל שמתאים את הערך של בית מסוים באירו, למשל 423,000.
  • מודל לחיזוי תוחלת החיים של עץ מסוים בשנים, למשל 23.2.
  • מודל לחיזוי כמות הגשם בסנטימטרים שיתרחש בעיר מסוימת במהלך שש השעות הבאות, למשל 0.18.

שני סוגים נפוצים של מודלים של רגרסיה הם:

  • רגרסיה לינארית, שמוצאת את הקו שמתאים בצורה הטובה ביותר את ערכי התוויות למאפיינים.
  • רגרסיה לוגיסטית, שמפיקה סבירות בין 0.0 ל-1.0 שהמערכת ממפה בדרך כלל לחיזוי של סיווג.

לא כל מודל שמפיק תחזיות מספריות הוא מודל רגרסיה. במקרים מסוימים, תחזית מספרית היא למעשה רק מודל סיווג שבמקרה יש לו שמות של כיתות מספריות. לדוגמה, מודל שמתאר מיקוד מספרי הוא מודל סיווג, ולא מודל רגרסיה.

רגולריזציה (regularization)

#fundamentals

כל מנגנון שמפחית את התאמה יתר. דוגמאות לסוגים נפוצים של רגולריזציה:

אפשר גם להגדיר רגולריזציה כעונש על המורכבות של מודל.

מידע נוסף זמין בקטע Overfitting: Model complexity (התאמה יתר: מורכבות המודל) בקורס המקוצר על למידת מכונה.

שיעור הרגולריזציה

#fundamentals

מספר שמציין את החשיבות היחסית של הסדרה במהלך האימון. הגדלת שיעור הרגולריזציה מפחיתה את התאמה יתר, אבל עשויה לצמצם את יכולת החיזוי של המודל. לעומת זאת, הפחתה או השמטה של שיעור הרגיליזציה מגדילה את ההתאמה היתרה.

מידע נוסף זמין בקטע Overfitting: L2 regulation בקורס המקוצר על למידת מכונה.

למידת חיזוק (RL)

#rl

משפחה של אלגוריתמים שמלמדים מדיניות אופטימלית, שמטרתה למקסם את התשואה במהלך אינטראקציה עם סביבה. לדוגמה, התגמול האולטימטיבי ברוב המשחקים הוא ניצחון. מערכות של למידת חיזוק יכולות להפוך למומחות במשחקים מורכבים על ידי הערכת רצפים של מהלכים קודמים במשחק שהובילו בסופו של דבר לניצחונות, ורצפים שהובילו בסופו של דבר להפסדים.

למידת חיזוק ממשוב אנושי (RLHF)

#generativeAI
#rl

שימוש במשוב מדרגים אנושיים כדי לשפר את איכות התשובות של מודל. לדוגמה, מנגנון RLHF יכול לבקש מהמשתמשים לדרג את האיכות של התשובה של המודל באמצעות אמוג'י 👍 או 👎. לאחר מכן, המערכת תוכל לשנות את התשובות העתידיות שלה על סמך המשוב הזה.

ReLU

#fundamentals

קיצור של יחידה לינארית מתוקנת.

מאגר נתונים זמני להפעלה מחדש

#rl

באלגוריתמים שדומים ל-DQN, הזיכרון שבו הסוכן משתמש לאחסון מעברי מצב לשימוש בחוויית 'הפעלה מחדש'.

רפליקה

עותק של קבוצת האימון או של המודל, בדרך כלל במכונה אחרת. לדוגמה, מערכת יכולה להשתמש באסטרטגיה הבאה להטמעת מקבילות נתונים:

  1. הצבת רפליקות של מודל קיים במספר מכונות.
  2. שולחים קבוצות משנה שונות של קבוצת האימון לכל עותק.
  3. צבירת העדכונים של הפרמטר.

הטיית דיווח

#fairness

העובדה שתדירות הכתיבה של אנשים על פעולות, תוצאות או נכסים לא משקפת את התדירויות שלהם בעולם האמיתי או את מידת המאפיין של נכס מסוים לקבוצה של אנשים. הטיה בדיווח על נתונים יכולה להשפיע על ההרכב של הנתונים שמערכות למידת המכונה לומדות מהם.

לדוגמה, בספרים המילה צחק נפוצה יותר מהמילה נשם. מודל למידת מכונה שמעריך את התדירות היחסית של צחוק ונשימה מתוך מאגר של ספרים, סביר להניח שיגיע למסקנה שהצחוק נפוץ יותר מהנשימה.

למידע נוסף, ראו צדק: סוגים של הטיה בקורס המקוצר על למידת מכונה.

בווקטור יהיה זהה,

תהליך המיפוי של נתונים לתכונות מועילות.

דירוג מחדש

#recsystems

השלב האחרון במערכת המלצות, שבמהלכו יכול להיות שפריטים שקיבלו ציונים יקבלו ציונים מחדש לפי אלגוריתם אחר (בדרך כלל, לא למידת מכונה). במסגרת הדירוג מחדש, מערכת Analytics מבצעת הערכה של רשימת הפריטים שנוצרה בשלב הניקוד, ומבצעת פעולות כמו:

  • הסרת פריטים שהמשתמש כבר רכש.
  • שיפור הדירוג של פריטים עדכניים יותר.

מידע נוסף זמין בקטע דירוג מחדש בקורס 'מערכות המלצות'.

יצירת מודלים באמצעות שיפור אחזור (RAG)

#fundamentals

טכניקה לשיפור האיכות של הפלט של מודל שפה גדול (LLM) על ידי הביסוס שלו על מקורות ידע שאוחזרו אחרי שהמודל אומן. RAG משפר את הדיוק של התשובות של LLM על ידי מתן גישה למידע שמוחזר ממסמכים או ממאגרי ידע מהימנים ל-LLM המאומן.

בין הסיבות הנפוצות לשימוש ביצירה עם שיפור אחזור:

  • הגדלת הדיוק העובדתי של התשובות שנוצרות על ידי מודל.
  • מתן גישה למודל לידע שלא אומן עליו.
  • שינוי הידע שבו המודל משתמש.
  • הפעלת היכולת של המודל לצטט מקורות.

לדוגמה, נניח שאפליקציית כימיה משתמשת ב-PaLM API כדי ליצור סיכומים שקשורים לשאילתות של משתמשים. כשהקצה העורפי של האפליקציה מקבל שאילתה, הקצה העורפי:

  1. חיפוש ('אחזור') של נתונים שרלוונטיים לשאילתה של המשתמש.
  2. הוספה ('השלמה') של נתוני הכימיה הרלוונטיים לשאילתה של המשתמש.
  3. הפקודה מורה ל-LLM ליצור סיכום על סמך הנתונים שצורפו.

שורה חדשה

#rl

בלמידת חיזוק, בהינתן מדיניות מסוימת ומצב מסוים, ההחזר הוא הסכום של כל התגמולים שהסוכן מצפה לקבל כשפועל בהתאם למדיניות מהמצב ועד לסוף הפרק. כדי להביא בחשבון את העיכוב הטבעי בתגמולים הצפויים, הסוכן מפחית את התגמולים בהתאם למעברי המצב הנדרשים כדי לקבל את התגמול.

לכן, אם מקדם ההנחה הוא \(\gamma\), ו- \(r_0, \ldots, r_{N}\)מציין את התגמולים עד סוף הפרק, חישוב התשואה הוא:

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

הטבה

#rl

בלמידת חיזוק, התוצאה המספרית של ביצוע פעולה במצב, כפי שהוגדר על ידי הסביבה.

רגולריזציה של רכסים

מילה נרדפת לרגולריזציה של L2. המונח ריגול רכס נפוץ יותר בהקשרים סטטיסטיים טהורים, ואילו המונח ריגול L2 נפוץ יותר בלמידת מכונה.

RNN

#seq

ראשי תיבות של רשתות נוירונים חוזרות.

עקומת ROC (מאפיין הפעלה של מקלט)

#fundamentals

תרשים של שיעור תוצאות חיוביות אמיתיות לעומת שיעור תוצאות חיוביות שקריות לסף סיווג שונה בסיווג בינארי.

הצורה של עקומת ROC מצביעה על היכולת של מודל סיווג בינארי להפריד בין כיתות חיוביות לכיתות שליליות. נניח, לדוגמה, שמודל סיווג בינארי מפריד בצורה מושלמת בין כל הכיתות השליליות לכל הכיתות החיוביות:

קו מספרים עם 8 דוגמאות חיוביות בצד שמאל ו-7 דוגמאות שליליות בצד ימין.

עקומת ROC של המודל הקודם נראית כך:

עקומת ROC. ציר ה-X מייצג את שיעור התוצאות החיוביות הכוזבות וציר ה-Y מייצג את שיעור התוצאות החיוביות האמיתיות. לקו העקומה יש צורה של L הפוך. העקומה מתחילה ב-(0.0,0.0) ועולה ישר ל-(0.0,1.0). לאחר מכן, העקומה עוברת מ-(0.0,1.0) ל-(1.0,1.0).

לעומת זאת, באיור הבא מוצגים בתרשים הערכים הגולמיים של רגרסיה לוגיסטית של מודל גרוע שלא מצליח להפריד בכלל בין כיתות שליליות לכיתות חיוביות:

קו מספרים עם דוגמאות חיוביות וקטגוריות שליליות שמעורבבות זו בזו.

עקומת ה-ROC של המודל הזה נראית כך:

עקומת ROC, שהיא למעשה קו ישר מ-(0.0,0.0)
          ל-(1.0,1.0).

בינתיים, בעולם האמיתי, רוב המודלים של סיווג בינארי מפרידים בין כיתות חיוביות ושליליות במידה מסוימת, אבל בדרך כלל לא באופן מושלם. לכן, עקומת ROC אופיינית נמצאת איפשהו בין שתי הקיצוניות:

עקומת ROC. ציר ה-X מייצג את שיעור התוצאות החיוביות הכוזבות וציר ה-Y מייצג את שיעור התוצאות החיוביות האמיתיות. עקומת ה-ROC היא מעין קשת רועדת שעוברת על נקודות המצפן ממערב לצפון.

הנקודה בגרף ROC הקרובה ביותר ל-(0.0,1.0) מזהה באופן תיאורטי את סף הסיווג האידיאלי. עם זאת, יש כמה בעיות אחרות בעולם האמיתי שמשפיעות על הבחירה של סף הסיווג האידיאלי. לדוגמה, יכול להיות שתוצאות שליליות כוזבות גורמות ליותר נזק מאשר תוצאות חיוביות כוזבות.

מדד מספרי שנקרא AUC מסכם את עקומת ROC בערך יחיד של נקודה צפה.

הצגת הנחיות לגבי התפקיד

#language
#generativeAI

חלק אופציונלי בהנחיה שמזהה את קהל היעד לתשובה של מודל AI גנרטיבי. ללא הנחיה לגבי תפקיד, מודל שפה גדול מספק תשובה שעשויה להיות או לא להיות שימושית לאדם ששואל את השאלות. בעזרת הנחיה לגבי תפקיד, מודל שפה גדול יכול להשיב בצורה שתהיה מתאימה ומועילה יותר לקהל יעד ספציפי. לדוגמה, החלק של הנחיות התפקיד בהנחיות הבאות מודגש:

  • סיכום של המסמך הזה לצורך קבלת דוקטורט בכלכלה.
  • תארו את האופן שבו פועלות הגאות והשפל לילדים בני עשר.
  • הסבר על המשבר הפיננסי של 2008. דברו כמו שאתם מדברים עם ילד קטן או עם גולדן רטריבר.

הרמה הבסיסית (root)

#df

הצומת ההתחלתי (התנאי הראשון) בעץ החלטות. לפי הסכמה, בתרשים, הבסיס נמצא בחלק העליון של עץ ההחלטות. לדוגמה:

עץ החלטות עם שני תנאים ושלושה עלים. התנאי ההתחלתי (x > 2) הוא השורש.

תיקיית שורש

#TensorFlow

הספרייה שציינתם לאירוח ספריות משנה של קובצי האירועים ונקודות הבדיקה של TensorFlow של כמה מודלים.

שורש טעות ריבועית ממוצעת (RMSE)

#fundamentals

השורש הריבועי של השגיאה הריבובית הממוצעת.

סבילות לסיבוב

#image

בבעיה של סיווג תמונות, היכולת של אלגוריתם לסווג תמונות גם כשהכיוון שלהן משתנה. לדוגמה, האלגוריתם עדיין יכול לזהות מחבט טניס גם אם הוא מופנה למעלה, לצדדים או למטה. חשוב לזכור שלא תמיד רצוי שהתמונה תהיה עקבית ביחס לסיבוב. לדוגמה, לא צריך לסווג ספרה 9 הפוכה כספרה 9.

אפשר גם לעיין במאמרים עמידות בטרנסלציה ועמידות בגודל.

ROUGE (Recall-Oriented Understudy for Gisting Evaluation)

#language

משפחה של מדדים שמאפשרים להעריך סיכומים אוטומטיים ומודלים של תרגום מכונה. מדדי ROUGE קובעים את מידת החפיפה בין טקסט העזר לבין טקסט שנוצר על ידי מודל ה-ML. כל אחד מהמדדים במשפחת ROUGE חופף לקודם בצורה שונה. ככל שציוני ROUGE גבוהים יותר, כך יש דמיון גדול יותר בין טקסט העזרה לטקסט שנוצר, בהשוואה לציונים נמוכים יותר של ROUGE.

בדרך כלל, כל בן משפחה ב-ROUGE יוצר את המדדים הבאים:

  • דיוק
  • זכירות
  • F1

לפרטים ולדוגמאות, אפשר לעיין במאמרים הבאים:

ROUGE-L

#language

משפחה של מדדי ROUGE שמתמקדת באורך של רצף המשנה המשותף הארוך ביותר בטקסט העזר ובטקסט שנוצר. הנוסחאות הבאות מחשבות את הרגישות והדיוק של ROUGE-L:

$$\text{ROUGE-L recall} = \frac{\text{longest common sequence}} {\text{number of words in the reference text} }$$
$$\text{ROUGE-L precision} = \frac{\text{longest common sequence}} {\text{number of words in the generated text} }$$

לאחר מכן אפשר להשתמש ב-F1 כדי לקבץ את הרגישות של ROUGE-L ואת הדיוק של ROUGE-L למדד אחד:

$$\text{ROUGE-L F} {_1} = \frac{\text{2} * \text{ROUGE-L recall} * \text{ROUGE-L precision}} {\text{ROUGE-L recall} + \text{ROUGE-L precision} }$$

ה-ROUGE-L מתעלם מכל שורות חדשות בטקסט העזרה ובטקסט שנוצר, כך שרצף המשנה הארוך ביותר יכול לעבור על פני כמה משפטים. כשטקסט העזרה והטקסט שנוצר כוללים כמה משפטים, בדרך כלל מדד טוב יותר הוא וריאנט של ROUGE-L שנקרא ROUGE-Lsum. המדד ROUGE-Lsum קובע את רצף המשנה הארוך ביותר המשותף לכל משפט בפסקה, ולאחר מכן מחשב את הממוצע של רצפי המשנה הארוכים המשותפים האלה.

ROUGE-N

#language

קבוצת מדדים במשפחת ROUGE שמשווים בין רצפי N-grams משותפים בגודל מסוים בטקסט העזר לבין טקסט שנוצר. לדוגמה:

  • ROUGE-1 מודד את מספר האסימונים המשותפים בטקסט העזר ובטקסט שנוצר.
  • ROUGE-2 מודד את מספר ביגרמים (2-גרמים) המשותפים בטקסט העזר ובטקסט שנוצר.
  • ROUGE-3 מודד את מספר טריגרמות (3-גראמים) המשותפות בטקסט העזר ובטקסט שנוצר.

אפשר להשתמש בנוסחאות הבאות כדי לחשב את רמת החזרה (recall) ו-ROUGE-N ואת רמת הדיוק (precision) של ROUGE-N לכל חבר במשפחת ROUGE-N:

$$\text{ROUGE-N recall} = \frac{\text{number of matching N-grams}} {\text{number of N-grams in the reference text} }$$
$$\text{ROUGE-N precision} = \frac{\text{number of matching N-grams}} {\text{number of N-grams in the generated text} }$$

לאחר מכן אפשר להשתמש ב-F1 כדי לקבץ את רמת החזרה (recall) של ROUGE-N ואת רמת הדיוק (precision) של ROUGE-N למדד אחד:

$$\text{ROUGE-N F}{_1} = \frac{\text{2} * \text{ROUGE-N recall} * \text{ROUGE-N precision}} {\text{ROUGE-N recall} + \text{ROUGE-N precision} }$$

ROUGE-S

#language

גרסה סלחנית של ROUGE-N שמאפשרת התאמה של skip-gram. כלומר, ב-ROUGE-N נספרות רק N-grams שתואמים בדיוק, אבל ב-ROUGE-S נספרות גם N-grams שמפרידות ביניהם מילה אחת או יותר. לדוגמה, שקול את הדברים הבאים:

כשמחשבים את ROUGE-N, ה-2-gram White clouds לא תואם ל-White billowing clouds. עם זאת, כשמחשבים את ROUGE-S, עננים לבנים תואם ל-עננים לבנים בוערים.

R בריבוע

מדד רגרסיה שמציין את מידת השונות בתווית שנובעת מתכונה בודדת או מקבוצת תכונות. R-squared הוא ערך בין 0 ל-1, שאפשר לפרש באופן הבא:

  • אם הערך של R-squared הוא 0, המשמעות היא שאף אחד מהשינויים בתוויות לא נובע מקבוצת המאפיינים.
  • אם הערך של R-squared הוא 1, המשמעות היא שכל הווריאציה של התווית נובעת מקבוצת המאפיינים.
  • ערך R-squared בין 0 ל-1 מציין את מידת האפשרות לחזות את השונות של התווית מתכונה מסוימת או מקבוצת המאפיינים. לדוגמה, אם הערך של R-squared הוא 0.10, המשמעות היא ש-10% מהשונות בתווית נובעת מקבוצת המאפיינים. אם הערך של R-squared הוא 0.20, המשמעות היא ש-20% נובעים מקבוצת המאפיינים, וכן הלאה.

R-squared הוא הריבוע של מקדמי המתאם של Pearson בין הערכים שהמודל חזה לבין מקור המידע.

S

הטיה בדגימה

#fairness

ראו הטיה של תהליך הבחירה.

דגימה עם החלפה

#df

שיטה לבחירת פריטים מתוך קבוצה של פריטים מועמדים, שבה אפשר לבחור את אותו פריט כמה פעמים. הביטוי 'עם החלפה' מציין שלאחר כל בחירה, הפריט שנבחר מוחזר למאגר של הפריטים המועמדים. בשיטה ההפוכה, דגימה ללא החלפה, אפשר לבחור פריט מתאים רק פעם אחת.

לדוגמה, נניח שיש לכם את קבוצת הפירות הבאה:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

נניח שהמערכת בוחרת באופן אקראי את fig כפריט הראשון. אם משתמשים במדגם עם החלפה, המערכת בוחרת את הפריט השני מהקבוצה הבאה:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

כן, זו אותה קבוצה כמו קודם, כך שהמערכת עשויה לבחור שוב את fig.

אם משתמשים במדגם ללא החלפה, אי אפשר לבחור שוב דגימה שכבר נבחרה. לדוגמה, אם המערכת בוחרת באופן אקראי את fig כמדגם הראשון, לא ניתן לבחור שוב את fig. לכן, המערכת בוחרת את הדגימה השנייה מהקבוצה (המצומצמת) הבאה:

fruit = {kiwi, apple, pear, cherry, lime, mango}

SavedModel

#TensorFlow

הפורמט המומלץ לשמירה ולשחזור של מודלים של TensorFlow. SavedModel הוא פורמט סריאליזציה שניתן לשחזור, ללא תלות בשפה, שמאפשר למערכות ולכלים ברמה גבוהה יותר ליצור, לצרוך ולשנות מודלים של TensorFlow.

פרטים מלאים זמינים בקטע שמירה ושחזור במדריך למפתחים של TensorFlow.

חסכוני

#TensorFlow

אובייקט TensorFlow שאחראי לשמירת נקודות עצירה של מודל.

סקלר

מספר יחיד או מחרוזת יחידה שאפשר לייצג כטנסור בעל דרג 0. לדוגמה, כל שורת הקוד הבאה יוצרת סקלר אחד ב-TensorFlow:

breed = tf.Variable("poodle", tf.string)
temperature = tf.Variable(27, tf.int16)
precision = tf.Variable(0.982375101275, tf.float64)

התאמה לעומס (scaling)

כל שינוי מתמטי או שיטה שמזיזים את הטווח של תווית, ערך מאפיין או שניהם. יש שיטות שינוי קנה מידה שמועילות מאוד לטרנספורמציות כמו נורמליזציה.

שיטות נפוצות להתאמה לעומס שיכולות להיות שימושיות בלמידת מכונה:

  • שינוי פרופורציונלי לינארי, שבדרך כלל נעשה בו שימוש בשילוב של חיסור וחילוק כדי להחליף את הערך המקורי במספר בין -1 ל-1 או בין 0 ל-1.
  • שינוי לוגריתמי, שבו הערך המקורי מוחלף בלוגריתם שלו.
  • נורמליזציה לפי ניקוד Z, שבה הערך המקורי מוחלף בערך של נקודה צפה שמייצג את מספר הסטיות הסטנדרטיות מהממוצע של המאפיין הזה.

scikit-learn

פלטפורמה פופולרית של קוד פתוח ללמידת מכונה. scikit-learn.org

ציון

#recsystems

החלק במערכת ההמלצות שמספק ערך או דירוג לכל פריט שנוצר בשלב יצירת המועמדים.

הטיית בחירה

#fairness

שגיאות במסקנות שנגזרות מנתונים שנדגמו, כתוצאה מתהליך בחירה שיוצר הבדלים שיטתיים בין דגימות שנצפו בנתונים לבין דגימות שלא נצפו. אלה סוגי הטיה הבחירה הקיימים:

  • הטיית כיסוי: האוכלוסייה שמיוצגת במערך הנתונים לא תואמת לאוכלוסייה שלגביה מודל למידת המכונה מבצע חיזויים.
  • הטיה במדגם: הנתונים לא נאספים באופן אקראי מקבוצת היעד.
  • הטיה של אי-תגובה (שנקראת גם הטיה של השתתפות): משתמשים מקבוצות מסוימות מבטלים את ההסכמה להשתתף בסקר בשיעורים שונים מאשר משתמשים מקבוצות אחרות.

לדוגמה, נניח שאתם יוצרים מודל למידת מכונה שמתבסס על נתונים כדי לחזות את מידת ההנאה של אנשים מסרט. כדי לאסוף נתוני אימון, מחלקים סקר לכל מי שבשורה הראשונה באולם הקולנוע שבו מוצג הסרט. נשמע שזו דרך הגיונית לאסוף מערך נתונים, אבל צורת איסוף הנתונים הזו עלולה להוביל לבעיות הבאות של הטיה:

  • הטיה של כיסוי: כשמשתמשים במדגם מתוך אוכלוסייה שבחרה לצפות בסרט, יכול להיות שהתחזיות של המודל לא יהיו כלליות לאנשים שלא הביעו עדיין את רמת העניין הזו בסרט.
  • הטיה בדגימה: במקום לדגום באופן אקראי מתוך האוכלוסייה המיועדת (כל האנשים שצפו בסרט), דגמתם רק את האנשים בשורה הראשונה. יכול להיות שהאנשים שישבו בשורה הראשונה התעניינו יותר בסרט מאשר אנשים בשורות אחרות.
  • הטיה של אי-תגובה: באופן כללי, אנשים עם דעות חזקות נוטים להשיב לסקרי אופציונליים בתדירות גבוהה יותר מאנשים עם דעות חלשות. מכיוון שהסקר על הסרט הוא אופציונלי, סביר יותר שהתשובות ייצרו התפלגות דו-מוקדית מאשר התפלגות רגילה (בצורת פעמון).

קשב עצמי (נקרא גם שכבת קשב עצמי)

#language

שכבת רשת נוירונים שממירה רצף של הטמעות (למשל, הטמעות של אסימונים) לרצף אחר של הטמעות. כל הטמעה בסדרת הפלט נוצרת על ידי שילוב של מידע מהרכיבים של סדרת הקלט באמצעות מנגנון תשומת לב.

החלק self ב-self-attention מתייחס לרצף שמתמקד בעצמו ולא בהקשר אחר כלשהו. הקשב העצמי הוא אחד מאבני הבניין העיקריות של טרנספורמרים, והוא משתמש במונחים של חיפוש במילון, כמו 'שאילתה', 'מפתח' ו'ערך'.

שכבת קשב עצמי מתחילה ברצף של ייצוגי קלט, אחד לכל מילה. ייצוג הקלט של מילה יכול להיות הטמעה פשוטה. לכל מילה ברצף הקלט, הרשת מעניקה ניקוד לרלוונטיות של המילה לכל רכיב ברצף המילים כולו. ציונים הרלוונטיות קובעים עד כמה הייצוג הסופי של המילה כולל את הייצוגים של מילים אחרות.

לדוגמה, נניח את המשפט הבא:

החיה לא חצתה את הרחוב כי היא הייתה עייפת מדי.

באיור הבא (מתוך Transformer: A Novel Neural Network Architecture for Language Understanding) מוצג דפוס תשומת הלב של שכבת תשומת הלב העצמית לשם העצם it, כאשר עוצמת החושך של כל שורה מציינת את מידת התרומה של כל מילה לייצוג:

המשפט הבא מופיע פעמיים: The animal didn&#39;t cross the
          street because it was too tired. הקווים מקשרים את לשון הפנייה it במשפט אחד לחמישה אסימונים (The,‏ animal,‏ street,‏ it והנקודה) במשפט השני. הקו בין לשון הפנייה it לבין המילה animal הוא החזק ביותר.

שכבת הקשב העצמי מדגישה מילים שרלוונטיות ל-"it". במקרה הזה, שכבת תשומת הלב למדה להדגיש מילים שהיא עשויה להתייחס אליהן, והקצתה את המשקל הגבוה ביותר ל-animal.

בסדרה של n אסימונים, התכונה 'תשומת לב עצמית' משפרת את הסדרה של הטמעות הנתונים n פעמים נפרדות, פעם אחת בכל מיקום בסדרה.

כדאי לעיין גם במאמרים בנושא תשומת לב ותשומת לב עצמית עם כמה ראשים.

למידה בלתי מונחית

משפחה של שיטות להמרת בעיה של למידת מכונה ללא פיקוח לבעיה של למידת מכונה בפיקוח, על ידי יצירת תוויות חלופיות מדוגמאות לא מתויגות.

בחלק מהמודלים שמבוססים על טרנספורמר, כמו BERT, נעשה שימוש בלמידה בלתי מפוקחת.

אימון עצמאי הוא גישה של למידה מונחית למחצה.

אימון עצמי

וריאנט של למידה בפיקוח עצמי שמתאים במיוחד כשכל התנאים הבאים מתקיימים:

אימון עצמאי פועל על ידי איטרציה של שני השלבים הבאים עד שהמודל מפסיק להשתפר:

  1. משתמשים בלמידת מכונה מבוקרת כדי לאמן מודל על הדוגמאות המתויגות.
  2. משתמשים במודל שנוצר בשלב 1 כדי ליצור תחזיות (תוויות) לדוגמאות ללא תוויות, ומעבירים את הדוגמאות עם רמת ביטחון גבוהה לדוגמאות עם תוויות עם התווית שחזו.

שימו לב שבכל חזרה על שלב 2 נוספות דוגמאות מתויגות לשלב 1, כדי לאמן את המערכת.

למידה מונחית למחצה

אימון מודל על נתונים שבהם לחלק מדוגמי האימון יש תוויות, אבל לחלקם אין. אחת מהשיטות ללמידה מונחית למחצה היא להסיק תוויות לדוגמאות ללא תוויות, ואז לאמן את המודל באמצעות התוויות שהוסקו כדי ליצור מודל חדש. למידת מכונה עם פיקוח חלקי יכולה להיות שימושית אם קשה להשיג תוויות אבל יש הרבה דוגמאות ללא תוויות.

אימון עצמי היא אחת מהשיטות של למידה מונחית למחצה.

מאפיין רגיש

#fairness
מאפיין אנושי שעשוי לקבל עדיפות מיוחדת מסיבות משפטיות, מוסריות, חברתיות או אישיות.

ניתוח סנטימנט

#language

שימוש באלגוריתמים סטטיסטיים או באלגוריתמים של למידת מכונה כדי לקבוע את הגישה הכוללת של קבוצה כלשהי – חיובית או שלילית – כלפי שירות, מוצר, ארגון או נושא. לדוגמה, באמצעות הבנה של שפה טבעית, אלגוריתם יכול לבצע ניתוח סנטימנטים על המשוב הטקסטואלי מקורסים באוניברסיטה כדי לקבוע עד כמה התלמידים אהבו או לא אהבו את הקורס באופן כללי.

מידע נוסף זמין במדריך בנושא סיווג טקסט.

מודל רצף

#seq

מודל שבו יש תלות רציפה בין נתוני הקלט. לדוגמה, חיזוי הסרטון הבא שיוצג על סמך רצף של סרטונים שצפו בהם בעבר.

משימה מסוג 'רצף לרצף'

#language

משימה שממירה רצף קלט של אסימונים לרצף פלט של אסימונים. לדוגמה, שני סוגים פופולריים של משימות של רצף לרצף הם:

  • מתרגמים:
    • דוגמה לרצף קלט: "אני אוהב אותך".
    • רצף פלט לדוגמה: "Je t'aime".
  • מענה לשאלות:
    • רצף קלט לדוגמה: "Do I need my car in New York City?‎"
    • דוגמה לרצף פלט: "No. Keep your car at home".

מנה

התהליך שבו מודל מאומן זמין כדי לספק תחזיות באמצעות הסקה אונליין או הסקה אופליין.

shape (Tensor)

מספר הרכיבים בכל מאפיין של טינסור. הצורה מיוצגת כרשימה של מספרים שלמים. לדוגמה, לטרנספורמר דו-מימדי הבא יש צורה של [3,4]:

[[5, 7, 6, 4],
 [2, 9, 4, 8],
 [3, 6, 5, 1]]

ב-TensorFlow נעשה שימוש בפורמט row-major (סגנון C) כדי לייצג את סדר המאפיינים, ולכן הצורה ב-TensorFlow היא [3,4] ולא [4,3]. במילים אחרות, ב-Tensor דו-מימדי של TensorFlow, הצורה היא [מספר השורות, מספר העמודות].

צורה סטטית היא צורה של טינסור שידועה בזמן הידור.

צורה דינמית היא לא ידועה בזמן הידור, ולכן היא תלויה בנתונים בסביבת זמן הריצה. אפשר לייצג את הטנזור הזה במאפיין placeholder ב-TensorFlow, כמו ב-[3, ?].

פצל

#TensorFlow
#GoogleCloud

חלוקה לוגית של קבוצת האימון או של המודל. בדרך כלל, תהליך כלשהו יוצר קטעי קוד על ידי חלוקה של הדוגמאות או של הפרמטרים לקטעים (בדרך כלל) בגודל שווה. לאחר מכן, כל שריד מוקצה למכונה אחרת.

חלוקת מודל לשברים נקראת מקבילות מודל, וחלוקת נתונים לשברים נקראת מקבילות נתונים.

כיווץ

#df

היפר-פרמטר ב-gradient boosting שקובע את רמת התאמה יתר. הצטמקות ב-gradient boosting דומה לשיעור הלמידה ב-gradient descent. הערך של 'צמצום' הוא ערך עשרוני בין 0.0 ל-1.0. ערך כוונון קטן יותר מפחית את ההתאמה היתרה יותר מערך כוונון גדול יותר.

פונקציית סיגמואיד

#fundamentals

פונקציה מתמטית שמצמצמת ערך קלט לטווח מוגבל, בדרך כלל מ-0 עד 1 או מ--1 עד 1. כלומר, אפשר להעביר לכל מספר (שניים, מיליון, מיליארד שלילי וכו') פונקציית סיגמואיד, והפלט עדיין יהיה בטווח המוגבל. תרשים של פונקציית ההפעלה הסיגמואידית נראה כך:

תרשים עקומה דו-מימדי עם ערכי x שנעים בין אינסוף שלילי לבין חיובי, וערכי y שנעים בין כמעט 0 לבין כמעט 1. כש-x הוא 0, הערך של y הוא 0.5. השיפוע של העקומה הוא תמיד חיובי, עם השיפוע הגבוה ביותר ב-0,0.5 ושיפועים הולכים ופוחתים ככל שהערך המוחלט של x עולה.

לפונקציית הסיגמואיד יש כמה שימושים בלמידת מכונה, כולל:

מדד דמיון

#clustering

באלגוריתמים של קיבוץ, המדד שמשמש לקביעת מידת הדמיון בין שתי דוגמאות.

תוכנית אחת / נתונים מרובים (SPMD)

טכניקה של עיבוד מקבילי שבה אותו חישוב מופעל במקביל על נתוני קלט שונים במכשירים שונים. המטרה של SPMD היא לקבל תוצאות מהר יותר. זהו הסגנון הנפוץ ביותר של תכנות במקביל.

עמידות בפני שינוי גודל

#image

בבעיה של סיווג תמונות, היכולת של אלגוריתם לסווג תמונות גם כשהגודל שלהן משתנה. לדוגמה, האלגוריתם עדיין יכול לזהות חתול גם אם הוא צורך 2 מיליון פיקסלים וגם אם הוא צורך 200 אלף פיקסלים. חשוב לזכור שלאלגוריתמים הטובים ביותר לסיווג תמונות עדיין יש מגבלות מעשיות על חוסר תלות בגודל. לדוגמה, סביר להניח שאלגוריתם (או אדם) לא יסווג בצורה נכונה תמונה של חתול שמכילה רק 20 פיקסלים.

אפשר לעיין גם במאמרים בנושא אי-תלות בטרנסלציה ואי-תלות בכיוון.

מידע נוסף זמין בקורס הקיבוץ.

רישום

#clustering

בלמידת מכונה לא בפיקוח, קטגוריה של אלגוריתמים שמבצעים ניתוח ראשוני של הדמיון בין דוגמאות. אלגוריתמים של יצירת סקיצות משתמשים ב פונקציית גיבוב (hash) רגישה למיקום כדי לזהות נקודות שיש סיכוי גבוה שהן דומות, ולאחר מכן לקבץ אותן לקטגוריות.

באמצעות 'רישום סכמה', אפשר לצמצם את החישובים הנדרשים לחישוב הדמיון במערכי נתונים גדולים. במקום לחשב את הדמיון לכל זוג דוגמאות במערך הנתונים, אנחנו מחשבים את הדמיון רק לכל זוג נקודות בכל קטגוריה.

skip-gram

#language

n-gram שעשוי להשמיט (או "לדלג") מילים מההקשר המקורי, כלומר יכול להיות שהמילים N לא היו צמודות זו לזו במקור. באופן מדויק יותר, 'n-gram עם k דילוגים' הוא n-gram שעשויים להיות דילוגים של עד k מילים.

לדוגמה, במשפט "the quick brown fox" יש את ה-2-גרמים האפשריים הבאים:

  • "the quick"
  • "quick brown"
  • "brown fox"

'1-skip-2-gram' הוא זוג מילים עם מילה אחת לכל היותר ביניהן. לכן, למונח "the quick brown fox" יש את ה-2-grams הבאים עם דילוג אחד:

  • "the brown"
  • "quick fox"

בנוסף, כל ה-2-grams הם גם 2-grams עם דילוג אחד, כי אי אפשר לדלג על פחות ממילה אחת.

Skip-grams מועילים להבנה טובה יותר של ההקשר שמקיף מילה. בדוגמה, המילה 'fox' שויך ישירות למילה 'quick' בקבוצה של 2-grams עם דילוג אחד, אבל לא בקבוצה של 2-grams.

Skip-grams עוזרים לאמן מודלים של הטמעת מילים.

softmax

#fundamentals

פונקציה שקובעת את ההסתברויות לכל מחלקה אפשרית במודל סיווג מרובה-כיתות. הסיכויים צריכים להסתכם בדיוק ב-1.0. לדוגמה, בטבלה הבאה מוצגת חלוקת ההסתברויות השונות של softmax:

התמונה היא... Probability
כלב 0.85
cat 0.13
סוס 0.02

פונקציית softmax נקראת גם full softmax.

בניגוד לדגימת מועמדים.

מידע נוסף זמין במאמר רשתות עצביות: סיווג מרובה-כיתות בקורס המקוצר על למידת מכונה.

כוונון של הנחיות רכות

#language
#generativeAI

טכניקה לכוונון מודל שפה גדול למשימה מסוימת, בלי כוונון עדין שמבזבז משאבים. במקום לאמן מחדש את כל המשקלים במודל, התאמת ההנחיה הרכה משנה באופן אוטומטי את ההנחיה כדי להשיג את אותו יעד.

כשנותנים הנחיה טקסטואלית, בדרך כלל מתבצעת התאמה של הנחיה רכה על ידי הוספת הטמעות נוספות של אסימונים להנחיה, ושימוש בהתפשטות לאחור (backpropagation) כדי לבצע אופטימיזציה של הקלט.

הנחיה 'קשה' מכילה טוקנים אמיתיים במקום הטמעות של טוקנים.

תכונה דלילה

#language
#fundamentals

מאפיין שהערכים שלו הם בעיקר אפס או ריקים. לדוגמה, מאפיין שמכיל ערך 1 יחיד ומיליון ערכים של 0 הוא דל. לעומת זאת, למאפיין צפוף יש ערכים שברובם לא אפס או ריקים.

בלמידת מכונה, מספר מפתיע של תכונות הן תכונות דלילות. תכונות קטגוריות הן בדרך כלל תכונות דלילות. לדוגמה, מתוך 300 מיני עצים אפשריים ביער, דוגמה אחת עשויה לזהות רק עץ מייפל. למשל, מתוך מיליוני הסרטונים האפשריים בספריית סרטונים, דוגמה אחת עשויה לזהות רק את 'קזבלנקה'.

במודל, בדרך כלל מייצגים תכונות דלילות באמצעות קידוד one-hot. אם קידוד ה-one-hot גדול, אפשר להוסיף שכבת הטמעה מעל קידוד ה-one-hot כדי לשפר את היעילות.

ייצוג דליל

#language
#fundamentals

אחסון רק את המיקומים של רכיבים שאינם אפס בתכונה דלילה.

לדוגמה, נניח שתכונה קטגורית בשם species מזהה את 36 מיני העצים ביער מסוים. נניח גם שכל דוגמה מזהה רק מין אחד.

אפשר להשתמש בווקטור one-hot כדי לייצג את מיני העצים בכל דוגמה. וקטור one-hot יכיל 1 יחיד (כדי לייצג את מין העץ הספציפי בדוגמה הזו) ו-35 ערכים של 0 (כדי לייצג את 35 מיני העצים שאינם בדוגמה הזו). לכן, הייצוג של maple במצב one-hot עשוי להיראות כך:

וקטור שבו המיקומים 0 עד 23 מכילים את הערך 0, המיקום 24 מכיל את הערך 1 והמיקומים 25 עד 35 מכילים את הערך 0.

לחלופין, ייצוג דליל פשוט יזהה את המיקום של המין הספציפי. אם maple נמצא במיקום 24, הייצוג הדליל של maple יהיה פשוט:

24

שימו לב שהייצוג הדליל קומפקטי הרבה יותר מהייצוג של ערכים חד-ממדיים.

מידע נוסף זמין בקטע עבודה עם נתונים קטגוריאליים בקורס המקוצר בנושא למידת מכונה.

וקטור דליל

#fundamentals

וקטור שהערכים שלו הם בעיקר אפס. אפשר לעיין גם במאמרים בנושא מאפיין דל ודלילות.

sparsity

מספר הרכיבים שמוגדרים לאפס (או ל-null) בווקטור או במטריצה, חלקי מספר הרשומות הכולל בווקטור או במטריצה. לדוגמה, נניח שיש מטריצה עם 100 רכיבים, שבה 98 תאים מכילים אפס. כך מחושב הערך של הדלילות:

$$ {\text{sparsity}} = \frac{\text{98}} {\text{100}} = {\text{0.98}} $$

רזרבה של מאפיינים מתייחסת לרזרבה של וקטור מאפיינים, ורזרבה של מודל מתייחסת לרזרבה של משקלי המודל.

צבירת נתונים מרחבית

#image

אוסף

פיצול

#df

בעץ החלטות, שם נוסף לתנאי.

מפצל

#df

במהלך האימון של עץ החלטות, התהליך (והאלגוריתם) שאחראים על מציאת התנאי הטוב ביותר בכל צומת.

SPMD

קיצור של תוכנית אחת / נתונים מרובים.

אובדן ציר ריבועית

הריבוע של הפסד הציר. פונקציית Squared hinge loss מטילה עונשים חמורים יותר על ערכים חריגים מאשר פונקציית hinge loss רגילה.

אובדן בריבוע

#fundamentals

מילה נרדפת ל-L2 loss.

אימון מדורג

#language

טקטיקה לאימון מודל ברצף של שלבים נפרדים. המטרה יכולה להיות לזרז את תהליך האימון או לשפר את איכות המודל.

איור של הגישה של הערמה הדרגתית מוצג בהמשך:

  • שלב 1 מכיל 3 שכבות סמויות, שלב 2 מכיל 6 שכבות סמויות ושלב 3 מכיל 12 שכבות סמויות.
  • בשלב 2 מתחילים את האימון עם המשקלים שנלמדו ב-3 השכבות המוסתרות של שלב 1. בשלב 3 מתחילים את האימון עם המשקלים שנלמדו ב-6 השכבות המוסתרות של שלב 2.

שלושה שלבים, שמסומנים בתווית שלב 1, שלב 2 ושלב 3.
          כל שלב מכיל מספר שונה של שכבות: שלב 1 מכיל 3 שכבות, שלב 2 מכיל 6 שכבות ושלב 3 מכיל 12 שכבות.
          3 השכבות משלב 1 הופכות ל-3 השכבות הראשונות של שלב 2.
          באופן דומה, 6 השכבות משלב 2 הופכות ל-6 השכבות הראשונות של שלב 3.

אפשר לעיין גם במאמר בנושא צנרת עיבוד נתונים.

הסמוי הסופי

#rl

בלמידת חיזוק, ערכי הפרמטרים שמתארים את ההגדרה הנוכחית של הסביבה, שבה הסוכן משתמש כדי לבחור פעולה.

פונקציית ערך של מצב-פעולה

#rl

שם נרדף ל-פונקציית Q.

סטטי

#fundamentals

פעולה שמתבצעת פעם אחת ולא באופן קבוע. המונחים סטטי ואופליין הם מונחים נרדפים. אלה שימושים נפוצים של נתונים סטטיים ואופליין בלמידת מכונה:

  • מודל סטטי (או מודל אופליין) הוא מודל שמתאמן פעם אחת ואז משמש למשך זמן מה.
  • אימון סטטי (או אימון אופליין) הוא תהליך האימון של מודל סטטי.
  • היקש סטטי (או היקש אופליין) הוא תהליך שבו מודל יוצר קבוצה של תחזיות בכל פעם.

בניגוד לדינמי.

הסקה סטטית

#fundamentals

מונח נרדף להסקה אופליין.

סטציונריות

#fundamentals

מאפיין שהערכים שלו לא משתנים במאפיין אחד או יותר, בדרך כלל זמן. לדוגמה, מאפיין שהערכים שלו נראים דומים בשנים 2021 ו-2023 הוא מאפיין יציב.

בעולם האמיתי, מעט מאוד מאפיינים מציגים סטטיות. גם תכונות שמשויכות ליציבות (כמו גובה פני הים) משתנות עם הזמן.

בניגוד לתנודות לא יציבות.

שלב

העברה קדימה והעברה לאחור של קבוצת נתונים אחת.

מידע נוסף על העברה קדימה והעברה לאחור זמין במאמר backpropagation.

גודל שלב

מילה נרדפת ל-קצב למידה.

ירידה סטוכסטית בגרדינט (SGD)

#fundamentals

אלגוריתם ירידה בגרדינט שבו גודל האצווה הוא אחד. במילים אחרות, SGD מתאמן על דוגמה אחת שנבחרה באופן אקראי מתוך קבוצת אימון.

מידע נוסף זמין בקטע רגרסיה לינארית: היפר-פרמטרים במאמר קורס מקוצר על למידת מכונה.

פסיעה

#image

בפעולה קונבולוציונית או ב-pooling, הדלתה בכל מאפיין של הסדרה הבאה של פרוסות הקלט. לדוגמה, באנימציה הבאה מוצגת פסיעה (1,1) במהלך פעולת convolve. לכן, פרוסת הקלט הבאה מתחילה במיקום אחד מימין לפרוסת הקלט הקודמת. כשהפעולה מגיעה לקצה הימני, הפרוסה הבאה נמצאת בצד ימין אבל עמודה אחת למטה.

מטריצת קלט 5x5 ומסנן קוונטי 3x3. מכיוון שהצעד הוא (1,1), מסנן קוונטי יחול 9 פעמים. הפרוסה הראשונה של הגלול מבצעת הערכה של מטריצת המשנה 3x3 בפינה הימנית העליונה של מטריצת הקלט. בפרוסת הנתונים השנייה מתבצעת הערכה של מטריצת המשנה 3x3 בחלק העליון האמצעי. הפרוסה השלישית של המכפיל הקונוולואטיבי מעריכה את מטריצת המשנה 3x3 בפינה השמאלית העליונה. בפרוסה הרביעית מתבצעת הערכה של מטריצת המשנה 3x3 שמשמאל למעלה.
     בפרוסה החמישית מתבצעת הערכה של מטריצת המשנה האמצעית בגודל 3x3. הפרוסה השישית מחשבת את מטריצת המשנה 3x3 שבאמצע-ימין. הפרוסה השביעית מעריכה את מטריצת המשנה 3x3 בפינה הימנית התחתונה. הפרוסה השמינית מעריכה את מטריצת המשנה 3x3 שבחלק התחתון-התיכון. בפרוסה התשיעית מתבצעת הערכה של מטריצת המשנה 3x3 בפינה השמאלית התחתונה.

הדוגמה הקודמת מדגימה צעד דו-מימדי. אם מטריצת הקלט תהיה תלת-ממדית, גם הצעדים יהיו תלת-ממדיים.

צמצום סיכונים מבניים (SRM)

אלגוריתם שמאזן בין שני יעדים:

  • הצורך ליצור את המודל עם התחזית הכי טובה (לדוגמה, עם האובדן הנמוך ביותר).
  • הצורך לשמור על המודל פשוט ככל האפשר (לדוגמה, רגולריזציה חזקה).

לדוגמה, פונקציה שממזערת את האובדן והרגיליזציה בקבוצת האימון היא אלגוריתם למזעור סיכון מבני.

בניגוד למזעור סיכון ניסיוני.

דגימת משנה

#image

אוסף

טוקן של מילה משנה

#language

במודלים של שפה, אסימון שהוא מחרוזת משנה של מילה, שיכולה להיות המילה כולה.

לדוגמה, מילה כמו 'itemize' עשויה להתחלק לחלקים 'item' (מילה בסיס) ו-'ize' (סיומת), שכל אחד מהם מיוצג על ידי אסימון משלו. פיצול של מילים נדירות לחלקים כאלה, שנקראים מילים משנה, מאפשר למודלים של שפה לפעול על החלקים המרכיבים הנפוצים יותר של המילה, כמו תחיליות וסיומת.

לעומת זאת, מילים נפוצות כמו 'going' עשויות לא להתפרק, ויכול להיות שהן יוצגו באמצעות אסימון יחיד.

סיכום

#TensorFlow

ב-TensorFlow, ערך או קבוצת ערכים שמחושבים בשלב מסוים, בדרך כלל לצורך מעקב אחר מדדי המודל במהלך האימון.

למידת מכונה בפיקוח

#fundamentals

אימון מודל ממאפיינים ומהתוויות התואמות שלהם. למידת מכונה בפיקוח דומה ללמידת נושא על ידי לימוד של קבוצת שאלות והתשובות התואמות שלהן. אחרי שהתלמידים יבינו את המיפוי בין השאלות לתשובות, הם יוכלו לספק תשובות לשאלות חדשות (שלא נראו בעבר) באותו נושא.

השוואה ללמידת מכונה ללא פיקוח.

מידע נוסף זמין בקטע למידה בפיקוח בקורס 'מבוא ל-ML'.

מאפיין סינתטי

#fundamentals

מאפיין שלא נמצא בין מאפייני הקלט, אלא מורכב מאחת מהם או יותר. שיטות ליצירת תכונות סינתטיות כוללות את האפשרויות הבאות:

  • חלוקה לקטגוריות של מאפיין רציף לקטגוריות של טווחים.
  • יצירת צירוף מאפיינים.
  • הכפלה (או חלוקה) של ערך מאפיין אחד בערכים אחרים של מאפיינים או בעצמו. לדוגמה, אם a ו-b הם מאפייני קלט, אלה דוגמאות למאפיינים סינתטיים:
    • ab
    • a2
  • החלה של פונקציה טרנסצנדנטלית על ערך של מאפיין. לדוגמה, אם c הוא מאפיין קלט, אלה דוגמאות למאפיינים סינתטיים:
    • sin(c)
    • ln(c)

תכונות שנוצרות על ידי נורמליזציה או שינוי קנה מידה בלבד לא נחשבות לתכונות סינתטיות.

T

T5

#language

מודל של למידת העברה מ-טקסט לטקסט, שהוצג על ידי Google AI בשנת 2020. ‏T5 הוא מודל מקודד-מפענח שמבוסס על הארכיטקטורה של Transformer, ומודרך על מערך נתונים גדול במיוחד. הוא יעיל במגוון משימות של עיבוד שפה טבעית (NLP), כמו יצירת טקסט, תרגום שפות וענות על שאלות בצורה שיחה.

השם T5 נגזר מחמש האותיות T במילים 'Text-to-Text Transfer Transformer' (טרנספורמציה של טקסט לטקסט).

T5X

#language

מסגרת למידת מכונה בקוד פתוח, שנועדה לפתח וללאמן מודלים של עיבוד שפה טבעית (NLP) בקנה מידה גדול. T5 מוטמע בקוד הבסיס של T5X (שבנוי על JAX ו-Flax).

למידת Q בטבלאות

#rl

בלמידת חיזוק, מטמיעים למידת Q באמצעות טבלה לאחסון פונקציות Q לכל שילוב של מצב ופעולה.

יעד

מילה נרדפת ל-label.

רשת היעד

#rl

ב-Deep Q-learning, רשת עצבית שהיא קירוב יציב של רשת העצבים הראשית, שבה רשת העצבים הראשית מטמיעה פונקציית Q או מדיניות. לאחר מכן אפשר לאמן את הרשת הראשית על ערכי ה-Q שחזתה הרשת היעד. כך אפשר למנוע את לולאת המשוב שמתרחשת כשהרשת הראשית מתאמנת על ערכי Q שחזתה בעצמה. הימנעות מהמשוב הזה משפרת את היציבות של האימון.

משימה

בעיה שניתן לפתור באמצעות שיטות של למידת מכונה, כמו:

טמפרטורה

#language
#image
#generativeAI

פרמטר היפר שקובע את מידת הרנדומיזציה של הפלט של המודל. ככל שהטמפרטורה גבוהה יותר, התוצאה תהיה יותר אקראית, ואילו ככל שהטמפרטורה נמוכה יותר, התוצאה תהיה פחות אקראית.

בחירת הטמפרטורה הטובה ביותר תלויה באפליקציה הספציפית ובמאפיינים המועדפים של הפלט של המודל. לדוגמה, כדאי להגדיל את הטמפרטורה כשיוצרים אפליקציה שמפיקה נכסי קריאייטיב. לעומת זאת, כשיוצרים מודל לסיווג תמונות או טקסט, כדאי להוריד את הטמפרטורה כדי לשפר את הדיוק והעקביות של המודל.

לרוב משתמשים בטמפרטורה עם softmax.

נתונים זמניים

נתונים שתועדו בנקודות זמן שונות. לדוגמה, נתונים זמניים יכולים להיות מכירות של מעילי חורף שנרשמו בכל יום בשנה.

Tensor

#TensorFlow

מבנה הנתונים הראשי בתוכניות TensorFlow. טינסורים הם מבני נתונים ב-N מימדים (כאשר N יכול להיות גדול מאוד), בדרך כלל סקלריים, וקטורים או מטריצות. הרכיבים של טנזור יכולים להכיל ערכים של מספרים שלמים, ערכים של נקודה צפה או מחרוזות.

TensorBoard

#TensorFlow

מרכז הבקרה שבו מוצגים הסיכומים שנשמרו במהלך ההרצה של תוכנית TensorFlow אחת או יותר.

TensorFlow

#TensorFlow

פלטפורמה מבוזרת ללמידת מכונה בקנה מידה גדול. המונח מתייחס גם לשכבת ה-API הבסיסית ב-TensorFlow, שתומכת בחישוב כללי בתרשימי תעבורת נתונים.

אמנם TensorFlow משמש בעיקר ללמידת מכונה, אבל אפשר להשתמש בו גם למשימות שאינן של למידת מכונה, שדורשות חישובים מספריים באמצעות תרשים של תעבורת נתונים.

TensorFlow Playground

#TensorFlow

תוכנית שמציגה באופן חזותי את ההשפעה של פרמטרים היפר-מרחביים שונים על אימון המודלים (בעיקר רשתות נוירונליות). אפשר להיכנס לכתובת http://playground.tensorflow.org כדי להתנסות ב-TensorFlow Playground.

TensorFlow Serving

#TensorFlow

פלטפורמה לפריסה של מודלים מאומנים בסביבת ייצור.

Tensor Processing Unit‏ (TPU)

#TensorFlow
#GoogleCloud

מעגל משולב לאפליקציות ספציפיות (ASIC) שמבצע אופטימיזציה של הביצועים של עומסי עבודה של למידת מכונה. מערכי ה-ASIC האלה נפרסים כצ'יפים של TPU במכשיר TPU.

דירוג טינסור

#TensorFlow

מידע נוסף זמין במאמר rank (Tensor).

צורת הטנזור

#TensorFlow

מספר הרכיבים שTensor מכיל במאפיינים שונים. לדוגמה, ל-Tensor מסוג [5, 10] יש צורה של 5 במאפיין אחד ו-10 במאפיין אחר.

גודל הטנזור

#TensorFlow

המספר הכולל של המשתנים הסקלרים שTensor מכיל. לדוגמה, למערך [5, 10] יש גודל של 50.

TensorStore

ספרייה לקריאה ולכתיבה יעילות של מערכים גדולים ומרובים-ממדים.

תנאי סיום

#rl

בלמידת חיזוק, התנאים שקובעים מתי פרק מסתיים, למשל כשהסוכן מגיע למצב מסוים או חורג ממספר הסף של מעברי המצב. לדוגמה, במשחק חמש בשורה, פרק מסתיים כששחקן מסמן שלוש משבצות רצופות או כשכל המשבצות מסומנות.

test

#df

בעץ החלטות, שם נוסף לתנאי.

אובדן נתונים בבדיקה

#fundamentals

מדד שמייצג את האובדן של מודל ביחס לקבוצת הבדיקות. כשיוצרים מודל, בדרך כלל מנסים למזער את אובדן הבדיקה. הסיבה לכך היא שאובדן נמוך בבדיקה הוא אות איכות חזק יותר מאשר אובדן נמוך באימון או אובדן נמוך באימות.

לפעמים, פער גדול בין אובדן הבדיקה לאובדן האימון או לאובדן האימות מציין שצריך להגדיל את שיעור הרגיליזציה.

קבוצת בדיקה

קבוצת משנה של מערך הנתונים ששמורה לבדיקה של מודל שהוכן.

באופן מסורתי, מחלקים את הדוגמאות במערך הנתונים לשלוש קבוצות משנה נפרדות:

כל דוגמה במערך נתונים צריכה להיות שייכת רק לאחת מקבוצות המשנה הקודמות. לדוגמה, דוגמה אחת לא יכולה להשתייך גם לקבוצת האימון וגם לקבוצת הבדיקות.

קבוצת האימון וקבוצת האימות קשורות מאוד לאימון המודל. מכיוון שקבוצת הבדיקות משויכת לאימון באופן עקיף בלבד, הפסד הבדיקה הוא מדד איכותי יותר עם פחות הטיה מאשר הפסד האימון או הפסד האימות.

למידע נוסף, אפשר לעיין בקטע מערכי נתונים: חלוקת מערך הנתונים המקורי בקורס המקוצר על למידת מכונה.

קטע טקסט

#language

טווח של אינדקס מערך שמשויך לקטע משנה ספציפי במחרוזת טקסט. לדוגמה, המילה good במחרוזת Python‏ s="Be good now" תופסת את טווח הטקסט מ-3 עד 6.

tf.Example

#TensorFlow

מאגר פרוטוקול סטנדרטי לתיאור נתוני קלט לאימון או להסקה של מודל למידת מכונה.

tf.keras

#TensorFlow

הטמעה של Keras שמשולבת ב-TensorFlow.

ערך סף (לעצי החלטות)

#df

בתנאי משויך-ציר, הערך שאליו מתבצעת ההשוואה של המאפיין. לדוגמה, 75 הוא ערך הסף בתנאי הבא:

grade >= 75

מידע נוסף זמין בקטע Exact splitter for binary classification with numerical features (מחלץ מדויק לסיווג בינארי עם מאפיינים מספריים) בקורס Decision Forests.

ניתוח סדרות זמן

#clustering

תחום משנה של למידת מכונה וסטטיסטיקה שמנתח נתונים זמניים. סוגים רבים של בעיות למידת מכונה מחייבות ניתוח של סדרות זמן, כולל סיווג, קיבוץ, חיזוי וזיהוי חריגות. לדוגמה, אפשר להשתמש בניתוח של סדרות זמן כדי לחזות את המכירות העתידיות של מעילי חורף לפי חודש, על סמך נתוני מכירות היסטוריים.

זמן צעד

#seq

תא אחד "לא מגולגל" בתוך רשת נוירונים חוזרת. לדוגמה, באיור הבא מוצגות שלוש נקודות זמן (שסומנו בסוגריים תחתונים t-1,‏ t ו-t+1):

שלוש נקודות זמן ברשת נוירונים חוזרת. הפלט של זמן הצעד הראשון הופך לקלט של זמן הצעד השני. הפלט של שלב הזמן השני הופך לקלט של שלב הזמן השלישי.

token

#language

במודל שפה, היחידה האטומית שבה מתבצע אימון המודל והחיזויים. אסימון הוא בדרך כלל אחד מהבאים:

  • מילה – לדוגמה, הביטוי 'dogs like cats' מורכב משלושה אסימוני מילים: 'dogs',‏ 'like' ו-'cats'.
  • תו – לדוגמה, הביטוי 'bike fish' מורכב מתשעה אסימונים של תווים. (שימו לב שהרווח הריק נחשב לאחד האסימונים).
  • מילים משנה – שבהן מילה אחת יכולה להיות אסימון אחד או כמה אסימונים. מילה משנה מורכבת ממילה בסיס, מקידומת או מסופן. לדוגמה, מודל שפה שמשתמש במילים משנה כאסימונים עשוי להתייחס למילה 'dogs' כשני אסימונים (מילת השורש 'dog' והסיומת לצורת הרבים 's'). אותו מודל שפה עשוי להתייחס למילה היחידה 'גבוה יותר' כשתי מילים משנה (מילת השורש 'גבוה' והסיומת ' יותר').

בדומיינים מחוץ למודלים של שפה, אסימונים יכולים לייצג סוגים אחרים של יחידות אטומיות. לדוגמה, בתכונה 'ראייה ממוחשבת', אסימון יכול להיות קבוצת משנה של תמונה.

למידע נוסף, אפשר לקרוא את המאמר מודלים גדולים של שפה בקורס המקוצר על למידת מכונה.

דיוק Top-K

#language

אחוז הפעמים ש'תווית היעד' מופיעה ב-k המיקומים הראשונים ברשימות שנוצרו. הרשימות יכולות להיות המלצות בהתאמה אישית או רשימה של פריטים שממוינים לפי softmax.

הדיוק של Top-k נקרא גם דיוק ב-k.

Tower

רכיב של רשת עצבית עמוקה שהיא בעצמה רשת עצבית עמוקה. במקרים מסוימים, כל מגדל קורא ממקור נתונים עצמאי, והמגדלים האלה נשארים עצמאיים עד שהפלט שלהם משולב בשכבה סופית. במקרים אחרים (לדוגמה, במגדל של מקודד ומפענח עם הרבה טרנספורמרים), יש חיבורים בין המגדלים.

תוכן רעיל

#language

מידת הפגיעה, האיום או הפגיעה בתוכן. יש הרבה מודלים של למידת מכונה שיכולים לזהות ולמדוד תכנים רעילים. רוב המודלים האלה מזהים רעילות לפי כמה פרמטרים, כמו רמת השפה הפוגענית ורמת השפה המאיימת.

TPU

#TensorFlow
#GoogleCloud

קיצור של Tensor Processing Unit.

צ'יפ TPU

#TensorFlow
#GoogleCloud

מעבד לינארי לתכנות עם זיכרון ברוחב פס גבוה על שבב, שמותאם לאופטימיזציה של עומסי עבודה של למידת מכונה. כמה צ'יפים של TPU נפרסים במכשיר TPU.

מכשיר TPU

#TensorFlow
#GoogleCloud

לוח מעגלים מודפסים (PCB) עם כמה שבבי TPU, ממשקי רשת עם רוחב פס גבוה וחומרה לקרור המערכת.

צומת TPU

#TensorFlow
#GoogleCloud

משאב TPU ב-Google Cloud עם סוג TPU ספציפי. צומת ה-TPU מתחבר לרשת ה-VPC שלכם מרשת VPC עמית. צמתים של TPU הם משאבים שמוגדרים ב-Cloud TPU API.

TPU Pod

#TensorFlow
#GoogleCloud

תצורה ספציפית של מכשירי TPU במרכז הנתונים של Google. כל המכשירים ב-TPU Pod מחוברים זה לזה דרך רשת ייעודית במהירות גבוהה. אשכול TPU הוא ההגדרה הגדולה ביותר של מכשירי TPU שזמינה לגרסה ספציפית של TPU.

משאב TPU

#TensorFlow
#GoogleCloud

ישות TPU ב-Google Cloud שאתם יוצרים, מנהלים או צורכים. לדוגמה, צומתי TPU וסוגי TPU הם משאבי TPU.

פרוסת TPU

#TensorFlow
#GoogleCloud

פרוסת TPU היא חלק יחסי ממכשירי ה-TPU בTPU Pod. כל המכשירים בפרוסת TPU מחוברים זה לזה דרך רשת ייעודית במהירות גבוהה.

סוג ה-TPU

#TensorFlow
#GoogleCloud

הגדרה של מכשיר TPU אחד או יותר עם גרסת חומרה ספציפית של TPU. בוחרים את סוג ה-TPU כשיוצרים צומת TPU ב-Google Cloud. לדוגמה, סוג TPU מסוג v2-8 הוא מכשיר TPU v2 יחיד עם 8 ליבות. לסוג TPU‏ v3-2048 יש 256 מכשירי TPU v3 ברשת, עם סך של 2048 ליבות. סוגי TPU הם משאבים שמוגדרים ב-Cloud TPU API.

TPU worker

#TensorFlow
#GoogleCloud

תהליך שפועל במכונה מארחת ומפעיל תוכניות של למידת מכונה במכשירי TPU.

הדרכה

#fundamentals

התהליך של קביעת הפרמטרים האידיאליים (משקלים ותכונות הטיה) שמרכיבים מודל. במהלך האימון, המערכת קוראת דוגמאות ומתאימה את הפרמטרים בהדרגה. בכל שלב של האימון, כל דוגמה משמשת כמה פעמים עד מיליארדי פעמים.

מידע נוסף זמין בקטע למידה בפיקוח בקורס 'מבוא ל-ML'.

אובדן אימון

#fundamentals

מדד שמייצג את האובדן של מודל במהלך מחזור אימון מסוים. לדוגמה, נניח שפונקציית ההפסד היא Mean Squared Error. יכול להיות שההפסד של האימון (השגיאה הממוצעת הריבונית) עבור האיטרציה ה-10 הוא 2.2, וההפסד של האימון עבור האיטרציה ה-100 הוא 1.9.

עקומת אובדן מציגה את אובדן האימון לעומת מספר החזרות. עקומת אובדן מספקת את הטיפים הבאים לגבי אימון:

  • שיפוע כלפי מטה מרמז שהמודל משתפר.
  • שיפוע כלפי מעלה מעיד על כך שהמודל הולך ומשתפר.
  • שיפוע שטוח מרמז שהמודל הגיע לערך קבוע.

לדוגמה, בעקומת ההפסדים האידיאלית במידה מסוימת מוצגים הפרטים הבאים:

  • שיפוע תלול כלפי מטה במהלך האיטרציות הראשוניות, שמצביע על שיפור מהיר של המודל.
  • שיפוע שמתיישר בהדרגה (אבל עדיין יורד) עד לקראת סוף האימון, מה שמצביע על שיפור מתמשך של המודל בקצב איטי יותר מאשר במחזורים הראשונים.
  • שיפוע שטוח לקראת סוף האימון, שמצביע על התקרבות.

התרשים של אובדן האימון לעומת איטרציות. עקומת ההפסד הזו מתחילה עם שיפוע תלול כלפי מטה. השיפוע נעשה שטוח יותר ויותר עד שהוא הופך לאפס.

אובדן האימון חשוב, אבל כדאי גם לעיין במאמר בנושא הכללה.

training-serving skew

#fundamentals

ההבדל בין הביצועים של מודל במהלך האימון לבין הביצועים של אותו מודל במהלך הצגת המודעות.

קבוצת אימון

#fundamentals

קבוצת המשנה של מערך הנתונים ששימשה לאימון מודל.

באופן מסורתי, הדוגמאות במערך הנתונים מחולקות לשלוש קבוצות משנה נפרדות:

באופן אידיאלי, כל דוגמה במערך הנתונים צריכה להשתייך רק לאחת מקבוצות המשנה הקודמות. לדוגמה, דוגמה אחת לא יכולה להשתייך גם לקבוצת האימון וגם לקבוצת האימות.

למידע נוסף, אפשר לעיין בקטע מערכי נתונים: חלוקת מערך הנתונים המקורי בקורס המקוצר על למידת מכונה.

מסלול

#rl

בלמידת חיזוק, רצף של קבוצות נתונים שמייצגות רצף של מעברים במצב של הסוכן, כאשר כל קבוצת נתונים תואמת למצב, לפעולה, לתגמול ולמצב הבא במעבר נתון בין מצבים.

למידת העברה

העברת מידע ממשימה אחת של למידת מכונה למשימה אחרת. לדוגמה, בלמידה עם משימות מרובות, מודל אחד פותר כמה משימות, כמו מודל עמוק שיש לו צמתים שונים של פלט למשימות שונות. למידת העברה עשויה לכלול העברת ידע מהפתרון של משימה פשוטה יותר למשימה מורכבת יותר, או העברת ידע ממשימה שבה יש יותר נתונים למשימה שבה יש פחות נתונים.

רוב מערכות למידת המכונה פותרות משימה אחת. למידת העברה היא שלב ראשון בדרך לבינה מלאכותית, שבו תוכנית אחת יכולה לפתור משימות מרובות.

Transformer

#language

ארכיטקטורה של רשת עצבית שפותחה ב-Google, שמסתמכת על מנגנונים של התמקדות עצמית כדי להפוך רצף של הטמעות קלט לרצף של הטמעות פלט, בלי להסתמך על קונבולוציות או על רשתות עצביות חזרתיות. אפשר להתייחס ל-Transformer בתור סטאק של שכבות של קשב עצמי.

טרנספורמר יכול לכלול כל אחד מהרכיבים הבאים:

מקודד ממיר רצף של הטמעות (embeddings) לרצף חדש באורך זהה. מקודד כולל N שכבות זהות, שכל אחת מהן מכילה שתי שכבות משנה. שתי שכבות המשנה האלה חלות בכל מיקום של רצף הטמעת הקלט, ומעבירות כל רכיב ברצף לטמעה חדשה. שכבת המשנה הראשונה של המקודד אוספת מידע מכל רצף הקלט. שכבת המשנה השנייה של המקודד ממירה את המידע המצטבר להטמעת פלט.

מפענח ממיר רצף של הטמעות קלט לרצף של הטמעות פלט, אולי באורך שונה. מפענח כולל גם N שכבות זהות עם שלוש שכבות משנה, ששתיים מהן דומות לשכבות המשנה של המקודד. שכבת המשנה השלישית של המפענח מקבלת את הפלט של המקודד ומחילה את מנגנון הקשב העצמי כדי לאסוף ממנו מידע.

בפוסט בבלוג Transformer: A Novel Neural Network Architecture for Language Understanding יש מבוא טוב לטרנספורמרים.

מידע נוסף זמין במאמר LLMs: What's a large language model? (מודלים גדולים של שפה: מהו מודל שפה גדול?) בקטע 'קורס מקוצר על למידת מכונה'.

טרנספורמציה חסרת תלות

#image

בבעיה של סיווג תמונות, היכולת של אלגוריתם לסווג תמונות בהצלחה גם כשהמיקום של האובייקטים בתמונה משתנה. לדוגמה, האלגוריתם עדיין יכול לזהות כלב, גם אם הוא נמצא במרכז המסגרת וגם אם הוא נמצא בקצה השמאלי של המסגרת.

אפשר לעיין גם במאמרים בנושא עמידות בגודל ועמידות בסיבוב.

טריגרמ

#seq
#language

N-gram שבו N=3.

שלילי אמיתי (TN)

#fundamentals

דוגמה שבה המודל מנבא מחלקה שלילית בצורה נכונה. לדוגמה, המודל מסיק שהודעת אימייל מסוימת היא לא ספאם, והודעת האימייל הזו אכן לא ספאם.

תוצאה חיובית נכונה (TP)

#fundamentals

דוגמה שבה המודל חוזה מחלקה חיובית. לדוגמה, המודל מסיק שהודעת אימייל מסוימת היא ספאם, והודעת האימייל הזו אכן ספאם.

שיעור תוצאות חיוביות אמיתיות (TPR)

#fundamentals

מילה נרדפת למשיכה. כלומר:

$$\text{true positive rate} = \frac {\text{true positives}} {\text{true positives} + \text{false negatives}}$$

שיעור החיוביות האמיתי הוא ציר ה-y בעקומת ROC.

U

חוסר מודעוּת (למאפיין רגיש)

#fairness

מצב שבו מאפיינים רגישים נמצאים, אבל לא נכללים בנתוני האימון. מאפיינים רגישים קשורים לעיתים קרובות למאפיינים אחרים של הנתונים, ולכן מודל שהוכשרה בלי לדעת על מאפיין רגיש עדיין יכול להשפיע באופן שונה על המאפיין הזה, או להפר אילוצים אחרים של הוגנות.

התאמה לא מספקת (underfitting)

#fundamentals

יצירת מודל עם יכולת חיזוי נמוכה, כי המודל לא תפס במלואו את המורכבות של נתוני האימון. יש הרבה בעיות שעלולות לגרום לבעיות התאמה, כולל:

מידע נוסף זמין בקטע התאמה יתר במאמר קורס מקוצר על למידת מכונה.

דגימה חלקית

הסרת דוגמאות מהקבוצה הגדולה יותר במערך נתונים עם חוסר איזון בין הקבוצות כדי ליצור קבוצת אימון מאוזנת יותר.

לדוגמה, נניח שיש מערך נתונים שבו היחס בין הקבוצה הקטנה לבין הקבוצה הגדולה הוא 20:1. כדי להתגבר על חוסר האיזון הזה בין הכיתות, אפשר ליצור קבוצת אימון שמכילה את כל הדוגמאות של הכיתה הקטנה, אבל רק עשירית מהדוגמאות של הכיתה הגדולה. כך יחס הכיתות בקבוצת האימון יהיה 2:1. בעזרת דגימה חלקית, ייתכן שקבוצת האימון המאוזנת יותר הזו תניב מודל טוב יותר. לחלופין, קבוצת האימון המאוזנת יותר הזו עשויה להכיל מספר לא מספיק של דוגמאות כדי לאמן מודל יעיל.

בניגוד לoversampling.

חד-כיווני

#language

מערכת שמעריכה רק את הטקסט שמקדים קטע יעד של טקסט. לעומת זאת, מערכת דו-כיוונית מעריכה גם את הטקסט שמקדים וגם את הטקסט שבא אחריו קטע יעד של טקסט. פרטים נוספים זמינים במאמר דו-כיווני.

מודל שפה חד-כיווני

#language

מודל שפה שמבוסס את ההסתברויות שלו רק על אסימונים שמופיעים לפני, ולא אחרי, האסימונים של היעד. בניגוד למודל שפה דו-כיווני.

דוגמה ללא תווית

#fundamentals

דוגמה שמכילה תכונות אבל לא תווית. לדוגמה, בטבלה הבאה מוצגות שלוש דוגמאות ללא תוויות ממודל להערכת ערך של בית, כל אחת עם שלושה מאפיינים אבל ללא ערך של בית:

מספר חדרי שינה מספר חדרי האמבטיה גיל הבית
3 2 15
2 1 72
4 2 34

בלמידת מכונה בפיקוח, המודלים עוברים אימון על דוגמאות מתויגות ומבצעים חיזויים על דוגמאות לא מתויגות.

בלמידה מונחית למחצה ובלמידה לא מונחית, נעשה שימוש בדוגמאות ללא תוויות במהלך האימון.

השוואה בין דוגמה ללא תוויות לבין דוגמה עם תוויות.

למידת מכונה בלתי מונחית

#clustering
#fundamentals

אימון מודל כדי לזהות דפוסים במערך נתונים, בדרך כלל מערך נתונים ללא תוויות.

השימוש הנפוץ ביותר בלמידת מכונה בלתי מבוקרת הוא קיבוץ נתונים לקבוצות של דוגמאות דומות. לדוגמה, אלגוריתם של למידת מכונה ללא הדרכה יכול לקבץ שירים על סמך מאפיינים שונים של המוזיקה. האשכולות שנוצרים יכולים להפוך לקלט של אלגוריתמים אחרים של למידת מכונה (למשל, לשירות המלצות למוזיקה). אפשר להשתמש בצבירה כשיש מעט תוויות מועילות או שאין תוויות בכלל. לדוגמה, בתחומים כמו מניעת התנהלות פוגעת ומניעת הונאות, אשכולות יכולים לעזור לאנשים להבין טוב יותר את הנתונים.

בניגוד ללמידת מכונה בפיקוח.

למידע נוסף, אפשר לקרוא את המאמר מהי למידת מכונה? במסלול 'מבוא ללמידת מכונה'.

בניית מודל של שיפור הביצועים

טכניקת בניית מודל שמשמשת בדרך כלל בשיווק, ומאפשרת ליצור מודל של 'השפעה סיבתית' (שנקראת גם 'השפעה מצטברת') של 'טיפול' על 'פרט'. להלן שתי דוגמאות:

  • רופאים עשויים להשתמש בבניית מודל של שיפור כדי לחזות את הירידה בתמותה (השפעה סיבתית) של פרוצדורה רפואית (טיפול), בהתאם לגיל ולהיסטוריה הרפואית של המטופל (האדם).
  • משווקים יכולים להשתמש בבניית מודל של שיפור כדי לחזות את העלייה בסיכוי לרכישה (השפעה סיבתית) כתוצאה ממודעה (טיפול) על אדם (פרט).

בניית מודל למדידת השיפור בשיעור ההמרות שונה מסיווג או מרגרסיה בכך שתוויות מסוימות (לדוגמה, מחצית מהתוויות בטיפולים בינאריים) תמיד חסרות בבניית מודל למדידת השיפור בשיעור ההמרות. לדוגמה, חולה יכול לקבל טיפול או לא לקבל טיפול. לכן, אנחנו יכולים לראות אם החולה יחלים או לא רק באחד משני המצבים האלה (אבל אף פעם בשניהם). היתרון העיקרי של מודל שיפור הביצועים הוא שהוא יכול ליצור תחזיות לגבי המצב שלא נצפה (התרחיש ההפוך) ולהשתמש בהן כדי לחשב את ההשפעה הישירה.

הגדלת המשקל

הקצאת משקל לקטגוריה downsampled שווה לגורם שבו ביצעתם דגימה לאחור.

מטריצת משתמשים

#recsystems

במערכות המלצות, וקטור הטמעה שנוצר על ידי פירוק מטריצות שמכיל אותות סמויים לגבי העדפות המשתמשים. כל שורה במטריצה של המשתמש מכילה מידע על העוצמה היחסית של אותות סמויים שונים של משתמש יחיד. לדוגמה, ניקח מערכת המלצות לסרטים. במערכת הזו, האותות הלא גלויים במטריצה של המשתמשים עשויים לייצג את תחומי העניין של כל משתמש בז'אנרים מסוימים, או אותות שקשה יותר לפרש שכוללים אינטראקציות מורכבות בין כמה גורמים.

למטריצת המשתמשים יש עמודה לכל מאפיין סמוי ושורה לכל משתמש. כלומר, למטריצה של המשתמשים יש את אותו מספר שורות כמו למטריצה היעד שמתבצעת בה גורמיזציה. לדוגמה, אם יש מערכת המלצות לסרטים ל-1,000,000 משתמשים, למטריצה של המשתמשים יהיו 1,000,000 שורות.

V

אימות

#fundamentals

ההערכה הראשונית של איכות המודל. בתהליך האימות בודקים את איכות התחזיות של המודל בהשוואה לקבוצת האימות.

מכיוון שקבוצת האימות שונה מקבוצת האימון, האימות עוזר למנוע התאמה יתר.

אפשר להתייחס להערכת המודל מול קבוצת האימות כאל סבב הבדיקה הראשון, ולהערכת המודל מול קבוצת הבדיקות כאל סבב הבדיקה השני.

אובדן אימות

#fundamentals

מדד שמייצג את האובדן של מודל בקבוצת האימות במהלך חזרה מסוימת של האימון.

אפשר לעיין גם במאמר הקו של הגנרליזציה.

קבוצת אימות

#fundamentals

קבוצת המשנה של מערך הנתונים שבה מתבצעת הערכה ראשונית מול מודל מאומן. בדרך כלל, בודקים את המודל המאומן בקבוצת האימות כמה פעמים לפני שבודקים אותו בקבוצת הבדיקה.

באופן מסורתי, מחלקים את הדוגמאות במערך הנתונים לשלוש קבוצות משנה נפרדות:

באופן אידיאלי, כל דוגמה במערך הנתונים צריכה להשתייך רק לאחת מקבוצות המשנה הקודמות. לדוגמה, דוגמה אחת לא יכולה להשתייך גם לקבוצת האימון וגם לקבוצת האימות.

למידע נוסף, אפשר לעיין בקטע מערכי נתונים: חלוקת מערך הנתונים המקורי בקורס המקוצר על למידת מכונה.

שיוך ערכים

התהליך של החלפת ערך חסר בערך חלופי קביל. כשחסר ערך, אפשר להשליך את הדוגמה כולה או להשתמש בהשלמה של ערכים כדי לשמר את הדוגמה.

לדוגמה, נניח שיש מערך נתונים שמכיל מאפיין temperature שאמור להירשם כל שעה. עם זאת, קריאת הטמפרטורה לא הייתה זמינה בשעה מסוימת. לפניכם קטע ממערך הנתונים:

חותמת זמן טמפרטורה
1680561000 10
1680564600 12
1680568200 חסר
1680571800 20
1680575400 21
1680579000 21

המערכת יכולה למחוק את הדוגמה החסרה או להכליל את הטמפרטורה החסרה כ-12,‏ 16,‏ 18 או 20, בהתאם לאלגוריתם ההשלמה.

בעיית התנאי של שיפוע שנעלם

#seq

הנטייה של שיפועי השכבות המוסתרות המוקדמות של חלק מרשתות נוירונליות עמוקות להפוך לשטוחיים (נמוכים) באופן מפתיע. ככל שהמדרונות יהיו נמוכים יותר, כך השינויים במשקלים של הצמתים ברשת העצבית העמוקה יהיו קטנים יותר, וכתוצאה מכך תהיה למידה מועטה או לא תהיה כלל. קשה או בלתי אפשרי לאמן מודלים שסובלים מבעיית התנאי של היעלמות השיפוע. תאים של זיכרון לטווח ארוך לטווח קצר פותרים את הבעיה הזו.

בהשוואה לבעיית שיפוע מתפוצץ.

מידת החשיבות של המשתנים

#df

קבוצת ציונים שמציינת את החשיבות היחסית של כל מאפיין למודל.

לדוגמה, נניח שרוצים ליצור עץ החלטות שמעריך את מחירי הבתים. נניח שב-decision tree הזה נעשה שימוש בשלושה מאפיינים: גודל, גיל וסגנון. אם קבוצת החשיבות של המשתנים לשלושת המאפיינים מחושבת כ-{size=5.8, age=2.5, style=4.7}, המשמעות היא שהמאפיין size חשוב יותר לעץ ההחלטות מאשר age או style.

יש מדדים שונים של מידת החשיבות של המשתנים, שיכולים לספק למומחים ב-ML מידע על היבטים שונים של המודלים.

מקודד אוטומטי וריאציוני (VAE)

#language

סוג של אוטו-קoder שמשתמש בפערים בין הקלט לפלט כדי ליצור גרסאות משופרות של הקלט. מקודדים אוטומטיים משתנים שימושיים בבינה מלאכותית גנרטיבית.

VAEs מבוססים על 'הסקת וריאציה': טכניקה להערכת הפרמטרים של מודל הסתברות.

וקטור

מונח עם עומס יתר מאוד, שהמשמעות שלו משתנה בהתאם לתחומים מתמטיים ומדעיים שונים. בלמידת מכונה, לוקטור כולל שני מאפיינים:

  • סוג הנתונים: בדרך כלל, וקטורים בלמידת מכונה מכילים מספרים בנקודה צפה.
  • מספר הרכיבים: זהו האורך של הווקטור או המאפיין שלו.

לדוגמה, נניח שיש וקטור מאפיינים שמכיל שמונה מספרים בספרות עשרוניות. האורך או המאפיין של וקטור המאפיינים הזה הוא שמונה. חשוב לזכור שלווקטורים של למידת מכונה יש בדרך כלל מספר רב של מאפיינים.

אפשר לייצג סוגים רבים ושונים של מידע כוקטור. לדוגמה:

  • כל מיקום על פני כדור הארץ יכול להיות מיוצג כוקטור דו-מימדי, שבו המאפיין הראשון הוא קו הרוחב והשני הוא קו האורך.
  • אפשר לייצג את המחירים הנוכחיים של כל אחת מ-500 המניות כוקטור בן 500 מימדים.
  • אפשר לייצג התפלגות הסתברויות במספר סופי של כיתות כוקטור. לדוגמה, מערכת סיווג מרובה-כיתות שמנבאת אחד משלושת צבעי הפלט (אדום, ירוק או צהוב) עשויה להפיק את הווקטור (0.3, 0.2, 0.5) כדי לציין את הערך P[red]=0.3, P[green]=0.2, P[yellow]=0.5.

אפשר לשרשר וקטורים, ולכן אפשר לייצג מגוון מדיה שונים כוקטור יחיד. חלק מהמודלים פועלים ישירות על שרשור של הרבה קידודים של ערכים חד-משמעיים (one-hot).

מעבדים מיוחדים כמו TPU מותאמים לביצוע פעולות מתמטיות על וקטורים.

וקטור הוא טנזור בעל דרג 1.

W

פונקציית אובדן Wasserstein

אחת מפונקציות האובדן הנפוצות ברשתות יריבות גנרטיביות, שמבוססת על מרחק Earth Mover's בין התפלגות הנתונים שנוצרו לבין הנתונים האמיתיים.

משקל

#fundamentals

ערך שהמודל מכפיל בערך אחר. אימון הוא התהליך של קביעת המשקלים האידיאליים של מודל, והסקה הוא התהליך של שימוש במשקלים שנלמדו כדי לבצע תחזיות.

מידע נוסף זמין בקטע רגרסיה לינארית בקורס המקוצר על למידת מכונה.

Weighted Alternating Least Squares ‏ (WALS)

#recsystems

אלגוריתם למזעור פונקציית היעד במהלך פירוק מטריצות במערכות המלצות, שמאפשר להפחית את המשקל של הדוגמאות החסרות. כדי למזער את השגיאה המשוקללת הריבונית בין המטריצה המקורית לבין השחזור, ה-WALS מחליף בין תיקון הפירוק של השורות לבין תיקון הפירוק של העמודות. אפשר לפתור כל אחת מהאופטימיזציות האלה באמצעות אופטימיזציה קונית של ריבועים קטנים. פרטים נוספים זמינים בקורס 'מערכות המלצות'.

סכום משוקלל

#fundamentals

הסכום של כל ערכי הקלט הרלוונטיים כפול המשקלים המתאימים שלהם. לדוגמה, נניח שהנתונים הרלוונטיים מורכבים מהנתונים הבאים:

ערך קלט משקל הקלט
2 -1.3
-1 0.6
3 0.4

לכן, הסכום המשוקלל הוא:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

סכום משוקלל הוא ארגומנט הקלט של פונקציית ההפעלה.

מודל רחב

מודל לינארי שכולל בדרך כלל הרבה מאפייני קלט דלילים. אנחנו מתייחסים אליו כ'רחב' כי מודל כזה הוא סוג מיוחד של רשת עצבית עם מספר גדול של מקורות קלט שמתחברים ישירות לצומת הפלט. לעיתים קרובות קל יותר לנפות באגים ולבדוק מודלים רחבים מאשר מודלים עמוקים. אמנם מודלים רחבים לא יכולים לבטא פונקציות לא לינאריות באמצעות שכבות חבויות, אבל הם יכולים להשתמש בטרנספורמציות כמו מיזוג מאפיינים וחלוקה לקטגוריות כדי ליצור מודלים של פונקציות לא לינאריות בדרכים שונות.

בניגוד למודל עמוק.

רוחב

מספר הנוירונים בשכבה מסוימת של רשת עצבית.

חוכמת ההמונים

#df

הרעיון שלפיו חישוב הממוצע של הדעות או האומדנים של קבוצה גדולה של אנשים ('הקהל') מניב לעיתים קרובות תוצאות טובות להפתיע. לדוגמה, ניקח משחק שבו אנשים מנסים לנחש את מספר הסוכריות בקופסה גדולה. למרות שרוב ההשערות הבודדות יהיו לא מדויקות, הניסיון מראה שהממוצע של כל ההשערות קרוב באופן מפתיע למספר האמיתי של הסוכריות בקופסה.

אוספים (ensembles) הם אנלוגיה תוכנתית של 'חוכמת ההמונים'. גם אם מודלים ספציפיים מנסים לחזות נתונים באופן לא מדויק, לרוב חישוב הממוצע של התחזיות של מודלים רבים מניב תחזיות טובות להפתיע. לדוגמה, יכול להיות שעץ החלטות ספציפי יניב חיזויים גרועים, אבל יער החלטות יניב לרוב חיזויים טובים מאוד.

הטמעת מילה

#language

ייצוג של כל מילה בקבוצת מילים בוקטור הטמעה, כלומר ייצוג של כל מילה כוקטור של ערכים בנקודה צפה בין 0.0 ל-1.0. למילים עם משמעויות דומות יש ייצוגים דומים יותר מאשר למילים עם משמעויות שונות. לדוגמה, לגזרים, לסלרי ולמלפפונים יהיו ייצוגים דומים יחסית, שיהיה שונה מאוד מהייצוגים של מטוס, משקפי שמש ומשחת שיניים.

X

XLA ‏ (Accelerated Linear Algebra)

קומפילטור פתוח למידת מכונה למעבדי GPU, מעבדי CPU ומאיצי ML.

המהדר של XLA מקבל מודלים ממסגרות פופולריות של למידת מכונה, כמו PyTorch, ‏ TensorFlow ו-JAX, ומבצע אופטימיזציה שלהם לביצועים גבוהים בפלטפורמות חומרה שונות, כולל מעבדי GPU, מעבדי CPU ומאיצי למידת מכונה.

Z

למידה ללא דוגמאות

סוג של אימון למידת מכונה, שבו המודל מסיק תחזית למשימה שלא אימנו אותו עליה באופן ספציפי. במילים אחרות, המודל לא מקבל אף דוגמה לאימון ספציפי למשימה, אבל מתבקש לבצע הסקה עבור המשימה הזו.

הנחיה ישירה (Zero-shot)

#language
#generativeAI

הנחיה שלא מספקת דוגמה לאופן שבו אתם רוצים שמודל השפה הגדול יגיב. לדוגמה:

חלקים של הנחיה אחת הערות
מהו המטבע הרשמי של המדינה שצוינה? השאלה שעליה רוצים שה-LLM יענה.
הודו: השאילתה בפועל.

מודל השפה הגדול עשוי להשיב באחת מהאפשרויות הבאות:

  • רופיות
  • INR
  • רופי הודי
  • הרופי
  • הרופי ההודי

כל התשובות נכונות, אבל יכול להיות שתעדיפו פורמט מסוים.

השוואה בין הנחיה ללא טירגוט לבין המונחים הבאים:

נורמליזציה לפי ציון תקן

#fundamentals

טכניקה של שינוי קנה מידה שמחליפה ערך גולמי של מאפיין בערך של נקודה צפה שמייצג את מספר סטיות התקן מהממוצע של המאפיין. לדוגמה, נניח שיש תכונה שהממוצע שלה הוא 800 והסטייה התקינה שלה היא 100. בטבלה הבאה מוסבר איך נורמליזציה לפי ציון Z ממפה את הערך הגולמי לציון ה-Z שלו:

ערך גולמי ציון תקן
800 0
950 ‎+1.5
575 -2.25

לאחר מכן, מודל למידת המכונה מתאמן על ציוני ה-Z של המאפיין הזה במקום על הערכים הגולמיים.

מידע נוסף זמין בקטע נתונים מספריים: נורמליזציה במדריך למתחילים בנושא למידת מכונה.