דף זה תורגם על ידי Cloud Translation API.

מילון מונחים ללמידת מכונה

במילון המונחים הזה מוגדרים מונחים כלליים של למידת מכונה ומונחים ספציפיים ל-TensorFlow.

A

אבלציה

שיטה להערכת החשיבות של תכונה או רכיב מסוים על ידי הסרה זמנית ממודל. לאחר מכן אפשר לאמן מחדש את המודל ללא התכונה או הרכיב, ואם הביצועים של המודל שעבר אימון מחדש גרועים משמעותית, סביר להניח שהתכונה או הרכיב שהוסרו היו חשובים.

לדוגמה, נניח שאתם מאמנים מודל סיווג על 10 תכונות, ומשיגים דיוק של 88% בקבוצת הבדיקה. כדי לבדוק את החשיבות של התכונה הראשונה, אפשר לאמן מחדש את המודל באמצעות תשע התכונות האחרות בלבד. אם הביצועים של המודל שעבר אימון מחדש נמוכים משמעותית (למשל, רמת דיוק של 55%), כנראה שהתכונה שהוסרה הייתה חשובה. לעומת זאת, אם הביצועים של המודל שעבר אימון מחדש טובים באותה מידה, אז התכונה הזו כנראה לא הייתה כל כך חשובה.

הסרת תוכן יכולה לעזור גם לקבוע את מידת החשיבות של:

רכיבים גדולים יותר, כמו מערכת משנה שלמה של מערכת למידת מכונה גדולה יותר
תהליכים או טכניקות, כמו שלב עיבוד הנתונים מראש

בשני המקרים, תוכלו לראות איך הביצועים של המערכת משתנים (או לא משתנים) לאחר הסרת הרכיב.

בדיקת A/B

דרך סטטיסטית להשוואת שתי טכניקות (או יותר) – ה-A וה-B. בדרך כלל, A היא שיטה קיימת, וה-B היא שיטה חדשה. בדיקת A/B לא רק קובעת איזו שיטה מניבה ביצועים טובים יותר, אלא גם קובעת אם ההבדל הוא מובהק מבחינה סטטיסטית.

בדיקת A/B בדרך כלל משווה מדד יחיד בשתי טכניקות. לדוגמה, מהי הדיוק של המודל בין שתי הטכניקות? עם זאת, בדיקת A/B יכולה גם להשוות כל מספר מוגבל של מדדים.

צ'יפ אקסלרטור

#GoogleCloud

קטגוריה של רכיבי חומרה מיוחדים, שמיועדים לבצע חישובי מפתח שדרושים לאלגוריתמים של למידה עמוקה (Deep Learning).

צ'יפים מסוג מאיץ (או פשוט מאיצים) יכולים לשפר משמעותית את המהירות והיעילות של משימות אימון והסקת מסקנות בהשוואה למעבד (CPU) לשימוש כללי. המכשירים האלה אידיאליים לאימון רשתות נוירונים ולמשימות עיבוד דומות.

דוגמאות לצ'יפים של מאיץ:

יחידות עיבוד Tensor של Google (TPUs) עם חומרה ייעודית ללמידה עמוקה (Deep Learning).
יחידות ה-GPU של NVIDIA, למרות שתוכננו במקור לעיבוד גרפיקה, נועדו לאפשר עיבוד מקביל ויכולות להגביר משמעותית את מהירות העיבוד.

דיוק

#fundamentals

מספר החיזויים הנכונים לסיווג חלקי מספר החיזויים הכולל. כלומר:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

לדוגמה, מודל שביצע 40 חיזויים נכונים ו-10 חיזויים שגויים, יקבל את רמת הדיוק של:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

סיווג בינארי מספק שמות ספציפיים לקטגוריות השונות של חיזויים נכונים וחיזויים שגויים. לכן, נוסחת הדיוק לסיווג בינארי היא:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

איפה:

TP הוא מספר התוצאות החיוביות האמיתיות (חיזויים נכונים).
TN הוא מספר התוצאות השליליות האמיתיות (חיזויים נכונים).
FP הוא מספר התוצאות החיוביות השגויות (חיזויים שגויים).
FN הוא מספר התוצאות השליליות השגויות (חיזויים שגויים).

השוו בין הדיוק באמצעות דיוק ואחזור.

כדי להציג הערות נוספות, לוחצים על הסמל.

למרות שמדובר במדד חשוב במצבים מסוימים, הדיוק מטעה מאוד במצבים אחרים. חשוב לציין שדיוק הוא בדרך כלל מדד נמוך להערכת מודלים של סיווג שמעבדים מערכי נתונים לא מאוזנים במחלקה.

לדוגמה, נניח שבעיר סובטרופית מסוימת שלג יורד רק 25 יום למאה. מכיוון שימים ללא שלג (המעמד השלילי) חורגים מאוד ממספר הימים עם שלג (הסיווג החיובי), מערך הנתונים של השלג בעיר הזו מאוזן מבחינה מסחרית. חשבו על מודל של סיווג בינארי שאמור לחזות אם יהיה שלג או אפס שלג בכל יום, אבל לחזות אותו בפשטות "אין שלג" בכל יום. המודל הזה מדויק מאוד, אבל אין לו יכולות חיזוי. הטבלה הבאה מסכמת את התוצאות שהתקבלו במשך מאה שנים:

קטגוריה	מספרים
TP (TP)	0
TN	36500
FP	25
FN	0

לכן, מידת הדיוק של המודל הזה:

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (0 + 36500) / (0 + 36500 + 25 + 0) = 0.9993 = 99.93%

למרות שרמת דיוק של 99.93% נראית כמו אחוז מרשים מאוד, למודל אין למעשה כוח חיזוי.

דיוק וזכירת נתונים הם בדרך כלל מדדים שימושיים יותר מאשר דיוק להערכת מודלים שהוכשרו על סמך מערכי נתונים לא מאוזנים בכיתה.

פעולה

#rl

בלמידת חיזוק, המנגנון שבו הסוכן עובר בין מצבים של הסביבה. הנציג בוחר את הפעולה באמצעות מדיניות.

פונקציית הפעלה

#fundamentals

פונקציה שמאפשרת לרשתות נוירונים ללמוד על קשרים לא ליניאריים (מורכבים) בין תכונות לבין התווית.

פונקציות הפעלה פופולריות כוללות:

ReLU
Sigmoid

הגרפים של פונקציות ההפעלה הן אף פעם לא קווים ישרים בודדים. לדוגמה, התרשים של פונקציית ההפעלה של ReLU מורכב משני קווים ישרים:

גרף קרטזי של שתי שורות. לשורה הראשונה יש ערך y קבוע של 0, שנמשך לאורך ציר ה-x מ-infinity,0 עד 0,-0.
השורה השנייה מתחילה ב-0,0. לקו הזה יש שיפוע של 1+, ולכן
הוא מתחיל מ-0,0 עד אינסוף +.

תרשים של פונקציית ההפעלה סיגמואיד נראה כך:

תרשים עקומה דו-ממדי עם ערכי x שנמתחים על פני הדומיין
-אינסוף עד +חיובי, בעוד שערכי y מקיפים את הטווח כמעט 0 עד 1 כמעט. כש-x הוא 0, y הוא 0.5. שיפוע העקומה הוא תמיד
חיובי, כאשר השיפוע הגבוה ביותר הוא 0.0.5 ויורד
השיפועים בהדרגה ככל שהערך המוחלט של x גדל.

אפשר ללחוץ על הסמל כדי לראות דוגמה.

ברשת נוירונים, פונקציות הפעלה מבצעות את הסכום המשוקלל של כל הקלט עבור נוירונים. כדי לחשב סכום משוקלל, הנוירון מסכם את המכפלות של הערכים והמשקולות הרלוונטיים. לדוגמה, נניח שהקלט הרלוונטי לנורון מורכב מהדברים הבאים:

ערך קלט	משקל הקלט
2	1.3-
-1	0.6
3	0.4

לכן הסכום המשוקלל הוא:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

נניח שהמעצב של רשת הנוירונים הזו בוחר בפונקציית הסיגמואיד כפונקציית ההפעלה. במקרה כזה, הנוירון מחשב את הסיגמואיד של 2.0-, שהוא בערך 0.12. לכן, הנוירון מעביר 0.12 (במקום -2.0) לשכבה הבאה ברשת הנוירונים. האיור הבא ממחיש את החלק הרלוונטי בתהליך:

למידה פעילה

גישת אימון שבה האלגוריתם בוחר חלק מהנתונים שהוא לומד מהם. למידה פעילה מועילה במיוחד כאשר העמידה בדוגמאות עם תוויות היא נדירה או יקרה. במקום לחפש באופן עיוור מגוון רחב של דוגמאות עם תוויות, אלגוריתם של למידה פעילה מחפש באופן סלקטיבי את מגוון הדוגמאות הספציפי שהוא צריך כדי ללמוד.

AdaGrad

אלגוריתם מתוחכם לירידה הדרגתית שמשנה את הגודל של כל פרמטר, וכך נותן למעשה לכל פרמטר קצב למידה בלתי תלוי. להסבר מלא, קראו את המאמר הזה ב-AdaGrad.

נציג

#rl

בלמידת חיזוק, הישות שמשתמשת במדיניות כדי למקסם את התשואה הצפויה מהמעבר בין מצבים של הסביבה.

באופן כללי, סוכן הוא תוכנה שמתכנת ומבצעת באופן עצמאי סדרה של פעולות להשגת היעד, עם יכולת להסתגל לשינויים בסביבה. לדוגמה, סוכנים המבוססים על LLM יכולים להשתמש ב-LLM כדי ליצור תוכנית, במקום להחיל מדיניות לחיזוק הלמידה.

אשכולות אגרגטיביים

#clustering

למידע נוסף על אשכולות היררכיים

זיהוי אנומליות

תהליך הזיהוי של חריגים. לדוגמה, במקרה שהממוצע של תכונה מסוימת הוא 100 עם סטיית תקן של 10, זיהוי אנומליות צריך לסמן ערך של 200 כחשוד.

AR

קיצור של מציאות רבודה.

מתחת לעקומת PR

למידע נוסף, אפשר לעיין בקטע PR AUC (אזור מתחת לעקומת PR).

שטח מתחת לעקומת ROC

למידע נוסף, אפשר לעיין בקטע AUC (אזור מתחת לעקומת ROC).

לגבי בינה מלאכותית (AI)

מנגנון לא אנושי שמדגים מגוון רחב של פתרון בעיות, יצירתיות ויכולת הסתגלות. לדוגמה, תוכנית שמדגימה בינה מלאכותית (AI) יכולה לתרגם טקסטים, לחבר סימפוניות וגם להצטיין במשחקים שעדיין לא הומצאו.

לגבי בינה מלאכותית,

#fundamentals

תוכנית או model לא אנושיים שיכולים לפתור משימות מתוחכמות. לדוגמה, גם תוכניות או מודל שמתרגמים טקסט, תוכנית או מודל שמזהים מחלות באמצעות תמונות רדיולוגיות, מציגים בינה מלאכותית.

באופן רשמי, למידת מכונה היא תחום משנה בבינה מלאכותית. עם זאת, בשנים האחרונות, ארגונים מסוימים התחילו להשתמש במונחים בינה מלאכותית ולמידת מכונה לסירוגין.

תשומת הלב,

#language

מנגנון ברשת נוירונים שמציין את החשיבות של מילה מסוימת או חלק ממילה מסוימת. כשמפעילים את תשומת הלב, המערכת דוחסת את כמות המידע שנדרשת למודל כדי לחזות את האסימון/המילה הבאה. מנגנון תשומת לב אופייני עשוי לכלול סכום משוקלל על קבוצת קלטים, כאשר המשקל של כל קלט מחושב על ידי חלק אחר ברשת הנוירונים.

אפשר לקרוא גם על קשב עצמי ועל קשב עצמי רב-ראשי, שהם אבני הבניין של טרנספורמרים.

שיוך

#fairness

מילה נרדפת ל-feature.

בהקשר של הוגנות בלמידת מכונה, מאפיינים מתייחסים לעיתים קרובות למאפיינים שמתייחסים לאנשים פרטיים.

דגימת מאפיינים

#df

טקטיקה לאימון יער החלטות שבה כל עץ החלטות מתייחס רק לקבוצת משנה אקראית של תכונות אפשריות ללמידה של התנאי. באופן כללי, מתבצעת דגימה של תת-תכונות שונות לכל צומת. לעומת זאת, כשמאמנים עץ החלטות ללא דגימת מאפיינים, כל התכונות האפשריות נלקחות בחשבון בכל צומת.

AUC (אזור מתחת לעקומת ROC)

#fundamentals

מספר בין 0.0 ל-1.0 שמייצג את היכולת של מודל סיווג בינארי להפריד בין מחלקות חיוביות ל-מחלקות שליליות. ככל שה-AUC קרוב יותר ל-1.0, כך טובה יותר היכולת של המודל להפריד בין סיווגים.

לדוגמה, באיור הבא מוצג מודל מסווג שמפריד באופן מושלם בין סיווגים חיוביים (אליפסות ירוקות) למחלקות שליליות (מלבנים סגולים). למודל הזה, שהוא מושלם באופן לא מציאותי, יש AUC 1.0:

ציר מספרים עם 8 דוגמאות חיוביות בצד אחד
ו-9 דוגמאות שליליות בצד השני.

לעומת זאת, באיור הבא מוצגות התוצאות של מודל מסווג שיצר תוצאות אקראיות. במודל הזה יש AUC של 0.5:

ציר מספרים עם 6 דוגמאות חיוביות ו-6 דוגמאות שליליות.
רצף הדוגמאות הוא חיובי, שלילי, חיובי, שלילי, חיובי, שלילי, חיובי, שלילי, חיובי שלילי, חיובי, שלילי.

כן, למודל הקודם יש AUC של 0.5, לא 0.0.

רוב המודלים נמצאים בין שתי נקודות הקיצון. לדוגמה, המודל הבא יוצר הפרדה מסוימת בין חיובי לשליליים, ולכן יש לו AUC בטווח שבין 0.5 ל-1.0:

ציר מספרים עם 6 דוגמאות חיוביות ו-6 דוגמאות שליליות.
רצף הדוגמאות הוא שלילי, שלילי, שלילי, שלילי, חיובי, שלילי, חיובי, חיובי, שלילי, חיובי, חיובי, חיובי.

AUC מתעלם מכל ערך שמגדירים לסף סיווג. במקום זאת, AUC בודק את כל ערכי הסף האפשריים לסיווג.

לוחצים על הסמל כדי לקבל מידע על הקשר בין עקומות AUC ועקומות ROC.

AUC מייצג את האזור מתחת לעקומת ROC. לדוגמה, עקומת ROC של מודל שמפריד באופן מושלם בין חיובי לבין שליליים נראית כך:

AUC הוא האזור של האזור האפור באיור הקודם. במקרה יוצא הדופן הזה, האזור הוא פשוט אורך האזור האפור (1.0) כפול רוחב האזור האפור (1.0). כלומר, מכפלה של 1.0 ו-1.0 מניבה AUC של 1.0 בדיוק, שהוא דירוג ה-AUC הגבוה ביותר האפשרי.

לעומת זאת, כאן מופיעה עקומת ROC של מסווג שלא יכול להפריד בין סיווגים. השטח של האזור האפור הוא 0.5.

עקומת ROC אופיינית יותר נראית בערך כך:

יהיה קשה לחשב את השטח מתחת לעקומה באופן ידני, ולכן התוכנית מחשבת בדרך כלל את רוב ערכי ה-AUC.

לוחצים על הסמל כדי לקבל הגדרה רשמית יותר של AUC.

AUC הוא ההסתברות שהמסווג יהיה בטוח יותר שדוגמה חיובית שנבחרה באופן אקראי היא חיובית מאשר שדוגמה שלילית שנבחרה באופן אקראי היא חיובית.

מציאות רבודה

#image

טכנולוגיה שמוסיפה תמונה שנוצרה על ידי מחשב לנקודת המבט של המשתמש על העולם האמיתי, ויוצרת תמונה מורכבת.

מקודד אוטומטי

#language

#image

מערכת שלומדת לחלץ את המידע החשוב ביותר מהקלט. מקודדים אוטומטיים הם שילוב של מקודד ומפענח. מקודדים אוטומטיים מסתמכים על התהליך הדו-שלבי הבא:

המקודד ממפה את הקלט לפורמט (בדרך כלל) עם אבד-ממדים נמוך יותר (בינוני).
המפענח בונה גרסה עם אבדן של הקלט המקורי על ידי מיפוי של הפורמט עם הממדים הנמוכים יותר לפורמט הקלט הממדי הגבוה יותר.

המקודדים האוטומטיים מאומנים מקצה לקצה, כך שהמפענח מנסה לשחזר את הקלט המקורי מפורמט הביניים של המקודד ככל האפשר. מכיוון שפורמט הביניים קטן יותר (בממדים קטנים יותר) מהפורמט המקורי, המקודד האוטומטי נאלץ ללמוד איזה מידע בקלט הוא חיוני, והפלט לא יהיה זהה לחלוטין לקלט.

למשל:

אם נתוני הקלט הם גרפיים, העותק הלא מדויק יהיה דומה לגרפיקה המקורית, אבל השתנה מעט. אולי העותק הלא מדויק מסיר רעש מהגרפיקה המקורית או ממלא פיקסלים חסרים.
במקרה שנתוני הקלט הם טקסט, מקודד אוטומטי ייצור טקסט חדש שמחקה (אבל לא זהה) לטקסט המקורי.

ראו גם מקודדים אוטומטיים משתנים.

הטיית אוטומציה

#fairness

כאשר מקבל החלטות מקבל עדיפות על פני המלצות שמבוססות על מערכת אוטומטית לקבלת החלטות, על פני מידע שמתבצע ללא אוטומציה, גם אם הן קורות עם שגיאות.

AutoML

כל תהליך אוטומטי לבניית מודלים של למידת מכונה . AutoML יכול לבצע באופן אוטומטי משימות כמו:

מחפשים את המודל המתאים ביותר.
כוונון היפר-פרמטרים.
הכנת נתונים (כולל ביצוע של הנדסת תכונות).
פורסים את המודל שנוצר.

AutoML שימושי למדעני נתונים, כי הוא יכול לחסוך להם זמן ומאמצים בפיתוח צינורות עיבוד נתונים של למידת מכונה ולשפר את דיוק החיזוי. היא שימושית גם למי שאינם מומחים, כי היא משפרת את הנגישות של משימות מורכבות של למידת מכונה.

מודל רגרסיבי אוטומטי

#language

#image

#generativeAI

model שמסיק חיזוי על סמך החיזויים הקודמים שלו. לדוגמה, מודלים של שפה רגרסיביים אוטומטיים חוזים את האסימון הבא על סמך האסימונים הצפויים בעבר. כל מודלים גדולים של שפה (LLM) שמבוססים על טרנספורמרים הם רגרסיביים אוטומטיים.

לעומת זאת, מודלים של תמונות שמבוססים על GAN הם בדרך כלל לא רגרסיביים אוטומטיים, כי הם יוצרים תמונה במעבר אחד, ולא באופן איטרטיבי בשלבים. עם זאת, בחלק מהמודלים ליצירת תמונות הם רגרסיביים באופן אוטומטי כי הם יוצרים תמונה בשלבים.

הפסד עזר

פונקציית הפסד, שמשמשת בשילוב עם פונקציית האובדן העיקרית של רשת נוירונים , שעוזרת להאיץ את אימון באיטרציות המוקדמות כשהמשקולות מאתחלים באופן אקראי.

פונקציות של אובדן עזר דוחפות הדרגתיות האפקטיבית לשכבות הקודמות. כך אפשר להתמזג במהלך האימון על ידי מאבק בבעיית ההדרגתיות שנעלמת.

דיוק ממוצע

מדד לסיכום הביצועים של רצף תוצאות מדורג. רמת הדיוק הממוצעת מחושבת לפי ממוצע ערכי הדיוק של כל תוצאה רלוונטית (כל תוצאה ברשימה המדורגת שבה הריקול גדל ביחס לתוצאה הקודמת).

למידע נוסף, ראו האזור מתחת לעקומת PR.

תנאי יישור לציר

#df

בעץ החלטות, תנאי שכולל רק תכונה אחת. לדוגמה, אם שטח הוא ישות, התנאי הבא הוא תנאי ליישור ציר:

area > 200

ניגודיות של מצב אלכסוני.

B

הפצה לאחור

#fundamentals

האלגוריתם שמטמיע ירידה הדרגתית ברשתות נוירונים.

אימון רשת נוירונים כרוך בהרבה איטרציות במחזור הבא של שני שלבים:

במהלך ההעברה הקדמית, המערכת מעבדת מקבץ של דוגמאות כדי ליצור חיזויים. המערכת משווה כל חיזוי לכל ערך label. ההבדל בין החיזוי לערך התווית הוא loss בדוגמה הזו. המערכת צוברת את ההפסדים עבור כל הדוגמאות כדי לחשב את סך כל ההפסדים באצווה הנוכחית.
במהלך המעבר לאחור (backfilling), המערכת מצמצמת את האובדן על ידי התאמת המשקולות של כל הנוירונים בכל השכבות המוסתרות.

לרוב, רשתות נוירונים מכילות נוירונים רבים בשכבות נסתרות רבות. כל אחד מהנוירונים תורם לאובדן הכולל בדרכים שונות. הפצה לאחור קובעת אם להגדיל או להקטין את המשקולות שהוחלו על נוירונים מסוימים.

קצב הלמידה הוא מכפיל שקובע את המידה שבה כל העברה לאחור מגדילה או מקטינה כל משקל. קצב למידה גדול יעלה או יקטין כל משקל יותר מקצב למידה קטן.

במונחים בחשבון, הפצה לאחור מיישמת את כלל השרשרת מהחישוב. כלומר, הפצה לאחור מחשבת את הנגזרת החלקית של השגיאה תוך התחשבות בכל פרמטר.

לפני שנים, מומחי למידת מכונה היו צריכים לכתוב קוד כדי להטמיע הפצה לאחור. ממשקי API מודרניים של למידת מכונה, כמו TensorFlow, מטמיעים עכשיו הפצה לאחור. סוף סוף!

הבאג

#df

שיטה לאימון הרכב שבו כל מודל מקיים אימון על קבוצת משנה אקראית של דוגמאות אימון שנדגמו עם החלפה. לדוגמה, יער אקראי הוא אוסף של עצי החלטה שאומן בתיקים.

המונח bagging הוא קיצור של bootstrap aggregat.

שק של מילים

#language

ייצוג של המילים בביטוי או בפסקה, ללא קשר לסדר. לדוגמה, 'תיק מילים' מייצג את שלושת הביטויים הבאים באופן זהה:

הכלב קופץ
קופץ על הכלב
כלב קופץ

כל מילה ממופה לאינדקס בוקטור sparse, שבו לווקטור יש אינדקס לכל מילה באוצר המילים. לדוגמה, הביטוי הכלב קופץ ממופה לווקטור של מאפיין עם ערכים שאינם אפס בשלושת האינדקסים שתואמים למילים the, dog ו-jumps. הערך שאינו אפס יכול להיות כל אחד מהערכים הבאים:

1 לציון קיומה של מילה.
מספר הפעמים שמילה מופיעה בתיק. לדוגמה, אם הביטוי היה כלב חום ערמוני הוא כלב עם פרווה חום ערמוני, גם חום ערמוני וגם כלב מיוצגים כ-2 והמילים האחרות מיוצגות כ-1.
ערך אחר, כמו הלוגריתם של מספר הפעמים שמילה מופיעה בתיק.

ערך הבסיס

model המשמש כנקודת התייחסות להשוואת הביצועים של מודל אחר (בדרך כלל, מודל מורכב יותר). לדוגמה, מודל רגרסיה לוגי יכול לשמש בתור בסיס טוב למודל עומק.

לגבי בעיה מסוימת, הבסיס עוזר למפתחי מודלים לכמת את הביצועים המינימליים הצפויים שמודל חדש צריך להשיג כדי שהמודל החדש יהיה שימושי.

אצווה

#fundamentals

קבוצת הדוגמאות המשמשות לאיטרציה אחת של אימון. גודל האצווה קובע את מספר הדוגמאות באצווה.

ראו את המאמר תקופה להסבר על האופן שבו אצווה קשורה לתקופה של זמן מערכת.

הֶקֵּשׁ באצווה

#TensorFlow

#GoogleCloud

התהליך של הסקת חיזויים מדוגמאות ללא תווית המחולקות לקבוצות משנה קטנות יותר ("אצווה").

הסקת המסקנות מאצווה יכולה למנף את תכונות המקבילות של צ'יפים של מאיץ. כלומר, מספר מאיצים יכולים בו-זמנית להסיק תחזיות על קבוצות שונות של דוגמאות ללא תוויות, וכך להגדיל באופן משמעותי את מספר ההסקות לשנייה.

נירמול ברצף

נרמול של הקלט או הפלט של פונקציות ההפעלה בשכבה נסתרת. אלה היתרונות של נירמול אצווה:

משפרים את היציבות של רשתות נוירונים על ידי הגנה מפני משקולות יוצאות.
להפעיל קצב למידה גבוה יותר, שיכול להאיץ את האימון.
הפחתת הוספת יתר.

גודל אצווה

#fundamentals

מספר הדוגמאות באצווה. לדוגמה, במקרה שגודל האצווה הוא 100, המודל מעבד 100 דוגמאות לכל איטרציה.

השיטות הבאות הן אסטרטגיות פופולריות לגודל אצווה:

Stochastic Gradient Descent (SGD), שבו גודל האצווה הוא 1.
קבוצת האימון המלאה, שבה גודל האצווה הוא מספר הדוגמאות בכל קבוצת האימון. לדוגמה, אם קבוצת האימון מכילה מיליון דוגמאות, גודל האצווה יהיה מיליון דוגמאות. חבילה מלאה היא בדרך כלל אסטרטגיה לא יעילה.
mini-batch, שבו גודל האצווה הוא בדרך כלל בין 10 ל-1,000. מיני-אצווה היא בדרך כלל האסטרטגיה היעילה ביותר.

רשת נוירונים בייסיאנית

רשת נוירונים הסתברותית שמביאה בחשבון אי-ודאות במשקלים ובפלטים. מודל רגרסיה סטנדרטי של רשת נוירונים בדרך כלל מחזר ערך סקלרי. לדוגמה, מודל סטנדרטי חוזה מחיר לבית של 853,000. לעומת זאת, רשת נוירונים בייסיאנית חוזה התפלגות של ערכים. לדוגמה, מודל בייסיאני חוזה מחיר בית של 853,000 עם סטיית תקן של 67,200.

רשת נוירונים בייסיאנית מסתמכת על משפט בייס כדי לחשב אי-ודאות במשקולות ובחיזויים. רשת עצבית בייסיאנית יכולה להיות שימושית כשחשוב לכמת את אי-הוודאות, למשל במודלים שקשורים לתרופות. גם רשתות נוירונים בייסיאניות יכולות לעזור במניעת הוספת יתר.

אופטימיזציה בייסיאנית

מודל רגרסיה הסתברותי לאופטימיזציה של פונקציות מטרה יקרות מבחינה חישובית מכיוון שאופטימיזציה בייסיאנית עצמה יקרה מאוד, היא בדרך כלל משמשת לאופטימיזציה של משימות יקרות להערכה שיש בהן מספר קטן של פרמטרים, כמו בחירת היפר-פרמטרים.

משוואת בלמן

#rl

בלמידת חיזוק, הזהות הבאה מתבססת על ה-Q-function האופטימלית:

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

האלגוריתמים של למידת חיזוק מיישמים את הזהות הזו כדי ליצור Q-learning באמצעות כלל העדכון הבא:

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]

מעבר ללמידה של החיזוק, משוואת בלמן גם כוללת אפליקציות לתכנות דינמי. אפשר לעיין ב ערך בוויקיפדיה על משוואת בלמן.

BERT (ייצוגים דו-כיווניים של מקודד מטרנספורמרים)

#language

ארכיטקטורת מודל לייצוג טקסט. מודל BERT מאומן יכול לשמש כחלק ממודל גדול יותר לסיווג טקסט או למשימות למידת מכונה אחרות.

ל-BERT יש את המאפיינים הבאים:

נעשה שימוש בארכיטקטורה של טרנספורמר, ולכן הוא מסתמך על קשב עצמי.
משתמש בחלק המקודד של הטרנספורמר. התפקיד של המקודד הוא ליצור ייצוגים טובים של טקסט, במקום לבצע משימה ספציפית, כמו סיווג.
הוא דו-כיווני.
נעשה שימוש באנונימיזציה לצורך אימון ללא פיקוח.

הווריאנטים של BERT כוללים:

ALBERT, שהם ראשי תיבות של A Light BERT.
LaBSE.

סקירה כללית על BERT מופיעה במאמר Open Ssourcecing BERT: אימון מקדים של עיבוד שפה טבעית (NLP).

הטיה (אתיקה/הוגנות)

#fairness

#fundamentals

‫1. יצירת סטריאוטיפים, דעה קדומה או העדפה כלפי דברים מסוימים, אנשים או קבוצות על פני דברים אחרים. ההטיות האלה יכולות להשפיע על איסוף נתונים ופרשנות שלהם, על תכנון המערכת ועל האינטראקציה של המשתמשים עם המערכת. דוגמאות לסוג כזה של הטיה:

הטיה של אוטומציה
הטיית אישור
ההטיה של הבודקים
הטיה של שיוך קבוצתי
הטיה מרומזת
הטיה בתוך הקבוצה
הטיית הומוגניות מחוץ לקבוצה

2. שגיאה שיטתית שמופיעה בהליך של דגימה או דיווח. דוגמאות לסוג כזה של הטיה:

הטיית הכיסוי
הטיה של חוסר תגובה
הטיית ההשתתפות
הטיות בדיווח
הטיית דגימה
הטיה של בחירות

חשוב להבחין במונח ההטיה במודלים של למידת מכונה או בהטיה של חיזוי.

מונח של הטיה (מתמטיקה) או של הטיה

#fundamentals

יירוט או היסט ממקור. 'הטיה' היא פרמטר במודלים של למידת מכונה, שמסומן על ידי אחת מהאפשרויות הבאות:

b
ש₀

לדוגמה, הטייה היא b בנוסחה הבאה:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

בקו דו-ממדי פשוט, הטיה פירושה "חיתוך y". לדוגמה, הטיית הקו באיור הבא היא 2.

שרטוט של קו עם שיפוע של 0.5 ודיכוי (חיתוך y) של 2.

יש הטיה כי לא כל המודלים מתחילים מהמקור (0,0). לדוגמה, נניח שהכניסה לפארק שעשועים היא 2 אירו, ועלות נוספת של 0.5 אירו לכל שעה שבה לקוח שוהה. לכן, במודל שממפה את העלות הכוללת יש הטיה של 2 כי העלות הנמוכה ביותר היא 2 אירו.

חשוב להבדיל בין הטיה לבין הטיה של אתיקה והוגנות או הטיה של חיזוי.

דו-כיווני

#language

מונח המשמש לתיאור מערכת שמעריכה את הטקסט שקודם וגם עוקב אחרי קטע יעד של טקסט. לעומת זאת, מערכת חד-כיוונית מעריכה רק את הטקסט שקודם קטע יעד בטקסט.

לדוגמה, צריך להשתמש במודל אנונימיזציה של שפה שחייב לקבוע את ההסתברויות למילה או למילים שמייצגות את הקו התחתון בשאלה הבאה:

מה _____ איתך?

מודל שפה חד-כיווני יצטרך לבסס את ההסתברויות שלו רק על ההקשר של המילים "מה", "הוא" ו "ה". לעומת זאת, מודל שפה דו-כיווני יכול לקבל הקשר גם מ'עם' ומ'את', מה שיכול לעזור למודל ליצור חיזויים טובים יותר.

מודל שפה דו-כיווני

#language

מודל שפה שקובע את ההסתברות לכך שאסימון נתון נמצא במיקום נתון בקטע טקסט על סמך הטקסט הקודם והבא.

Bigram

#seq

#language

N-gram שבו N=2.

סיווג בינארי

#fundamentals

סוג של משימת סיווג שחוזה אחד משני מחלקות בלעדיות הדדיות:

הסיווג החיובי
המחלקה השלילית

לדוגמה, שני המודלים הבאים של למידת מכונה מבצעים כל אחד סיווג בינארי:

מודל שקובע אם הודעות אימייל הן ספאם (הכיתה החיובית) או לא ספאם (המחלקה השלילית).
מודל שמעריך תסמינים רפואיים כדי לקבוע אם לאדם יש מחלה מסוימת (המעמד החיובי) או אם אין לו את המחלה הזו (הסיווג השלילי).

בניגוד לסיווג מרובה מחלקות.

למידע נוסף, ראו רגרסיה לוגיסטית וסף סיווג.

תנאי בינארי

#df

בעץ החלטות, תנאי שיש לו רק שתי תוצאות אפשריות, בדרך כלל yes או no. לדוגמה, התנאי הבא הוא תנאי בינארי:

temperature >= 100

ניגודיות עם תנאי לא בינארי.

Bing

מילה נרדפת ל-bucketing.

BLEU (לימודי הערכה דו-לשוניים)

#language

ציון בין 0.0 ל-1.0, כולל, שמציין את איכות התרגום בין שתי שפות אנושיות (לדוגמה, בין אנגלית לרוסית). ציון 1.0 ב-BLEU מציין תרגום מושלם. ציון 0.0 ב-BLEU מציין תרגום גרוע.

הגדלה

שיטה של למידת מכונה שמשלבת באופן חזרתי קבוצת מסווגים פשוטים ולא מאוד מדויקים (שנקראים מסווגים 'חלשים') למסווג עם רמת דיוק גבוהה (מסווג 'חזק') באמצעות שיקול יתר של הדוגמאות שהמודל מסווג כרגע באופן שגוי.

תיבה תוחמת (bounding box)

#image

בתמונה, הקואורדינטות (x, y) של מלבן מסביב לאזור עניין, כמו הכלב בתמונה למטה.

תמונה של כלב שיושב על ספה. תיבה תוחמת ירוקה

עם קואורדינטות (275, 1271) בפינה השמאלית העליונה וקואורדינטות ימין למטה של (2954, 2761) תוחמת את גוף הכלב

שידור

הרחבת הצורה של אופרנד בפעולה מתמטית של מטריצה למאפיינים שתואמים לפעולה הזו. לדוגמה, באלגברה לינארית נדרש ששני האופרנדים בפעולת הוספה של מטריצה צריכים להיות בעלי אותן מידות. כתוצאה מכך, לא ניתן להוסיף מטריצה של צורה (m, n) לווקטור באורך n. שידור מאפשר את הפעולה הזו על ידי הרחבה וירטואלית של הווקטור של אורך n למטריצה של צורה (m, n) על ידי שכפול של אותם ערכים בכל עמודה.

לדוגמה, בהתאם להגדרות הבאות, אלגברה לינארית אוסרת על A+B כי ל-A ול-B יש מאפיינים שונים:

A = [[7, 10, 4],
     [13, 5, 9]]
B = [2]

עם זאת, שידור מאפשר את הפעולה A+B על ידי הרחבה וירטואלית של B אל:

 [[2, 2, 2],
  [2, 2, 2]]

לכן, A+B הוא עכשיו פעולה חוקית:

[[7, 10, 4],  +  [[2, 2, 2],  =  [[ 9, 12, 6],
 [13, 5, 9]]      [2, 2, 2]]      [15, 7, 11]]

למידע נוסף, ראו שידור ב-NumPy.

חלוקה לקטגוריות

#fundamentals

המרה של תכונה יחידה במספר תכונות בינאריות, שנקראות buckets או bins, בדרך כלל לפי טווח ערכים. המאפיין הקטוע הוא בדרך כלל ישות מתמשכת.

לדוגמה, במקום לייצג את הטמפרטורה כתכונה של נקודה צפה רציפה, אפשר לחתוך טווחי טמפרטורות לקטגוריות נפרדות, כמו:

<= 10 מעלות צלזיוס תהיה הקטגוריה ה "קרה".
הקטגוריה ה "מתונה" תהיה 11 עד 24 מעלות צלזיוס.
>= 25 מעלות צלזיוס תהיה הדלי ה "חם".

המודל יתייחס לכל ערך באותה קטגוריה באופן זהה. לדוגמה, הערכים 13 ו-22 נמצאים בקטגוריה הממוזגת, כך שהמודל מתייחס לשני הערכים באופן זהה.

כדי להציג הערות נוספות, לוחצים על הסמל.

אם משקפים את הטמפרטורה כתכונה רציפה, המודל מתייחס לטמפרטורה כאל תכונה אחת. במקרה שהטמפרטורה מייצגת שלוש קטגוריות, המודל מתייחס לכל קטגוריה כתכונה נפרדת. כלומר, המודל יכול ללמוד קשרים נפרדים בין כל קטגוריה לתווית. לדוגמה, מודל רגרסיה לינארית יכול ללמוד משקלים נפרדים לכל קטגוריה.

ככל שמגדילים את מספר הקטגוריות, המודל מסובך יותר כי המודל צריך יותר ללמוד. לדוגמה, קטגוריות קרות, ממוזגות וחמימות הן למעשה שלוש תכונות נפרדות שאפשר לאמן את המודל לפיהן. אם מחליטים להוסיף עוד שתי קטגוריות – לדוגמה, במצב קפוא או חם – עכשיו המודל יצטרך להתאמן על חמש תכונות נפרדות.

איך יודעים כמה קטגוריות צריך ליצור, או מה צריך להיות הטווחים לכל קטגוריה? בדרך כלל התשובות מצריכות לא מעט ניסוי.

C

שכבת כיול

התאמה לאחר חיזוי, בדרך כלל כדי להביא בחשבון הטיה של חיזוי. ההסתברויות והחיזויים המותאמים צריכים להתאים להתפלגות של קבוצת תוויות נצפתה.

יצירת מועמדים

#recsystems

קבוצת ההמלצות הראשונית שנבחרה על ידי מערכת ההמלצות. לדוגמה, נניח שיש לכם חנות ספרים שיש בה 100,000 כותרים. שלב יצירת המועמד יוצר רשימה קטנה בהרבה של ספרים מתאימים למשתמש מסוים, למשל 500. אבל גם 500 ספרים הם הרבה יותר מדי מכדי להמליץ למשתמש. השלבים הבאים ויקרים יותר של מערכת ההמלצות (כמו ציון ודירוג מחדש) מפחיתים את 500 ההמלצות האלו לקבוצת המלצות קטנה ושימושית הרבה יותר.

דגימת מועמדים

אופטימיזציה בזמן אימון שמחשבת הסתברות לכל התוויות החיוביות, באמצעות למשל softmax, אבל רק עבור מדגם אקראי של תוויות שליליות. לדוגמה, בהתאם לדוגמה ביגל וכלב, דגימת מועמד מחשבת את ההסתברויות החזויות ואת מונחי האובדן התואמים:

ביגל
כלב
קבוצת משנה אקראית של שאר המחלקות השליליות (לדוגמה, חתול, סוכרייה על מקל, גדר).

הרעיון הוא שהמחלקות השליליות יכולות ללמוד מחיזוקים שליליים תכופים יותר כל עוד המחלקות החיוביות תמיד מקבלות חיזוק חיובי, כך שאפשר לראות זאת באופן אמפירי.

דגימת מועמדים יעילה יותר מבחינה חישובית מאשר אימון אלגוריתמים שמחשבים תחזיות עבור כל המחלקות השליליות, במיוחד כאשר מספר המחלקות השליליות גדול מאוד.

נתונים קטגוריים

#fundamentals

תכונות עם קבוצה ספציפית של ערכים אפשריים. לדוגמה, שימו לב לתכונה קטגורית בשם traffic-light-state, שיכולה לכלול רק אחד משלושת הערכים האפשריים הבאים:

red
yellow
green

הצגת traffic-light-state כתכונה קטגורית מאפשרת למודל ללמוד את ההשפעות השונות של red, green ו-yellow על התנהגות הנהגים.

לפעמים תכונות קטגוריה נקראות תכונות שונות.

בניגוד לנתונים מספריים.

מודל שפה סיבתי

#language

מילה נרדפת למודל שפה חד-כיווני.

ראו מודל שפה דו-כיווני כדי להשוות גישות כיווניות שונות בבניית מודלים של שפות.

מרכז

#clustering

מרכז האשכול, כפי שנקבע באמצעות אלגוריתם k-means או k-median. לדוגמה, במקרה ש-k הוא 3, אז האלגוריתם k-means או k-median מוצא 3 צנטרואידים.

אשכולות מבוססי-מרכז

#clustering

קטגוריה של אלגוריתמים של אשכולות שמארגנים נתונים באשכולות לא היררכיים. k-means הוא אלגוריתם האשכולות הנפוץ ביותר בשימוש במרכז.

בניגוד לאלגוריתמים של קיבוץ היררכי.

הנחיות בטכניקת שרשרת מחשבה

#language

#generativeAI

שיטה של הנדסת פרומפטים שמעודדת מודל שפה גדול (LLM) להסביר את הסיבה שלו שלב אחרי שלב. לדוגמה, כדאי לחשוב על ההנחיה הבאה, ולהקדיש תשומת לב ספציפית למשפט השני:

כמה כוחות g היה נהג במכונית שנסעת מ-0 ל-96 ק"מ לשעה ב-7 שניות? בתשובה, הצג את כל החישובים הרלוונטיים.

סביר להניח שהתגובה של ה-LLM תהיה:

מציגים רצף של נוסחאות בפיזיקה, מחברים את הערכים 0, 60 ו-7 במקומות המתאימים.
הסבירו מדוע הם בחרו בנוסחאות האלה ומה המשמעות של המשתנים השונים.

הנחיה של שרשרת מחשבה מאלצת את ה-LLM לבצע את כל החישובים, מה שיכול להוביל לתשובה נכונה יותר. בנוסף, בקשה משרשרת מחשבה מאפשרת למשתמשים לבחון את השלבים של ה-LLM כדי להחליט אם התשובה הגיונית או לא.

צ'אט, צ'ט, צאט, צט

#language

#generativeAI

התוכן של דיאלוג הלוך ושוב עם מערכת למידת מכונה, בדרך כלל מודל שפה גדול (LLM). האינטראקציה הקודמת בצ'אט (מה הקלדתם והאופן שבו מודל השפה הגדול הגיב) הופכת להקשר של החלקים הבאים בצ'אט.

צ'אט בוט הוא אפליקציה של מודל שפה גדול (LLM).

נקודת ביקורת

נתונים שמתעדים את מצב הפרמטרים של מודל באיטרציה ספציפית של אימון. נקודות ביקורת מאפשרות לייצא משקולות של מודל או לבצע אימונים במספר סשנים. נקודות ביקורת גם מאפשרות אימון להמשיך בשגיאות מהעבר (לדוגמה, הימנעות ממשימות).

בשלב כוונון, נקודת ההתחלה של האימון המודל החדש תהיה נקודת ביקורת ספציפית של המודל שעבר אימון מראש.

מחלקה

#fundamentals

קטגוריה שתווית יכולה להשתייך אליה. למשל:

במודל סיווג בינארי שמזהה ספאם, שתי המחלקות יכולות להיות ספאם ולא ספאם.
במודל סיווג רב-סיווגי שמזהה גזעים של כלבים, המחלקות יכולות להיות פודל, ביגל, פאג וכן הלאה.

מודל סיווג יוצר תחזית של סיווג. לעומת זאת, מודל רגרסיה חוזה מספר ולא מחלקה.

מודל סיווג,

#fundamentals

model שהחיזוי שלו הוא model. לדוגמה, אלה כל המודלים של הסיווג:

מודל שחוזה את השפה של משפט קלט (צרפתית? ספרדית? איטלקית?).
מודל שמנבא זני עצים (מייפל? Oak? באובב?).
מודל שחוזה את הסיווג החיובי או השלילי של בעיה רפואית מסוימת.

לעומת זאת, מודלים של רגרסיה חוזים מספרים ולא מחלקות.

שני סוגים נפוצים של מודלים של סיווג הם:

סיווג בינארי
סיווג רב-סיווגי

סף סיווג (classification threshold)

#fundamentals

בסיווג בינארי, מספר בין 0 ל-1 שממיר את הפלט הגולמי של מודל רגרסיה לוגיסטית לחיזוי של המחלקה החיובית או הסיווג השלילי. שימו לב שסף הסיווג הוא ערך שבן אדם בוחר, ולא ערך שנבחר באימון המודל.

מודל רגרסיה לוגיסטי יוצר ערך גולמי בין 0 ל-1. לאחר מכן:

אם הערך הגולמי גדול מסף הסיווג, אז הסיווג החיובי צפוי.
אם הערך הגולמי נמוך מסף הסיווג, אז צפוי הסיווג השלילי.

לדוגמה, נניח שסף הסיווג הוא 0.8. אם הערך הגולמי הוא 0.9, המודל חוזה את המחלקה החיובית. אם הערך הגולמי הוא 0.7, המודל חוזה את המחלקה השלילית.

סף הסיווג משפיע משמעותית על מספר התוצאות החיוביות השגויות והתוצאות השליליות השגויות.

כדי להציג הערות נוספות, לוחצים על הסמל.

ככל שהמודלים או מערכי הנתונים מתפתחים, לפעמים מהנדסי התוכנה משנים גם את סף הסיווג. כשסף הסיווג משתנה, התחזיות של סיווג חיובי יכולות להפוך לפתאומיות לסיווגים שליליים, ולהיפך.

לדוגמה, חשוב על מודל חיזוי המחלה לסיווג בינארי. נניח שכאשר המערכת פועלת בשנה הראשונה:

הערך הגולמי של מטופל ספציפי הוא 0.95.
סף הסיווג הוא 0.94.

לכן, המערכת מנתחת את המחלקה החיובית. (המטופל נשימה כבדה, "אוי לא! אני חולה!")

שנה לאחר מכן, ייתכן שהערכים ייראו כך:

הערך הגולמי של אותו מטופל נשאר 0.95.
סף הסיווג משתנה ל-0.97.

לכן, המערכת מסווגת מחדש את המטופל הזה כמחלקה השלילית. ("יום שמח! אני לא חולה.") אותו מטופל. יש אבחנה שונה.

מערך נתונים לא מאוזן לכיתה

#fundamentals

מערך נתונים שמיועד לבעיית סיווג, שבה המספר הכולל של תוויות לכל מחלקה משתנה באופן משמעותי. לדוגמה, נשתמש במערך נתונים של סיווג בינארי ששתי התוויות שלו מחולקות באופן הבא:

1,000,000 תוויות שליליות
10 תוויות חיוביות

היחס בין התוויות השליליות לתוויות החיוביות הוא 100,000 ל-1, ולכן זהו מערך נתונים לא מאוזן לכיתה.

לעומת זאת, במערך הנתונים הבא אין איזון כיתתי כי היחס בין תוויות שליליות לתוויות חיוביות קרוב יחסית ל-1:

517 תוויות שליליות
483 תוויות חיוביות

גם מערכי נתונים מרובי מחלקות יכולים להיות לא איזון כיתתי. לדוגמה, מערך הנתונים הבא של סיווג מרובה-סיווגים גם הוא חסר איזון כיתתי כי לתווית אחת יש הרבה יותר דוגמאות מהשתיים האחרות:

1,000,000 תוויות עם המחלקה "ירוק"
200 תוויות עם המחלקה "סגול"
350 תוויות עם המחלקה "כתום"

למידע נוסף, ראו אנטרופיה, סיווג ראשי וסיווג מיעוט.

חיתוך

#fundamentals

שיטה לטיפול בגורמים חריגים באמצעות אחת מהפעולות הבאות או שתיהן:

הקטנת ערכי feature שגדולים מסף מקסימלי עד לסף המקסימלי.
הגדלת ערכי תכונות שנמוכים מהסף המינימלי עד לסף המינימלי הזה.

לדוגמה, נניח שפחות מ-0.5% מהערכים של תכונה מסוימת נמצאים מחוץ לטווח 40-60. במקרה כזה, ניתן לבצע את הפעולות הבאות:

צריך לחתוך את כל הערכים שמעל 60 (הסף המקסימלי) כך שיהיו 60 בדיוק.
צריך לחתוך את כל הערכים מתחת ל-40 (הסף המינימלי) כך שהם יהיו בדיוק 40.

חריגים עלולים לפגוע במודלים, ולגרום לפעמים למשקל להציף במהלך אימון. בנוסף, ערכים חריגים יכולים לשבש בצורה דרמטית מדדים כמו דיוק. חיתוך היא שיטה נפוצה להגבלת הנזק.

חיתוך הדרגתי מאלצת ערכים של הדרגתיות בטווח מוגדר במהלך האימון.

Cloud TPU

#TensorFlow

#GoogleCloud

מאיץ חומרה ייעודי, שמטרתו להאיץ עומסי עבודה של למידת מכונה ב-Google Cloud.

קיבוץ באשכולות

#clustering

לקבץ דוגמאות קשורות, במיוחד בזמן למידה לא מונחית. אחרי שכל הדוגמאות יקובצו, אדם יכול לספק משמעות לכל אשכול.

קיימים אלגוריתמים רבים של קיבוץ לאשכולות. לדוגמה, אשכולות k-means בדוגמאות של אשכולות אלגוריתמים על סמך הקרבה שלהם למרכז, כמו בתרשים הבא:

תרשים דו-ממדי שבו ציר ה-X מסומן לרוחב העץ וציר ה-Y מסומן בגובה העץ. התרשים מכיל שני צנטרואידים וכמה עשרות נקודות נתונים. הנקודות על הגרף
מסווגות לפי הקרבה שלהן. זאת אומרת, נקודות הנתונים
הקרובות ביותר לצנטרואיד אחד מסווגות כצביר 1, ונקודות
הנתונים הקרובות ביותר למרכז השליטה השני מסווגות כאשכול 2.

לאחר מכן, חוקר אנושי יוכל לבדוק את האשכולות, לדוגמה, לסמן את מקבץ 1 כ "עצים ננסיים" ולקבץ את מקבץ 2 כ "עצים בגודל מלא".

כדוגמה נוספת, נבחן אלגוריתם קיבוץ המבוסס על מרחק של דוגמה מנקודת מרכז, כפי שמתואר כך:

עשרות נקודות נתונים מסודרות במעגלים קונצנטריים, כמעט כמו חורים סביב מרכז לוח חיצים. הטבעת הפנימית ביותר של נקודות נתונים מסווגת כאשכול 1, הטבעת האמצעית מסווגת כאשכול 2 והטבעת החיצונית ביותר מסווגת כאשכול 3.

התאמה משותפת

כשנוירונים חוזים דפוסים בנתוני אימון, על ידי מסתמכים כמעט אך ורק על פלטים של נוירונים ספציפיים אחרים במקום להסתמך על ההתנהגות של הרשת באופן כללי. כשהדפוסים שגורמים להתאמה משותפת לא מופיעים בנתוני האימות, ההתאמה המשותפת גורמת להתאמה יתר. רגולזציה של נטישה מפחיתה את ההתאמה המשותפת, כי הנשירה מבטיחה לנוירונים לא להסתמך רק על נוירונים ספציפיים אחרים.

סינון שיתופי

#recsystems

יצירת תחזיות לגבי תחומי העניין של משתמש אחד על סמך תחומי העניין של משתמשים רבים אחרים. הרבה פעמים משתמשים בסינון שיתופי במערכות המלצה.

תרגיל דריפט

שינוי בקשר בין התכונות לתווית. עם הזמן, סטיית קונספט מפחיתה את איכות המודל.

במהלך האימון, המודל לומד את הקשר בין התכונות לתוויות שלהן בערכת האימון. אם התוויות בקבוצת האימון הן שרתי proxy טובים לעולם האמיתי, המודל אמור ליצור חיזויים טובים מהעולם האמיתי. עם זאת, בגלל סטייה בקונספט, החיזויים של המודל נוטים לרדת עם הזמן.

לדוגמה, כדאי להשתמש במודל סיווג בינארי שחוזה אם דגם מסוים של רכב 'יעיל בדלק' או לא. כלומר, התכונות יכולות להיות:

משקל הרכב
דחיסת מנוע
סוג תיבת ההילוכים

בזמן שהתווית היא:

צריכת דלק יעילה
לא יעיל בדלק

עם זאת, המושג "מכונית חסכונית בדלק" משתנה כל הזמן. דגם של מכונית שסווג כחיסכון בדלק בשנת 1994 יתויג כמעט בוודאות כלא יעיל בדלק ב-2024. לרוב, במודל שיש בו סחף קונספט, המערכת יוצרת חיזויים פחות שימושיים ופחות שימושיים לאורך זמן.

השוו והבדילו ביניהם לבין חוסר טריוויה.

כדי להציג הערות נוספות, לוחצים על הסמל.

כדי לפצות על סחף הקונספט, צריך לאמן מחדש את המודלים מהר יותר מהקצב של סחף הקונספט. לדוגמה, אם תזוזה בקונספט מפחיתה את רמת הדיוק של המודל בשולי רווח משמעותיים כל חודשיים, אז צריך לאמן מחדש את המודל בתדירות גבוהה יותר מאשר כל חודשיים.

מצב

#df

בעץ החלטות, כל צומת שמעריך ביטוי. לדוגמה, החלק הבא בעץ החלטות מכיל שני תנאים:

עץ החלטות עם שני תנאים: (x > 0) ו-
(y > 0).

תנאי נקרא גם פיצול או בדיקה.

מצב ניגודיות עם עלה.

לעיונך:

תנאי בינארי
תנאי לא בינארי.
תנאי-יישור לציר
מצב אלכסוני

שיחה

#language

מילה נרדפת להזיה.

קונפליקציה היא כנראה מונח מדויק יותר מבחינה טכנית מאשר המונח 'הזיה'. עם זאת, ההזיה הפכה לפופולרית בהתחלה.

הגדרות אישיות

תהליך הקצאת הערכים הראשוניים של המאפיינים ששימשו לאימון מודל, כולל:

השכבות של המודל
את מיקום הנתונים
היפר-פרמטרים כמו:

בפרויקטים של למידת מכונה אפשר להגדיר את התצורה באמצעות קובץ תצורה מיוחד או באמצעות ספריות תצורה כמו:

הטיית אישור

#fairness

הנטייה לחפש מידע, לפרש אותו, להעדיף אותו ולזכור אותו באופן שמאשר את האמונות או ההשערות הקיימות של אדם. מפתחי למידת מכונה עלולים לאסוף או לתייג נתונים בטעות, בדרכים שמשפיעות על התוצאות שתומכות באמונות הקיימות שלהם. הטיית אישור היא סוג של הטיה מרומזת.

הטיות של הניסוי הן סוג של הטיית אישור שבה הניסוי ממשיך את המודלים של האימון עד לאישור השערה קיימת.

מטריצת בלבול

#fundamentals

טבלת NxN שמסכמת את מספר החיזויים הנכונים והשגיאות שנוצרו על ידי מודל סיווג. לדוגמה, אפשר להשתמש במטריצת הבלבול הבאה למודל סיווג בינארי:

	גידול (צפוי)	ללא גידול (חיזוי)
גידול (אמת הקרקע)	18 (TP)	1 (FN)
ללא טמור (ground truth)	6 (FP)	452 (TN)

מטריצת הבלבול הקודמת מציגה את הפרטים הבאים:

מתוך 19 החיזויים שבהם ground truth היה Tumor, המודל סיווג בצורה נכונה 18 וסווג בצורה שגויה 1.
מתוך 458 החיזויים שבהם אמת השורש הייתה 'לא טומור', המודל סיווג בצורה נכונה 452 וסווג בצורה שגויה 6.

מטריצת הבלבול לבעיה בסיווג מרובה סיווגים יכולה לעזור לכם לזהות דפוסים של טעויות. לדוגמה, נשתמש במטריצת הבלבול הבאה למודל סיווג רב-סיווגי בן 3 מחלקות, שמסווג שלושה סוגים שונים של קשתית העין (Virginica, Virsicolor ו-Setosa). כשהאמת הבסיסית הייתה וירג'יניה, מטריצת הבלבול מראה שיש סיכוי גדול בהרבה שהמודל יחזות בטעות את ורזיקולור מאשר סטוסה:

	Setosa (חיזוי)	Versicolor (חיזוי)	וירג'יניה (חזוי)
סטוסה (ground truth)	88	12	0
Versicolor (אמת קרקע)	6	141	7
Virginica (ground truth)	2	27	109

דוגמה נוספת: מטריצה מבלבלת יכולה לחשוף שמודל שאומן לזהות ספרות בכתב יד נוטה לחזות בטעות את המספר 9 במקום את המספר 4, או לחזות בטעות את המספר 1 במקום את 7.

מטריצות בלבול מכילות מספיק מידע כדי לחשב מגוון של מדדי ביצועים, כולל דיוק ואחזור.

ניתוח קהל בוחרים

#language

פיצול משפט למבנים דקדוקיים קטנים יותר ("מרכיבים"). חלק מאוחר יותר במערכת למידת המכונה, כמו מודל הבנת שפה טבעית (NLP), יכול לנתח את המרכיבים בקלות רבה יותר מאשר המשפט המקורי. לדוגמה, שימו לב למשפט הבא:

חבר שלי אימץ שני חתולים.

מנתח בוחרים יכול לחלק את המשפט הזה לשני המרכיבים הבאים:

חבר שלי הוא ביטוי שם.
אמץ שני חתולים הוא ביטוי פועל.

אפשר לחלק את המרכיבים האלה לקבוצות משנה קטנות יותר. לדוגמה, ביטוי פועל

אימצו שני חתולים

ניתן לחלק אותה לחלוקות משנה נוספות:

adopted הוא פועל.
שני חתולים הוא ביטוי נוסף של שם עצם.

הטמעת שפה לפי הקשר

#language

#generativeAI

הטמעה שקרובה ל "הבנה" של מילים וביטויים באופן שדוברים ילידיים יכולים. הטמעות של שפות לפי הקשר יכולות להבין תחביר, סמנטיקה והקשר מורכבים.

לדוגמה, כדאי לשקול הטמעות של המילה באנגלית cow (פרה). הטמעות ישנות יותר, כמו word2vec, יכולות לייצג מילים באנגלית, כך שהמרחק בשטח ההטמעה מפרה לשור דומה למרחק בין ewe (כבש) ל-Ram (כבש זכר) או מנקבה לזכר. הטמעות של שפות לפי הקשר יכולות לקחת צעד אחד קדימה, באמצעות ההכרה בכך שדוברי אנגלית לפעמים משתמשים במילה פרה בתור פרה או שור.

חלון הקשר

#language

#generativeAI

מספר האסימונים שמודל יכול לעבד בהנחיה נתונה. ככל שחלון ההקשר גדול יותר, כך המודל יכול להשתמש במידע רב יותר כדי לספק תשובות עקביות ועקביות להנחיה.

פיצ'ר מתמשך

#fundamentals

תכונה עם נקודה צפה (floating-point) עם טווח אינסופי של ערכים אפשריים, כמו טמפרטורה או משקל.

ליצור ניגוד עם תכונה שונה.

דגימת נוחות [ברבים: דגימות נוחוּת]

שימוש במערך נתונים שלא נאסף באופן מדעי כדי להריץ ניסויים מהירים. בהמשך, חשוב לעבור למערך נתונים שנאסף באופן מדעי.

מתכנס

#fundamentals

מצב שמתקבל כאשר ערכי loss משתנים מעט מאוד או לא משתנים כלל בכל איטרציה. לדוגמה, עקומת ההפסד הבאה מרמזת על התכנסות בערך ב-700 איטרציות:

עלילה קרטזית. ציר ה-X אבד. ציר ה-Y הוא מספר החזרות האימון. האובדן גבוה מאוד באיטרציות הראשונות, אבל הוא בירידה חדה. אחרי כ-100 חזרות, ההפסד הוא עדיין יורד, אבל הרבה יותר הדרגתי. לאחר כ-700 חזרות,
האובדן נשאר ללא שינוי.

מודל מתכנס כשאימון נוסף לא משפר את המודל.

בלמידה עמוקה (Deep Learning), ערכי האובדן נשארים לפעמים קבועים או כמעט קבועים באיטרציות רבות עד בסופו של דבר. במהלך תקופה ארוכה של ערכי אובדן קבוע, יכול להיות באופן זמני לקבל תחושה שגויה של התכנסות.

כדאי גם לקרוא על עצירה מוקדמת.

פונקציה קמורה

פונקציה שבה האזור שמעל התרשים של הפונקציה הוא קבוצה קמורות. המבנה של הפונקציה הקמורה האב-טיפוסית דומה לאות U. לדוגמה, אלה כל הפונקציות הקמורות:

עקומות בצורת U, עם נקודה מינימלית אחת בכל אחת.

לעומת זאת, הפונקציה הבאה אינה קמורות. שימו לב שהאזור שמעל התרשים אינו קבוצה קמורה:

עקומה בצורת W עם שתי נקודות מינימום מקומיות שונות.

לפונקציה קמורה מאוד יש בדיוק נקודת מינימום אחת מקומית, שהיא גם נקודת המינימום הגלובלית. הפונקציות הקלאסיות בצורת U הן פונקציות קמורות לחלוטין. עם זאת, חלק מהפונקציות הקמורות (למשל קווים ישרים) אינן בצורת U.

כדי לקבל הסבר מפורט יותר על החישובים, אפשר ללחוץ על הסמל.

הרבה פונקציות הפסד נפוצות, כולל פונקציות הבאות, הן פונקציות קמורות:

הפסד L₂
אובדן יומן
התאמה ₁
התאמה ₂

וריאציות רבות של ירידה בהדרגתיות מובטחות שימצאו נקודה שקרובה למינימום של פונקציה קמורה. באופן דומה, לווריאציות רבות של ירידה סטוכסטית בשיפוע יש סבירות גבוהה (אבל לא הבטחה) למציאת נקודה שקרובה למינימום של פונקציה קמורה.

הסכום של שתי פונקציות קמורות (לדוגמה, הפסד L₂ + רגולזציה של L₁) הוא פונקציה קמורה.

מודלים עמוקים הם אף פעם לא פונקציות קמורות. באופן מפתיע, אלגוריתמים שנועדו לאופטימיזציה קמורות נוטים למצוא פתרונות טובים במידה סבירה ברשתות עמוקות בכל מקרה, למרות שלא מובטח שהפתרונות האלה יהיו מינימליים גלובליים.

אופטימיזציה קמורה

התהליך של שימוש בטכניקות מתמטיות כמו ירידה הדרגתית כדי למצוא את המינימום של פונקציה קמורה. הרבה מחקרים בתחום למידת המכונה התמקדו בניסוח של בעיות שונות כבעיות אופטימיזציה קמורות, ובפתרון בעיות כאלה בצורה יעילה יותר.

לפרטים מלאים, קראו את בויד וונדנברג'ה, אופטימיזציה של קמורות.

קבוצה קמורה

קבוצת משנה של מרחב אוקלידיאני, כך שקו שמשורטט בין שתי נקודות בקבוצת המשנה יישאר לגמרי בתוך קבוצת המשנה. לדוגמה, שני הסוגים הבאים הם קבוצות קמורות:

איור אחד של מלבן. איור נוסף של אליפסה.

לעומת זאת, שתי הצורות הבאות אינן קבוצות קמורות:

איור של תרשים עוגה עם פרוסה חסרה.
איור נוסף של מצולע פרוע לא סדיר.

קונבולציה

#image

במתמטיקה, בדיבור יומיומי, שילוב של שתי פונקציות. בלמידת מכונה, קונבולציה משלבת את המסנן הקונבולוציה ואת מטריצת הקלט כדי לאמן משקולות.

לרוב, המונח 'קונבולציה' בלמידת מכונה מתייחס בצורה מקוצרת לפעולה קונבולטיבית או לשכבה קונסולה.

בלי קונבולציות, אלגוריתם של למידת מכונה יצטרך ללמוד משקל נפרד לכל תא ב-tensor גדול. לדוגמה, אימון של אלגוריתם של למידת מכונה על תמונות בגודל 2Kx2K יאלץ למצוא 4 מיליון משקולות נפרדות. הודות לקיפולים, אלגוריתם של למידת מכונה צריך למצוא משקולות לכל תא רק במסנן המתפתל, וכך לצמצם באופן משמעותי את הזיכרון הדרוש לאימון המודל. כשמחילים את המסנן הקונבולוציה, הוא פשוט משוכפל בין תאים כך שכל אחד מהם יוכפל במסנן.

מסנן קונבולציה

#image

אחד משני המשתתפים בפעולה מתוכננת. (השחקן השני הוא פרוסה של מטריצת קלט). מסנן קונבולוציה הוא מטריצה שיש לה דירוג זהה לזה של מטריצת הקלט, אבל צורה קטנה יותר. לדוגמה, בהינתן מטריצת קלט של 28x28, המסנן יכול להיות כל מטריצה דו-ממדית קטנה מ-28x28.

בפעולות פוטוגרפיות, כל התאים במסנן המתפתל מוגדרים בדרך כלל לדפוס קבוע של אפסים ואחדים. בלמידת מכונה, מסננים אקטיביים מיוצרים בדרך כלל עם מספרים אקראיים, ואז אימונים של הרשת הם הערכים האידאליים.

שכבה מתקפלת

#image

שכבה של רשת נוירונים עמוקה שבה מסנן סינכרוני מעביר מטריצת קלט. לדוגמה, מסנן קונבולציה בגודל 3x3:

מטריצה של 3x3 עם הערכים הבאים: [[0,1,0], [1,0,1], [0,1,0]]

האנימציה הבאה מציגה שכבת קונבולוציה שמורכבת מ-9 פעולות קונבולציה שכוללות את מטריצת הקלט 5x5. שימו לב שכל פעולה רציונלית פועלת על פרוסה שונה של 3x3 במטריצת הקלט. המטריצה של 3x3 שתתקבל (בצד ימין) מורכבת מהתוצאות של 9 הפעולות המתחברות:

אנימציה שמוצגות בה שתי מטריצות. המטריצה הראשונה היא המטריצה בגודל 5x5:
המטריצה השנייה היא מטריצה של 3x3:
[[181,303,618], [115,338,605], [169,351,560]].
המטריצה השנייה מחושבת על ידי החלת המסנן הקונבולוציה [[0, 1, 0], [1, 0, 1], [0, 1, 0]] על פני קבוצות משנה שונות של 3x3 במטריצה של 5x5.

רשת עצבית מתקפלת

#image

רשת נוירונים שבה לפחות שכבה אחת היא שכבה קונספירציה. רשת עצבית מתקפלת טיפוסית מורכבת משילוב כלשהו של השכבות הבאות:

שכבות מתקדמות
אחסון שכבות
שכבות צפיפות

רשתות נוירונים מלאכותיות נחלו הצלחה רבה בסוגים מסוימים של בעיות, כמו זיהוי תמונות.

פעולה קונבולטורית

#image

הפעולה המתמטית הדו-שלבית הבאה:

הכפלה ברמת הרכיבים של המסנן הקונבולטיבי ופרוסה של מטריצת קלט. (לפרוסה של מטריצת הקלט יש דירוג וגודל זהים לאלה של המסנן הקונבולוציה).
סכום כל הערכים במטריצת המוצרים שתתקבל.

לדוגמה, ניקח לדוגמה את מטריצת הקלט הבאה בגודל 5x5:

מטריצת 5x5: [[128,97,53,201,198], [35,22,25,200,195],
[37,24,28,197,182], [33,28,92,195,179,19,100,195].

עכשיו חשבו על המסנן הקובולציה הבא בגודל 2x2:

מטריצת 2x2: [[1, 0], [0, 1]]

כל פעולת קונבולציה כוללת פרוסה אחת בגודל 2x2 של מטריצת הקלט. לדוגמה, נניח שמשתמשים בפלח 2x2 בפינה השמאלית העליונה של מטריצת הקלט. לכן, פעולת הקונבולוציה בפלח הזה נראית כך:

המערכת מחילה את המסנן הקונבולוציה [[1, 0], [0, 1]] על הקטע
2x2 השמאלי העליון של מטריצת הקלט, שהוא [[128,97], [35,22]].
המסנן הקונבולוציה משאיר את 128 ו-22 ללא שינוי, אבל מאפס את 97 ו-35. כתוצאה מכך, פעולת הקונבולוציה הניבה
את הערך 150 (128+22).

שכבה קונבולציה מורכבת מסדרה של פעולות קונבולוציה, שכל אחת מהן פועלת על פרוסה שונה של מטריצת הקלט.

עלות

מילה נרדפת ל-loss.

אימון משותף

גישה של למידה מונחית למחצה שימושית במיוחד כשמתקיימים כל התנאים הבאים:

היחס בין דוגמאות ללא תווית לבין דוגמאות במערך הנתונים הוא גבוה.
זו בעיית סיווג (בינארית או multi-class).
מערך הנתונים מכיל שתי קבוצות שונות של תכונות חזויות, שאינן תלויות אחת בשנייה ומשלימות.

אימון משותף, למעשה, מגביר את האותות הבלתי תלויים ליצירת אות חזק יותר. לדוגמה, כדאי לשקול מודל סיווג שמסווג מכוניות משומשות כמכוניות טובות או כגרועות. קבוצה אחת של תכונות חזויות עשויה להתמקד במאפיינים מצטברים כמו השנה, היצרן והדגם של הרכב. קבוצה אחרת של תכונות חיזוי עשויה להתמקד בהיסטוריית הנהיגה של הבעלים הקודמים ובהיסטוריית התחזוקה של הרכב.

המאמר המלא על הדרכה משותפת הוא שילוב נתונים ממותגים ושאינם ממותגים עם אימון משותף של בלום ומיטשל.

הוגנות נגד עובדות

#fairness

מדד הוגנות שבודק אם המסווג מייצר את אותה תוצאה לאדם אחד כמו במקרה של אדם פרטי אחר שזהה לתוצאה הראשונה, מלבד לגבי מאפיין רגיש אחד או יותר. אחת השיטות לזיהוי מקורות פוטנציאליים של הטיה במודל, היא להעריך את המסווג כדי להבין שמדובר בהגינות.

לדיון מפורט יותר על הוגנות, אפשר לקרוא את המאמר "כשעולמות מתנגשים: שילוב של הנחות נגדיות שונות בהגינות".

הטיית כיסוי

#fairness

למידע נוסף על הטיית הבחירות.

פריחה

#language

משפט או ביטוי עם משמעות לא ברורה. פריחת הקריסה יוצרת בעיה משמעותית בהבנת שפה טבעית. לדוגמה, הכותרת Red Tape Holds Up Skyscraper היא פריחה מפושטת, מפני שמודל NLU יכול לפרש את הכותרת באופן מילולי או מילולי.

כדי להציג הערות נוספות, לוחצים על הסמל.

רק כדי להבהיר את הכותרת המסתורית:

סרט אדום יכול להתייחס לאחת מהאפשרויות הבאות:
- סרט הדבקה
- בירוקרטיה מוגזמת
המונח Holds Up יכול להתייחס לאחת מהאפשרויות הבאות:
- תמיכה מבנית
- עיכובים

מבקר

#rl

מילה נרדפת ל-Deep Q-Network.

אנטרופיה

הכללה של Log Loss לבעיות בסיווג מרובה-מחלקות. אנטרופיה מכמתת את ההבדל בין שתי התפלגויות של הסתברות. למידע נוסף, ראו מורכבות.

אימות צולב

מנגנון להערכת מידת ההכללה של model לגבי נתונים חדשים, באמצעות בדיקת המודל מול קבוצת משנה אחת או יותר של נתונים, שאינם חופפים, שמנועים מmodel.

פונקציית התפלגות מצטברת (CDF)

פונקציה שמגדירה את תדירות הדגימות נמוכה מערך יעד או שווה לו. לדוגמה, נבחן התפלגות נורמלית של ערכים רציפים. CDF אומר לך שבערך 50% מהדגימות צריכות להיות שווים לממוצע או קטן מהממוצע, וכ-84% מהדגימות צריכות להיות קטנות או שווים לסטיית תקן אחת מעל הממוצע.

D

ניתוח נתונים

הבנת הנתונים באמצעות עיון בדגימות, במדידה ובהדמיה. ניתוח נתונים יכול להיות שימושי במיוחד כשמתקבלים מערך נתונים בפעם הראשונה, לפני שיוצרים את model הראשון. חיוני גם כדי להבין ניסויים וניפוי באגים במערכת.

הרחבת נתונים

#image

הגדלה מלאכותית של הטווח והמספר של הדוגמאות לאימונים, על ידי טרנספורמציה של דוגמאות קיימות כדי ליצור דוגמאות נוספות. לדוגמה, נניח שתמונות הן אחת מהתכונות שלכם, אבל מערך הנתונים לא מכיל מספיק דוגמאות של תמונות כדי שהמודל יוכל ללמוד שיוכים שימושיים. במצב אידיאלי צריך להוסיף למערך הנתונים מספיק תמונות מתויגות כדי לאפשר למודל לאמן כמו שצריך. אם זה לא אפשרי, הגדלת הנתונים יכולה לסובב, למתוח ולשקף כל תמונה על מנת ליצור וריאנטים רבים של התמונה המקורית, ויכול להיות שיצטברו מספיק נתונים מתויגים כדי לאפשר אימון מצוין.

DataFrame

#fundamentals

סוג פופולרי של נתונים מסוג פנדות לייצוג מערכי נתונים בזיכרון.

A DataFrame דומה לטבלה או לגיליון אלקטרוני. לכל עמודה של DataFrame יש שם (כותרת), וכל שורה מזוהה באמצעות מספר ייחודי.

כל עמודה ב-DataFrame בנויה כמו מערך דו-ממדי, אבל ניתן להקצות לכל עמודה סוג נתונים משלה.

אפשר גם לעיין בדף העזר הרשמי של pandas.DataFrame.

מקביליות של נתונים

דרך להתאים לעומס את האימון או ההסקה שמשכפלת מודל שלם לכמה מכשירים, ואז מעבירה קבוצת משנה של נתוני הקלט לכל מכשיר. מקביליות של נתונים יכולה לאפשר אימון והסקת מסקנות לגבי גדלים של אצווה גדולים מאוד. עם זאת, כדי מקביל של נתונים, המודל יהיה קטן מספיק כדי להתאים לכל המכשירים.

מקבילות של נתונים בדרך כלל מזרזת את האימון וההסקה.

אפשר לקרוא גם את המקבילות של המודלים.

קבוצת נתונים או מערך נתונים

#fundamentals

אוסף של נתונים גולמיים, שמאורגנים בדרך כלל (אבל לא באופן בלעדי) באחד מהפורמטים הבאים:

גיליון אלקטרוני
קובץ בפורמט CSV (ערכים מופרדים בפסיקים)

Dataset API (tf.data)

#TensorFlow

API ברמה גבוהה של TensorFlow לקריאת נתונים ולהפיכתם לצורה שנדרשת על ידי אלגוריתם של למידת מכונה. אובייקט tf.data.Dataset מייצג רצף של רכיבים, שבו כל רכיב מכיל Tensor אחד או יותר. אובייקט tf.data.Iterator מספק גישה לרכיבים של Dataset.

לפרטים נוספים על Dataset API, קראו את המאמר tf.data: Build צינורות קלט של TensorFlow במדריך למתכנתים של TensorFlow.

תחום החלטה

המפריד בין מחלקות שנלמדו על ידי מודל בכיתה בינארית או בבעיות סיווג מרובות מחלקות. לדוגמה, בתמונה הבאה שמייצגת בעיית סיווג בינארי, גבול ההחלטה הוא הגבול בין המחלקה הכתומה למחלקה הכחולה:

גבול מוגדר היטב בין מחלקה אחת לאחרת.

החלטה ביער

#df

מודל שנוצר מכמה עצי החלטות. יער החלטות יוצר חיזוי על ידי צבירת התחזיות של עצי ההחלטות שלו. הסוגים הפופולריים של יערות ההחלטה כוללים יערות אקראיים ועצים משודרגים הדרגתיים.

סף החלטה

מילה נרדפת לסף סיווג.

עץ החלטות

#df

מודל של למידה מונחית שמורכב מקבוצה של conditions וconditions שמסודרים בהיררכיה. לדוגמה, הנה עץ החלטות:

עץ החלטות שמורכב מארבעה תנאים שמסודרים בהיררכיה, ומובילים לחמישה עלים.

מפענח

#language

באופן כללי, כל מערכת למידת מכונה שממירה מייצוג מעובד, צפוף או פנימי לייצוג גולמי, דליל או חיצוני יותר.

מפענחים הם לעיתים קרובות רכיב במודל גדול יותר, שאותו הם מותאמים לעיתים קרובות למקודד.

במשימות רצף לרצף, המפענח מתחיל במצב הפנימי שהמקודד יצר כדי לחזות את הרצף הבא.

במאמר טרנספורמר מוסבר איך להגדיר מפענח בארכיטקטורת הטרנספורמר.

מודל עמוק

#fundamentals

רשת נוירונים שמכילה יותר משכבה נסתרת אחת.

מודל עמוק נקרא גם רשת נוירונים עמוקה.

הניגוד למודל רחב.

של רשת עצבית עמוקה

מילה נרדפת ל-Deep model.

Deep Q-Network (DQN)

#rl

ב-Q-learning, רשת נוירונים עמוקה שחוזה פונקציות Q.

Critic היא מילה נרדפת ל-Deep Q-Network.

שוויון דמוגרפי

#fairness

מדד הוגנות שמתקיים אם תוצאות הסיווג של המודל לא תלויות במאפיין רגיש נתון.

לדוגמה, אם גם תושבי הליפוטים וגם בני ברודינגנאגיה מצטרפים לאוניברסיטת גלובדואבדיב, מתקבלת התאמה דמוגרפית אם אחוז האנשים בלילפוטים שיקבלו אישור יהיה זהה לאחוז המנויים של ברבדינגנגה, בלי קשר אם קבוצה אחת נחשבת בממוצע לקבוצה בעלת כישורים גבוהים יותר מהאחרת.

בניגוד לסיכויים שוויוניים ושוויון הזדמנויות, שמאפשרים סיווג מצטבר שתלוי במאפיינים רגישים, אבל לא מאפשרים לתוצאות סיווג מסוימות שתוויות אמת קרקע מסוימות תלויות במאפיינים רגישים. במאמר "תקיפה של אפליה באמצעות למידת מכונה חכמה יותר" תוכל לראות תצוגה חזותית של היתרונות של אופטימיזציה תוך התמקדות בהתאמת דמוגרפית.

סינון רעשים

#language

גישה נפוצה ללמידה בהשגחה עצמית, שבה:

המערכת מוסיפה למערך הנתונים רעש באופן מלאכותי.
model מנסה להסיר את הרעש.

סינון רעשים מאפשר ללמוד מדוגמאות ללא תוויות. מערך הנתונים המקורי משמש כיעד או label, והנתונים עם הרעש משמשים כקלט.

בחלק מהמודלים של אנונימיזציה של שפה נעשה שימוש בסינון רעשים באופן הבא:

המערכת מוסיפה רעש באופן מלאכותי למשפט בלי תווית על ידי התממה של חלק מהאסימונים.
המודל מנסה לחזות את האסימונים המקוריים.

ישות צפופה

#fundamentals

תכונה שבה רוב הערכים או כל הערכים הם שונים מאפס, בדרך כלל חיישן של ערכים של נקודה צפה (floating-point). לדוגמה, Tensor עם 10 רכיבים צפוף כי 9 מהערכים שלו שונים מאפס:

הניגוד לתכונה מצומצמת.

שכבת צפיפות

מילה נרדפת לשכבה המחוברת באופן מלא.

עומק

#fundamentals

סכום הערכים הבאים ברשת נוירונים:

מספר השכבות המוסתרות
מספר שכבות הפלט, שהוא בדרך כלל
המספר של שכבות הטמעה

לדוגמה, לרשת נוירונים עם חמש שכבות מוסתרות ושכבת פלט אחת יש עומק של 6.

שימו לב ששכבת הקלט לא משפיעה על העומק.

רשת עצבית מתקפלת (sepCNN) להפרדת עומק

#image

ארכיטקטורה של רשת עצבית מתקפלת שמבוססת על התחלה, אבל במקום המודולים של Inception ניתן להחליף אותם בקונפיגורציות נפרדות שניתנות להפרדה עמוקה. נקרא גם Xception.

קונבולציה ניתנת להפרדה עמוקה (שמופיעה גם כקיצור IARC עם קמורים מופרדים,) יוצרת קונבולציה תלת-ממדית רגילה לשתי פעולות קונבולציה נפרדות שהן יעילות יותר מבחינה חישובית: הראשונה, קונבולציה של עומק, עם עומק 1 (n n n k 1 בעומק 1, ואז אורך 1 בהשוואה לנקודה 1 (n n n וכן 1).

למידע נוסף קראו את המאמר Xception: Deep Learning with Depthwise Sepolutions.

תווית נגזרת

מילה נרדפת לתווית שרת proxy.

מכשיר

#TensorFlow

#GoogleCloud

מונח עמוס מדי עם שתי ההגדרות האפשריות הבאות:

קטגוריית חומרה שיכולה להריץ סשן TensorFlow, כולל מעבדי CPU, מעבדי GPU ו-TPUs.
כשמאמנים מודל ML על צ'יפים של מאיץ (GPUs או TPU), החלק במערכת שמבצע למעשה מניפולציה של tensors ו-embeddings. המכשיר פועל על צ'יפים של מאיץ. לעומת זאת, המארח פועל בדרך כלל על מעבד (CPU).

פרטיות דיפרנציאלית

בלמידת מכונה, גישה של אנונימיזציה שמטרתה להגן על מידע אישי רגיש (לדוגמה, מידע אישי של אדם פרטי) שכלול בערכת האימון של המודל, מפני חשיפה. הגישה הזו מבטיחה שהmodel לא ילמד או יזכור הרבה על אדם מסוים. כדי לעשות את זה משתמשים בדגימה ובהוספה של רעש במהלך אימון המודל, כדי לטשטש נקודות נתונים ספציפיות, וכך לצמצם את הסיכון לחשיפה של נתונים רגישים של אימון.

משתמשים בפרטיות דיפרנציאלית גם מחוץ ללמידת מכונה. לדוגמה, מדעני נתונים משתמשים לפעמים בפרטיות דיפרנציאלית כדי להגן על הפרטיות של אנשים פרטיים כשהם מחשבים סטטיסטיקות שימוש במוצרים לקבוצות דמוגרפיות שונות.

הקטנת מאפיינים

הקטנת מספר המאפיינים שמשמשים לייצוג תכונה מסוימת בווקטור של מאפיין, בדרך כלל על ידי המרה לוקטור הטמעה.

מימדים

מונח עמוס מדי עם אחת מההגדרות הבאות:

מספר רמות הקואורדינטות בTensor. לדוגמה:
- לסקלרי יש אפס ממדים. לדוגמה: ["Hello"].
- לווקטור יש מאפיין אחד, למשל [3, 5, 7, 11].
- למטריצה יש שני מימדים. לדוגמה, [[2, 4, 18], [5, 7, 14]].
ניתן לך לציין באופן ייחודי תא מסוים בווקטור חד-ממדי עם קואורדינטה אחת. נדרשות שתי קואורדינטות כדי לציין באופן ייחודי תא מסוים במטריצה דו-ממדית.
מספר הרשומות בוקטור תכונה.
מספר הרכיבים בשכבת הטמעה.

הנחיות ישירות

#language

#generativeAI

מילה נרדפת להנחיה ישירה (zero-shot).

תכונה נפרדת

#fundamentals

תכונה עם קבוצה סופית של ערכים אפשריים. לדוגמה, ישות שהערכים שלה יכולים להיות רק בעל חיים, ירק או מינרל היא תכונה נפרדת (או קטגורית).

בניגוד לתכונה רציפה.

מודל דיסקרימינטיבי

model שחוזה model מקבוצה של model או יותר. באופן רשמי יותר, מודלים דיסקרימינטיביים מגדירים את ההסתברות המותנית של פלט על סמך התכונות והמשקלים:

p(output | features, weights)

לדוגמה, מודל שחוזה אם אימייל הוא ספאם מתכונות ומשקלולים הוא מודל דיסקרימינטיבי.

הרוב המכריע של המודלים של למידה מונחית, כולל מודלים של סיווג ורגרסיה, הם מודלים דיסקרימינטיביים.

בניגוד למודל גנרטיבי.

מבדילה

מערכת שקובעת אם דוגמאות הן אמיתיות או מזויפות.

לחלופין, מערכת המשנה בתוך רשת אדברסרי גנרטיבי שקובעת אם הדוגמאות שנוצרו על ידי המחולל הן אמיתיות או מזויפות.

השפעה שונה

#fairness

קבלת החלטות בלתי פרופורציונליות לגבי אנשים שמשפיעים על קבוצות משנה שונות של אוכלוסייה. זה בדרך כלל מתייחס למצבים שבהם תהליך קבלת החלטות אלגוריתמי מזיק או שימושי לקבוצות משנה מסוימות או יותר מהן.

לדוגמה, נניח שאלגוריתם שקובע את הזכאות של תושב/ת ליליפוטי להלוואה מיניאטורית עשוי לסווג אותו כ'לא כשיר' אם כתובת הדואר שלו מכילה מיקוד מסוים. אם יש סיכוי גבוה יותר לתושבי ליליפוטים גדולים (Big-Endian Lilliputians) שיש להם כתובות דואר עם המיקוד הזה, מאשר לליפוטים קנדיים קטנים, ההשפעה של האלגוריתם הזה עלולה להיות שונה.

בניגוד לטיפול שונה, שמתמקד בהבדלים שנוצרים כאשר המאפיינים של תתי-קבוצות הם קלט מפורש לתהליך קבלת החלטות אלגוריתמי.

יחס שונה

#fairness

שקלול המאפיינים הרגישים של נבדקים בתהליך קבלת החלטות אלגוריתמי, כך שקבוצות משנה שונות של אנשים מטופלות באופן שונה.

לדוגמה, כדאי להשתמש באלגוריתם שקובע את הזכאות של תושבי ליליפוטים להלוואה מיניאטורית לבית, על סמך הנתונים שהם מספקים בבקשת ההלוואה שלהם. אם האלגוריתם משתמש בהשתייכות של ליליפוטיאנית כקלט של Big-Endian או Little-Endian כקלט, היא מזהה יחס שונה לגבי הממד הזה.

היא מנוגדת להשפעה שונה, שמתמקדת בפערים בהשפעות החברתיות של החלטות אלגוריתמיות על קבוצות משנה, גם אם קבוצות המשנה האלה הן קלט למודל.

זיקוק

#generativeAI

תהליך הקטנת הגודל של model אחד (שנקרא model) למודל קטן יותר (שנקרא model) שמדם את התחזיות של המודל המקורי בצורה נאמנה ככל האפשר. הזיקוק מועיל, כי למודל הקטן יותר יש שני יתרונות עיקריים על פני המודל הגדול יותר (המורה):

זמן הסקת מסקנות מהיר יותר
צריכת זיכרון ואנרגיה מופחתת

עם זאת, החיזויים של התלמידים בדרך כלל פחות טובים מהחיזויים של המורה.

זיקוק מאמן את המודל של התלמידים למזער פונקציית הפסד על סמך ההבדל בין הפלט של התחזיות של המודלים של התלמידים ושל המורים.

השוו בין זיקוקים לבין המונחים הבאים:

כוונון עדין
למידה מבוססת-הנחיות

distribution

התדירות והטווח של הערכים השונים של תכונה או תווית נתונים. התפלגות ממחישה את הסבירות של ערך מסוים.

התמונה הבאה מציגה היסטוגרמות של שתי התפלגויות שונות:

משמאל, מוצגת התפלגות החוק של העושר לעומת מספר האנשים שמחזיקים בבעלות על העושר הזה.
בצד ימין, התפלגות נורמלית של הגובה לעומת מספר האנשים שמחזיקים בגובה הזה.

שתי היסטוגרמות. היסטוגרמה אחת מציגה התפלגות של חוקי החזקה עם
עושר על ציר ה-X ומספר האנשים עם עושר זה
על ציר ה-Y. לרוב האנשים יש מעט מאוד הון, ולמעט אנשים יש
הרבה עושר. ההיסטוגרמה השנייה מציגה התפלגות נורמלית עם הגובה על ציר ה-X ומספר האנשים בעלי הגובה הזה בציר ה-Y. רוב האנשים מקובצים במקום כלשהו קרוב לממוצע.

הבנת ההתפלגות של כל תכונה ותווית יכולה לעזור לקבוע איך לנרמל ערכים ולזהות חריגים.

הביטוי out of stock מתייחס לערך שלא מופיע במערך הנתונים או שהוא נדיר מאוד. לדוגמה, תמונה של כוכב הלכת שבתאי תיחשב להיכלל בהתפלגות עבור מערך נתונים שמורכב מתמונות של חתולים.

אשכול מחולק

#clustering

למידע נוסף על אשכולות היררכיים

דגימת למטה

#image

מונח עמוס מדי שיכול להיות בעל אחת מהאפשרויות הבאות:

הפחתת כמות המידע בתכונה כדי לאמן מודל בצורה יעילה יותר. לדוגמה, לפני אימון של מודל לזיהוי תמונות, כדאי להפחית את הדגימה של תמונות ברזולוציה גבוהה לפורמט של רזולוציה נמוכה יותר.
אימון על אחוז נמוך באופן לא פרופורציונלי של דוגמאות כיתה עם ייצוג יתר, כדי לשפר את אימון המודלים בכיתות שסובלות מחוסר ייצוג. לדוגמה, במערך נתונים לא מאוזן לסיווג, מודלים נוטים ללמוד הרבה על סיווג הרוב ולא מספיק על סיווג מיעוט. דגימת הדגימה עוזרת לאזן בין כמות האימון בכיתות הרוב לבין המיעוט.

DQN

#rl

Deep Q-Network.

רגולציית נטישה

סוג של רגולטור שימושי לאימון רשתות נוירונים. רגולזציה של נשירה מאפשרת בחירה אקראית של מספר קבוע של יחידות בשכבת רשת עבור שלב יחיד בדרגה. ככל שיותר יחידות יצאו, כך הרגולריזציה חזקה יותר. הדבר דומה לאימון הרשת כדי לחקות מערך גדול באופן אקספוננציאלי של רשתות קטנות יותר. לפרטים מלאים ראו את המאמר נשירה: דרך פשוטה למנוע מרשתות נוירונים מדי התאמה.

דינמי

#fundamentals

משהו שמתבצע לעיתים קרובות או באופן רציף. המונחים דינמי ואונליין הם מילים נרדפות בלמידת מכונה. דוגמאות לשימושים נפוצים בלמידת מכונה דינמית ואונליין:

מודל דינמי (או מודל אונליין) הוא מודל שעבר אימון מחדש לעיתים קרובות או באופן רציף.
אימון דינמי (או הדרכה אונליין) הוא תהליך של אימון מתמשך או מתמשך.
הסקה דינמית (או הסקה אונליין) היא התהליך של יצירת חיזויים על פי דרישה.

מודל דינמי

#fundamentals

model שעובר אימון מחדש לעיתים קרובות (אולי גם באופן מתמשך). מודל דינמי הוא מודל ל "למידה במשך כל החיים", שמשתנה כל הזמן בהתאם לנתונים מתפתחים. מודל דינמי נקרא גם מודל אונליין.

ליצור ניגודיות עם מודל סטטי.

ה.

ביצוע נלהב

#TensorFlow

סביבת תכנות ב-TensorFlow שבה operations פועלות באופן מיידי. לעומת זאת, פעולות שנקראות ביצוע תרשים לא פועלות עד שהן עוברות הערכה מפורשת. ביצוע Eager הוא ממשק חיוני, בדומה לקוד ברוב שפות התכנות. בדרך כלל, קל יותר לנפות באגים בתוכניות הפעלה נלהבות מאשר תוכנות לביצוע תרשימים.

עצירה מוקדמת

#fundamentals

שיטה להתאמה שכוללת סיום של אימונים לפני שהפסדת האימון מסתיים. בעצירה מוקדמת, האימון של המודל נפסק באופן מכוון כשהאובדן של מערך הנתונים לאימות מתחיל לגדול, כלומר כשהביצועים של ההכללה יורדים.

כדי להציג הערות נוספות, לוחצים על הסמל.

עצירה מוקדמת עשויה להיראות לא הגיונית. אחרי הכול, לומר למודל להפסיק את האימון בזמן שהאובדן עדיין בירידה אולי נראה כמו לומר לשף להפסיק לבשל לפני שהקינוח נאפה במלואו. עם זאת, אימון זמן ארוך מדי של המודל עלול לגרום להתאמה יתר. כלומר, אם מאמנים מודל למשך זמן ארוך מדי, הוא עלול להתאים לנתוני האימון במידה כזו שהמודל לא מספק תחזיות טובות לגבי דוגמאות חדשות.

המרחק של כוכב האדמה (EMD)

מדד של הדמיון היחסי בין שתי הפצות. ככל שהמרחק של תנועה בכדור הארץ נמוך יותר, כך ההתפלגויות דומות יותר.

עריכת המרחק

#language

מדידה של הדמיון בין שתי מחרוזות טקסט. בלמידת מכונה, כדאי לערוך את המרחק כי הוא פשוט לחישוב, ודרך יעילה להשוות בין שתי מחרוזות שידוע שהן דומות או כדי למצוא מחרוזות שדומות למחרוזת נתונה.

יש כמה הגדרות של עריכת מרחק, כל אחת משתמשת בפעולות מחרוזת שונות. לדוגמה, הערך של Levenshtein ותמונות [מרחק לונשטיין] מביא בחשבון את המספר הנמוך ביותר של פעולות מחיקה, הוספה והחלפה.

לדוגמה, המרחק בין המילים "לב" ל "חיצים" הוא 3, כי 3 העריכות הבאות הן רק השינויים הקטנים ביותר שמאפשרים להפוך מילה אחת לאחרת:

לב ← deart (מחליפים h ב-d)
deart → dart (מחיקה של 'e')
dart → חצים (יש להכניס 's')

סימון Einsum

סימון יעיל שמתאר איך לשלב בין שני tensors. רכיבי Tensor משולבים על ידי הכפלה של הרכיבים של tensor אחד באלמנטים של החלק השני וסיכום המכפלות. סימון Einsum משתמש בסמלים כדי לזהות את הצירים של כל טנזור, והסמלים האלה מסודרים מחדש כדי לציין את הצורה של הטנזור החדש שנוצר.

NumPy מספק הטמעה נפוצה של Einsum.

שכבת הטמעה

#language

#fundamentals

שכבה נסתרת מיוחדת שמאפשרת אימון על תכונה קטגורית בממדים גבוהים כדי ללמוד בהדרגה וקטור הטמעה של מאפיינים נמוכים יותר. שכבת הטמעה מאפשרת לרשת נוירונים לאמן הרבה יותר ביעילות מאשר אימון רק על התכונה הקטגורית בעלת הממדים הגבוהים.

לדוגמה, כדור הארץ תומך כרגע בכ-73,000 זני עצים. נניח שמיני עצים הם תכונה במודל, ולכן שכבת הקלט של המודל כוללת וקטור אחד חם באורך 73,000 רכיבים. לדוגמה, אפשר לייצג את baobab בצורה הבאה:

מערך של 73,000 רכיבים. 6,232 הרכיבים הראשונים מכילים את הערך
0. הרכיב הבא מכיל את הערך 1. 66,767 הרכיבים האחרונים מכילים את הערך אפס.

מערך של 73,000 רכיבים הוא ארוך מאוד. אם לא תוסיפו למודל שכבת הטמעה, האימון יהיה ארוך מאוד עקב הכפלה של 72,999 אפסים. אולי תבחרו בשכבת ההטמעה שתהיה כוללת 12 מימדים. כתוצאה מכך, שכבת ההטמעה תלמד בהדרגה וקטור הטמעה חדש לכל סוג של עץ.

במצבים מסוימים, גיבוב הוא חלופה סבירה לשכבת הטמעה.

מרחב הטמעה

#language

ממופים למרחב הווקטור ה-D-ממדי שלו, שמאפיינים ממרחב וקטורי גבוה יותר. באופן אידאלי, מרחב ההטמעה מכיל מבנה שמאפשר תוצאות מתמטיות משמעותיות. לדוגמה, במרחב הטמעה אידיאלי, חיבור וחיסור של הטמעות יכולים לפתור משימות של אנלוגיה מילים.

מכפלת הנקודות של שתי הטמעות היא מדד של הדמיון ביניהן.

וקטור הטמעה

#language

באופן כללי, מערך של מספרים של נקודות צפות שנלקחו מכל שכבה נסתרת שמתארת את הקלט לשכבה המוסתרת. לעיתים קרובות, וקטור הטמעה הוא מערך של מספרי נקודות צפות שמאומנים בשכבת הטמעה. לדוגמה, נניח ששכבת ההטמעה חייבת ללמוד וקטור הטמעה לכל אחד מ-73,000 זני העצים בכדור הארץ. אולי המערך הבא הוא וקטור ההטמעה של עץ באובב:

מערך של 12 רכיבים, שכל אחד מהם מכיל מספר נקודה צפה (floating-point) בין 0.0 ל-1.0.

וקטור הטמעה אינו קבוצה של מספרים אקראיים. שכבת ההטמעה קובעת את הערכים האלה באמצעות אימון, בדומה לאופן שבו רשת נוירונים לומדת משקולות אחרות במהלך האימון. כל רכיב במערך הוא דירוג לאורך מאפיין מסוים של מין עצים. איזה רכיב מייצג את המאפיין של מיני עצים? זה מאוד קשה לבני האדם.

החלק המתמטי של וקטור הטמעה הוא שלפריטים דומים יש קבוצות דומות של מספרים בנקודה צפה (floating-point). לדוגמה, לזנים דומים של עצים יש קבוצה דומה יותר של מספרים בנקודה צפה מאשר לזנים שונים של עצים. עצי סקויה וסקיה הם מיני עצים קשורים, ולכן יש להם קבוצה דומה יותר של מספרים צפים מאשר עצי סקוויה ועצי קוקוס. המספרים בווקטור ההטמעה ישתנו בכל פעם שיאמנו מחדש את המודל, גם אם תאמנו מחדש את המודל עם קלט זהה.

פונקציית ההתפלגות האמפירית המצטברת (eCDF או EDF)

פונקציית התפלגות מצטברת שמבוססת על מדידות אמפיריות ממערך נתונים אמיתי. הערך של הפונקציה בכל נקודה לאורך ציר ה-x הוא חלק התצפיות במערך הנתונים שקטן מהערך שצוין או שווה לו.

צמצום סיכונים אמפירי (ERM)

בחירת הפונקציה שתצמצם את האובדן בערכת האימון. בניגוד לצמצום של סיכון מבני.

מקודד

#language

באופן כללי, כל מערכת למידת מכונה שממירה מייצוג גולמי, דליל או חיצוני לייצוג פנימי, צפוף יותר או מעובד יותר.

מקודדים הם בדרך כלל רכיב במודל גדול יותר, שאותו הם מותאמים לעיתים קרובות למפענח. חלק מטרנספורמרים מתאימים בין מקודדים למפענחים, אבל טרנספורמרים אחרים משתמשים רק במקודד או רק במפענח.

חלק מהמערכות משתמשות בפלט של המקודד כקלט לרשת סיווג או רגרסיה.

במשימות רצף לרצף, המקודד לוקח רצף קלט ומחזיר מצב פנימי (וקטור). לאחר מכן, המפענח משתמש במצב הפנימי הזה כדי לחזות את הרצף הבא.

במאמר טרנספורמר מוסבר איך מגדירים מקודד בארכיטקטורת טרנספורמר.

אנסמבל

אוסף של מודלים שאומן באופן עצמאי, שהתחזיות שלהם מחושבות כממוצע או נצבר. במקרים רבים, הרכב יוצר חיזויים טובים יותר ממודל יחיד. לדוגמה, יער אקראי הוא מתחם שנבנה מכמה עצי החלטה. שימו לב שלא כל יערות ההחלטה הם מקבצים.

אנטרופיה

#df

ב תורת המידע, תיאור שמתאר עד כמה לא צפויה התפלגות ההסתברות, לחלופין, האנטרופיה מוגדרת גם ככמות המידע שכל דוגמה מכילה. להתפלגות יש האנטרופיה הגבוהה ביותר האפשרית כאשר לכל הערכים של משתנה אקראי יש סבירות שווה.

האנטרופיה של קבוצה עם שני ערכים אפשריים '0' ו-'1' (לדוגמה, התוויות בבעיה בסיווג בינארי) כוללת את הנוסחה הבאה:

H = -p log p - q log q = -p log p - (1-p) * log (1-p)

איפה:

H היא האנטרופיה.
p הוא החלק של הדוגמאות "1".
q הוא החלק היחסי של הדוגמאות "0". חשוב לזכור ש-q = (1 - p)
log הוא בדרך כלל יומן₂. במקרה הזה, יחידת האנטרופיה היא קצת יותר.

לדוגמה, נניח ש:

100 דוגמאות מכילות את הערך '1'
300 דוגמאות מכילות את הערך "0"

לכן, ערך האנטרופיה הוא:

p = 0.25
q = 0.75
H = (-0.25)log₂(0.25) - (0.75)log₂(0.75) = 0.81 ביטים לדוגמה

למערך מאוזן לחלוטין (לדוגמה, 200 "0" ו-200 "1") תהיה אנטרופיה של 1.0 ביט לכל דוגמה. כשקבוצה הופכת ללא מאוזנת, האנטרופיה נעה לכיוון 0.0.

בעצי החלטה, האנטרופיה עוזרת לנסח מידע כדי לעזור למפצל לבחור את התנאים במהלך הצמיחה של עץ החלטות סיווג.

השוואה בין האנטרופיה ל:

טוהר ג'יני
פונקציית אובדן cross-entropy

לעיתים קרובות, האנטרופיה נקראת האנטרופיה של שאנון.

environment

#rl

בלמידת חיזוק, העולם שמכיל את הסוכן ומאפשר לסוכן לצפות במצב של העולם. לדוגמה, העולם המיוצג יכול להיות משחק כמו שחמט או עולם פיזי כמו מבוך. כשהסוכן מחיל פעולה על הסביבה, הסביבה עוברת בין מצבים.

פרק

#rl

בלמידת חיזוק, כל אחד מהניסיונות החוזרים של הסוכן ללמוד סביבה.

תקופה של זמן מערכת

#fundamentals

העברת אימון מלא על כל ערכת האימון, כך שכל דוגמה עובדה פעם אחת.

תקופה של זמן מערכת (epoch) מייצגת N/גודל אצווה איטרציות, כאשר N הוא מספר הדוגמאות הכולל.

לדוגמה, נניח ש:

מערך הנתונים מכיל 1,000 דוגמאות.
גודל האצווה הוא 50 דוגמאות.

לכן, תקופה אחת של זמן מערכת מחייבת 20 איטרציות:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

מדיניות epsilon חמדן

#rl

בלמידת חיזוק, מדיניות שפועלת לפי מדיניות אקראית עם הסתברות אפסילון, או לפי מדיניות חמדן אחרת. לדוגמה, אם אפסילון הוא 0.9, אז המדיניות תואמת למדיניות אקראית ב-90% מהזמן, ולמדיניות בנושא חמדן ב-10% מהפעמים.

בפרקים רצופים, האלגוריתם מפחית את הערך של אפסילון על מנת לעבור מיישום מדיניות אקראית למדיניות חמדן. באמצעות שינוי המדיניות, הנציג בוחן קודם את הסביבה באופן אקראי ולאחר מכן מנצל בחמדנות את התוצאות של החקירה האקראית.

שוויון הזדמנויות

#fairness

מדד הוגנות שמאפשר להעריך אם המודל מייצר באופן שווה את התוצאה הרצויה לכל הערכים של מאפיין רגיש. במילים אחרות, אם התוצאה הרצויה למודל היא הסיווג החיובי, המטרה תהיה שהשיעור החיובי האמיתי יהיה זהה בכל הקבוצות.

שוויון הזדמנויות קשור לסיכויים שוויוניים, ולכן גם השיעור החיובי האמיתי וגם השיעורים החיוביים השגויים יהיו זהים בכל הקבוצות.

נניח שאוניברסיטת גלובדובדיב מאפשרת לקבל גם לתושבי ליליפוטים וגם לברודינגנגיה תוכנית קפדנית במתמטיקה. בתי הספר המשניים של ליליפוטים מציעים תוכנית לימודים קפדנית של שיעורי מתמטיקה, ורוב התלמידות והתלמידים מתאימים לתוכנית האוניברסיטאית. בתי הספר התיכון ברובינגנאגיה לא מציעים בכלל שיעורי מתמטיקה, וכתוצאה מכך, הרבה פחות מהתלמידים שלהם מוסמכים. מקבלים שוויון הזדמנויות לתווית המועדפת 'אושר' ביחס ללאום (ליליפוטית או ברודינגאנג'יאן), אם יש סיכוי שווה לכך שסטודנטים מוסמכים יתקבלו בלי קשר להשתייכות שלהם 'ליליפוטים' או 'ברובדינג'אים'.

לדוגמה, נניח ש-100 תושבי ליליפוטים ו-100 ברובדינגנגה פונים לאוניברסיטת גלובאדובדיב, והחלטות הקבלה מתקבלות כך:

טבלה 1. מועמדים לליליפוטים (90% זכאים)

	כשיר	לא מתאים
מאושר	45	3
נדחה	45	7
סה"כ	90	10
אחוז התלמידות והתלמידים שעומדים בדרישות: 45/90 = 50% אחוז הסטודנטים שלא קיבלו הסמכה שנדחו: 7/10 = 70% האחוז הכולל של הסטודנטים הליליפוטיים שהתקבלו: (45+3)/100 = 48%

טבלה 2. מגישי בקשות ל-Brobdingnagian (10% זכאים):

	כשיר	לא מתאים
מאושר	5	9
נדחה	5	81
סה"כ	10	90
אחוז התלמידות והתלמידים שעומדים בדרישות: 5/10 = 50% אחוז התלמידות והתלמידים שלא עומדים בדרישות שנדחו: 81/90 = 90% האחוז הכולל של התלמידות והתלמידים מהתלמידות והתלמידים שרשומים: (5+9)/100 = 14%

הדוגמאות הקודמות נועדו לענות על שוויון הזדמנויות לקבלה של סטודנטים מוסמכים, כי לליליפוטים ולברודינגנאגיים מוסמכים יש סיכוי של 50% להתקבל.

אנחנו מקבלים שוויון הזדמנויות, אבל שני מדדי ההגינות הבאים לא מתקיימים:

שוויון דמוגרפי: תושבי ליליפוטים ותושבי ברודינגנגיה מתקבלים לאוניברסיטה בשיעורים שונים; 48% מהסטודנטים בלילפוטים מתקבלים, אבל רק 14% מהסטודנטים מברבדינגאנגיה מתקבלים.
סיכויים שווים: לתלמידי ליליפוטים ולתלמידים ברובדינגיאניים יש את אותו סיכוי להתקבל, אבל האילוץ הנוסף שלפיו לליליפוטים ולברודינגנאגיים שאינם מוסמכים יש את אותו סיכוי להידחות לא מתקיים. שיעור הדחייה של תושבי ליליפוטים לא מוסמכים הוא 70%, ושיעור הדחייה של תושבי ברודינגנאגי לא מוסמכים הם 90%.

לדיון מפורט יותר בנושא שוויון הזדמנויות, ראו "שוויון הזדמנויות בלמידה מבוקרת". מומלץ לקרוא גם את המאמר "תקיפה של אפליה באמצעות למידת מכונה חכמה יותר", שבו תוכל לבחון את היתרונות והחסרונות כדי להשיג שוויון הזדמנויות.

סיכויים שווים

#fairness

מדד הוגנות שמאפשר להעריך אם מודל יכול לחזות תוצאות באותה מידה בכל הערכים של מאפיין רגיש, תוך התייחסות גם לסיווג החיובי וגם לסיווג שלילי – לא רק לסוג אחד או לקטגוריה השנייה, באופן בלעדי. במילים אחרות, גם השיעור החיובי האמיתי וגם השיעור השלילי צריכים להיות זהים בכל הקבוצות.

סיכויים זהים קשורים לשוויון הזדמנויות, שמתמקד רק בשיעורי השגיאות של מחלקה אחת (חיובית או שלילית).

לדוגמה, נניח שאוניברסיטת גלובדואבדיב מקבלת גם את תושבי ליליפוטים וגם את ברודינגנאגיה לתוכנית קפדנית במתמטיקה. בתי הספר המשניים של ליליפוטים מציעים תוכנית לימודים מקיפה של שיעורי מתמטיקה, ורוב התלמידים מתאימים לתוכנית האוניברסיטאית. בתי הספר המשניים של Brobdingnagis לא מציעים בכלל שיעורי מתמטיקה, וכתוצאה מכך, הרבה פחות מהתלמידים שלהם מוסמכים. סיכויים שווים מתקיימים בתנאי שלא משנה אם מגיש הבקשה הוא ליליפוט או ברבדינגנגיני, אם הוא עומד בדרישות, יש סיכוי שווה שהוא יתקבל לתוכנית, ואם הוא לא עומד בדרישות, יש סיכוי שווה שהוא יידחה.

נניח ש-100 תושבי ליליפוטים ו-100 ברובדינגנגה פונים לאוניברסיטת גלובדואבדיב, והחלטות הקבלה מתקבלות כך:

טבלה 3. מועמדים לליליפוטים (90% זכאים)

	כשיר	לא מתאים
מאושר	45	2
נדחה	45	8
סה"כ	90	10
אחוז התלמידות והתלמידים שעומדים בדרישות: 45/90 = 50% אחוז הסטודנטים שלא קיבלו הסמכה שנדחו: 8/10 = 80% האחוז הכולל של הסטודנטים הליליפוטיים שהתקבלו: (45+2)/100 = 47%

טבלה 4. מגישי בקשות ל-Brobdingnagian (10% זכאים):

	כשיר	לא מתאים
מאושר	5	18
נדחה	5	72
סה"כ	10	90
אחוז התלמידות והתלמידים שעומדים בדרישות: 5/10 = 50% אחוז התלמידות והתלמידים שלא קיבלו הסמכה שנדחו: 72/90 = 80% האחוז הכולל של התלמידות והתלמידים מהתלמידות והתלמידים שרשומים: (5+18)/100 = 23%

יש סיכויים שוויוניים כי גם לתלמידי ליליפוטים וברודינגנאגיה מוסמכים יש סיכוי של 50% להתקבל לתוכנית, ויש סיכוי של 80% להידחות.

סיכויים שוויוניים מוגדרים באופן רשמי במאמר "שוויון הזדמנויות בלמידה מבוקרת": "המפַתָּר מרובע נותן סיכויים שווים ביחס למאפיין A ותוצאה Y מוגנים אם ` ו-A הם עצמאיים מותנים ל-Y".

מעריך

#TensorFlow

TensorFlow API שהוצא משימוש. השתמשו ב-tf.keras במקום בכלי הערכה.

הערכה

תהליך מדידת האיכות של החיזויים של מודל למידת מכונה. כשמפתחים מודל, בדרך כלל מחילים מדדי הערכה לא רק בקבוצת האימון, אלא גם בקבוצת אימות ובקבוצת בדיקה. אפשר גם להשתמש במדדי הערכה כדי להשוות בין מודלים שונים.

דוגמה

#fundamentals

הערכים של שורה אחת של תכונות ואולי גם תווית. דוגמאות ללמידה מונחית מתחלקות לשתי קטגוריות כלליות:

דוגמה עם תווית כוללת תכונה אחת או יותר ותווית. במהלך האימון משתמשים בדוגמאות לתוויות.
דוגמה ללא תווית כוללת תכונה אחת או יותר, אבל ללא תווית. במהלך ההסקה, נעשה שימוש בדוגמאות ללא תוויות.

לדוגמה, נניח שאתם מאמנים מודל כדי לקבוע את ההשפעה של תנאי מזג האוויר על ציוני בחינות של תלמידים. הנה שלוש דוגמאות לתוויות:

תכונות			לייבל
טמפרטורה	לחות	לחץ	ציון הבחינה
‏15	47	998	טוב
19	34	1020	מצוינת
18	92	1012	גרועה

הנה שלוש דוגמאות ללא תווית:

טמפרטורה	לחות	לחץ
12	62	1014
21	47	1017
19	41	1021

לדוגמה, השורה של מערך נתונים היא בדרך כלל המקור הגולמי. כלומר, דוגמה בדרך כלל מורכבת מקבוצת משנה של העמודות במערך הנתונים. בנוסף, התכונות בדוגמה יכולות לכלול גם תכונות סינתטיות, כמו צלבי תכונות.

ניסיון חוזר

#rl

בלמידת חיזוק, שיטה DQN שמשמשת לצמצום מתאמים זמניים בנתוני אימון. הסוכן שומר את המעברים של המצבים במאגר נתונים זמני להפעלה מחדש, ואז דוגמים את המעברים ממאגר ההפעלה החוזרת כדי ליצור נתוני אימון.

הטיה של עורך ניסויים

#fairness

להצגת הטיית האישור.

בעיה עם צבע מדורג מתפוצץ

#seq

הנטייה של הדרגתיות ברשתות נוירונים עמוקות (במיוחד ברשתות נוירונים חוזרות) להיות תלולה באופן מפתיע (גבוה). לרוב, הדרגה תלולה גורמת לעדכונים גדולים מאוד במשקלים של כל צומת ברשת נוירונים עמוקה.

קשה או בלתי אפשרי לאמן מודלים שסובלים מבעיה של שיפוע מתפוצץ. אפשר לפתור את הבעיה הזו בעזרת חיתוך צבעים הדרגתי.

השוואה לבעיה נעלמת הדרגתית.

נ

ח₁

מדד סיווג בינארי של "רשימה כללית" שמסתמך גם על הדיוק וגם על אחזור. זוהי הנוסחה:

$$F{_1} = \frac{\text{2 * precision * recall}} {\text{precision + recall}}$$

לדוגמה, בהינתן התנאים הבאים:

דיוק = 0.6
ריקול = 0.4

$$F{_1} = \frac{\text{2 * 0.6 * 0.4}} {\text{0.6 + 0.4}} = 0.48$$

כשהדיוק והזכירה דומים למדי (כמו בדוגמה הקודמת), F₁ קרוב לממוצע. במקרים שבהם יש הבדלים משמעותיים ברמת הדיוק והזכירה, F₁ קרוב יותר לערך הנמוך יותר. למשל:

דיוק = 0.9
ריקול = 0.1

$$F{_1} = \frac{\text{2 * 0.9 * 0.1}} {\text{0.9 + 0.1}} = 0.18$$

מגבלת הוגנות

#fairness

החלת אילוץ על אלגוריתם כדי להבטיח התאמה אחת או יותר של הגדרות הוגנות. דוגמאות לאילוצי הוגנות:

לאחר עיבוד הפלט של המודל.
שינוי פונקציית ההפסד כך שיוטלו עונש על הפרת מדד הוגנות.
הוספה ישירה של אילוץ מתמטי לבעיית אופטימיזציה.

מדד הוגנות

#fairness

הגדרה מתמטית של "הוגנות" שניתן למדוד. דוגמאות למדדי הוגנות נפוצים:

סיכויים שווים
שוויון חזוי
הוגנות הוגנות
שוויון דמוגרפי

הרבה מדדי הוגנות לא קשורים זה לזה. מומלץ לעיין במאמר חוסר תאימות למדדי הוגנות.

שלילי שגוי (FN)

#fundamentals

דוגמה שבה המודל חוזה בטעות את המחלקה השלילית. לדוגמה, המודל חוזה שהודעת אימייל מסוימת היא לא ספאם (המחלקה השלילית), אבל הודעת האימייל הזו היא באמת ספאם.

שיעור שלילי שגוי

השיעור של הדוגמאות החיוביות בפועל שעבורן המודל חזה בטעות את הסיווג השלילי. הנוסחה הבאה מחשבת את השיעור השלילי השגוי:

$$\text{false negative rate} = \frac{\text{false negatives}}{\text{false negatives} + \text{true positives}}$$

תוצאה חיובית שקרית (FP)

#fundamentals

דוגמה שבה המודל חוזה בטעות את הסיווג החיובי. לדוגמה, המודל חוזה שהודעת אימייל מסוימת היא ספאם (הכיתה החיובית), אבל הודעת האימייל שלמעשה היא לא ספאם.

שיעור חיובי כוזב (FPR)

#fundamentals

היחס של הדוגמאות השליליות בפועל שעבורן המודל חזה בטעות את הסיווג החיובי. הנוסחה הבאה מחשבת את השיעור החיובי השגוי:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

השיעור החיובי השגוי הוא ציר ה-X בעקומת ROC.

מאפיין

#fundamentals

משתנה קלט למודל למידת מכונה. דוגמה כוללת תכונה אחת או יותר. לדוגמה, נניח שאתם מאמנים מודל כדי לקבוע את השפעת תנאי מזג האוויר על ציוני בחינות של תלמידים. בטבלה הבאה מוצגות שלוש דוגמאות, שכל אחת מהן מכילה שלוש תכונות ותווית אחת:

תכונות			לייבל
טמפרטורה	לחות	לחץ	ציון הבחינה
‏15	47	998	92
19	34	1020	84
18	92	1012	87

יוצרים ניגודיות עם תווית.

צלב תכונות

#fundamentals

תכונה סינתטית שנוצרה על ידי תכונות קטגוריותיות או מקטגוריות 'מצטלבות'.

לדוגמה, יש להשתמש במודל 'חיזוי מצב רוח' שמייצג את הטמפרטורה באחד מארבעת הקטגוריות הבאות:

freezing
chilly
temperate
warm

ומייצג את מהירות הרוח באחד משלושת הקטגוריות הבאות:

still
light
windy

ללא צלבי תכונות, המודל הלינארי מתאמן באופן עצמאי על כל אחת משבע הקטגוריות השונות שקדמו לה. למשל, המודל מתאמן על freezing בלי קשר לאימון של windy, למשל.

לחלופין, אפשר ליצור שילוב של טמפרטורה ומהירות רוח. לתכונה הסינתטית האלה יהיו 12 הערכים האפשריים הבאים:

freezing-still
freezing-light
freezing-windy
chilly-still
chilly-light
chilly-windy
temperate-still
temperate-light
temperate-windy
warm-still
warm-light
warm-windy

הודות לשילובי תכונות שונים, המודל יכול לזהות הבדלים בין מצבי הרוח בין יום אחד (freezing-windy) לבין יום אחד (freezing-still).

אם יוצרים תכונה סינתטית משתי תכונות שלכל אחת מהן יש הרבה קטגוריות שונות, לצלב התכונות שיתקבל יהיה מספר עצום של שילובים אפשריים. לדוגמה, אם בתכונה אחת יש 1,000 קטגוריות ובתכונה השנייה יש 2,000 קטגוריות, הצלב של התכונות שמתקבל כולל 2,000,000 קטגוריות.

באופן רשמי, צלב הוא מוצר קרטזי.

שילובי תכונות משמשים בעיקר במודלים ליניאריים, ורק לעיתים נדירות משתמשים בהם ברשתות נוירונים.

הנדסת פיצ'רים (feature engineering)

#fundamentals

#TensorFlow

תהליך שכולל את השלבים הבאים:

להחליט אילו תכונות יכולות להועיל לאימון המודל.
המרת נתונים גולמיים ממערך הנתונים לגרסאות יעילות של התכונות האלה.

לדוגמה, יכול להיות שתגלו ש-temperature יכול להיות תכונה מועילה. לאחר מכן תוכלו להתנסות בקטגוריות כדי לבצע אופטימיזציה של מה שהמודל יכול ללמוד מטווחים שונים של temperature.

לפעמים הנדסת התכונות נקראת חילוץ תכונות או פיצ'ר.

צריך ללחוץ על הסמל כדי להציג הערות נוספות לגבי TensorFlow.

ב-TensorFlow, הנדסת תכונות פירושה בדרך כלל המרה של רשומות של קובצי יומן גולמיים למאגרי נתונים זמניים של פרוטוקול tf.Example. למידע נוסף, ראו tf.Transform.

חילוץ תכונות

מונח עמוס מדי עם אחת מההגדרות הבאות:

אחזור ייצוגים של תכונות ביניים שחושבו על ידי ללא פיקוח או מודל שעבר אימון מראש (למשל, ערכי שכבה נסתרת ברשת נוירונים) לשימוש במודל אחר כקלט.
מילה נרדפת להנדסת תכונות.

חשיבות תכונות

#df

מילה נרדפת לחשיבות משתנה.

קבוצת תכונות

#fundamentals

קבוצת התכונות שהמודל של למידת המכונה מתאמן עליה. לדוגמה, המיקוד, גודל הנכס ומצב הנכס עשויים לכלול קבוצת תכונות פשוטה למודל לחיזוי מחירי הדיור.

מפרט תכונות

#TensorFlow

מתאר את המידע הנדרש לחילוץ נתוני תכונות ממאגר הפרוטוקול tf.Example. מכיוון שמאגר הפרוטוקול tf.Example הוא רק מאגר של נתונים, צריך לציין את הפרטים הבאים:

הנתונים לחילוץ (כלומר, המפתחות של התכונות)
סוג הנתונים (לדוגמה, מספר ממשי (float) או Int)
האורך (קבוע או משתנה)

וקטור מאפיין

#fundamentals

המערך של ערכי feature שמהם מורכבת דוגמה. הווקטור של התכונה הוא קלט במהלך אימון ובמהלך הֶקֵּשׁ. לדוגמה, וקטור התכונה של מודל עם שתי תכונות נפרדות עשוי להיות:

[0.92, 0.56]

ארבע שכבות: שכבת קלט, שתי שכבות מוסתרות ושכבת פלט אחת.
שכבת הקלט מכילה שני צמתים, אחד שמכיל את הערך 0.92 והשני מכיל את הערך 0.56.

כל דוגמה מספקת ערכים שונים לווקטור המאפיין, כך שהווקטור של התכונה בדוגמה הבאה יכול להיות משהו כמו:

[0.73, 0.49]

הנדסת תכונות קובעת איך לייצג תכונות בווקטור המאפיין. לדוגמה, מאפיין בינארי קטגורי עם חמישה ערכים אפשריים עשוי להיות מיוצג באמצעות קידוד חמים אחד. במקרה כזה, החלק של וקטור התכונה בדוגמה מסוימת יכלול ארבעה אפסים ו-1.0 אחד במיקום השלישי, באופן הבא:

[0.0, 0.0, 1.0, 0.0, 0.0]

דוגמה נוספת, נניח שהמודל שלך מורכב משלוש תכונות:

מאפיין בינארי קטגורי עם חמישה ערכים אפשריים, שמיוצגים באמצעות קידוד חד-פעמי, לדוגמה: [0.0, 1.0, 0.0, 0.0, 0.0]
מאפיין בינארי קטגורי נוסף עם שלושה ערכים אפשריים המיוצגים באמצעות קידוד לוהט אחד. לדוגמה: [0.0, 0.0, 1.0]
פיצ'ר של נקודה צפה (floating-point). לדוגמה: 8.3.

במקרה הזה, הווקטור של המאפיין בכל דוגמה ייוצג על ידי 9 ערכים. בהתאם לערכים לדוגמה שמפורטים ברשימה הקודמת, וקטור התכונה יהיה:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

איחוד

תהליך חילוץ תכונות ממקור קלט, כמו מסמך או סרטון, ומיפוי התכונות האלה לוקטור מאפיינים.

חלק ממומחי למידת המכונה משתמשים במאפיין 'ייצוג' כמילה נרדפת להנדסת תכונות או לחילוץ תכונות.

למידה משותפת (Federated)

גישה של למידת מכונה מבוזרת שמאמנת מודלים של למידת מכונה באמצעות דוגמאות מבוזרות ששמורות במכשירים כמו סמארטפונים. בלמידה משותפת, קבוצת משנה של מכשירים מורידה את המודל הנוכחי משרת מתאם מרכזי. המכשירים משתמשים בדוגמאות ששמורות במכשירים כדי לשפר את המודל. לאחר מכן המכשירים מעלים את שיפורי המודל (אבל לא את דוגמאות האימון) לשרת התיאום, שבו הם נצברים יחד עם עדכונים אחרים כדי ליצור מודל גלובלי משופר. אחרי הצבירה, אין יותר צורך בעדכוני המודל שמחושבים על ידי מכשירים, ואפשר למחוק אותם.

מכיוון שדוגמאות האימון אף פעם לא מועלות, הלמידה המשותפת פועלת בהתאם לעקרונות הפרטיות של איסוף נתונים ממוקד והגבלה על איסוף המידע.

במדריך הזה תוכלו לקרוא מידע נוסף על למידה משותפת.

לולאת משוב

#fundamentals

בלמידת מכונה, מצב שבו התחזיות של המודל משפיעים על נתוני האימון של אותו מודל או של מודל אחר. לדוגמה, מודל שממליץ על סרטים ישפיע על הסרטים שאנשים צופים בו, וכך ישפיע על המודלים הבאים של המלצות על סרטים.

רשת הזרימה קדימה (FFN)

רשת נוירונים ללא חיבורים מחזוריים או רקורסיביים. לדוגמה, רשתות נוירונים עמוקות מסורתיות הן רשתות נוירונים להזנה קדימה. בניגוד לרשתות נוירונים חוזרות, שהן מחזוריות.

למידה עם כמה דוגמאות

גישה של למידת מכונה שמשמשת לעיתים קרובות לסיווג אובייקטים, שנועדה לאמן מסווגים אפקטיביים ממספר קטן של דוגמאות אימון.

תוכלו להיעזר גם במאמרים למידה בדוגמה אחת ולמידה מאפס.

יצירת הנחיות בכמה דוגמאות

#language

#generativeAI

הודעה שמכילה יותר מדוגמה אחת ('מעט') שממחישה איך צריך להגיב מודל שפה גדול (LLM). לדוגמה, ההנחיה הארוכה הבאה מכילה שתי דוגמאות למודל שפה גדול (LLM) כדי לענות על שאילתה.

חלקים מהנחיה אחת	הערות
`מהו המטבע הרשמי של המדינה שצוינה?`	השאלה שעליה אתם רוצים שה-LLM יענה.
`צרפת: EUR`	דוגמה אחת.
`בריטניה: GBP`	דוגמה נוספת.
`הודו:`	השאילתה עצמה.

בדרך כלל, יצירת הנחיות מכמה דוגמאות מניבה תוצאות יותר רצויות מאשר יצירת הנחיות מאפס והנחיות בדוגמה אחת. אבל כדי ליצור הנחיות עם כמה דוגמאות, צריך הנחיה ארוכה יותר.

הנחיות מכמה דוגמאות הן סוג של למידה עם כמה דוגמאות שחלה על למידה מבוססת-הנחיות.

כינור

#language

ספריית הגדרות ב-Python שמגדירה את הערכים של פונקציות ומחלקות ללא קוד או תשתית פולשניים. במקרה של Pax וסביבות קוד אחרות של למידת מכונה, הפונקציות והמחלקות האלה מייצגות מודלים ואימון היפר-פרמטרים.

Fiddle מניחה שבסיסי הקוד של למידת המכונה בדרך כלל מתחלקים ל:

קוד ספרייה, שמגדיר את השכבות ואת כלי האופטימיזציה.
קוד 'glue' של מערך הנתונים, שקורא לספריות ולכבלים ביחד.

ב-Fiddle מתבצע תיעוד של מבנה הקריאה של קוד השיוך בצורה שלא מוערכת ושאפשר לשנות אותה.

כוונון עדין

#language

#image

#generativeAI

העברת אימון שנייה ספציפית למשימה באמצעות מודל שעבר אימון מראש, כדי לשפר את הפרמטרים שלו בתרחיש ספציפי לדוגמה. לדוגמה, רצף האימון המלא של חלק ממודלים גדולים של שפה הוא:

אימון מראש: אימון מודל שפה גדול (LLM) במערך נתונים כללי נרחב, כמו כל דפי הוויקיפדיה באנגלית.
כוונון: אימון המודל שעבר אימון מראש לביצוע משימה ספציפית, כמו מענה לשאילתות רפואיות. בדרך כלל הכוונון כולל מאות או אלפי דוגמאות שמתמקדות במשימה הספציפית.

דוגמה נוספת: רצף האימון המלא של מודל תמונה גדול הוא:

אימון מראש: אימון מודל תמונה גדול על מערך נתונים כללי של תמונות, כמו כל התמונות ב-Wikimedia Common.
כוונון: אימון המודל שעבר אימון מראש לביצוע משימה ספציפית, כמו יצירת תמונות של קטלנים.

כוונון עדין יכול לכלול כל שילוב של האסטרטגיות הבאות:

שינוי כל הפרמטרים הקיימים של המודל שעבר אימון מראש. פעולה זו נקראת לפעמים כוונון מלא.
שינוי רק חלק מהפרמטרים הקיימים של המודל שעבר אימון מראש (בדרך כלל, השכבות הקרובות ביותר לשכבת הפלט), תוך השארת פרמטרים קיימים ללא שינוי (בדרך כלל, השכבות הקרובות ביותר לשכבת הקלט). למידע נוסף, ראו כוונון יעיל בפרמטרים.
הוספת שכבות נוספות, בדרך כלל על גבי השכבות הקיימות הקרובות ביותר לשכבת הפלט.

כוונון הוא סוג של למידה בהעברה. לכן, כוונון עדין עשוי להשתמש בפונקציית אובדן אחרת או בסוג מודל שונה מאלה ששימשו לאימון המודל שעבר אימון מראש. לדוגמה, אפשר לכוונן מודל תמונה גדול שעבר אימון מראש כדי ליצור מודל רגרסיה שמחזיר את מספר הציפורים בתמונת קלט.

השוו והבדילו בין כוונון באמצעות המונחים הבאים:

זיקוק
למידה מבוססת-הנחיות

פשתן

#language

ספריית קוד פתוח בעלת ביצועים גבוהים ללמידה עמוקה, שמבוססת על JAX. Flax מספק פונקציות לאימון רשתות נוירונים, וגם שיטות להערכת הביצועים.

פשתן

#language

ספריית טרנספורמר בקוד פתוח שמבוססת על Flax, שמיועדת בעיקר לעיבוד שפה טבעית (NLP) ולמחקר מרובה מצבים.

שער שכח

#seq

החלק בתא של זיכרון ארוך לטווח קצר, שמווסת את זרימת המידע בתא. אפשר לשכוח שערים כדי לשמור על ההקשר על ידי החלטה איזה מידע למחוק ממצב התא.

softmax מלא

מילה נרדפת ל-softmax.

בניגוד לדגימת מועמד.

שכבה שמחוברת באופן מלא

שכבה מוסתרת שבה כל צומת מחובר לכל צומת בשכבה המוסתרת שאחריה.

שכבה שמחוברת באופן מלא נקראת גם שכבה צפיפות.

טרנספורמציה של פונקציות

פונקציה שמקבלת פונקציה כקלט ומחזירה פונקציה שעברה טרנספורמציה כפלט. JAX משתמש בטרנספורמציות של פונקציות.

G

GAAN

קיצור של Generative Adversral network.

הכללה

#fundamentals

היכולת של מודל לבצע חיזויים נכונים על נתונים חדשים, שלא נצפו בעבר. מודל שיכול להכליל הוא ההפך ממודל מתאים יותר.

כדי להציג הערות נוספות, לוחצים על הסמל.

אתם מאמנים מודל על הדוגמאות בערכת האימון. כתוצאה מכך, המודל לומד את הייחודיות של הנתונים בערכת האימון. באופן כללי, צריך לשאול אם המודל יכול לספק תחזיות טובות על דוגמאות שלא קיימות בקבוצת האימון.

כדי לעודד הכללה, התאמה עוזרת למודל לאמן את המודל כך שהוא לא יתאים בדיוק למאפיינים של הנתונים בקבוצת האימון.

עקומת הכללה

#fundamentals

תרשים של הפסד אימון ואובדן אימות כפונקציה של מספר האיטרציות.

בעזרת עקומת ההכללה תוכלו לזהות הוספת יתר אפשרית. לדוגמה, עקומת ההכללה הבאה מרמזת על כך שאובדן האימות גבוה משמעותית מאובדן האימון.

תרשים קרטזיתי שבו ציר ה-Y מסומן כאובדן וציר ה-X
מסומנים באיטרציות. מופיעות שתי תרשימים. בתרשים אחד מוצג
ההפסד של האימון, והשני מציג את אובדן האימות.
שתי הפריסות מתחילות בצורה דומה, אבל בסופו של דבר אובדן האימון
יורד הרבה יותר נמוך מאיבוד האימות.

מודל לינארי כללי

הכללה של מודלים של רגרסיית הריבועים הפחותים, שמבוססים על רעש גאוסיאני, לסוגים אחרים של מודלים על סמך סוגים אחרים של רעש, כמו רעש פואסון או רעש קטגורי. דוגמאות למודלים לינאריים כלליים:

רגרסיה לוגיסטית
רגרסיה מרובת סיווגים
רגרסיית הריבועים הקטנים ביותר

אפשר למצוא את הפרמטרים של מודל לינארי כללי באמצעות אופטימיזציה של המרות קמורות.

מודלים לינאריים כלליים מציגים את המאפיינים הבאים:

החיזוי הממוצע של מודל הרגרסיה של הריבועים הפחות אופטימליים שווה לתווית הממוצעת בנתוני האימון.
ההסתברות הממוצעת הצפויה לפי מודל הרגרסיה הלוגיסטי האופטימלי זהה לתווית הממוצעת בנתוני האימון.

העוצמה של מודל לינארי כללי מוגבלת על ידי התכונות שלו. בשונה ממודל עמוק, מודל לינארי כללי לא יכול "ללמוד תכונות חדשות".

רשת למידה חישובית גנרטיבית (GAN)

מערכת ליצירת נתונים חדשים שבה מחולל יוצר נתונים, וגורם הבחנה קובע אם הנתונים שנוצרו תקפים או לא חוקיים.

בינה מלאכותית גנרטיבית

#language

#image

#generativeAI

שדה טרנספורמטיבי מתפתח ללא הגדרה רשמית. עם זאת, רוב המומחים מסכימים שמודלים של בינה מלאכותית גנרטיבית יכולים ליצור ('ליצור' תוכן שהוא:

מורכב
עקבי
מקורית

לדוגמה, מודל של בינה מלאכותית גנרטיבית יכול ליצור מאמרים או תמונות מתוחכמים.

גם חלק מהטכנולוגיות הקודמות, כולל LSTM ו-RNN, יכולות ליצור תוכן מקורי ועקבי. חלק מהמומחים מתייחסים לטכנולוגיות הקודמות האלה כבינה מלאכותית גנרטיבית, ואילו אחרים סבורים שבינה מלאכותית גנרטיבית אמיתי דורשת פלט מורכב יותר מאשר הטכנולוגיות הקודמות יכולות להפיק.

בניגוד ללמידת מכונה חזויה.

מודל גנרטיבי

בפועל, מודל שמבצע אחת מהפעולות הבאות:

יוצרת (יוצרת) דוגמאות חדשות ממערך הנתונים לאימון. לדוגמה, מודל גנרטיבי יכול ליצור שירה אחרי אימון במערך נתונים של שירים. הקטגוריה הזו נכללה בחלק המחולל של רשת יריבית גנרטיבית.
הפונקציה קובעת את ההסתברות שדוגמה חדשה מגיעה מקבוצת האימון, או נוצרה מאותו מנגנון שיצר את ערכת האימון. לדוגמה, אחרי אימון במערך נתונים שמכיל משפטים באנגלית, מודל גנרטיבי יכול לקבוע את ההסתברות שקלט חדש הוא משפט חוקי באנגלית.

באופן תיאורטי, מודל גנרטיבי יכול להבחין בין ההתפלגות של דוגמאות או של תכונות מסוימות במערך נתונים. כלומר:

p(examples)

מודלים של למידה בלתי מונחית הם גנרטיביים.

בניגוד למודלים של אפליה.

מחולל

מערכת המשנה בתוך רשת אדברסרי גנרטיבי שיוצרת דוגמאות חדשות.

ליצור בניגוד למודל מפלה.

טושטת ג'יני

#df

מדד דומה ל-אנטרופיה. מפצלים משתמשים בערכים שמקורם בטוהר של ג'יני או מאנטרופיה כדי להרכיב תנאים לסיווג עצי החלטה. רווח מידע נגזר מאנטרופיה. אין מונח מקביל מקובל בכל העולם למדד שנגזר מגיני טומעם. עם זאת, המדד הזה ללא שם חשוב לא פחות מצבירת מידע.

טושטת ג'יני נקראת גם אינדקס ג'יני, או פשוט ג'יני.

אפשר ללחוץ על הסמל כדי להציג פרטים מתמטיים על טוהר הגיני.

המונח 'טמטום' של ג'יני הוא הסבירות לסיווג שגוי של פיסת נתונים חדשה שנלקחה מאותה התפלגות. מידת הטוהר של ג'יני בקבוצה עם שני ערכים אפשריים "0" ו-"1" (לדוגמה, התוויות בבעיה של סיווג בינארי) מחושבת לפי הנוסחה הבאה:

I = 1 - (p² + q²) = 1 - (p² + (1-p)²)

איפה:

I - הטוהר של הג'יני.
p הוא החלק של הדוגמאות "1".
q הוא החלק היחסי של הדוגמאות "0". לתשומת ליבכם: q = 1-p

לדוגמה, ניקח לדוגמה את מערך הנתונים הבא:

100 תוויות (0.25 מתוך מערך הנתונים) מכילות את הערך '1'
300 תוויות (0.75 מתוך מערך הנתונים) מכילות את הערך '0'

לכן, טושטת הג'יני היא:

p = 0.25
q = 0.75
I = 1 - (0.25² + 0.75²) = 0.375

לכן, לתווית אקראית מאותו מערך נתונים יש סיכוי של 37.5% לסיווג שגוי, וסיכוי של 62.5% שתסווג כראוי.

תווית מאוזנת לחלוטין (לדוגמה, 200 "0" ו-200 "1") תקבל פגם של 0.5. בתווית לא מאוזנת תהיה פגם גיני שקרוב ל-0.0.

מערך נתונים מוזהב

קבוצת נתונים שנאספו באופן ידני כדי לתעד נתונים אמיתיים. צוותים יכולים להשתמש במערך נתונים זהב אחד או יותר כדי להעריך את האיכות של המודל.

חלק ממערכי הנתונים הזהובים מתעדים תתי-דומיינים שונים של אמת יבשתית. לדוגמה, מערך נתונים מזהב לסיווג תמונות יכול לתעד את תנאי התאורה ורזולוציית התמונה.

GPT (טרנספורמר גנרטיבי שעבר אימון מראש)

#language

משפחה של מודלים גדולים של שפה (LLM) שמבוססים על טרנספורמרים, שפותחו על ידי OpenAI.

אפשר להחיל וריאציות של GPT על שיטות מרובות, כולל:

יצירת תמונות (לדוגמה, ImageGPT)
ליצירת טקסט לתמונה (לדוגמה, DALL-E).

הדרגתי

הווקטור של נגזרות חלקיות ביחס לכל המשתנים הבלתי תלויים. בלמידת מכונה, ההדרגתיות היא הווקטור של הנגזרות החלקיות של פונקציית המודל. ההדרגה מצביעה לכיוון העלייה התלולה ביותר.

צבירה הדרגתית

שיטה של הפצה לאחור שמעדכנת את הפרמטרים רק פעם אחת בכל תקופה של זמן מערכת, ולא פעם אחת בכל איטרציה. אחרי עיבוד של כל מיני אצווה, הצבירה ההדרגתית פשוט מעדכנת את סה"כ ההדרגתיות. לאחר מכן, אחרי עיבוד המיני-אצווה האחרון בתקופה, המערכת מעדכנת בסופו של דבר את הפרמטרים על סמך הסכום הכולל של כל השינויים ההדרגתיים.

כדאי להשתמש בצבירה של צבעים הדרגתיים כשגודל האצווה גדול מאוד בהשוואה לזיכרון הזמין לאימון. כשהזיכרון מהווה בעיה, הנטייה הטבעית היא לצמצם את גודל האצווה. עם זאת, הקטנת גודל האצווה בתגובה רגילה של המערכת מגדילה את מספר העדכונים לפרמטרים. התכונה 'צבירה הדרגתית' מאפשרת למודל להימנע מבעיות בזיכרון, ועדיין להתאמן ביעילות.

עצים מגובבים בהדרגתיות (החלטה) (GBT)

#df

סוג של יער החלטות שבו:

האימון מתבסס על שיפור הדרגתי.
המודל החלש הוא עץ החלטות.

שיפור הדרגתי

#df

אלגוריתם אימון שבו מודלים חלשים מאומנים לשפר באופן חזרתי את האיכות (להפחית את האובדן) של מודל חזק. לדוגמה, מודל חלש יכול להיות מודל עץ החלטות לינארי או מודל קטן. המודל החזקה הופך לסכום של כל המודלים החלשים שאומנו קודם לכן.

בצורה הפשוטה ביותר של הגדלה הדרגתית, בכל איטרציה מודל חלש מאומן לחזות את השיפוע האובדן של המודל החזקה. לאחר מכן, הפלט של המודל החזקה מתעדכן על ידי חיסור ההדרגתיות החזויה, בדומה לירידה בהדרגתיות.

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

איפה:

$F_{0}$ הוא המודל הטוב ביותר להתחלה.
$F_{i+1}$ הוא המודל החזקה הבא.
$F_{i}$ הוא המודל החזקה הנוכחי.
$\xi$ הוא ערך בין 0.0 ל-1.0 שנקרא כיווץ, שדומה לקצב הלמידה בירידה הדרגתית.
$f_{i}$ הוא המודל החלש שאומן לחזות את שיפוע האובדן של $F_{i}$.

וריאציות מודרניות של הגדלת ההדרגתיות כוללות גם את הנגזרת השנייה (הסיאנית) של האובדן בחישוב שלהן.

עצי החלטה משמשים בדרך כלל כמודלים חלשים לשיפור הדרגה. ראו עצים עם עלייה הדרגתית (החלטה).

חיתוך הדרגתי

#seq

מנגנון נפוץ לצמצום הבעיה של שיפוע הדרגתי על ידי הגבלה (חיתוך) של הערך המקסימלי של ההדרגתיות כשמשתמשים בירידה הדרגתית לאימון של מודל.

ירידה הדרגתית

#fundamentals

שיטה מתמטית למזעור ההפסד. ירידה הדרגתית מבצעת התאמות באופן חזרתי של המשקלים וההטיות, ומוצאת בהדרגתיות את השילוב הטוב ביותר כדי למזער את ההפסד.

ירידה הדרגתית היא תקופה ישנה יותר, הרבה יותר ישנה יותר מלמידת מכונה.

תרשים

#TensorFlow

ב-TensorFlow, מפרט חישוב. הצמתים בתרשים מייצגים פעולות. הקצוות מכוונים ומייצגים העברה של התוצאה של פעולה (Tensor) כאופרנד לפעולה אחרת. אפשר להשתמש ב-TensorBoard כדי להציג תרשים באופן חזותי.

ביצוע גרף

#TensorFlow

סביבת תכנות של TensorFlow שבה קודם כל התוכנית יוצרת תרשים ולאחר מכן מבצעת את כל התרשים או חלק ממנו. ביצוע תרשים הוא מצב הביצוע המוגדר כברירת מחדל ב-TensorFlow 1.x.

בניגוד ל-eager ביצוע.

המדיניות בנושא אלגוריתם חמדן

#rl

בלמידת חיזוק, יש להשתמש במדיניות שבה בוחרים תמיד את הפעולה עם ההחזר הגבוה ביותר.

אמת מהותית

#fundamentals

של המציאות.

הדבר שקרה בפועל.

לדוגמה, כדאי להשתמש במודל סיווג בינארי שחוזה אם תלמיד בשנה הראשונה באוניברסיטה יסיים את הלימודים תוך שש שנים. האמת הבסיסית במודל הזה היא אם התלמיד/ה סיים את הלימודים תוך שש שנים.

כדי להציג הערות נוספות, לוחצים על הסמל.

אנחנו מעריכים את איכות המודל לעומת אמת קרקע. עם זאת, האמת היבשתית היא לא תמיד מלאה ונכונה. לדוגמה, שימו לב לדוגמאות הבאות של פגמים פוטנציאליים אמיתיים:

בדוגמה לסיום לימודים, האם אנחנו בטוחים שרשומות הסיום של כל תלמיד ותלמידה נכונים תמיד? האם ניהול רשומות האוניברסיטה מושלם?
נניח שהתווית היא ערך של נקודה צפה שנמדדת על ידי כלים (למשל, ברומטרים). איך אנחנו יכולים להיות בטוחים שכל מכשיר מכויל באופן זהה או שכל קריאה בוצעה באותן הנסיבות?
אם התווית היא עניין של דעה אנושית, איך נוכל להיות בטוחים שכל מדרג מעריך אירועים באותו אופן? כדי לשפר את העקביות, לפעמים מדרגים אנושיים מומחים מתערבים.

הטיה של שיוך קבוצתי

#fairness

בהנחה שמה שנכון לגבי פרט מסוים נכון גם לגבי כולם בקבוצה הזו. אם משתמשים בדגימת נוחות לאיסוף נתונים, ההשפעות של הטיית השיוך הקבוצתית עלולות להחמיר. במדגם לא מייצג, ייתכן שייעשו ייחוסים שלא משקפים את המציאות.

למידע נוסף, אפשר לעיין במאמרים הטיות של הומוגניות מחוץ לקבוצה והטיה בתוך הקבוצה.

H

הזיה

#language

ייצור פלט שנראית הגיונית אבל עובדתיתו שגויה על ידי מודל של בינה מלאכותית גנרטיבית שמתיימר להציג טענה לגבי העולם האמיתי. לדוגמה, מודל של בינה מלאכותית גנרטיבית טוען שברק אובמה נפטר ב-1865 גורם להזיה.

גיבוב (hashing)

בלמידת מכונה, זהו מנגנון לסיווג נתונים קטגוריים, במיוחד כאשר מספר הקטגוריות גדול, אבל מספר הקטגוריות שמופיעות בפועל במערך הנתונים קטן יחסית.

לדוגמה, כדור הארץ כולל כ-73,000 זני עצים. אפשר לייצג כל אחד מ-73,000 זני העצים ב-73,000 קטגוריות קטגוריות נפרדות. לחלופין, אם רק 200 מיני עצים אלו מופיעים במערך נתונים, תוכלו להשתמש בגיבוב (hashing) כדי לחלק את מיני העצים ל-500 קטגוריות.

קטגוריה אחת יכולה להכיל כמה מיני עצים. לדוגמה, גיבוב יכול להציב את baobab ומייפל אדום (שני מינים שונים גנטית) לאותה קטגוריה. בכל מקרה, גיבוב (hashing) הוא עדיין שיטה טובה למפות קבוצות קטגוריות גדולות למספר הקטגוריות שבחרתם. הגיבוב הופך תכונה קטגורית שיש לה מספר גדול של ערכים אפשריים למספר קטן הרבה יותר של ערכים על ידי קיבוץ ערכים באופן ודאי.

היוריסטיקה

פתרון פשוט ומיושם במהירות לבעיה. לדוגמה, "בעזרת היוריסטיקה, השגנו 86% דיוק. כשעברנו לרשת נוירונים עמוקה, הדיוק עלה ל-98%."

שכבה נסתרת

#fundamentals

שכבה ברשת נוירונים בין שכבת הקלט (המאפיינים) לשכבת הפלט (החיזוי). כל שכבה מוסתרת מורכבת מנוירון אחד או יותר. לדוגמה, רשת הנוירונים הבאה מכילה שתי שכבות נסתרות, הראשונה עם שלושה נוירונים והשנייה עם שני נוירונים:

רשת נוירונים עמוקה מכילה יותר משכבה נסתרת אחת. לדוגמה, האיור שלמעלה הוא רשת נוירונים עמוקה כי המודל מכיל שתי שכבות נסתרות.

אשכולות היררכיים

#clustering

קטגוריה של אלגוריתמים של אשכולות שיוצרים עץ של אשכולות. אשכולות היררכיים מתאימים במיוחד לנתונים היררכיים, כמו טקסונומיות בוטניות. יש שני סוגים של אלגוריתמים של אשכולות היררכיים:

באמצעות אשכולות אגלומרטיביים, המערכת קודם כל מקצה כל דוגמה לאשכול שלה, וממזגת באופן איטרטיבי את האשכולות הקרובים ביותר כדי ליצור עץ היררכי.
בקיבוץ באשכולות, כל הדוגמאות מקבצות את כל הדוגמאות לאשכול אחד ואז מחלקות את האשכול לעץ היררכי.

בניגוד לאשכולות מבוססי מרכז (Centroid).

אובדן ציר

קבוצה של לוס פונקציות לסיווג, שנועדה למצוא את גבול ההחלטה במרחק גדול ככל האפשר מכל דוגמת אימון, וכך למקסם את המרווח בין הדוגמאות לבין הגבול. מכונות KSVMs משתמשות באובדן ציר (או בפונקציה קשורה, כמו אובדן ציר ריבועי). בסיווג בינארי, פונקציית אובדן הציר מוגדרת כך:

$$\text{loss} = \text{max}(0, 1 - (y * y'))$$

y הוא התווית האמיתית, -1 או +1, ו-y' הוא הפלט הגולמי של מודל המסווג:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

כתוצאה מכך, תרשים של אובדן ציר לעומת (y * y) נראה כך:

גרף קרטזי המכיל שני קטעי קו מחוברים. קטע השורה הראשון מתחיל ב-( -3, 4) ומסתיים ב-(1, 0). קטע הקו השני מתחיל ב-(1, 0) וממשיך ללא הגבלת זמן עם שיפוע של 0.

הטיה היסטורית

#fairness

סוג של הטיה שכבר קיימת בעולם והגיעה למערך נתונים. להטיות האלה יש נטייה לשקף סטריאוטיפים תרבותיים קיימים, אי שוויון דמוגרפי ודעות קדומות נגד קבוצות חברתיות מסוימות.

לדוגמה, כדאי לחשוב על מודל סיווג שחוזה אם המועמד להלוואה יקבל הלוואה כברירת מחדל. מודל זה עבר אימון על סמך נתונים היסטוריים של בנקים מקומיים משנות ה-80 של המאה ה-20 מברירת המחדל, בשתי קהילות שונות. אם למועמדים קודמים של חברים בקהילה א' יש סיכוי גבוה פי 6 להיענות להלוואות שלהם בהשוואה למועמדים מקהילה ב', המודל עשוי ללמוד על הטיות היסטוריות, וכתוצאה מכך יש פחות סיכוי שהמודל יאשר הלוואות בקהילה א', גם אם התנאים ההיסטוריים הובילו לכך ששיעורי ברירת המחדל הגבוהים יותר של הקהילה לא היו רלוונטיים יותר.

נתוני החזקה לצורך משפטי

דוגמאות שלא נעשה בהן שימוש מכוון ('לא בתוקף') במהלך האימון. מערך הנתונים של האימות ומערך הנתונים לבדיקה הם דוגמאות לנתוני החזקה. נתוני החזקה עוזרים להעריך את היכולת של המודל להכליל נתונים אחרים, ולא על הנתונים שעליהם הוא אומן. האובדן בקבוצת הנתונים החסרה מספק הערכה טובה יותר של האובדן במערך נתונים שלא נראה, בהשוואה להפסד בקבוצת האימון.

מארח

#TensorFlow

#GoogleCloud

כשמאמנים מודל ML על צ'יפים של מאיצים (GPUs או TPUs), החלק במערכת ששולט בשני הרכיבים הבאים:

הזרימה הכוללת של הקוד.
החילוץ והטרנספורמציה של צינור הקלט

המארח בדרך כלל פועל במעבד (CPU) ולא בצ'יפ המאיץ; המכשיר מבצע מניפולציה של tensors על הצ'יפים של המאיץ.

היפר-פרמטר

#fundamentals

המשתנים שאתם או שירות כוונון של היפר-פרמטר משנים במהלך הרצות עוקבות של אימון מודל. לדוגמה, קצב הלמידה הוא היפר-פרמטר. אפשר להגדיר את קצב הלמידה ל-0.01 לפני מפגש הדרכה אחד. אם קבעתם ש-0.01 גבוה מדי, אולי תוכלו לשנות את קצב הלמידה ל-0.003 עבור מפגש האימון הבא.

לעומת זאת, פרמטרים הם המשקלים וההטיות השונות שהמודל לומד במהלך האימון.

היפר-מטוס

גבול שמפריד מרחב לשני מרחבי משנה. לדוגמה, קו הוא היפר-מישור בשני ממדים ומישור הוא היפר-מישור בתלת ממד. בדרך כלל בלמידת מכונה, היפר-מישור הוא הגבול שמפריד מרחב בממדים גבוהים. מכונות וקטוריות לתמיכה בליבה משתמשות בהיפר-מישורים כדי להפריד בין סיווגים חיוביים למחלקות שליליות, בדרך כלל במרחב ממדי גבוה מאוד.

I

כלומר

קיצור של הפצה עצמאית וזהה.

זיהוי תמונות, זיהוי תמונה

#image

תהליך שמסווג אובייקטים, תבניות או מושגים בתמונה. זיהוי תמונות נקרא גם סיווג תמונות.

מידע נוסף זמין במאמר ML Practicum: סיווג תמונות.

מערך נתונים לא מאוזן

מילה נרדפת למערך נתונים לא מאוזן באמצעות מחלקה.

הטיה מרומזת

#fairness

יצירת אסוציאציות או הנחה באופן אוטומטי על סמך מודלים של חשיבה וזכרונות של אדם. הטיה מרומזת יכולה להשפיע על הדברים הבאים:

איך הנתונים נאספים ומסווגים?
איך מתכננים ומפתחים מערכות למידת מכונה.

לדוגמה, כשיוצרים מסווג לזיהוי תמונות של חתונות, מהנדס יכול להשתמש בנוכחות של שמלה לבנה בתמונה כתכונה. עם זאת, שמלות לבנות היו מקובלות רק בתקופות מסוימות ובתרבויות מסוימות.

למידע נוסף, ניתן לעיין בהטיית האישור.

חיקוי

הקצאת ערך בצורה קצרה.

חוסר תאימות למדדי הוגנות

#fairness

הרעיון שכמה עקרונות של הוגנות אינם תואמים זה לזה ואי אפשר לממש אותם בו-זמנית. כתוצאה מכך, אין מדד אוניברסלי אחד לכימות הוגנות, שאפשר להחיל על כל הבעיות בלמידת מכונה.

זה אולי נשמע מאכזב, אבל חוסר תאימות למדדי הוגנות לא מצביע על כך שמאמצי הוגנות מניבים תוצאות לא טובות. במקום זאת, נראה שצריך להגדיר את ההגינות בהקשר של בעיית למידת מכונה נתונה, במטרה למנוע נזק ספציפי לתרחישי השימוש הספציפיים שלה.

לדיון מפורט יותר בנושא, ראו "היכולת של הוגנות".

למידה בהקשר

#language

#generativeAI

מילה נרדפת להנחיה עם כמה דוגמאות.

שהופצה באופן עצמאי וזהה (כלומר

#fundamentals

הנתונים שנלקחים מהתפלגות שלא משתנה, וכל ערך שנשלף לא תלוי בערכים ששורטטו קודם לכן. אחד מהם הוא הגז האידיאלי של למידת המכונה – מבנה מתמטי שימושי שכמעט אף פעם לא נמצא בעולם האמיתי. לדוגמה, התפלגות המבקרים בדף אינטרנט עשויה לנבוע מחלון זמן קצר. כלומר, ההתפלגות לא משתנה במהלך חלון קצר זה, וביקור של אדם אחד בדרך כלל אינו תלוי בביקור של אדם אחר. עם זאת, אם תרחיבו את חלון הזמן הזה, עשויים להופיע הבדלים עונתיים בין המבקרים בדף האינטרנט.

כדאי לעיין גם בקטע לא אזרחיות.

הוגנות אישית

#fairness

מדד הוגנות שבודק אם אנשים דומים מסווגים באופן דומה. לדוגמה, ייתכן שבאקדמיה של ברודינגנגיאן נהוג לשמור על הוגנות מסוימת ולוודא שלשני תלמידות ותלמידים בעלי ציונים זהים וציוני בחינות סטנדרטיים יש סיכוי שווה להתקבל לתוכנית.

שימו לב שמידת ההוגנות תלויה לחלוטין באופן שבו מגדירים "דמיון" (במקרה הזה, ציונים וציוני בחינות), ואתם עלולים להיתקל בבעיות חדשות של הוגנות אם מדד הדמיון מפספס מידע חשוב (כמו הקפדה על תוכנית הלימודים של התלמיד).

לדיון מפורט יותר על הוגנות אישית, ראו "הוגנות באמצעות מוּדעוּת".

מסקנה

#fundamentals

בלמידת מכונה, תהליך יצירת התחזיות על ידי החלת מודל מאומן על דוגמאות ללא תוויות.

להסקה יש משמעות מעט שונה בסטטיסטיקה. לפרטים נוספים, אפשר לעיין ב מאמר על הסקה סטטיסטית בוויקיפדיה.

נתיב הסקת

#df

בעץ החלטות, במהלך הסקה, המסלול שדוגמה מסוימת לוקחת מהשורש לתנאים אחרים, והוא מסתיים בעלה. לדוגמה, בעץ ההחלטות הבא, החיצים העבים יותר מציגים את נתיב ההסקה לדוגמה עם ערכי התכונות הבאים:

x = 7
y = 12
z = -3

באיור הבא, נתיב ההסקה עובר דרך שלושה תנאים לפני ההגעה לעלות (Zeta).

עץ החלטות שמורכב מארבעה תנאים וחמישה עלים.
התנאי הבסיסי הוא (x > 0). מכיוון שהתשובה היא כן, נתיב ההסקה עובר מהשורש לתנאי הבא (y > 0).
מכיוון שהתשובה היא כן, נתיב ההסקה עובר לתנאי הבא (z > 0). מכיוון שהתשובה היא לא, נתיב ההסקה
עובר לצומת הטרמינל שלו, שהוא העלה (Zeta).

שלושת החיצים העבים מייצגים את נתיב ההסקה.

צבירת מידע

#df

ביערות החלטה, ההפרש בין האנטרופיה של צומת לבין הסכום המשוקלל (לפי מספר דוגמאות) של האנטרופיה של צמתים הצאצאים שלו. האנטרופיה של צומת היא האנטרופיה של הדוגמאות באותו צומת.

לדוגמה, שימו לב לערכי האנטרופיה הבאים:

האנטרופיה של צומת ההורה = 0.6
של צומת צאצא אחד עם 16 דוגמאות רלוונטיות = 0.2
של צומת צאצא אחר עם 24 דוגמאות רלוונטיות = 0.1

כך ש-40% מהדוגמאות נמצאות בצומת צאצא אחד ו-60% נמצאים בצומת הצאצא האחר. לכן:

סכום האנטרופיה המשוקלל של צמתים צאצאים = (0.4 * 0.2) + (0.6 * 0.1) = 0.14

אם כך, רווח המידע הוא:

מידע מצטבר = אנטרופיה של צומת הורה - סכום אנטרופיה משוקלל של צמתים צאצאים
תוספת מידע = 0.6 - 0.14 = 0.46

רוב המפצלים נועדו ליצור תנאים כדי למקסם את איסוף המידע.

הטיה בתוך הקבוצה

#fairness

הצגת חלקיות לקבוצה של אדם מסוים או למאפיינים שלו. אם הבודקים או המדרגים כוללים חברים, בני משפחה או עמיתים של מפתח למידת המכונה, הטיה בתוך הקבוצה עלולה לבטל את התוקף של בדיקת המוצר או של מערך הנתונים.

הטיה בתוך הקבוצה היא סוג של הטיה של קבוצה. למידע נוסף, אפשר לעיין גם במאמר הטיית הומוגניות מחוץ לקבוצה.

מחולל קלט

מנגנון שבאמצעותו הנתונים נטענים לרשת נוירונים.

אפשר לחשוב על מחולל קלט כרכיב שאחראי לעיבוד נתונים גולמיים לחוטים שחוזרים על עצמם כדי ליצור אצוות למטרות אימון, הערכה והסקת מסקנות.

שכבת קלט

#fundamentals

השכבה של רשת נוירונים שמכילה את וקטור התכונות. כלומר, שכבת הקלט מספקת דוגמאות לאימון או להסקה. לדוגמה, שכבת הקלט ברשת הנוירונים הבאה מורכבת משתי תכונות:

ארבע שכבות: שכבת קלט, שתי שכבות מוסתרות ושכבת פלט.

תנאי מוגדר

#df

בעץ החלטות, תנאי שבודק אם יש פריט אחד בקבוצה של פריטים. לדוגמה, התנאי הבא הוא תנאי מוגדר:

  house-style in [tudor, colonial, cape]

בשלב ההסקה, אם הערך של תכונה בסגנון בית הוא tudor או colonial או cape, התנאי הזה יקבל את הערך 'כן'. אם הערך של התכונה 'סגנון בית' הוא משהו אחר (למשל, ranch), התנאי הזה מקבל את הערך 'לא'

בדרך כלל, תנאי הגדרה מובילים לעצי החלטות יעילים יותר מאשר תנאים שבודקים תכונות של קידוד עם קידוד אחיד.

מכונה

מילה נרדפת ל-example.

כוונון לפי הוראות

#generativeAI

סוג של כוונון שמשפר את היכולת של מודל בינה מלאכותית גנרטיבית לפעול לפי ההוראות. כוונון ההוראה כולל אימון של מודל על סדרה של הנחיות הוראה, שבדרך כלל מכסות מגוון רחב של משימות. לאחר מכן, המודל שעבר כוונון הוראה נוטה ליצור תשובות מועילות להנחיות מאפס במגוון משימות.

השוו והבדילו עם:

כוונון יעיל בפרמטרים
כוונון של הודעות

פרשנות

#fundamentals

היכולת להסביר או להציג לבני אדם את ההיגיון של מודל למידת מכונה במונחים מובן.

לדוגמה, רוב המודלים של רגרסיה לינארית ניתנים לפירוש. (צריך רק לבחון את המשקולות המאומנות לכל תכונה). גם יערות קבלת החלטות ניתנים לפירוש. עם זאת, חלק מהמודלים דורשים תצוגה מתוחכמת כדי שניתן יהיה לפרש אותם.

אפשר להשתמש בכלי לפירוש נתונים (LIT) כדי לפרש מודלים של למידת מכונה.

הסכם בין מדרגים

מדידה של התדירות שבה מדרגים אנושיים מסכימים בביצוע משימה. אם המדרגים לא מסכימים, יכול להיות שצריך לשפר את ההוראות לביצוע המשימה. לפעמים נקרא גם הסכם בין-מעניקים הערות או אמינות בין מדרגים. קראו גם את הקאפה של כהן, שהיא אחת משיטות המדידה הנפוצות ביותר של הסכמים בין מדרגים.

הצטלבות באיחוד (IoU)

#image

ההצטלבות של שתי קבוצות חלקי האיחוד שלהן. במשימות של זיהוי תמונות בלמידת מכונה, נעשה שימוש ב-IoU כדי למדוד את הדיוק של התיבה תוחמת (bounding box) החזויה של המודל ביחס לתיבה התוחמת ground-truth. במקרה הזה, ה-IoU של שתי התיבות הוא היחס בין האזור החופף לשטח הכולל, והערך שלו נע מ-0 (אין חפיפה בין תיבה תוחמת חזויה ותיבה תוחמת קרקע חזויה) ל-1 (לתיבה תוחמת חזויה ולתיבה תוחמת-אמת יש אותן קואורדינטות בדיוק).

לדוגמה, בתמונה שלמטה:

התיבה התוחמת החזויה (הקואורדינטות שמפרידות בין המיקום של טבלת הלילה בציור) מתוארת בסגול.
התיבה התוחמת את הקרקע (הקואורדינטות שמפרידות את המיקום של שולחן הלילה בציור) מסומנת בירוק.

ציור של ואן גוך את חדר השינה של וינסנט בארל, עם שתי תיבות תוחמות שונות מסביב לשולחן הלילה ליד המיטה. התיבה התוחמת את הקרקע (בירוק) תוחמת בצורה מושלמת את שולחן הלילה. התיבה התוחמת החזויה (בסגול) מקוזזת 50% כלפי מטה ולימין
של התיבה התוחמת לקרקע. היא מקיפה את החלק הימני התחתון של טבלת הלילה, אבל מתעלמת משאר הטבלה.

במקרה הזה, ההצטלבות של התיבות התוחמות לחיזוי ואמת קרקע (מתחת משמאל) היא 1, והאיחוד של התיבות התוחמות לחיזוי ואמת הקרקע (מתחת לפינה) הוא 7, כך שה-IoU הוא $\frac{1}{7}$.

אותה תמונה כמו למעלה, אבל כל תיבה תוחמת מחולקת לארבעה ריבועים. בסך הכול יש שבעה רבעונים, כי הריבוע הימני התחתון של התיבה התוחמת את אמת הקרקע והריבוע השמאלי העליון של התיבה התוחמת החזויה חופפים זה לזה. הקטע החופף (מודגש בירוק) מייצג את
הצומת, ושטחו הוא 1.

IoU

קיצור של צומת על איחוד.

מטריצת פריטים

#recsystems

במערכות המלצה, מטריצה של וקטורים של הטמעה שנוצרה על ידי פירוק לגורמים של מטריצה ומכילה אותות נסתרים לגבי כל פריט. כל שורה במטריצת הפריטים מכילה את הערך של תכונה לטנטית אחת לכל הפריטים. לדוגמה, נניח שיש מערכת המלצות על סרטים. כל עמודה במטריצת הפריטים מייצגת סרט אחד. האותות הלטנטיים עשויים לייצג ז'אנרים, או שהם קשים יותר לפירוש, שיש בהם אינטראקציות מורכבות בין ז'אנרים, כוכבים, גילאי הסרט או גורמים אחרים.

במטריצת הפריטים יש אותו מספר עמודות כמו במטריצת היעד שעוברת לפירוק לגורמים. לדוגמה, בהינתן מערכת המלצות על סרטים שבודקת 10,000 שמות של סרטים, מטריצת הפריטים תכלול 10,000 עמודות.

items

#recsystems

במערכת ההמלצות, הישויות שהמערכת ממליצה. לדוגמה, סרטונים הם הפריטים שמומלצים בחנות סרטונים, בעוד שספרים הם הפריטים שמומלצים על ידי חנות ספרים.

איטרציה

#fundamentals

עדכון יחיד של הפרמטרים של המודל – המשקלים וההטיות של המודל – במהלך ההדרכה. גודל האצווה קובע כמה דוגמאות המודל יעובד באיטרציה אחת. לדוגמה, אם גודל האצווה הוא 20, המודל יעבד 20 דוגמאות לפני התאמת הפרמטרים.

כשמאמנים רשת נוירונים, איטרציה אחת כוללת את שני המעברים הבאים:

כרטיס קדימה שמשמש להערכת ההפסד באצווה אחת.
העברה לאחור (הפצה לאחור) להתאמת הפרמטרים של המודל על סמך אובדן וקצב הלמידה.

J

JAX

ספריית מחשוב מערכים הכוללת XLA (אלגברה לינארית מואצת) ובידול אוטומטי למחשוב מספרי בעל ביצועים גבוהים. JAX מספק API פשוט וחזק לכתיבת קוד מספרי מואץ עם טרנספורמציות קומפוזביליות. JAX מספק תכונות כמו:

grad (הבחנה אוטומטית)
jit (הידור בדיוק בזמן)
vmap (וקטורים אוטומטיים או אצווה)
pmap (טעינה מקבילה)

JAX היא שפה שבה אפשר לקרוא ולחבר טרנספורמציות של קוד מספרי, אנלוגי – אבל הרבה יותר גדול – לספריית NumPy של Python. (למעשה, ספריית numpy .ב-JAX היא גרסה פונקציונלית מקבילה, אבל משוכתבת לחלוטין של ספריית Python NumPy).

JAX מתאים במיוחד להאצה של הרבה משימות של למידת מכונה, באמצעות טרנספורמציה של המודלים והנתונים לצורה שמתאימה למקביליות ב-GPU ובצ'יפים של מאיץ של TPU.

Flax, Optax, Pax וספריות רבות נוספות מבוססות על התשתית של JAX.

K

Keras

API פופולרי ללמידת מכונה ב-Python. Keras פועל בכמה מסגרות של למידה עמוקה (Deep Learning), כולל TensorFlow, ושם הוא זמין בתור tf.keras.

מכונות Vector Support (KSVMs)

אלגוריתם סיווג שמטרתו להגדיל את השוליים בין סיווגים חיוביים לסיווגים שליליים על ידי מיפוי וקטורים של נתוני קלט למרחב ממדי גבוה יותר. לדוגמה, חשבו על בעיית סיווג שבה מערך הנתונים של הקלט כולל מאה תכונות. כדי להגדיל את השוליים בין סיווג חיובי ושלילי, KSVM יכול למפות באופן פנימי את התכונות האלה למרחב של מיליון ממדים. במכונות KSVM נעשה שימוש בפונקציית אובדן שנקראת אובדן ציר.

נקודות עיקריות

#image

הקואורדינטות של תכונות מסוימות בתמונה. לדוגמה, במודל זיהוי תמונות שמבדיל בין מיני פרחים, נקודות מפתח יכולות להיות המרכז של כל עלה כותרת, גזע, נדב וכן הלאה.

אימות מוצלב k- Fold

אלגוריתם לחיזוי היכולת של המודל לכלול נתונים חדשים. הערך k ב-K- Fold מתייחס למספר הקבוצות השווות שאתם מחלקים אליהן דוגמאות ממערך נתונים. כלומר, צריך לאמן ולבדוק את המודל k פעמים. בכל סבב של אימון ובדיקה, קבוצת האימון היא קבוצה שונה וכל שאר הקבוצות הופכות לערכת האימון. אחרי k סבבים של אימון ובדיקה, אתם מחשבים את הממוצע ואת סטיית התקן של מדדי הבדיקה שבחרתם.

לדוגמה, נניח שמערך הנתונים שלכם מכיל 120 דוגמאות. בנוסף, נניח שאתם מחליטים להגדיר את k כ-4. לכן, אחרי שמשלבים את הדוגמאות בסדר אקראי, מחלקים את מערך הנתונים לארבע קבוצות שוות של 30 דוגמאות ועורכים ארבעה סבבי אימון/בדיקה:

מערך נתונים שמחולק לארבע קבוצות שוות של דוגמאות. בסיבוב 1, שלוש הקבוצות הראשונות משמשות לאימון והקבוצה האחרונה משמשת לבדיקה. בסיבוב 2, שתי הקבוצות הראשונות והקבוצה האחרונה משמשות לאימון, והקבוצה השלישית משמשת לבדיקה. בסיבוב 3, הקבוצה הראשונה ושתי הקבוצות האחרונות משמשות לאימון, והקבוצה השנייה משמשת לבדיקה.
בסיבוב 4, הקבוצה הראשונה משמשת לבדיקה, ושלוש הקבוצות האחרונות משמשות לאימון.

לדוגמה, Mean Squared Error (MSE) יכול להיות המדד המשמעותי ביותר למודל רגרסיה לינארית. לכן, תוכלו למצוא את הממוצע וסטיית התקן של ה-MSE בכל ארבעת הסבבים.

k-means

#clustering

אלגוריתם פופולרי של אשכולות שמקבץ דוגמאות של למידה לא מונחית. בעיקרון, האלגוריתם k-means מבצע את הפעולות הבאות:

המערכת קובעת באופן איטרטיבי את k נקודות האמצע הטובות ביותר (שנקראות סנטרואידים).
מקצה כל דוגמה למרכז השליטה הקרוב ביותר. הדוגמאות האלה הקרובות ביותר לאותו מרכז שייכות לאותה קבוצה.

האלגוריתם k-means בוחר מיקומים של מרכזי קניות כדי לצמצם את הריבוע המצטבר של המרחקים מכל דוגמה למרכז השליטה הקרוב ביותר שלה.

לדוגמה, צריך לקחת בחשבון את התרשים הבא של גובה הכלב לעומת רוחב הכלב:

גרף קרטזי עם כמה עשרות נתונים.

אם k=3, האלגוריתם k-means יקבע שלושה צנטרואידים. כל דוגמה מוקצית למרכז השליטה הקרוב ביותר שלה, ומפיקה שלוש קבוצות:

אותה חלקה קרטזית כמו באיור הקודם, מלבד
הוספה של שלושה צנטרואידים.
הנקודות הקודמות על הגרף מקובצות לשלוש קבוצות נפרדות,

כשכל קבוצה מייצגת את הנקודות הקרובות ביותר למרכז נתונים מסוים.

נניח שיצרן רוצה לקבוע את המידות האידיאליות לסוודרים קטנים, בינוניים וגדולים לכלבים. שלושת הצנטרואידים מזהים את הגובה הממוצע והרוחב הממוצע של כל כלב במקבץ. לכן היצרן צריך לבסס את המידות של סוודרים על שלושת המרכזים האלה. שים לב שהמרכז של אשכול הוא בדרך כלל לא דוגמה לאשכול.

באיורים הקודמים מוצג סימן k לדוגמאות עם שתי תכונות בלבד (גובה ורוחב). שימו לב ש-k-אמצעים יכולים לקבץ דוגמאות בתכונות רבות.

k-חציון

#clustering

אלגוריתם אשכולות הקשור באופן הדוק ל-k-means. ההבדל המעשי בין שניהם:

ב-k-אמצעים, נקבעים צנטרואידים על ידי צמצום סכום הריבועים של המרחק בין מועמד מרכז לבין כל אחת מהדוגמאות שלו.
ב-k-חציון, צנטרואידים נקבעים על ידי צמצום סכום המרחק בין מועמד מרכז לבין כל אחת מהדוגמאות שלו.

שים לב שגם ההגדרות של מרחק שונות:

k-means מסתמך על המרחק האוקלידי מהמרכז בדוגמה. (בשני ממדים, המרחק האוקלידי הוא שימוש במשפט פיתגורס כדי לחשב את היתר). לדוגמה, המרחק בין 2,2 לבין (5,-2) יהיה:

$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$

k-חציון מסתמך על המרחק במנהטן ממרכז העיר בדוגמה. המרחק הזה הוא סכום ההפרשים המוחלטים בכל מאפיין. לדוגמה, המרחק של חציון k בין (2,2) ל-(5,-2) יהיה:

$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

L

רגולציית L₀

#fundamentals

סוג של ריקול שבמסגרתו מווסת המספר הכולל של משקלים שאינם אפס במודל. לדוגמה, במודל שיש בו 11 משקולות שאינן מאפס, יוטל קנס יותר מאשר על מודל דומה שיש בו 10 משקולות שאינן אפס.

רגולציית L₀ נקראת לפעמים רגולזציה של L0-norm.

כדי להציג הערות נוספות, לוחצים על הסמל.

בדרך כלל, הרגולזציה של L₀ היא לא מעשית במודלים גדולים, כי הרגולזציה של L₀ הופכת את האימון לבעיית אופטימיזציה קמורה.

הפסד של L₁

#fundamentals

פונקציית הפסד שמחשבת את הערך המוחלט של ההפרש בין ערכי label בפועל לבין הערכים שמודל חוזה. לדוגמה, כך מחשבים את ההפסד של L₁ עבור אצווה של חמש דוגמאות:

הערך בפועל של הדוגמה	הערך החזוי של המודל	ערך מוחלט של דלתא
7	6	1
5	4	1
8	‏11	3
4	6	2
9	8	1
		8 = הפסד של L₁

אובדן L₁ הוא פחות רגיש לחריגים לעומת הפסד L₂.

השגיאה האבסולוטית הממוצעת היא ההפסד הממוצע של ₁ לכל דוגמה.

לוחצים על הסמל כדי לראות את החישובים הרשמיים.

$$ L_1 loss = \sum_{i=0}^n | y_i - \hat{y}_i |$$

איפה:

$n$ הוא מספר הדוגמאות.
$y$ הוא הערך בפועל של התווית.
$\hat{y}$ הוא הערך שהמודל חוזה עבור $y$.

רגולציה L₁

#fundamentals

סוג של ריקול שיש בו משקלים ביחס לסכום הערך המוחלט של המשקולות. הרגולזציה של L₁ עוזרת להעלות את ערך המשקולות של תכונות לא רלוונטיות או כמעט רלוונטיות ל-0 בדיוק. בפועל, תכונה במשקל 0 מוסרת מהמודל.

הניגוד לרדירזציה של L₂.

הפסד של L₂

#fundamentals

פונקציית הפסד שמחשבת את הריבוע של ההפרש בין ערכי label בפועל לבין הערכים שמודל חוזה. לדוגמה, כך מחשבים את ההפסד של L₂ עבור אצווה של חמש דוגמאות:

הערך בפועל של הדוגמה	הערך החזוי של המודל	ריבוע הדלתא
7	6	1
5	4	1
8	‏11	9
4	6	4
9	8	1
		16 = הפסד של L₂

כתוצאה מצבירה, אובדן L₂ מגביר את ההשפעה של ציונים חריגים. כלומר, אובדן L₂ מגיב חזק יותר לתחזיות רעות מאשר לאובדן L₁. לדוגמה, אובדן L₁ של האצווה הקודמת יהיה 8 במקום 16. שימו לב שאף גורם חיצוני אחראי ל-9 מתוך 16.

מודלים של רגרסיה בדרך כלל משתמשים באובדן L₂ כפונקציית אובדן.

השגיאה הממוצעת בריבוע היא הפסד של L₂ בממוצע לכל דוגמה. Squared Loss (אובדן Squared) הוא שם נוסף לאובדן של L₂.

לוחצים על הסמל כדי לראות את החישובים הרשמיים.

$$ L_2 loss = \sum_{i=0}^n {(y_i - \hat{y}_i)}^2$$

איפה:

$n$ הוא מספר הדוגמאות.
$y$ הוא הערך בפועל של התווית.
$\hat{y}$ הוא הערך שהמודל חוזה עבור $y$.

רגולציית L₂

#fundamentals

סוג של ריקול שיש בו משקלים ביחס לסכום של הריבועים של המשקולות. הרגולזציה של L₂ עוזרת להשיג משקלים חריגים (בעלי ערכים חיוביים או נמוכים נמוכים) קרוב ל-0 אבל לא די ל-0. תכונות עם ערכים קרובים מאוד ל-0 נשארות במודל, אבל לא משפיעות על חיזוי המודל במידה רבה.

הרגולזציה של L₂ תמיד משפרת את ההכללה במודלים לינאריים.

בניגוד לרגולזציה של L₁.

label

#fundamentals

בלמידת מכונה מבוקרת, החלק "תשובה" או "תוצאה" מדוגמה.

כל דוגמה עם תווית כוללת תכונה אחת או יותר ותווית. לדוגמה, במערך נתונים לזיהוי ספאם, התווית תהיה ככל הנראה 'ספאם' או 'לא ספאם'. במערך נתונים של משקעים, התווית יכולה להיות כמות הגשם שירד בתקופה מסוימת.

דוגמה עם תווית

#fundamentals

דוגמה שכוללת לפחות תכונות וגם תווית. לדוגמה, הטבלה הבאה מציגה שלוש דוגמאות בעזרת תוויות ממודל של הערכת בית, שלכל אחת יש שלוש תכונות ותווית אחת:

מספר חדרי שינה	מספר חדרי הרחצה	גיל הבית	מחיר לבית (תווית)
3	2	‏15	1380,000 ש"ח
2	1	72	716,000 ש"ח
4	2	34	1,568,000 ש"ח

בלמידת מכונה מפוקחת, המודלים מתאמנים על דוגמאות מסומנות ויוצרים תחזיות על דוגמאות ללא תוויות.

ניגודיות בין דוגמה עם תווית לדוגמאות ללא תוויות.

דליפת תוויות

ליקוי בעיצוב מודל שבו תכונה היא שרת proxy של התווית. לדוגמה, כדאי להשתמש במודל סיווג בינארי שחוזה אם לקוח פוטנציאלי ירכוש מוצר מסוים. נניח שאחת מהתכונות של המודל היא ערך בוליאני בשם SpokeToCustomerAgent. נניח גם שהסוכן לקוח מוקצה רק אחרי שהלקוח הפוטנציאלי רכש בפועל את המוצר. במהלך האימון, המודל ילמד במהירות מה הקשר בין SpokeToCustomerAgent לתווית.

למבדה

#fundamentals

מילה נרדפת לשיעור רגולטור.

למבדה הוא מונח עמוס מדי. כאן אנחנו מתמקדים בהגדרת המונח, במסגרת הרמוניה.

LaMDA (מודל שפה לאפליקציות דיאלוג)

#language

Google פיתחה מודל שפה גדול (LLM) שמבוסס על טרנספורמר, שאותו Google אימנה באמצעות מערך נתונים גדול של דיאלוג, שיכול ליצור תשובות מציאותיות לשיחות.

LaMDA: טכנולוגיית השיחות שלנו ופריצת הדרך מספקת סקירה כללית.

ציוני דרך

#image

מילה נרדפת ל-keypoints.

מודל שפה

#language

model שמעריך את ההסתברות שmodel או רצף של אסימונים יופיעו ברצף ארוך יותר של אסימונים.

כדי להציג הערות נוספות, לוחצים על הסמל.

על אף שהם מנוגדים לאינטואיטיביים, מודלים רבים שמעריכים טקסט הם לא מודלים של שפה. לדוגמה, מודלים של סיווג טקסט ומודלים של ניתוח סנטימנטים הם לא מודלים של שפה.

מודל שפה גדול (LLM)

#language

מונח לא רשמי ללא הגדרה מדויקת, שהוא בדרך כלל מודל שפה שיש לו מספר גבוה של פרמטרים. חלק מהמודלים הגדולים של שפה מכילים יותר מ-100 מיליארד פרמטרים.

כדי להציג הערות נוספות, לוחצים על הסמל.

יכול להיות שאתם תוהים מתי מודל שפה הופך להיות גדול מספיק כדי לקרוא למודל שפה גדול. בשלב הזה, אין שורה מוסכמת להגדרה של מספר הפרמטרים.

רוב המודלים הקיימים של שפה גדולה (למשל GPT) מבוססים על הארכיטקטורה Transformer.

מרחב נסתר

#language

מילה נרדפת להטמעת מרחב.

שכבה

#fundamentals

קבוצה של נוירונים ברשת נוירונים. קיימים שלושה סוגים נפוצים של שכבות:

שכבת הקלט, שמספקת ערכים לכל התכונות.
שכבות מוסתרות אחת או יותר, שמוצאות קשרים לא לינאריים בין התכונות לבין התווית.
שכבת הפלט, שמספקת את החיזוי.

לדוגמה, באיור הבא מוצגת רשת נוירונים עם שכבת קלט אחת, שתי שכבות מוסתרות ושכבת פלט אחת:

רשת נוירונים עם שכבת קלט אחת, שתי שכבות מוסתרות ושכבת פלט אחת. שכבת הקלט מורכבת משתי תכונות. השכבה הנסתרת הראשונה מורכבת משלושה נוירונים והשכבה המוסתרת השנייה מורכבת משני נוירונים. שכבת הפלט מורכבת מצומת אחד.

ב-TensorFlow, layers הן גם פונקציות Python שמקבלות את Tensors ואפשרויות הגדרה כקלט, ומייצרות tensorים אחרים כפלט.

Layers API (tf.layers)

#TensorFlow

ממשק API של TensorFlow לבניית רשת נוירונים עמוקה כקומפוזיציה של שכבות. אפשר ליצור שכבות ב-Layers API מסוגים שונים, כמו:

tf.layers.Dense לשכבה שמחוברת באופן מלא.
tf.layers.Conv2D לשכבה קונבולטורית.

ה-Layers API פועל בהתאם למוסכמות של Keras ל-layers API. כלומר, מלבד קידומת אחרת, לכל הפונקציות ב-Layers API יש אותם שמות וחתימות כמו לפונקציות המקבילות ב-Keraslayers API.

עלה

#df

כל נקודת קצה בעץ ההחלטות. בניגוד לתנאי, עלה לא מבצע בדיקה. במקום זאת, עלה הוא חיזוי אפשרי. עלה הוא גם הצומת הטרמינלי של נתיב ההסקה.

לדוגמה, עץ ההחלטות הבא מכיל שלושה עלים:

עץ החלטות עם שני תנאים שמובילים לשלושה עלים.

כלי לפירוש נתונים (LIT)

כלי חזותי ואינטראקטיבי להבנת מודלים ולהצגה חזותית של נתונים.

אפשר להשתמש ב-LIT בקוד פתוח כדי לפרש מודלים או להציג נתונים של טקסט, תמונה וטבלה.

קצב למידה

#fundamentals

מספר עם נקודה צפה (floating-point) שמציין לאלגוריתם של הירידה בהדרגתיות עד כמה חזקה לצורך התאמה של משקלים והטיות בכל איטרציה. לדוגמה, קצב למידה של 0.3 ישנה את המשקולות וההטיות בעוצמה גבוהה פי שלושה מקצב למידה של 0.1.

קצב הלמידה הוא היפר-פרמטר מרכזי. אם קצב הלמידה יהיה נמוך מדי, האימון יימשך יותר מדי זמן. אם תגדירו את קצב הלמידה גבוה מדי, לעיתים קרובות לא תהיה לכם אפשרות להגיע להמרות בירידה הדרגתית.

לוחצים על הסמל כדי לקבל הסבר מתמטי יותר.

בכל איטרציה, האלגוריתם של הירידה ההדרגתית מכפיל את קצב הלמידה בהדרגה. התוצר שמתקבל נקרא שלב הדרגתי.

רגרסיית הריבועים הקטנים ביותר

מודל של רגרסיה ליניארית מאומן על ידי צמצום אובדן L₂.

ליניארי

#fundamentals

קשר בין שני משתנים או יותר שאפשר לייצג רק באמצעות חיבור וכפל.

התרשים של קשר לינארי הוא קו.

הניגודיות לערך לא לינארי.

מודל לינארי

#fundamentals

model שמקצה model אחד לכל model לצורך יצירת model. (במודלים לינאריים יש גם הטיה). לעומת זאת, הקשר בין תכונות לחיזויים במודלים עמוקים הוא בדרך כלל לא לינארי.

בדרך כלל קל יותר לאמן מודלים לינאריים והם יכולים לפרש אותם יותר מאשר מודלים עמוקים. עם זאת, מודלים עמוקים יכולים ללמוד בין תכונות של קשרים מורכבים.

רגרסיה לינארית ורגרסיה לוגיסטית הם שני סוגים של מודלים לינאריים.

לוחצים על הסמל כדי לראות את החשבון.

מודל לינארי נקבע לפי הנוסחה הבאה:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

איפה:

y' הוא החיזוי הגולמי. (בסוגים מסוימים של מודלים ליניאריים, החיזוי הגולמי ישתנה. לדוגמה, ראו רגרסיה לוגיסטית.)
b הוא ההטיה.
w הוא משקל, כך ש₁ הוא המשקל של התכונה הראשונה, w₂ הוא המשקל של הפריט השני וכן הלאה.
x הוא תכונה, לכן x₁ הוא הערך של התכונה הראשונה, x₂ הוא הערך של התכונה השנייה וכן הלאה.

לדוגמה, נניח שמודל לינארי של שלוש תכונות לומד את ההטיות והמשקלים הבאים:

b = 7
w₁ = -2.5
מ₂ = 1.2
W₃ = 1.4

לכן, בהינתן שלוש תכונות (x₁, x₂ ו-x₃), המודל הלינארי משתמש במשוואה הבאה כדי ליצור כל חיזוי:

y' = 7 + (-2.5)(x₁) + (-1.2)(x₂) + (1.4)(x₃)

נניח שדוגמה מסוימת מכילה את הערכים הבאים:

x₁ = 4
x₂ = 10-
x₃ = 5

הזנת הערכים האלה בנוסחה מניבה חיזוי לדוגמה הזו:

y' = 7 + (-2.5)(4) + (-1.2)(-10) + (1.4)(5)
y' = 16

מודלים לינאריים כוללים לא רק מודלים שמשתמשים רק במשוואה לינארית כדי ליצור תחזיות, אלא גם קבוצה רחבה יותר של מודלים שמשתמשים במשוואה לינארית רק כרכיב אחד בנוסחה שיוצרת חיזויים. לדוגמה, רגרסיה לוגיסטית לאחר עיבוד החיזוי הגולמי (y) יוצרת ערך חיזוי סופי בין 0 ל-1, באופן בלעדי.

רגרסיה ליניארית

#fundamentals

סוג של מודל למידת מכונה שבו מתקיימים שני התנאים הבאים:

המודל הוא מודל לינארי.
החיזוי הוא ערך של נקודה צפה (floating-point). (זהו החלק של הרגרסיה של רגרסיה לינארית).

בצעו השוואה בין רגרסיה לינארית לרגרסיה לוגיסטית. כמו כן, רגרסיה של ניגודיות באמצעות סיווג.

ליטא

קיצור של הכלי לפירוש נתונים (LIT), שנקרא בעבר הכלי לפרשנות שפה.

מודל שפה גדול (LLM)

#language

מודל שפה גדול (LLM).

רגרסיה לוגיסטית

#fundamentals

סוג של מודל רגרסיה שצופה הסתברות. מודלים של רגרסיה לוגיסטית כוללים את המאפיינים הבאים:

התווית היא קטגורית. המונח 'רגרסיה לוגיסטית' מתייחס בדרך כלל לרגרסיה לוגיסטית בינארית, כלומר למודל שמחשב הסתברויות לתוויות עם שני ערכים אפשריים. וריאנט פחות נפוץ רגרסיה לוגיסטית רב-נומית מחשב הסתברויות לתוויות עם יותר משני ערכים אפשריים.
פונקציית האובדן במהלך האימון היא Log Loss. (ניתן למקם מספר יחידות של אובדן יומן רישום במקביל לתוויות שיש להן יותר משני ערכים אפשריים).
למודל יש ארכיטקטורה לינארית, ולא רשת נוירונים עמוקה. עם זאת, שאר ההגדרה הזו חלה גם על מודלים עמוקים שחוזים הסתברויות לתוויות קטגוריות.

לדוגמה, כדאי להשתמש במודל רגרסיה לוגיסטי שמחשב את ההסתברות שאימייל קלט כלשהו יהיה ספאם או לא ספאם. במהלך ההסקה, נניח שהמודל חוזה 0.72. לכן, המודל מספק הערכה של:

סיכוי של 72% שהאימייל יהיה ספאם.
יש סיכוי של 28% שהאימייל לא יהיה ספאם.

מודל רגרסיה לוגיסטי משתמש בארכיטקטורה הדו-שלבית הבאה:

המודל יוצר חיזוי גולמי (y) על ידי החלת פונקציה לינארית של תכונות קלט.
המודל משתמש בחיזוי הגולמי הזה כקלט של פונקציית סיגמואיד, שממירה את החיזוי הגולמי לערך בין 0 ל-1, לא כולל.

בדומה לכל מודל רגרסיה, מודל רגרסיה לוגיסטי חוזה מספר. עם זאת, המספר הזה בדרך כלל הופך לחלק ממודל סיווג בינארי, באופן הבא:

במקרה שהמספר החזוי גבוה מסף הסיווג, מודל הסיווג הבינארי יוצר תחזית לגבי המחלקה החיובית.
במקרה שהמספר החזוי נמוך מסף הסיווג, מודל הסיווג הבינארי יוצר תחזית לגבי המחלקה השלילית.

פונקציות לוג'יט

הווקטור של תחזיות גולמיות (לא מנורמלות) שמודל סיווג יוצר, שבדרך כלל מועבר לפונקציית נירמול. במקרה שהמודל פותר בעיה בסיווג רב-מחלקות, פונקציות Logits בדרך כלל הופכות לקלט של הפונקציה softmax. לאחר מכן הפונקציה softmax יוצרת וקטור של הסתברויות (מנורמלות) עם ערך אחד לכל מחלקה אפשרית.

אובדן יומן

#fundamentals

פונקציית loss שמשמשת לרגרסיה לוגיסטית בינארית.

לוחצים על הסמל כדי לראות את החשבון.

הנוסחה הבאה מחשבת אובדן יומן:

$$\text{Log Loss} = \sum_{(x,y)\in D} -y\log(y') - (1 - y)\log(1 - y')$$

איפה:

$(x,y)\in D$ הוא מערך הנתונים שמכיל דוגמאות רבות עם תוויות, שהן $(x,y)$ צמדים.
$y$ הוא התווית בדוגמה עם תווית. מאחר שזו רגרסיה לוגיסטית, כל ערך של $y$ חייב להיות 0 או 1.
$y'$ הוא הערך החזוי (בין 0 ל-1, לא כולל), בהינתן קבוצת התכונות ב- $x$.

פונקציות יומן

#fundamentals

הלוגריתם של הסיכויים לאירוע מסוים.

לוחצים על הסמל כדי לראות את החשבון.

במקרה שהאירוע הוא הסתברות בינארית, הפונקציה odds מתייחסת ליחס בין ההסתברות להצלחה (p) להסתברות לכשל (1-p). לדוגמה, נניח שלאירוע נתון יש סבירות של 90% להצלחה, והסתברות של 10% לכשל. במקרה הזה, ההפרשים מחושבים באופן הבא:

$$ {\text{odds}} = \frac{\text{p}} {\text{(1-p)}} = \frac{.9} {.1} = {\text{9}} $$

האפשרויות בלוגריתם הן פשוט הלוגריתם של הסיכויים. במוסכמה, "לוגריתם" מתייחס ללוגריתם טבעי, אבל לוגריתם יכול להיות כל בסיס שגדול מ-1. בהתאם למוסכמות, הפרטים השגויים בדוגמה שלנו הם:

$$ {\text{log-odds}} = ln(9) ~= 2.2 $$

הפונקציה Log-odds היא ההופכי של הפונקציה סיגמואיד.

זיכרון ארוך לטווח קצר (LSTM)

#seq

סוג של תא ברשת נוירונים חוזרת המשמש לעיבוד רצפים של נתונים באפליקציות כמו זיהוי כתב יד, תרגום מכונה וכיתובי תמונות. תוספי LSTM מטפלים בבעיית ההדרגתיות הנעלמת שמתרחשת כשמבצעים אימון של רשתות RNN בגלל רצפי נתונים ארוכים, על ידי שמירת ההיסטוריה במצב זיכרון פנימי על סמך קלט חדש והקשר חדש מתאים קודמים ב-RNN.

LoRA

#language

#generativeAI

קיצור של התאמה בדירוג נמוך.

הפסד

#fundamentals

במהלך ההדרכה של המודל בפיקוח, זהו מדד למרחק החיזוי מהתווית של המודל.

פונקציית loss מחשבת את האובדן.

אתר אגרגטור להפסדים

סוג של אלגוריתם של למידת מכונה שמשפר את הביצועים של מודל על ידי שילוב החיזויים של מספר מודלים ושימוש בחיזויים האלה כדי לבצע חיזוי אחד. כתוצאה מכך, אתר אגרגטור הפסד יכול להפחית את השונות של התחזיות ולשפר את הדיוק של התחזיות.

עקומת אובדן

#fundamentals

תרשים של loss כפונקציה של מספר החזרות לאימון. בתרשים הבא מוצגת עקומת הפסד אופיינית:

גרף קרטזי של אובדן לעומת איטרציות אימון, שמראה
ירידה חדה בהפסד במהלך האיטרציות הראשוניות, ולאחר מכן ירידה
הדרגתית, ולאחר מכן שיפוע שטוח במהלך האיטרציות האחרונות.

עקומות אובדן יכולות לעזור לכם לקבוע מתי המודל מתמזג או מתאים יותר.

עקומות אובדן יכולות להציג את כל סוגי ההפסדים הבאים:

הפסד אימון
אובדן אימות
test Loss (הפסד בדיקה)

תוכלו לקרוא גם על עקומת ההכללה.

פונקציית אובדן

#fundamentals

במהלך אימון או בדיקה, פונקציה מתמטית שמחשבת את פונקציית האובדן באצווה של דוגמאות. פונקציית אובדן מחזירה אובדן נמוך יותר למודלים שמספקים חיזויים טובים, מאשר למודלים שמספקים חיזויים גרועים.

בדרך כלל מטרת האימון היא למזער את האובדן שפונקציית אובדן מחזירה.

קיימים סוגים רבים ושונים של פונקציות אובדן. בחרו את פונקציית האובדן המתאימה לסוג המודל שאתם בונים. למשל:

הפסד L₂ (או שגיאה בריבוע הממוצע) הוא פונקציית האובדן של רגרסיה לינארית.
Log Loss הוא פונקציית האובדן של רגרסיה לוגיסטית.

פלטפורמה להפסדים

תרשים של משקל או ירידה במשקל. המטרה של Gradient descent היא למצוא את המשקולות שעבורן משטח האובדן הוא לפחות מקומי.

התאמה בדירוג נמוך (LoRA)

#language

#generativeAI

אלגוריתם לביצוע כוונון יעיל בפרמטרים שמחדד רק קבוצת משנה של פרמטרים של מודל שפה גדול. אלה היתרונות של LoRA:

כוונון מהיר יותר מאשר טכניקות שדורשות כוונון עדין של כל הפרמטרים של המודל.
הפחתת עלות החישוב של הֶקֵּשׁ במודל הכוונון עדין.

מודל שעבר כוונון בעזרת LoRA שומר או משפר את איכות החיזויים שלו.

שיטת LoRA מאפשרת להפעיל מספר גרסאות מיוחדות של מודל.

LSTM

#seq

קיצור של זיכרון ארוך לטווח קצר.

M

למידת מכונה

#fundamentals

תוכנה או מערכת שמאמנות מודל מנתוני הקלט. המודל שעבר אימון יכול לספק תחזיות שימושיות מנתונים חדשים (שלא נצפו בעבר) שנלקחים מאותה התפלגות כמו זו ששימשה לאימון המודל.

למידת מכונה מתייחסת גם לתחום המחקר שרלוונטי לתוכניות או למערכות האלה.

מעמד הרוב

#fundamentals

התווית הנפוצה יותר במערך נתונים לא מאוזן לסיווג. לדוגמה, בהינתן מערך נתונים שמכיל 99% תוויות שליליות ו-1% תוויות חיוביות, התוויות השליליות הן סיווג הרוב.

להשוות אותו לערך של סיווג מיעוט.

תהליך ההחלטות של מרקוב (MDP)

#rl

תרשים שמייצג את מודל קבלת ההחלטות, שבו מתקבלות החלטות (או פעולות) כדי לנווט ברצף של מצבים, בהנחה שנכס מרקוב מכיל. בלמידת חיזוק, המעברים בין המצבים מחזירים תגמול מספרי.

נכס מרקוב

#rl

מאפיין של סביבות מסוימות, שבהן המעברים בין מצבים נקבעים לחלוטין על סמך מידע משתמע במצב הנוכחי והפעולה של הנציג.

מודל התממת שפה (MLM)

#language

מודל שפה שחוזה את ההסתברות שאסימונים מועמדים ימלאו תאים ריקים ברצף. לדוגמה, מודל התממת שפה יכול לחשב הסתברויות למילים מועמדות שיחליפו את הקו התחתון במשפט הבא:

ה-____ בכובע חזר.

בספרות נעשה בדרך כלל שימוש במחרוזת 'MASK' במקום בקו תחתון. למשל:

המילה "MASK" בכובע חזר.

רוב המודלים המודרניים של אנונימיזציה של שפה הם דו-כיווניים.

matplotlib

ספרייה בקוד פתוח להצגת תרשימים של Python 2D. matplotlib מאפשרת להמחיש היבטים שונים של למידת מכונה.

פירוק לגורמים של מטריצות

#recsystems

במתמטיקה, מנגנון למציאת מטריצות שמכפלת הנקודות שלהן קרובה למטריצת יעד.

במערכות המלצות, מטריצת היעד כוללת בדרך כלל את הדירוגים של המשתמשים בפריטים. לדוגמה, מטריצת היעד של מערכת המלצות על סרטים יכולה להיראות בערך כך, שבה המספרים השלמים החיוביים הם דירוגי משתמשים ו-0 פירושו שהמשתמש לא דרג את הסרט:

	קזבלנקה	הסיפור של פילדלפיה	הפנתר השחור	וונדר וומן	ספרות זולה
משתמש 1	5.0	3.0	0.0	2.0	0.0
משתמש 2	4.0	0.0	0.0	1.0	5.0
משתמש 3	3.0	1.0	4.0	5.0	0.0

מערכת ההמלצות על סרטים שואפת לחזות את דירוגי המשתמשים לסרטים ללא סיווג תוכן. לדוגמה, האם משתמש 1 כמו הפנתר השחור?

אחת הגישה למערכות של המלצות היא להשתמש בפקטורים של מטריצות כדי ליצור את שתי המטריצות הבאות:

מטריצת משתמשים, שמעוצבת כמספר המשתמשים X מספר מאפייני ההטמעה.
מטריצת פריטים, שמעוצבת כמספר מאפייני ההטמעה X מספר הפריטים.

לדוגמה, שימוש בפירוק לגורמים של מטריצות על שלושת המשתמשים וחמישה פריטים עלול להניב את מטריצת המשתמשים ואת מטריצת הפריטים הבאים:

User Matrix                 Item Matrix

1.1   2.3           0.9   0.2   1.4    2.0   1.2
0.6   2.0           1.7   1.2   1.2   -0.1   2.1
2.5   0.5

מכפלת הנקודות של מטריצת המשתמשים ומטריצת הפריטים יוצרת מטריצת המלצות שמכילה לא רק את דירוגי המשתמשים המקוריים, אלא גם את החיזויים לסרטים שכל משתמש לא ראה. לדוגמה, נניח שקיבלתם את הדירוג של משתמש 1 לקזבלנקה, שהוא 5.0. מכפלת הנקודות שתואמת לתא הזה במטריצת ההמלצות אמורה להיות בערך 5.0, והוא:

(1.1 * 0.9) + (2.3 * 1.7) = 4.9

חשוב מכך, האם משתמש 1 יהיה כמו הפנתר השחור? אם משתמשים במוצר עם הנקודות שתואם לשורה הראשונה ובעמודה השלישית, יתקבל דירוג חזוי של 4.3:

(1.1 * 1.4) + (2.3 * 1.2) = 4.3

פירוק לגורמים של מטריצות בדרך כלל יוצר מטריצת משתמשים ומטריצת פריטים, שביחד הם קומפקטיים הרבה יותר ממטריצת היעד.

שגיאה מוחלטת ממוצעת (MAE)

האובדן הממוצע לכל דוגמה, כשנעשה שימוש בהפסד L₁. חשבו את השגיאה האבסולוטית הממוצעת באופן הבא:

מחשבים את אובדן L₁ של אצווה.
מחלקים את ההפסד של L₁ במספר הדוגמאות באצווה.

לוחצים על הסמל כדי לראות את החישובים הרשמיים.

$$\text{Mean Absolute Error} = \frac{1}{n}\sum_{i=0}^n | y_i - \hat{y}_i |$$

איפה:

$n$ הוא מספר הדוגמאות.
$y$ הוא הערך בפועל של התווית.
$\hat{y}$ הוא הערך שהמודל חוזה עבור $y$.

לדוגמה, ראו את החישוב של אובדן L₁ מחמש הדוגמאות הבאות:

הערך בפועל של הדוגמה	הערך החזוי של המודל	אובדן (הבדל בין ממשי לבין חזוי)
7	6	1
5	4	1
8	‏11	3
4	6	2
9	8	1
		8 = הפסד של L₁

כלומר, הפסד של L₁ הוא 8 ומספר הדוגמאות הוא 5. לכן, השגיאה האבסולוטית הממוצעת היא:

Mean Absolute Error = L₁ loss / Number of Examples
Mean Absolute Error = 8/5 = 1.6

הניגוד בין ה'שגיאה האבסולוטית' הממוצעת לטעות הריבועית הממוצעת ולטעות הריבועית הבסיסית (Root).

שגיאה ריבועית ממוצעת (MSE)

האובדן הממוצע לכל דוגמה, כשנעשה שימוש בהפסד L₂. חשבו את השגיאה הריבועית הממוצעת באופן הבא:

מחשבים את ההפסד של L₂ באצווה.
מחלקים את ההפסד של L₂ במספר הדוגמאות באצווה.

לוחצים על הסמל כדי לראות את החישובים הרשמיים.

$$\text{Mean Squared Error} = \frac{1}{n}\sum_{i=0}^n {(y_i - \hat{y}_i)}^2$$ כאשר:

$n$ הוא מספר הדוגמאות.
$y$ הוא הערך בפועל של התווית.
$\hat{y}$ הוא החיזוי של המודל עבור $y$.

לדוגמה, יש להביא בחשבון את ההפסד בחבילה הבאה של חמש דוגמאות:

ערך בפועל	חיזוי המודל	הפסד	ריבוע 'הפסד'
7	6	1	1
5	4	1	1
8	‏11	3	9
4	6	2	4
9	8	1	1
			16 = הפסד של L₂

לכן, 'שגיאת הריבוע' הממוצעת היא:

Mean Squared Error = L₂ loss / Number of Examples
Mean Squared Error = 16/5 = 3.2

Mean Squared Error הוא אופטימיזציה פופולרית לאימון, במיוחד לרגרסיה לינארית.

הניגוד בין 'השגיאה הריבועית הממוצעת' לבין השגיאה האבסולוטית הממוצעת והשגיאה הבסיסית הריבועית.

ב-TensorFlow Playground נעשה שימוש ב-Mean Squared Error כדי לחשב ערכי אובדן.

אפשר ללחוץ על הסמל כדי לראות פרטים נוספים על ערכים של חריג חשוד טעות.

חריגים משפיעים מאוד על השגיאה הממוצעת בריבוע. לדוגמה, הפסד של 1 הוא הפסד של 1 בריבוע, אבל הפסד של 3 הוא הפסד של 9 בריבוע. בטבלה הקודמת, בדוגמה הבאה, אובדן של 3 חשבונות עבור כ-56% מהשגיאה הממוצעת בריבוע, וכל אחת מהדוגמאות עם אובדן של 1 מתייחסת רק ל-6% מהשגיאה הממוצעת בריבוע.

חריגות חריגות לא משפיעים על 'השגיאה האבסולוטית' הממוצעת כמו 'הטעות הריבועית הממוצעת'. לדוגמה, אובדן של 3 חשבונות של כ-38% בלבד מהשגיאה האבסולוטית הממוצעת.

Clipping היא אחת הדרכים למנוע פגיעה קיצונית ביכולת החיזוי של המודל.

רשת

#TensorFlow

#GoogleCloud

בתכנות מקבילות של למידת מכונה, מונח שקשור להקצאת הנתונים והמודל לצ'יפים של TPU, והגדרת האופן שבו הערכים האלה יפוצלו או ישוכפלו.

רשת היא מונח עמוס מדי, שיכול להיות בעל אחת מהאפשרויות הבאות:

פריסה פיזית של שבבי TPU.
מבנה לוגי מופשט למיפוי הנתונים והמודל לצ'יפים של TPU.

בכל מקרה, הרשת מצוינת כצורה.

מטא-למידה

#language

קבוצת משנה של למידת מכונה שמזהה או משפרת אלגוריתם למידת מכונה. מערכת מטא-למידה יכולה גם לנסות לאמן מודל ללמוד במהירות משימה חדשה מכמות קטנה של נתונים או מהניסיון שצברתם במשימות קודמות. אלגוריתמים של למידה חישובית בדרך כלל מנסים להשיג את הדברים הבאים:

לשפר או ללמוד תכונות בהנדסה ידנית (כמו מאתחל או אופטימיזציה).
להיות יעילים יותר בנתונים ולייעל את המחשוב.
שיפור ההכללה.

מטא-למידת מכונה קשורה ללמידה חלקית.

ערך

#TensorFlow

נתון סטטיסטי שחשוב לכם.

מטרה היא מדד שמערכת למידת מכונה מנסה לבצע לו אופטימיזציה.

Metrics API (tf.measures)

ממשק API של TensorFlow לצורך הערכת מודלים. לדוגמה, הפונקציה tf.metrics.accuracy קובעת את התדירות שבה החיזויים של המודל תואמים לתוויות.

מיני אצווה

#fundamentals

קבוצת משנה קטנה שנבחרה באופן אקראי של אצווה שמעובדת באיטרציה אחת. גודל האצווה הוא בדרך כלל בין 10 ל-1,000 דוגמאות.

לדוגמה, נניח שקבוצת האימון כולה (האצווה המלאה) כוללת 1,000 דוגמאות. בנוסף, נניח שהגדרתם את גודל האצווה של כל אצווה קטנה ל-20. לכן, כל איטרציה קובעת את האובדן ב-20 אקראיות מתוך 1,000 הדוגמאות, ולאחר מכן משנה את השקלולים וההטיות בהתאם.

הרבה יותר יעיל לחשב את האובדן על אצווה קטנה מאשר את ההפסד של כל הדוגמאות באצווה המלאה.

ירידה הדרגתית סטוכסטית מיני אצווה

אלגוריתם של ירידה הדרגתית שמשתמש ב-mini-batches. במילים אחרות, ירידה סטוכסטית קטנה יחסית מבצעת הערכה של ההדרגתיות על סמך קבוצת משנה קטנה של נתוני האימון. בירידה סטוכסטית הדרגתית נעשה שימוש בקובץ קטן בגודל 1.

הפסד מינימלי

פונקציית אובדן של רשתות למידה חישובית גנרטיבית, שמבוססת על ניתוח חוצה-אנטרופיה בין חלוקת הנתונים שנוצרים לבין התפלגות הנתונים האמיתיים.

במאמר הראשון מתארים את האובדן המינימלי של רשתות השיווק.

שיעור מיעוט

#fundamentals

התווית הפחות נפוצה במערך נתונים לא מאוזן לסיווג. לדוגמה, בהינתן מערך נתונים שמכיל 99% תוויות שליליות ו-1% תוויות חיוביות, התוויות החיוביות הן קבוצות מיעוט.

הניגודיות לערך של סיווג רוב.

כדי להציג הערות נוספות, לוחצים על הסמל.

קבוצת אימון עם מיליון דוגמאות נשמעת מרשים. עם זאת, אם שיעור המיעוט לא מיוצג כראוי, יכול להיות שגם קבוצת אימון גדולה מאוד לא תספיק. התמקדו פחות במספר הדוגמאות הכולל במערך הנתונים, ויותר במספר הדוגמאות בקבוצת המיעוט.

אם מערך הנתונים לא מכיל מספיק דוגמאות לסיווגים של קבוצות מיעוט, כדאי להשתמש ב-downssampleing (ההגדרה שמופיעה בתבליט השני) כתוספת למחלקת המיעוט.

ML

קיצור של למידת מכונה.

MNIST

#image

מערך נתונים בדומיין ציבורי שהורכב על ידי LeCun, Cortes ו-Burse ומכיל 60,000 תמונות. כל תמונה מראה איך אדם כתב ספרה מסוימת באופן ידני בין 0 ל-9. כל תמונה מאוחסנת כמערך 28x28 של מספרים שלמים, כאשר כל מספר שלם הוא ערך בגווני אפור בין 0 ל-255, כולל.

MNIST הוא מערך נתונים קנוני ללמידת מכונה, שמשמש לעיתים קרובות לבדיקת גישות חדשות של למידת מכונה. מידע נוסף מופיע במאמר מסד הנתונים MNIST של ספרות בכתב יד.

שיטה

#language

קטגוריה של נתונים ברמה גבוהה. לדוגמה, מספרים, טקסט, תמונות, וידאו ואודיו הם חמש שיטות שונות.

model

#fundamentals

באופן כללי, כל מבנה מתמטי שמעבד נתוני קלט ומחזיר פלט. בניסוח שונה, מודל הוא קבוצת הפרמטרים והמבנה שדרושים למערכת כדי ליצור חיזויים. בלמידת מכונה מפוקחת, המודל לוקח דוגמה כקלט ומסיק חיזוי כפלט. המודלים של למידת מכונה מבוקרת שונים מעט. למשל:

מודל רגרסיה לינארי מורכב מקבוצה של משקלים והטיה.
מודל של רשת נוירונים כולל:
- קבוצה של שכבות מוסתרות, שכל אחת מהן מכילה נוירונים אחד או יותר.
- המשקולות וההטיות שקשורות לכל נוירון.
מודל של עץ החלטות כולל:
- צורת העץ. כלומר, התבנית שבה התנאים והעלים מחוברים.
- התנאים והעלים.

אפשר לשמור מודל, לשחזר אותו או ליצור עותקים שלו.

למידת מכונה ללא פיקוח יוצרת גם מודלים, בדרך כלל פונקציה שיכולה למפות דוגמת קלט לאשכול המתאים ביותר.

צריך ללחוץ על הסמל כדי להשוות בין פונקציות אלגבריות ותכנות למודלים של למידת מכונה.

פונקציה אלגברית כמו בדוגמה הבאה היא מודל:

  f(x, y) = 3x -5xy + y² + 17

הפונקציה הקודמת ממפה את ערכי הקלט (x ו-y) לפלט.

באופן דומה, גם פונקציית תכנות כמו בדוגמה הבאה היא מודל:

def half_of_greater(x, y):
  if (x > y):
    return(x / 2)
  else
    return(y / 2)

מבצע הקריאה החוזרת מעביר ארגומנטים לפונקציית Python הקודמת, והפונקציה של Python יוצרת פלט (דרך הצהרת return).

למרות שהמבנה המתמטי של רשת נוירונים עמוקה שונה מאוד מהמבנה המתמטי באלגברה או בפונקציית תכנות, רשת נוירונים עמוקה עדיין מקבלת קלט (דוגמה) ומחזירה פלט (חיזוי).

מתכנת אנושי מקודד פונקציה בתכנות באופן ידני. לעומת זאת, מודל למידת מכונה לומד בהדרגה את הפרמטרים האופטימליים במהלך האימון האוטומטי.

קיבולת המודל

המורכבות של הבעיות שהמודל יכול ללמוד. ככל שהבעיות שהמודל יכול ללמוד מורכבות יותר, כך הקיבולת שלו גבוהה יותר. בדרך כלל הקיבולת של המודל הולכת וגדלה ככל שמספר הפרמטרים של המודל גדל. ההגדרה הרשמית של קיבולת המסווג זמינה במאמר מאפיין VC.

דירוג לפי מודל

#generativeAI

מערכת שבוחרת את model האידיאלי לשאילתה ספציפית להסקה.

נניח שיש לכם קבוצה של מודלים – מגדול מאוד (פרמטרים רבים) למודלים הרבה יותר קטנים (הרבה פחות פרמטרים). מודלים גדולים מאוד צורכים יותר משאבי חישובי בזמן ההסקה מאשר מודלים קטנים יותר. עם זאת, מודלים גדולים מאוד יכולים בדרך כלל להסיק בקשות מורכבות יותר ממודלים קטנים יותר. הדירוג של המודלים קובע את המורכבות של שאילתת ההסקה, ואז בוחר את המודל המתאים לביצוע ההסקה. המוטיבציה העיקרית של התאמת המודלים היא לצמצם את עלויות ההסקה, על ידי בחירה במודלים קטנים יותר ובחירה במודל גדול יותר לשאילתות מורכבות יותר.

תארו לעצמכם שמודל קטן פועל בטלפון וגרסה גדולה יותר של המודל הזה פועלת בשרת מרוחק. דירוג טוב של מודל טוב מפחית את העלות ואת זמן האחזור בכך שהוא מאפשר למודל הקטן יותר לטפל בבקשות פשוטות, וקריאה למודל המרוחק בלבד לטפל בבקשות מורכבות.

למידע נוסף על דגם של נתב

מקביליות של מודלים

#language

דרך להתאים לעומס את האימון או להסקת מסקנות, שמציבה חלקים שונים של model אחד בmodel שונים. במקבילות של מודלים מאפשרת למודלים שגדולים מדי מכדי להתאים למכשיר יחיד.

כדי ליישם מקביליות של מודלים, בדרך כלל המערכת מבצעת את הפעולות הבאות:

פיצול (מחלק) את המודל לחלקים קטנים יותר.
מחלק את האימון של החלקים הקטנים יותר בין מספר מעבדים. כל מעבד מתאמן חלק משלו במודל.
שילוב התוצאות כדי ליצור מודל יחיד.

במקבילות של מודל מאטה את האימון.

אפשר לקרוא גם על מקביליות של נתונים.

נתב מודל

#generativeAI

האלגוריתם שקובע את model האידיאלי לmodel בmodel. נתב לדוגמה הוא בדרך כלל מודל של למידת מכונה שלומד בהדרגה איך לבחור את המודל הטוב ביותר לקלט נתון. עם זאת, לפעמים נתב לדוגמה יכול להיות אלגוריתם פשוט יותר של למידה שלא מכונה.

אימון מודלים

התהליך של קביעת model הטוב ביותר.

מומנטום

אלגוריתם מתוחכם של ירידה הדרגתית, שבו שלב למידה תלוי לא רק בנגזרת של השלב הנוכחי, אלא גם בנגזרות של השלבים שקדמו לו. מומנטום כולל חישוב ממוצע נע משוקלל באופן אקספוננציאלי של ההדרגתיות לאורך זמן, שאנלוגי למומנטום בפיזיקה. לפעמים המומנטום מונע מהלמידה להיתקע במינימום המקומי.

סיווג מרובה-סיווגים

#fundamentals

בלמידה מונחית, בעיית סיווג שבה מערך הנתונים מכיל יותר משתי סיווגים של תוויות. לדוגמה, התוויות במערך הנתונים של Iris חייבות להיות אחת משלוש המחלקות הבאות:

איריס סטוסה
איריס וירג'יקה
קשתית בצבעי הקשת

מודל שאומן על מערך הנתונים של Iris שחוזה את הסוג של Iris על סמך דוגמאות חדשות, מבצע סיווג מרובה מחלקות.

לעומת זאת, בעיות סיווג שמבדילות בין שתי מחלקות בדיוק הן מודלים בינאריים של סיווג. לדוגמה, מודל אימייל שחוזה ספאם או לא ספאם הוא מודל סיווג בינארי.

בבעיות אשכולות, סיווג מרובה מחלקות מתייחס ליותר משני אשכולות.

רגרסיה לוגיסטית מרובת סיווגים

שימוש ברגרסיה לוגיסטית בבעיות שקשורות לסיווג מרובה-מחלקות.

קשב עצמי עם ריבוי ראשים

#language

תוסף של קשב עצמי שמפעיל את מנגנון הקשב העצמי כמה פעמים על כל מיקום ברצף הקלט.

טרנספורמרים כוללים את התכונה של קשב עצמי עם ריבוי ראשים.

מודל מרובה מצבים

#language

מודל שהקלט ו/או הפלט שלו כוללים יותר ממודל אחד. לדוגמה, נניח שמודל שמקבל גם תמונה וגם כיתוב של טקסט (שתי שיטות) כתכונות, ומפיק ציון שמציין עד כמה כיתוב הטקסט מתאים לתמונה. כלומר, מקורות הקלט של המודל הזה הם מרובי מצבים, והפלט הוא אחיד.

סיווג פולינומי

מילה נרדפת לסיווג מרובה מחלקות.

רגרסיה פולינומית

מילה נרדפת לרגרסיה לוגיסטית מרובת מחלקות.

ריבוי משימות

שיטה של למידת מכונה שבה model יחיד עבר אימון לבצע כמה model.

מודלים של ריבוי משימות נוצרים על ידי אימון על נתונים שמתאימים לכל אחת מהמשימות השונות. כך המודל ילמד לשתף מידע בין המשימות, וכך הוא יוכל ללמוד בצורה יעילה יותר.

מודל שאומן לביצוע כמה משימות בדרך כלל שיפר את יכולות ההכללה, והוא יכול להיות חזק יותר בטיפול בסוגים שונים של נתונים.

לא

מלכודת NaN

כשמספר אחד במודל הופך ל-NaN במהלך האימון, וכתוצאה מכך הרבה מספרים או כל המספרים האחרים במודל הופכים בסופו של דבר ל-NaN.

NaN הוא קיצור של N a Number.

הבנת שפה טבעית (NLU)

#language

זיהוי כוונות המשתמש על סמך מה שהוא הקליד או אמר. לדוגמה, מנוע חיפוש משתמש בהבנת שפה טבעית (NLP) כדי לקבוע מה המשתמש מחפש על סמך מה שהוא הקליד או אמר.

סיווג להחרגה

#fundamentals

בסיווג בינארי, מחלקה אחת נקראת חיובי והשנייה נקראת שלילית. המחלקה החיובית היא הדבר או האירוע שהמודל בודק לגביהם, והסיווג השלילי הוא האפשרות הנוספת. למשל:

הסיווג השלילי בבדיקה רפואית עשוי להיות "לא גידול".
הסיווג השלילי במסווג אימייל עשוי להיות 'לא ספאם'.

הניגודיות לערך של סיווג חיובי.

דגימה שלילית

מילה נרדפת לדגימת מועמד.

Neural Architecture Search (NAS)

שיטה לתכנון אוטומטי של הארכיטקטורה של רשת נוירונים. אלגוריתמי NAS יכולים להפחית את כמות הזמן והמשאבים הנדרשים לאימון רשת נוירונים.

בדרך כלל משתמשים בשירות NAS:

מרחב חיפוש, שהוא קבוצה של ארכיטקטורות אפשריות.
פונקציית כושר, שהיא מדד לטיב הביצועים של ארכיטקטורה מסוימת במשימה נתונה.

האלגוריתמים של NAS מתחילים לעיתים קרובות בקבוצה קטנה של ארכיטקטורות אפשריות, ובהדרגה מרחיבים את מרחב החיפוש ככל שהאלגוריתם לומד יותר מהן הארכיטקטורות היעילות. פונקציית הכושר מבוססת בדרך כלל על ביצועי הארכיטקטורה בערכת אימונים, והאלגוריתם בדרך כלל מאומן באמצעות למידת חיזוק.

האלגוריתמים של NAS הוכיחו את עצמם באופן יעיל באיתור ארכיטקטורות עם ביצועים גבוהים למגוון משימות, כולל סיווג תמונות של תמונות, סיווג טקסטים ותרגום אוטומטי.

רשת הזרימה קדימה

#fundamentals

model שמכיל לפחות model אחת. רשת נוירונים עמוקה היא סוג של רשת נוירונים שמכילה יותר משכבה נסתרת אחת. לדוגמה, בתרשים הבא מוצגת רשת נוירונים עמוקה שמכילה שתי שכבות נסתרות.

רשת נוירונים עם שכבת קלט, שתי שכבות מוסתרות ושכבת פלט.

כל נוירון ברשת נוירונים מתחבר לכל הצמתים בשכבה הבאה. לדוגמה, בתרשים הקודם, שימו לב שכל אחד משלושת הנוירונים בשכבה המוסתרת הראשונה מתחברים בנפרד לשני הנוירונים בשכבה המוסתרת השנייה.

רשתות נוירונים שמוטמעות במחשבים נקראות לפעמים רשתות נוירונים מלאכותיות, על מנת להבדיל בינן לבין רשתות נוירונים שנמצאות במוח ובמערכות עצבים אחרות.

רשתות נוירונים מסוימות יכולות לחקות קשרים לא ליניאריים מורכבים מאוד בין תכונות שונות לבין התווית.

למידע נוסף, ראו רשת עצבית מתקפלת ורשת נוירונים חוזרת.

נוירונים

#fundamentals

בלמידת מכונה, יחידה ייחודית בתוך שכבה מוסתרת של רשת נוירונים. כל נוירון מבצע את הפעולה הדו-שלבית הבאה:

הפונקציה מחשבת את הסכום המשוקלל של ערכי הקלט כפול המשקולות שלהם.
הפונקציה מחזירה את הסכום המשוקלל כקלט לפונקציית הפעלה.

נוירון בשכבה המוסתרת הראשונה מקבל קלט מערכי התכונות בשכבת הקלט. נוירון בכל שכבה נסתרת מחוץ לראשונה מקבל קלט מהנוירונים בשכבה המוסתרת הקודמת. לדוגמה, נוירון בשכבה המוסתרת השנייה מקבל קלט מהנוירונים בשכבה המוסתרת הראשונה.

באיור הבא מדגישים שני נוירונים ואת הקלט שלהם.

רשת נוירונים עם שכבת קלט, שתי שכבות מוסתרות ושכבת פלט. שני נוירונים מודגשים: אחד בשכבה המוסתרת הראשונה והשני בשכבה המוסתרת. הנוירון המודגש בשכבה המוסתרת הראשונה מקבל קלט משתי התכונות בשכבת הקלט. הנוירון המודגש בשכבה המוסתרת השנייה מקבל קלט מכל אחד משלושת הנוירונים בשכבה המוסתרת הראשונה.

נוירונים ברשת נוירונים מחקה את ההתנהגות של נוירונים במוח ובחלקים אחרים של מערכות העצבים.

N-גרם

#seq

#language

רצף סדור של N מילים. לדוגמה, הכיתוב באמת מטורף הוא 2 גרם. בגלל שסדר הוא רלוונטי, אז הערך באמת מטורף הוא 2 גרם שונה ממה שבאמת מטורף.

לא	שמות לסוג N-gram	דוגמאות
2	Bigram או 2 גרם	ללכת, ללכת, לאכול ארוחת צהריים, לאכול ארוחת ערב
3	טריגרם או 3 גרם	אכלתם יותר מדי, שלושה עכברים עיוורים, פעמוניות
4	4 גרם	ללכת בפארק, אבק ברוח, הילד אכל עדשים

מודלים רבים של הבנת שפה טבעית מסתמכים על N-gram כדי לחזות את המילה הבאה שהמשתמש יקליד או יאמר. לדוגמה, נניח שמשתמש הקליד שלושה עיוורים. סביר להניח שמודל NLU שמבוסס על טריגרים יחזה שהמשתמש יקליד עכברים.

השוו בין גרם N לתיק מילים, שהן קבוצות לא מסודרות של מילים.

NLU

#language

קיצור של הבנת שפה טבעית (NLP).

צומת (עץ החלטות)

#df

בעץ החלטות, כל תנאי או עלה.

עץ החלטות עם שני תנאים ושלושה עלים.

צומת (רשת נוירונים)

#fundamentals

נוירון בשכבה נסתרת.

צומת (תרשים TensorFlow)

#TensorFlow

פעולה בגרף של TensorFlow.

רעש

באופן כללי, כל מה שמסתיר את האות במערך נתונים. אפשר להוסיף רעש לנתונים במגוון דרכים. למשל:

מדרגים אנושיים עושים טעויות בסיווג.
בני אדם וכלים מתעדים באופן שגוי או משמיטים ערכי תכונות.

תנאי לא בינארי

#df

מצב שמכיל יותר משתי תוצאות אפשריות. לדוגמה, התנאי הלא-בינארי הבא מכיל שלוש תוצאות אפשריות:

תנאי (number_of_legs = ?) שמוביל לשלוש תוצאות אפשריות. תוצאה אחת (number_of_legs = 8) מובילה לעלה
שנקרא עכביש. תוצאה שנייה (number_of_legs = 4) מובילה
לעלה בשם כלב. תוצאה שלישית (number_of_legs = 2) מובילה
לעלה בשם פינגווין.

לא ליניארי

#fundamentals

קשר בין שני משתנים או יותר שאי אפשר לייצג רק באמצעות חיבור וכפל. אפשר לייצג קשר לינארי כקו. אי אפשר לייצג קשר לא לינארי כקו. לדוגמה, נבחן שני מודלים שמקשרים בין תכונה אחת לתווית אחת. המודל משמאל הוא לינארי והמודל מימין הוא לא ליניארי:

שתי עלימות. חלק אחד הוא קו, ולכן זהו קשר ליניארי.
התרשים השני הוא עקומה, כך שמדובר בקשר לא ליניארי.

הטיה של אי-תגובה

#fairness

למידע נוסף על הטיית הבחירות.

לא סטייה

#fundamentals

תכונה שהערכים שלה משתנים במאפיין אחד או יותר, בדרך כלל זמן. לדוגמה, שימו לב לדוגמאות הבאות של נאמנות לא אזרחית:

מספר בגדי ים שנמכרים בחנות מסוימת משתנה בהתאם לעונה.
כמות הפירות הנקצרים באזור מסוים היא אפס ברוב השנה, אבל לפרק זמן קצר.
עקב שינויי האקלים, הטמפרטורות הממוצעות השנתיות משתנות.

הניגודיות של המשרד.

נירמול

#fundamentals

באופן כללי, זהו תהליך ההמרה של טווח הערכים בפועל של משתנה לטווח ערכים סטנדרטי, כמו:

-1 עד +1
0 על 1
את ההתפלגות הנורמלית

לדוגמה, נניח שטווח הערכים בפועל של תכונה מסוימת הוא 800 עד 2,400. במסגרת הנדסת תכונות, אפשר לנרמל את הערכים בפועל עד לטווח סטנדרטי, כמו -1 עד +1.

נורמליזציה היא משימה נפוצה בהנדסת תכונות. מודלים בדרך כלל מתאמנים מהר יותר (ויוצרים חיזויים טובים יותר) כשלכל תכונה מספרית בוקטור התכונות יש פחות או יותר אותו טווח.

זיהוי חידושי

תהליך הקביעה אם דוגמה חדשה (חדשה) מגיעה מאותה הפצה של ערכת האימון. במילים אחרות, אחרי אימון בערכת האימון, זיהוי החדשנות קובע אם דוגמה חדשה (תוך הסקת מסקנות או במהלך אימון נוסף) היא יוצאת מן הכלל.

הניגוד לזיהוי חיצוני.

נתונים מספריים

#fundamentals

תכונות מיוצגות כמספרים שלמים או כמספרים בעלי ערך אמיתי. לדוגמה, מודל של הערכת בית כנראה מייצג את גודל הבית (במטרים רבועים או במטרים רבועים) כנתונים מספריים. הצגת תכונה כנתונים מספריים מציינת שלערכי התכונה יש קשר מתמטי לתווית. כלומר, למספר המטרים רבועים בבית יש ככל הנראה קשר מתמטי כלשהו לערך של הבית.

לא כל הנתונים במספרים שלמים צריכים להיות מיוצגים כנתונים מספריים. לדוגמה, בחלקים מסוימים בעולם מספרי מיקוד הם מספרים שלמים. עם זאת, מספרי מיקוד שלמים לא צריכים להיות מיוצגים כנתונים מספריים במודלים. הסיבה לכך היא שהמיקוד של 20000 אינו בעל עוצמה כפולה (או חצי) ממיקוד של 10000. בנוסף, למרות שמספרי מיקוד שונים תואמים לערכי נדל"ן שונים, אנחנו לא יכולים להניח שערכי הנדל"ן במיקוד 20000 חשובים פי שניים מערכי הנדל"ן במיקוד 10000. במקום זאת, המיקוד צריך להיות מיוצג כנתונים קטגוריים.

תכונות מספריות נקראות לפעמים תכונות רציפות.

NumPy

ספריית מתמטיקה בקוד פתוח שמספקת פעולות מערך יעילות ב-Python. פנדות מבוססות על NumPy.

O

יעד

מדד שהאלגוריתם שלך מנסה לבצע אופטימיזציה.

פונקציית מטרה

הנוסחה המתמטית או המדד שהמודל מנסה לבצע בו אופטימיזציה. לדוגמה, פונקציית המטרה של רגרסיה לינארית היא בדרך כלל Mean Squared Loss. לכן, כשמאמנים מודל רגרסיה לינארית, המטרה של האימון היא למזער את הערך של 'אובדן ריבוע' הממוצע.

במקרים מסוימים, היעד הוא למקסם את פונקציית היעד. לדוגמה, אם פונקציית היעד היא דיוק, המטרה היא למקסם את הדיוק.

ראו גם הפסד.

מצב עקום

#df

בעץ החלטות, תנאי שכולל יותר מתכונה אחת. לדוגמה, אם גובה ורוחב הם שתי תכונות, התנאי הבא הוא תנאי נטול:

  height > width

הניגודיות של תנאי יישור לציר.

אופליין

#fundamentals

מילה נרדפת לסטטי.

מסקנות אופליין

#fundamentals

התהליך של מודל שיוצר קבוצה של חיזויים ולאחר מכן שומר את החיזויים האלה במטמון (שמירה). לאחר מכן האפליקציות יכולות לגשת לחיזוי שהוסק מהמטמון במקום להריץ מחדש את המודל.

לדוגמה, כדאי להשתמש במודל שיוצר תחזיות מזג אוויר מקומיות (חיזויים) פעם בארבע שעות. אחרי כל הרצה של מודל, המערכת שומרת במטמון את כל תחזיות מזג האוויר המקומיות. אפליקציות מזג אוויר מאחזרות את התחזיות מהמטמון.

הסקת מסקנות אופליין נקראת גם הסקה סטטית.

בניגוד להשערות אונליין.

קידוד בחום אחיד

#fundamentals

ייצוג נתונים קטגוריים כווקטור שבו:

רכיב אחד מוגדר ל-1.
כל שאר הרכיבים מוגדרים כ-0.

קידוד חד-פעמי משמש בדרך כלל לייצוג מחרוזות או מזהים שיש להם קבוצה סופית של ערכים אפשריים. לדוגמה, נניח שלתכונה קטגורית מסוימת בשם Scandinavia יש חמישה ערכים אפשריים:

"דנמרק"
"שוודיה"
"נורווגיה"
"פינלנד"
'איסלנד'

קידוד חם אחד יכול לייצג כל אחד מחמשת הערכים באופן הבא:

country	וקטור
"דנמרק"	1	0	0	0	0
"שוודיה"	0	1	0	0	0
"נורווגיה"	0	0	1	0	0
"פינלנד"	0	0	0	1	0
'איסלנד'	0	0	0	0	1

הודות לקידוד בוהק אחד, המודל יכול ללמוד חיבורים שונים לפי כל אחת מחמש המדינות.

ייצוג של תכונה כנתונים מספריים הוא חלופה לקידוד חד-פעמי. לצערי, ייצוג מספרי של המדינות הסקנדינביות הוא לא בחירה טובה. לדוגמה, כדאי לשקול את הייצוג המספרי הבא:

הערך של "דנמרק" הוא 0
"Sweden" הוא 1
'נורווגיה' הוא 2
'פינלנד' היא 3
'איסלנד' היא 4

בעזרת קידוד מספרי, מודל יפרש את המספרים הגולמיים באופן מתמטי וינסה לאמן את המספרים האלה. עם זאת, איסלנד לא גדולה פי שניים (או חצי) מנורווגיה, כך שהמודל יסיק מסקנות מוזרות.

למידה בדוגמה אחת

גישה של למידת מכונה שמשמשת לעיתים קרובות לסיווג אובייקטים, שנועדה ללמוד מסווגים אפקטיביים מדוגמה אחת לאימון.

תוכלו להיעזר גם בלמידה עם כמה דוגמאות ובלמידה מאפס.

הנחיות בנוסחה אחת

#language

#generativeAI

הודעה שמכילה דוגמה אחת שממחישה איך צריך להגיב מודל שפה גדול (LLM). לדוגמה, ההנחיה הבאה מכילה דוגמה אחת למודל שפה גדול (LLM) שבו הוא צריך לענות על שאילתה.

חלקים מהנחיה אחת	הערות
`מהו המטבע הרשמי של המדינה שצוינה?`	השאלה שעליה אתם רוצים שה-LLM יענה.
`צרפת: EUR`	דוגמה אחת.
`הודו:`	השאילתה עצמה.

השוו והבדילו בין יצירת הנחיות מדוגמה אחת לבין המונחים הבאים:

יצירת הנחיות מאפס
יצירת הנחיות מכמה דוגמאות

אחד נגד כולם

#fundamentals

במקרה שיש בעיית סיווג עם N מחלקות, פתרון שמורכב מ-N מסווגים בינאריים נפרדים – מסווג בינארי אחד לכל תוצאה אפשרית. לדוגמה, בהינתן מודל שמסווג דוגמאות לבעלי חיים, לירקות או למינרלים, פתרון של 'אחד לעומת כולם' יספק את שלושת המסווגים הבינאריים הנפרדים הבאים:

בעל חיים לעומת לא בעל חיים
ירקות לעומת לא ירקות
מינרל לעומת לא מינרל

online

#fundamentals

מילה נרדפת ל-dynamic (דינמי).

מסקנה אונליין

#fundamentals

יצירת תחזיות על פי דרישה. לדוגמה, נניח שאפליקציה מעבירה קלט למודל ומנפיקה בקשה לחיזוי. מערכת שמשתמשת בהֶקֵּשׁ אונליין מגיבה לבקשה באמצעות הרצת המודל (והחזרת החיזוי לאפליקציה).

בניגוד להסקת מסקנות אופליין.

פעולה (op)

#TensorFlow

ב-TensorFlow, כל תהליך שיוצר, משנה או משמיד Tensor, לדוגמה, הכפלה של מטריצה היא פעולה שמקבלת שני tensor כקלט ויוצרת Tensor אחד כפלט.

מס תפעול

ספריית עיבוד הדרגתית ואופטימיזציה עבור JAX. Optax מסייע למחקר באמצעות אבני בניין שאפשר לשלב מחדש בדרכים מותאמות אישית כדי לבצע אופטימיזציה של מודלים פרמטריים, כמו רשתות נוירונים עמוקות. יעדים נוספים:

מתן הטמעות יעילות, יעילות וקריאה של רכיבי ליבה.
שיפור הפרודוקטיביות באמצעות האפשרות לשלב רכיבים ברמה נמוכה באופטימיזציות מותאמות אישית (או ברכיבים אחרים של עיבוד הדרגתי).
האצת תהליך האימוץ של רעיונות חדשים על ידי כך שכל אחד יכול לתרום בקלות.

אופטימיזציה

הטמעה ספציפית של האלגוריתם ירידה הדרגתית. חלק משיטות האופטימיזציה הפופולריות כוללות:

AdaGrad, ראשי תיבות של ADAptive GRADient descent.
Adam, ראשי תיבות של ADAptive עם מומנטום.

הטיה הומוגנית מחוץ לקבוצה

#fairness

הנטייה לראות את חברי הקבוצה כשונים יותר מאשר חברי קבוצה כשמשווים בין גישות, ערכים, תכונות אישיות ומאפיינים אחרים. in-group מתייחס לאנשים שיש לך אינטראקציה איתם באופן קבוע. out-group מתייחס לאנשים שלא מנהלים איתם אינטראקציה באופן קבוע. אם יוצרים מערך נתונים ומבקשים מאנשים לספק מאפיינים של קבוצות מחוץ לקבוצות, ייתכן שהמאפיינים האלה יהיו פחות ניואנסים וסטריאוטיפיים יותר מהמאפיינים שהמשתתפים מפרטים עבור אנשים בקבוצה שלהם.

לדוגמה, תושבי ליליפוטים יכולים לתאר את בתייהם של ליליפוטים אחרים בפירוט, ולציין הבדלים קטנים בסגנונות הארכיטקטוניים, בחלונות, בדלתות ובגדלים. עם זאת, אותם ליליפוטים עשויים פשוט להכריז שכולם מתגוררים בבתים זהים.

הטיה הומוגנית מחוץ לקבוצה היא סוג של הטיה של שיוך קבוצתי.

כדאי גם לקרוא על הטיה בתוך הקבוצה.

זיהוי של חריג חשוד טעות

תהליך הזיהוי של חריגים בערכת אימון.

הניגוד לזיהוי חידוש.

חריגות

הערכים רחוקים מרוב הערכים האחרים. בלמידת מכונה, כל אחד מהבעיות הבאות הוא יוצא מן הכלל:

נתוני קלט שהערכים שלהם הם יותר מ-3 סטיות תקן מהממוצע.
משקלים עם ערכים מוחלטים גבוהים.
הערכים החזויים רחוקים יחסית מהערכים בפועל.

לדוגמה, נניח ש-widget-price הוא תכונה של מודל מסוים. נניח שהממוצע של widget-price הוא 7 אירו עם סטיית תקן של 1 אירו. לכן, דוגמאות שמכילות widget-price של 12 אירו או 2 אירו ייחשבו כחריגות, כי כל אחד מהמחירים האלה מכיל חמש סטיות תקן מהממוצע.

חריגות בולטות נגרמות לעיתים קרובות משגיאות הקלדה או משגיאות אחרות בקלט. במקרים אחרים, חריגות אינן טעויות. אחרי הכול, ערכים של חמש סטיות תקן מהממוצע הם נדירים, אבל קשה מאוד ליישם.

חריגות חריגות בדרך כלל גורמים לבעיות באימון מודלים. קליפ הוא אחת הדרכים לניהול חריגים.

הערכה "מחוץ לתיק" (הערכת OOB)

#df

מנגנון להערכת האיכות של יער החלטות על ידי בדיקה של כל עץ החלטות מול הדוגמאות לא שנעשה בהן שימוש במהלך ההדרכה של עץ ההחלטות הזה. לדוגמה, בתרשים הבא, שימו לב שהמערכת מאמנת כל עץ החלטות לפי שני שליש מהדוגמאות, ואז מבצעת הערכה ביחס לשליש הנותרים מהדוגמאות.

יער החלטות שמורכב משלושה עצי החלטה.
עץ החלטות אחד מתאמן על שני שליש מהדוגמאות
ואז משתמש בשליש הנותר להערכת OOB.
עץ החלטות שני מאמן על שני שלישים שונים
מהדוגמאות של עץ ההחלטות הקודם, ולאחר מכן
משתמש בשליש אחר להערכת OOB לעומת עץ ההחלטות הקודם.

הערכה "מחוץ לתיק" היא הערכה יעילה מבחינה חישובית של מנגנון אימות צולב. בתהליך של אימות צולב, אימון של מודל אחד לכל סבב של אימות צולב (לדוגמה, 10 מודלים עוברים אימון של 10 מודלים של אימות צולב). עם הערכת OOB, מודל יחיד מאומן. מכיוון שקיבוץ נתונים מונע נתונים מסוימים מכל עץ במהלך האימון, הערכת ה-OOB יכולה להשתמש בנתונים האלה כדי להעריך אימות צולב.

שכבת פלט

#fundamentals

השכבה 'האחרונה' של רשת נוירונים. שכבת הפלט מכילה את החיזוי.

באיור הבא מוצגת רשת נוירונים עמוקה קטנה עם שכבת קלט, שתי שכבות נסתרות ושכבת פלט:

התאמת יתר (overfitting)

#fundamentals

יצירת model שתואם לmodel עד כדי כך שהמודל לא מצליח לספק תחזיות נכונות לגבי נתונים חדשים.

העברה סדירה עשויה להפחית התאמת יתר. אימון סדרת אימונים גדולה ומגוונת יכולה גם לצמצם עומס יתר.

כדי להציג הערות נוספות, לוחצים על הסמל.

הוספת יתרון דומה ליישום קפדני של עצות רק מהמורה האהוב עליכם. סביר להניח שתצליחו בכיתה של המורה הזה, אבל ייתכן שתצליחו "לנצל טוב" את הרעיונות של אותו המורה ותיכשלו בכיתות אחרות. אם תיישמו עצות ממגוון מורים, תוכלו להסתגל טוב יותר למצבים חדשים.

דגימת יתר

שימוש חוזר בדוגמאות של כיתת מיעוט במערך נתונים לא מאוזן מבחינה כיתתית כדי ליצור קבוצת אימון מאוזנת יותר.

לדוגמה, חשבו על בעיה של סיווג בינארי שבה היחס בין סיווג הרוב לבין מחלקת מיעוט הוא 5,000:1. אם מערך הנתונים מכיל מיליון דוגמאות, מערך הנתונים מכיל רק כ-200 דוגמאות של מעמד המיעוט, והן עלולות להיות מעט מדי דוגמאות לאימון אפקטיבי. כדי להתגבר על המחסור הזה יכול להיות ש-200 הדוגמאות ידגישו את 200 הדוגמאות האלה יותר מדי פעמים, ויכול להיות שיניבו מספיק דוגמאות להדרכה שימושית.

כשמבצעים דגימת יתר, חשוב להפעיל שיקול דעת לגבי הוספת יתר.

בניגוד לדגימה נמוכה.

P

נתונים דחוסים

גישה לאחסון נתונים בצורה יעילה יותר.

נתונים ארוזים מאחסנים נתונים בפורמט דחוס או בדרך אחרת שמאפשרת לגשת אליהם בצורה יעילה יותר. השימוש בנתונים ארוזים מפחית את כמות הזיכרון והחישובים הדרושים כדי לגשת אליהם, וכך מאפשר אימון מהיר יותר והסקת מסקנות יעילה יותר מהמודל.

הרבה פעמים משתמשים בנתונים ארוזים בשיטות אחרות, כמו הגדלת נתונים ורפליקציה, כדי לשפר עוד יותר את הביצועים של מודלים.

פנדות

#fundamentals

API לניתוח נתונים מוכוון עמודות שמבוסס על numpy. מסגרות רבות של למידת מכונה, כולל TensorFlow, תומכות במבני נתונים של פנדות כקלט. למידע נוסף, תוכלו לקרוא את התיעוד של פנדות.

פרמטר

#fundamentals

המשקלים וההטיות שהמודל לומד במהלך האימון. לדוגמה, במודל רגרסיה לינארית, הפרמטרים כוללים את ההטיות (b) ואת כל המשקולות (w₁, w₂, וכן הלאה) בנוסחה הבאה:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

לעומת זאת, היפר-פרמטר הוא הערכים שאתם (או היפר-פרמטר להפעלת שירות) מספקים למודל. לדוגמה, קצב הלמידה הוא היפר-פרמטר.

כוונון יעיל בפרמטרים

#language

#generativeAI

קבוצת שיטות לכוונון מודל שפה גדול שעבר אימון מראש (PLM) בצורה יעילה יותר מאשר כוונון מלא. בדרך כלל, כוונון יעיל בפרמטרים מכוונן הרבה פחות פרמטרים מאשר כוונון מלא, אבל בדרך כלל יוצר מודל שפה גדול (LLM) שמניב ביצועים טובים (או כמעט טוב) כמודל שפה גדול שמבוסס על כוונון מלא.

השוו בין כוונון יעיל בפרמטרים עם:

כוונון של הוראות
כוונון של הודעות

כוונון יעיל בפרמטרים נקרא גם כוונון יעיל בפרמטרים.

שרת פרמטרים (PS)

#TensorFlow

משימה שעוקבת אחרי הפרמטרים של המודל בהגדרה מבוזרת.

עדכון פרמטר

פעולת שינוי הפרמטרים של המודל במהלך אימון, בדרך כלל באיטרציה אחת של ירידה הדרגתית.

נגזרת חלקית

נגזרת שבה כל המשתנים, מלבד אחד, נחשבים לקבוע. לדוגמה, הנגזרת החלקית של f(x, y) ביחס ל-x היא הנגזרת של f שנחשבת כפונקציה של x בלבד (כלומר, שמירה על ערך קבוע של y). הנגזרת החלקית של f ביחס ל-x מתמקדת רק באופן שבו x משתנה ומתעלמת מכל המשתנים האחרים במשוואה.

הטיית השתתפות

#fairness

מילה נרדפת להטיות של היעדר תגובה. למידע נוסף על הטיית הבחירות.

אסטרטגיית חלוקה למחיצות (partitioning)

האלגוריתם שלפיו המשתנים מחולקים בין שרתי פרמטרים.

פקס

מסגרת תכנות שמיועדת לאימון מודלים גדולים של רשתות נוירונים כאלה גדולות כל כך, עד שהן מתפרשות על פני כמה פרוסות פרוסות.

Pax מבוסס על Flax, שמבוסס על JAX.

תרשים שמציין את המיקום של פקס בסטאק התוכנה.
Pax נבנה על גבי JAX. ה-Pax עצמו מורכב משלוש שכבות. השכבה התחתונה מכילה את TensorStore ו-Flax.
השכבה האמצעית מכילה את Optax ו-Flaxformer. השכבה העליונה מכילה את ספריית המודלים של Praxis. כינור בנוי על Pax.

Perceptron

מערכת (חומרה או תוכנה) שמקבלת ערך קלט אחד או יותר, מפעילה פונקציה על הסכום המשוקלל של הקלט ומחשבת ערך פלט יחיד. בלמידת מכונה, הפונקציה בדרך כלל לא לינארית, למשל ReLU, sigmoid או tanh. לדוגמה, הפרפון הבא מסתמך על פונקציית הסיגמואיד כדי לעבד שלושה ערכי קלט:

$$f(x_1, x_2, x_3) = \text{sigmoid}(w_1 x_1 + w_2 x_2 + w_3 x_3)$$

באיור הבא, הקשבה לוקחת שלושה מקורות קלט, שכל אחד מהם משתנה בעצמו במשקל לפני הכניסה לנתפס:

מפריד שמקבל 3 מקורות קלט, כל אחד מהם מוכפל במשקולות נפרדות. הפרפורן מפיק ערך יחיד.

מפרצונים הם נוירונים ברשתות נוירונים.

ביצועים

מונח עמוס במשמעויות הבאות:

המשמעות הסטנדרטית בהנדסת תוכנה. כלומר: באיזו מהירות (או ביעילות) התוכנה הזו פועלת?
המשמעות של למידת מכונה. בדוגמה הזו, נתוני הביצועים עונים על השאלה הבאה: עד כמה model נכון? כלומר, עד כמה התחזיות של המודל טובות?

חשיבות משתנה של תמורה

#df

סוג של חשיבות משתנה שבודק את העלייה בשגיאת החיזוי של מודל אחרי החלפה של ערכי התכונה. חשיבות המשתנה של התמורות היא מדד בלתי תלוי במודל.

רמת המורכבות

אחד מהמדדים שמציינים עד כמה model מצליח להשלים את המשימה שלו. לדוגמה, נניח שהמשימה היא לקרוא את האותיות הראשונות של מילה שהמשתמש מקליד במקלדת של הטלפון, ולהציע רשימה של מילות השלמה אפשריות. מורכבות, P, במשימה הזו היא בערך מספר הניחושים שאתם צריכים להציע על מנת שהרשימה תכיל את המילה בפועל שהמשתמש מנסה להקליד.

מידת המורכבות קשורה לניתוח חוצה-אנטרופיה באופן הבא:

$$P= 2^{-\text{cross entropy}}$$

צינור עיבוד נתונים

התשתית שמקיפה אלגוריתם של למידת מכונה. צינור עיבוד נתונים כולל איסוף נתונים, העברת הנתונים לקובצי נתונים לאימון, אימון מודל אחד או יותר וייצוא המודלים לייצור.

צינור עיבוד נתונים

#language

צורה של מקביליות של המודל, שבה העיבוד של המודל מחולק לשלבים עוקבים, וכל שלב מבוצע במכשיר אחר. כאשר השלב מעבד אצווה אחת, השלב הקודם יכול לפעול גם באצווה הבאה.

אפשר לעיין גם בהדרכה מדורגת.

פיג'יט

פונקציית JAX שמפצלת את הקוד כך שיפעל בין כמה צ'יפים של מאיץ. המשתמש מעביר פונקציה ל-pjit, שמחזיר פונקציה שיש לה סמנטיקה מקבילה, אבל מקומפלת לחישוב XLA שפועל במספר מכשירים (כמו GPU או ליבות של TPU).

pjit מאפשר למשתמשים לפצל חישובים בלי לשכתב אותם באמצעות מחיצת SPMD.

נכון למרץ 2023, pjit מוזג עם jit. אפשר לקרוא פרטים נוספים במאמר מערכים מבוזרים והפעלה אוטומטית מקבילה.

PLM

#language

#generativeAI

קיצור של מודל שפה שעבר אימון מראש.

Pmap

פונקציית JAX שמפעילה עותקים של פונקציית קלט בכמה מכשירי חומרה בסיסיים (מעבדים (CPU), מעבדי GPU או TPUs, עם ערכי קלט שונים. ה-pmap מבוסס על SPMD.

policy

#rl

בלמידת חיזוק, המיפוי ההסתברותי של סוכן ממצבים לפעולות.

מאגר

#image

הקטנת המטריצה (או המטריצה) שנוצרה על ידי שכבה מתקפלת קודמת למטריצה קטנה יותר. המאגר בדרך כלל כולל את הערך המקסימלי או הממוצע של האזור הארגוני. לדוגמה, נניח שיש לנו מטריצת 3x3 הבאה:

מטריצת 3x3 [[5,3,1], [8,2,5], [9,4,3]].

פעולת מאגרים, בדיוק כמו פעולה קונבולציה, מחלקת את המטריצה לפרוסות ולאחר מכן מחליקה את הפעולה המתקפלת בצעדים. לדוגמה, נניח שפעולת המאגר מחלקת את המטריצה המתקפלת לפרוסות בגודל 2x2 ברצף של 1x1. כפי שניתן לראות בתרשים הבא, מתבצעות ארבע פעולות של מאגרים. נניח שכל פעולת מאגר בוחרת את הערך המקסימלי של ארבע בפרוסה הזו:

אגירת נתונים עוזרת לאכוף שונות טרנסלציונית במטריצת הקלט.

מאגר של אפליקציות ראייה ידוע באופן רשמי יותר מאגר מרחבי. אפליקציות של סדרות זמנים מתייחסות בדרך כלל למאגר כמאגר זמני. באופן פחות רשמי, המאגר נקרא subssampleing או downssampleing.

קידוד תלוי מיקום

#language

שיטה להוספת מידע על המיקום של אסימון ברצף להטמעת האסימון. מודלים של טרנספורמרים משתמשים בקידוד תלוי מיקום כדי להבין טוב יותר את הקשר בין חלקים שונים ברצף.

בקידוד תלוי מיקום נעשה שימוש בפונקציה סינוסואידית. (באופן ספציפי, התדירות והמשרעת של הפונקציה הסינוסואידית נקבעות לפי מיקום האסימון ברצף). השיטה הזו מאפשרת למודל טרנספורמר ללמוד לזהות חלקים שונים ברצף על סמך המיקום שלהם.

שיעור חיובי

#fundamentals

הכיתה שבחרת לבדוק.

לדוגמה, המחלקה החיובית במודל סרטן יכולה להיות 'גידול'. הכיתה החיובית במסווג אימיילים עשויה להיות "ספאם".

בניגוד לסיווג שלילי.

כדי להציג הערות נוספות, לוחצים על הסמל.

המונח סיווג חיובי עלול להיות מבלבל, כי התוצאה ה'חיובית' של בדיקות רבות היא לעיתים קרובות תוצאה לא רצויה. לדוגמה, הסיווג החיובי בבדיקות רפואיות רבות תואם לגידולים או למחלות. באופן כללי, אתם רוצים שרופא יאמר לכם: "מזל טוב! תוצאות הבדיקה היו שליליות". בכל מקרה, הסיווג החיובי הוא האירוע שהמבחן מחפש.

למעשה, אתה בודק בו-זמנית גם בכיתה החיובית וגם בסיווג השלילי.

עיבוד תמונה (post-processing)

#fairness

#fundamentals

התאמת הפלט של מודל אחרי הפעלת המודל. לאחר עיבוד הנתונים אפשר לאכוף אילוצי הוגנות בלי לשנות את המודלים עצמם.

לדוגמה, אפשר להחיל אחרי עיבוד על מסווג בינארי על ידי הגדרת סף סיווג כך ששוויון הזדמנויות יישמר במאפיין מסוים, על ידי בדיקה שהשיעור החיובי האמיתי זהה בכל הערכים של המאפיין.

PR AUC (אזור מתחת לעקומת PR)

שטח מתחת לעקומה של דיוק-אחזור, שמתקבלת באמצעות הצגת נקודות (זכירה, דיוק) לערכים שונים של סף הסיווג. בהתאם לאופן החישוב, ערך PR AUC עשוי להיות שווה לדיוק ממוצע של המודל.

פרקסיס

ספריית למידת מכונה מרכזית של Pax עם ביצועים גבוהים. פרקסיס נקרא בדרך כלל "ספריית השכבות".

Praxis מכיל לא רק את ההגדרות של המחלקה Layer, אלא גם את רוב הרכיבים שתומכים בה, כולל:

קלט הנתונים
ספריות תצורה (HParam ו-Fiddle)
אופטימיזציה

Praxis מספק את ההגדרות של מחלקת המודל.

דיוק

מדד למודלים של סיווג שעונה על השאלה הבאה:

כשהמודל חזות את הסיווג החיובי, איזה אחוז מהחיזויים היו נכונים?

זוהי הנוסחה:

$$\text{Precision} = \frac{\text{true positives}} {\text{true positives} + \text{false positives}}$$

איפה:

חיובי אמיתי פירושו שהמודל חזה נכון את המחלקה החיובית.
המשמעות של 'חיובי שגוי' היא שהמודל חזה בטעות את המחלקה החיובית.

לדוגמה, נניח שמודל ביצע 200 חיזויים חיוביים. מתוך 200 החיזויים החיוביים האלה:

150 היו חיוביים אמיתיים.
50 היו תוצאות חיוביות שקריות.

במקרה זה:

$$\text{Precision} = \frac{\text{150}} {\text{150} + \text{50}} = 0.75$$

בניגוד לדיוק ולאחזור.

עקומת אחזור מדויק

עקומה של דיוק לעומת זכירת בערכי סף שונים לסיווג.

חיזוי (prediction)

#fundamentals

הפלט של המודל. למשל:

החיזוי של מודל סיווג בינארי הוא המחלקה החיובית או המחלקה השלילית.
החיזוי של מודל סיווג מרובה מחלקות הוא מחלקה אחת.
החיזוי של מודל רגרסיה ליניארי הוא מספר.

#generativeAI

האימון הראשוני של מודל על מערך נתונים גדול. חלק מהמודלים שעברו אימון מראש הם ענקיים מגושמים, ובדרך כלל צריך לשפר אותם באמצעות אימון נוסף. לדוגמה, מומחי למידת מכונה יכולים לאמן מראש מודל שפה גדול על מערך נתונים נרחב של טקסט, כמו כל הדפים באנגלית בוויקיפדיה. אחרי האימון מראש, אפשר לשפר את המודל שמתקבל באמצעות אחת מהשיטות הבאות:

זיקוק
כוונון עדין
כוונון של הוראות
כוונון יעיל בפרמטרים
כוונון הנחיות

אמונה קודמת

מה אתם חושבים לגבי הנתונים לפני שאתם מתחילים להתאמן עליהם. לדוגמה, רגולזציה של L₂ מבוססת על אמונה קודמת שהמשקלים צריכים להיות קטנים ולהפיץ אותם בדרך כלל בערך אפס.

מודל רגרסיה הסתברותי

מודל רגרסיה שמשתמש לא רק במשקלים של כל תכונה, אלא גם באי-הוודאות של המשקלים האלה. מודל רגרסיה הסתברותי יוצר חיזוי ואת אי הוודאות של חיזוי זה. לדוגמה, מודל רגרסיה הסתברותי יכול להניב חיזוי של 325 עם סטיית תקן של 12. מידע נוסף על מודלים של רגרסיה הסתברותיים זמין במאמר Colab ב-tensorflow.org.

פונקציית צפיפות הסתברות

פונקציה שמזהה את התדירות של דגימות נתונים שיש להן ערך בדיוק מסוים. כשהערכים של מערך נתונים הם מספרים רציפים של נקודה צפה (floating-point), נדירות התאמות מדויקות. עם זאת, integrating של פונקציית צפיפות הסתברות מהערך x לערך y מניב את התדירות הצפויה של דגימות נתונים בין x ל-y.

לדוגמה, נניח שלהתפלגות נורמלית יש ממוצע 200 וסטיית תקן של 30. כדי לקבוע את התדירות הצפויה של דגימות נתונים בטווח 211.4 עד 218.7, אפשר לשלב את פונקציית צפיפות ההסתברות עבור התפלגות נורמלית מ-211.4 עד 218.7.

הצעה לפעולה

#language

#generativeAI

כל טקסט שהוזן כקלט במודל שפה גדול (LLM) כדי להתנות שהמודל יתנהג בצורה מסוימת. הנחיות יכולות להיות קצרות כמו ביטוי או ארוכות באופן שרירותי (לדוגמה, הטקסט כולו של הספר). ההנחיות מחולקות לכמה קטגוריות, כולל אלו שמוצגות בטבלה הבאה:

קטגוריית ההצעה לפעולה	דוגמה	הערות
שאלה	`כמה מהר יונה יכול לעוף?`
הוראות	`כתיבת שיר מצחיק על ארביטראז'.`	הודעה שמבקשת ממודל השפה הגדול לבצע פעולה כלשהי.
דוגמה	`תרגום של קוד Markdown ל-HTML. לדוגמה: Markdown: * פריט ברשימה HTML: <ul> <li>פריט רשימה</li> </ul>`	המשפט הראשון בהנחיה לדוגמה הזו הוא הוראה. שאר ההנחיה היא הדוגמה.
תפקיד	`להסביר למה משמשים ירידה הדרגתית באימון למידת מכונה לתואר דוקטור בפיזיקה.`	החלק הראשון של המשפט הוא הוראה. הביטוי "אל דוקטורט בפיזיקה" הוא חלק התפקיד.
קלט חלקי להשלמת המודל	`ראש ממשלת בריטניה גר`	הנחיה עם קלט חלקי יכולה להסתיים בפתאומיות (כמו בדוגמה הזו) או להסתיים בקו תחתון.

מודל של בינה מלאכותית גנרטיבית יכול להשיב להנחיה עם טקסט, קוד, תמונות, הטמעות, סרטונים... כמעט כל דבר.

למידה מבוססת-הנחיה

#language

#generativeAI

יכולת של מודלים מסוימים שמאפשרת להם להתאים את ההתנהגות שלהם בתגובה לקלט טקסט שרירותי (הנחיות). בפרדיגמה טיפוסית של למידה מבוססת הנחיות, מודל שפה גדול מגיב להנחיה על ידי יצירת טקסט. לדוגמה, נניח שמשתמש מזין את ההנחיה הבאה:

תסכם את חוק התנועה השלישי של ניוטון.

מודל שאפשר ללמידה מבוססת הנחיות לא עבר אימון ספציפי לענות על ההנחיה הקודמת. במקום זאת, המודל "יודע" הרבה עובדות על פיזיקה, הרבה על כללי שפה כלליים והרבה על מה הן תשובות שימושיות באופן כללי. הידע הזה מספיק כדי לספק תשובה (יש לקוות) מועילה. משוב אנושי נוסף ("התשובה הייתה מורכבת מדי" או "מהי תגובה?") מאפשר למערכות למידה מסוימות לשפר בהדרגה את השימושיות של התשובות שלהן.

עיצוב הנחיות

#language

#generativeAI

מילה נרדפת ל-prompt Engineering.

הנדסת הנחיות

#language

#generativeAI

יצירת הודעות פתיחה שגורמות לתגובות הרצויות ממודל שפה גדול (LLM). בני אדם מבצעים הנדסת הנחיות. כדי להבטיח תשובות מועילות ממודל שפה גדול, חשוב מאוד לכתוב הנחיות שמובנות היטב. הנדסת פרומפטים תלויה בגורמים רבים, כולל:

מערך הנתונים שמשמש לאימון מראש ואולי לצמצום מודל השפה הגדול (LLM).
הטמפרטורה ופרמטרים אחרים של פענוח שהמודל משתמש בהם כדי ליצור תשובות.

תוכלו לקרוא מידע נוסף על כתיבת הנחיות מועילות במאמר מבוא לעיצוב הנחיות.

עיצוב הנחיות הוא מילה נרדפת להנדסת פרומפטים.

כוונון של הנחיות

#language

#generativeAI

מנגנון כוונון יעיל בפרמטרים שלומד 'קידומת' שהמערכת מצרפת מראש להודעה בפועל.

אחת מהגרסאות של כוונון של הנחיות – שלפעמים נקראת כוונון קידומת – היא להוסיף את הקידומת לתחילת כל שכבה. לעומת זאת, ברוב המקרים כוונון של הנחיות מוסיף קידומת רק לשכבת הקלט.

אפשר ללחוץ על הסמל כדי לקבל מידע נוסף על תחיליות.

בכוונון של הנחיות, ה'קידומת' (נקראת גם 'הנחיה קלה') היא מספר וקטורים שנלמדו וספציפיים למשימה, שמוצמדים להטמעות של אסימון הטקסט מההנחיה עצמה. המערכת לומדת את ההנחיה הראשונית על ידי הקפאה של כל הפרמטרים האחרים של המודל וכוונון עדין לביצוע משימה ספציפית.

תוויות לשרת proxy

#fundamentals

נתונים שמשמשים להערכה של תוויות שלא זמינות ישירות במערך נתונים.

לדוגמה, נניח שאתם צריכים לאמן מודל כדי לחזות את רמת הלחץ של העובדים. מערך הנתונים מכיל הרבה תכונות חיזוי, אבל הוא לא מכיל תווית בשם רמת המתח. בוחרים את התווית 'תאונות במקום העבודה' כתווית של שרת proxy לרמת הלחץ, בלי להתבייש. אחרי הכול, עובדים שנמצאים בלחץ גבוה קורים ליותר תאונות מאשר עובדים רגועים. או שאולי לא? אולי תאונות במקום העבודה עולות ויורדים מסיבות שונות.

דוגמה שנייה, נניח שאתם רוצים שהאם יורד גשם? בתור תווית בוליאנית למערך הנתונים, אבל מערך הנתונים לא מכיל נתוני גשם. אם יש לכם תמונות, תוכלו ליצור תמונות של אנשים שסוחבים מטריות כתווית שמייצגת את האם יורד גשם? האם זו תווית טובה לשרת proxy? יכול להיות, אבל לאנשים בתרבויות מסוימות יש סיכוי גדול יותר לשאת מטריות כדי להגן מפני השמש מאשר הגשם.

תוויות של שרת proxy לעיתים קרובות לא מושלמות. כשהדבר אפשרי, כדאי לבחור תוויות בפועל במקום תוויות של שרת proxy. עם זאת, אם חסרה תווית של שרת proxy, חשוב לבחור את התווית של שרת ה-proxy בקפידה ולבחור את התווית של שרת ה-proxy הכי פחות גרועה.

proxy (מאפיינים רגישים)

#fairness

מאפיין שמשמש כהפניה של מאפיין רגיש. לדוגמה, מיקוד של אדם פרטי יכול לשמש כייצוג של ההכנסה, הגזע או המוצא האתני שלו.

פונקציה טהורה

פונקציה שהפלטים שלה מבוססים רק על הקלט שלה, ואין לה תופעות לוואי. באופן ספציפי, פונקציה טהורה לא משתמשת או משנה מצב גלובלי, כמו תוכן הקובץ או הערך של משתנה מחוץ לפונקציה.

אפשר להשתמש בפונקציות טהור כדי ליצור קוד בטוח לשרשור, וזה מועיל כשמפצלים את הקוד של model לכמה model.

שיטות הטרנספורמציה של פונקציית JAX דורשות שפונקציות הקלט הן פונקציות טהורים.

Q

פונקציית Q

#rl

בלמידת חיזוק, הפונקציה שחוזה את ההחזר הצפוי מביצוע פעולה במצב ולאחר מכן ביצוע מדיניות מסוימת.

פונקציית Q נקראת גם פונקציית ערך של מצב פעולה.

למידת Q

#rl

במסגרת למידת חיזוק, אלגוריתם שמאפשר לסוכן ללמוד את ה-Q-function האופטימלית של תהליך ההחלטה של מרקוב על ידי החלת משוואת בלמן. תהליך ההחלטות של מרקוב יוצר מודל של סביבה.

האחוזון

כל קטגוריה בסיווג כמות.

חלוקת מספרים לרבעים

חלוקת הערכים של התכונה לקטגוריות כך שכל קטגוריה תכיל מספר דוגמאות זהה (או כמעט זהה). לדוגמה, הפונקציה הבאה מחלקת 44 נקודות ל-4 קטגוריות, שכל אחת מהן מכילה 11 נקודות. כדי שכל קטגוריה באיור תכיל את אותו מספר נקודות, חלק מהקטגוריות משתרעות על פני רוחב שונה של ערכי x.

44 נקודות על הגרף המחולקות ל-4 קטגוריות של 11 נקודות כל אחת.
למרות שכל קטגוריה מכילה מספר זהה של נקודות נתונים, חלק מהקטגוריות מכילות טווח רחב יותר של ערכי תכונות מקטגוריות אחרות.

קוונטיזציה

מונח עמוס מדי שניתן להשתמש בו בכל אחת מהדרכים הבאות:

הטמעה של חלוקה לקטגוריות בתכונה מסוימת.
המרת נתונים לאפסים ולמספרים כדי לאפשר אחסון, אימון והסקת נתונים מהר יותר. נתונים בוליאניים הם יותר עמידים לרעש ולשגיאות מאשר בפורמטים אחרים, ולכן הקוונטיזציה יכולה לשפר את הנכונות של המודל. שיטות הכמות כוללות עיגול, חיתוך וbining.
הפחתת מספר הביטים שמשמשים לאחסון הפרמטרים של מודל. לדוגמה, נניח שהפרמטרים של המודל מאוחסנים כמספרי נקודה צפה (floating-point) 32-ביט. השימוש לקונטיזציה ממיר את הפרמטרים האלה מ-32 ביט ל-4, 8 או 16 ביט. השימוש בכמות גדולה מפחית את המצבים הבאים:
- שימוש במחשוב, בזיכרון, בדיסק וברשת
- הגיע הזמן להסיק תחזית
- צריכת חשמל
עם זאת, הקוונטיזציה לפעמים מפחיתה את הנכונות של החיזויים שהמודל יוצר.

רשימת סרטונים

#TensorFlow

פעולה של TensorFlow שמטמיעה מבנה נתונים של תור. לרוב בשימוש בכנס I/O.

R

ר"מ

#fundamentals

קיצור של יצירה משופרת באחזור.

יער אקראי

#df

מערך של עצי החלטה שבו כל עץ החלטות מאומן בעזרת רעש אקראי ספציפי, כמו bagging.

יערות אקראיים הם סוג של יער החלטות.

מדיניות אקראית

#rl

בלמידת חיזוק, מדיניות שבה בוחרים באופן אקראי פעולה.

דירוג

סוג של למידה מונחית שהמטרה שלה היא לסדר רשימת פריטים.

דירוג (ordinality)

המיקום הסידורי של כיתה בבעיה של למידת מכונה שמסווג את המחלקות מהגבוה לנמוך. לדוגמה, מערכת לדירוג התנהגות יכולה לדרג את התגמולים לכלב מהגבוה ביותר (סטייק) ועד הנמוך ביותר (קייל נבול).

דירוג (Tensor)

#TensorFlow

מספר המימדים בTensor. לדוגמה, לסקלרי יש דירוג 0, לווקטור יש דירוג 1 ולמטריצה יש דירוג 2.

חשוב להבין מה ההבדל עם דירוג (ordinality).

מדרג

#fundamentals

אדם שמספק תוויות לדוגמאות. 'עם הערות' הוא שם נוסף של המדרג.

recall

מדד למודלים של סיווג שעונה על השאלה הבאה:

במקרים שבהם ground truth היה הסיווג החיובי, איזה אחוז מהתחזיות זוהה בצורה נכונה כסיווג החיובי?

זוהי הנוסחה:

\[\text{Recall} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}} \]

איפה:

חיובי אמיתי פירושו שהמודל חזה נכון את המחלקה החיובית.
פירוש הדבר הוא שהמודל חזה בטעות את הסיווג השלילי.

לדוגמה, נניח שהמודל שלך ביצע 200 חיזויים על דוגמאות שלהן 'אמת קרקע' הייתה המחלקה החיובית. מתוך 200 החיזויים האלה:

180 היו חיוביים אמיתיים.
20 היו תוצאות שליליות שקריות.

במקרה זה:

\[\text{Recall} = \frac{\text{180}} {\text{180} + \text{20}} = 0.9 \]

לוחצים על הסמל של הערות לגבי מערכי נתונים עם חוסר איזון בכיתה.

אחזור מידע שימושי במיוחד לקביעת יכולת החיזוי של מודלים של סיווג שבהם הסיווג החיובי הוא נדיר. לדוגמה, ניקח לדוגמה מערך נתונים לא מאוזן מבחינה מעמדית שבו הסיווג החיובי למחלה מסוימת מופיע רק ב-10 מטופלים מתוך מיליון. נניח שהמודל שלכם מבצע חמישה מיליון חיזויים שמניבים את התוצאות הבאות:

30 חיוביים אמיתיים
20 מילות מפתח שליליות שקריות
4,999,000 מילות מפתח שליליות אמיתיות
950 תוצאות חיוביות מוטעות

לכן, ריקול של מודל זה הוא:

recall = TP / (TP + FN)
recall = 30 / (30 + 20) = 0.6 = 60%

לעומת זאת, הדיוק של המודל הזה הוא:

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (30 + 4,999,000) / (30 + 4,999,000 + 950 + 20) = 99.98%

הערך הגבוה של הדיוק נראה מרשים, אבל הוא חסר משמעות. זכירת נתונים היא מדד הרבה יותר מועיל לגבי מערכי נתונים לא מאוזנים בכיתה מאשר דיוק.

מערכת המלצות

#recsystems

מערכת שבוחרת לכל משתמש קבוצה קטנה יחסית של פריטים רצויים מתוך אוסף גדול. לדוגמה, מערכת המלצות על סרטונים יכולה להמליץ על שני סרטונים מתוך אוסף של 100,000 סרטונים, ולבחור באפשרות קזבלנקה וסיפור פילדלפיה למשתמש אחד, ובאפשרות וונדר וומן והפנתר השחור למשתמש אחר. מערכת ההמלצות על סרטונים עשויה לבסס את ההמלצות שלה על גורמים כמו:

סרטים שמשתמשים דומים דירגו או צפו בהם.
ז'אנר, במאים, שחקנים, יעד דמוגרפי...

יחידה לינארית תקינה (ReLU)

#fundamentals

פונקציית הפעלה עם ההתנהגות הבאה:

אם הקלט הוא שלילי או אפס, אז הפלט הוא 0.
אם הקלט הוא חיובי, הפלט שווה לקלט.

למשל:

אם הקלט הוא 3-, אז הפלט הוא 0.
אם הקלט הוא 3+, הפלט הוא 3.0.

הנה תרשים של ReLU:

ReLU היא פונקציית הפעלה פופולרית מאוד. למרות ההתנהגות הפשוטה שלה, ReLU עדיין מאפשר לרשת נוירונים ללמוד על קשרים לא לינאריים בין תכונות לבין התווית.

רשת נוירונים חוזרת

#seq

רשת נוירונים שפועלת באופן מכוון כמה פעמים, כשחלקים מכל הרצה עוברים להרצה הבאה. באופן ספציפי, שכבות מוסתרות מההרצה הקודמת מספקות חלק מהקלט לאותה שכבה מוסתרת בהפעלה הבאה. רשתות נוירונים חוזרות שימושיות במיוחד להערכת רצפים, כדי שהשכבות המוסתרות יוכלו ללמוד מהפעלות קודמות של רשת הנוירונים בחלקים קודמים של הרצף.

לדוגמה, באיור הבא מוצגת רשת נוירונים חוזרת שפועלת ארבע פעמים. שימו לב שהערכים שנלמדו בשכבות המוסתרות מההרצה הראשונה הופכים לחלק מהקלט לאותן שכבות מוסתרות בהפעלה השנייה. באופן דומה, הערכים שנלמדו בשכבה המוסתרת בהרצה השנייה הופכים לחלק מהקלט של אותה שכבה מוסתרת בהפעלה השלישית. כך רשת הנוירונים החוזרת מאמנים וחוזה בהדרגה את המשמעות של כל הרצף, ולא רק את המשמעות של מילים בודדות.

רשת נוירונים חוזרת (RNN) שפועלת ארבע פעמים כדי לעבד ארבע מילות קלט.

מודל רגרסיה

#fundamentals

באופן לא רשמי, מודל שיוצר חיזוי מספרי. (לעומת זאת, מודל הסיווג יוצר חיזוי מחלקה). לדוגמה, אלה כל המודלים של רגרסיה:

מודל שחוזה את הערך של בית מסוים, למשל 423,000 אירו.
מודל שחוזה את תוחלת החיים של עץ מסוים, למשל 23.2 שנים.
מודל לחיזוי כמות הגשם שתירד בעיר מסוימת בשש השעות הבאות, למשל 0.18 אינץ'.

שני סוגים נפוצים של מודלים של רגרסיה הם:

רגרסיה לינארית, שמוצאת את הקו המתאים ביותר לערכי תוויות לתכונות.
רגרסיה לוגיסטית, שיוצרת הסתברות בין 0.0 ל-1.0 שהמערכת בדרך כלל ממפה לחיזוי כיתתי.

לא כל מודל שמפיק חיזויים מספריים הוא מודל רגרסיה. במקרים מסוימים, חיזוי מספרי הוא בעצם מודל סיווג שיש לו שמות מחלקות מספריים. לדוגמה, מודל שחוזה את המיקוד המספרי הוא מודל סיווג, ולא מודל רגרסיה.

רגולריזציה (regularization)

#fundamentals

כל מנגנון שמפחית את הוספת יתר. סוגים נפוצים של רגולציה כוללים:

התאמה ₁
התאמה ₂
תהליך רגולציה חדשני מסוג נטישה
עצירה מוקדמת (זו לא שיטת רגולטור רשמית, אבל היא יכולה להגביל ביעילות התאמת יתר)

אפשר להגדיר רגולציה כזאת גם כעונש על מורכבות המודל.

כדי להציג הערות נוספות, לוחצים על הסמל.

רגולציה מנוגדת לאינטואיטיביות. הגברת הרגולציה בדרך כלל מגדילה את אובדן האימון, דבר מבלבל כי האם המטרה היא לא למזער את אובדן האימון?

למעשה, לא. המטרה אינה למזער את אובדן האימון. המטרה היא לספק תחזיות מצוינות על דוגמאות מהעולם האמיתי. באופן מפתיע, למרות שהגברת הרגולציה גורמת לאובדן של אימונים, זה בדרך כלל עוזר למודלים ליצור תחזיות טובות יותר לדוגמאות מהעולם האמיתי.

שיעור התאמה לשוק

#fundamentals

מספר שמציין את החשיבות היחסית של ריכוז במהלך האימון. הגדלת קצב הרגולריזציה מפחיתה את ההתאמה, אבל עשויה להפחית את כוח החיזוי של המודל. לעומת זאת, הפחתה או השמטה של שיעור הרגולציה מגדילה את התאמת יתר.

לוחצים על הסמל כדי לראות את החשבון.

שיעור הרגולציה מיוצג בדרך כלל כאות היוונית lambda. במשוואה המפושטת הבאה לוס מוצגת ההשפעה של למבדה:

$$\text{minimize(loss function + }\lambda\text{(regularization))}$$

התאמה היא כל מנגנון רגולציה, כולל:

התאמה ₁
התאמה ₂

למידת חיזוק (RL)

#rl

משפחה של אלגוריתמים שלומדים מדיניות אופטימלית, שהמטרה שלה היא להגדיל את ההחזר באינטראקציה עם סביבה. לדוגמה, התגמול האולטימטיבי ברוב המשחקים הוא ניצחון. מערכות למידה לחיזוק יכולות להפוך למומחיות במשחקים מורכבים באמצעות הערכה של רצפים של מהלכים קודמים במשחק, שבסופו של דבר הובילו לניצחונות ולרצפים שהובילו להפסדים.

חיזוק הלמידה ממשוב אנושי (RLHF)

#generativeAI

#rl

שימוש במשוב ממדרגים אנושיים לשיפור איכות התשובות של המודל. לדוגמה, מנגנון RLHF יכול לבקש ממשתמשים לדרג את איכות התשובה של דוגמן באמצעות 👍 או 👎. לאחר מכן המערכת תוכל לשנות את התשובות העתידיות שלה בהתאם למשוב הזה.

ReLU

#fundamentals

קיצור של יחידה לינארית ממופה.

מאגר נתונים זמני להפעלה מחדש

#rl

באלגוריתמים שדומים ל-DQN, הזיכרון שבו הסוכן משתמש כדי לאחסן מעברי מצבים לשימוש בהפעלה מחדש של חוויה.

רפליקה

עותק של ערכת האימון או המודל, בדרך כלל במכונה אחרת. לדוגמה, אפשר להשתמש באסטרטגיה הבאה להטמעה של מקביליות נתונים:

צריך למקם רפליקות של מודל קיים במספר מכונות.
לשלוח קבוצות משנה של ערכת האימון לכל רפליקה.
צוברים את הנתונים של עדכוני הפרמטר.

הטיה בדיווח

#fairness

העובדה שהתדירות שבה אנשים כותבים על פעולות, תוצאות או נכסים לא משקפת את התדירות שלהם בעולם האמיתי או את המידה שבה נכס מאפיין קבוצה של אנשים. הטיית הדיווח יכולה להשפיע על הרכב הנתונים שמערכות למידת מכונה לומדות מהם.

לדוגמה, בספרים, המילה צחוק נפוצה יותר מאשר המילה נשימה. מודל של למידת מכונה שמעריך את התדירות היחסית של צחוק ונשימה מתוך קורפוס של ספרים יקבע ככל הנראה צחוק יותר נפוץ מנשימה.

בווקטור יהיה זהה,

תהליך מיפוי הנתונים לתכונות שימושיות.

דירוג מחדש

#recsystems

השלב האחרון במערכת ההמלצות, שבו ניתן לתת ציון מחדש לפריטים שקיבלו ציון לפי אלגוריתם אחר (בדרך כלל לא ML). הדירוג מחדש מעריך את רשימת הפריטים שנוצרו על ידי שלב הציון, בעקבות פעולות כמו:

הסרת פריטים שהמשתמש כבר רכש.
משפר את הציון של פריטים חדשים יותר.

יצירה משופרת באחזור (RAG)

#fundamentals

שיטה לשיפור האיכות של הפלט של מודל שפה גדול (LLM) על ידי ביסוס שלו על מקורות מידע שאוחזרו אחרי אימון המודל. שיטת RAG משפרת את הדיוק של תשובות LLM באמצעות מתן גישה ל-LLM שעבר אימון, למידע שאוחזר ממאגרי ידע או ממסמכים מהימנים.

המטרות הנפוצות לשימוש ביצירה לשיפור אחזור כוללות:

שיפור הדיוק העובדתי של התשובות שהמודל יוצר.
להעניק למודל גישה לידע שהוא לא אומן.
שינוי הידע שבו המודל משתמש.
הפעלת המודל לצטט מקורות.

לדוגמה, נניח שאפליקציית כימיה משתמשת ב-PaLM API כדי ליצור סיכומים שקשורים לשאילתות של משתמשים. כשהקצה העורפי של האפליקציה מקבל שאילתה, הקצה העורפי:

חיפושים ("אחזורים") של נתונים שרלוונטיים לשאילתת המשתמש.
צירוף ("תוספים") של נתוני הכימיה הרלוונטיים לשאילתת המשתמש.
מורה ל-LLM ליצור סיכום על סמך הנתונים המצורפים.

return

#rl

בלמידת חיזוק, בהתאם למדיניות מסוימת ומצב מסוים, התשואה היא הסכום של כל התגמולים שהסוכן מצפה לקבל כשהוא עומד במדיניות מהמצב ועד לסוף הפרק. הסוכן אחראי על האופי האיטי של הפרסים הצפויים על ידי הפחתת ערך התגמולים בהתאם למעברי המדינות שנדרשים כדי לקבל את התגמול.

לכן, אם גורם ההנחה הוא $\gamma$, ו- $r_0, \ldots, r_{N}$מציין את התגמולים עד סוף הפרק, חישוב ההחזרה יתבצע כך:

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

פרס

#rl

בלמידת חיזוק, התוצאה המספרית של ביצוע פעולה במצב, כפי שמוגדרת בסביבה.

רגולציה של הרכס

מילה נרדפת ל-L₂ סטנדרטיזציה. המונח Rיגוג'יז' משמש לעיתים קרובות יותר בהקשרים של סטטיסטיקה טהורה, ואילו L₂ רגולרי משתמשים לעיתים קרובות יותר בלמידת מכונה.

RNN

#seq

קיצור של רשתות נוירונים חוזרות.

עקומת ROC (מאפיין הפעלה של מקלט)

#fundamentals

תרשים של שיעור חיובי אמיתי לעומת שיעור חיובי שגוי עבור ערכי סף שונים לסיווג בסיווג בינארי.

הצורה של עקומת ROC מרמזת על היכולת של מודל סיווג בינארי להפריד בין סיווגים חיוביים למחלקות שליליות. לדוגמה, נניח שמודל סיווג בינארי מפריד בצורה מושלמת בין כל המחלקות השליליות לבין כל המחלקות החיוביות:

ציר מספרים עם 8 דוגמאות חיוביות בצד ימין
ו-7 דוגמאות שליליות בצד שמאל.

עקומת ROC למודל הקודם נראית כך:

עקומת ROC. ציר ה-X מייצג קצב חיובי שגוי וציר ה-Y
מייצג קצב חיובי נכון. לעקומה יש צורת L הפוכה. העקומה מתחילה ב-(0.0,0.0) ועולה ישירות עד (0.0,1.0). לאחר מכן העקומה
עוברת מ-(0.0,1.0) ל-(1.0,1.0).

לעומת זאת, האיור הבא מציג את הערכים הגולמיים של הרגרסיה הלוגיסטית למודל איום שלא יכול להפריד בכלל בין מחלקות שליליות למחלקות חיוביות:

ציר מספרים עם דוגמאות חיוביות ומחלקות שליליות
משולב לחלוטין.

עקומת ROC למודל הזה נראית כך:

עקומת ROC, שהיא למעשה קו ישר מ-(0.0,0.0)
עד (1.0,1.0).

לעומת זאת, בעולם האמיתי, רוב המודלים של סיווג בינארי מפרידים במידה מסוימת בין סיווגים חיוביים ושליליים, אבל בדרך כלל הם לא מושלמים. לכן, עקומת ROC טיפוסית נמצאת במקום כלשהו בין שתי הקיצוניות הקיצוניות:

עקומת ROC. ציר ה-X מייצג קצב חיובי שגוי וציר ה-Y
מייצג קצב חיובי נכון. עקומת ROC קרובה לקשת רועשת שחוצה את נקודות המצפן ממערב לצפון.

הנקודה על עקומת ROC הקרובה ביותר ל-(0.0,1.0) מזהה באופן תיאורטי את סף הסיווג האידאלי. עם זאת, יש כמה בעיות אחרות בעולם האמיתי שמשפיעות על הבחירה של סף הסיווג האידיאלי לסיווג. לדוגמה, אולי תוצאות שליליות שקריות גורמות להרבה יותר כאב מאשר תוצאות חיוביות מוטעות.

מדד מספרי שנקרא AUC מסכם את עקומת ROC לערך של נקודה צפה (floating-point).

הנחיות ליצירת תפקידים

#language

#generativeAI

חלק אופציונלי בהודעה שמזהה את קהל היעד לתשובה של מודל AI גנרטיבי. ללא בקשה לתפקידים, מודל שפה גדול (LLM) מספק תשובה שעשויה להיות מועילה או לא מועילה לאדם ששואל את השאלות. עם בקשת תפקידים, מודל שפה גדול יכול לענות באופן מתאים ומועיל יותר לקהל יעד ספציפי. לדוגמה, החלק של בקשת התפקיד בהודעות הבאות מופיע בגופן מודגש:

תסכם את המאמר הזה לתואר דוקטור בכלכלה.
תארו כיצד פועלים גאות עבור ילד בן עשר.
הסבר על המשבר הפיננסי ב-2008. דברו כמו במקרה של ילד קטן או גולדן רטריבר.

הרמה הבסיסית (root)

#df

הצומת ההתחלתי (התנאי הראשון) בעץ החלטות. לפי המוסכמה, דיאגרמות מציבים את השורש בחלק העליון של עץ ההחלטות. למשל:

עץ החלטות עם שני תנאים ושלושה עלים. התנאי
ההתחלתי (x > 2) הוא השורש.

תיקיית שורש

#TensorFlow

הספרייה שציינתם לאירוח ספריות משנה של נקודת הביקורת ב-TensorFlow וקובצי אירועים בכמה מודלים.

שורש השגיאה בריבוע הממוצע (RMSE)

#fundamentals

השורש הריבועי של השגיאה הממוצעת בריבוע.

שונות סיבובית

#image

במקרה של בעיה בסיווג תמונות, היכולת של אלגוריתם לסווג תמונות בהצלחה גם אם כיוון התמונה משתנה. לדוגמה, האלגוריתם עדיין יכול לזהות מחבט טניס, בין שהוא פונה למעלה, לצדדים או למטה. שים לב ששונות סיבובית אינה תמיד רצוי. לדוגמה, אין לסווג 9 הפוך כ-9.

למידע נוסף, ראו שונות תרגום ושונות גודל.

R בריבוע

מדד רגרסיה שמציין את מידת השינוי בתווית שנובעת מתכונה מסוימת או מקבוצת תכונות. R-squared הוא ערך בין 0 ל-1, וניתן לפרש אותו באופן הבא:

המשמעות של R בריבוע עם הערך 0 היא שאף אחת מהווריאציות של התווית לא נובעת מקבוצת התכונות.
המשמעות של R בריבוע עם הערך 1 היא שכל הווריאציה של התווית נובעת מקבוצת התכונות.
ערך R בריבוע בין 0 ל-1 מציין את המידה שבה ניתן לחזות את השונות של התווית מתכונה מסוימת או מקבוצת תכונות מסוימת. לדוגמה, R בריבוע עם הערך 0.10 מציין ש-10 אחוז מהשונות בתווית נובעת מקבוצת התכונות, R בריבוע של 0.20 מציין ש-20 אחוז נובעת מקבוצת התכונות וכן הלאה.

R-squared הוא הריבוע של מקדם המתאם של פירסון, בין הערכים שהמודל חזות לאמת קרקע.

S

הטיית דגימה

#fairness

למידע נוסף על הטיית הבחירות.

דגימות עם החלפה

#df

שיטה לבחירת פריטים מתוך קבוצה של פריטים אפשריים שבהם אפשר לבחור את אותו פריט מספר פעמים. המשמעות של הביטוי 'עם החלפה' היא שאחרי כל בחירה, הפריט שנבחר מוחזר למאגר הפריטים האפשריים. בשיטה ההפוכה, דגימה ללא החלפה, אפשר לבחור פריט מועמד רק פעם אחת.

לדוגמה, שקול את ערכת הפירות הבאה:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

נניח שהמערכת בוחרת באקראי את fig כפריט הראשון. אם משתמשים בדגימה עם החלפה, המערכת בוחרת את הפריט השני מתוך הקבוצה הבאה:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

כן, זו אותה קבוצה כמו קודם, כך שהמערכת עשויה לבחור שוב ב-fig.

אם משתמשים בדגימה ללא החלפה, לאחר שבוחרים דגימה, אי אפשר לבחור אותה שוב. לדוגמה, אם המערכת בוחרת באקראי את fig בתור הדגימה הראשונה, אי אפשר לבחור שוב את fig. לכן, המערכת בוחרת את הדוגמה השנייה מהקבוצה (המוקטנת):

fruit = {kiwi, apple, pear, cherry, lime, mango}

כדי להציג הערות נוספות, לוחצים על הסמל.

המילה החלפה בדגימה עם החלפה מבלבלת הרבה אנשים. באנגלית, replacement פירושו "החלפה". עם זאת, דגימה עם החלפה למעשה משתמשת בהגדרה הצרפתית כreplacement, כלומר "להחזיר משהו".

המילה באנגלית replacement מתורגמת כמילה הצרפתית remplacement.

SavedModel

#TensorFlow

הפורמט המומלץ לשמירה ולשחזור של מודלים של TensorFlow. SaveModel הוא פורמט סריאליזציה נייטרלי וניתן לשחזור. הפורמט הזה מאפשר למערכות ולכלים ברמה גבוהה יותר ליצור מודלים של TensorFlow, לצרוך ולשנות אותם.

לפרטים המלאים, עיינו בפרק 'שמירה ושחזור' במדריך למתכנתים של TensorFlow.

חסכוני

#TensorFlow

אובייקט TensorFlow שאחראי לשמירת נקודות הביקורת של המודל.

סקלרי

מספר יחיד או מחרוזת יחידה שאפשר לייצג כ-tensor של rank 0. לדוגמה, שורות הקוד הבאות יוצרות סקלרי אחד ב-TensorFlow:

breed = tf.Variable("poodle", tf.string)
temperature = tf.Variable(27, tf.int16)
precision = tf.Variable(0.982375101275, tf.float64)

התאמה לעומס (scaling)

כל טרנספורמציה מתמטית או טכניקה שמזיזה את הטווח של תווית ו/או ערך תכונה. סוגים מסוימים של התאמה לעומס (scaling) שימושיים מאוד לטרנספורמציות כמו נירמול.

צורות נפוצות של קנה מידה שימושיות בלמידת מכונה כוללות:

קנה מידה לינארי, שבדרך כלל משתמש בשילוב של חיסור וחילוק כדי להחליף את הערך המקורי במספר בין 1- ל-1+, או בין 0 ל-1.
קנה מידה לוגריתמי, שמחליף את הערך המקורי בלוגריתם שלו.
נורמליזציה של ציון Z, שמחליפה את הערך המקורי בערך של נקודה צפה (floating-point) שמייצג את מספר סטיות התקן מהממוצע של התכונה.

למידת סקיייט

פלטפורמה פופולרית ללמידת מכונה בקוד פתוח. למידע נוסף: scikit-learn.org.

ניקוד

#recsystems

החלק במערכת ההמלצות שמספק ערך או דירוג לכל פריט שנוצר בשלב יצירת הצעות.

הטיית בחירה

#fairness

שגיאות במסקנות שהוסקו מהנתונים שנדגמו עקב תהליך בחירה שיוצר הבדלים שיטתיים בין הדגימות שהנתונים שלהן גלויים לבין הדגימות שלא נצפו. קיימות הצורות הבאות של הטיית בחירה:

הטיות כיסוי: האוכלוסייה שמיוצגת במערך הנתונים לא תואמת לאוכלוסייה שעליה מודל למידת המכונה מייצר תחזיות.
הטיית דגימה: הנתונים לא נאספים באופן אקראי מקבוצת היעד.
הטיות של חוסר תשובות (שנקראות גם הטיות בהשתתפות): משתמשים מקבוצות מסוימות ביטלו את הסכמתם לסקרים בשיעורים שונים מאלה של משתמשים מקבוצות אחרות.

לדוגמה, נניח שאתם יוצרים מודל למידת מכונה שחוזה את ההנאה של אנשים מסרט. כדי לאסוף נתוני אימון, אתם מחלקים סקר לכל מי שנמצא בשורה הראשונה באולם קולנוע שבו מוצג הסרט. באופן לא שגרתי זה נשמע כדרך סבירה לאסוף מערך נתונים. עם זאת, דרך איסוף הנתונים הזה עשויות להיות צורות שונות של הטיית בחירה:

הטיית כיסוי: על ידי דגימה מאוכלוסייה שבחרה לצפות בסרט, ייתכן שהתחזיות של המודל לא יכללו אנשים שעדיין לא הביעו את רמת העניין הזו בסרט.
הטיית דגימה: במקום לדגום באופן אקראי מהאוכלוסייה הייעודית (כל האנשים בסרט), דגמתם רק את האנשים שבשורה הראשונה. ייתכן שהאנשים שיושבים בשורה הראשונה התעניינו יותר בסרט מאשר אלה שבשורות אחרות.
הטיה של אי-תגובה: באופן כללי, אנשים שיש להם דעה חזקה נוטים להגיב לסקרים אופציונליים בתדירות גבוהה יותר מאשר אנשים עם דעות מתונות. הסקר לגבי הסרטים הוא אופציונלי, ולכן יש סיכוי גבוה יותר שהתשובות ייצרו התפלגות בימודית מאשר התפלגות רגילה (בצורת פעמון).

קשב עצמי (נקרא גם שכבת הקשב העצמי)

#language

שכבה של רשת נוירונים שמשנה רצף של הטמעות (למשל, הטמעות של אסימון) לרצף אחר של הטמעות. כל הטמעה ברצף הפלט נוצרת על ידי שילוב מידע מהאלמנטים של רצף הקלט באמצעות מנגנון תשומת לב.

החלק עצמי בקשב עצמי מתייחס לרצף שעוסק בעצמו ולא להקשר אחר. קשב עצמי הוא אחד מאבני הבניין העיקריות של טרנספורמרים, והוא משתמש בטרמינולוגיה של חיפוש מילונים, כמו "query", "key" ו-"value".

שכבת הקשבה עצמית מתחילה ברצף של ייצוגי קלט – אחד לכל מילה. ייצוג הקלט של מילה יכול להיות הטמעה פשוטה. לכל מילה ברצף הקלט, הרשת קובעת את מידת הרלוונטיות שלה לכל רכיב ברצף המילים. ציוני הרלוונטיות קובעים עד כמה הייצוג הסופי של המילה יכלול את הייצוגים של מילים אחרות.

לדוגמה, יש לשים לב למשפט הבא:

החיה לא חצה את הרחוב כי היא הייתה עייפה מדי.

באיור הבא (מ-Transformer: A Novel Neural Network Architecture for LanguageUnderstanding) ניתן לראות את דפוס תשומת הלב של שכבת הקשב העצמי ללשון הפנייה it, כאשר כל שורה מחושת עד כמה כל מילה תורמת לייצוג:

המשפט הבא מופיע פעמיים: החיה לא חצה את הרחוב כי הוא היה עייף מדי. קווים מחברים את לשון הפנייה
במשפט אחד לחמישה אסימונים (The, animal, Street, it
והנקודה) במשפט השני. הקו בין לשון הפנייה
למילה 'בעל חיים' הוא החזקה ביותר.

בשכבת הקשב העצמי מדגישה מילים שרלוונטיות למונח 'זה'. במקרה הזה, שכבת תשומת הלב למדה להדגיש מילים שהיא עשויה להתייחס אליהן, ולהקצות את המשקל הגבוה ביותר לבעל חיים.

ברצף של n אסימונים, הקשב עצמי משנה רצף של הטמעות n פעמים נפרדות, פעם אחת בכל מיקום ברצף.

תוכלו להיעזר גם במאמרים בנושא תשומת לב וקשב עצמי עם מספר ראשים.

למידה מונחית

משפחה של שיטות להמרה של בעיה מסוג למידת מכונה לא מונחית לבעיה בלמידת מכונה מפוקחת, באמצעות יצירת תוויות חלופיות מדוגמאות ללא תוויות.

בחלק מהמודלים שמבוססים על טרנספורמר, כמו BERT, נעשה שימוש בלמידה מונחית.

הדרכה בפיקוח עצמי היא גישת למידה מונחית למחצה.

אימון עצמי

וריאציה של למידה בניהול עצמי שימושית במיוחד כשמתקיימים כל התנאים הבאים:

היחס בין דוגמאות ללא תווית לבין דוגמאות במערך הנתונים הוא גבוה.
זו בעיה שקשורה לסיווג.

האימון העצמי פועל על ידי חזרה על שני השלבים הבאים, עד שהמודל מפסיק להשתפר:

אפשר להשתמש בלמידת מכונה מבוקרת כדי לאמן מודל על הדוגמאות המסומנות.
משתמשים במודל שנוצר בשלב 1 כדי ליצור חיזויים (תוויות) על הדוגמאות ללא תוויות, ומעבירים את הדוגמאות שבהן יש סבירות גבוהה אל הדוגמאות עם התווית החזויה.

שימו לב שבכל איטרציה של שלב 2 מתווספות עוד דוגמאות עם תוויות שמצריכות אימון לקראת שלב 1.

למידה מונחית למחצה

אימון מודל על נתונים כשבחלק מהדוגמאות לאימון יש תוויות, ובאחרים אין תוויות. אחת השיטות של למידה מונחית למחצה היא להסיק את התוויות ללא תוויות, ולאחר מכן לאמן את התוויות לפי תוויות הסקת כדי ליצור מודל חדש. למידה מונחית למחצה יכולה להיות שימושית אם יקר להשיג תוויות, אבל יש בשפע דוגמאות ללא תוויות.

אימון עצמי היא שיטה ללמידה מונחית למחצה.

מאפיין רגיש

#fairness

מאפיין אנושי שיכול להיות שצריך להתחשב בו במיוחד מסיבות משפטיות, אתיות, חברתיות או אישיות.

ניתוח סנטימנט

#language

שימוש באלגוריתמים סטטיסטיים או באלגוריתמים של למידת מכונה כדי לקבוע את הגישה הכוללת של קבוצה – חיובית או שלילית – לשירות, למוצר, לארגון או לנושא. לדוגמה, באמצעות הבנת שפה טבעית, אלגוריתם יכול לבצע ניתוח סנטימנטים במשוב הטקסטי מקורס באוניברסיטה כדי לקבוע את מידת האדיבות הכללית של הקורס באוניברסיטה.

מודל רצף

#seq

מודל שיש לקלטים שלו תלות רציפה. לדוגמה, חיזוי של הסרטון הבא שנצפה מתוך רצף של סרטונים שנצפו בעבר.

משימת רצף לרצף

#language

משימה שממירה רצף קלט של אסימונים לרצף פלט של אסימונים. לדוגמה, יש שני סוגים פופולריים של משימות רצף לרצף:

מתרגמים:
- רצף קלט לדוגמה: "אני אוהב אותך".
- רצף פלט לדוגמה: "Je t'aime".
מענה על שאלות:
- רצף קלט לדוגמה: "Do I need my car in Tel Aviv?"
- רצף פלט לדוגמה: "לא. יש להשאיר את הרכב בבית".

מנה

התהליך של הפיכת מודל מאומן לזמין כדי לספק חיזויים באמצעות הסקת מסקנות אונליין או הסקת מסקנות אופליין.

צורה (Tensor)

מספר הרכיבים בכל מאפיין של tensor. הצורה מיוצגת כרשימה של מספרים שלמים. לדוגמה, לטן הדו-ממדי הבא יש צורה [3,4]:

[[5, 7, 6, 4],
 [2, 9, 4, 8],
 [3, 6, 5, 1]]

ב-TensorFlow נעשה שימוש בפורמט שורה-major (בסגנון C) כדי לייצג את סדר המימדים, ולכן הצורה ב-TensorFlow היא [3,4] ולא [4,3]. במילים אחרות, ב-TensorFlow Tensor דו-ממדי, הצורה היא [מספר השורות, מספר העמודות].

פיצול

#TensorFlow

#GoogleCloud

חלוקה לוגית של ערכת האימון או של המודל. בדרך כלל, תהליכים מסוימים יוצרים פיצולים על ידי חלוקת הדוגמאות או הפרמטרים למקטעים בגודל שווה (בדרך כלל). לאחר מכן, כל פיצול מוקצה למכונה אחרת.

פיצול של מודל נקרא מקביליות של מודלים; פיצול נתונים נקרא מקביליות של נתונים.

כיווץ

#df

היפר-פרמטר בשיפור הדרגתי שקובע את הוספת יתר. כיווץ השיפור ההדרגתי מקביל לקצב הלמידה בירידה הדרגתית. הכיווץ הוא ערך עשרוני בין 0.0 ל-1.0. ערך הכיווץ נמוך מפחית את התאמת היתר מאשר ערך גדול יותר של הכיווץ.

פונקציית סיגמואיד

#fundamentals

פונקציה מתמטית ש'מדחיקה' ערך קלט לטווח מוגבל, בדרך כלל 0 עד 1 או -1 עד +1. כלומר, אפשר להעביר כל מספר (שני, מיליון, מיליארד שלילי או לא כל דבר) לסיגמואיד, והפלט עדיין יהיה בטווח המוגבל. תרשים של פונקציית ההפעלה סיגמואיד נראה כך:

לפונקציה סיגמואיד יש מספר שימושים בלמידת מכונה, כולל:

המרת התפוקה הגולמית של מודל רגרסיה לוגיסטית או של רגרסיה מולטינומית להסתברות.
היא משמשת כפונקציית הפעלה ברשתות נוירונים מסוימות.

לוחצים על הסמל כדי לראות את החשבון.

לפונקציית הסיגמואיד מעל מספר קלט x יש את הנוסחה הבאה:

$$ sigmoid(x) = \frac{1}{1 + e^{-\text{x}}} $$

בלמידת מכונה, x הוא בדרך כלל סכום משוקלל.

מידת דמיון

#clustering

באלגוריתמים של קיבוץ, המדד שמשמש כדי לקבוע את מידת הדמיון (מידת הדמיון) בין שתי דוגמאות.

תוכנית יחידה / נתונים מרובים (SPMD)

טכניקת מקבילית שבה אותו מחשוב מופעל על נתוני קלט שונים במקביל במכשירים שונים. המטרה של SPMD היא להשיג תוצאות במהירות רבה יותר. זה הסגנון הנפוץ ביותר בתכנות מקביל.

שונות של גודל

#image

במקרה של בעיה בסיווג תמונות, היכולת של אלגוריתם לסווג תמונות בהצלחה גם כשגודל התמונה משתנה. לדוגמה, האלגוריתם עדיין יכול לזהות חתול אם הוא צורך 2 מיליון פיקסלים או 200,000 פיקסלים. שימו לב שגם לאלגוריתמים הטובים ביותר של סיווג תמונות יש עדיין מגבלות פרקטיות על שונות בגודל. לדוגמה, סביר להניח שאלגוריתם (או בן אדם) לא יסווג בצורה נכונה תמונת חתול שצורכת 20 פיקסלים בלבד.

למידע נוסף, אפשר לעיין בקטעים שונות תרגום ושונות סיבובית.

רישום

#clustering

בקטע למידת מכונה לא מונחית, קטגוריה של אלגוריתמים שמבצעים ניתוח ראשוני של דמיון על דוגמאות. אלגוריתמים של שרטוט משתמשים ב פונקציית גיבוב תלוית מיקום כדי לזהות נקודות שסביר להניח שיהיו דומות, ולאחר מכן מקבצים אותן לקטגוריות.

השרטוט מפחית את כמות המחשוב הנדרשת לחישובי דמיון במערכי נתונים גדולים. במקום לחשב את הדמיון בין כל זוג דוגמאות במערך הנתונים, אנחנו מחשבים את הדמיון רק לכל זוג נקודות בכל קטגוריה.

דילוג על gram

#language

n-gram שיכול להשמיט (או "לדלג") מילים מהקשר המקורי, כלומר יכול להיות ש-N המילים לא היו קשורות במקור. באופן מדויק יותר, "k-skip-n-gram" הוא n-gram שעליו דילגתם על עד k מילים.

לדוגמה, ל"שועל החום המהיר" יש 2 גרם אפשריות:

"המהיר"
"חום מהיר"
"חום שועל"

הביטוי "1-skip-2-gram" הוא זוג מילים שיש ביניהן מילה אחת לכל היותר. לכן, ל"שועל החום המהיר" יש 2 גרם של דילוג אחד:

"חום"
"שועל מהיר"

בנוסף, כל שני הגרם הם גם 1-skip-2-gram, כי אפשר לדלג על פחות ממילה אחת.

השימוש בגרם דילוגים עוזר להבין טוב יותר את ההקשר של המילה. בדוגמה, המילה "fox" שויך ישירות ל "מהיר" בקבוצה של 1-skip-2 גרם, אבל לא בקבוצה של 2 גרם.

דילוג על גרם עוזר לאמן מודלים של הטמעת מילים.

softmax

#fundamentals

פונקציה שקובעת הסתברויות לכל מחלקה אפשרית במודל סיווג מרובה מחלקות. ההסתברויות מסתכמות ל-1.0 בדיוק. לדוגמה, הטבלה הבאה מראה איך softmax מחלק הסתברויות שונות:

התמונה היא...	Probability
כלב	.85
cat	13.
סוס	02.

softmax נקרא גם softmax מלא.

בניגוד לדגימת מועמד.

לוחצים על הסמל כדי לראות את החשבון.

משוואת ה-softmax היא:

$$\sigma_i = \frac{e^{\text{z}_i}} {\sum_{j=1}^{j=K} {e^{\text{z}_j}}} $$

איפה:

$\sigma_i$ הוא וקטור הפלט. כל רכיב של וקטור הפלט מציין את ההסתברות של הרכיב הזה. הסכום של כל הרכיבים בווקטור הפלט הוא 1.0. וקטור הפלט מכיל את אותו מספר אלמנטים כמו וקטור הקלט, $z$.
$z$ הוא וקטור הקלט. כל רכיב של וקטור הקלט מכיל ערך של נקודה צפה (floating-point).
$K$ הוא מספר האלמנטים בווקטור הקלט (ווקטור הפלט).

לדוגמה, נניח שוקטור הקלט הוא:

[1.2, 2.5, 1.8]

לכן, הפונקציה softmax מחשבת את המכנה באופן הבא:

$$\text{denominator} = e^{1.2} + e^{2.5} + e^{1.8} = 21.552$$

לכן ההסתברות הרכה של כל רכיב היא:

$$\sigma_1 = \frac{e^{1.2}}{21.552} = 0.154 $$ $$\sigma_2 = \frac{e^{2.5}}{21.552} = 0.565 $$ $$\sigma_1 = \frac{e^{1.8}}{21.552} = 0.281 $$

לכן, וקטור הפלט הוא:

$$\sigma = [0.154, 0.565, 0.281]$$

סכום שלושת הרכיבים ב-$\sigma$ הוא 1.0. סוף סוף!

כוונון של הנחיות עם יכולת שחזור

#language

#generativeAI

שיטה לכוונון מודל שפה גדול (LLM) למשימה מסוימת, ללא כוונון עדין עתיר משאבים. במקום לאמן מחדש את כל המשקלים במודל, כוונון של הנחיות עם יכולת שחזור מתאים באופן אוטומטי הודעה כדי להשיג את אותה המטרה.

בהינתן הנחיה טקסטואלית, בדרך כלל, כוונון של הנחיות רכה מצרף להנחיה עוד הטמעות של אסימונים, ומשתמש בהפצה לאחור כדי לבצע אופטימיזציה של הקלט.

הנחיה 'קשה' מכילה אסימונים בפועל במקום הטמעות אסימונים.

ישות מועטה

#language

#fundamentals

תכונה שהערכים שלה הם בעיקר אפס או ריקים. לדוגמה, מאפיין שמכיל ערך בודד של 1 ומיליון ערכים הוא 0 הוא חלקי. לעומת זאת, לתכונה צפופה יש ערכים שהם בעיקר לא אפס או ריקים.

בלמידת מכונה יש מעט תכונות שהן מעטות. תכונות קטגוריות הן בדרך כלל ישויות מועטות. לדוגמה, מתוך 300 זני העצים האפשריים ביער, דוגמה אחת יכולה לזהות רק עץ מייפל. או, מתוך מיליוני הסרטונים האפשריים בספריית סרטונים, רק דוגמה אחת יכולה לזהות את קזבלנקה.

במודל, אתם בדרך כלל מייצגים תכונות מיעוט באמצעות קידוד one-hot. אם הקידוד החד-פעמי גדול, אפשר להוסיף שכבת הטמעה על גבי הקידוד החד-פעמי כדי לשפר את היעילות.

ייצוג דל

#language

#fundamentals

אחסון רק את המיקום(או המיקומים) של רכיבים שאינם אפס בתכונה מצומצמת.

לדוגמה, נניח שתכונה קטגורית בשם species מזהה את 36 זני העצים ביער מסוים. בנוסף, נניח שכל דוגמה מזהה רק מין אחד.

בכל דוגמה אפשר להשתמש בווקטור חם אחד כדי לייצג את מין העצים. וקטור אחד החם יכלול 1 יחיד (שמייצג את סוג העצים הספציפי בדוגמה הזו) ו-35 פריטי 0 (שמייצג את 35 זני העצים לא בדוגמה הזו). אז הייצוג החם ביותר של maple עשוי להיראות כך:

וקטור שבו מיקומים 0 עד 23 מכילים את הערך 0, מיקום 24 מכיל את הערך 1 ומיקומים 25 עד 35 מכילים את הערך 0.

לחלופין, ייצוג דל פשוט יזהה את המיקום של המינים האלה. אם maple נמצא במיקום 24, הייצוג המועט של maple יהיה פשוט:

שימו לב שהייצוג הדליל הוא הרבה יותר קומפקטי מהייצוג בחום אחד.

לוחצים על הסמל כדי לראות דוגמה קצת יותר מורכבת.

נניח שכל דוגמה במודל שלך צריכה לייצג את המילים - אבל לא את הסדר של המילים האלה - במשפט באנגלית. באנגלית יש כ-170,000 מילים, כך שאנגלית היא קטגוריה שכוללת כ-170,000 רכיבים. ברוב המשפטים באנגלית משתמשים בחלק זעיר מאוד מתוך 170,000 המילים האלה, כך שקבוצת המילים בדוגמה אחת כמעט ודאית תהיה מועטה.

נשקול את המשפט הבא:

My dog is a great dog

אפשר להשתמש בווריאנט של וקטור חם אחד כדי לייצג את המילים במשפט הזה. בווריאנט הזה, כמה תאים בווקטור יכולים להכיל ערך שהוא לא אפס. בנוסף, בווריאנט הזה, תא יכול להכיל מספר שלם אחר. למרות שהמילים "my", "is", "a" ו-"נהדר" מופיעות רק פעם אחת במשפט, המילה "כלב" מופיעה פעמיים. השימוש בווריאנט הזה של וקטורים חמים אחדות כדי לייצג את המילים במשפט מניב את הווקטור הבא של 170,000 רכיבים:

ייצוג דלי של אותו משפט יהיה פשוט:

אם זה לא ברור, לוחצים על הסמל.

המונח 'ייצוג דליל' מבלבל הרבה אנשים, כי ייצוג דל הוא עצמו לא וקטור דליל. במקום זאת, ייצוג sparse הוא ייצוג צפוף של וקטור דליל. המילה הנרדפת ייצוג אינדקס קצת יותר ברורה מ"ייצוג דליל".

וקטור sparse

#fundamentals

וקטור שהערכים שלו הם בעיקר אפסים. למידע נוסף, אפשר לקרוא את המאמרים ניתוח נתונים וsparsity.

sparsity

מספר הרכיבים שמוגדרים לאפס (או null) בווקטור או במטריצה, חלקי המספר הכולל של הרשומות בווקטור או במטריצה. לדוגמה, נניח שמטריצה של 100 רכיבים שבה 98 תאים מכילים אפס. כך מחשבים את השוויון:

$$ {\text{sparsity}} = \frac{\text{98}} {\text{100}} = {\text{0.98}} $$

מיעוט התכונות מתייחס למידת הצמצום של וקטור מאפיינים. מיעוט המודלים מתייחס למובילות של משקלי המודל.

מאגר מרחבי

#image

למידע נוסף, ראו איסוף.

פיצול

#df

בעץ החלטות, שם אחר לתנאי.

מפצל

#df

בזמן אימון של עץ החלטות, התרחיש (והאלגוריתם) שאחראי למציאת התנאי הטוב ביותר בכל צומת.

SPMD

קיצור לתוכנית יחידה / נתונים מרובים.

אובדן ציר בריבוע

הריבוע של אובדן הציר. איבוד ציר ריבועי מעניש על חריגים בצורה חמורה יותר מאשר אובדן ציר רגיל.

הפסד בריבוע

#fundamentals

מילה נרדפת להפסד L₂.

אימון מדורג

#language

טקטיקה של אימון מודל ברצף של שלבים נפרדים. המטרה יכולה להיות לזרז את תהליך האימון או לשפר את איכות המודל.

איור של גישת הערימה הפרוגרמטית:

שלב 1 מכיל 3 שכבות מוסתרות, שלב 2 מכיל 6 שכבות מוסתרות ושלב 3 מכיל 12 שכבות מוסתרות.
שלב 2 מתחיל להתאמן עם המשקולות שנלמדו בשלוש השכבות המוסתרות בשלב 1. שלב 3 מתחיל להתאמן עם המשקולות שנלמדו ב-6 השכבות הנסתרות בשלב 2.

שלושה שלבים, עם התוויות 'שלב 1', 'שלב 2' ו'שלב 3'.
כל שלב מכיל מספר שכבות שונה: שלב 1 מכיל 3 שכבות, שלב 2 מכיל 6 שכבות ושלב 3 מכיל 12 שכבות.
שלוש השכבות משלב 1 הופכות לשלוש השכבות הראשונות של שלב 2.
באופן דומה, 6 השכבות משלב 2 הופכות ל-6 השכבות הראשונות של שלב 3.

ראו גם צינור עיבוד נתונים.

state

#fundamentals

אלגוריתם של ירידה הדרגתית שבו גודל האצווה הוא 1. במילים אחרות, SGD מאמן לפי דוגמה אחת שנבחרת באופן אקראי באופן אקראי מקבוצת אימון.

צעד

#image

בפעולה קונבולטיבית או במאגר, הדלתא בכל מאפיין בסדרה הבאה של פרוסות הקלט. לדוגמה, האנימציה הבאה ממחישה פסת (1,1) במהלך פעולה מורכבת. לכן, פרוסת הקלט הבאה מתחילה מיקום אחד מימין לפרוסת הקלט הקודמת. כשהפעולה מגיעה לקצה הימני, הפרוסה הבאה נמצאת כל הדרך שמאלה, אבל מיקום אחד למטה.

הדוגמה הקודמת ממחישה קו דו-ממדי. אם מטריצת הקלט היא תלת-ממדית, גם הפס יהיה תלת-ממדי.

צמצום סיכונים מבניים (SRM)

אלגוריתם שמאזן בין שני יעדים:

הצורך לבנות את מודל החיזוי הטוב ביותר (לדוגמה, אובדן נמוך ביותר).
הצורך לשמור על מודל פשוט ככל האפשר (למשל, רגולציה חזקה).

לדוגמה, פונקציה שמפחיתה את אובדן+המיעלות בקבוצת האימון היא אלגוריתם מבני למזעור סיכון.

בניגוד לצמצום סיכונים אמפירי.

תת-דגימה

#image

למידע נוסף, ראו איסוף.

אסימון של מילת משנה

#language

במודלים של שפה, אסימון שהוא מחרוזת משנה של מילה, שיכול להיות המילה כולה.

לדוגמה, יכול להיות שמילה כמו "itemize" תפוצל לחלקים "item" (מילת שורש) ו-"ize" (סיומת), שכל אחת מהן מיוצגת על ידי אסימון משלה. פיצול מילים לא נפוצות לחלקים כאלה, שנקראות מילות משנה, מאפשר למודלים של שפה לפעול על החלקים הנפוצים יותר של המילה, כמו קידומות וסיומות.

לעומת זאת, יכול להיות שמילים נפוצות כמו "פועל" לא יפוצלו, והן עשויות להיות מיוצגות באמצעות אסימון יחיד.

סיכום

#TensorFlow

ב-TensorFlow, ערך או קבוצת ערכים שמחושבים בשלב מסוים, ומשמשים בדרך כלל למעקב אחר מדדי המודל במהלך האימון.

למידת מכונה מבוקרת

#fundamentals

אימון model מ-model והmodel התואמות שלהן. למידת מכונה מבוקרת מקבילה ללמידת נושא, על ידי בחינת קבוצת שאלות והתשובות התואמות להן. אחרי שהם שולטים במיפוי בין השאלות והתשובות, התלמידים יכולים לענות על שאלות חדשות (שאף פעם לא ראיתם) באותו נושא.

בהשוואה ללמידת מכונה לא מונחית.

תכונה סינתטית

#fundamentals

תכונה שלא קיימת בין תכונות הקלט, אלא מורכבת מאחת או יותר מהן. השיטות ליצירת תכונות סינתטיות כוללות:

Bucketing – תכונה רציפה לסלי טווחים.
יצירת מעבר תכונות.
הכפלה (או חילוק) של ערך של תכונה אחת בערכי תכונה אחרים או בפני עצמה. לדוגמה, אם a ו-b הן תכונות של קלט, לפניכם דוגמאות לתכונות סינתטיות:
- ab
- א²
החלה של פונקציה טרנסצנדנטלית על ערך של תכונה. לדוגמה, אם c היא תכונה של קלט, לפניכם דוגמאות לתכונות סינתטיות:
- sin(c)
- ln(c)

תכונות שנוצרו על ידי נרמול או קנה מידה תכונות לבדן לא נחשבות כסינתיות.

T

T5

#language

מודל העברת למידה של טקסט לטקסט, שהושק על ידי Google AI בשנת 2020. T5 הוא מודל מקודד-מפענח, שמבוסס על ארכיטקטורת Transformer, שאומן על מערך נתונים גדול במיוחד. הוא יעיל במגוון משימות של עיבוד שפה טבעית (NLP) כמו יצירת טקסט, תרגום שפות ומענה על שאלות בשיחות.

T5 מקבל את שמו מחמשת האותיות T ב-"Text-to-Text Transfer Transformer".

T5X

#language

מסגרת של למידת מכונה בקוד פתוח, שנועדה ליצור ולאמן מודלים גדולים של עיבוד שפה טבעית (NLP) בקנה מידה גדול. T5 מוטמע ב-codebase T5X (שמבוסס על JAX ו-Flax).

טבלת לימוד Q

#rl

במסגרת למידת חיזוק, הטמעת Q-learning באמצעות טבלה לאחסון פונקציות ה-Q לכל שילוב של מצב ופעולה.

יעד

מילה נרדפת ל-label.

רשת היעד

#rl

במודל Deep Q-learning, רשת נוירונים שהיא הערכה יציבה של רשת הנוירונים הראשית, שבה רשת הנוירונים הראשית מטמיעה פונקציית Q או מדיניות. לאחר מכן אפשר לאמן את הרשת הראשית לפי ערכי ה-Q שחוזים רשת היעד. לכן, אתם מונעים את לולאת המשוב שמתרחשת כשהרשת הראשית מאומנת על ערכי Q שחזויים בעצמם. על ידי מניעת המשוב הזה, יציבות האימון עולה.

משימה

בעיה שאפשר לפתור באמצעות טכניקות של למידת מכונה, כמו:

סיווג
רגרסיה
יצירת אשכולות
זיהוי אנומליות

טמפרטורה

#language

#image

#generativeAI

היפר-פרמטר שקובע את מידת הרנדומיזציה של הפלט של המודל. טמפרטורה גבוהה יותר מובילה לפלט אקראי יותר, וטמפרטורות נמוכות יותר מניבות פלט אקראי פחות.

בחירת הטמפרטורה הטובה ביותר תלויה באפליקציה הספציפית ובמאפיינים המועדפים של הפלט של המודל. לדוגמה, סביר להניח שתרצו להעלות את הטמפרטורה כשיוצרים אפליקציה שמייצרת פלט של קריאייטיב. לעומת זאת, כדאי להוריד את הטמפרטורה כשבונים מודל שמסווג תמונות או טקסט כדי לשפר את הדיוק והעקביות של המודל.

#TensorFlow

המספר הכולל של הסקלרים שTensor מכיל. לדוגמה, ל-Tensor [5, 10] יש גודל של 50.

TensorStore

ספרייה לקריאה ולכתיבה ביעילות של מערכים רב-ממדיים גדולים.

תנאי סיום

#rl

בלמידת החיזוק, התנאים שקובעים מתי פרק יסתיים, למשל מתי הנציג מגיע למצב מסוים או חורג ממספר הסף של מעברים בין מצבים. לדוגמה, בפונקציית tic-tac-toe (שנקראת גם פקקים והצלבים), פרק מסתיים כשהשחקן מסמן שלושה רווחים ברצף או כשכל הרווחים מסומנים.

test

#df

בעץ החלטות, שם אחר לתנאי.

אובדן בדיקה

#fundamentals

מדד שמייצג את ההפסד של המודל מול קבוצת הבדיקה. כשאתם יוצרים model, בדרך כלל כדאי לצמצם את אובדן הבדיקות. הסיבה לכך היא שהפסד נמוך בבדיקות הוא אות איכות חזק יותר מהפסד נמוך באימון או אובדן נמוך של האימות.

לפעמים, פער גדול בין אובדן של בדיקות לבין אובדן אימון או אובדן אימות – מצביע על כך שצריך להגדיל את שיעור הרגולטור.

ערכת בדיקה

קבוצת משנה של מערך הנתונים ששמורה לבדיקת מודל שעבר אימון.

באופן מסורתי, מחלקים את הדוגמאות במערך הנתונים לשלוש קבוצות משנה נפרדות:

ערכת אימון
קבוצת אימות
ערכת בדיקה

כל דוגמה במערך נתונים צריכה להשתייך רק לאחת מקבוצות המשנה הקודמות. למשל, דוגמה אחת לא צריכה להשתייך גם לערכת האימון וגם לקבוצת הבדיקה.

יש קשר הדוק בין קבוצת האימון לבין קבוצת האימות לאימון מודל. מאחר שקבוצת הבדיקות משויכת רק באופן עקיף לאימון, אובדן בדיקה הוא מדד פחות מוטה באיכות גבוהה יותר מאיבוד אימון או אובדן אימות.

טווח הטקסט

#language

טווח האינדקס של המערך שמשויך לקטע משנה ספציפי של מחרוזת טקסט. לדוגמה, המילה good במחרוזת Python s="Be good now" מכילה את טווח הטקסט מ-3 עד 6.

tf.Example

#TensorFlow

מאגר פרוטוקול אינטרנט סטנדרטי לתיאור נתוני קלט לאימון מודלים של למידת מכונה או להסקת הנתונים.

tf.keras

#TensorFlow

הטמעה של Keras המשולבת ב-TensorFlow.

סף (לעצי החלטות)

#df

בתנאי יישור לציר, הערך שאליו מתבצעת השוואה של תכונה. לדוגמה, 75 הוא ערך הסף בתנאי הבא:

grade >= 75

ניתוח פעולות על ציר הזמן

#clustering

תחום משנה של למידת מכונה וסטטיסטיקה שמנתחים נתונים זמניים. סוגים רבים של בעיות בלמידת מכונה דורשים ניתוח של פעולות על ציר הזמן, כולל סיווג, קיבוץ, חיזוי וזיהוי אנומליות. לדוגמה, אפשר להשתמש בניתוח סדרות זמנים כדי לחזות את המכירות העתידיות של מעילי החורף לפי חודש על סמך נתוני מכירות היסטוריים.

צעד זמן

#seq

תא אחד (unrolled) בתוך רשת נוירונים חוזרת. לדוגמה, האיור הבא מציג שלושה שלבי זמן (מסומנים בתוויות t-1, t ו-t+1):

שלושה שלבי זמן ברשת נוירונים חוזרת. הפלט של
השלב הראשון הופך לקלט של שלב הזמן השני. הפלט של השלב השני הופך לקלט של שלב הזמן השלישי.

token

#language

במודל שפה, היחידה האטומית שעליה המודל מתאמן ומבצעת תחזיות. בדרך כלל אסימון הוא אחד מהבאים:

מילה מסוימת – לדוגמה, הביטוי "כלבים כמו חתולים" מורכב משלושה אסימוני מילים: "כלבים", "לייק" ו "חתולים".
דמות כלשהי – לדוגמה, הביטוי 'דגי אופניים' כולל אסימונים עם תשעה תווים. (שימו לב שהרווח הריק נחשב לאחד מהאסימונים).
מילות משנה – שבהן מילה יחידה יכולה להיות אסימון יחיד או כמה אסימונים. מילת משנה מורכבת ממילת שורש, מקידומת או מסיומת. לדוגמה, מודל שפה שמשתמש במילות משנה בתור אסימונים עשוי לראות את המילה 'כלבים' כשני אסימונים (מילה השורש 'כלב' וסיומת הרבים 's'). אותו מודל שפה עשוי להתייחס למילה הבודדת "taller" כשתי מילות משנה (מילת הבסיס "tall" והסיומת "er").

#fundamentals

תהליך קביעת הפרמטרים האידיאליים (משקולות והטיות) שמרכיבים מודל. במהלך האימון, המערכת קוראת דוגמאות ומתאימה את הפרמטרים בהדרגה. באימון אנחנו משתמשים בכל דוגמה, בין כמה פעמים למיליארדי פעמים.

אובדן אימון

#fundamentals

מדד שמייצג את ההפסד של מודל במהלך איטרציה מסוימת של אימון. לדוגמה, נניח שפונקציית האובדן היא שגיאה בריבוע הממוצע. אולי אובדן האימון (Rean Squared Error) 2.2 באיטרציה העשירית הוא 2.2 ואובדן האימון באיטרציה ה-100 הוא 1.9.

בעקומת הפסד מוצג תרשים של אובדן אימון לעומת מספר החזרות. עקומת הפסד מספקת את הרמזים הבאים לגבי אימון:

שיפוע כלפי מטה מצביע על כך שהמודל משתפר.
שיפוע כלפי מעלה מרמז שהמודל מחמיר.
אם יש שיפוע ישר, זה אומר שהמודל הגיע להמרות.

לדוגמה, עקומת ההפסד שעברה אידיאליזציה במידה מסוימת מציגה:

שיפוע תלול כלפי מטה במהלך האיטרציות הראשוניות, שמרמז על שיפור מהיר של המודל.
שיפוע הדרגתי (אבל עדיין כלפי מטה) עד קרוב לסוף האימון, מה שמרמז על המשך שיפור המודל בקצב מעט איטי יותר מאשר במהלך האיטרציות הראשוניות.
שיפוע ישר לקראת סוף האימון, דבר המרמז על התכנסות.

תרשים של אובדן אימון לעומת איטרציות. עקומת הפסד זו מתחילה
במדרון תלול כלפי מטה. השיפוע נהיה שטוח בהדרגה עד
שהשיפוע הופך לאפס.

למרות שאובדן האימון חשוב, כדאי לקרוא גם את ההכללה.

training-serving skew

#fundamentals

ההבדל בין ביצועי המודל במהלך האימון לבין הביצועים של אותו מודל במהלך הצגת המודעות.

ערכת אימון

#fundamentals

קבוצת המשנה של מערך הנתונים שמשמש לאימון מודל.

באופן מסורתי, הדוגמאות במערך הנתונים מחולקות לשלוש קבוצות משנה נפרדות:

ערכת אימון
קבוצת אימות
קבוצת בדיקה

באופן אידיאלי, כל דוגמה במערך הנתונים צריכה להשתייך רק לאחת מקבוצות המשנה הקודמות. לדוגמה, דוגמה אחת לא צריכה להשתייך גם לערכת האימון וגם לקבוצת התיקוף.

מסלול

#rl

בלמידת חיזוק, רצף של צמדים שמייצג רצף של מעברי מצב של הסוכן, כאשר כל משולש תואם למדינה, פעולה, תגמול והמצב הבא במעבר למצב נתון.

העברת הלמידה

העברת מידע ממשימה אחת של למידת מכונה לאחרת. לדוגמה, בלמידה בריבוי משימות, מודל יחיד פותר כמה משימות, כמו מודל עומק שיש לו צומתי פלט שונים למשימות שונות. העברת הלמידה יכולה להיות כרוכה בהעברת ידע מפתרון של משימה פשוטה יותר למשימה מורכבת יותר, או בהעברת ידע ממשימה שבה יש יותר נתונים למשימה שבה יש פחות נתונים.

רוב המערכות של למידת המכונה מבצעות משימה יחידה. למידת העברה היא שלב ראשוני בבינה מלאכותית, שבו תוכנית אחת יכולה לפתור מספר משימות.

רובוטריק

#language

ארכיטקטורה של רשתות נוירונים שפותחה ב-Google ומסתמכת על מנגנוני קשב עצמי כדי לשנות רצף של הטמעות קלט לרצף של הטמעות פלט בלי להסתמך על קובולציות או על רשתות נוירונים חוזרות. אפשר להציג את הטרנספורמר בתור מקבץ של שכבות של תשומת לב עצמית.

טרנספורמר יכול לכלול כל אחת מהאפשרויות הבאות:

מקודד
מפענח
גם מקודד וגם מפענח,

מקודד ממיר רצף של הטמעות לרצף חדש באותו אורך. המקודד כולל N שכבות זהות, וכל אחת מהן מכילה שתי שכבות משנה. שתי שכבות המשנה האלה מוחלות בכל מיקום ברצף של הטמעת הקלט, וכל רכיב ברצף הופך להטמעה חדשה. שכבת המשנה הראשונה של המקודד צוברת מידע מכל רצף הקלט. שכבת המשנה השנייה של המקודד הופכת את המידע הנצבר להטמעת פלט.

מפענח ממיר רצף של הטמעות קלט לרצף של הטמעות פלט, אולי באורך שונה. המפענח כולל גם N שכבות זהות עם שלוש שכבות משנה, ששתיים מהן דומות לשכבות המשנה של המקודד. שכבת המשנה השלישית של המפענח מקבלת את פלט המקודד ומחילה את מנגנון ההקשבה העצמית כדי לאסוף ממנו מידע.

בפוסט בבלוג Transformer: A Novel Neural Network Architecture for LanguageUnderstanding ניתן למצוא מבוא טוב לטרנספורמרים.

שונות מתורגמת

#image

במקרה של בעיה בסיווג תמונות, היכולת של אלגוריתם לסווג תמונות בהצלחה גם אם מיקום האובייקטים בתוך התמונה משתנה. לדוגמה, האלגוריתם יכול עדיין לזהות כלב, בין אם הוא נמצא במרכז המסגרת או בקצה השמאלי של המסגרת.

למידע נוסף, אפשר לקרוא מידע נוסף על שונות הגודל ושונות הסיבוב.

טריגרם

#seq

#fundamentals

יצירת model עם יכולת חיזוי נמוכה כי המודל לא השלים את המורכבות של נתוני האימון. הרבה בעיות יכולות לגרום להתאמה מלאה, כולל:

הדרכה על קבוצה שגויה של תכונות.
אימונים במשך מעט מדי תקופות של זמן או קצב למידה נמוך מדי.
אימון עם שיעור רגולטור גבוה מדי.
יצירת מעט מדי שכבות מוסתרות ברשת נוירונים עמוקה.

דגימה נמוכה מדי

הסרת דוגמאות מסיווג רוב ממערך נתונים לא מאוזן מבחינה כיתתית כדי ליצור קבוצת אימון מאוזנת יותר.

לדוגמה, נניח שיש מערך נתונים שבו היחס בין סיווג הרוב לבין סיווג מיעוט הוא 20:1. כדי להתגבר על חוסר האיזון הכיתתי, תוכלו ליצור קבוצת אימון שמורכבת מכל הדוגמאות של קבוצות מיעוט, אבל רק עשירית מהדוגמאות של כיתות הרוב. כך תיווצר יחס של 2:1 למערכי אימון. בזכות הדגימה החלקית, קבוצת האימונים המאוזנת יותר עשויה להפיק מודל טוב יותר. לחלופין, ערכת האימון המאוזנת יותר הזו עשויה להכיל מספיק דוגמאות כדי לאמן מודל אפקטיבי.

בניגוד לדגימת יתר.

חד-כיווני

#language

מערכת שבודקת רק את הטקסט שקודם לקטע יעד בטקסט. לעומת זאת, מערכת דו-כיוונית מעריכה גם את הטקסט שקודם וגם עוקב אחרי קטע יעד של טקסט. לפרטים נוספים, אפשר לעיין בקטע דו-כיווני.

מודל שפה חד-כיווני

#language

מודל שפה שמבסס את ההסתברויות שלו רק על האסימונים שמופיעים לפני, ולא אחרי אסימוני היעד. ליצור ניגוד למודל שפה דו-כיווני.

דוגמה ללא תווית

#fundamentals

דוגמה שמכילה תכונות אבל לא תווית. לדוגמה, בטבלה הבאה מוצגות שלוש דוגמאות ללא תווית ממודל של הערכת בית, שלכל אחת יש שלוש תכונות אבל ללא ערך בית:

מספר חדרי שינה	מספר חדרי הרחצה	גיל הבית
3	2	‏15
2	1	72
4	2	34

בלמידת מכונה מפוקחת, המודלים מתאמנים על דוגמאות מסומנות ויוצרים תחזיות על דוגמאות ללא תוויות.

בלמידה בפיקוח חצי וללא פיקוח, משתמשים בדוגמאות ללא תוויות במהלך האימון.

להשוות בין דוגמה ללא תווית לבין דוגמה עם תווית.

למידת מכונה בלתי מונחית

#clustering

#fundamentals

אימון model כדי למצוא דפוסים במערך נתונים, בדרך כלל במערך נתונים ללא תווית.

השימוש הנפוץ ביותר בלמידת מכונה לא מונחית הוא קיבוץ של נתונים לקבוצות של דוגמאות דומות. לדוגמה, אלגוריתם של למידה חישובית ללא פיקוח יכול לקבץ שירים באשכולות על סמך מאפיינים שונים של המוזיקה. האשכולות שמתקבלים יכולים להפוך לקלט של אלגוריתמים אחרים של למידת מכונה (לדוגמה, לשירות המלצות על מוזיקה). אשכולות יכולים לעזור כשתוויות שימושיות חסרות או חסרות. לדוגמה, בדומיינים כמו מניעת ניצול לרעה והונאה, אשכולות יכולים לעזור לאנשים להבין טוב יותר את הנתונים.

בניגוד ללמידת מכונה מבוקרת.

כדי להציג הערות נוספות, לוחצים על הסמל.

דוגמה נוספת ללמידת מכונה לא מונחית היא ניתוח רכיבים עיקריים (PCA). לדוגמה, החלת PCA על מערך נתונים שמכיל את התוכן של מיליוני עגלות קניות עשויה לחשוף שעגלות קניות המכילות לימונים מכילות לעתים קרובות גם חומצות חומצה.

יצירת מודלים למדידת השיפור בביצועים

טכניקת בניית מודלים, המשמשת בדרך כלל לשיווק, שמציגה את 'ההשפעה הסיבתית' (שנקראת גם 'השפעה מצטברת') של 'טיפול' על אדם מסוים. כדי להבין זאת טוב יותר, הינה שתי דוגמאות:

רופאים יכולים להשתמש במודלים של עלייה כדי לחזות את הירידה בשיעור התמותה (ההשפעה הסיבתית) של הליך רפואי (טיפול), בהתאם לגיל ולהיסטוריה הרפואית של המטופל.
משווקים יכולים להשתמש במודלים למדידת התחזקות המותג כדי לחזות את העלייה בהסתברות לרכישה (ההשפעה הסיבתית) בעקבות פרסומת (טיפול) לאדם (אדם פרטי).

בניית מודל השיפור בביצועים שונה מסיווג או מרגרסיה בכך שתוויות מסוימות (למשל, מחצית מהתוויות בטיפולים בינאריים) תמיד חסרות בבניית מודלים של השיפור בביצועים. לדוגמה, מטופל יכול לקבל טיפול או לא לקבל טיפול. לכן, אנחנו יכולים לראות רק אם המטופל יכול להחלים או לא להחלים רק באחד משני המצבים האלה (אבל אף פעם לא בשניהם). היתרון העיקרי של מודל העלייה בנפח ההמרות הוא שהמודל הזה יכול ליצור תחזיות למצב שלא ניתן לתעד (המונח הנגדי) ולהשתמש בו כדי לחשב את ההשפעה הסיבתית.

שיפור משקל

החלת משקל על המחלקה הורדה של דגימה השווה לפקטור שבאמצעותו הורדתם את הדגימה.

מטריצת משתמשים

#recsystems

במערכות המלצה, וקטור הטמעה שנוצר על ידי פירוק לגורמים של מטריצה ומכיל אותות לטנטיים לגבי העדפות המשתמש. כל שורה במטריצת המשתמשים מכילה מידע על העוצמה היחסית של אותות נסתרים שונים למשתמש יחיד. לדוגמה, נניח שיש מערכת המלצות על סרטים. במערכת הזו, האותות הלטנטיים במטריצת המשתמשים עשויים לייצג את תחומי העניין של כל משתמש בז'אנרים מסוימים, או שהם עשויים להיות מסובכים לפירוש אותות שכוללים אינטראקציות מורכבות על פני מספר גורמים.

במטריצת המשתמשים יש עמודה לכל תכונה סמויה ושורה לכל משתמש. כלומר, במטריצת המשתמשים יש אותו מספר שורות כמו במטריצת היעד שמחולקת לגורמים. לדוגמה, בהינתן מערכת המלצות על סרטים ל-1,000,000 משתמשים, מטריצת המשתמשים תכלול 1,000,000 שורות.

V

אימות

#fundamentals

ההערכה הראשונית של איכות המודל. במסגרת האימות נבדקת איכות התחזיות של המודל מול קבוצת האימות.

מכיוון שקבוצת האימות שונה מערכת האימון, האימות עוזר להגן מפני התאמה יתר.

אפשר לחשוב על הערכת המודל מול מערך האימות שהוגדר בתור סבב הבדיקה הראשון, והערכה של המודל מול קבוצת הבדיקה כסבב הבדיקה השני.

אובדן של אימות

#fundamentals

מדד שמייצג את ההפסד של המודל בקבוצת האימות במהלך איטרציה מסוימת של אימון.

תוכלו לקרוא גם על עקומת ההכללה.

קבוצת אימות

#fundamentals

קבוצת המשנה של מערך הנתונים שמבצעת הערכה ראשונית מול מודל שעבר אימון. בדרך כלל, אתם בוחנים את המודל שעבר אימון מול קבוצת האימות כמה פעמים לפני שמעריכים את המודל מול קבוצת הבדיקה.

באופן מסורתי, מחלקים את הדוגמאות במערך הנתונים לשלוש קבוצות משנה נפרדות:

ערכת אימון
קבוצת אימות
קבוצת בדיקה

הקצאת ערך

תהליך החלפת ערך חסר בתחליף קביל. אם חסר ערך, אפשר למחוק את כל הדוגמה או להשתמש בהקפצת ערך כדי לנצל את הדוגמה.

לדוגמה, נניח מערך נתונים שמכיל את התכונה temperature שאמורה להיות מוקלטת בכל שעה. עם זאת, מדידת הטמפרטורה לא הייתה זמינה במשך שעה מסוימת. לפניכם קטע מתוך מערך הנתונים:

חותמת זמן	טמפרטורה
1680561000	10
1680564600	12
1680568200	חסר
1680571800	20
1680575400	21
1680579000	21

בהתאם לאלגוריתם ההזחה, המערכת יכולה למחוק את הדוגמה החסרה או לקבוע לטמפרטורה החסרה כ-12, 16, 18 או 20.

בעיה הדרגתית נעלמת

#seq

הנטייה להדרגתיות של שכבות נסתרות מוקדמות של רשתות נוירונים עמוקות להיות שטוחות באופן מפתיע (נמוכה). ירידה הולכת וקטנה בהדרגתיות מובילה לשינויים קטנים יותר במשקלים בצמתים ברשת נוירונים עמוקה, שמובילה ללמידה מועטה או ללא למידה. קשה או בלתי אפשרי לאמן מודלים שסובלים מבעיית השיפוע הנעלם. תאי זיכרון ארוך לטווח קצר מטפלים בבעיה הזו.

השוואה לבעיה מתפוצצת הדרגתית.

חשיבות משתנה

#df

קבוצת ציונים שמציינת את החשיבות היחסית של כל תכונה למודל.

לדוגמה, כדאי לשקול להשתמש בעץ החלטות שמעריך את מחירי הבית. נניח שלעץ ההחלטות הזה יש שלוש תכונות: גודל, גיל וסגנון. במקרה שסדרת חשיבות משתנה של שלוש התכונות מחושבת באופן הבא: {size=5.8, age=2.5, style=4.7}, הגודל חשוב יותר לעץ ההחלטות מאשר גיל או סגנון.

יש מדדים שונים של חשיבות משתנה, שיכולים לעזור למומחי למידת מכונה על היבטים שונים של המודלים.

מקודד אוטומטי וריאציה (VAE)

#language

סוג של מקודד אוטומטי שממנף את אי ההתאמה בין מקורות הקלט לפלט כדי ליצור גרסאות מותאמות של הקלט. מקודדים אוטומטיים וריאציוניים (VAE) שימושיים ל-בינה מלאכותית גנרטיבית.

משתני VAE מבוססים על מסקנות משתנים: שיטה להערכת הפרמטרים של מודל הסתברות.

וקטור

מונח עמוס מאוד שהמשמעות שלו משתנה בין תחומים מתמטיים ומדעיים שונים. בתוך למידת מכונה, לווקטור יש שני מאפיינים:

סוג הנתונים: וקטורים בלמידת מכונה בדרך כלל מחזיקים במספרים בנקודה צפה (floating-point).
מספר האלמנטים: זהו האורך של הווקטור או המאפיין שלו.

לדוגמה, צריך לחשוב על וקטור תכונות שמכיל שמונה מספרים עם נקודה צפה (floating-point). לווקטור של הפיצ'ר יש אורך או ממד של שמונה. לרוב, לווקטורים של למידת מכונה יש מספר עצום של מימדים.

אפשר לייצג סוגים רבים ושונים של מידע בווקטור. למשל:

ניתן לייצג כל מיקום על פני השטח של כדור הארץ וקטור דו-ממדי, כאשר מאפיין אחד הוא קו הרוחב והשני הוא קו האורך.
אפשר לייצג את המחירים הנוכחיים של כל אחת מ-500 המניות כווקטור דו-ממדי.
התפלגות הסתברות על מספר מוגבל של מחלקות יכולה להיות מיוצגת בווקטור. לדוגמה, מערכת של סיווג מרובה מחלקות שחוזה את אחד משלושת צבעי הפלט (אדום, ירוק או צהוב) יכולה להפיק מהווקטור (0.3, 0.2, 0.5) כמשמעות של P[red]=0.3, P[green]=0.2, P[yellow]=0.5.

אפשר לשרשר וקטורים; לכן אפשר לייצג מגוון של סוגי מדיה שונים כווקטור יחיד. חלק מהמודלים פועלים ישירות על שרשור של קידודים חד-פעמיים רבים.

מעבדים מיוחדים, כמו TPU, מותאמים לביצוע פעולות מתמטיות על וקטורים.

וקטור הוא tensor של דירוג 1.

W

הפסד של וואסרשטיין

אחת מפונקציות האובדן שבהן משתמשים בדרך כלל ברשתות למידה חישובית גנרטיבית, על סמך מרחק של תנועת כדור הארץ בין ההתפלגות של הנתונים שנוצרו לבין ההתפלגות של הנתונים האמיתיים.

משקל

#fundamentals

ערך שמודל מכפיל בערך אחר. אימון הוא התהליך של קביעת המשקולות האידיאליות של מודל. הֶקֵּשׁ הוא תהליך השימוש במשקולות שנלמדו כדי ליצור תחזיות.

לוחצים על הסמל כדי לראות דוגמה של משקלים במודל לינארי.

נניח שיש לכם מודל לינארי עם שתי תכונות. נניח שהאימון קובע את המשקולות (וההטיות הבאות):

להטייה, b, יש ערך של 2.2
המשקל, w₁ שמשויך לתכונה אחת הוא 1.5.
המשקל, w₂ שמשויך לתכונה האחרת הוא 0.4.

עכשיו תדמיינו דוגמה עם ערכי התכונות הבאים:

הערך של תכונה אחת, x₁, הוא 6.
הערך של התכונה האחרת, x₂, הוא 10.

המודל הלינארי הזה משתמש בנוסחה הבאה כדי ליצור חיזוי, y:

$$y' = b + w_1x_1 + w_2x_2$$

לכן, החיזוי הוא:

$$y' = 2.2 + (1.5)(6) + (0.4)(10) = 15.2$$

אם המשקל הוא 0, התכונה התואמת לא תורמת למודל. לדוגמה, אם w₁ הוא 0, הערך של x₁ לא רלוונטי.

ריבועים מזרחיים חלופיים משוקללים (WALS)

#recsystems

אלגוריתם למזעור פונקציית המטרה במהלך פירוק לגורמים של המטריצה במערכות המלצה, שמאפשר להפחית את המשקל של הדוגמאות החסרות. WALS מצמצמת את השגיאה המשוקללת בריבוע בין המטריצה המקורית והשחזור על ידי תיקון של פירוק לגורמים של השורות והפירוק לגורמים של העמודות. אפשר לפתור כל אחת מהאופטימיזציות האלה באמצעות אופטימיזציה קמורה של ריבועים לפחות. פרטים נוספים זמינים בקורס Recommendation Systems.

סכום משוקלל

#fundamentals

הסכום של כל ערכי הקלט הרלוונטיים כפול המשקולות התואמות שלהם. לדוגמה, נניח שהקלט הרלוונטי מכיל את הפרטים הבאים:

ערך קלט	משקל הקלט
2	1.3-
-1	0.6
3	0.4

לכן הסכום המשוקלל הוא:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

סכום משוקלל הוא ארגומנט הקלט של פונקציית הפעלה.

מודל נרחב

מודל לינארי שבדרך כלל כולל תכונות קלט sparse. אנחנו קוראים לו "רחבה", כי מודל כזה הוא סוג מיוחד של רשת נוירונים עם מספר גדול של ערכי קלט שמתחברים ישירות לצומת הפלט. לעיתים קרובות קל יותר לנפות באגים ולבדוק במודלים רחבים מאשר מודלים עמוקים. מודלים רחבים לא יכולים לבטא ליניאריות באמצעות שכבות מוסתרות, אבל מודלים רחבים יכולים להשתמש בטרנספורמציות כמו הצלבת תכונות וחלוקה לקטגוריות כדי לבנות מודלים לא ליניאריים בדרכים שונות.

הניגודיות של מודל עומק.

רוחב

מספר הנוירונים בשכבה מסוימת של רשת נוירונים.

חוכמת ההמונים

#df

לרוב, חישוב הממוצע של הדעות או האומדנים של קבוצה גדולה של אנשים ("הקהל") מניב תוצאות מפתיעות. לדוגמה, חשבו על משחק שבו אנשים מנחשים את מספר הפולים שארוזים בצנצנת גדולה. על אף שרוב הניחושים האישיים לא יהיו מדויקים, הממוצע של כל הניחושים הוכח באופן מפתיע שקרוב באופן מפתיע למספר האמיתי של סוכריות ג'לי בצנצנת.

רכיבים הם תוכנות אנלוגיות של חוכמת הקהל. גם אם מודלים נפרדים מבצעים חיזויים לא מדויקים במיוחד, ממוצע התחזיות של מודלים רבים יוצר בדרך כלל תחזיות טובות באופן מפתיע. לדוגמה, על אף שעץ החלטות מסוים עשוי ליצור תחזיות גרועות, יער החלטות לרוב מניב חיזויים טובים מאוד.

הטמעת מילים

#language

ייצוג של כל מילה בקבוצת מילים בתוך וקטור הטמעה. כלומר, ייצוג של כל מילה כווקטור של ערכים של נקודה צפה בין 0.0 ל-1.0. למילים עם משמעויות דומות יש ייצוגים דומים יותר למילים עם משמעויות שונות. לדוגמה, לגזרים, לסלרי ולמלפפון יהיו ייצוגים דומים יחסית, שיהיו שונים מאוד מהייצוגים של מטוסים, משקפי שמש ומשחת שיניים.

X

XLA (אלגברה לינארית מואצת)

מהדר בקוד פתוח ללמידת מכונה, עבור מעבדי GPU, מעבדים (CPU) ומאיצים של למידת מכונה.

המהדר XLA משתמש במודלים מ-frameworks פופולריות של ML, כמו PyTorch, TensorFlow ו-JAX, ומבצע אופטימיזציה שלהם לביצועי ביצועים גבוהים בפלטפורמות חומרה שונות, כולל מעבדי GPU, מעבדי עיבוד (CPU) ומאיצים.

Z

למידה מאפס

סוג של אימון למידת מכונה שבו המודל מסיק חיזוי למשימה שלא הוא כבר אומן באופן ספציפי. במילים אחרות, המודל מקבל אפס דוגמאות לאימון ספציפי למשימה, אבל הוא מבקש ממנו להסיק מסקנות לגבי המשימה הזו.

יצירת הנחיות מאפס

#language

#generativeAI

הודעה שלא מספקת דוגמה לאופן שבו אתם רוצים שמודל השפה הגדול יגיב. למשל:

חלקים מהנחיה אחת	הערות
`מהו המטבע הרשמי של המדינה שצוינה?`	השאלה שעליה אתם רוצים שה-LLM יענה.
`הודו:`	השאילתה עצמה.

מודל השפה הגדול יכול להגיב עם אחת מהאפשרויות הבאות:

רופיות
INR
₹
רופי הודי
הרופי
רופי הודי

כל התשובות נכונות, אבל ייתכן שתעדיפו פורמט מסוים.

השוו והבדילו בין יצירת הנחיות מאפס לבין המונחים הבאים:

הנחיה ישירה
יצירת הנחיות מכמה דוגמאות

נירמול ציון Z

#fundamentals

שיטת התאמה לעומס (scaling) שמחליפה ערך גולמי של תכונה בערך של נקודה צפה (floating-point) שמייצג את מספר סטיות התקן מהממוצע של התכונה. לדוגמה, חשבו על תכונה שהממוצע שלה הוא 800 והסטיית התקן שלה היא 100. הטבלה הבאה מראה איך הנורמליזציה של ציון ה-Z תמפה את הערך הגולמי לציון ה-Z שלו:

ערך גולמי	ציון Z
800	0
950	+1.5
575	2.25-

לאחר מכן, המודל של למידת המכונה מתאמן על ציוני ה-Z לפי התכונה הזו ולא על הערכים הגולמיים.