מילון מונחים ללמידת מכונה

במילון הזה מופיעים מונחים כלליים של למידת מכונה, וגם מונחים ספציפיים ל-TensorFlow.

A

אבלציה

שיטה להערכת החשיבות של תכונה או את הרכיב על ידי הסרה זמנית ממודל. לאחר מכן, מאומנים מחדש את המודל בלי התכונה או הרכיב האלה. אם הביצועים של המודל המאומן מחדש גרועים יותר באופן משמעותי, סביר להניח שהתכונה או הרכיב שהוסרו היו חשובים.

לדוגמה, נניח שאתם מאומנים מודל סיווג על 10 תכונות ומגיעים ל-88% דיוק בקבוצת הבדיקה. כדי לבדוק את החשיבות של המאפיין הראשון, אפשר לאמן מחדש את המודל באמצעות תשעת המאפיינים האחרים בלבד. אם המודל שעבר אימון מחדש מניב ביצועים פחות טובים באופן משמעותי (למשל, בדיוק של 55%), אז התכונה שהוסרה הייתה כנראה חשובה. לעומת זאת, אם הביצועים של המודל המאומן מחדש זהים, סביר להניח שהתכונה הזו לא הייתה חשובה במיוחד.

אבלציה יכולה גם לעזור לקבוע את החשיבות של:

  • רכיבים גדולים יותר, כמו מערכת משנה שלמה במערכת ML גדולה יותר
  • תהליכים או שיטות, כמו שלב עיבוד נתונים מראש

בשני המקרים, תוכלו לראות איך ביצועי המערכת משתנים (או לא משתנה) לאחר הסרת הרכיב.

בדיקת A/B

דרך סטטיסטית להשוות שתי שיטות (או יותר) – ה-A ו-B. בדרך כלל, A היא שיטה קיימת ו-B היא שיטה חדשה. בדיקת A/B לא רק קובעת איזו טכניקה מניבה ביצועים טובים יותר, אלא גם אם ההבדל מובהק מבחינה סטטיסטית.

בבדיקות A/B בדרך כלל מתבצעת השוואה בין מדד יחיד בשתי שיטות; לדוגמה, מה ההבדל בין דיוק של המודל טכניקות שונות? עם זאת, בדיקת A/B יכולה גם להשוות כל מספר סופי של מדדים.

שבב מאיץ

#GoogleCloud

קטגוריה של רכיבי חומרה מיוחדים שמיועדים לבצע מפתחות את החישובים הנדרשים לאלגוריתמים של למידה עמוקה (Deep Learning).

צ'יפים של מאיץ (או פשוט מאיצים, בקיצור) יכולים מאוד להגביר את המהירות והיעילות של משימות האימון וההסקה. בהשוואה למעבד לשימוש כללי. הם מתאימים במיוחד לאימון רשתות נוירונים ומשימות חישוביות דומות.

דוגמאות לצ'יפים של מאיץ:

  • יחידות עיבוד נתונים של Google (TPU) עם חומרה ייעודית ללמידת עומק.
  • מעבדי ה-GPU של NVIDIA, שנועדו במקור לעיבוד גרפיקה, מאפשרים עיבוד מקביל שיכול להאיץ משמעותית את מהירות העיבוד.

דיוק

#fundamentals

מספר התחזיות של הסיווג הנכון חלקי מספר התחזיות הכולל. כלומר:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

לדוגמה, מודל שביצע 40 חיזויים נכונים ו-10 חיזויים שגויים החיזויים יהיו בעלי רמת הדיוק של:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

סיווג בינארי מספק שמות ספציפיים לקטגוריות השונות של תחזיות נכונות ותחזיות שגויות. לכן, הנוסחה של הדיוק בסיווג בינארי היא:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

איפה:

השוו והבדילו עם דיוק precision וגם ריקול.

למידע נוסף, ראו סיווג: דיוק, זיכרון, רמת דיוק ומדדים קשורים במדריך למתחילים בנושא למידת מכונה.

פעולה

#rl

בלמידת חיזוק, המנגנון שבאמצעותו סוכן בין מדינות סביבה. הנציג בוחר את הפעולה באמצעות המדיניות שלנו.

פונקציית הפעלה

#fundamentals

פונקציה שמאפשרת לרשתות נוירונים ללמוד יחסים לא ליניאריים (מורכבים) בין המאפיינים לבין התווית.

פונקציות הפעלה פופולריות כוללות:

התרשימים של פונקציות ההפעלה אף פעם לא הם קווים ישרים בודדים. לדוגמה, התרשים של פונקציית ההפעלה של ReLU מורכב שני קווים ישרים:

תרשים קרטזי בשני קווים. לשורה הראשונה יש ערך y קבוע של 0, שפועל לאורך ציר ה-x מ--infinity,0 עד 0,-0.
          השורה השנייה מתחילה ב-0,0. לקו הזה יש שיפוע של 1+. לכן
          הוא בין 0,0 ל-+אינסוף,+אינסוף.

תרשים של פונקציית ההפעלה הסיגמואידית נראה כך:

תרשים עקומה דו-מימדי עם ערכי x שנעים מהדומיין של אינסוף שלילי לאינסוף חיובי, וערכי y שנעים מהטווח של כמעט 0 לכמעט 1. כש-x הוא 0, הערך של y הוא 0.5. שיפוע העקומה הוא תמיד
          חיובי, כאשר השיפוע הגבוה ביותר הוא 0.0.5 ויורד בהדרגה
          שיפוע ככל שהערך המוחלט של x עולה.

מידע נוסף זמין בקטע רשתות נוירונליות: פונקציות הפעלה במסגרת קורס ה-Crash Course בנושא למידת מכונה.

למידה פעילה

גישת אימון שבה האלגוריתם בוחר חלק מהנתונים שהוא לומד מהם. למידה פעילה הוא חשוב במיוחד כאשר דוגמאות מתויגים שקשה להשיג אותם או שקשה להשיג אותם. במקום לחפש בצורה עיוורת מגוון של דוגמאות מתויגות, אלגוריתם למידה פעיל מחפש באופן סלקטיבי את טווח הדוגמאות הספציפי שנדרש לו כדי ללמוד.

AdaGrad

אלגוריתם מתוחכם של ירידה בגרדינט שמשנה את קנה המידה של הגרדינטים של כל פרמטר, וכך מקצה לכל פרמטר שיעור למידה עצמאי. הסבר מלא זמין במאמר הבא: מאמר זה של AdaGrad.

נציג

#rl

בלמידת חיזוק, את הישות שמשתמשת המדיניות במטרה למקסם את ההחזר הצפוי: בין מדינות סביבה.

באופן כללי, סוכן הוא תוכנה שמתכננת ומבצעת באופן עצמאי סדרה של פעולות כדי להשיג מטרה, עם היכולת להתאים את עצמה לשינויים בסביבה. לדוגמה, סוכן שמבוסס על LLM עשוי להשתמש ב-LLM כדי ליצור תוכנית, במקום להחיל מדיניות של למידת חיזוק.

אשכולות אגרגטורים

#clustering

ניתן לעיין באשכולות היררכיים.

זיהוי אנומליות

תהליך הזיהוי של חריגים חשודי טעות. לדוגמה, אם הממוצע של מאפיין מסוים הוא 100 עם סטיית תקן של 10, זיהוי החריגות אמור לסמן ערך של 200 כחשוד.

AR

קיצור של Augmented Reality (מציאות רבודה).

שטח מתחת לעקומת ה-PR

ראו PR AUC (אזור מתחת לעקומת PR).

השטח מתחת לעקומת ROC

ראו AUC (השטח מתחת לעקומת ROC).

בינה מלאכותית כללית

מנגנון לא אנושי שמדגים מגוון רחב של פתרון בעיות, יצירתיות ויכולת הסתגלות. לדוגמה, תוכנית שממחישה אינטליגנציה כללית מלאכותית יכולה לתרגם טקסט, לחבר סימפוניות וגם להצטיין במשחקים שעדיין לא הומצאו.

לגבי בינה מלאכותית,

#fundamentals

תוכנה לא אנושית או מודל שיכולים לפתור משימות מתוחכמות. לדוגמה, תוכנה או מודל שמתרגם טקסט, או תוכנית או מודל מאפשרת לזהות מחלות מתמונות רדיולוגיות, וגם שהן מציגות בינה מלאכותית.

באופן רשמי, למידת מכונה היא תחום משנה של בינה מלאכותית. עם זאת, בשנים האחרונות, ארגונים מסוימים התחילו להשתמש מונחים בינה מלאכותית ולמידת מכונה.

תשומת הלב,

#language

מנגנון שמשמש ברשת נוירונים ומציין את החשיבות של מילה מסוימת או של חלק ממילה. תשומת הלב מצמצמת את כמות המידע שהמודל צריך כדי לחזות את האסימון או המילה הבאים. מנגנון תשומת לב טיפוסי עשוי לכלול סכום משוקלל בקבוצה של ערכי קלט, כאשר משקל לכל קלט מחושב על ידי חלק אחר רשת זרימה קדימה.

כדאי גם להשתמש בקשב עצמי הקשב העצמי עם מספר ראשים, אבני הבניין של טרנספורמרים.

מידע נוסף על התכונה 'תשומת לב עצמית' זמין במאמר LLMs: What's a large language model? בקורס המזורז בנושא למידת מכונה.

מאפיין

#fairness

מילה נרדפת ל-feature.

בהוגנות במסגרת למידת המכונה, המאפיינים מתייחסים לעיתים קרובות למאפיינים שקשורים לאנשים פרטיים.

דגימת מאפיינים

#df

טקטיקה לאימון יער החלטות, שבה כל עץ החלטות מתייחס רק לקבוצת משנה אקראית של מאפיינים אפשריים במהלך הלמידה של התנאי. באופן כללי, קבוצת משנה שונה של תכונות נדגמת לכל סוג צומת. לעומת זאת, כשאימון עץ החלטות ללא דגימת מאפיינים, כל התכונות האפשריות מביאות בחשבון עבור כל צומת.

AUC (השטח מתחת לעקומת ROC)

#fundamentals

מספר בין 0.0 ל-1.0 שמייצג של מודל סיווג בינארי יכולת להפריד כיתות חיוביות מחלקות שליליות. ככל ש-AUC קרוב יותר ל-1.0, כך יכולת המודל להפריד בין הכיתות גבוהה יותר.

לדוגמה, באיור הבא מוצג מודל סיווג שמפריד בצורה מושלמת בין כיתות חיוביות (אליפסות ירוקות) לכיתות שליליות (ריבועים סגולים). המודל המושלם הלא ריאליסטי הזה כולל AUC של 1.0:

קו מספרים עם 8 דוגמאות חיוביות בצד אחד ו-9 דוגמאות שליליות בצד השני.

לעומת זאת, באיור הבא מוצגות התוצאות של מודל סיווג שיצר תוצאות אקראיות. ערך ה-AUC של המודל הזה הוא 0.5:

קו מספרים עם 6 דוגמאות חיוביות ו-6 דוגמאות שליליות.
          רצף הדוגמאות הוא חיובי, שלילי, חיובי, שלילי, חיובי, שלילי, חיובי, שלילי, חיובי, שלילי.

כן, מספר AUC של המודל הקודם הוא 0.5 ולא 0.0.

רוב המודלים נמצאים איפשהו בין שני הקצוות. לדוגמה, המודל הבא מפריד בין תוצאות חיוביות לשליליות באופן חלקי, ולכן ערך ה-AUC שלו הוא בין 0.5 ל-1.0:

ציר מספרים עם 6 דוגמאות חיוביות ו-6 דוגמאות שליליות.
          רצף הדוגמאות הוא שלילי, שלילי, שלילי, שלילי
          חיובי, שלילי, חיובי, חיובי, שלילי, חיובי, חיובי,
          חיובית.

AUC מתעלם מכל ערך שהגדרת עבורו סף הסיווג. במקום זאת, AUC המערכת מביאה בחשבון את כל ערכי הסף האפשריים לסיווג.

למידע נוסף, ראו סיווג: ROC ו AUC בקורס מקוצר על למידת מכונה.

מציאות רבודה

#image

טכנולוגיה שמחליפה תמונה ממוחשבת מנקודת המבט של המשתמש את העולם האמיתי, וכך מספקת תצוגה מורכבת.

מקודד אוטומטי

#language
#image

מערכת שלומדת לחלץ את המידע החשוב ביותר מהקלט. מקודדים אוטומטיים הם שילוב של מקודד מפענח. אוטו-קונדים מסתמכים על התהליך הדו-שלבי הבא:

  1. המקודד ממפה את הקלט לפורמט דו-ממדי נמוך יותר (בדרך כלל) (בינוני).
  2. המפענח בונה גרסת איבוד נתונים של הקלט המקורי על ידי מיפוי מהפורמט של ממדים נמוכים יותר לפורמט המקורי עם ממדים גבוהים יותר בפורמט הקלט.

מקודדים אוטומטיים עוברים אימון מקצה לקצה, כך שהפענוח מנסה לשחזר את הקלט המקורי מהפורמט הביניים של המקודד בצורה הקרובה ביותר האפשרית. מכיוון שהפורמט הביניים קטן יותר (בממדים נמוכים יותר) מהפורמט המקורי, האוטו-קונדרטור נאלץ ללמוד איזה מידע בקלט חיוני, והפלט לא יהיה זהה לחלוטין לקלט.

לדוגמה:

  • אם נתוני הקלט הם גרפיים, העותק הלא מדויק יהיה דומה ל- את הגרפיקה המקורית, אבל שונתה במידה מסוימת. אולי עותק לא מדויק מסיר את הרעש מהגרפיקה המקורית או ממלא את חסרים כמה פיקסלים.
  • אם נתוני הקלט הם טקסט, אוטו-קונדר יוצר טקסט חדש שמחקה את הטקסט המקורי (אבל לא זהה לו).

אפשר לעיין גם במאמר בנושא מקודדים אוטומטיים וריאציוניים (VAE).

הטייה אוטומטית

#fairness

כשגורם קבלת החלטות אנושי מעדיף המלצות של מערכת אוטומטית לקבלת החלטות על פני מידע שנוצר ללא אוטומציה, גם אם מערכת קבלת ההחלטות האוטומטית טועה.

למידע נוסף, אפשר לקרוא את המאמר צדק: סוגי הטיות במדריך למתחילים בנושא למידת מכונה.

AutoML

כל תהליך אוטומטי ליצירת מודלים של למידת מכונה. AutoML יכול לבצע משימות כמו:

AutoML שימושי למדעני נתונים כי הוא יכול לחסוך להם זמן ומאמץ בפיתוח צינורות עיבוד נתונים ללמידת מכונה ולשפר את הדיוק של התחזיות. והיא שימושית גם למי שאינם מומחים משימות של למידת מכונה שיהיו נגישות יותר.

למידע נוסף: מכונות אוטומטיות למידה (AutoML) בקורס מקוצר על למידת מכונה.

מודל רגרסיבי אוטומטי

#language
#image
#generativeAI

מודל שמסיק חיזוי על סמך החיזויים הקודמים שלו. לדוגמה, מודלים רגרסיביים של שפה חוזים האסימון על סמך האסימונים החזויים הקודמים. כל המודלים שמבוססים על טרנספורמרים מודלים גדולים של שפה (LLM) הם רגרסיביים אוטומטית.

לעומת זאת, מודלים של תמונות שמבוססים על GAN הם בדרך כלל לא רגרסיביים אוטומטיים, כי הם יוצרים תמונה בפעולה קדימה אחת ולא באופן איטרטיבי בשלבים. עם זאת, מודלים מסוימים ליצירת תמונות הם מודלים רגרסיביים אוטומטיים כי הם יוצרים תמונה בשלבים.

אובדן עזר

פונקציית אובדן – פונקציה שמשמשת בשילוב עם רשת עצבית פונקציית האובדן הראשית של המודל – שעוזרת לזרז את האימון במהלך האיטרציות המוקדמות, כשהמשקלים מופעלים באופן אקראי.

פונקציות אובדן עזר דוחפות הדרגתיות יעילות לשכבות המוקדמות יותר. כך אפשר להגיע להתכנסות במהלך האימון, על ידי התמודדות עם בעיית שיפוע הולך ופוחת.

דיוק ממוצע

מדד לסיכום הביצועים של רצף תוצאות מדורג. כדי לחשב את הדיוק הממוצע, מחשבים את הממוצע של ערכי הדיוק לכל תוצאה רלוונטית (כל תוצאה ברשימה המדורגת שבה רמת החזרה עולה בהשוואה לתוצאה הקודמת).

אפשר לעיין גם במאמר השטח מתחת לעקומת ה-PR.

תנאי יישור לציר

#df

בעץ החלטות, יוצרים תנאי שכולל רק תכונה אחת. לדוגמה, אם area הוא מאפיין, אז התנאי הבא הוא תנאי משויך-ציר:

area > 200

בניגוד לתנאי עקיף.

B

הפצה לאחור

#fundamentals

האלגוריתם שמיישם ירידה הדרגתית ב- רשתות נוירונים.

אימון של רשת נוירונים כולל איטרציות רבות במחזור של שני המעברים:

  1. במהלך העברה קדימה, המערכת מעבדת קבוצה של דוגמאות כדי להפיק חיזויים. המערכת משווה כל תחזית לכל ערך של תווית. ההבדל בין החיזוי וערך התווית הוא הפסד לדוגמה הזו. המערכת צוברת את ההפסדים עבור כל הדוגמאות כדי לחשב את הסכום הכולל באצווה הנוכחית.
  2. במהלך החזרה לאחור (backpropagation), המערכת מפחיתה את האובדן על ידי התאמת המשקלים של כל הנוירונים בכל השכבות המוסתרות.

רשתות נוירונים מכילות בדרך כלל נוירונים רבים בשכבות נסתרות רבות. כל אחד מהנוירונים האלה תורם לאובדן הכולל בדרכים שונות. הפצה לאחור קובעת אם להגדיל או להקטין את המשקולות על נוירונים מסוימים.

קצב הלמידה הוא מכפיל ששולט התדירות שבה כל מעבר אחורה עולה או יורד כל משקל. שיעור למידה גבוה יגדיל או יקטין כל משקל יותר מאשר שיעור למידה נמוך.

במונחי חשבון, החזרה לאחור מיישמת את כלל השרשרת. מחשבון. כלומר, ההפצה לאחור מחשבת את נגזרת חלקית של השגיאה עם ביחס לכל פרמטר.

לפני שנים, מומחי למידת מכונה נאלצו לכתוב קוד כדי להטמיע חזרה לאחור. ממשקי API מודרניים של למידת מכונה כמו Keras מטמיעים עכשיו עבורכם חזרה לאחור (backpropagation). סוף סוף!

למידע על רשתות נוירונים בקורס מקוצר על למידת מכונה.

כבודה

#df

שיטה לאימון של מערך שבו כל מאמן מודל אחד על קבוצת משנה אקראית של אימון דוגמאות נדגם עם החלפה. לדוגמה, יער אקראי הוא אוסף של עצי החלטה שאומנו עם כבודה.

המונח תיק נשיאה הוא קיצור של bootstrap agging.

מידע נוסף זמין בקטע יערות אקראיים בקורס 'יערות החלטות'.

תיק מילים

#language

ייצוג של המילים בביטוי או בפסקה, ללא קשר לסדר. לדוגמה, תיקיית מילים מייצגת את שלושת הביטויים הבאים באופן זהה:

  • הכלב קופץ
  • קופץ על הכלב
  • כלב קופץ

כל מילה ממופה לאינדקס בוקטור דליל, שבו לכל מילה באוצר המילים יש אינדקס. לדוגמה, הביטוי הכלב קופץ ממופה לווקטור מאפיין, שהוא לא אפס בשלושת האינדקסים שתואמים למילים the , dog דילוגים. הערך שאינו אפס יכול להיות כל אחת מהאפשרויות הבאות:

  • 1 כדי לציין את נוכחות המילה.
  • ספירה של מספר הפעמים שמילה מופיעה בתיק. לדוגמה, אם הביטוי היה the maroon dog is a dog with maroon fur, גם maroon וגם dog יצוינו בספרה 2, והמילים האחרות יצוינו בספרה 1.
  • ערך אחר כלשהו, כגון הלוגריתם של מספר פעם שמילה מופיעה בתיק.

קו בסיס

מודל שמשמש כנקודת ייחוס להשוואה של הביצועים של מודל אחר (בדרך כלל מודל מורכב יותר). לדוגמה, מודל רגרסיה לוגיסטית יכול לשמש כבסיס טוב למודל עומק.

ביחס לבעיה מסוימת, ערכי הבסיס עוזרים למפתחי המודלים לכמת רמת הביצועים המינימלית הצפויה שמודל חדש צריך להשיג שימושי.

אצווה

#fundamentals

סט של דוגמאות לאימון אחד איטרציה. גודל האצווה קובע את מספר הדוגמאות באצווה.

בקטע epoch מוסבר איך קבוצה קשורה ל-epoch.

ראו רגרסיה לינארית: היפר-פרמטרים בקורס מקוצר על למידת מכונה.

הסקת מסקנות באצווה

#TensorFlow
#GoogleCloud

תהליך הסקת של חיזויים על מספר חיזויים דוגמאות ללא תווית מחולקות לקבוצות קטנות יותר קבוצות משנה ("אצווה").

ניתן להשתמש בהסקת קבוצות כדי לנצל את תכונות ההרצה במקביל של שבבי המאיץ. כלומר, כמה מאיצים יכולים להסיק בו-זמנית תחזיות על קבוצות שונות של דוגמאות ללא תוויות, וכך להגדיל באופן משמעותי את מספר ההסקות לשנייה.

למידע נוסף, ראו מערכות למידת מכונה בסביבת ייצור: יצירת מסקנות סטטיות לעומת יצירת מסקנות דינמיות במדריך למתחילים בנושא למידת מכונה.

נירמול באצווה

נורמליזציה של הקלט או הפלט של פונקציות ההפעלה בשכבה מוסתרת. ל-Batch normalization יש את היתרונות הבאים:

גודל אצווה

#fundamentals

מספר הדוגמאות באצווה. לדוגמה, אם גודל האצווה הוא 100, המערכת מעבדת 100 דוגמאות לכל מחזור.

אלה כמה מהשיטות הפופולריות לקביעת גודל האצווה:

  • Stochastic Gradient Descent (SGD), שבו גודל הקבוצה הוא 1.
  • אצווה מלאה, שבה גודל הקבוצה הוא מספר הדוגמאות כולה הוגדר אימון. לדוגמה, אם קבוצת האימון מכילה מיליון דוגמאות, גודל האצווה יהיה מיליון דוגמאות. בדרך כלל, שיטת 'קבוצה מלאה' היא לא יעילה.
  • מיני-באצ', שבהם גודל הקבוצה הוא בדרך כלל בין 10 ל-1,000. בדרך כלל הגישה היעילה ביותר היא באמצעות 'מיני-אצווה'.

מידע נוסף זמין במאמרים הבאים:

רשת נוירונים בייסיאנית

רשת נוירונים הסתברותית שתומכת ואי-ודאות במשקולות ובפלט. רשת נוירונים רגילה מודל רגרסיה בדרך כלל מחזית ערך סקלרי. לדוגמה, מודל סטנדרטי חוזה את מחיר הבית. של 853,000. לעומת זאת, רשת נוירונים בייסיאנית חוזה התפלגות של values; לדוגמה, מודל בייסיאני חוזה מחיר בית של 853,000 סטיית תקן של 67,200.

רשת נוירונים בייסינית מסתמכת על משפט בייסי כדי לחשב את אי-הוודאות במשקלים ובתחזיות. נוירונים בייסיאניים לרשת המדיה יכולה להיות שימושית כשחשוב לכמת את אי-הוודאות, למשל שקשורים לתרופות. גם רשתות נוירונים בייסיאניות יכולות לעזור למנוע התאמה יתר.

אופטימיזציה בייסיאנית

טכניקה של מודל רגרסיה פרובובלסטי לביצוע אופטימיזציה של פונקציות יעד שדורשות חישוב יקר, באמצעות אופטימיזציה של חלופה שמציגה כמותית את אי-הוודאות באמצעות טכניקת למידה בייסינית. מאז אופטימיזציה בייסיאנית היא כשלעצמה יקרה מאוד, והיא בדרך כלל משמשת לאופטימיזציה משימות ש'יקרות להערכה' ומכילות מספר קטן של פרמטרים, כמו בחירה של היפר-פרמטרים.

משוואת בלמן

#rl

בלמידת חיזוק, הזהות הבאה מתקנת את Q-function:

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

האלגוריתמים של למידת חיזוק מיישמים את הכלל הזה כדי ליצור Q-learning באמצעות כלל העדכון הבא:

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]

מעבר ללמידת החיזוק, למשוואת בלמן יש יישומים תכנות דינמי. לצפייה ויקיפדיה על משוואת Bellman.

BERT (ייצוגים דו-כיווניים של מקודד מטרנספורמרים)

#language

ארכיטקטורה של מודלים למצג שווא של טקסט. אמנת מודל BERT יכול לשמש כחלק ממודל גדול יותר לסיווג טקסט, למשימות אחרות של למידת מכונה.

ל-BERT יש את המאפיינים הבאים:

הווריאציות של BERT כוללות:

  • ALBERT, שהוא ראשי תיבות של A Light BERT.
  • LaBSE

ראו Open Sourcing BERT: State-of-the-Art-training for Natural Language בעיבוד לסקירה כללית של BERT.

הטיה (אתיקה/הוגנות)

#fairness
#fundamentals

1. יצירת קלישאות, דעות קדומות או העדפה של דברים, אנשים או קבוצות מסוימים על פני אחרים. ההטיות האלה יכולות להשפיע על איסוף הנתונים פירוש הנתונים, המבנה של מערכת והאינטראקציה בין המשתמשים עם מערכת. דוגמאות לסוגים כאלה של הטיה:

2. שגיאה מערכתית שנוצרה באמצעות דגימה או תהליך דיווח. דוגמאות לסוג הזה של הטיה:

חשוב לא להתבלבל עם מונח ההטיה במודלים של למידת מכונה או עם הטיית החיזוי.

למידע נוסף, ניתן לעיין בקטע הוגנות: סוגים של הטיה ב- למידע נוסף על הקורס מקוצר על למידת מכונה.

הטיה (מתמטית) או מונח הטיה

#fundamentals

ציר או סטייה ממקור. הטיה היא פרמטר במודלים של למידת מכונה, שסימונו הוא אחד מהסמלים הבאים:

  • ב
  • w0

לדוגמה, ההטיה היא הערך b בנוסחה הבאה:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

בקו דו-ממדי פשוט, ההטיה פירושה "חיתוך y". לדוגמה, ההטיה של הקו באיור הבא היא 2.

תרשים קו עם שיפוע 0.5 והטיה (חיתוך y) של 2.

הטיה קיימת כי לא כל המודלים מתחילים מהמקור (0,0). לדוגמה, נניח שהכניסה לפארק שעשועים עולה 2 אירו ועוד 0.5 אירו לכל שעה שהלקוח שוהה בפארק. לכן, לדגם שממפה את העלות הכוללת יש הטיה של 2, כי העלות הנמוכה ביותר היא 2 אירו.

חשוב להבדיל בין דעות קדומות לבין הטיה והגינות. או הטיה בחיזוי.

מידע נוסף זמין בקטע רגרסיה לינארית בקורס המקוצר בנושא למידת מכונה.

דו-כיווני

#language

מונח שמשמש לתיאור מערכת שמעריכה את הטקסט שגם מקדים ועוקבת אחרי קטע היעד בטקסט. לעומת זאת, מערכת חד-כיוונית מעריכה רק את הטקסט שמקדים לקטע היעד בטקסט.

לדוגמה, נניח שיש לכם מודל התממת שפה (MLM) חייב לקבוע את ההסתברויות למילה או למילים המייצגות את קו תחתון השאלה הבאה:

מה הבעיה שלך בנושא _____?

מודל שפה חד-כיווני צריך לבסס רק את ההסתברויות שלו בהקשר שמספק המילים "מה", "הוא" ו"ה". לעומת זאת, מודל שפה דו-כיווני יכול לקבל הקשר גם מהמילים 'עם' ו'את/ה', וכך לעזור למודל ליצור תחזיות טובות יותר.

מודל שפה דו-כיווני

#language

מודל שפה שקובע את ההסתברות נתון שנמצא במיקום מסוים בקטע של טקסט המבוסס על את הטקסט הקודם והעוקב.

bigram

#seq
#language

N-gram שבו N=2.

סיווג בינארי

#fundamentals

סוג של משימה של סיווג שמטרתה לחזות אחת משתי קטגוריות בלתי ניתנות להפרדה:

לדוגמה, שני המודלים הבאים של למידת מכונה מבצעים כל אחד סיווג בינארי:

  • מודל שמזהה אם הודעות אימייל הן ספאם (הקבוצה החיובית) או לא ספאם (הקבוצה השלילית).
  • מודל שמעריך תסמינים רפואיים כדי לקבוע אם אדם הוא מחלה מסוימת (הסיווג החיובי) או שאין לו מחלה (הסיווג השלילי).

ניגוד לסיווג מרובה-מחלקות.

אפשר לעיין גם במאמרים רגרסיה לוגיסטית וסף סיווג.

מידע נוסף זמין בקטע סיווג במאמר קורס מקוצר על למידת מכונה.

תנאי בינארי

#df

בעץ החלטות, תנאי שיש לו רק שתי תוצאות אפשריות, בדרך כלל כן או לא. לדוגמה, זהו תנאי בינארי:

temperature >= 100

בניגוד לתנאי לא בינארי.

למידע נוסף על סוגי תנאים את הקורס 'יערות החלטה', תוכלו לקבל מידע נוסף.

קיבוץ (binning)

מילה נרדפת ל-bucketing.

BLEU (Bilingual Evaluation Substudy)

#language

ציון בין 0.0 ל-1.0, כולל, שמעיד על איכות התרגום בין שתי שפות אנושיות (לדוגמה, בין אנגלית לרוסית). BLEU ציון של 1.0 מצביע על תרגום מושלם. דירוג BLEU 0.0 מציין תרגום גרוע.

הגדלה

טכניקה של למידת מכונה שמשתמשת באינטראקציה חוזרת כדי לשלב קבוצה של מסווגים פשוטים ולא מדויקים במיוחד (שנקראים מסווגים 'חלשים') למסווג עם דיוק גבוה (מסוגר 'חזק'). לשם כך, היא מעלה את המשקל של הדוגמאות שהמודל מסווג כרגע באופן שגוי.

למידע נוסף, אפשר לעיין בשיעור Gradient Boosted Decision Trees בקורס Decision Forests.

תיבה תוחמת (bounding box)

#image

בתמונה, הקואורדינטות (x, y) של מלבן סביב אזור עניין, כמו הכלב בתמונה שבהמשך.

תמונה של כלב יושב על ספה. תיבת גבול ירוקה עם קואורדינטות של (275,‏ 1271) בפינה הימנית העליונה ושל (2954,‏ 2761) בפינה הימנית התחתונה, שמקיפות את גוף הכלב

שידור

הרחבת הצורה של אופרנד בפעולת מתמטיקה של מטריצה למימדים שתואמים לפעולה הזו. לדוגמה, באלגברה לינארית נדרשת שתי האופרנדות בפעולת חיבור במטריצה חייבים להיות באותם מימדים. לכן, אי אפשר להוסיף מטריצה בגודל (m, n) לווקטור באורך n. שידור מאפשר את הפעולה הזו על ידי הרחבה וירטואלית של הווקטור של האורך n למטריצה של צורה (m, n) ב- לשכפל את אותם הערכים במורד כל עמודה.

לדוגמה, בהינתן ההגדרות הבאות, אלגברה לינארית אוסרת א+ב כי ל-א' ולב' יש מאפיינים שונים:

A = [[7, 10, 4],
     [13, 5, 9]]
B = [2]

עם זאת, השידור מאפשר את הפעולה A+B על ידי הרחבה וירטואלית של B כך:

 [[2, 2, 2],
  [2, 2, 2]]

לכן, A+B הוא עכשיו פעולה תקינה:

[[7, 10, 4],  +  [[2, 2, 2],  =  [[ 9, 12, 6],
 [13, 5, 9]]      [2, 2, 2]]      [15, 7, 11]]

התיאור הבא של לפרטים נוספים, שידור ב-NumPy.

יצירת קטגוריות

#fundamentals

המרת מאפיין יחיד למספר מאפיינים בינאריים שנקראים קטגוריות או קטגוריות משנה, בדרך כלל על סמך טווח ערכים. התכונה המקוצצת היא בדרך כלל תכונה רציפה.

לדוגמה, במקום לייצג את הטמפרטורה כמאפיין יחיד רצוף של נקודה צפה, אפשר לפצל טווחי טמפרטורות לקטגוריות נפרדות, כמו:

  • קטגוריית 'קר' תהיה קטגוריה עם הטמפרטורה <= 10 מעלות צלזיוס.
  • 11 עד 24 מעלות צלזיוס ייכללו בקטגוריה 'מזג אוויר נוח'.
  • >= 25 מעלות צלזיוס יהיה "חם" בקטגוריה שלכם.

המודל יתייחס לכל ערך באותו קטגוריה באופן זהה. לדוגמה, הערכים 13 ו-22 נמצאים בקטגוריה 'אקלים ממוזג', ולכן המודל מתייחס לשני הערכים באופן זהה.

למידע נוסף, ראו נתונים מספריים: חלוקה לקבוצות בקטע 'קורס מקוצר בנושא למידת מכונה'.

C

שכבת כיול

התאמה לאחר חיזוי, בדרך כלל כדי להביא בחשבון הטיה בחיזוי. התחזיות המותאמות וגם ההסתברויות צריכות להתאים להתפלגות של קבוצת תוויות שנמדדה.

יצירת שילובים אפשריים למיקוד

#recsystems

הקבוצה הראשונית של ההמלצות שנבחרו על ידי מערכת ההמלצות. לדוגמה, נניח שיש חנות ספרים שמציעה 100,000 כותרים. שלב יצירת המועמדים רשימה קטנה הרבה יותר של ספרים שמתאימים למשתמש מסוים, למשל 500. אבל אפילו המספר של 500 ספרים גדול מדי ואי אפשר להמליץ עליו למשתמש. הבאות, יקרות יותר, בשלבים השונים במערכת המלצות (כמו ניקוד דירוג מחדש) מפחיתים את הערכים של 500 הערכים האלה להקטנה משמעותית יותר, הצגת המלצות מועילות יותר.

למידע נוסף, ראו יצירת מועמדים סקירה כללית מפורט מידע נוסף בקורס 'מערכות להמלצות'.

דגימות של מועמדים

אופטימיזציה בזמן אימון, שמחשבת הסתברות לכל חיוביות, באמצעות תוויות softmax, אבל רק במקרה מדגם של תוויות שליליות. לדוגמה, בהינתן דוגמה שמסומנת בתווית beagle ו-dog, דגימת המועמדים מחשבת את ההסתברויות הצפויות ואת תנאי ההפסד התואמים עבור:

  • beagle
  • dog
  • קבוצת משנה אקראית של שאר הכיתות השליליות (לדוגמה, cat,‏ lollipop,‏ fence).

הרעיון הוא כיתות שליליות יכולות ללמוד מתדירות נמוכה יותר חוזק שלילי כל עוד כיתות חיוביות תמיד מקבלות ערך חיובי חזקת יותר, וזה בהחלט ניכר בצורה אמפירית.

דגימת מועמדים יעילה יותר מבחינה חישובית מאשר אימון של אלגוריתמים שמחשבים תחזיות לכל הכיתות השליליות, במיוחד כשמספר הכיתות השליליות גדול מאוד.

נתונים קטגוריאליים

#fundamentals

לתכונות עם קבוצה ספציפית של ערכים אפשריים. לדוגמה, נניח שיש מאפיין קטגוריאלי בשם traffic-light-state, שיכול לקבל רק אחד משלושת הערכים האפשריים הבאים:

  • red
  • yellow
  • green

על ידי ייצוג של traffic-light-state כתכונה קטגורית, מודל יכול ללמוד השפעות שונות של red, green ו-yellow על התנהגות הנהגים.

לפעמים תכונות קטגוריות נקראות תכונות נפרדות.

בניגוד לנתונים מספריים.

למידע נוסף, ראו עבודה עם קטגוריות נתונים בקורס מקוצר על למידת מכונה.

מודל שפה סיבתי

#language

מונח נרדף למודל שפה חד-כיווני.

אפשר לעיין במודל שפה דו-כיווני כדי להבדיל בין גישות כיווניות שונות בבניית מודלים של שפות.

מרכז כובד

#clustering

מרכז האשכול, כפי שנקבע על ידי אלגוריתם k-means או k-median. לדוגמה, אם k הוא 3, כלומר, האלגוריתם k-median או האלגוריתם k-median מוצא 3 מרכזים.

למידע נוסף, אפשר לעיין במאמר אלגוריתמים של יצירת אשכולות בקורס אשכולות.

קיבוץ מבוסס-נקודת מרכז

#clustering

קטגוריה של אלגוריתמים של קיבוץ שמארגנים נתונים באשכולות לא היררכיים. k-means הוא אלגוריתם הקיבוץ הנפוץ ביותר שמבוסס על מרכז כובד.

בניגוד לאלגוריתמים של קיבוץ היררכי.

למידע נוסף, אפשר לעיין במאמר אלגוריתמים של יצירת אשכולות בקורס אשכולות.

הנחיות בטכניקת שרשרת מחשבה

#language
#generativeAI

שיטה של הנדסת הנחיות שמעודדת מודל שפה גדול (LLM) שיסביר את את הסבירות, שלב אחר שלב. לדוגמה, הנה הנחיה לדוגמה, שימו לב במיוחד למשפט השני:

כמה כוחות גרביטציה (G) יפעלו על הנהג ברכב שנוסע מ-0 ל-96 קמ"ש תוך 7 שניות? בתשובה, מציגים את כל החישובים הרלוונטיים.

התשובה של ה-LLM תהיה ככל הנראה:

  • הצגת רצף של נוסחאות פיזיקה, עם הכנסת הערכים 0,‏ 60 ו-7 במקומות המתאימים.
  • הסבירו למה בחרו בה את הנוסחאות האלה ומה המשמעות של המשתנים השונים.

הנחיות בטכניקת שרשרת מחשבה מאלצות את ה-LLM לבצע את כל החישובים, מה שעלול להוביל לתשובה נכונה יותר. בנוסף, שרשרת מחשבה הנחיה עם תשובה מאפשרת למשתמש לבחון את השלבים של ה-LLM כדי לקבוע או שהתשובה לא הגיונית.

צ'אט, צ'ט, צאט, צט

#language
#generativeAI

התוכן של דיאלוג הדדי עם מערכת למידת מכונה, בדרך כלל מודל שפה גדול. האינטראקציה הקודמת בצ'אט (מה שהקלדתם ואיך מודל השפה הגדול הגיב) הופכת להקשר של החלקים הבאים בצ'אט.

צ'אט בוט הוא אפליקציה של מודל שפה גדול (LLM).

נקודת ביקורת

נתונים לגבי מצב הפרמטרים של המודל במהלך האימון או אחרי השלמת האימון. לדוגמה, במהלך האימון תוכלו:

  1. להפסיק את האימון, אולי במכוון או אולי כתוצאה שגיאות מסוימות.
  2. תיעוד נקודת הביקורת.
  3. מאוחר יותר, אפשר לטעון מחדש את נקודת הבדיקה, אולי בחומרה אחרת.
  4. התחלה מחדש של האימון.

מחלקה

#fundamentals

קטגוריה שתווית יכולה להשתייך אליה. לדוגמה:

  • במודל סיווג בינארי שמזהה ספאם, שני הכיתות יכולות להיות ספאם ולא ספאם.
  • במודל סיווג מרובה-כיתתי שמזהה גזעי כלבים, הכיתות יכולות להיות פודל, ביגל, פקינז וכן הלאה.

מודל סיווג חוזה סיווג. לעומת זאת, מודל רגרסיה חוזה מספר ולא כיתה.

מידע נוסף זמין בקטע סיווג במאמר קורס מקוצר על למידת מכונה.

מודל סיווג

#fundamentals

מודל שהחיזוי שלו הוא מחלקה. לדוגמה, אלה כולם מודלים של סיווג:

  • מודל לחיזוי השפה של משפט קלט (צרפתית? ספרדית? איטלקית?).
  • מודל לחיזוי מינים של עצים (אדר? אלון? באובב?).
  • מודל שמתאר את הסיווג החיובי או השלילי של מצב רפואי מסוים.

לעומת זאת, מודלים של רגרסיה חוזים מספרים ולא סיווגים.

יש שני סוגים נפוצים של מודלים של סיווג:

סף סיווג (classification threshold)

#fundamentals

בסיווג בינארי, מספר בין 0 ל-1 שממיר את הפלט הגולמי של מודל רגרסיה לוגיסטית לחיזוי של המחלקה החיובית או המחלקה השלילית. שימו לב שסף הסיווג הוא ערך שהאדם בוחר. לא ערך שנבחר באמצעות אימון מודלים.

מודל רגרסיה לוגיסטית מניב ערך גולמי בין 0 ל-1. לאחר מכן:

  • אם הערך הגולמי הזה גדול מסף הסיווג, המערכת תחזה את הכיתה החיובית.
  • אם הערך הגולמי הזה קטן מערך הסף לסיווג, המערכת תחזה את הכיתה השלילית.

לדוגמה, נניח שסף הסיווג הוא 0.8. אם הערך הגולמי הוא 0.9, אז המודל חוזה את המחלקה החיובית. אם הערך הגולמי הוא 0.7, המודל מנבא את הכיתה השלילית.

בחירת סף הסיווג משפיעה באופן משמעותי על מספר תוצאות חיוביות מוטעות וגם מילות מפתח שליליות שגויות.

מידע נוסף זמין בקטע סף וערכי מטריצת הבלבול בקורס המקוצר בנושא למידת מכונה.

מערך נתונים עם אי-איזון בין הכיתות

#fundamentals

מערך נתונים לבעיית סיווג שבה המספר הכולל של תוויות בכל סיווג שונה באופן משמעותי. לדוגמה, נניח שיש מערך נתונים של סיווג בינארי, וששתי התוויות שלו מחולקות באופן הבא:

  • 1,000,000 תוויות שליליות
  • 10 תוויות חיוביות

היחס בין תוויות שליליות לתוויות חיוביות הוא 100,000 ל-1, כך שמדובר במערך נתונים עם חוסר איזון בין הכיתות.

לעומת זאת, מערך הנתונים הבא לא לא מאוזן מבחינת סיווג כי היחס בין תוויות שליליות לתוויות חיוביות קרוב ל-1:

  • 517 תוויות שליליות
  • 483 תוויות חיוביות

גם מערכי נתונים עם כמה סיווגים יכולים להיות לא מאוזנים מבחינת הסיווגים. לדוגמה, גם מערך הנתונים של סיווג מרובה-מחלקות לא מאוזן, מכיוון שתווית אחת יש הרבה יותר דוגמאות מהשניים האחרים:

  • 1,000,000 תוויות עם הכיתה 'ירוק'
  • 200 תוויות עם סיווג "סגול"
  • 350 תוויות עם הכיתה 'כתום'

ראו גם אנטרופיה, סיווג רוב, וסיווג מיעוט.

חיתוך

#fundamentals

שיטה לטיפול בחריגים יוצאי דופן באמצעות אחד או יותר משניהם:

  • הפחתת הערכים של המאפיין שגדולים מסף מקסימלי עד לסף המקסימלי.
  • הגדלת הערכים של התכונות שלא חורגים מהסף המינימלי עד לערך הזה הסף המינימלי.

לדוגמה, נניח שפחות מ-0.5% מהערכים של מאפיין מסוים נמצאים מחוץ לטווח 40 עד 60. במקרה כזה, תוכלו לבצע את הפעולות הבאות:

  • חיסור של כל הערכים שמעל 60 (הסף המקסימלי) כך שהם יהיו בדיוק 60.
  • כל הערכים שקטנים מ-40 (הסף המינימלי) יקוצצו לערך 40.

ערכים חריגים חשודי טעות עלולים להזיק למודלים, ולפעמים לגרום למשקולות עד הסוף במהלך האימון. ערכים חריגים מסוימים יכולים גם לפגוע באופן משמעותי במדדים כמו דיוק. חיתוך הוא שיטה נפוצה להגבלת את הנזק.

כוחות חיתוך חיתוך (Gradient) ערכי הדרגתיות בטווח ייעודי במהלך האימון.

מידע נוסף זמין בקטע נתונים מספריים: נורמליזציה במדריך למתחילים בנושא למידת מכונה.

Cloud TPU

#TensorFlow
#GoogleCloud

מאיץ חומרה מיוחד שנועד להאיץ של עומסי העבודה (workloads) ב-Google Cloud.

קיבוץ

#clustering

קיבוץ דוגמאות קשורות, במיוחד במהלך למידה ללא הדרכה. אחרי שכל הדוגמאות מקובצות, אדם יכול לספק משמעות לכל אשכול.

יש הרבה אלגוריתמים של קיבוץ. לדוגמה, האלגוריתם k-means מקבצ דוגמאות על סמך הקרבה שלהן לנקודת מרכז, כפי שמתואר בתרשים הבא:

גרף דו-ממדי שבו ציר ה-X מסומן ברוחב העץ,
          וציר ה-Y מסומן בתווית גובה עץ. הגרף מכיל שני מרכזי מסה וכמה עשרות נקודות נתונים. נקודות הנתונים מסווגות לפי הקרבה שלהן. כלומר, הנקודות על הגרף
          הקרוב ביותר למרכז אחד מסווגים כאשכול 1, בעוד
          הקרוב ביותר למרכז השני מסווגים כאשכול 2.

לאחר מכן חוקר אנושי יוכל לבדוק את האשכולות, לדוגמה, לסמן את אשכול 1 בתווית "עצים ננסיים" ואת אשכולות 2 כ"עצים בגודל מלא".

דוגמה נוספת היא אלגוריתם קיבוץ שמבוסס על המרחק של דוגמה מנקודת מרכז, כפי שמוצג בהמשך:

עשרות נקודות נתונים מסודרות במעגלים קונצנטריים, כמעט
          כמו חורים מסביב למרכז של לוח חיצים. הטבעת הפנימית ביותר של נקודות הנתונים מסווגת כאשכול 1, הטבעת האמצעית מסווגת כאשכול 2 והטבעת החיצונית מסווגת כאשכול 3.

מידע נוסף זמין בקורס בנושא קיבוץ.

התאמה משותפת

כאשר נוירונים חוזים דפוסים בנתוני אימון על ידי מסתמכים כמעט רק על פלט של נוירונים ספציפיים אחרים במקום להסתמך התנהגות הרשת באופן כללי. מתי הדפוסים שגורמים להתאמה משותפת לא קיימים בנתוני האימות, וההתאמה המשותפת גורמת להתאמה יתר. תיקון Dropout מפחית את ההתאמה המשותפת, כי Dropout מוודא שהנוירונים לא יכולים להסתמך רק על נוירונים ספציפיים אחרים.

סינון שיתופי

#recsystems

חיזויים לגבי תחומי העניין של משתמש מסוים. על סמך תחומי העניין של משתמשים רבים אחרים. סינון משותף משתמשים בו בדרך כלל במערכות המלצות.

לעיון בקטע תוכן שיתופי סינון מפורט מידע נוסף בקורס 'מערכות להמלצות'.

שינויים בקונספט

שינוי בקשר בין התכונות לבין התווית. עם הזמן, תנודות במושגים גורמות לירידה באיכות המודל.

במהלך האימון, המודל לומד את הקשר בין המאפיינים לבין התוויות שלהם בקבוצת האימון. אם התוויות בערכת האימון הן שרתי proxy טובים בעולם האמיתי, אז המודל צריך ליצור חיזויים מהעולם האמיתי. עם זאת, עקב הבדלים בקונספט, וחיזויים נוטים לרדת עם הזמן.

לדוגמה, שימו לב לסיווג בינארי שחוזה אם דגם מסוים של מכונית הוא 'יעיל דלק'. כלומר, התכונות יכולות להיות:

  • משקל הרכב
  • דחיסת מנוע
  • סוג ההעברה

בזמן שהתווית היא:

  • חסכוני בדלק
  • לא חסכוני בדלק

עם זאת, המושג 'מכונית חסכונית בדלק' שומר משתנה. דגם של מכונית שסווג כיעיל בדלק בשנת 1994 היה כמעט בטוח יסווג כלא יעיל בדלק ב-2024. מודל שסובל משחיקה של קונספט נוטה להפיק חיזויים פחות מועילים לאורך זמן.

השוואה וניגוד לללא תחנות.

תנאי

#df

בעץ החלטות, כל צומת מחשבת ביטוי מסוים. לדוגמה, החלק הבא של עץ ההחלטות מכיל שני תנאים:

עץ החלטות שמורכב משני תנאים: (x > 0) ו
          (y > 0).

תנאי נקרא גם פיצול או בדיקה.

ניגודיות בין המצב עם עלה.

ראה גם:

למידע נוסף על סוגי תנאים את הקורס 'יערות החלטה', תוכלו לקבל מידע נוסף.

סיפורים

#language

הזיה היא מילה נרדפת.

מונחה הוא כנראה מדויק יותר מבחינה טכנית מאשר הזיה. עם זאת, ההזיה הפכה לפופולרית קודם.

הגדרות אישיות

התהליך של הקצאת ערכי המאפיין הראשוניים שמשמשים לאימון מודל, כולל:

בפרויקטים של למידת מכונה, אפשר לבצע את ההגדרה באמצעות קובץ תצורה מיוחד או באמצעות ספריות תצורה כמו:

הטיית אישור

#fairness

הנטייה לחפש מידע, לפרש אותו, להעדיף אותו ולזכור אותו באופן שמאשר את האמונות או ההשערות הקיימות של האדם. מפתחי למידת מכונה עשויים לאסוף או להוסיף תוויות בטעות בדרכים שמשפיעות על התוצאה שתומכת את האמונות שלהם. הטיית אישור היא סוג של הטיה מרומזת.

הטיה של הנסיין היא סוג של הטיית אישור, שבה הנסיין ממשיך לאמן מודלים עד שההשערה הקיימת שלו מאושרת.

מטריצת בלבול

#fundamentals

טבלת NxN שמסכמת את מספר החיזויים הנכונים והשגויים שנוצר במודל סיווג. לדוגמה, עיינו במטריית הבלבול הבאה של מודל סיווג בינארי:

גידול (לפי חיזוי) ללא גידול (חזוי)
גידול (ערכי סף) 18 (TP) 1 (FN)
ללא גידול (ערכי סף) 6 (FP) 452 (TN)

מטריצת הבלבול שלמעלה מראה את הדברים הבאים:

  • מתוך 19 החיזויים שבהם האמת האדמה הייתה Tumor, המודל סיווג את 18 בצורה נכונה וסיווג את 1 באופן שגוי.
  • מתוך 458 החיזויים שבהם האמת (ground truth) הייתה לא-Tumor, המודל סיווג נכון של 452 וסיווג שגוי של 6.

מטריצת הבלבול של בעיית סיווג במספר מחלקות יכולה לעזור לכם לזהות דפוסים של שגיאות. לדוגמה, נבחן את מטריצת הבלבול הבאה עבור סולם של 3 מחלקות. מודל סיווג רב-מחלקות שמסווג שלושה סוגים שונים של קשתית העין (וירג'יניה, ורזיקול וסטוסה). כשהתשתית האמינה הייתה Virginica, מתוך מטריצת הבלבול עולה שהמודל היה צפוי לחזות בטעות את Versicolor הרבה יותר מאשר את Setosa:

  סטוסה (לפי התחזית) דרגת מלל (צפוי) וירג'יניה (לפי החיזוי)
Setosa (ערכי סף) 88 12 0
Versicolor (ערכי סף) 6 141 7
Virginica (ערכי סף) 2 27 109

דוגמה נוספת: מטריצת בלבול עשויה לחשוף שמודל שהודרן לזיהוי ספרות בכתב יד נוטה לחזות בטעות את המספר 9 במקום 4, או בטעות את המספר 1 במקום 7.

מטריצות בלבול מכילות מספיק מידע כדי לחשב מגוון מדדי ביצועים, כולל רמת הדיוק ורמת החזרה.

ניתוח של מחוז בחירה

#language

חלוקת משפט למבנים דקדוקיים קטנים יותר ('רכיבים'). חלק מאוחר יותר במערכת ה-ML, כמו מודל של הבנת שפה טבעית, יכול לנתח את הרכיבים בקלות רבה יותר מאשר את המשפט המקורי. לדוגמה, המשפט הבא:

חברתי אימצה שני חתולים.

מנתח של מחוז בחירה יכול לחלק את המשפט הזה כך: שני מרכיבים:

  • חבר שלי הוא ביטוי של שם עצם.
  • אמץ שני חתולים הוא ביטוי של פועל.

ניתן לחלק את המרכיבים האלה לחלוקות משנה קטנות יותר. לדוגמה, הביטוי של פועל

אימצו שני חתולים

ניתן לחלק אותו לקבוצות משנה:

  • adopted הוא פועל.
  • שני חתולים הוא ביטוי נוסף של שם עצם.

הטמעת שפה בהקשר

#language
#generativeAI

הטמעה קרובה ל'הבנה' מילים וביטויים באופן שדוברים ילידיים יכולים לראות. הטמעות של שפה בהקשר יכולות להבין תחביר, סמנטיקה והקשר מורכבים.

לדוגמה, כדאי לשקול הטמעות של המילה באנגלית cow. הטמעות ישנות יותר, כמו word2vec, יכולות לייצג מילים באנגלית כך שהמרחק במרחב ההטמעה מ-cow ל-bull דומה למרחק מ-ewe (כבשה) ל-ram (איל) או מ-female ל-male. הטמעת שפה בהקשר יכולה להתקדם צעד נוסף על ידי זיהוי שלפעמים דוברי אנגלית משתמשים במילה cow באופן לא רשמי כדי לציין פרה או שור.

חלון ההקשר

#language
#generativeAI

מספר האסימונים שמודל יכול לעבד הודעה. ככל שחלון ההקשר גדול יותר, כך המודל יכול להשתמש במידע רב יותר כדי לספק תשובות עקביות ועומדות בקו אחד להנחיה.

תכונה רציפה

#fundamentals

תכונה של נקודה צפה עם טווח אינסופי של ערכים אפשריים, כמו טמפרטורה או משקל.

ניגודיות עם תכונה נפרדת.

דגימת נוחות [ברבים: דגימות נוחוּת]

שימוש בקבוצת נתונים שלא נאספה באופן מדעי כדי להריץ ניסויים מהירים. בשלב מאוחר יותר, חשוב לעבור למודל מדעי שנאסף של הכיתובים.

התכנסות

#fundamentals

מצב שמגיעים אליו כשערכי הפסד משתנים מעט מאוד או לא בכלל בכל איטרציה. לדוגמה, עקומת האובדן הבאה מציעה שצבירת ההסכמה תתרחש אחרי כ-700 חזרות:

תרשים קרטוזי. ציר ה-X יאבד. ציר ה-Y הוא מספר האימון
          כמה חזרות. האובדן גבוה מאוד במהלך האיטרציות הראשונות, אבל
          יורדת חדה. לאחר כ-100 חזרות, האובדן עדיין
          בסדר יורד, אבל בהדרגה. אחרי כ-700 חזרות, אובדן הלמידה נשאר יציב.

מודל מתכנס כשאימון נוסף לא מצליח לשפר את המודל.

בלמידת עומק, ערכי האובדן נשארים לפעמים קבועים או כמעט קבועים במשך הרבה חזרות לפני שהם יורדים. במהלך תקופה ארוכה של ערכי אובדן קבועים, ייתכן שתקבלו תחושה מוטעית של התקרבות.

למידע נוסף, כדאי לעיין בקטע עצירה מוקדמת.

מידע נוסף זמין בקטע התכנסות של מודלים ועקומות אובדן בקורס המקוצר בנושא למידת מכונה.

פונקציית קמור

פונקציה שבה האזור שמעל לתרשים של הפונקציה הוא קבוצה קמורה. פונקציה Convex אופיינית נראית כמו האות U. לדוגמה, הן פונקציות קמורות:

עקומות בצורת U, שלכל אחת מהן יש נקודה מינימלית אחת.

לעומת זאת, הפונקציה הבאה לא קמורה. שימו לב איך האזור שמעל התרשים אינו קבוצה קמורה:

עקומה בצורת W עם שתי נקודות שיא מקומיות שונות.

לפונקציה קמורה לחלוטין יש בדיוק נקודה אחת של מינימום מקומי, שהיא גם נקודה של מינימום גלובלי. הפונקציות הקלאסיות בצורת U פונקציות קמורות מאוד. אבל יש פונקציות קמורות (לדוגמה, קווים ישרים) לא בצורת U.

מידע נוסף זמין בקטע Convergence and convex functions במדריך למתחילים בנושא למידת מכונה.

אופטימיזציה של קמורות

תהליך שבו משתמשים בשיטות מתמטיות כמו ירידה בגרדינט כדי למצוא את הערך המינימלי של פונקציה קמורה. הרבה מחקר בלמידת מכונה התמקד בניסוחים בעיות כמו בעיות אופטימיזציה קמורות ובפתרון הבעיות האלה ביעילות רבה יותר.

לפרטים מלאים, ראו בויד ו-ונדנברג, Convex אופטימיזציה.

קבוצה קמורה

קבוצת משנה של מרחב אוקלידיאני, כך שקו שנמתח בין שתי נקודות כלשהן בקבוצת המשנה נשאר לגמרי בתוך קבוצת המשנה. לדוגמה, שני הצורות הבאות הן קבוצות קמורות:

איור אחד של מלבן. איור נוסף של אליפסה.

לעומת זאת, שני הצורות הבאות הן לא קבוצות קמורות:

איור אחד של תרשים עוגה שבו חסר פרוסה.
          איור נוסף של מצולע לא סדיר במיוחד.

convolve

#image

במתמטיקה, במילים קלילות, שילוב של שתי פונקציות. בלמידת מכונה, עיבוד נתונים מבוסס-עיבוי (convolution) מעורבב עם מסנן העיבוי ומטריצת הקלט כדי לאמן משקלים.

את המונח "קונבולציה" בלמידת מכונה היא בדרך כלל דרך קצרה שמתייחס לפעולה קונבולוציה או שכבת הקיפול.

ללא קונבולציות, האלגוריתם של למידת המכונה צריך ללמוד משקל נפרד לכל תא בטנזור גדול. לדוגמה, אימון של אלגוריתם למידת מכונה על תמונות בגודל 2K x 2K יאלץ למצוא 4 מיליון משקלים נפרדים. בזכות עיבוד קוונטי, אלגוריתם למידת המכונה צריך למצוא משקלים רק לכל תא במסנן קוונטי, וכך לצמצם באופן משמעותי את נפח הזיכרון הנדרש לאימון המודל. כשמסנן הקונבולוציה הוא הוא פשוט משוכפל בין תאים כך שכל אחד מהם מוכפל על ידי המסנן.

חדש: נוירונים מתקפלים ערוצים בקורס 'סיווג תמונות' כדי לקבל מידע נוסף.

מסנן קוונטילי

#image

אחד משני הגורמים בפעולת עיבוד נתונים (convolution). (השחקן השני הוא פרוסת מטריצה של קלט). מסנן קוונטי הוא מטריצה שיש לה את אותו דרג כמו למטריצה של הקלט, אבל בצורה קטנה יותר. לדוגמה, בהינתן מטריצת קלט של 28x28, המסנן יכול להיות כל מטריצה דו-ממדית קטן מ-28x28.

במניפולציה מצולמת, כל התאים במסנן קונבולוציה בדרך כלל מוגדר לדפוס קבוע של אחת ואפס. בלמידת מכונה, מסננים קונבולוציה הם בדרך כלל מקורות עם מספרים אקראיים, ואז שמאמנת את הערכים האידיאליים.

לצפייה בקטע Conolution בקורס 'סיווג תמונות' כדי לקבל מידע נוסף.

שכבת קונבולוציה

#image

שכבה של רשת נוירונים עמוקה שבה מסנן קונבולוציה מעביר לאורך קלט במטריצה. לדוגמה, נבחן את המודל 3x3 מסנן קונבולוציה:

מטריצה בגודל 3x3 עם הערכים הבאים: [[0,1,0], [1,0,1], [0,1,0]]

האנימציה הבאה מציגה שכבה קונבולוציה שמורכבת מ-9 פעולות קונבולוציה שכוללות מטריצת הקלט 5x5. שימו לב שכל פעולה קוונטית פועלת על פרוסה שונה בגודל 3x3 של מטריצת הקלט. המטריצה שמתקבלת בגודל 3x3 (בצד ימין) מורכבת מהתוצאות של 9 פעולות קונבולוציה:

אנימציה שמציגה שתי מטריצות. המטריצה הראשונה היא מטריצה 5x5:‏ [[128,97,53,201,198], [35,22,25,200,195],
          [37,24,28,197,182], [33,28,92,195,179], [31,40,100,192,177]].
          המטריצה השנייה היא המטריצה 3x3:
          [[181,303,618], [115,338,605], [169,351,560]].
          המטריצה השנייה מחושבת על ידי החלת המסנן הקוונטי [[0, 1, 0], [1, 0, 1], [0, 1, 0]] על קבוצות משנה שונות בגודל 3x3 של המטריצה בגודל 5x5.

מידע נוסף זמין בקטע שכבות מחוברות בקורס 'סיווג תמונות'.

רשת עצבית מתקפלת

#image

רשת נוירונים שבה שכבה אחת לפחות היא שכבה קוונטית. נתיב קונבולוציה טיפוסי רשת נוירונים מורכבת משילוב כלשהו של השכבות הבאות:

רשתות נוירונים מלאכותיות (CNN) הצליחו מאוד בפתרון בעיות מסוימות, כמו זיהוי תמונות.

פעולת convolve

#image

הפעולה המתמטית הבאה בשני שלבים:

  1. הכפלה מבוססת-היסודות של מסנן מתקפל ופרוסה מטריצת קלט. (לפרוסה של מטריצת הקלט יש דירוג זהה וגם כמסנן קונבולוציה).
  2. סיכום כל הערכים במטריצה של המוצר שנוצר.

לדוגמה, נבחן את מטריצת הקלט הבאה בגודל 5x5:

מטריצת 5x5: [[128,97,53,201,198], [35,22,25,200,195],
          [37,24,28,197,182], [33,28,92,195,179], [31,40,100,192,177]].

עכשיו נניח את המסנן המסתורי הבא בגודל 2x2:

המטריצה 2x2: [[1, 0], [0, 1]]

כל פעולת convolve כוללת פרוסה אחת בגודל 2x2 של מטריצת הקלט. לדוגמה, נניח שאנחנו משתמשים בחלקה בגודל 2x2 בפינה השמאלית העליונה של מטריצת הקלט. כך שפעולת הקונבולוציה מופעלת הפלח הזה נראה כך:

החלת המסנן הקוונטי [[1, 0], [0, 1]] על הקטע 2x2 בפינה הימנית העליונה של מטריצת הקלט, שהוא [[128,97], [35,22]].
          הפילטר המורכב משאיר את 128 ו-22 ללא שינוי, אבל אפסים
          את 97 ו-35. לכן פעולת הקונבולוציה מניבה
          הערך 150 (128+22).

שכבת נוירונים רגולריים (convolutional) מורכבת מסדרה של פעולות נוירונים רגולריים, שכל אחת פועלת על פרוסה שונה של מטריצת הקלט.

עלות

מילה נרדפת ל-loss.

אימון משותף

גישה של למידה מונחית למחצה שימושי במיוחד כאשר כל התנאים הבאים מתקיימים:

אימון משותף למעשה מגביר אותות עצמאיים לאות חזק יותר. לדוגמה, נניח שיש מודל סיווג שמסווג מכוניות יד שנייה ספציפיות כטובות או כרעות. קבוצה אחת של תכונות חזויות עשויה להתמקד במאפיינים מצטברים כמו השנה, היצרן והדגם של הרכב. קבוצה אחרת של תכונות חזויות עשויה להתמקד ברשומות הנהיגה של הבעלים הקודם ובהיסטוריית התחזוקה של הרכב.

המאמר העיקרי בנושא אימון משותף הוא שילוב נתונים מתויגים ונתונים לא מתויגים עם אימון משותף של בלום ומיטשל.

הוגנות תנאי-נגד

#fairness

מדד הוגנות שבודק אם מסווג מניבה את אותה תוצאה לאדם אחד כמו לאדם אחר שזהה לראשון, מלבד ביחס לאחד או יותר מאפיינים רגישים. הערכת סיווג של הוגנות מנוגדת היא שיטה אחת לגילוי מקורות פוטנציאליים של של ההטיה במודל.

מידע נוסף זמין במאמרים הבאים:

הטיה של כיסוי

#fairness

ראו הטיה של תהליך הבחירה.

פריחה מקרוסלת

#language

משפט או ביטוי עם משמעות לא ברורה. פריחת הפריחה מהווה בעיה משמעותית בטבע הבנת השפה. לדוגמה, הכותרת Red Tape Holds Up Skyscraper היא 'פרח פגום' כי מודל NLU יכול לפרש את הכותרת באופן מילולי או מטאפורי.

מבקר/ת

#rl

מילה נרדפת ל-Deep Q-Network.

ב-Crossentropy

הכללה של Log Loss לבעיות סיווג בכמה מחלקות. קרוס-אנטרופיה מכמת את ההבדל בין שתי התפלגויות הסתברות. מידע נוסף זמין במאמר תסבוכת.

אימות צולב

מנגנון להערכת מידת הכלליות של מודל לנתונים חדשים, על ידי בדיקת המודל בקבוצות משנה של נתונים לא חופפות אחת או יותר שלא נכללות בקבוצת האימון.

פונקציית התפלגות מצטברת (CDF)

פונקציה שמגדירה את התדירות של דגימות שקטנות מערך היעד או שוות לו. לדוגמה, נבחן התפלגות נורמלית של ערכים מתמשכים. CDF מראה ש-50% מהדגימות צריכות להיות קטנות מ-mean או שווה לו, ו-84% מהדגימות צריכות להיות קטנות מ-mean או שווה לו סטיית תקן אחת מעל mean.

D

ניתוח נתונים

קבלת הבנה של נתונים על ידי התחשבות בדגימות, מדידות, והמחשה חזותית. ניתוח נתונים יכול להיות שימושי במיוחד כשמקבלים מערך נתונים בפעם הראשונה, לפני שיוצרים את המודל הראשון. הוא גם חיוני להבנת הניסויים ולפתרון בעיות במערכת.

הרחבת נתונים

#image

הגדלה מלאכותית של הטווח והמספר דוגמאות לאימון על ידי טרנספורמציה של חוויות קיימות דוגמאות כדי ליצור דוגמאות נוספות. לדוגמה, נניח שתמונות הן אחת features, אבל מערך הנתונים לא לכלול מספיק דוגמאות של תמונות כדי שהמודל יוכל ללמוד שיוכים מועילים. במצב אידיאלי מומלץ להוסיף מספיק תייגו תמונות למערך הנתונים כדי שמאפשרות למודל לאמן כראוי. אם זה לא אפשרי, אפשר להשתמש בהגדלת נתונים כדי לסובב, למתוח ולהציג תמונת מראה של כל תמונה כדי ליצור הרבה וריאציות של התמונה המקורית. כך אפשר לקבל מספיק נתונים מתויגים כדי לאפשר אימון מצוין.

DataFrame

#fundamentals

סוג נתונים פופולרי של פנדות לייצוג מערכי נתונים בזיכרון.

DataFrame הוא מקביל לטבלה או לגיליון אלקטרוני. לכל עמודה של DataFrame יש שם (כותרת), וכל שורה מזוהה באמצעות מספר ייחודי.

כל עמודה ב-DataFrame מובנית כמו מערך דו-מימדי, אלא שאפשר להקצות לכל עמודה סוג נתונים משלה.

אפשר לעיין גם בדף העזרה הרשמי של pandas.DataFrame.

מקביליות של נתונים

דרך להגדיל את האימון או את הסקת המסקנות שמשכפל מודל שלם מספר מכשירים, ומעבירה קבוצת משנה של נתוני הקלט לכל מכשיר. במקביליות נתונים אפשר לבצע אימון ותובנות בקבוצות גדולות מאוד, אבל במקביליות נתונים צריך שהמודל יהיה קטן מספיק כדי להתאים לכל המכשירים.

בדרך כלל, במקביליות נתונים אפשר להאיץ את האימון וההסקה.

ניתן לעיין גם במודל מקבילה.

מערך נתונים

#fundamentals

אוסף של נתונים גולמיים, לרוב (אבל לא רק) שמאורגן בפורמטים הבאים:

  • גיליון אלקטרוני
  • קובץ בפורמט CSV (ערכים המופרדים בפסיקים)

Dataset API‏ (tf.data)

#TensorFlow

ממשק API ברמה גבוהה של TensorFlow לקריאת נתונים ולהמרתם לפורמט שנדרש לאלגוריתם של למידת מכונה. אובייקט tf.data.Dataset מייצג רצף של רכיבים, שבו כל רכיב מכיל חיישן אחד או יותר. tf.data.Iterator מספקת גישה לרכיבים של Dataset.

גבול החלטה

התו המפריד בין הקטגוריות שלמד המודל בקטגוריה בינארית או בבעיות סיווג בכמה קטגוריות. לדוגמה, בתמונה הבאה שמייצגת בעיית סיווג בינארית, גבול ההחלטה הוא הגבול בין המחלקה הכתומה המחלקה הכחולה:

גבול מוגדר היטב בין מחלקה אחת לאחרת.

יער החלטות

#df

מודל שנוצר מכמה עצי החלטות. יער החלטות יוצר חיזוי על ידי צבירת החיזויים של עצי ההחלטות שלו. סוגים פופולריים של יערות החלטות כוללים יערות אקראיים ויערות עם שיפור שיפוע.

להחלטה יערות בקורס 'יערות החלטה' כדי לקבל מידע נוסף.

סף לקבלת החלטות

שם נרדף לסף סיווג.

עץ החלטות

#df

מודל של למידה מונחית שמורכב מקבוצה של תנאים ועלים שמאורגנים באופן היררכי. לדוגמה, זהו עץ החלטות:

עץ החלטות שמורכב מארבעה תנאים שמסודרים בהיררכיה, שמוביל לחמישה עלים.

מפענח

#language

באופן כללי, כל מערכת למידת מכונה שעוברת המרה ממערכת מעובדת, צפופה או מייצוג פנימי יותר לייצוג גולמי, דל או חיצוני יותר.

פעמים רבות מפענחים הם רכיב של מודל גדול יותר, שבו הם מותאמים לרוב למקודד.

במשימות של רצף לרצף, מפענח מתחיל במצב הפנימי שהמקודד יצר כדי לחזות את המופע הבא ברצף.

ההגדרה של מפענח בתוך טרנספורמר על הארכיטקטורה של טרנספורמר.

ראו מודלים גדולים של שפה בקורס מקוצר על למידת מכונה.

מודל עמוק

#fundamentals

רשת נוירונים שמכילה יותר מרשת אחת שכבה מוסתרת.

מודל עמוק נקרא גם רשת עצבית עמוקה.

השוו עם מודל רחב.

של רשת עצבית עמוקה

מילה נרדפת למודל עומק.

Deep Q-Network (DQN)

#rl

ב-Q-learning, רשת נוירונים עמוקה שחוזה פונקציות Q.

Critic הוא כינוי ל-Deep Q-Network.

שוויון דמוגרפי

#fairness

מדד הוגנות שמתקיים אם התוצאות של הסיווג של מודל לא תלויות במאפיין רגיש נתון.

לדוגמה, אם גם ליליפוטים וגם ליליפוטים חלים על באוניברסיטת גלובדובדב, משיגים שוויון דמוגרפי אם מהליליפוטים שנתנו לאחרים זהה לאחוז התושבים אישור להצטרף לתוכנית, בין אם קבוצה אחת מניבה בממוצע איכות תוכן גבוהה יותר מהשני.

בניגוד להשוואת הסיכויים ולשוויון הזדמנויות, שבהם מותר לתוצאות הסיווג הכוללות להיות תלויות במאפיינים רגישים, אבל אסור לתוצאות הסיווג של תוויות מסוימות של אמת בפועל להיות תלויות במאפיינים רגישים. במאמר 'התמודדות עם אפליה באמצעות למידת מכונה חכמה יותר' מופיעה הדמיה שממחישה את הפשרות שצריך לעשות כשמבצעים אופטימיזציה להשגת שוויון דמוגרפי.

מידע נוסף זמין בקטע צדק: שוויון דמוגרפי בקורס המקוצר בנושא למידת מכונה.

ניקוי רעשים

#language

גישה נפוצה ללמידה בלתי מונחית:

  1. רעש מתווסף באופן מלאכותי למערך הנתונים.
  2. המודל מנסה להסיר את הרעש.

הסרת הרעש מאפשרת ללמוד מדוגמאות ללא תוויות. מערך הנתונים המקורי משמש כיעד או תווית, והנתונים עם הרעש משמשים כקלט.

בחלק מהמודלים המסופים של שפה (MLM) משתמשים בביטול רעשים ככה:

  1. כדי להוסיף רעש באופן מלאכותי למשפט ללא תווית, מסתירים חלק מהאסימונים.
  2. המודל מנסה לחזות את האסימונים המקוריים.

רכיב דחוס

#fundamentals

תכונה שבה רוב הערכים או כולם הם לא אפס, בדרך כלל Tensor של ערכי נקודה צפה (floating-point). לדוגמה, הטנזור הבא עם 10 רכיבים הוא צפוף כי 9 מהערכים שלו שונים מאפס:

8 3 7 5 2 4 0 4 9 6

ניגודיות עם תכונה מצומצמת.

שכבה צפופה

שם נרדף ל-שכבה מקושרת במלואה.

עומק

#fundamentals

הסכום של הגורמים הבאים ברשת נוירונים:

לדוגמה, רשת נוירונים עם חמש שכבות נסתרות ושכבת פלט אחת העומק הוא 6.

שימו לב ששכבת הקלט עומק ההשפעה.

רשת עצבית מתקפלת להפרדה עמוקה (sepCNN)

#image

רשת עצבית מתקפלת שמבוססת על Inception, אבל שבהם מודולים של התחלה מוחלפים במודלים של למידה עמוקה, ולפעמים עצביות. ידוע גם כ-Xception.

עיבוד נתונים באמצעות convolve נפרד לפי עומק (נקרא גם convolve נפרד) מחלק convolve 3D רגיל לשתי פעולות convolve נפרדות שיעילות יותר מבחינה חישובית: קודם, convolve לפי עומק, עם עומק של 1 (n ✕ n ✕ 1), ולאחר מכן convolve לפי נקודה, עם אורך ורוחב של 1 (1 ✕ 1 ✕ n).

מידע נוסף זמין במאמר Xception: למידה עמוקה עם הפרדה עמוקה (Depthwise) תנודות.

תווית נגזרת

מילה נרדפת ל-תווית proxy.

מכשיר

#TensorFlow
#GoogleCloud

מונח עמוס מדי עם שתי ההגדרות האפשריות הבאות:

  1. קטגוריית חומרה שיכולה להריץ סשן של TensorFlow, כולל מעבדים, מעבדי GPU ומעבדי TPU.
  2. כשמאמנים מודל למידת מכונה על צ'יפים של מאיצים (מעבדי GPU או TPU), החלק במערכת שמבצע מניפולציה בפועל רכיבי tensor והטמעה. המכשיר פועל על צ'יפים של מאיץ. לעומת זאת, המארח בדרך כלל פועלת על מעבד (CPU).

פרטיות דיפרנציאלית

בלמידת מכונה, אנחנו משתמשים באנונימיזציה כדי להגן על מידע אישי רגיש (לדוגמה, מידע אישי של אדם פרטי) שנכלל קבוצת אימון למניעת חשיפה. הגישה הזו מבטיחה שהמודל לא לומד או זוכר הרבה על אדם ספציפי. כדי לעשות זאת, אנחנו מבצעים דגימה ומוסיפים רעש במהלך אימון המודל כדי להסתיר נקודות נתונים ספציפיות, וכך לצמצם את הסיכון לחשיפת נתוני אימון רגישים.

פרטיות דיפרנציאלית משמשת גם מחוץ ללמידת מכונה. לדוגמה, מדעני נתונים משתמשים לפעמים בפרטיות דיפרנציאלית כדי להגן על הפרטיות של אנשים פרטיים כשהם מחשבים נתונים סטטיסטיים של שימוש במוצרים לפי קבוצות דמוגרפיות שונות.

צמצום מאפיינים

הפחתת מספר המאפיינים שמייצגים מאפיין מסוים בוקטור מאפיינים, בדרך כלל על ידי המרה לוקטור הטמעה.

מימדים

מונח בעל עומס יתר עם אחת מההגדרות הבאות:

  • מספר רמות הקואורדינטות בTensor. לדוגמה:

    • למשתנה סקלרי יש אפס מאפיינים, לדוגמה ["Hello"].
    • לווקטור יש מימד אחד; לדוגמה, [3, 5, 7, 11].
    • למטריצה יש שני מימדים: לדוגמה, [[2, 4, 18], [5, 7, 14]]. אפשר לציין באופן ייחודי תא מסוים בוקטור דו-מימדי באמצעות קואורדינטה אחת, אבל צריך שתי קואורדינטות כדי לציין באופן ייחודי תא מסוים במטריצה דו-מימדית.
  • מספר הרשומות בוקטור מאפיין.

  • מספר הרכיבים בשכבת הטמעה.

הנחיה ישירה

#language
#generativeAI

מילה נרדפת להנחיה ישירה (Zero-shot).

תכונה בדידה

#fundamentals

תכונה עם קבוצה סופית של ערכים אפשריים. לדוגמה, מאפיין שערכיו יכולים להיות רק animal (חיה), vegetable (ירק) או mineral (מינרל) הוא מאפיין בדיד (או קטגורי).

בניגוד לתכונה רציפה.

מודל דיסקרימינטיבי

מודל שחוזה תוויות מקבוצה של עוד תכונות. באופן רשמי יותר, מודלים של למידת מכונה דיסקרימיננטית מגדירים את ההסתברות המותנית של פלט, בהתאם למאפיינים ולמשקלים. כלומר:

p(output | features, weights)

לדוגמה, מודל שמנבא אם אימייל הוא ספאם על סמך מאפיינים ומשקולות הוא מודל מבדיל.

הרוב המכריע של מודלים של למידה בפיקוח, כולל סיווג ומודלים של רגרסיה הם מודלים דיסקרימינטיביים.

ביצוע ניגוד למודל גנרטיבי.

מבדילה

מערכת שקובעת אם דוגמאות הן אמיתיות או מזויפות.

לחלופין, מערכת המשנה בתוך רשת גנרטיבית יריבה שמחליטה אם הדוגמאות שנוצרו על ידי הגנרטור הן אמיתיות או מזויפות.

מידע נוסף זמין בקטע המזהה בקורס GAN.

השפעה שונה

#fairness

קבלת החלטות לגבי אנשים שמשפיעות באופן לא פרופורציונלי על קבוצות משנה שונות באוכלוסייה. בדרך כלל מדובר במצבים מקרים שבהם תהליך קבלת החלטות אלגוריתמי פוגע או מועיל יש תתי-קבוצות יותר מאחרות.

לדוגמה, נניח שאלגוריתם שקובע להלוואה מיניאטורית יש סיכוי גבוה יותר לסווג אותן כ"לא עומדות בתנאים" אם הכתובת שלהם למשלוח דואר מכילה מיקוד. אם יש סיכוי גבוה יותר שלאנשים ב-Big-Endian יהיו כתובות למשלוח דואר עם קוד האימייל הזה מאשר לאנשים ב-Little-Endian, יכול להיות שהאלגוריתם הזה יוביל להשפעה שונה על קבוצות שונות.

השוו בין יחס שונה, שמתמקד בפערים שנוצרים כאשר מאפיינים של תתי-קבוצה הם קלטים מפורשים לתהליך קבלת החלטות באמצעות אלגוריתם.

טיפול מפלה

#fairness

הוספת מאפיינים רגישים של הנושאים לתהליך קבלת ההחלטות האלגוריתמיות, כך שקבוצות משנה שונות של אנשים יקבלו טיפול שונה.

לדוגמה, נבחן אלגוריתם קובע להלוואה של בית מיניאטורי על סמך שהם מספקים בבקשת ההלוואה. אם האלגוריתם משתמש השתייכותו של ליליפוטין בתור Big-Endian או Little-Endian כקלט, נוקטים יחס שונה לגבי המאפיין הזה.

בניגוד להשפעה לא שווה, שמתמקדת בהבדלים בהשפעות החברתיות של החלטות אלוגוריתמיות על קבוצות משנה, ללא קשר לכך שהקבוצות המשנה האלה הן קלט למודלים.

זיקוק

#generativeAI

תהליך של צמצום הגודל של מודל אחד (שנקרא מורה) למודל קטן יותר (שנקרא תלמיד) שמחקה את התחזיות של המודל המקורי בצורה נאמנה ככל האפשר. זיקוק שימושי כי למודל הקטן יותר יש שני יתרונות מרכזיים על פני המודל (המורה):

  • זמן הסקת מסקנות מהיר יותר
  • הפחתת השימוש בזיכרון ובאנרגיה

עם זאת, החיזויים של התלמיד בדרך כלל לא טובים באותה מידה את החיזויים למורה.

זיקוק מאמן את המודל של התלמיד כדי לצמצם loss function (פונקציית אובדן), על סמך ההבדל בין הפלט של המודלים לחיזוי המודלים של התלמידים והמורים.

השוו בין זיקוק לבין המונחים הבאים:

למידע נוסף, אפשר לקרוא את המאמר מודלים גדולים של שפה (LLM): כוונון עדין, זיקוק, הצגת הנחיות הנדסה בקורס מקוצר על למידת מכונה.

distribution

התדירות והטווח של ערכים שונים של מאפיין או תווית נתון. ההתפלגות מייצגת את הסבירות של ערך מסוים.

התמונה הבאה מציגה היסטוגרמות של שתי הפצות שונות:

  • בצד שמאל, התפלגות חוק הכוח של העושר לעומת מספר האנשים באמצעות העושר הזה.
  • בצד שמאל, חלוקה רגילה של גובה לעומת מספר האנשים שיש להם את הגובה הזה.

שתי היסטוגרמות. היסטוגרמה אחת מציגה התפלגות של חוק העוצמה, עם עושר על ציר ה-X ומספר האנשים שיש להם את העושר הזה על ציר ה-Y. לרוב האנשים יש עושר מועט, ולמעט אנשים
          המון עושר. ההיסטוגרמה השנייה מציגה התפלגות נורמלית
          עם גובה על ציר ה-X ומספר האנשים שיש להם את הגובה הזה
          על ציר ה-Y. רוב האנשים מקובצים במקום כלשהו ליד הממוצע.

הבנת ההתפלגות של כל תכונה וכל תווית יכולה לעזור לך לקבוע איך כדי לנרמל ערכים ולזהות חריגים חשודי טעות.

הביטוי out of grouping מתייחס לערך שלא מופיע או שהוא נדיר מאוד. לדוגמה, תמונה של כוכב שבת ייחשבו כתמונה שלא נכללת במערך נתונים שמכיל תמונות של חתולים.

אשכול חלוקת

#clustering

ראו אשכולות היררכיים.

דגימה למטה

#image

מונח של עומס יתר יכול להיות אחת מהאפשרויות הבאות:

  • הפחתת כמות המידע בתכונה כדי לאמן מודל בצורה יעילה יותר. לדוגמה, לפני אימון מודל לזיהוי תמונות, אפשר להקטין את הדגימה של תמונות ברזולוציה גבוהה לפורמט ברזולוציה נמוכה יותר.
  • אימון על אחוז נמוך באופן לא פרופורציונלי של ייצוג יתר כיתה כדי לשפר את אימון המודלים בקרב כיתות שסובלות מחוסר ייצוג. לדוגמה, במערך נתונים עם חוסר איזון בין הקטגוריות, המודלים נוטים ללמוד הרבה על הקטגוריה הגדולה יותר ולא מספיק על הקטגוריה הקטנה יותר. דגימה לאחור עוזרת לאזן את כמות האימון של הכיתות הגדולות והקטנות.

לעיון בקטע מערכי נתונים: לא מאוזן מערכי נתונים בקורס מקוצר על למידת מכונה.

DQN

#rl

קיצור של Deep Q-Network.

הרגולריזציה של נטישה

סוג של סדרה שמועיל לאימון של רשתות נוירונים. ב-Dropout regularization, המערכת מסירה בחירה אקראית של מספר קבוע של היחידות בשכבת הרשת בשלב אחד של שיפוע. ככל שיותר יחידות נוטשים, כך הרגולריזציה. הפעולה הזו מקבילה לאימון הרשת לבצע אמולציה שילוב גדול באופן אקספוננציאלי של רשתות קטנות יותר. פרטים מלאים זמינים במאמר Dropout: דרך פשוטה למנוע התאמה יתר של רשתות נוירונליות.

דינמי

#fundamentals

פעולה שבוצעה בתדירות גבוהה או ברציפות. המונחים דינמי ואונליין הם מונחים נרדפים בלמידת מכונה. אלה שימושים נפוצים של דינמיות ואונליין בלמידת מכונה:

  • מודל דינמי (או מודל אונליין) הוא מודל שאומנו מחדש לעיתים קרובות או באופן מתמשך.
  • אימון דינמי (או הדרכה אונליין) היא תהליך האימון בתדירות גבוהה או מתמשכת.
  • הסקה דינמית (או הֶקֵּשׁ אונליין) היא התהליך של יצירת תחזיות על פי דרישה.

מודל דינמי

#fundamentals

מודל שנמצא לעיתים קרובות (אולי אפילו מתמשך) הכשרה מחדש. מודל דינמי הוא 'למידה לכל החיים' ש מתאים את עצמה כל הזמן לנתונים שמתפתחים. מודל דינמי נקרא גם מודל אונליין.

בניגוד למודל סטטי.

E

ביצוע מיידי

#TensorFlow

סביבת תכנות של TensorFlow שבה פעולות פועלות באופן מיידי. לעומת זאת, פעולות שנקראות ביצוע תרשימים אינו פועל עד שהוא מופעל באופן מפורש עוד לא בדקתם. ביצוע מיידי הוא ממשק אימפרטיבי, בדומה לקוד ברוב שפות התכנות. תוכניות ביצוע יזומות בדרך כלל קל יותר לנפות באגים מאשר תוכנות לביצוע תרשימים.

עצירה מוקדמת

#fundamentals

שיטה לארגון שכוללת סיום האימון לפני סיום האימון בירידה. כשמשתמשים בעצירה מוקדמת, מפסיקים את אימון המודל בכוונה כשהאובדן במערך נתוני אימות מתחיל לעלות, כלומר כשהביצועים של הכללה נפגעים.

המרחק של כדור הארץ (EMD)

מדד של הדמיון היחסי בין שתי הפצות. ככל שהמרחק של תנועה בכדור הארץ נמוך יותר, ההתפלגויות דומות יותר.

עריכת המרחק

#language

מדידה של הדמיון בין שתי מחרוזות טקסט. בלמידת מכונה, עריכת המרחק היא שימושית כי ודרך יעילה להשוות שתי מחרוזות שידועות דומות או למצוא מחרוזות שדומות למחרוזת נתונה.

יש כמה הגדרות של מרחק עריכה, וכל אחת מהן משתמשת בפעולות שונות על מחרוזות. לדוגמה, מרחק לבנשטיין מביא בחשבון את פעולות המחיקה, ההוספה וההחלפה שמצוינות כאן הכי פחות.

לדוגמה, המרחק של Levenshtein בין המילים heart (לב) ו-darts (חץ) הוא 3, כי 3 העריכות הבאות הן מספר השינויים הנמוך ביותר שצריך לבצע כדי להפוך מילה אחת לשנייה:

  1. לב ← deart (מחליפים את 'h' ב-'d')
  2. deart ← dart (delete "e")
  3. חץ ← הטלת חיצים (insert "s")

סימון einsum

סימון יעיל שמתאר את האופן שבו שני טנסורים צריכים להיות משולב. כדי לשלב את הטנסורים, מכפילים את הרכיבים של הטנזור אחד ברכיבים של הטנזור השני, ואז מסכמים את המכפלות. סימון Einsum משתמש בסמלים כדי לזהות את הצירים של כל טנזור, אותם סמלים מסודרים מחדש כדי לציין את הצורה של הארגומנט החדש שנוצר.

NumPy מספק הטמעה נפוצה של Einsum.

שכבת הטמעה

#language
#fundamentals

שכבה מוסתרת מיוחדת שמתאמנה על מאפיין קטגוריאלי בעל מאפיינים רבים, כדי ללמוד בהדרגה וקטור הטמעה בעל מאפיינים פחותים. מאפשרת לרשת נוירונים לאמן הרבה יותר ביעילות רבה יותר מאשר אימונים רק על התכונה קטגורית בממדים גבוהים.

לדוגמה, נכון לעכשיו יש ב-Earth תמיכה בכ-73,000 מינים של עצים. נניח מין עצים הוא תכונה במודל, לכן בשכבת הקלט יש וקטור חם אחד 73,000 לאורך זמן. לדוגמה, אולי baobab מיוצגת בערך כך:

מערך של 73,000 רכיבים. 6,232 הרכיבים הראשונים מכילים את הערך
     0. הרכיב הבא מכיל את הערך 1. 66,767 האלמנטים האחרונים מכילים את הערך אפס.

מערך של 73,000 רכיבים הוא ארוך מאוד. אם לא מוסיפים שכבת הטמעה למודל, תהליך האימון יהיה מאוד ממושך בגלל הכפלה של 72,999 אפסים. אולי תבחרו את שכבת ההטמעה שתכיל של 12 מאפיינים. כתוצאה מכך, שכבת ההטמעה תלמד בהדרגה וקטור הטמעה חדש לכל מין של עץ.

במצבים מסוימים, גיבוב הוא חלופה סבירה לשכבת הטמעה.

למידע נוסף, אפשר לעיין בקטע הטמעות בקורס מקוצר על למידת מכונה.

מרחב הטמעה

#language

מרחב וקטורי בעל d ממדים שאליו ממופה המאפיין ממרחב וקטורי בעל ממדים גבוהים יותר. באופן אידיאלי, מרחב ההטמעה מבנה שמוביל לתוצאות מתמטיות משמעותיות; לדוגמה, במרחב הטמעה אידיאלי, חיבור וחיסור של הטמעות יכול לפתור משימות של אנלוגיה מילולית.

המוצר הכולל נקודות של שתי הטמעות הוא מדד של הדמיון ביניהם.

וקטור הטמעה

#language

באופן כללי, מערך של מספרים נקודתיים (floating-point) שנלקח מכלשהו מוסתרת שמתארת את מקורות הקלט של השכבה המוסתרת הזו. לרוב, וקטור הטמעה הוא מערך של מספרים עם נקודה צפה (float) שהוכשרו בשכבת הטמעה. לדוגמה, נניח ששכבת הטמעה חייבת ללמוד של כל אחד מ-73,000 מינים של עצים בכדור הארץ. יכול להיות שהמערך הבא הוא וקטור ההטמעה של עץ באובב:

מערך של 12 רכיבים, שכל אחד מהם מכיל מספר נקודה צפה (floating-point) בין 0.0 ל-1.0.

וקטור הטמעה הוא לא קבוצה של מספרים אקראיים. שכבת הטמעה קובע את הערכים האלה באמצעות אימון, בדומה לאופן שבו רשת נוירונים לומדת משקולות אחרות במהלך אימון. כל רכיב הוא דירוג לאורך מאפיין מסוים של מין עצים. איזה רכיב מייצג את המאפיין של איזה מין עץ? זה קשה מאוד שבני אדם יקבעו.

החלק המדהים מבחינה מתמטית של וקטור הטמעה הוא שלפריטים דומים יש קבוצות דומות של מספרים בנקודה צפה. לדוגמה, למינים דומים של עצים יש קבוצה דומה יותר של מספרים בספרות עשרוניות מאשר למינים שונים של עצים. עצי סקויה ועצי סקויה אדומה הם זני עצים קשורים, ולכן הם יהיו בעלי קבוצה דומה יותר של מספרים עם נקודה צפה מאשר עצי סקויה ודקלי קוקוס. המספרים בוקטור ההטמעה ישתנו בכל פעם שתתאמנו מחדש את המודל, גם אם תתאמנו אותו מחדש עם קלט זהה.

את פונקציית ההתפלגות האמפירית המצטברת (eCDF או EDF)

פונקציית התפלגות מצטברת שמבוססת על מדידות אמפיריות ממערך נתונים אמיתי. הערך של הפונקציה בכל נקודה על ציר ה-x הוא החלק היחסי של התצפיות במערך הנתונים שקטנות מהערך שצוין או שוות לו.

צמצום סיכונים אמפירי (ERM)

בחירת הפונקציה שמקטינה את האובדן בקבוצת האימון. ניגודיות באמצעות צמצום סיכונים מבני.

מקודד

#language

באופן כללי, כל מערכת למידת מכונה שממירה נתונים גולמיים, דליים או חיצוניים לייצוג פנימי יותר, מעובד יותר או צפוף יותר.

מקודדים הם לרוב רכיב של מודל גדול יותר, שבו הם מותאמים לעיתים קרובות למפענח. חלק מטרנספורמרים מתאימים בין מקודדים למפענחים, אבל טרנספורמרים אחרים משתמשים רק או רק את המפענח.

חלק מהמערכות משתמשות בפלט של המקודד כקלט לסיווג רשת רגרסיה.

במשימות מסוג רצף לרצף, מקודד מקבל רצף קלט ומחזיר מצב פנימי (וקטור). לאחר מכן, המפענח משתמש במצב הפנימי הזה כדי לחזות את הרצף הבא.

ההגדרה של מקודד מופיעה בקטע טרנספורמר על הארכיטקטורה של טרנספורמר.

למידע נוסף, אפשר לקרוא את המאמר LLM: What's a large language מודל בקורס מקוצר על למידת מכונה.

אנסמבל

אוסף של מודלים שהוכשרו בנפרד, והתחזיות שלהם ממוצעות או נצברות. במקרים רבים, קבוצת מודלים מניבה תחזיות טובות יותר מאשר מודל יחיד. לדוגמה, יער אקראי הוא הרכבה שמורכבת מכמה פיצ'רים עצי החלטות. שימו לב שלא כל יערות החלטות הם מורכבים.

מידע נוסף זמין בקטע Random Forest בקורס המקוצר על למידת מכונה.

אנטרופיה

#df

בתיאוריית המידע, תיאור של מידת הבלתי צפוי של התפלגות הסתברות. לחלופין, אנטרופי מוגדר גם ככמות המידע שמכילה כל דוגמה. להתפלגות יש את האנטרופיה הגבוהה ביותר האפשרית כאשר כל הערכים של משתנה אקראי בסבירות שווה.

הנוסחה של האנטרופיה של קבוצה עם שני ערכים אפשריים, '0' ו-'1' (לדוגמה, התוויות בבעיה של סיווג בינארי) היא:

H = -p יומן - q יומן = -p יומן - (1-p) * יומן (1-p)

איפה:

  • H היא האנטרופיה.
  • p הוא החלק היחסי של דוגמאות מסוג '1'.
  • q הוא החלק של '0' דוגמאות. שימו לב ש-q = (1 - p)
  • log הוא בדרך כלל יומן2. במקרה הזה, האנטרופיה הוא קצת.

לדוגמה, נניח את הדברים הבאים:

  • 100 דוגמאות מכילות את הערך '1'
  • 300 דוגמאות מכילות את הערך '0'

לכן, ערך האנטרופיה הוא:

  • p = 0.25
  • q = 0.75
  • H = (-0.25)log2(0.25) - (0.75)log2(0.75) = 0.81 ביט לכל דוגמה

לאוסף מאוזן באופן מושלם (לדוגמה, 200 '0' ו-200 '1') תהיה אנטרופיה של 1.0 ביט לכל דוגמה. ככל שהקבוצה לא מאוזנת יותר, האנטרופי שלה מתקרב ל-0.0.

בעצים של החלטות, האנטרופיה עוזרת לנסח את השיפור במידע כדי לעזור למחלץ לבחור את התנאים במהלך הצמיחה של עץ החלטות לסיווג.

השוו בין אנטרופיה עם:

לעיתים קרובות קוראים לאנטרופיה אנטרופיית שרנון.

מידע נוסף זמין בקטע Exact splitter for binary classification with numerical features בקורס Decision Forests.

environment

#rl

בלמידת חיזוקים, העולם שמכיל את הסוכן ומאפשר לסוכן לצפות במצב של העולם הזה. לדוגמה, העולם שמוצג יכול להיות משחק כמו שחמט או עולם פיזי כמו מבוך. כשהסוכן מחיל פעולה על הסביבה, הסביבה עוברת בין מצבים.

פרק

#rl

בלמידת חיזוק, כל אחד מהניסיונות החוזרים agent כדי ללמוד על סביבה.

תקופה של זמן מערכת

#fundamentals

רצף אימון מלא על כל קבוצת האימון, כך שכל דוגמה עובדה פעם אחת.

תקופת אימון מייצגת חזרות של אימון N/גודל האצווה, כאשר N הוא המספר הכולל של הדוגמאות.

לדוגמה, נניח את הדברים הבאים:

  • מערך הנתונים כולל 1,000 דוגמאות.
  • גודל האצווה הוא 50 דוגמאות.

לכן בתקופה מסוימת נדרשים 20 איטרציות:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

ראו רגרסיה לינארית: היפר-פרמטרים בקורס מקוצר על למידת מכונה.

מדיניות 'אפסילון חמדן'

#rl

בלמידת חיזוי, מדיניות שמצייתת למדיניות אקראית עם הסתברות של אפסון, או למדיניות תאוותנית במקרים אחרים. לדוגמה, אם אפסילון הוא 0.9, אז המדיניות פועלת לפי מדיניות אקראית ב-90% מהמקרים ב-10% מהמקרים.

על פני פרקים רצופים, האלגוריתם מפחית את הערך של אפסילון לעבור מציות למדיניות אקראית לציות למדיניות של אלגוריתם חמדן. כשמשנים את המדיניות, הסוכן קודם בודק את הסביבה באופן אקראי ואז מנצל בצורה 'חמדנית' את תוצאות הבדיקה האקראית.

שוויון הזדמנויות

#fairness

מדד של הוגנות כדי לבדוק אם מודל מסוים חיזוי של התוצאה הרצויה באופן שווה לכל הערכים מאפיין רגיש. במילים אחרות, אם התוצאה הרצויה של המודל היא הסיווג החיובי, המטרה היא שהשיעור החיובי האמיתי יהיה זהה לכל הקבוצות.

שוויון ההזדמנויות קשור לסיכויים שווים, שמחייבת גם את השיעורים החיוביים האמיתיים שיעורי התוצאות החיוביות השגויות זהים לכל הקבוצות.

נניח ש-Glubbdubdrib University מקבלת גם ליליפוטים וגם ברודינגנגיים לתוכנית מתמטיקה מחמירה. ליליפוטים בתי ספר משניים מציעים תוכנית לימודים מקיפה של שיעורי מתמטיקה, והרוב המכריע של התלמידים מוסמך לתוכנית האוניברסיטה. בתי הספר התיכוניים בברודינגנ' לא מציעים שיעורי מתמטיקה בכלל, וכתוצאה מכך, הרבה פחות תלמידים עומדים בדרישות. שוויון הזדמנויות מתקיים לגבי התווית המועדפת 'התקבל' ביחס לאזרחות (ליליפוטי או ברודינגיאני) אם הסיכוי של תלמידים שעומדים בדרישות להתקבל הוא זהה, ללא קשר לכך שהם ליליפוטיים או ברודינגיאניים.

לדוגמה, נניח ש-100 ליליפוטים ו-100 שו"ת חלים על אוניברסיטת גלודובדריב והחלטות לגבי קבלה מתבצעות כך:

טבלה 1. מועמדים קטנים (90% עומדים בדרישות)

  כשיר לא מתאים
התקבל 45 3
נדחה 45 7
סה"כ 90 10
אחוז הסטודנטים המוסמכים שהתקבלו: 45/90 = 50%
אחוז התלמידים שלא עומדים בדרישות שנדחו: 7/10 = 70%
האחוז הכולל של סטודנטים מליליפוטיים שהתקבלו: (45+3)/100 = 48%

 

טבלה 2. מועמדי Brobdingnagian (10% זכאים):

  כשיר לא מתאים
התקבל 5 9
נדחה 5 81
סה"כ 10 90
אחוז הסטודנטים שעומדים בדרישות והתקבלו: 5/10 = 50%
אחוז הסטודנטים שלא עומדים בדרישות והודחו: 81/90 = 90%
אחוז הסטודנטים מברודינגיאניה שהתקבלו: (5+9)/100 = 14%

הדוגמאות הקודמות עומדות בקריטריון של שוויון הזדמנויות לקבלת תלמידים שעומדים בדרישות, כי לכל אחד מתלמידי ליליפוט וברודינגנאג יש סיכוי של 50% להתקבל.

למרות ששוויון ההזדמנויות מתקיים, שני המדדים הבאים של הוגנות לא מרוצים:

  • שוויון דמוגרפי: ליליפוטים סטודנטים מתקבלים לאוניברסיטה בתעריף שונה; 48% מהסטודנטים לליליפוטם להתקבל, אבל רק 14% סטודנטים בסגנון Brobdingnagian מקבלים.
  • סיכויים שווה: ליליפוטם מוסמך ולסטודנטים בסגנון ברודנגינג יש סיכוי זהה לקבלה, את המגבלה הנוספת שחלה על ליליפוטים לא מוסמכים לקטינים יש סיכוי זהה להידחות מרוצה. לליליפוטים לא מוסמכים יש שיעור דחיות של 70%, ואילו לתושבי ברובינגנאגיה לא מוסמכים יש שיעור דחיות של 90%.

למידע נוסף, ראו צדק: שוויון הזדמנויות בקורס המקוצר בנושא למידת מכונה.

סיכויים שווים

#fairness

מדד הוגנות שמאפשר להעריך אם מודל מנבא תוצאות באותה רמה לכל הערכים של מאפיין רגיש, הן לגבי הסיווג החיובי והן לגבי הסיווג השלילי – ולא רק לגבי סיווג אחד בלבד. במילים אחרות, גם שיעור החיובים האמיתיים וגם שיעור השלילים הכוזבים צריכים להיות זהים בכל הקבוצות.

המדד 'סיכויים שווה' קשור ל- שוויון הזדמנויות, שמתמקד רק את שיעורי השגיאות במחלקה אחת (חיובית או שלילית).

לדוגמה, נניח שאוניברסיטת גלואבדאבדריב מקבלת כניסה גם לליליפוטים וגם נלחמים בתוכנית מתמטיקה קפדנית? ליליפוטים משנית בתי הספר מציעים תוכנית לימודים מקיפה של שיעורי מתמטיקה, והרוב המכריע סטודנטים מוסמכים לתוכנית האוניברסיטה. בתי הספר התיכוניים בברודינגנ' לא מציעים שיעורי מתמטיקה בכלל, וכתוצאה מכך, הרבה פחות תלמידים עומדים בדרישות. הקריטריון של שוויון הסיכויים מתקיים אם לא משנה אם המועמד הוא אדם קטן או אדם גדול, אם הוא עומד בדרישות, הסיכוי שלו להתקבל לתוכנית הוא זהה, ואם הוא לא עומד בדרישות, הסיכוי שלו להידחות הוא זהה.

נניח ש-100 ליליפוטים ו-100 ליליפוטים ו-100 אנשי ברובדינג פונים לגלובדובדריב החלטות לגבי האוניברסיטה והקבלה מתבצעות באופן הבא:

טבלה 3. מועמדים ל-Liliputian (90% זכאים)

  כשיר לא מתאים
התקבל 45 2
נדחה 45 8
סה"כ 90 10
אחוז התלמידים שעומדים בדרישות והתקבלו: 45/90 = 50%
אחוז התלמידים שלא עומדים בדרישות והודחו: 8/10 = 80%
אחוז התלמידים מליליפוטיה שהתקבלו בסה"כ: (45+2)/100 = 47%

 

טבלה 4. מועמדי Brobdingnagian (10% זכאים):

  כשיר לא מתאים
התקבל 5 18
נדחה 5 72
סה"כ 10 90
אחוז הסטודנטים המוסמכים שהתקבלו: 5/10 = 50%
אחוז התלמידים שלא עומדים בדרישות שנדחו: 72/90 = 80%
האחוז הכולל של סטודנטים מברודנגנג שהתקבלו: (5+18)/100 = 23%

תנאי הקבלה של שוויון הסיכויים מתקיים כי לכל אחד מהסטודנטים ב-Lilliputian וב-Brobdingnag שעומד בדרישות יש 50% סיכוי להתקבל, ולכל אחד מהסטודנטים ב-Lilliputian וב-Brobdingnag שלא עומד בדרישות יש 80% סיכוי להידחות.

ההגדרה הרשמית של שוויון הסיכויים מופיעה במאמר 'שוויון הזדמנויות בלמידה בפיקוח' באופן הבא: "המנבא Ŷ עומד בתנאי של שוויון הסיכויים ביחס למאפיין המוגן A ולתוצאה Y אם Ŷ ו-A הם עצמאיים, מותנים ב-Y".

Estimator

#TensorFlow

ממשק API של TensorFlow שהוצא משימוש. במקום זאת, צריך להשתמש ב-tf.keras של מעריכים.

evals

#language
#generativeAI

משמש בעיקר כקיצור של הערכות LLM. באופן כללי, evals הוא קיצור של כל צורה שהיא הערכה.

הערכה

#language
#generativeAI

התהליך של מדידת איכות המודל או השוואה בין מודלים שונים שתי רשתות נוירונים זו מול זו.

כדי להעריך מודל של למידת מכונה מבוקרת, בדרך כלל משווים אותו לקבוצת אימות ולקבוצת בדיקה. הערכת LLM כוללת בדרך כלל הערכות איכות ובטיחות רחבות יותר.

דוגמה

#fundamentals

הערכים של שורה אחת של features ואולי גם ערכים של תווית. דוגמאות ללמידה מונחית נכללות בשתי קטגוריות כלליות:

  • דוגמה מתויגת מורכבת מתכונה אחת או יותר ותווית. במהלך האימון נעשה שימוש בדוגמאות מסומנות בתוויות.
  • דוגמה ללא תווית מורכבת מדוגמה אחת או יותר תכונות, אבל בלי תווית. דוגמאות ללא תוויות משמשות במהלך ההסקה.

למשל, נניח שאתם מאמנים מודל כדי לקבוע את ההשפעה את תנאי מזג האוויר בציוני המבחנים של התלמידים. לפניכם שלוש דוגמאות לתוויות:

תכונות תווית
טמפרטורה לחות לחץ ציון הבדיקה
15 47 998 טוב
19 34 1020 מצוינת
18 92 1012 גרועה

לפניכם שלוש דוגמאות ללא תוויות:

טמפרטורה לחות לחץ  
12 62 1014  
21 47 1017  
19 41 1021  

השורה של מערך נתונים היא בדרך כלל המקור הגולמי לדוגמה. כלומר, דוגמה בדרך כלל מורכבת מקבוצת משנה של העמודות במערך הנתונים. בנוסף, המאפיינים בדוגמה יכולים לכלול גם מאפיינים סינתטיים, כמו מעבר בין מאפיינים.

למידע נוסף, ראו למידה בפיקוח בקורס 'מבוא ללמידת מכונה'.

הפעלה מחדש של חוויית המשתמש

#rl

בלמידת חיזוקים, טכניקה של DQN שמשמשת לצמצום הקורלציות הזמניות בנתוני האימון. הסוכן שומר את המעברים בין המצבים במאגר נתונים זמני, ואז הדוגמאות מועברות ממאגר הנתונים הזמניים לצורך יצירה של נתוני אימון.

הטיית הנסיין

#fairness

ראו הטיית אישור.

בעיית 'התפרצות שיפוע'

#seq

הנטייה של שיפועים ברשתות נוירונים עמוקות (במיוחד ברשתות נוירונים חוזרות) להיות תלולים (גבוהים) באופן מפתיע. לרוב, שיפועים תלולים גורמים לעדכונים גדולים מאוד במשקלים של כל צומת ברשת נוירונים עמוקה.

מודלים שסובלים מבעיית ההדרגתיות המתפוצצת הופכים לקשה או בלתי אפשרי לאמן אותה. חיתוך הדרגתי יכול לצמצם את הבעיה.

ניתן להשוות לבעיה נעלמת של הדרגתי.

F

F1

נכס-על של סיווג בינארי, מסתמכת גם על דיוק וגם על אחזור. זאת הנוסחה:

$$F{_1} = \frac{\text{2 * precision * recall}} {\text{precision + recall}}$$

לדוגמה, בהתאם לנתונים הבאים:

  • precision = 0.6
  • recall = 0.4
$$F{_1} = \frac{\text{2 * 0.6 * 0.4}} {\text{0.6 + 0.4}} = 0.48$$

כשהדיוק והזכירה די דומים (כמו בדוגמה הקודמת), F1 קרוב לממוצע. אם יש הבדלים בין הדיוק והזכירה משמעותית, F1 קרוב יותר לערך הנמוך יותר. לדוגמה:

  • precision = 0.9
  • recall = 0.1
$$F{_1} = \frac{\text{2 * 0.9 * 0.1}} {\text{0.9 + 0.1}} = 0.18$$

מגבלה על הוגנות

#fairness
החלת אילוץ על אלגוריתם כדי לוודא שנענים להגדרה אחת או יותר של הוגנות. דוגמאות למגבלות הוגנות:

מדד הוגנות

#fairness

הגדרה מתמטית של 'הוגנות' שניתנת למדידה. דוגמאות למדדים נפוצים של הוגנות:

הרבה מדדים של הוגנות הם בלעדיים זה לזה. לראות חוסר תאימות של מדדי הוגנות.

false negative (FN)

#fundamentals

דוגמה שבה המודל חוזה בטעות את המחלקה השלילית. לדוגמה, המודל צופה שהודעת אימייל מסוימת לא ספאם (הקלאס השלילי), אבל הודעת האימייל הזו בפועל ספאם.

שיעור FALSE שלילי

היחס של הדוגמאות החיוביות בפועל שעבורן המודל שגוי חוזים את המחלקה השלילית. הנוסחה הבאה מחשבת את שיעור השליפות השגויות של בקשות תמיכה:

$$\text{false negative rate} = \frac{\text{false negatives}}{\text{false negatives} + \text{true positives}}$$

למידע נוסף על ערכי הסף והבלבול Matrix בקורס מקוצר על למידת מכונה.

תוצאה חיובית שגויה (FP)

#fundamentals

דוגמה שבה המודל חוזה בטעות את סיווג חיובי. לדוגמה, המודל מייצר תחזית של שהודעת אימייל מסוימת היא ספאם (הסיווג החיובי), אבל הודעת אימייל היא למעשה לא ספאם.

מידע נוסף זמין בקטע סף וערכי מטריצת הבלבול בקורס המקוצר בנושא למידת מכונה.

שיעור תוצאות חיוביות שגויות (FPR)

#fundamentals

היחס בין הדוגמאות השליליות בפועל שהמודל ניבא בטעות כשיכות לקבוצה החיובית. הנוסחה הבאה מחשבת את הארגומנט 'FALSE' שיעור חיובי:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

השיעור החיובי השגוי הוא ציר ה-X בעקומת ROC.

למידע נוסף, ראו סיווג: ROC ו-AUC בקורס המקוצר בנושא למידת מכונה.

מאפיין

#fundamentals

משתנה קלט למודל למידת מכונה. דוגמה שכולל תכונה אחת או יותר. לדוגמה, נניח שאתם מארגנים אימון של מודל כדי לקבוע את ההשפעה של תנאי מזג האוויר על הציונים של התלמידים בבחינות. בטבלה הבאה מוצגות שלוש דוגמאות, וכל אחת מהן כוללת שלוש ישויות ותווית אחת:

תכונות תווית
טמפרטורה לחות לחץ ציון הבדיקה
15 47 998 92
19 34 1020 84
18 92 1012 87

בניגוד לתווית.

מידע נוסף זמין בקטע למידה בפיקוח בקורס 'מבוא ללמידת מכונה'.

תכונה חוצת

#fundamentals

תכונה סינתטית שנוצרת על ידי 'מיזוג' של תכונות קטגוריאליות או מקובצות.

לדוגמה, נניח שיש מודל 'חיזוי מצב רוח' שמייצג את הטמפרטורה באחת מארבע הקטגוריות הבאות:

  • freezing
  • chilly
  • temperate
  • warm

הוא מייצג את מהירות הרוח באחת משלוש הקטגוריות הבאות:

  • still
  • light
  • windy

ללא הצלבות מאפיינים, המודל הלינארי מתאמן בנפרד על כל אחד את שבע הקטגוריות השונות שמופיעות לפניהן. המודל מתאמן על freezing בנפרד מהאימון, לדוגמה: windy.

לחלופין, אפשר ליצור שילוב של תכונות של טמפרטורה ומהירות רוח. לישות הסינתטית הזו יהיו 12 האפשרויות הבאות ערכים:

  • freezing-still
  • freezing-light
  • freezing-windy
  • chilly-still
  • chilly-light
  • chilly-windy
  • temperate-still
  • temperate-light
  • temperate-windy
  • warm-still
  • warm-light
  • warm-windy

בזכות הצלבים, המודל יכול ללמוד את ההבדלים במצבי הרוח בין יום freezing-windy ליום freezing-still.

אם יוצרים תכונה סינתטית משתי תכונות שבכל אחת מהן יש הרבה של הקטגוריות השונות, של שילובים אפשריים. לדוגמה, אם לתכונה אחת יש 1,000 קטגוריות ו לישות השנייה יש 2,000 קטגוריות, בצלב של המאפיין שמתקבל יש 2,000,000 קטגוריות.

באופן רשמי, צלב הוא מכפלה קרטוזיאנית.

הצלבות פיצ'רים משמשות בעיקר עם מודלים ליניאריים, ורק לעיתים רחוקות משתמשים בהן ברשתות נוירונים.

מידע נוסף זמין בקטע נתונים קטגוריאליים: צירופי מאפיינים בקורס המקוצר על למידת מכונה.

הנדסת פיצ'רים (feature engineering)

#fundamentals
#TensorFlow

תהליך שכולל את השלבים הבאים:

  1. לקבוע אילו תכונות עשויות להיות שימושיות באימון מודל.
  2. להמיר נתונים גולמיים ממערך הנתונים לגרסאות יעילות של את התכונות האלה.

לדוגמה, יכול להיות שתבחרו להשתמש בתכונה temperature. לאחר מכן, תוכלו להתנסות בחלוקה לקטגוריות כדי לבצע אופטימיזציה של מה שהמודל יכול ללמוד מטווחים שונים של temperature.

לפעמים ההנדסה של המאפיינים נקראת חילוץ מאפיינים או יצירת מאפיינים.

למידע נוסף, ניתן לעיין בקטע נתונים מספריים: איך המודל מטמיע נתונים באמצעות תכונה וקטורים בקורס מקוצר על למידת מכונה.

חילוץ מאפיינים

מונח בעל עומס יתר עם אחת מההגדרות הבאות:

מדדי החשיבות של המאפיינים

#df

שם נרדף לחשיבות המשתנים.

קבוצת תכונות

#fundamentals

קבוצת התכונות של למידת המכונה מתבצע אימון של מודל. לדוגמה, מיקוד, גודל נכס ומצב הנכס יכולים הרכיבו קבוצת תכונות פשוטה למודל שחוזה את מחירי הדיור.

מפרט של תכונה

#TensorFlow

תיאור המידע שנדרש לחילוץ נתוני תכונות ממאגר הפרוטוקולים tf.Example. כי מאגר הנתונים הזמני של tf.Example הוא רק מאגר של נתונים, צריך לציין הבאים:

  • הנתונים לחילוץ (כלומר, המפתחות של התכונות)
  • סוג הנתונים (לדוגמה, float או int)
  • האורך (קבוע או משתנה)

וקטור מאפיינים

#fundamentals

המערך של ערכי feature שמרכיבים דוגמה. הווקטור המאפיין מוזן במהלך האימון ובמהלך ההסקה. לדוגמה, וקטור המאפיינים של מודל עם שני מאפיינים נפרדים יכול להיות:

[0.92, 0.56]

ארבע שכבות: שכבת קלט, שתי שכבות סמויות ושכבת פלט אחת.
          שכבת הקלט מכילה שני צמתים, שאחד מהם מכיל את הערך
          0.92 והשני שמכיל את הערך 0.56.

כל דוגמה מספקת ערכים שונים לווקטור המאפיין, של הדוגמה הבאה, יכול להיות, למשל:

[0.73, 0.49]

הנדסת מאפיינים קובעת איך לייצג את המאפיינים בוקטור המאפיינים. לדוגמה, מאפיין קטגוריאלי בינארי עם חמישה ערכים אפשריים יכול להיות מיוצג באמצעות קידוד one-hot. במקרה כזה, החלק של וקטור המאפיינים לדוגמה מסוימת יהיה מורכב מארבעה אפסים ומערך 1.0 יחיד במיקום השלישי, באופן הבא:

[0.0, 0.0, 1.0, 0.0, 0.0]

דוגמה נוספת, נניח שהמודל שלך מורכב משלוש תכונות:

  • תכונה בינארית קטגורית עם חמישה ערכים אפשריים שמיוצגים באמצעות קידוד חם אחד; לדוגמה: [0.0, 1.0, 0.0, 0.0, 0.0]
  • מאפיין קטגורי בינארי נוסף עם שלושה ערכים אפשריים שמיוצגים באמצעות קידוד one-hot. לדוגמה: [0.0, 0.0, 1.0]
  • פיצ'ר נקודה צפה (floating-point), לדוגמה: 8.3.

במקרה כזה, וקטור המאפיינים של כל דוגמה יהיה מיוצג על ידי תשעה ערכים. בהתאם לערכים לדוגמה ברשימה הקודמת, וקטור המאפיינים יהיה:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

למידע נוסף, אפשר לעיין בקטע נתונים מספריים: איך מודל מטמיע נתונים באמצעות וקטורים של מאפיינים במדריך למתחילים בנושא למידת מכונה.

יצירת מאפיינים

תהליך החילוץ של תכונות ממקור קלט, כמו מסמך או סרטון, ולמפות את התכונות האלה וקטור התכונות.

חלק ממומחי למידת המכונה משתמשים בפיצ'ר כמו מילה נרדפת ב-feature engineering או חילוץ תכונות.

למידה משותפת (Federated)

גישה מבוזרת ללמידת מכונה שמאפשרת לאמן מודלים של למידת מכונה באמצעות דוגמאות מבוזרות שנמצאות במכשירים כמו סמארטפונים. בלמידה משותפת, רק חלק מהמכשירים מורידים את המודל הנוכחי משרת תיאום מרכזי. המכשירים משתמשים בדוגמאות ששמורות במכשירים כדי לשפר את המודל. המכשירים לאחר מכן מעלים את השיפורים במודל (אבל לא את דוגמאות האימון) שבו הם נצברים יחד עם עדכונים אחרים, כדי להניב שיפור מודל גלובלי. אחרי הצבירה, לא צריך יותר את עדכוני המודל שחושבו על ידי המכשירים, וניתן להשליך אותם.

מאחר שדוגמאות האימון אף פעם לא נטענות, למידה משותפת (Federated) פועלת בהתאם לעקרונות הפרטיות של איסוף נתונים ממוקד והגבלה על איסוף נתונים.

מידע נוסף על למידה משותפת זמין במדריך הזה.

לולאת משוב

#fundamentals

בלמידת מכונה, מצב שבו החיזויים של המודל משפיעים על לאימון של אותו מודל או של מודל אחר. לדוגמה, מודל ממליצים על סרטים ישפיעו על הסרטים שאנשים יראו, ולאחר מכן להשפיע על המודלים הבאים של המלצות לסרטים.

מידע נוסף זמין בקטע מערכות למידת מכונה בסביבת ייצור: שאלות שכדאי לשאול במדריך למתחילים בנושא למידת מכונה.

רשת נוירונים עם זרימה קדימה (FFN)

רשת נוירונים ללא חיבורים מחזוריים או רפלקסיביים. לדוגמה, רשתות נוירונים עמוקות מסורתיות ברשתות נוירונים מסוג זרימה קדימה. השוו עם נוירונים חוזרים רשתות, שהן מחזוריות.

למידה מכמה דוגמאות

גישה של למידת מכונה, שמשמשת בדרך כלל לסיווג אובייקטים, שנועד לאמן מסווגים יעילים מתוך מספר קטן בלבד דוגמאות לאימון.

אפשר לקרוא גם למידה מדוגמה אחת למידה מאפס.

הנחיה עם כמה דוגמאות (Few-shot)

#language
#generativeAI

הנחיה שמכילה יותר מדוגמה אחת ('כמה' דוגמאות) שממחישות איך מודל השפה הגדול צריך להשיב. לדוגמה, ההנחיה הארוכה הבאה מכילה שתי דוגמאות שמראות למודל שפה גדול איך לענות על שאילתה.

החלקים של הנחיה אחת הערות
מהו המטבע הרשמי של המדינה שצוינה? השאלה שעליה יצטרך לענות ה-LLM.
צרפת: EUR דוגמה אחת.
בריטניה: GBP דוגמה נוספת.
הודו: השאילתה עצמה.

בדרך כלל, תוצאות של פרומפטים ל-Few-shot טובות יותר מתוצאות של פרומפטים ל-Zero-shot ושל פרומפטים ל-One-shot. אבל כדי ליצור הנחיות עם כמה דוגמאות דורש הנחיה ארוכה יותר.

הנחיות מכמה דוגמאות הן סוג של למידה מכמה דוגמאות שהוחל על למידה מבוססת-הנחיות.

להצגת ההנחיה הנדסה בקורס מקוצר על למידת מכונה.

כינור

#language

ספריית הגדרות מבוססת-Python שמגדירה את הערכים של פונקציות וכיתות ללא קוד או תשתית פולשניים. במקרה של Pax – ו-codebases אחרים של למידת מכונה – הפונקציות האלה מחלקות מייצגות מודלים ואימון היפר-פרמטרים.

Fiddle מתייחס לקוד של למידת מכונה כאל קוד שמחולק בדרך כלל לקטעים הבאים:

  • קוד הספרייה שמגדיר את השכבות ואת האופטימיזציות.
  • קוד 'דבק' של מערך נתונים, שמפעיל את הספריות ומחבר את הכול.

Fiddle מתעד את מבנה הקריאה של קוד הדבק ניתנת לשינוי.

כוונון עדין

#language
#image
#generativeAI

סבב אימון שני ספציפי למשימה, שמתבצע במודל שעבר אימון מראש כדי לשפר את הפרמטרים שלו לצורך תרחיש לדוגמה ספציפי. לדוגמה, רצף האימון המלא של חלק ממודלים גדולים של שפה הוא:

  1. אימון מראש: אימון מודל גדול של שפה על מערך נתונים כללי עצום, כמו כל הדפים של Wikipedia בשפה האנגלית.
  2. התאמה אישית: אימון המודל שעבר אימון מראש לביצוע משימה ספציפית, כמו מענה לשאילתות רפואיות. בדרך כלל כוונון עדין מאות או אלפי דוגמאות שמתמקדות במשימה הספציפית.

דוגמה נוספת, רצף האימון המלא של מודל תמונה גדול ככה:

  1. אימון מראש: אימון מודל תמונה גדול על תמונה כללית גדולה של קבוצת הנתונים, כמו כל התמונות ב-Wikimedia Commons.
  2. התאמה אישית: אימון המודל שעבר אימון מראש לביצוע משימה ספציפית, כמו יצירת תמונות של אורקות.

השיפור יכול לכלול כל שילוב של השיטות הבאות:

  • שינוי כל המודלים הקיימים של המודל שעבר אימון מראש פרמטרים. פעולה זו נקראת לפעמים כוונון עדין.
  • שינוי רק חלק מהפרמטרים הקיימים של המודל שעבר אימון מראש (בדרך כלל השכבות הקרובות ביותר לשכבת הפלט), תוך שמירה על שאר הפרמטרים הקיימים ללא שינוי (בדרך כלל השכבות שהכי קרוב לשכבת הקלט). כוונון יעיל בפרמטרים
  • הוספת שכבות נוספות, בדרך כלל מעל השכבות הקיימות הקרובות ביותר בשכבת פלט.

כוונון עדין הוא סוג של למידה באמצעות העברה. לכן, כוונון עדין עשוי להשתמש בפונקציית הפסדים שונה או במודל אחר יותר מאלה ששימשו לאימון המודל שעבר אימון מראש. לדוגמה, אפשר: ולכוונן מודל תמונות גדול שעבר אימון מראש כדי ליצור מודל רגרסיה מחזירה את מספר הציפורים בתמונת קלט.

השוואה וניגוד בין כוונון מדויק לבין המונחים הבאים:

מידע נוסף זמין בקטע התאמה אישית במאמר קורס מקוצר על למידת מכונה.

פשתן

#language

קוד פתוח עם ביצועים גבוהים ספרייה עבור למידה עמוקה (Deep Learning) המבוססת על JAX. Flax מספק פונקציות לאימון של רשתות נוירונליות, וגם שיטות להערכת הביצועים שלהן.

פלקספורמר

#language

ספריית Transformer בקוד פתוח, שמבוססת על Flax. היא מיועדת בעיקר לעיבוד שפה טבעית ולמחקר רב-מודלי.

מחיקת השער

#seq

החלק בתא של זיכרון לטווח ארוך-קצר שמווסת את זרימת המידע דרך התא. המערכת שוכחת את השערים ושומרת על ההקשר באמצעות ההחלטה איזה מידע למחוק ממצב התא.

softmax מלא

מילה נרדפת ל-softmax.

בניגוד לדגימת מועמדים.

למידע נוסף, אפשר לעיין בקטע רשתות נוירונים: מספר סיווגים סיווג בקורס מקוצר על למידת מכונה.

שכבה מקושרת במלואה

שכבה מוסתרת שבה כל צומת מחוברת לכל צומת בשכבה המוסתרת הבאה.

שכבה שמחוברת באופן מלא נקראת גם שכבה צפופה.

טרנספורמציה של פונקציה

פונקציה שמקבלת פונקציה כקלט ומחזירה פונקציה שעברה טרנספורמציה כפלט. JAX משתמש בטרנספורמציות של פונקציות.

G

GAN

קיצור של רשת למידה חישובית גנרטיבית (GAN).

הכללה

#fundamentals

היכולת של המודל לבצע חיזויים מדויקים לגבי נתונים חדשים שלא נראו בעבר. מודל שיכול לבצע הכללה הוא ההפך ממודל שמוגדר לפי נתונים ספציפיים מדי.

מידע נוסף זמין בקטע Generalization (הכללה) בקורס המקוצר על למידת מכונה.

Gemini

#language
#image
#generativeAI

הסביבה העסקית שמבוססת על טכנולוגיית ה-AI המתקדמת ביותר של Google. רכיבים במערכת האקולוגית הזו כוללים:

  • מודלים שונים של Gemini.
  • ממשק השיחה האינטראקטיבי למודל Gemini. המשתמשים מקלידים הנחיות ו-Gemini נותן תשובות להנחיות האלה.
  • ממשקי Gemini API שונים.
  • מוצרים עסקיים שונים שמבוססים על מודלים של Gemini. לדוגמה, Gemini ל-Google Cloud.

מודלים של Gemini

#language
#image
#generativeAI

מודלים מולטימודאליים מבוססי Transformer מתקדמים של Google. המודלים של Gemini מתייחסים באופן ספציפי, שמיועדים לשילוב עם סוכנים.

המשתמשים יכולים לקיים אינטראקציה עם המודלים של Gemini במגוון דרכים, כולל ממשק דו-שיח אינטראקטיבי ודרך ערכות SDK.

עקומת ההכללה

#fundamentals

תרשים של הפסד באימון וגם אובדן אימות כפונקציה של מספר איטרציות.

עקומת הכללה יכולה לעזור לכם לזהות התאמה יתר. לדוגמה, עקומת הגנרליזציה הבאה מצביעה על התאמה יתר, כי אובדן האימות הופך בסופו של דבר גבוה בהרבה מאובדן האימון.

תרשים קרטוזי שבו ציר ה-Y מסומן בתווית &#39;אובדן&#39; וציר ה-X מסומן בתווית &#39;חזרות&#39;. יופיעו שתי תרשימים. בתרשים אחד ניתן לראות את
          והשני מראה את הפסד האימות.
          שתי התרשימים מתחילים באופן דומה, אבל אובדן הלמידה בסופו של דבר יורד הרבה מתחת לאובדן האימות.

מידע נוסף זמין בקטע Generalization (הכללה) בקורס המקוצר על למידת מכונה.

מודל ליניארי כללי

הכללה של מודלים של רגרסיה לינארית רגילה, שמבוססים על רעש גאוסיאני, לסוגי מודלים אחרים שמבוססים על סוגי רעש אחרים, כמו רעש פואסון או רעש קטגורי. דוגמאות למודלים לינאריים מוכללים:

אפשר למצוא את הפרמטרים של מודל ליניארי כללי אופטימיזציה של המרות קמורות.

מודלים ליניאריים כלליים מייצגים את המאפיינים הבאים:

  • התחזית הממוצעת של מודל הרגרסיה האופטימלי של הריבועים הקטנים ביותר שווה לתוויות הממוצעות בנתוני האימון.
  • ההסתברות הממוצעת שחזתה רגרסיה לוגיסטית אופטימלית שווה לתווית הממוצעת בנתוני האימון.

הכוח של מודל ליניארי כללי מוגבל על ידי התכונות שלו. בניגוד למודל עמוק, מודל לינארי גנרטיבי לא יכול 'ללמוד מאפיינים חדשים'.

רשת למידה חישובית גנרטיבית (GAN)

מערכת ליצירת נתונים חדשים שבהם יוצר מחולל ומודל הבחנה קובע אם הנתונים שנוצרו חוקיים או לא חוקיים.

מידע נוסף זמין בקורס בנושא רשתות למידה חישובית גנרטיבית (GAN).

בינה מלאכותית גנרטיבית

#language
#image
#generativeAI

תחום מתפתח ומהנה ללא הגדרה רשמית. עם זאת, רוב המומחים מסכימים שמודלים של AI גנרטיבי יכולים ליצור ('לגנרטור') תוכן שעומד בכל הקריטריונים הבאים:

  • מורכב
  • קוהרנטית
  • מקורית

לדוגמה, מודל של בינה מלאכותית גנרטיבית יכול ליצור מאמרים או תמונות.

כמה מהטכנולוגיות הקודמות, כולל LSTMs וRNN, יכולות גם ליצור קוהרנטית. יש מומחים שמתייחסים לטכנולוגיות הקודמות האלה כאל AI גנרטיבי, ויש מומחים אחרים שחושבים ש-AI גנרטיבי אמיתי דורש תוצרים מורכבים יותר ממה שאפשר ליצור באמצעות הטכנולוגיות הקודמות האלה.

השוו בין למידת מכונה חזויה.

מודל גנרטיבי

באופן מעשי, מודל שמבצע אחת מהפעולות הבאות:

  • יצירת (יצירת) דוגמאות חדשות ממערך הנתונים של האימון. לדוגמה, מודל גנרטיבי יכול ליצור שירה אחרי אימון על מערך נתונים של שירים. החלק של המחולל רשת למידה חישובית גנרטיבית משתייכים לקטגוריה הזו.
  • קובעת את ההסתברות שדוגמה חדשה מגיעה מקבוצת האימון, או נוצרה מאותו מנגנון שיצר את קבוצת האימון. לדוגמה, אחרי אימון על מערך נתונים שמכיל משפטים באנגלית, מודל גנרטיבי יכול לקבוע את ההסתברות שהקלט החדש הוא משפט תקין באנגלית.

מודל גנרטיבי יכול להבחין באופן תיאורטי של ההתפלגות של דוגמאות או תכונות מסוימות במערך נתונים. כלומר:

p(examples)

מודלים של למידה בלתי מונחית הם גנרטיביים.

בניגוד למודלים דיסקרימינטיביים.

מחולל

מערכת המשנה בתוך מודל יריב גנרטיבי ערוץ שיוצרת דוגמאות חדשות.

בניגוד למודל דיסקרימינטיבי.

זיהום של Gini

#df

מדד דומה ל-entropy. מחליקים משתמשים בערכים שמקורם בזיהום של Gini או באנטרופי כדי ליצור תנאים לסיווג של עצים של החלטות. השיפור במידע נגזר מהאנטרופיה. אין מונח מקביל מקובל באופן אוניברסלי למדד שמתקבל מהזיהום של Gini. עם זאת, המדד הזה ללא שם חשוב באותה מידה כמו הרווח המידעי.

אי-הטהרה של Gini נקראת גם מדד Gini או פשוט Gini.

מערך נתונים ברמת הזהב

קבוצת נתונים שנאספו באופן ידני ומתעדים עובדות. צוותים יכולים להשתמש במערך נתונים אחד או יותר כדי להעריך את איכות המודל.

חלק ממערכי הנתונים המוזהבים מתעדים תת-דומיינים שונים של אמת קרקע. לדוגמה, מערך נתונים מוזהב לסיווג תמונות עשוי לתעד את תנאי התאורה ורזולוציית תמונה.

GPT‏ (Generative Pre-trained Transformer)

#language

משפחה שמבוססת על טרנספורמר מודלים גדולים של שפה (LLM) שפותחו על ידי OpenAI.

וריאציות של GPT יכולות לחול על כמה שיטות, כולל:

  • יצירת תמונות (לדוגמה, ImageGPT)
  • יצירת תמונות מטקסט (לדוגמה, DALL-E).

הדרגתי

הווקטור של הנגזרות הפרטיות ביחס לכל המשתנים העצמאיים. בלמידת מכונה, השיפוע הוא הווקטור של הנגזרות החלקיות של פונקציית המודל. שיפוע המדרון מצביע לכיוון העלייה התלולה ביותר.

הצטברות הדרגתית

טכניקה של backpropagation שמעדכנת את הפרמטרים רק פעם אחת בכל תקופה של זמן מערכת, ולא פעם אחת בכל חזרה. לאחר העיבוד של כל מיני-אצווה, הדרגתי המצטברות פשוט מעדכנת את הסכום הכולל של הדרגה. לאחר מכן, אחרי עיבוד המיני-באצ' האחרון בתקופה, המערכת מעדכנת את הפרמטרים על סמך סך כל השינויים בגרדינט.

הצטברות של שיפועים שימושית כשגודל האצווה גדול מאוד בהשוואה לכמות הזיכרון שזמינה לאימון. כשיש בעיה בזיכרון, הנטייה הטבעית היא לצמצם את גודל האצווה. עם זאת, צמצום גודל האצווה בהתפשטות לאחור רגילה מגדיל את מספר עדכוני הפרמטרים. צבירה הדרגתית מאפשרת את המודל כדי להימנע מבעיות זיכרון אבל עדיין לאמן ביעילות.

עצים (החלטות) עם שיפור שיפוע (GBT)

#df

סוג של יער החלטות שבו:

למידע נוסף, ראו החלטה משופרת בנוגע לציון רמה עצים לקבלת מידע נוסף, תוכלו לקבל את הקורס 'יערות החלטה'.

הגדלה הדרגתית

#df

אלגוריתם אימון שבו מודלים חלשים מאומנים באופן איטרטיבי לשפר את האיכות (לצמצם את האובדן) של מודל חזק. לדוגמה, מודל חלש יכול להיות מודל ליניארי או מודל של עץ החלטות קטן. המודל החזקה הופך לסכום של כל המודלים החלשים שאימנו קודם לכן.

בצורה הפשוטה ביותר של שיפור הדרגתי, בכל איטרציה, מודל חלש מאומנות כדי לחזות את הדרגתיות של הפסד של המודל החזקה. לאחר מכן, הפלט של מודל חזק מתעדכן על ידי חיסור ההדרגתיות החזויה, בדומה לירידה הדרגתית.

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

כאשר:

  • $F_{0}$ הוא המודל החזק ההתחלתי.
  • $F_{i+1}$ הוא המודל החזק הבא.
  • $F_{i}$ הוא המודל החזק הנוכחי.
  • $\xi$ הוא ערך בין 0.0 ל-1.0 שנקרא כיווץ, מקביל קצב למידה ב- ירידה הדרגתית.
  • $f_{i}$ הוא המודל החלשה שאומן לחזות את שיפוע האובדן של $F_{i}$.

וריאציות מודרניות של הגדלה הדרגתית כוללות גם את הנגזרת השנייה (הסיאן) של האובדן בחישובים שלהם.

עצים של החלטות משמשים בדרך כלל כמודלים חלשים בשיפור שיפוע (gradient boosting). צפייה עצים מוגברים הדרגתיים (החלטה).

חיתוך של גוון מדורג

#seq

מנגנון נפוץ שמוגבל באופן מלאכותי (חיתוך) את הערך המקסימלי של שיפועים כשמשתמשים בירידה בגרדינט כדי לאמן מודל, וכך מפחית את הבעיה של גרדינט מתפוצץ.

ירידה בגרדינט

#fundamentals

טכניקה מתמטית לצמצום הפסד. ירידה בגרדינט מתאימה באופן איטרטיבי את המשקלים ואת ההטיות, ומוצאת בהדרגה את השילוב הטוב ביותר לצמצום האובדן.

ירידה בגרדינט היא שיטה ישנה – הרבה יותר ישנה – מלמידת מכונה.

מידע נוסף זמין בקטע רגרסיה לינארית: ירידה בגרדינט במסגרת קורס ה-Crash Course בנושא למידת מכונה.

תרשים

#TensorFlow

ב-TensorFlow, מפרט חישוב. הצמתים בתרשים מייצגים פעולות. הקצוות הם מונחים ומציגים העברה של התוצאה של פעולה (Tensor) כאופרטנד לפעולה אחרת. שימוש ב-TensorBoard כדי להציג תרשים באופן חזותי.

ביצוע תרשים

#TensorFlow

סביבת תכנות של TensorFlow שבה התוכנית יוצרת קודם תרשים ואז מבצעת את כל התרשים או חלק ממנו. תרשים הוא מצב הביצוע שמוגדר כברירת מחדל ב-TensorFlow 1.x.

השוו בין ביצוע להוט.

מדיניות חמדנית

#rl

בלמידת חיזוק, מדיניות שבוחרת תמיד הפעולה עם ההחזר הצפוי ביותר.

אמת קרקע

#fundamentals

מציאות.

מה שקרה בפועל.

לדוגמה, שימו לב לסיווג בינארי שחוזה אם תלמיד בשנת הלימודים הראשונה שלו תסיים את הלימודים בתוך שש שנים. האמת בפועל של המודל הזה היא אם התלמיד סיים את הלימודים תוך שש שנים או לא.

הטיית שיוך קבוצתי

#fairness

בהנחה שמה שקורה לאדם פרטי, נכון גם לגבי כולם בקבוצה הזאת. ההשפעות של הטיית השיוך הקבוצתית עלולות להחמיר אם דגימת נוחות משמש לאיסוף נתונים. בדגימה לא מייצגת, ייתכן שייערכו שיוך (Attribution) שלא משקף את המציאות.

למידע נוסף, ראו הטיה הומוגנית של קבוצות מחוץ לקבוצה והטיה בתוך הקבוצה. מידע נוסף זמין בקטע צדק: סוגים של הטיה בקורס המקוצר בנושא למידת מכונה.

H

הזיה

#language

יצירת תוצאה שנראית אמינה אבל לא נכונה מבחינה עובדתית על ידי מודל של AI גנרטיבי שמתיימר להציג טענה לגבי העולם האמיתי. לדוגמה, מודל של בינה מלאכותית גנרטיבית שטוען שברק אובמה מת בשנת 1865 יש תגובה חיובית.

גיבוב (hashing)

בלמידת מכונה, מנגנון ליצירת קטגוריות נתונים קטגוריים, במיוחד כאשר המספר מספר הקטגוריות גדול, אבל מספר הקטגוריות שמופיעות בפועל במערך הנתונים קטן יחסית.

לדוגמה, בכדור הארץ יש כ-73,000 מינים של עצים. אפשר לייצג כל אחד מ-73,000 מיני העצים ב-73,000 קטגוריות נפרדות. לחלופין, אם רק 200 מזני העצים האלו מופיעים בפועל במערך נתונים, אפשר להשתמש בגיבוב (hashing) כדי לחלק מיני עצים למשל 500 קטגוריות.

קטגוריה אחת יכולה להכיל כמה מינים של עצים. לדוגמה, גיבוב (hashing) יכולים למקם את באובב ומייפל אדום – שני דברים שונים מבחינה גנטית לאותה קטגוריה. עם זאת, גיבוב עדיין הוא דרך טובה למיפוי של קבוצות קטגוריות גדולות למספר הקטגוריות שנבחר. הגיבוב הופך תכונה מסווגת שיש לה מספר גדול של ערכים אפשריים באמצעות קיבוץ של ערכים במספר קטן יותר של ערכים בדרך דטרמיניסטית.

מידע נוסף זמין בקטע נתונים קטגוריאליים: אוצר מילים וקידוד one-hot במדריך למתחילים בנושא למידת מכונה.

היוריסטיקה

פתרון פשוט ויעיל לבעיה. לדוגמה: "בעזרת שיטת ניתוח נתונים (heuristic), הגענו לרמת דיוק של 86%. כשעברנו לתרחיש לדוגמה רשת עצבית עמוקה, הדיוק עלה ל-98%."

שכבה נסתרת

#fundamentals

שכבה ברשת נוירונים בין inputLayer (התכונות) שכבת הפלט (החיזוי). כל שכבה מוסתרת מורכבת מנוירון אחד או יותר. לדוגמה, רשת הנוירונים הבאה מכילה שתי שכבות נסתרות, הראשון עם שלושה נוירונים והשני עם שני נוירונים:

ארבע שכבות. השכבה הראשונה היא שכבת קלט שמכילה
          לבינה מלאכותית גנרטיבית. השכבה השנייה היא שכבה נסתרת שמכילה
          נוירונים. השכבה השלישית היא שכבה נסתרת שמכילה
          נוירונים. השכבה הרביעית היא שכבת פלט. כל תכונה
          מכיל שלושה קצוות, שכל אחד מהם מפנה לנוירון אחר
          בשכבה השנייה. כל אחד מהנוירונים בשכבה השנייה
          מכיל שני קצוות, שכל אחד מהם מפנה לנוירון אחר
          בשכבה השלישית. כל אחד מהנוירונים בשכבה השלישית מכיל
          קצה אחד, שכל אחד מהם מפנה לשכבת הפלט.

רשת נוירונים עמוקה מכילה יותר מרשת נוירונים עמוקה של השכבה הנסתרת. לדוגמה, האיור שלמעלה הוא דוגמת עיצוב רשת מכיוון שהמודל מכיל שתי שכבות נסתרות.

מידע נוסף זמין בקטע רשתות נוירונליות: צמתים ושכבות מוסתרות במסגרת קורס ה-Crash Course בנושא למידת מכונה.

אשכולות היררכיים

#clustering

קטגוריה של אלגוריתמים של קיבוץ שיוצרים עץ של אשכולות. אשכולות היררכיים מתאימים מאוד לנתונים היררכיים, כמו טקסונומיות בוטניות. יש שני סוגים של אלגוריתמים של אשכולות היררכיים:

  • קיבוץ אגרגטיבים מקצה קודם כל דוגמה לאשכול משלו, היא ממזגת באופן חזרתי את האשכולות הקרובים ביותר כדי ליצור היררכיה עץ.
  • קיבוץ אשכולות מקבץ קודם את כל הדוגמאות לאשכול אחד, ואז הוא מחלק את האשכול באופן חזרתי לעץ היררכי.

השוו בין אשכולות מבוססי מרכז.

מידע נוסף זמין בקטע אלגוריתמים של קיבוץ בקורס 'קיבוץ'.

אובדן צירים

משפחה של אובדן פועלת סיווג שמטרתו למצוא גבול החלטה, רחוק ככל האפשר מכל דוגמה לאימון, וכך למקסם את השוליים בין הדוגמאות לגבולות. KSVM משתמשים באובדן ציר (או בפונקציה קשורה, כמו אובדן ציר בריבוע). לסיווג בינארי, הפונקציה של אובדן צירים מוגדרת כך:

$$\text{loss} = \text{max}(0, 1 - (y * y'))$$

כאשר y הוא התווית האמיתית, -1 או +1, ו-y' הוא הפלט הגולמי של מודל הסיווג:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

כתוצאה מכך, בתרשים של אובדן צירים לעומת (y * y') נראית כך:

תרשים קרטוזי מורכב משני קטעי קו שמחוברים. מקטע הקו הראשון מתחיל ב-(-3, 4) ומסתיים ב-(1, 0). השורה השנייה
          קטע מתחיל ב- (1, 0) וממשיך ללא הגבלת זמן עם שיפוע
          מתוך 0.

הטיה היסטורית

#fairness

סוג של הטיה שכבר קיימת בעולם נכנס למערך נתונים. ההטיות האלה נוטות לשקף סטריאוטיפים תרבותיים קיימים, אי-שוויון דמוגרפיות ודעות קדומות כלפי קבוצות חברתיות מסוימות.

לדוגמה, נבחן מודל סיווג חוזה אם מגיש הבקשה להלוואה יהיה ברירת מחדל של ההלוואה, לאימון לפי נתוני ברירת מחדל היסטוריים של הלוואות משנות ה-80 של המאה ה-20, מהבנקים המקומיים, קהילות שונות. אם בעבר, לבקשות מימון מקהילה א' הייתה פי שישה יותר סבירות להגיע לחדלות פירעון מאשר לבקשות מימון מקהילה ב', יכול להיות שהמודל ילמד הטיה היסטורית וכתוצאה מכך יהיה פחות סיכוי לאשר בקשות מימון מקהילה א', גם אם התנאים ההיסטוריים שהובילו לשיעורי חדלות הפירעון הגבוהים יותר בקהילה הזו כבר לא רלוונטיים.

למידע נוסף, ניתן לעיין בקטע הוגנות: סוגים של הטיה בקורס מקוצר על למידת מכונה.

נתוני holdout

דוגמאות שלא נעשה בהן שימוש מכוון ('לא בוטלה') במהלך האימון. מערך הנתונים לצורך אימות ומערך הנתונים לצורך בדיקה הם דוגמאות לנתונים לצורך החזקה בצד. נתוני Holdout עוזרים להעריך את היכולת של המודל להכליל נתונים שונים מהנתונים שבהם הוא אומן. האובדן בקבוצת ההשהיה הדרגתית משפר את להעריך של האובדן במערך נתונים שלא נצפה מזה של האובדן ערכת האימון.

מארח

#TensorFlow
#GoogleCloud

כשמאמנים מודל למידת מכונה בשבבי מאיץ (GPU או TPU), החלק במערכת ששולט בשני הדברים הבאים:

  • התהליך הכולל של הקוד.
  • חילוץ וטרנספורמציה של צינור עיבוד הנתונים.

המארח פועל בדרך כלל במעבד (CPU), ולא בצ'יפ מאיץ. ה device מבצע מניפולציות על כלי כוונון שבבי מאיצים.

היפר-פרמטר

#fundamentals

המשתנים שאתם או שירות כוונון של היפר-פרמטרים לבצע התאמות במהלך רציפות של אימון מודל. לדוגמה, שיעור הלמידה הוא היפר-פרמטר. אפשר להגדיר את קצב הלמידה ל-0.01 לפני סשן אימון אחד. אם 0.01 גבוה מדי, תוכלו להגדיר את קצב הלמידה ל-0.003 בסשן האימון הבא.

לעומת זאת, פרמטרים הם משקולות ודעה קדומה שלפיה המודל לומד במהלך האימון.

ראו רגרסיה לינארית: היפר-פרמטרים בקורס מקוצר על למידת מכונה.

מישור היפר

גבול שמפריד מרחב לשני מרחבים משניים. לדוגמה, קו הוא היפר-מישור בשני ממדים, ומישור הוא היפר-מישור בשלושה ממדים. בלמידת מכונה, בדרך כלל, היפר-מישור הוא הגבול שמפריד שטח רב-ממדי. השימוש במכונות וקטוריות לתמיכה בליבה (Kernel) היפר-מישורים להפרדה בין מחלקות חיוביות לסיווגים שליליים, לרוב שטח רב-ממדי.

I

i.i.d.

קיצור של independently and identically distributed.

זיהוי תמונות, זיהוי תמונה

#image

תהליך שמסווג אובייקטים, דפוסים או מושגים בתמונה. זיהוי תמונות נקרא גם סיווג תמונות.

מידע נוסף זמין במאמר הבא: ML Practicum: סיווג תמונות.

מידע נוסף זמין בקורס ML Practicum: Image Classification.

מערך נתונים לא מאוזן

מילה נרדפת למערך נתונים עם איזון בכיתה.

הטיה מרומזת

#fairness

יצירת שיוך או הנחה באופן אוטומטי על סמך המודלים והזיכרונות של המוח. הטיה מרומזת יכולה להשפיע על:

  • איך נאספים ומסווגים נתונים?
  • איך מתכננים ומפתחים מערכות של למידת מכונה.

לדוגמה, כשיוצרים מסַווג לזיהוי תמונות מחתונה, מהנדס יכול להשתמש בהצגה של שמלה לבנה בתמונה כמאפיין. יחד עם זאת, השמלות הלבנות נהוגות רק בתקופות מסוימות בתרבויות מסוימות.

ראו גם הטיית אישור.

imputation

קיצור של השלמה של ערכים.

אי-תאימות של מדדי הוגנות

#fairness

הרעיון שכמה מושגים של הוגנות אינם תואמים זה לזה, לא יכול להיות מרוצה בו-זמנית. כתוצאה מכך, אין מדד אוניברסלי למדידת הוגנות שאפשר להחיל על כל הבעיות של למידת מכונה.

זה עשוי להיראות מרתיע, אבל חוסר התאמה למדדי ההוגנות לא מרמזת על כך שמאמצי ההוגנות לא מניבים תוצאות. במקום זאת, מוצע להגדיר את הצדק בהקשר של בעיה נתונה של למידת מכונה, במטרה למנוע נזקים ספציפיים לתרחישים לדוגמה שלה.

לסקירה מפורטת יותר בנושא הזה, אפשר לעיין במאמר On the (im)possibility of fairness.

למידה בהקשר

#language
#generativeAI

מונח נרדף להנחיות עם כמה דוגמאות.

מופצת באופן עצמאי וזהה (i.d)

#fundamentals

נתונים הנובעים מהתפלגות שלא משתנה, ואיפה כל ערך לא תלויים בערכים שציירנו קודם לכן. נתונים בלתי תלויים זהים הם הגז האידיאלי של למידת המכונה – מבנה מתמטי שימושי, אבל כמעט אף פעם לא נמצא במדויק בעולם האמיתי. לדוגמה, התפלגות המבקרים בדף אינטרנט יכול להיות תוך חלון זמן קצר; כלומר, ההתפלגות לא במהלך החלון הקצר הזה וביקור של אדם אחד בדרך כלל ללא תלות בביקור של אדם אחר. עם זאת, אם תרחיבו את חלון הזמן הזה, יכול להיות שיופיעו הבדלים עונתיים במספר המבקרים בדף האינטרנט.

ניתן לעיין גם במאמר לא תחנה.

הוגנות אישית

#fairness

מדד הוגנות שבודק אם אנשים דומים מסווגים באופן דומה. לדוגמה, ייתכן ש-Brobdingnagian Academy הוגנות אישית באמצעות הקפדה על כך ששני תלמידים בעלי ציונים זהים וציונים סטנדרטיים בבחינות צפויים במידה שווה לקבל הרשמה.

חשוב לזכור שצדק לכל תלמיד או תלמידה תלוי לחלוטין באופן שבו מגדירים את 'הדמיון' (במקרה הזה, ציונים ומבחנים), ויש סיכון להוספת בעיות חדשות של צדק אם מדד הדמיון לא כולל מידע חשוב (למשל, רמת הקושי של תוכנית הלימודים של התלמיד או התלמידה).

ראו "דרך הוגנות מוּדעוּת" לדיון מפורט יותר לגבי הוגנות אינדיבידואלית.

הסקה

#fundamentals

בלמידת מכונה, תהליך יצירת חיזויים על ידי החלת מודל מאומן על דוגמאות ללא תוויות.

להשערה יש משמעות שונה מעט בסטטיסטיקה. לצפייה מאמר בוויקיפדיה על מסקנות סטטיסטיות.

במאמר למידה מונחית בקורס 'מבוא ל-ML' מוסבר מה תפקיד ההסקה במערכת של למידה מונחית.

נתיב ההסקה

#df

בעץ ההחלטות, במהלך הסקה, את המסלול שדוגמה מסוימת לוקחת root לתנאים אחרים, שמסתיים ב- עלה. לדוגמה, בעץ ההחלטות הבא, החצים העבים יותר מצביעים על נתיב ההסקה לדוגמה עם ערכי המאפיינים הבאים:

  • x = 7
  • y = 12
  • z = -3

נתיב ההסקה באיור הבא עובר דרך שלושה תנאים לפני שהוא מגיע לעלעל (Zeta).

עץ החלטות שמורכב מארבעה תנאים וחמישה עלים.
          תנאי השורש הוא (x > 0). מאחר שהתשובה היא &#39;כן&#39;,
          נתיב ההסקה עובר מהשורש לתנאי הבא (y > 0).
          מכיוון שהתשובה היא &#39;כן&#39;, נתיב ההסקה עובר לתנאי הבא (z > 0). מכיוון שהתשובה היא &#39;לא&#39;, נתיב ההסקה
          עובר לצומת הטרמינל שלו, שהוא העלה (Zeta).

שלושת החיצים העבים מציגים את נתיב ההסקה.

ראו עצי החלטה את הקורס 'יערות החלטה', תוכלו לקבל מידע נוסף.

רווח מידע

#df

ביערות החלטות, ההפרש בין האנטרופי של צומת לבין הסכום המשוקלל (לפי מספר הדוגמאות) של האנטרופיה של צומתי הצאצאים שלו. האנטרופיה של צומת היא האנטרופיה של הדוגמאות שבצומת הזה.

לדוגמה, נבחן את ערכי האנטרופיה הבאים:

  • האנטרופיה של צומת ההורה = 0.6
  • האנטרופיה של צומת צאצא אחד עם 16 דוגמאות רלוונטיות = 0.2
  • האנטרופיה של צומת צאצא אחר עם 24 דוגמאות רלוונטיות = 0.1

כלומר, 40% מהדוגמאות נמצאות בצומת צאצא אחד ו-60% נמצאות בצומת הצאצא השני. לכן:

  • סכום האנטרופיה המשוקל של צומתי הצאצאים = (0.4 * 0.2) + (0.6 * 0.1) = 0.14

לכן, רווח המידע הוא:

  • רווח מידע = אנטרופיה של צומת הורה - סכום אנטרופיה משוקלל של צמתים צאצאים
  • רווח מידע = 0.6 - 0.14 = 0.46

רוב המפזרים מנסים ליצור תנאים כדי להפיק את המידע המקסימלי.

הטיה לטובת הקבוצה

#fairness

הצגת חלקיות על הקבוצה של עצמך או על המאפיינים שלו. אם הבודקים או המדרגים כוללים חברים של מפתח למידת המכונה, בני משפחה או עמיתים, הטיה בתוך הקבוצה עלולה לשלול את התוקף של בדיקת המוצרים או את מערך הנתונים.

הטיה בתוך הקבוצה היא סוג של הטיה בשיוך קבוצתי. ראו גם הטיה והומוגניות של קבוצה מחוץ לקבוצה.

למידע נוסף, ניתן לעיין בקטע הוגנות: סוגים של הטיה ב- למידע נוסף על הקורס מקוצר על למידת מכונה.

מחולל קלט

מנגנון שבו נתונים נטענים ברשת נוירונים.

אפשר לחשוב על גנרטור קלט כרכיב שאחראי על עיבוד נתונים גולמיים לתוך טינסורים, שמתבצעים בהם איטרציות כדי ליצור קבוצות לאימון, להערכה ולהסקה.

שכבת קלט

#fundamentals

השכבה של רשת נוירונים מכילה את הוקטור של התכונה. כלומר, שכבת הקלט מספקת דוגמאות לאימון או להסקה. לדוגמה, שכבת הקלט בדוגמה הבאה רשת נוירונים מורכבת משתי תכונות:

ארבע שכבות: שכבת קלט, שתי שכבות סמויות ושכבת פלט.

תנאי בתוך הקבוצה

#df

בעץ החלטות, תנאי שבודק אם פריט אחד נמצא בקבוצת פריטים. לדוגמה, הדוגמה הבאה היא תנאי מוגדר:

  house-style in [tudor, colonial, cape]

במהלך ההסקה, אם הערך של המאפיין של סגנון הבית הוא tudor או colonial או cape, התנאי הזה מקבל את הערך 'כן'. אם המיקום הערך של התכונה 'סגנון בית' הוא משהו אחר (לדוגמה, ranch), התנאי הזה מקבל את הערך 'לא'

תנאים בתוך הקבוצה בדרך כלל מובילים לעצי החלטות יעילים יותר מאשר תנאים שבוחנים מאפיינים מקודדים ב-one-hot.

מכונה

example מילה נרדפת.

כוונון לפי הוראות

#generativeAI

סוג של כוונון עדין שמשפר היכולת של מודל בינה מלאכותית גנרטיבית לפעול לפי הוראות להתאמה אישית. כוונון של הוראות כולל אימון של מודל לפי סדרה של הנחיות, שכוללות בדרך כלל מגוון משימות. לאחר מכן המודל שמכוונן לפי הוראות ליצור תשובות שימושיות להנחיות מאפס במגוון משימות.

השוואה וניגוד לבין:

יכולת הפרשנות

#fundamentals

היכולת להסביר או להציג את ההיגיון של מודל למידת מכונה במונחים מובנים לאדם.

לדוגמה, רוב המודלים של רגרסיה לינארית ניתנים לניתוח בקלות רבה. (צריך רק לבדוק את המשקולות לאחר אימון feature.) בנוסף, קל מאוד להבין את יערות ההחלטות. עם זאת, בחלק מהמודלים נדרשת תצוגה חזותית מתוחכמת כדי שאפשר יהיה להבין אותם.

אפשר להשתמש בכלי לניתוח תוצאות למידה (LIT) כדי לפרש מודלים של למידת מכונה.

הסכם בין המדרגים

מדידה של התדירות שבה מדרגים אנושיים מסכימים כשהם מבצעים משימה. אם המדרגים לא מסכימים, ייתכן שצריך לשפר את הוראות המשימה. נקרא לפעמים גם הסכם עם המשתמשים שיכולים להוסיף הערות, או אמינות בין המדרגים. אפשר גם לעיין בקאפה של כהן, אחד המדדים הפופולריים ביותר למדידת הסכמה בין בודקים.

לעיון בקטע נתונים קטגוריים: נפוץ בעיות בקורס מקוצר על למידת מכונה.

הצטלבות דרך איחוד (IoU)

#image

החיתוך של שתי קבוצות חלקי האיחוד שלהן. בלמידת מכונה וגם משימות של זיהוי תמונה, IoU משמש למדידת הדיוק שנחזתה תיבה תוחמת (bounding box) ביחס תיבה תוחמת מסוג ground truth. במקרה הזה, ה-IoU של שתי תיבות הן היחס בין האזור החופף לשטח הכולל, הערך שלו נע בין 0 (ללא חפיפה בין התיבה החזויה החזויה לבין האמת היבשתית תיבה תוחמת (bounding box) ל-1 (החיזוי של תיבה תוחמת (bounding box) והתיבה הזאת יש את אותן הקואורדינטות בדיוק).

לדוגמה, בתמונה הבאה:

  • תיבת הגבול הצפויה (הקואורדינטות שמגדירות את המיקום שבו המודל צופה ששולחן הלילה נמצא בציור) מסומנת בקו סגול.
  • תיבת הגבול של האמת המוחלטת (הקואורדינטות שמגדירות את המיקום האמיתי של שולחן הלילה בציור) מסומנת בקו ירוק.

הציור של ואן גוך &#39;חדר השינה של וינסנט בארל&#39;, עם שני תיבות מסגרת שונות סביב שולחן הלילה ליד המיטה. תיבת הגבול של האמת (בירוק) מקיף בצורה מושלמת את שולחן הלילה. תיבת הגבול הצפויה (בארגמן) מוסטת ב-50% למטה ולימין של תיבת הגבול של נתוני האמת. היא כוללת את הרבע השמאלי התחתון של שולחן הלילה, אבל לא את שאר הטבלה.

כאן, החיתוך של תיבות הסף לחיזוי ולעובדות (בפינה הימנית התחתונה) הוא 1, והאיחוד של תיבות הסף לחיזוי ולעובדות (בפינה הימנית התחתונה) הוא 7, כך ש-IoU הוא \(\frac{1}{7}\).

אותה תמונה כמו למעלה, אבל כל תיבת גבול מחולקת לארבעה רבעונים. יש בסך הכול שבעה רבעונים, כי הרבעון הימני התחתון של תיבת ה-bounding של עובדות הקרקע והרבעון הימני העליון של תיבת ה-bounding הצפויה חופפים זה לזה. הזה
          הקטע החופף (מודגש בירוק) מייצג את
          ושטחו 1. אותה תמונה כמו למעלה, אבל כל תיבת גבול מחולקת לארבעה רבעונים. יש שבעה רבעונים סה&quot;כ, כך שהפינה הימנית התחתונה
          בריבוע של התיבה התוחמת של אמת הקרקע והבפינה השמאלית העליונה
          בריבוע של התיבה התוחמת החזויה חופף זה לזה.
          כל השטח הפנימי שמוקף בשני תיבות הסימון (מודגש בירוק) מייצג את האיחוד, ושטחו הוא 7.

IoU

קיצור של intersection over union.

מטריצת פריטים

#recsystems

במערכות המלצות, מטריצת ווקטורים של הטמעה שנוצרה על ידי פירוק מטריצות שמכילה אותות סמויים לגבי כל פריט. כל שורה במטריצה של הפריטים מכילה את הערך של מאפיין סמוי אחד לכל הפריטים. לדוגמה, ניקח מערכת המלצות לסרטים. כל עמודה במטריצת הפריטים שמייצגת סרט אחד. האותות הלא גלויים יכולים לייצג ז'אנרים, או אותות שקשה יותר לפרש שכוללים אינטראקציות מורכבות בין ז'אנר, שחקנים, גיל הסרט או גורמים אחרים.

במטריצת הפריטים יש אותו מספר עמודות כמו ביעד שמפירים לגורמים את המטריצה. לדוגמה, כשמזינים סרט מערכת המלצות שמעריכה 10,000 כותרי סרטים, מטריצת הפריטים תכלול 10,000 עמודות.

פריטים

#recsystems

במערכת המלצות, הישויות שהמערכת ממליצה עליהן. לדוגמה, סרטונים הם הפריטים בחנות סרטונים מומלץ, ואילו ספרים הם הפריטים שמומלצים על ידי חנות ספרים.

איטרציה

#fundamentals

עדכון יחיד של פרמטרים של מודלמשקולות והטיות – במהלך אימון. גודל האצווה קובע מספר הדוגמאות שהמודל מעבד באיטרציה אחת. לדוגמה, אם גודל האצווה הוא 20, המערכת מעבדת 20 דוגמאות לפני שהיא משייכת את הפרמטרים.

כשמאמנים רשת נוירונים, חזרה אחת כוללת את שני השלבים הבאים:

  1. העברה קדימה (forward pass) כדי להעריך את האובדן בקבוצה אחת.
  2. מעבר אחורה (הפצה לאחור) לשינוי של של המודל על סמך ההפסד וקצב הלמידה.

J

JAX

ספריית מחשוב מסוג 'מערך', שמאחדת XLA (אלגברה לינארית מואצת) ובידול אוטומטי למחשוב מספרי בעל ביצועים גבוהים. JAX מספק מודל פשוט וחזק API לכתיבת קוד מספרי מואץ עם טרנספורמציות קומפוזביליות. JAX כולל תכונות כמו:

  • grad (הבחנה אוטומטית)
  • jit (הדרכה בזמן אמת)
  • vmap (ווקטוריזציה או קיבוץ אוטומטיים)
  • pmap (טעינה מקבילה)

JAX היא שפה לביטוי וליצירה של טרנספורמציות של קוד מספרי, שדומה לספריית NumPy של Python, אבל היקפה גדול בהרבה. (למעשה, הספרייה numpy.‎ ב-JAX היא גרסה פונקציונלית זהה של ספריית NumPy ב-Python, אבל היא נכתבה מחדש לגמרי).

JAX מתאים במיוחד להאצת משימות רבות של למידת מכונה, על ידי המרת המודלים והנתונים לפורמט שמתאים לעבודה במקביל ב-GPU ובשבבי האצה של TPU.

ספריות רבות, כמו Flax,‏ Optax,‏ Pax ועוד, מבוססות על התשתית של JAX.

K

Keras

API פופולרי ללמידת מכונה של Python. Keras פועל במספר מסגרות של למידת עומק, כולל TensorFlow, שם הוא זמין בתור tf.keras.

מכונות וקטור תמיכה בליבה (KSVM)

אלגוריתם סיווג שמטרתו להגדיל את השוליים בין חיוביות וגם סיווגים שליליים על ידי מיפוי וקטורים של נתוני קלט למרחב עם ממדים גבוהים יותר. לדוגמה, נניח שמדובר בבעיית סיווג שבה למערך הנתונים של הקלט יש מאה מאפיינים. כדי למקסם את המרווח בין הכיתות החיוביות לשליליות, מערכת KSVM יכולה למפות את המאפיינים האלה באופן פנימי למרחב של מיליון מאפיינים. ב-KSVMs נעשה שימוש בפונקציית אובדן שנקראת hinge loss.

נקודות מפתח

#image

הקואורדינטות של ישויות מסוימות בתמונה. לדוגמה, עבור של זיהוי תמונות שמבדיל מיני פרחים, נקודות מפתח עשויות להיות המרכז של כל עלה כותרת, גזע, את האבן וכן הלאה.

אימות חוצה (cross-validation) ב-k-fold

אלגוריתם לחיזוי היכולת של מודל להכליל נתונים חדשים. הערך k ב-k Fold מתייחס מספר הקבוצות שוות שאליהן מחלקים את הדוגמאות של מערך נתונים; כלומר, מאמנים ובדקו את המודל אלף פעמים. לכל סבב של אימון ובדיקה, קבוצה אחרת היא קבוצת הבחינה, וכל הקבוצות שנשארות הופכות לאימון הוגדרה. אחרי k סבבים של אימון ובדיקה, מחשבים את הממוצע ואת סטיית התקן של מדדי הבדיקה שנבחרו.

למשל, נניח שמערך הנתונים מכיל 120 דוגמאות. נניח גם שהחלטתם להגדיר את k לערך 4. לכן, אחרי שמערבבים את הדוגמאות, צריך לפצל את מערך הנתונים לארבע קבוצות שוות של 30 דוגמאות ולבצע ארבעה סבבים של אימון ובדיקה:

מערך נתונים מחולק לארבע קבוצות שוות של דוגמאות. בסיבוב הראשון, שלוש הקבוצות הראשונות משמשות לאימון והקבוצה האחרונה משמשת לבדיקה. בסיבוב 2, שתי הקבוצות הראשונות והאחרונה
          משמשים לאימון, והקבוצה השלישית משמשת לאימון.
          בדיקה. בסיבוב 3, הקבוצה הראשונה ושתי הקבוצות האחרונות משמשות לאימון, והקבוצה השנייה משמשת לבדיקה.
          בסבב 4, הקבוצה הראשונה משמשת לבדיקה, והקבוצה הסופית
          של שלוש קבוצות משתמשים לאימון.

לדוגמה, השגיאה הריבובית הממוצעת (MSE) עשויה להיות המדד המשמעותי ביותר במודל של רגרסיה לינארית. לכן, ימצא את הממוצע וסטיית התקן של ה-MSE בכל ארבעת הסיבובים.

k-means

#clustering

אלגוריתם פופולרי של קיבוץ לאשכולות שמקבץ דוגמאות בלמידה בלתי מונחית. בעיקרון, האלגוריתם k-means מבצע את הפעולות הבאות:

  • קובע באופן חזרתי את נקודות המרכז (K) הטובות ביותר כcentroids).
  • הקצאה של כל דוגמה למרכז המסה הקרוב ביותר. הדוגמאות הקרובות ביותר לאותו מרכז כובד שייכות לאותה קבוצה.

האלגוריתם של k-means בוחר מיקומי מרכז כובד כדי למזער את הריבוע המצטבר של המרחקים מכל דוגמה למרכז הכובד הקרוב ביותר שלה.

לדוגמה, שימו לב לתרשים הבא של גובה הכלב לעומת רוחב הכלב:

תרשים קרטזי עם כמה עשרות נקודות נתונים.

אם k=3, האלגוריתם k-means יקבע שלושה מרכזי מסה. כל דוגמה מוקצה למרכז המסה הקרוב ביותר שלה, וכך נוצרות שלוש קבוצות:

אותו תרשים קרטוזי כמו באיור הקודם, רק עם שלושה מרכזי מסה נוספים.
          נקודות הנתונים הקודמות מקובצות לשלוש קבוצות נפרדות, כאשר כל קבוצה מייצגת את נקודות הנתונים הקרובות ביותר למרכז כובד מסוים.

נניח שיצרן רוצה לקבוע את המידות האידיאליות של פריטים קטנים, סוודרים בגודל בינוני וגדול לכלבים. שלושת המוקדים מזהים את הממוצע הגובה והרוחב של כל כלב באשכול הזה. אז היצרן כדאי לבסס את גודל הסוודרים על שלושת המרכזים האלה. חשוב לזכור שבדרך כלל, מרכז הכובד של אשכול לא נכלל בדוגמאות שבאשכול.

באיורים הקודמים רואים k-כלומר לדוגמאות שבהן רק שתי ישויות (גובה ורוחב). שימו לב ש-k-יכול לקבץ דוגמאות על פני מגוון פיצ'רים.

k-median

#clustering

אלגוריתם של קיבוץ באשכולות שקשור מאוד ל-k-means. יש הבדל מעשי בין שני סוגי הנתונים:

  • ב-k-means, מרכזי הכובד נקבעים על ידי צמצום הסכום של הריבועים של המרחק בין מועמד למרכז הכובד לכל אחת מהדוגמאות שלו.
  • בחציון k, צנטרואידים נקבעים על ידי מזעור סכום המרחק בין המועמד במרכז וכל אחת מהדוגמאות שלו.

שימו לב שההגדרות של מרחק שונות גם הן:

  • השיטה k-means מבוססת על המרחק האוקלידי מהמוקד לדוגמה. (בשני ממדים, המודל האוקלדיאני מרחק הוא שימוש במשפט פיתגורס כדי לחשב היתר). לדוגמה, המרחק k הוא בין (2,2) ו-(5,-2) יהיו:
$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$
  • k-median מסתמך על המרחק של מנהטן מהמרכז. המרחק הזה הוא הסכום של התנודות המוחלטות בכל מאפיין. לדוגמה, המרחק של k-median בין (2,2) לבין (5,-2) יהיה:
$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

L

רגולריזציה של L0

#fundamentals

סוג של סידור להעניש את המספר הכולל של משקולות שאינם אפס במודל. לדוגמה, מודל עם 11 משקלים שאינם אפס יקבל עונש גבוה יותר מאשר מודל דומה עם 10 משקלים שאינם אפס.

הרגולריזציה של L0 נקראת לפעמים regularization L0-norm.

הפסד 1

#fundamentals

פונקציית הפסד שמחשבת את הערך המוחלט של ההבדל בין ערכי התווית בפועל מהם הערכים שמודל חוזים אותם. לדוגמה, הנה חישוב של הפסד 1 עבור אצווה מתוך חמש דוגמאות:

הערך בפועל של דוגמה הערך החזוי של המודל הערך המוחלט של הדלתה
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = אובדן L1

אובדן 1 פחות רגיש לחריגים חשודי טעות מאשר אובדן של L2.

השגיאה המוחלטת הממוצעת היא אובדן L1 הממוצע לכל דוגמה.

תקינה1

#fundamentals

סוג של ארגון שמוטל עליו סנקציות משקולות ביחס לסכום הערך המוחלט של את המשקולות. רגולריזציה של L1 עוזרת להקטין את המשקלים של מאפיינים לא רלוונטיים או כמעט לא רלוונטיים ל-0. תכונה עם משקל של 0 נחשבת כתכונה שהוסרה מהמודל.

השוו עם L2 רגולריזציה.

אובדן L2

#fundamentals

פונקציית אובדן שמחשבת את הריבוע של ההפרש בין הערכים בפועל של התוויות לבין הערכים שהמודל צופה. לדוגמה, זהו החישוב של אובדן L2 בקבוצה של חמש דוגמאות:

הערך בפועל של הדוגמה הערך הצפוי של המודל ריבוע דלתא
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
  16 = הפסד 2 L

בגלל הריבועים, אובדן L2 מגביר את ההשפעה של ערכים חריגים. כלומר, הפסד של L2 מגיב חזק יותר לתחזיות גרועות מאשר L1 הפסד. לדוגמה, הפסד L1 הקבוצה הקודמת תהיה 8 ולא 16. שימו לב שערכה חריגה אחת אחראית ל-9 מתוך 16 הערכים.

במודלים של רגרסיה נהוג להשתמש בפונקציית ההפסד L2.

השגיאה הממוצעת בריבוע היא הממוצע L2 הפסד לכל דוגמה. אובדן ריבועי הוא שם נוסף להפסד של L2.

רגולריזציה של L2

#fundamentals

סוג של ארגון שמוטל עליו סנקציות משקולות ביחס לסכום הריבועים של המשקולות. הרגולריזציה 2 עוזרת להשיג משקולות חריגות (אלה עם ערכים שליליים גבוהים או שליליים, שקרובים ל-0 אבל לא בדיוק ל-0. מאפיינים עם ערכים שקרובים מאוד ל-0 נשארים במודל, אבל הם לא משפיעים הרבה על התחזית של המודל.

תמיד קל יותר להכליל מודלים לינאריים כשמשתמשים ברגולציה L2.

השוו עם L1 רגולריזציה.

תווית

#fundamentals

בלמידת מכונה בפיקוח, "answer" או 'תוצאה' חלק מ-example.

כל דוגמה מסומנת בתווית מורכבת מדוגמה אחת או יותר תכונות ותווית. לדוגמה, בהודעת ספאם של מערך נתוני הזיהוי, התווית תסומן כנראה כ'ספאם'. או 'לא ספאם'. במערך נתונים של כמות משקעים, התווית עשויה להיות כמות המשקעים שירדה בתקופה מסוימת.

דוגמה עם תווית

#fundamentals

דוגמה שמכילה תכונה אחת או יותר ותווית. לדוגמה, הטבלה הבאה מציגה 3 דוגמאות מתויגות מתוך מודל הערכת שווי הבית, כאשר לכל אחת יש שלוש תכונות ותווית אחת:

מספר חדרי שינה מספר חדרי האמבטיה גיל הבית מחיר הבית (תווית)
3 2 15 345,000$
2 1 72 179,000$
4 2 34 392,000$

בלמידת מכונה בפיקוח, מודלים מתאמנים על דוגמאות מתויגות, ומפיקים תחזיות לגבי דוגמאות ללא תווית.

יש להשוות בין דוגמאות עם תוויות לדוגמאות ללא תווית.

דליפת תווית

פגם בתכנון המודל שבו מאפיין משמש כ-proxy לתווית. לדוגמה, כדאי לקחת בחשבון סיווג בינארי שחוזה האם לקוח פוטנציאלי ירכוש מוצר מסוים. נניח שתכונה אחת של המודל היא משתנה בוליאני בשם SpokeToCustomerAgent. נניח גם שסוכן לקוחות מוקצה רק אחרי שהלקוח הפוטנציאלי קנה את המוצר בפועל. במהלך האימון, המודל ילמד במהירות את הקשר בין SpokeToCustomerAgent לבין התווית.

lambda

#fundamentals

מילה נרדפת לשיעור הנורמליזציה.

Lambda הוא מונח עם עומס יתר. כאן נתמקד בהגדרה של regularization.

LaMDA (מודל שפה לאפליקציות שיחה)

#language

מודל שמבוסס על טרנספורמר מודל שפה גדול (LLM) שפותח על ידי Google ושאומן על מערך נתונים גדול של דיאלוג שיכול ליצור תשובות מציאותיות לשיחות.

LaMDA: השיחה פורצת הדרך שלנו הטכנולוגיה מספקת סקירה כללית.

ציוני דרך

#image

מילה נרדפת לנקודות מפתח.

מודל שפה

#language

מודל שמעריך את ההסתברות של אסימון או רצף של אסימונים שמתרחשים ברצף ארוך יותר של אסימונים.

מודל שפה גדול (LLM)

#language

לפחות מודל שפה עם מספר גבוה מאוד של פרמטרים. באופן לא רשמי יותר, מודל שפה שמבוסס על טרנספורמר, כמו Gemini או GPT.

מרחב סמוי

#language

מילה נרדפת להטמעת המרחב.

שכבה

#fundamentals

קבוצה של נוירונים ברשת נוירונים. שלושה סוגים נפוצים של שכבות הן:

לדוגמה, באיור הבא מוצגת רשת עצבית עם שכבת קלט אחת, שתי שכבות חבויות ושכבת פלט אחת:

רשת נוירונים עם שכבת קלט אחת, שתי שכבות נסתרות והשנייה
          בשכבת פלט. שכבת הקלט מורכבת משתי מאפיינים. השכבה החבויה הראשונה מורכבת משלושה תאי עצב, והשכבה החבויה השנייה מורכבת משני תאי עצב. שכבת הפלט מורכבת מצומת אחד.

ב-TensorFlow, שכבות הן גם פונקציות Python שמקבלות Tensors ואפשרויות הגדרה כקלט, ויוצרות אחרים כפלט.

Layers API (tf.layers)

#TensorFlow

API של TensorFlow ליצירת רשת נוירונים עמוקה שהוא מורכב משכבות. ה-Layers API מאפשר ליצור סוגים של שכבות, כמו:

ה-Layers API פועל בהתאם למוסכמות ה-API של שכבות Keras. כלומר, מלבד תחילית שונה, לכל הפונקציות ב-Layers API יש את אותם שמות וחתימות כמו של המקבילות שלהן ב-Layers API של Keras.

עלה

#df

כל נקודת קצה בעץ החלטות. בניגוד לתנאי, עלה לא מבצע בדיקה. הוא מייצג תחזית אפשרית. עלה הוא גם הטרמינל צומת של נתיב ההסקה.

לדוגמה, עץ ההחלטות הבא מכיל שלושה עלים:

עץ החלטות עם שני תנאים שמובילים לשלושה עלים.

כלי לניתוח תוצאות למידה (LIT)

כלי אינטראקטיבי חזותי להצגה חזותית של נתונים ולהבנת מודלים.

אפשר להשתמש ב-LIT בקוד פתוח כדי להסביר מודלים או כדי להציג חזותית טקסט, תמונות ונתונים בטבלאות.

קצב למידה

#fundamentals

מספר עם נקודה צפה שמציין לאלגוריתם gradient descent את מידת ההתאמה של המשקלים וההטיות בכל חזרה. לדוגמה, שיעור למידה של 0.3 יתאים את המשקלים וההטיות בעוצמה פי שלושה יותר מאשר שיעור למידה של 0.1.

קצב הלמידה הוא היפר-פרמטר מפתח. אם תגדירו את קצב הלמידה נמוך מדי, תהליך האימון יימשך זמן רב מדי. אם מגדירים את קצב הלמידה גבוה מדי, לעיתים קרובות קשה להגיע להתכנסות בירידת המדרון.

רגרסיה של ריבועים לפחות

מודל רגרסיה ליניארית שאומן על ידי צמצום האובדן מסוג L2.

ליניארי

#fundamentals

קשר בין שני משתנים או יותר שאפשר לייצג רק באמצעות חיבור והכפלה.

הגרף של קשר לינארי הוא קו.

ניגודיות עם nonlinear.

מודל לינארי

#fundamentals

מודל שמקצה משקל אחד לכל פיצ'ר כדי ליצור חיזויים. (מודלים לינאריים גם כוללים הטיה). לעומת זאת, במודלים עמוקים, הקשר בין המאפיינים לתחזיות הוא בדרך כלל לא לינארי.

בדרך כלל קל יותר לאמן מודלים לינאריים, והם קלים יותר לפרש מאשר מודלים עמוקים. אבל, לפעמים מודלים עמוקים יכולים ללמוד קשרים מורכבים בין תכונות.

רגרסיה לינארית וגם רגרסיה לוגיסטית הם שני סוגים של מודלים לינאריים.

רגרסיה ליניארית

#fundamentals

סוג של מודל למידת מכונה שבו מתקיימים שני התנאים הבאים:

  • המודל הוא מודל לינארי.
  • החיזוי הוא ערך נקודה צפה (floating-point). (זהו החלק רגרסיה של רגרסיה ליניארית.)

בצעו השוואה בין רגרסיה ליניארית לבין רגרסיה לוגיסטית. בנוסף, השוו בין רגרסיה לבין סיווג.

LIT

קיצור של Learning Interpretability Tool‏ (LIT), שנקרא בעבר Language Interpretability Tool.

LLM

#language
#generativeAI

קיצור של large language model (מודל שפה גדול).

הערכות של LLM (evals)

#language
#generativeAI

קבוצה של מדדים ואמות מידה להערכת הביצועים של מודלים גדולים של שפה (LLMs). ברמה גבוהה, הערכות של מודלים גדולים של שפה (LLM):

  • עזרו לחוקרים לזהות תחומים שבהם צריך לשפר מודלים גדולים של שפה.
  • שימושיים להשוואה בין מודלים שונים של LLM ולזיהוי המודל הטוב ביותר למשימות מסוימות.
  • עוזרים לוודא שהשימוש ב-LLMs בטוח ואתי.

רגרסיה לוגיסטית

#fundamentals

סוג של מודל רגרסיה שחוזה הסתברות. למודלים של רגרסיה לוגיסטית יש את המאפיינים הבאים:

  • התווית היא קטגוריאלית. המונח רגרסיה לוגיסטית מתייחס בדרך כלל לרגרסיה לוגיסטית בינארית, כלומר למודל שמחשב הסתברויות לתווית עם שני ערכים אפשריים. וריאנט פחות נפוץ, רגרסיה לוגיסטית פולינומית, מחשב את הסבירויות לתוויות עם יותר משני ערכים אפשריים.
  • פונקציית האובדן במהלך האימון היא Log Loss. (אפשר להציב כמה יחידות של Log Loss במקביל לתווית עם יותר משני ערכים אפשריים).
  • למודל יש ארכיטקטורה ליניארית, ולא רשת נוירונים עמוקה. עם זאת, שאר ההגדרה הזו חלה גם על מודלים עמוקים שמנבאים את ההסתברויות של תוויות קטגוריות.

לדוגמה, נבחן מודל רגרסיה לוגיסטי שמחשב את שהודעת אימייל קלט היא ספאם או לא ספאם. במהלך ההסקה, נניח שהמודל חוזה את הערך 0.72. לכן, מבצע הערכה של:

  • סיכוי של 72% שהאימייל הוא ספאם.
  • סיכוי של 28% שהודעת האימייל היא לא ספאם.

מודל רגרסיה לוגיסטי מבוסס על ארכיטקטורת שני שלבים:

  1. המודל יוצר חיזוי גולמי (y') על ידי החלת פונקציה לינארית של מאפייני הקלט.
  2. המודל משתמש בחיזוי הגולמי הזה כקלט sigmoid, שממירה את חיזוי לערך בין 0 ל-1, לא כולל.

כמו כל מודל רגרסיה, מודל רגרסיה לוגיסטית חוזה מספר. עם זאת, המספר הזה בדרך כלל הופך לחלק מסיווג בינארי באופן הבא:

  • אם המספר החזוי גדול מה סף הסיווג, ומודל הסיווג הבינארי חוזים את המחלקה החיובית.
  • אם המספר החזוי נמוך מסף הסיווג, מודל הסיווג הבינארי חוזה את המחלקה השלילית.

פונקציות הלוג'יט

הווקטור של התחזיות הגולמיות (לא מנורמלות) שמודל הסיווג יוצר, שבדרך כלל מועבר לאחר מכן לפונקציית נורמליזציה. אם המודל פותר סיווג של כמה כיתות היא פונקציית לוג'יט בדרך כלל הופכת לקלט הפונקציה softmax. לאחר מכן, פונקציית ה-softmax יוצרת וקטור של הסתברויות (נורמליות) עם ערך אחד לכל סיווג אפשרי.

אובדן נתונים ביומן

#fundamentals

פונקציית ההפסד בשיטה הבינארית רגרסיה לוגיסטית.

log-odds

#fundamentals

הלוגריתם של הסיכויים לאירוע מסוים.

זיכרון ארוך לטווח קצר (LSTM)

#seq

סוג של תא בתוך רשת נוירונים חוזרת שמשמשת לעיבוד רצפים של נתונים באפליקציות כמו זיהוי כתב יד, מכונות תרגום וכיתובי תמונות. אפליקציות LSTM מתייחסות אל בעיית הדרגתיות נעלמת שמתרחשת כאשר לאימון RNN בגלל רצפי נתונים ארוכים, על ידי שמירת ההיסטוריה על מצב הזיכרון הפנימי שמבוסס על קלט והקשר חדשים מהתאים הקודמים ברשת הנוירונים החוזרת.

LoRA

#language
#generativeAI

קיצור של Adaptability בדירוג נמוך.

הפסד

#fundamentals

במהלך האימון של מודל בפיקוח, מדד שמציין את המרחק החיזוי של המודל מגיע מהתווית שלו.

פונקציית הפסד מחשבת את אובדן.

אתר אגרגטור למחירי הפסדים

סוג של אלגוריתם של למידת מכונה משפר את הביצועים של מודל באמצעות שילוב של החיזויים של מספר מודלים להשתמש בחיזויים האלה כדי לבצע חיזוי אחד. כתוצאה מכך, שאגרגטור הפסדים יכול לצמצם את השונות של החיזויים לשפר את הדיוק של החיזויים.

עקומת אובדן

#fundamentals

תרשים של הפסד כפונקציה של מספר החזרות של האימון. בתרשים הבא מוצגת פונקציית אובדן אופיינית:

תרשים קרטוזי של אובדן לעומת חזרות אימון, שבו מוצג ירידה מהירה באובדן בחזרות הראשונות, ואחריה ירידה הדרגתית ואז שיפוע שטוח במהלך החזרות האחרונות.

בעזרת עקומות אובדן אפשר לקבוע מתי המודל מתכנס או מתאים יותר מדי.

בעקומות אובדן אפשר להציג את כל סוגי האובדן הבאים:

ראו גם עקומת הכללה.

פונקציית אובדן

#fundamentals

במהלך אימון או בדיקה, פונקציה מתמטית שמחשבת וכל מספר של דוגמאות. פונקציית הפסד מחזירה ערך אובדן נמוך יותר מודלים שמפיקים תחזיות טובות מאשר מודלים שמייצרים ויצירת חיזויים לא טובים.

מטרת האימון היא בדרך כלל למזער את האובדן שפונקציית האובדן מחזירה.

יש סוגים רבים של פונקציות אובדן. בוחרים את סוג האובדן המתאים מתאים לסוג המודל שאתם בונים. לדוגמה:

פני השטח של ההפסדים

גרף של משקל(ים) לעומת ירידה. המטרה של ירידה בדירוג כדי למצוא את המשקולות שעבורן סף הירידה הוא המינימלי המקומי.

התאמה לרמה נמוכה (LoRA)

#language
#generativeAI

שיטה יעילות בפרמטר, כוונון עדין ש"קופא" של המודל המשקולות (כך שכבר לא ניתן לשנות אותן), ואחר כך מכניסה קבוצה קטנה של משקולות שניתן לאמן במודל. קבוצת המשקלים הניתנים לאימון (שנקראת גם 'מטריצות עדכון') קטנה בהרבה מהמודל הבסיסי, ולכן אימון הקבוצה הזו מהיר הרבה יותר.

היתרונות של LoRA:

  • משפר את איכות החיזויים של המודל עבור הדומיין שבו של הכוונון.
  • התאמה אישית מתבצעת מהר יותר מאשר בשיטות שדורשות התאמה אישית של כל הפרמטרים של המודל.
  • הפחתת העלות החישובית של הסקת מסקנות על ידי הפעלת הצגה בו-זמנית של כמה מודלים מיוחדים שמשתמשים באותו מודל בסיס.

LSTM

#seq

קיצור של זיכרון לטווח ארוך-קצר.

M

למידה חישובית

#fundamentals

תוכנית או מערכת שמאמנים מודל מנתוני הקלט. המודל המאומן יכול לבצע חיזויים שימושיים מנתונים חדשים (שלא נראו בעבר) שנשלפו מאותה חלוקה שבה השתמשו לאימון המודל.

למידת מכונה מתייחסת גם לתחום המחקר המדובר עם התוכנות האלה או המערכות האלה.

מחלקת הרוב

#fundamentals

התווית הנפוצה יותר במערך נתונים עם חוסר איזון בין הקטגוריות. לדוגמה, אם נתונים קבוצת נתונים שמכילה 99% תוויות שליליות ו-1% תוויות חיוביות, התוויות השליליות הן הכיתה הגדולה ביותר.

ניגוד לסיווג מיעוט.

תהליך החלטה של מרקוב (MDP)

#rl

תרשים שמייצג את מודל קבלת ההחלטות שבו החלטות (או פעולות) מתבצעות כדי לנווט ברצף של מצוינת בהנחה נכס מרקוב החזקות. לחשבון למידת חיזוק, המעברים האלה בין מדינות בארה"ב, מחזיר תגמול מספרי.

מאפיין מרקוב

#rl

מאפיין של סביבות מסוימות, שבהן מעברי המצבים נקבעים לחלוטין על סמך מידע שמשתמע מהמצב הנוכחי ומהפעולה של הסוכן.

מודל התממת שפה (MLM)

#language

מודל שפה שחוזה את ההסתברות אסימונים נדרשים כדי למלא את החלקים הריקים ברצף. לדוגמה, מודל שפה מוצפן יכול לחשב את הסבירויות של מילים מועמדות שיכולות להחליף את הקו התחתון במשפט הבא:

ה____ שבכובע חזר.

בדרך כלל נעשה שימוש במחרוזת "MASK" במקום להוסיף קו תחתון. לדוגמה:

ה-"MASK" חזר.

רוב המודלים המודרניים של שפה מתמשכת הם דו-כיווניים.

matplotlib

ספריית Python 2D ליצירת גרפים בקוד פתוח. matplotlib עוזר לכם ליצור תמונות היבטים שונים של למידת מכונה.

פירוק מטריצות

#recsystems

במתמטיקה, מנגנון למציאת המטריצות שמכפלה שלהן קרובה במטריצת היעד.

במערכות המלצות, לרוב ב-target matrix נשמרים הדירוגים של המשתמשים בפריטים. לדוגמה, מטריצת היעד של מערכת המלצות לסרטים עשויה להיראות כך, כאשר המספרים החיוביים הם דירוגי המשתמשים והערך 0 מציין שהמשתמש לא נתן דירוג לסרט:

  קזבלנקה סיפור פילדלפיה הפנתר השחור וונדר וומן Pulp Fiction
משתמש 1 5.0 3.0 0.0 2.0 0.0
משתמש 2 4.0 0.0 0.0 1.0 5.0
משתמש 3 3.0 1.0 4.0 5.0 0.0

מטרת מערכת ההמלצות לסרטים היא לחזות את דירוגי המשתמשים בסרטים ללא דירוג. לדוגמה, האם משתמש 1 יאהב את הפנתר השחור?

אחת מהגישה במערכות של המלצות היא להשתמש במטריצות פירוק לגורמים כדי ליצור את שתי המטריצות הבאות:

לדוגמה, שימוש בפקודת מטריצות עבור שלושת המשתמשים וחמישה פריטים יכולה להניב את מטריצת המשתמשים ומטריצת הפריטים הבאה:

User Matrix                 Item Matrix

1.1   2.3           0.9   0.2   1.4    2.0   1.2
0.6   2.0           1.7   1.2   1.2   -0.1   2.1
2.5   0.5

מכפלת המכונים של מטריצת המשתמשים ומטריצת הפריטים מניבה מטריצת המלצות שמכילה לא רק את הדירוגים המקוריים של המשתמשים, אלא גם תחזיות לגבי הסרטים שכל משתמש לא צפה בהם. לדוגמה, נניח שמשתמש 1 נתן ל-Casablanca דירוג של 5.0. הנקודה של המוצר שתואם לתא הזה במטריצת ההמלצות היא בסביבות 5.0, והיא:

(1.1 * 0.9) + (2.3 * 1.7) = 4.9

וחשוב יותר, האם משתמש 1 יאהב את הפנתר השחור? שימוש במכפלת הנקודות שתואם לשורה הראשונה והעמודה השלישית מניבה דירוג של 4.3:

(1.1 * 1.4) + (2.3 * 1.2) = 4.3

בדרך כלל, גורם המטריצה מניב מטריצה של משתמשים ומטריצה של פריטים, ושניהם יחד קטנים בהרבה מהמטריצה היעד.

שגיאה אבסולוטית ממוצעת (MAE)

האובדן הממוצע לכל דוגמה כאשר הפסד L1 הוא בשימוש. מחשבים את שגיאת שור (MAE) באופן הבא:

  1. חישוב האובדן מסוג L1 של קבוצה.
  2. מחלקים את האובדן L1 במספר הדוגמאות באצווה.

לדוגמה, צריך לקחת בחשבון את החישוב של הפסד L1 ב- הקבוצה הבאה כוללת חמש דוגמאות:

הערך בפועל של הדוגמה הערך החזוי של המודל הפסד (ההפרש בין המצב בפועל לבין החזוי)
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = אובדן L1

לכן, אובדן L1 הוא 8 ומספר הדוגמאות הוא 5. לכן, השגיאה המוחלטת הממוצעת היא:

Mean Absolute Error = L1 loss / Number of Examples
Mean Absolute Error = 8/5 = 1.6

ניגודיות בין הטעות הממוצעת המוחלטת לבין השגיאה הריבובית הממוצעת והשגיאה הריבובית הממוצעת השורשית.

שגיאה בריבוע ממוצע (MSE)

האובדן הממוצע לכל דוגמה כשמשתמשים באובדן 2. חשבו את השגיאה הממוצעת בריבוע באופן הבא:

  1. חישוב אובדן ה-L2 של קבוצה.
  2. מחלקים את האובדן L2 במספר הדוגמאות בקבוצה.

לדוגמה, נניח שמדובר באובדן בקבוצה הבאה של חמש דוגמאות:

ערך בפועל החיזוי של המודל הפסד ריבוע עם הפסדים
7 6 1 1
5 4 1 1
8 11 3 9
4 6 2 4
9 8 1 1
16 = הפסד 2 L

לכן, השגיאה הממוצעת בריבוע היא:

Mean Squared Error = L2 loss / Number of Examples
Mean Squared Error = 16/5 = 3.2

Mean Squared Error הוא שימוש פופולרי באופטימיזציה להדרכה, במיוחד לרגרסיה ליניארית.

ניגוד בין הטעות הריבובית הממוצעת לבין השגיאה המוחלטת הממוצעת והשורש של הטעות הריבובית הממוצעת.

ב-TensorFlow Playground נעשה שימוש ב-Mean Squared Error כדי לחשב את ערכי האובדן.

רשת

#TensorFlow
#GoogleCloud

בתכנות מקבילי של למידת מכונה, מונח שמשויך להקצאת הנתונים והמודל לצ'יפים של TPU, ולהגדרת האופן שבו הערכים האלה יתחלקו למקטעים או ייוצרו מהם רפליקות.

Mesh הוא מונח של עומס יתר שיכול להיות אחת מהאפשרויות הבאות:

  • פריסה פיזית של צ'יפים של TPU.
  • מבנה לוגי מופשט למיפוי הנתונים והמודל לצ'יפים של ה-TPU.

בכל מקרה, רשת מצוינת כצורה.

מטא-למידה

#language

תת-קבוצה של למידת מכונה שמאפשרת לגלות או לשפר אלגוריתם למידה. מערכת למטא-למידה יכולה גם לאמן מודל ללמוד במהירות משימה חדשה מכמות קטנה של נתונים או מהניסיון שנצבר במשימות קודמות. אלגוריתמים של מטא-למידה בדרך כלל מנסים להשיג את המטרות הבאות:

  • לשפר או ללמוד תכונות שפותחו באופן ידני (כמו מאתחלים או אופטימיזציות).
  • ייעול הנתונים וייעול המחשוב.
  • שיפור היכולת להכליל.

מטא-למידה קשורה ללמידה מסוימת (few-shot).

ערך

#TensorFlow

נתון סטטיסטי שחשוב לכם.

יעד הוא מדד שמערכת למידת המכונה מנסה לבצע אופטימיזציה שלו.

Metrics API (tf.metrics)

ממשק API של TensorFlow להערכת מודלים. לדוגמה, הערך של tf.metrics.accuracy קובע באיזו תדירות התחזיות של מודל תואמות לתוויות.

קבוצה קטנה של מודלים

#fundamentals

קבוצת משנה קטנה, שנבחרה באופן אקראי של אצווה שמעובדת איטרציה. גודל האצווה של קבוצת מיני-אצווה הוא בדרך כלל בין 10 ל-1,000 דוגמאות.

לדוגמה, נניח שקבוצת האימון כולה (הקבוצה המלאה) מורכבת מ-1,000 דוגמאות. כמו כן, נניח שהגדרתם את גודל אצווה של כל מיני-אצווה עד 20. לכן, בכל מחזור, המערכת קובעת את האובדן ב-20 דוגמאות אקראיות מתוך 1,000 הדוגמאות, ולאחר מכן משייכת מחדש את המשקלים ואת ההטיות בהתאם.

הרבה יותר יעיל לחשב את האובדן בקבוצה קטנה מאשר את כל הדוגמאות בחבילה המלאה.

ירידה הדרגתית בסגנון מיני-אצווה

אלגוריתם ירידה בגרדינט שמשתמש בקבוצות משנה קטנות. ובמילים אחרות, מיני-אצווה אקראי במגמת ירידה הדרגתית מעריך את ההדרגתיות על סמך קבוצת משנה קטנה של נתוני אימון. בירידה סטוכסטית בגרדינט רגילה נעשה שימוש בקבוצת משנה (mini-batch) בגודל 1.

הפסד של minimax

פונקציית אובדן לרשתות יריבות גנרטיביות, שמבוססת על האנטרופי החוצה בין התפלגות הנתונים שנוצרו לבין הנתונים האמיתיים.

אובדן Minimax משמש במאמר הראשון כדי לתאר רשתות יריבות גנרטיביות.

סיווג מיעוט

#fundamentals

התווית הפחות נפוצה במערך נתונים עם חוסר איזון בין הקטגוריות. לדוגמה, אם מערך נתונים מכיל 99% תוויות שליליות ו-1% תוויות חיוביות, התוויות החיוביות הן קבוצת המיעוט.

בניגוד למחלקת הרוב.

תערובת של מומחים

#language
#generativeAI

סכמה להגדלת היעילות של רשת נוירונים באמצעות באמצעות רק קבוצת משנה של הפרמטרים שלה (שנקראת מומחה) כדי לעבד אסימון או דוגמה נתון. רשת סינון מפנה כל אסימון קלט או דוגמה למומחה המתאים.

פרטים נוספים זמינים במאמרים הבאים:

ML

קיצור של למידת מכונה.

MMIT

#language
#image
#generativeAI

קיצור של multi-modal instructionsd,

MNIST

#image

מערך נתונים בדומיין ציבורי שנאסף על ידי LeCun, Cortes ו-Burges שמכיל 60,000 תמונות, כל תמונה מראה איך בן אדם כתב פריט ספציפי באופן ידני בין 0 ל-9. כל תמונה מאוחסנת כמערך של מספרים שלמים בגודל 28x28, כאשר כל מספר שלם הוא ערך בגווני אפור בין 0 ל-255, כולל.

MNIST הוא מערך נתונים קנוני ללמידת מכונה, שמשמש לעיתים קרובות לבדיקת גישות חדשות ללמידת מכונה. פרטים נוספים זמינים במאמר בסיס הנתונים MNIST של ספרות בכתב יד.

מודל עזר

#language

קטגוריית נתונים ברמה גבוהה. לדוגמה, מספרים, טקסט, תמונות, וידאו של אודיו יש חמש שיטות שונות.

מודל

#fundamentals

באופן כללי, כל מבנה מתמטי שמעבד נתוני קלט ומחזיר פלט. מודל מנוסח באופן שונה. מודל הוא קבוצת הפרמטרים והמבנה שנדרשים למערכת כדי לבצע חיזויים. בלמידת מכונה בפיקוח, שמודל לוקח דוגמה כקלט ומסיק חיזוי כפלט. בתוך למידת המכונה בפיקוח, יש הבדלים מסוימים בין המודלים. לדוגמה:

אפשר לשמור, לשחזר או ליצור עותקים של מודל.

למידת מכונה לא בפיקוח יוצרת מודלים, בדרך כלל פונקציה שיכולה למפות דוגמה לקלט האשכול המתאים ביותר.

קיבולת המודל

המורכבות של הבעיות שהמודל יכול ללמוד. ככל שהמודל יכול ללמוד, כך הקיבולת שלו גבוהה יותר. כתובת ה-URL של מודל בדרך כלל, הקיבולת גדולה יותר ככל שמספר הפרמטרים של המודל גדל. להגדרה הרשמית של קיבולת הסיווג, ראו מאפיין VC.

סדר מדורג

#generativeAI

מערכת שבוחרת את המודל האידיאלי לשאילתת היסק ספציפית.

דמיינו קבוצה של מודלים גדולים מאוד פרמטרים) להרבה יותר קטן (הרבה פחות פרמטרים). מודלים גדולים מאוד צורכים יותר משאבי חישוב הסקת מסקנות לעומת מודלים קטנים יותר. אבל מאוד גדול בדרך כלל יכולים להסיק בקשות מורכבות יותר ממודלים קטנים יותר. הדירוג של מודל קובע את המורכבות של שאילתת ההסקה, ואז בוחר את המודל המתאים לביצוע ההסקה. המניע העיקרי של סידור המודל הוא הפחתת עלויות ההסקה על ידי בוחרים מודלים קטנים יותר, ובוחרים מודל גדול יותר ושאילתות מורכבות.

נניח שמודל קטן פועל בטלפון וגרסה גדולה יותר של אותו מודל פועלת בשרת מרוחק. שדור טוב של מודלים מפחית את העלות ואת זמן האחזור ומאפשרת למודל הקטן לטפל בבקשות פשוטות ולבצע קריאה רק מרחוק לטיפול בבקשות מורכבות.

אפשר לעיין גם במאמר בנושא ניתב מודלים.

מודל מקביל

#language

דרך להתאמה לעומס של אימון או של הסקת מסקנות, שבה חלקים שונים של מודל אחד ממוקמים במכשירים שונים. מקבילות של מודל מאפשר למודלים שגדולים מדי מכדי להתאים למכשיר יחיד.

כדי ליישם מקבילות של מודל, מערכת בדרך כלל מבצעת את הפעולות הבאות:

  1. פיצול (חלקי) של המודל לחלקים קטנים יותר.
  2. מחלק את האימון של החלקים הקטנים האלה בין מספר מעבדים. כל מעבד מאמן את החלק שלו במודל.
  3. משלבת את התוצאות כדי ליצור מודל אחד.

במקביליות של מודל, אימון איטי יותר.

ניתן לראות גם מקבילות של נתונים.

נתב מודל

#generativeAI

האלגוריתם שקובע את המודל האידיאלי להסקת מסקנות בשרשור מודלים. בדרך כלל, ניתב מודלים הוא בעצמו מודל למידת מכונה, שמלמד בהדרגה איך לבחור את המודל הטוב ביותר לקלט נתון. עם זאת, לפעמים נתב מודל יכול להיות אלגוריתם פשוט יותר, ללא למידת מכונה.

אימון מודל

התהליך של קביעת המודל הטוב ביותר.

מומנטום

אלגוריתם מתוחכם של ירידה בגרדינט שבו שלב הלמידה תלוי לא רק בנגזרת בשלב הנוכחי, אלא גם בנגזרות של השלבים שקדמו לו באופן מיידי. המומנטום כולל מחשוב ממוצע נע, משוקלל באופן אקספוננציאלי של ההדרגתיות לאורך זמן, אנלוגי לתנע בפיזיקה. לפעמים המומנטום מונע מהלמידה להיתקע במינימום מקומי.

MOE

#language
#image
#generativeAI

קיצור של תערובת של מומחים.

סיווג לכמה כיתות

#fundamentals

בלמידה מונחית, קיימת בעיית סיווג שבהן מערך הנתונים מכיל יותר משתי מחלקות של תוויות. לדוגמה, התוויות במערך הנתונים של Iris צריכות להיות אחת משלוש הכיתות הבאות:

  • Iris setosa
  • Iris virginica
  • Iris versicolor

מודל שאומן על מערך הנתונים של אירוס, שצופה את סוג האירוס על סמך דוגמאות חדשות הוא לבצע סיווג מרובה-כיתות.

לעומת זאת, בעיות סיווג שמבדילות בין שתי קטגוריות בדיוק הן מודלים של סיווג בינארי. לדוגמה, מודל אימייל שחוזה ספאם או לא ספאם הוא מודל סיווג בינארי.

בבעיות קיבוץ, סיווג מרובה-מחלקות מתייחס שני אשכולות.

רגרסיה לוגיסטית רב-תחומית

שימוש ברגרסיה לוגיסטית בבעיות של סיווג במספר מחלקות.

קשב עצמי עם מספר ראשים

#language

תוספת לתשומת לב עצמית שמפעילה את מנגנון תשומת הלב העצמית כמה פעמים לכל מיקום ברצף הקלט.

טרנספורמרים מאפשרים עכשיו קשב עצמי עם מספר ראשים.

מודל רב-אופני

#language

מודל שהקלט ו/או הפלט שלו כוללים יותר מאפשרות אחת מודל השיוך. לדוגמה, נבחן מודל שמקבל גם תמונה וכיתוב טקסט (בשני שיטות) כתכונות, מפיק ציון שמציין עד כמה כיתוב הטקסט מתאים לתמונה. כך שהקלטים במודל הזה הם רב-אופניים והפלט הוא לא-מודאלי.

התאמה של הוראות למולטי-מודלים

#language

מודל מכוונן לפי הוראות שיכול לעבד קלט מעבר לטקסט, למשל תמונות, וידאו ואודיו.

סיווג פולינומי

שם נרדף לסיווג בכמה מחלקות.

רגרסיה מונומיאלית

מילה נרדפת ל-רגרסיה לוגיסטית מרובת-שכבות.

מולטיטסקינג

טכניקה של למידת מכונה שבה מודל אחד מאומן לבצע כמה משימות.

כדי ליצור מודלים למשימות מרובות, מתבצעת הדרכה על נתונים שמתאימים לכל אחת מהמשימות השונות. כך המודל לומד לשתף מידע בין המשימות, וכך הוא לומד בצורה יעילה יותר.

לרוב, למודל שהוכשרה לו כמה משימות יש יכולות כלליות משופרות, והוא יכול לטפל בצורה יעילה יותר בסוגים שונים של נתונים.

לא

מלכודת NaN

כשמספר אחד במודל הופך ל-NaN במהלך האימון, וכתוצאה מכך רבים מהמספרים האחרים במודל או כולם הופכים בסופו של דבר ל-NaN.

NaN הוא קיצור של Not a N (ב).

הבנת שפה טבעית (NLU)

#language

זיהוי הכוונות של המשתמש על סמך מה שהמשתמש הקליד או אמר. לדוגמה, מנוע חיפוש משתמש בהבנת שפה טבעית (NLP) לקבוע מה המשתמש מחפש על סמך מה שהוא הקליד או אמר.

סיווג שלילי

#fundamentals

בסיווג בינארי, מחלקה אחת מוגדר חיובי, והשני נקרא שלילי. המחלקה החיובית היא הדבר או האירוע שהמודל בודק, והמחלקה השלילית היא האפשרות השנייה. לדוגמה:

  • הכיתה השלילית בבדיקות רפואיות עשויה להיות 'לא גידול'.
  • הסיווג השלילי במסווג אימייל עשוי להיות 'לא ספאם'.

בניגוד לכיתה חיובית.

דגימה שלילית

דגימת מועמדים היא מילה נרדפת.

חיפוש ארכיטקטורה נוירונים (NAS)

טכניקה לעיצוב אוטומטי של הארכיטקטורה של רשת עצבית. אלגוריתמים של NAS יכולים לצמצם את משך הזמן ואת המשאבים הנדרשים לאימון רשת עצבית.

בדרך כלל, ב-NAS נעשה שימוש ב:

  • מרחב חיפוש, שהוא קבוצה של ארכיטקטורות אפשריות.
  • פונקציית כושר, שהיא מדד של לביצוע משימה נתונה במשימה נתונה.

לרוב, אלגוריתמים של NAS מתחילים עם קבוצה קטנה של ארכיטקטורות אפשריות, ומרחיבים בהדרגה את מרחב החיפוש ככל שהאלגוריתם לומד יותר על הארכיטקטורות היעילות. פונקציית הכושר מבוססת בדרך כלל על הביצועים של הארכיטקטורה בקבוצת אימון, והאלגוריתם מאומן בדרך כלל באמצעות טכניקה של למידת חיזוק.

אלגוריתמים של NAS הוכיחו את היעילות שלהם במציאת ארכיטקטורות בעלות ביצועים גבוהים למגוון משימות, כולל סיווג של תמונות, סיווג טקסט ותרגום אוטומטי.

רשת הזרימה קדימה

#fundamentals

מודל שמכיל לפחות שכבה מוסתרת אחת. רשת עצבית עמוקה היא סוג של רשת עצבית שמכילה יותר משכבה אחת מוסתרת. לדוגמה, בתרשים הבא מוצגת רשת עצבית עמוקה שמכילה שתי שכבות חבויות.

רשת עצבית עם שכבת קלט, שתי שכבות גלויות ושכבת פלט.

כל נוירון ברשת נוירונים מתחבר לכל הצמתים בשכבה הבאה. לדוגמה, בתרשים הקודם, שימו לב שכל אחד משלושת הנוירונים בשכבה החבויה הראשונה מחובר בנפרד לשני הנוירונים בשכבה החבויה השנייה.

לפעמים רשתות נוירונים שמוטמעות במחשבים נקראות רשתות נוירונים מלאכותיות כדי להבדיל ביניהן ברשתות נוירונים שנמצאות במוח ובמערכות עצבים אחרות.

חלק מרשתות נוירונליות יכולות לחקות יחסי לא לינאריים מורכבים מאוד בין מאפיינים שונים לבין התווית.

ראו גם רשת עצבית מתקפלת וגם רשת נוירונים חוזרת.

נוירון

#fundamentals

בלמידת מכונה, יחידה נפרדת בשכבה מוסתרת של רשת נוירונים. כל נוירון מבצע את הפעולה הבאה בשני שלבים:

  1. הפונקציה מחשבת את הסכום המשוקלל של ערכי הקלט, כפול המשקלים התואמים שלהם.
  2. מעביר את הסכום המשוקלל כקלט אל פונקציית ההפעלה.

נוירון בשכבה החבויה הראשונה מקבל קלט מערכי המאפיינים בשכבת הקלט. נוירון בכל שכבה נסתרת שמעבר לו הראשון מקבל את הקלט מהנוירונים בשכבה הסמויה הקודמת. לדוגמה, נוירון בשכבה החבויה השנייה מקבל קלט מהנוירונים בשכבה החבויה הראשונה.

באיור הבא מוצגים שני תאי עצב והקלט שלהם.

רשת נוירונים עם שכבת קלט, שתי שכבות נסתרות
          בשכבת פלט. שני תאי עצב מודגשים: אחד בשכבה החבויה הראשונה ואחד בשכבה החבויה השנייה. הנוירון המודגש בשכבה החבויה הראשונה מקבל קלט משני המאפיינים בשכבת הקלט. הנוירון המודגש בשכבה הסמויה השנייה
          מקבל קלט מכל אחד משלושת הנוירונים
          בשכבת זרימת הנתונים.

נוירון ברשת נוירונים מחקה את ההתנהגות של נוירונים במוח ובחלקים אחרים של מערכות העצבים.

N-gram

#seq
#language

רצף סדור של N מילים. לדוגמה, truly madly – 2 גרם. כי נראה רלוונטי, בזהירות! הוא שונה מ-2 גרם באמת בטירוף.

לא שמות של N-gram מהסוג הזה דוגמאות
2 שתי מילים ברצף (bigram) או שתי מילים (2-gram) to go, go to, eat lunch, eat dinner
3 טריגרם או 3 גרם אכלתם יותר מדי, שלושה עכברים עיוורים, האגרות בכביש
4 4 גרם walk in the park, dust in the wind, the boy ate lentils

מודלים רבים של הבנת שפה טבעית מסתמכים על מילוני N-grams כדי לחזות את המילה הבאה שהמשתמש ידפיס או יגיד. לדוגמה, נניח שמשתמש הקליד three blind. מודל NLU שמבוסס על טריגרמים יחזה ככל הנראה המשתמש יקיש את המילה עכברים.

בצעו השוואה בין גרם N עם שקיות מילים, שהן קבוצות של מילים לא מסודרות.

NLU

#language

קיצור של שפה טבעית ההבנה.

צומת (עץ החלטות)

#df

בעץ ההחלטות, כל מצב או עלה.

עץ החלטות עם שני תנאים ושלושה עלים.

צומת (רשת נוירונים)

#fundamentals

נוירון בשכבה מוסתרת.

צומת (תרשים TensorFlow)

#TensorFlow

פעולה בתרשים של TensorFlow.

רעש

באופן כללי, כל דבר שמסתיר את האות במערך נתונים. יש הרבה דרכים שבהן רעש יכול להיכנס לנתונים. לדוגמה:

  • בודקים אנושיים יכולים לטעות בתיוג.
  • אנשים ומכשירים מתעדים ערכים של תכונות באופן שגוי או משמיטים אותם.

תנאי לא בינארי

#df

תנאי שמכיל יותר משתי תוצאות אפשריות. לדוגמה, התנאי הלא בינארי הבא מכיל שלושה מקרים אפשריים תוצאות:

תנאי (number_of_legs = ?) שמוביל לשלוש אפשרויות
          ואת התוצאות שלו. תוצאה אחת (number_of_legs = 8) מובילה לעלה בשם ספיידר. תוצאה שנייה (number_of_legs = 4) מובילה
          עלה שנקרא כלב. תוצאה שלישית (number_of_legs = 2) מובילה עלה בשם penguin.

לא לינארי

#fundamentals

קשר בין שני משתנים או יותר, שלא ניתן לייצג רק באמצעות חיבור ותכונה. אפשר לייצג יחס לינארי כקו, אבל אי אפשר לייצג יחס לא לינארי כקו. לדוגמה, נניח שיש שני מודלים שכל אחד מהם משיייך תכונה אחת לתווית אחת. המודל מצד שמאל הוא ליניארי והמודל מצד ימין הוא לא ליניארי:

שני תרשימים. תרשים אחד הוא קו, כך שמדובר בקשר לינארי.
          התרשים השני הוא עקומה, כך שמדובר ביחס לא לינארי.

הטיה של אי-תגובה

#fairness

ראו הטיה של תהליך הבחירה.

שאינו תחנה

#fundamentals

תכונה שהערכים שלה משתנים במאפיין אחד או יותר, בדרך כלל זמן. לדוגמה, שימו לב לדוגמאות הבאות של מיקום שאינו נייח:

  • מספר בגדי הים שנמכרים בחנות מסוימת משתנה בהתאם לעונה.
  • כמות של פירות מסוימים שקטפו באזור מסוים הוא אפס במשך רוב השנה, אבל הוא גדול לתקופה קצרה.
  • עקב שינויי האקלים, הטמפרטורות השנתיות הממוצעות משתנות.

ניגודיות עם תחנות.

נירמול

#fundamentals

באופן כללי, התהליך של המרת טווח הערכים בפועל של משתנה לטווח ערכים סטנדרטי, כמו:

  • -1 עד +1
  • 0 עד 1
  • דירוגי Z (בערך, -3 עד +3)

לדוגמה, נניח שהטווח בפועל של הערכים של מאפיין מסוים הוא 800 עד 2,400. כחלק מהנדסת תכונות, אפשר לנרמל את הערכים בפועל עד לטווח סטנדרטי, כ-1- ל-+1.

נירמול הוא משימה נפוצה הנדסת תכונות. אימון המודלים בדרך כלל מהיר יותר (ולהפיק חיזויים טובים יותר) כשכל תכונה מספרית לוקטור של המאפיין יש טווח דומה, פחות או יותר.

לעיון בקטע עבודה עם נתונים מספריים מודול של קורס הקריסה בנושא למידת מכונה לפרטים נוספים. אפשר גם לעיין במאמר נירמול של ציון ה-Z.

זיהוי חידושים

התהליך של הקביעה אם דוגמה חדשה (חדשה) מגיעה מאותו של הקהל כקבוצת האימון. במילים אחרות, אחרי באימון של ערכת האימון, זיהוי חדשנות קובע אם מודל חדש (במהלך ההסקה או במהלך אימון נוסף) חריג חשוד טעות.

בניגוד לזיהוי חריגים.

נתונים מספריים

#fundamentals

תכונות שמיוצגות כמספרים שלמים או כמספרים בעלי ערך ממשי. לדוגמה, מודל להערכת ערך של בית ייצג את גודל הבית (במטרים רבועים או בפוט רבועים) כנתונים מספריים. ייצוג מאפיין מסוים כנתונים מספריים מציין שהערכים של התכונה קשר מתמטי לתווית. כלומר, סביר להניח שלמספר המטרות הרבועות בבית יש קשר מתימטי כלשהו לערך הבית.

לא כל נתוני המספרים השלמים צריכים להיות מיוצגים כנתונים מספריים. לדוגמה, בחלקים מסוימים בעולם המיקודים הם מספרים שלמים. עם זאת, מיקוד של מספר שלם קודים לא צריכים להיות מיוצגים כנתונים מספריים במודלים. הסיבה לכך היא המיקוד של 20000 אינו גבוה פי שניים (או חצי) כמו מיקוד של 10000. בנוסף, למרות שמיקודים שונים כן קשורים למיקומים שונים אנחנו לא יכולים להניח שערכי הנדל"ן במיקוד הערך של 20000 יהיה כפול מערכי הנדל"ן במיקוד 10000. במקום זאת, צריך לייצג את המיקוד כנתונים קטגוריאליים.

לפעמים תכונות מספריות נקראות תכונות רציפות.

NumPy

ספריית מתמטיקה בקוד פתוח שמספקת פעולות יעילות של מערכי נתונים ב-Python. pandas מבוססת על NumPy.

O

יעד

מדד שהאלגוריתם מנסה לבצע אופטימיזציה שלו.

פונקציית היעד

הנוסחה המתמטית או המדד שהמודל שואף לבצע אופטימיזציה עבורם. לדוגמה, פונקציית היעד רגרסיה ליניארית היא בדרך כלל הפסד ממוצע בריבוע. לכן, כשאימון של במודל רגרסיה ליניארית, האימון נועד למזער את האובדן הממוצע בריבוע.

במקרים מסוימים, המטרה היא למקסם את פונקציית היעד. לדוגמה, אם פונקציית היעד היא דיוק, היעד כדי לשפר את הדיוק.

ראו גם הפסד.

מצב משופע

#df

בעץ החלטות, תנאי שכולל יותר ממאפיין אחד. לדוגמה, אם הגובה והרוחב הם גם תכונות, אז התנאי הבא הוא תנאי עקיף:

  height > width

השוו בין תנאי יישור לציר.

לא מקוון

#fundamentals

מילה נרדפת ל-static.

הסקת מסקנות אופליין

#fundamentals

התהליך שבו מודל יוצר קבוצה של חיזויים ואז לשמור במטמון (לשמור) את התחזיות האלה. לאחר מכן, האפליקציות יכולות לגשת לחיזוי המשוער מהמטמון במקום להריץ מחדש את המודל.

לדוגמה, נניח שיש מודל שיוצר תחזיות מזג אוויר מקומיות (חיזויים) פעם בארבע שעות. לאחר כל הרצה של מודל, המערכת שומר במטמון את כל תחזיות מזג האוויר המקומיות. אפליקציות מזג אוויר מאחזרות את התחזיות מהמטמון.

הסקת אופליין נקראת גם הסקה סטטית.

השוו בין הסקת מסקנות אונליין.

קידוד one-hot

#fundamentals

ייצוג של נתונים קטגוריים כווקטור שבו:

  • רכיב אחד מוגדר ל-1.
  • כל שאר הרכיבים מוגדרים ל-0.

קידוד חד-פעמי משמש בדרך כלל לייצוג מחרוזות או מזהים יש סט סופי של ערכים אפשריים. לדוגמה, נניח למאפיין קטגורי מסוים בשם Scandinavia יש חמישה ערכים אפשריים:

  • "Denmark"
  • "Sweden"
  • "נורווגיה"
  • "פינלנד"
  • "איסלנד"

קידוד One-hot יכול לייצג כל אחד מחמשת הערכים באופן הבא:

country וקטור
"דנמרק" 1 0 0 0 0
"שוודיה" 0 1 0 0 0
"Norway" 0 0 1 0 0
"פינלנד" 0 0 0 1 0
"איסלנד" 0 0 0 0 1

בזכות קידוד חד-פעמי, המודל יכול ללמוד חיבורים שונים על סמך כל אחת מחמש המדינות.

ייצוג מאפיין כנתונים מספריים הוא חלופה לקידוד one-hot. לצערנו, הצגת המדינות הסקנדינביות באופן מספרי היא לא בחירה טובה. לדוגמה, נבחן את הייצוג המספרי הבא:

  • "דנמרק" הוא 0
  • הערך של 'שוודיה' הוא 1
  • "נורווגיה" הוא 2
  • הערך של 'פינלנד' הוא 3
  • "איסלנד" הוא 4

בהצפנה מספרית, המודל יפרש את המספרים הגולמיים מבחינה מתמטית וינסה להתאמן על המספרים האלה. עם זאת, איסלנד לא גדולה פי שניים (או חצי) בנורווגיה, ולכן המודל יגיע למסקנות מוזרות.

למידה במצב אחד

גישה של למידת מכונה, שמשמשת בדרך כלל לסיווג אובייקטים, שנועד ללמוד מסווגים יעילים מדוגמה אחת לאימון.

אפשר גם לעיין במאמרים בנושא למידה מסוג few-shot ולמידה מסוג zero-shot.

הנחיה חד-פעמית

#language
#generativeAI

הנחיה שמכילה דוגמה אחת שמראה איך מודל השפה הגדול צריך להגיב. לדוגמה, ההנחיה הבאה מכילה דוגמה אחת שמראה למודל שפה גדול איך לענות על שאילתה.

חלקים בהנחיה אחת הערות
מהו המטבע הרשמי של המדינה שצוינה? השאלה שעליה יצטרך לענות ה-LLM.
צרפת: EUR דוגמה אחת.
הודו: השאילתה בפועל.

הנחיה חד-פעמית לעומת המונחים הבאים:

one-vs.-all

#fundamentals

בהינתן בעיית סיווג עם N מחלקות, פתרון שמורכב מ-N סיווגים בינאריים נפרדים – סיווג בינארי אחד לכל תוצאה אפשרית. לדוגמה, אם יש מודל שמסווג דוגמאות כ'חי', 'צומח' או 'מינרל', פתרון של 'אחד מול כולם' יספק את שלושת הסיווגים הבינאריים הנפרדים הבאים:

  • בעל חיים לעומת לא בעל חיים
  • ירק לעומת לא ירק
  • מינרלי לעומת לא מינרלי

online

#fundamentals

דינמית היא מילה נרדפת.

הֶקֵּשׁ אונליין

#fundamentals

יצירת תחזיות על פי דרישה. לדוגמה, נניח שאפליקציה מעבירה קלט למודל ומנפיקה בקשה לחיזוי. מערכת שמשתמשת בהסקה אונליין מגיבה לבקשה על ידי הפעלת המודל (והחזרת החיזוי לאפליקציה).

השוו בין הסקת מסקנות אופליין.

פעולה (תפעול)

#TensorFlow

ב-TensorFlow, כל תהליך שיוצר מבצע מניפולציה או משמיד Tensor. לדוגמה, כפל מטריצות הוא פעולה שמקבלת שני עותקים של Tensor כקלט ויוצרת עותקי Tensor אחד כפלט.

אופטיקס

ספריית עיבוד הדרגתי ואופטימיזציה עבור JAX. Optax מאפשר מחקר על ידי אספקת אבני בניין משולבות בדרכים מותאמות אישית לביצוע אופטימיזציה של מודלים פרמטרים, כמו נוירונים עמוקות. יעדים נוספים כוללים:

  • רכיבים מרכזיים שמופעלים בצורה יעילה, ניתנים לקריאה ונבדקו היטב.
  • שיפור הפרודוקטיביות על ידי האפשרות לשלב רכיבים ברמה נמוכה באופטימיזטורים בהתאמה אישית (או ברכיבים אחרים לעיבוד שיפועים).
  • מאפשרים לכל אחד להשתתף בקלות, וכך מזרזים את אימוץ הרעיונות החדשים.

כלי אופטימיזציה

הטמעה ספציפית של האלגוריתם gradient descent. אופטימיזטורים פופולריים כוללים:

  • AdaGrad, ראשי תיבות של ADAptive GRADient descent (ירידה אדפטיבית בגרדינט).
  • אדם, ראשי תיבות של ADAptive with Momentum.

הטיה של הומוגניות בקבוצה אחרת

#fairness

הנטייה לראות אנשים מחוץ לקבוצה שלכם דומים יותר לאנשים מחוץ לקבוצה שלכם, בהשוואה לאנשים בקבוצה שלכם, כשמשווים בין עמדות, ערכים, מאפייני אישיות ומאפיינים אחרים. בקבוצה מתייחס לאנשים שיש לכם אינטראקציה איתם באופן קבוע, ומחוץ לקבוצה מתייחס לאנשים שאין לכם אינטראקציה איתם באופן קבוע. אם ליצור מערך נתונים ולבקש מאנשים לספק מאפיינים של קבוצות מחוץ לארגון, המאפיינים האלה עשויים להיות פחות ייחודיים וסטריאוטיפים יותר. מאשר מאפיינים שהמשתתפים מציגים לאנשים ששייכים לקבוצה.

לדוגמה, תושבי ליליפוט עשויים לתאר את הבתים של תושבי ליליפוט אחרים בפירוט רב, תוך ציון הבדלים קטנים בסגנונות הארכיטקטוניים, בחלונות, בדלתות ובגדלים. אבל אותם ליליפוטים יכולים פשוט להצהיר תושבי הברובדנגנאים חיים בבתים זהים.

הטיה הומוגנית כלפי חוץ היא סוג של הטיה בשיוך קבוצתי.

למידע נוסף, כדאי לעיין גם בהטיה בתוך הקבוצה.

זיהוי חריגים

תהליך הזיהוי של חריגים חשודי טעות הוגדר אימון.

בניגוד לזיהוי חידושים.

ערכים חריגים

ערכים רחוקים מרוב הערכים האחרים. בלמידת מכונה, כל אחד מהנתונים הבאים נחשב לחריג:

  • נתוני קלט שהערכים שלהם גדולים מ-3 סטיות סטנדרטיות מהממוצע.
  • משקלים עם ערכים מוחלטים גבוהים.
  • הערכים החזויים רחוקים יחסית מהערכים בפועל.

לדוגמה, נניח ש-widget-price היא תכונה של מודל מסוים. מניחים שהממוצע widget-price הוא 7 אירו עם סטיית תקן של אירו אחד. דוגמאות לערך widget-price של 12 אירו או 2 אירו לכן ייחשבו כחריגים, כי כל אחד מהמחירים האלה חמש סטיות תקן מהממוצע.

ערכים חריגים נובעים לעיתים קרובות משגיאות הקלדה או משגיאות אחרות בהזנת נתונים. במקרים אחרים, ערכים חריגים הם לא שגיאות. אחרי הכל, ערכים שחמישה סטיות סטנדרטיות מהממוצע הם נדירים, אבל לא בלתי אפשריים.

חריגות חשודי טעות בדרך כלל גורמים לבעיות באימון המודלים. חיתוך הוא אחת מהשיטות לטיפול בערכים חריגים.

הערכה מחוץ לחבילה (OOB)

#df

מנגנון להערכת האיכות של יער החלטות על ידי בדיקת כל אחד מהם עץ החלטות שעומד מול דוגמאות לא בשימוש הדרכה של עץ ההחלטות הזה. לדוגמה, בתרשים הבא אפשר לראות שהמערכת מאומנת על כל עץ החלטות על סמך כ-2/3 מהדוגמאות, ולאחר מכן מבצעת הערכה על סמך השליש הנותר של הדוגמאות.

יער החלטה שמורכב משלושה עצי החלטה.
          עץ החלטות אחד מתאמן על שני שלישים מהדוגמאות, ואז משתמש בשליש הנותר לצורך הערכה מחוץ למערך (OOB).
          עץ החלטות שני מתאמן על שני שלישים שונים של הדוגמאות לעומת עץ ההחלטות הקודם, ולאחר מכן משתמש בשליש שונה של הדוגמאות להערכה מחוץ למערך (OOB) לעומת עץ ההחלטות הקודם.

הערכה מחוץ לחבילה היא קירוב שמרני ויעיל מבחינה חישובית של מנגנון האימות החוזר. באימות צולב, מודל אחד מאומן לכל סבב של אימות מוצלב (לדוגמה, 10 מודלים מאומנים בתהליך אימות צולב של 10 פעמים). כשמשתמשים בהערכה מחוץ לקופסה, מתבצע אימון של מודל יחיד. מכיוון שה-bagging משאיר חלק מהנתונים מכל עץ במהלך האימון, הערכה מחוץ למערך יכולה להשתמש בנתונים האלה כדי לבצע הערכה קרובה של אימות חוצה.

שכבת הפלט

#fundamentals

משחק הגמר של רשת נוירונים. שכבת הפלט מכילה את החיזוי.

באיור הבא מוצגת רשת נוירונים עמוקה קטנה עם קלט שתי שכבות נסתרות, ושכבת פלט:

רשת עצבית עם שכבת קלט אחת, שתי שכבות סמויות ושכבת פלט אחת. שכבת הקלט מורכבת משתי תכונות. הראשון
          השכבה הנסתרת מורכבת משלושה נוירונים והשכבה השנייה נסתרת
          מורכב משני נוירונים. שכבת הפלט מורכבת מצומת אחד.

התאמת יתר (overfitting)

#fundamentals

יצירת מודל שתואם לנתוני האימון בצורה כה הדוקה, עד שהמודל לא מצליח לבצע חיזויים נכונים על נתונים חדשים.

רגולריזציה יכולה לצמצם את ההתאמה היתרה. גם אימונים על מערך אימונים גדול ומגוון יכול לצמצם את ההתאמה יתר.

דגימה מוגזמת

שימוש חוזר בדוגמאות של הקבוצה הקטנה יותר במערך נתונים עם חוסר איזון בין הקבוצות כדי ליצור קבוצת אימון מאוזנת יותר.

לדוגמה, שימו לב לסיווג בינארי שבה היחס בין סיווג רוב סיווג מיעוט הוא 5,000:1. אם מערך הנתונים מכיל מיליון דוגמאות, אז שמערך הנתונים מכיל רק כ-200 דוגמאות של סיווג מיעוט, להיות מעט מדי דוגמאות לאימון יעיל. כדי להתגבר על הבעיה הזו, אפשר להשתמש שוב ושוב ב-200 הדוגמאות האלה (לעשות 'oversampling'), וכך אולי לקבל מספיק דוגמאות לאימון שימושי.

חשוב להפעיל שיקול דעת לגבי התאמת יתר במקרים הבאים: דגימת יתר.

בניגוד לדגימה חלקית.

P

דחיסת נתונים

גישה לאחסון נתונים בצורה יעילה יותר.

נתונים ארוזים משמשים לאחסון הנתונים באמצעות פורמט דחוס או בפורמט בדרך אחרת שתאפשר לגשת אליו בצורה יעילה יותר. נתונים דחוסים מפחיתים את כמות הזיכרון והחישוב הנדרשים כדי לגשת אליהם, וכך מאפשרים אימון מהיר יותר והסקת מסקנות יעילה יותר מהמודל.

בדרך כלל משתמשים בנתונים ארוזים בשיטות אחרות, כמו הרחבת נתונים, סידור מחדש, לשיפור הביצועים של מודלים.

פנדות

#fundamentals

ממשק API לניתוח נתונים שמתמקד בעמודות, שנבנה על גבי numpy. הרבה מסגרות של למידת מכונה, כולל TensorFlow, תומך במבני נתונים של pandas בתור קלט. לצפייה מסמכי תיעוד של פנדות אפשר לקבל פרטים נוספים.

פרמטר

#fundamentals

המשקולות וההטיות שהמודל לומד במהלך האימון. לדוגמה, במודל רגרסיה ליניארית, הפרמטרים מכילים ההטיה (ב) וכל המשקולות (w1, w2, וכן הלאה) בנוסחה הבאה:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

לעומת זאת, הפרמטרים העל-רמתיים הם הערכים שאתם (או שירות לכוונון הפרמטרים העל-רמתיים) מספקים למודל. לדוגמה, שיעור הלמידה הוא היפר-פרמטר.

כוונון יעיל בפרמטרים

#language
#generativeAI

קבוצה של שיטות לביצוע התאמה אישית של מודל שפה גדול (PLM) שמתאמן מראש בצורה יעילה יותר מביצוע התאמה אישית מלאה. יעיל בפרמטרים כוונון עדין בדרך כלל מצמצם הרבה יותר פרמטרים מאשר כמות מלאה של כוונון עדין, אבל באופן כללי מוביל מודל שפה גדול (LLM) שמבצע וגם (או כמעט באותה מידה) של מודל שפה גדול (LLM) שמבוסס על בכוונון עדין.

השוואה בין כוונון יעיל בפרמטרים לבין:

כוונון יעיל בפרמטרים נקרא גם כוונון יעיל בפרמטרים.

שרת פרמטרים (PS)

#TensorFlow

משימה שמשמשת למעקב אחרי הפרמטרים של מודל בסביבה מבוזרת.

עדכון פרמטר

הפעולה של שינוי הפרמטרים של מודל במהלך האימון, בדרך כלל במהלך חזרה אחת של ירידה בגרדינט.

נגזרת חלקית

נגזרת שבה כל המשתנים מלבד אחד נחשבים לבלתי משתנים. לדוגמה, הפונקציה המצטברת החלקית של f(x, y) ביחס ל-x היא הפונקציה המצטברת של f כפונקציה של x בלבד (כלומר, כש-y קבוע). הנגזרת החלקית של f ביחס ל-x מתמקדת רק איך x משתנה ומתעלם מכל המשתנים האחרים במשוואה.

הטיית השתתפות

#fairness

מונח נרדף לנטייה להימנע מתשובה. מידע נוסף זמין בקטע הטיות בבחירות.

אסטרטגיית חלוקה

האלגוריתם שבאמצעותו ניתן לחלק את המשתנים שרתי פרמטרים.

Pax

מסגרת תכנות שמיועדת לאימון בקנה מידה גדול מודלים של רשת נוירונים כל כך גדולים שהם מתפרשים על פני כמה TPU צ'יפ מהירות פרוסות או Pods.

Pax מבוסס על Flax, שמבוסס על JAX.

תרשים שמראה את המיקום של פקס בסטאק התוכנות.
          Pax מבוסס על JAX. Pax עצמו מורכב משלוש שכבות. השכבה התחתונה מכילה את TensorStore ואת Flax.
          השכבה האמצעית מכילה Optax ו-Flexformer. השכבה העליונה מכילה את Praxis Modeling Library. הכיור מוכן
          מעל פקס.

פרצפטרון

מערכת (חומרה או תוכנה) שמקבלת ערך קלט אחד או יותר, מפעיל פונקציה על הסכום המשוקלל של הקלט, ומחשב בערך הפלט. בלמידת מכונה, הפונקציה בדרך כלל היא לא ליניארית, ReLU, sigmoid או טאן. לדוגמה, ה-perceptron הבא מסתמך על פונקציית ה-sigmoid כדי לעבד שלושה ערכים של קלט:

$$f(x_1, x_2, x_3) = \text{sigmoid}(w_1 x_1 + w_2 x_2 + w_3 x_3)$$

באיור הבא, ה-perceptron מקבל שלושה מקורות קלט, שכל אחד מהם עובר שינוי על ידי משקל לפני שהוא נכנס ל-perceptron:

פרצפטרון שמקבל 3 מקורות קלט, וכל אחד מהם מוכפל בערכים נפרדים של משקלים. הפלט של הפרספטרון הוא ערך יחיד.

פרצפטרון הוא נוירון ברשתות נוירונים.

ביצועים

מונח עמוס מדי עם המשמעויות הבאות:

  • המשמעות הרגילה בהנדסת תוכנה. כלומר: עד כמה התוכנה הזו פועלת במהירות (או ביעילות)?
  • המשמעות בלמידת מכונה. כאן, הביצועים עונים על השאלה הבאה: עד כמה המודל הזה מדויק? כלומר, עד כמה החיזויים של המודל טובים?

חשיבות של משתנה תמורה

#df

סוג של חשיבות משתנה שמעריך את העלייה בשגיאת החיזוי של מודל אחרי שינוי הסדר של הערכים של המאפיין. מדד החשיבות של משתני המערוך הוא מדד שאינו תלוי במודל.

בלבול

אחד המדדים שבהם אפשר לראות באיזו מידה מודל יכול לבצע את המשימה שלו. לדוגמה, נניח שהמשימה שלכם היא לקרוא את האותיות הראשונות של מילה שהמשתמש מקליד במקלדת הטלפון, ולהציע רשימה של מילים אפשריות להשלמה. הערך של Perplexity‏, P, במשימה הזו הוא בערך מספר ההשערות שצריך להציע כדי שהרשימה תכיל את המילה בפועל שהמשתמש מנסה להקליד.

הבלבול קשור לאנtropy חוצה באופן הבא:

$$P= 2^{-\text{cross entropy}}$$

צינור עיבוד נתונים

התשתית שמקיפה אלגוריתם של למידת מכונה. צינור עיבוד נתונים כולל את איסוף הנתונים, הכנסת הנתונים לקובצי נתוני אימון, אימון של מודל אחד או יותר וייצוא המודלים לסביבת הייצור.

צינור עיבוד נתונים

#language

צורה של מקבילות של מודל שבה מודל העיבוד מחולק לשלבים רצופים, וכל שלב מתבצע במכשיר אחר. בזמן ששלב אחד מעבד אצווה אחת, בשלב הבא יכול לפעול באצווה הבאה.

ראו גם הדרכה מדורגת.

pjit

פונקציית JAX שמפצלת קוד שירוץ בין כמה צ'יפים של מאיץ. המשתמש מעביר פונקציה ל-pjit, שמחזירה פונקציה עם סמנטיקה זהה, אבל היא מתורגמת לחישוב XLA שפועל במספר מכשירים (כמו מעבדי GPU או ליבות TPU).

הפיצ'ר pjit מאפשר למשתמשים לפצל את החישובים מבלי לשכתב אותם באמצעות המחיצה של SPMD.

במרץ 2023, הדומיין pjit מוזג עם jit. פרטים נוספים מערכים מבוזרים ומערכים אוטומטיים טעינה במקביל אפשר לקבל פרטים נוספים.

PLM

#language
#generativeAI

קיצור של מודל שפה שעבר אימון מראש.

pmap

פונקציית JAX שמריצה עותקים של פונקציית קלט במספר מכשירי חומרה בסיסיים (מעבדים, מעבדי GPU או TPU), עם ערכי קלט שונים. הפונקציה pmap מסתמכת על SPMD.

policy

#rl

בלמידת חיזוק, מיפוי הסתברותי של סוכן ממצבים לפעולות.

יצירת מאגרים

#image

הקטנת מטריצה (או מטריצה) שנוצרה על ידי השכבה המתקפלת למטריצה קטנה יותר. בדרך כלל, הצבירה כוללת את הערך המקסימלי או הממוצע של האזור המצטבר. לדוגמה, נניח שיש לנו את המטריצה הבאה בגודל 3x3:

מטריצת 3x3 [[5,3,1], [8,2,5], [9,4,3]].

פעולת צבירה, כמו פעולת convolve, מחלקת את המטריצה הזו לפרוסות ואז מחליקה את פעולת ה-convolve לפי strides. לדוגמה, נניח שפעולת המאגר מחלקת את המטריצה המתפתלת לפרוסות בגודל 2x2 צעדים בקצב של 1x1. כפי שמוצג בתרשים הבא, מתבצעות ארבע פעולות של איסוף בקטגוריות. נניח שכל פעולת איסוף בוחרת את הערך המקסימלי מתוך ארבעת הערכים באותו פרוסת זמן:

מטריצת הקלט היא 3x3 עם הערכים: [[5,3,1], [8,2,5], [9,4,3]].
          מטריצה המשנה 2x2 בפינה הימנית העליונה של מטריית הקלט היא [[5,3], [8,2]], כך שפעולת ה-pooling בפינה הימנית העליונה מניבה את הערך 8 (הערך המקסימלי של 5, 3, 8 ו-2). מטריצת המשנה 2x2 בפינה השמאלית העליונה של מטריצת הקלט היא [[3,1], [2,5]], כך שפעולת ה-pooling בפינה השמאלית העליונה מניבה את הערך 5. מטריצת המשנה 2x2 בפינה הימנית התחתונה של מטריצת הקלט היא
          [[8,2], [9,4]], כך שפעולת ה-pooling בפינה הימנית התחתונה מניבה את הערך
          9. מטריצת המשנה 2x2 בפינה השמאלית התחתונה של מטריצת הקלט היא
          [[2,5], [4,3]], כך שפעולת ה-pooling בפינה השמאלית התחתונה מניבה את הערך
          5. לסיכום, פעולת המאגר יוצרת מטריצת 2x2
          [[8,5], [9,5]].

יצירת מאגרים עוזרים לאכוף שונות מתורגמת במטריצת הקלט.

הצבירה של נתונים לאפליקציות ראייה נקראת באופן רשמי צבירה מרחבית. באפליקציות של סדרות זמן, בדרך כלל קוראים לצבירה צבירה זמנית. באופן פחות רשמי, קיבוץ הנתונים נקרא דגימה משנית או הקטנה.

קידוד תלוי מיקום

#language

טכניקה להוספת מידע על המיקום של טוקן ברצף להטמעת הטוקן. מודלים של טרנספורמרים משתמשים לפי מיקום כדי להבין טוב יותר את הקשר בין חלקים שונים של המודל ברצף.

הטמעה נפוצה של קידוד מיקומי מתבססת על פונקציה סינוסית. (באופן ספציפי, התדר והמשרעת של הפונקציה הסינוסאידלית נקבע לפי המיקום של האסימון ברצף.) השיטה הזו שמאפשר למודל טרנספורמר ללמוד לחקור חלקים שונים על סמך המיקום שלהם.

מחלקה חיובית

#fundamentals

הכיתה שעבורה מתבצעת הבדיקה.

לדוגמה, הכיתה החיובית בדגם של סרטן עשויה להיות 'גידול'. הסיווג החיובי במסווג אימייל עשוי להיות 'ספאם'.

השוו בין סיווג שלילי.

עיבוד תמונה (Post Processing)

#fairness
#fundamentals

התאמת הפלט של המודל אחרי הפעלת המודל. אפשר להשתמש בעיבוד נתונים לאחר העיבוד כדי לאכוף אילוצים של הוגנות בלי לשנות את המודלים עצמם.

לדוגמה, ניתן להחיל לאחר עיבוד על מסווג בינארי באמצעות הגדרה של סף סיווג, נשמר שוויון ההזדמנויות לגבי מאפיין מסוים, על ידי בדיקה שהשיעור החיובי האמיתי זהה לכל הערכים של המאפיין.

PR AUC (אזור מתחת לעקומת ה-PR)

שטח במסגרת האינטרפולציה עקומת precision-recall, שמתקבלת בתרשים (אחזור, דיוק) לערכים שונים של סף הסיווג. בהתאם לאופן החישוב, AUC של PR עשוי להיות שווה לרמת הדיוק הממוצעת של המודל.

Praxis

ספריית ליבה של Pax עם ביצועים גבוהים של למידת מכונה. ל-Praxis קוראים לרוב 'ספריית השכבות'.

פרוטוקול Praxis מכיל לא רק את ההגדרות של המחלקה Layer, אלא את רוב גם הרכיבים שתומכים בו, כולל:

ב-Praxis מופיעות ההגדרות של Class Model.

דיוק

מדד למודלים של סיווג שנותן תשובה השאלה הבאה:

כשהמודל חזה את הקלאס החיובי, מהו אחוז התחזיות שהיו נכונות?

זאת הנוסחה:

$$\text{Precision} = \frac{\text{true positives}} {\text{true positives} + \text{false positives}}$$

איפה:

  • המשמעות היא שהמודל חזה נכון את המחלקה החיובית.
  • המשמעות היא שהמודל חזה בטעות את הסיווג החיובי.

לדוגמה, נניח שמודל ביצע 200 חיזויים חיוביים. מתוך 200 התחזיות החיוביות האלה:

  • 150 היו תוצאות חיוביות אמיתיות.
  • 50 מהן היו תוצאות חיוביות כוזבות.

במקרה זה:

$$\text{Precision} = \frac{\text{150}} {\text{150} + \text{50}} = 0.75$$

בניגוד לדיוק ולזיהוי.

מידע נוסף זמין במאמר סיווג: דיוק, זיכרון, רמת דיוק ומדדים קשורים.

עקומה מדויקת

עקומה של דיוק לעומת רמת זיהוי בסף סיווג שונה.

חיזוי (prediction)

#fundamentals

הפלט של המודל. לדוגמה:

  • החיזוי של מודל סיווג בינארי הוא הערך החיובי או את המחלקה השלילית.
  • החיזוי של מודל סיווג מרובה מחלקות הוא מחלקה אחת.
  • התחזית של מודל רגרסיה לינארית היא מספר.

הטיית חיזוי

ערך שמציין את המרחק בין הממוצע של התחזיות לבין הממוצע של התוויות במערך הנתונים.

חשוב לא להתבלבל עם מונח ההטיה במודלים של למידת מכונה, או עם הטיה מבחינה אתית וצודקת.

למידת מכונה חזויה

כל מערכת רגילה ('קלאסית') של למידת מכונה.

למונח למידת מכונה חזויה אין הגדרה רשמית. המונח הזה מתייחס לקטגוריה של מערכות למידת מכונה שלא מבוססות על בינה מלאכותית גנרטיבית.

שוויון חזוי

#fairness

מדד הוגנות שבודק אם: עבור מסווג נתון, שיעורי הדיוק שהם שוות-ערך לקבוצות משנה שנמצאות בבדיקה.

לדוגמה, מודל שחוזה קבלת תואר שוויון חזוי ללאום אם שיעור הדיוק שלו זהה למען ליליפוטים וברודינגנגים.

'התאמה חזותית חזותית' נקראת לפעמים גם התאמה חזותית חזותית.

לסקירה מפורטת יותר על שוויון חיזוי, אפשר לעיין בקטע הסבר על הגדרות של הוגנות (סעיף 3.2.1).

שוויון שיעורי חזוי

#fairness

שם נוסף לתאימות חזוי.

עיבוד מראש

#fairness
הנתונים עוברים עיבוד לפני שמשתמשים בהם לאימון מודל. עיבוד מקדים יכול להיות פשוט כמו הסרת מילים ממאגר טקסט באנגלית שלא מופיעות במילון האנגלי, או מורכב כמו ביטוי מחדש של נקודות נתונים באופן שמבטל כמה שיותר מאפיינים שיש להם מתאם עם מאפיינים רגישים. עיבוד מקדים יכול לעזור לעמוד באילוצים של הוגנות.

מודל שעבר אימון מראש

#language
#image
#generativeAI

מודלים או רכיבי מודלים (כמו וקטור הטמעה) שכבר אומנו. לפעמים תזינו וקטורים של הטמעה שאומנו מראש לתוך רשת נוירונים. במקרים אחרים, המודל יאמן את של ההטמעה עצמה, במקום להסתמך על ההטמעות שאומנו מראש.

המונח מודל שפה שעבר אימון מראש מתייחס למודל שפה גדול שעבר אימון מראש.

אימון מקדים

#language
#image
#generativeAI

אימון ראשוני של מודל על מערך נתונים גדול. חלק מהמודלים שהוכשרו מראש הם 'ענקים גמלוניים', ובדרך כלל צריך לשפר אותם באמצעות אימון נוסף. לדוגמה, מומחי למידת מכונה עשויים לאמן מראש מודל שפה גדול על מערך נתונים עצום של טקסט, כמו כל הדפים באנגלית בוויקיפדיה. לאחר אימון מראש, של המודל שנוצר, ניתן לחדד עוד יותר באמצעות שיטות:

אמונה קודמת

מה אתם חושבים על הנתונים לפני שמתחילים לאמן אותם. לדוגמה, תיקון רגולרי מסוג L2 מבוסס על ההנחה המוקדמת שהמשקלים צריכים להיות קטנים ועם התפלגות נורמלית סביב אפס.

מודל רגרסיה הסתברותי

מודל רגרסיה שמשתמש לא רק במשקלים של כל מאפיין, אלא גם בערפל הנתונים של המשקלים האלה. מודל רגרסיה הסתברותי יוצר חיזוי מסוים ואי-הוודאות של החיזוי הזה. לדוגמה, מודל רגרסיה פרובאבילסטית עשוי להניב תחזית של 325 עם סטיית תקן של 12. למידע נוסף על רגרסיה הסתברותית ראו את המאמר Colab tensorflow.org.

פונקציית צפיפות ההסתברות

פונקציה שמזהה את התדירות של דגימות נתונים שיש להן בדיוק ערך מסוים. כשהערכים של מערך נתונים הם מספרים רציפים של נקודה צפה, התאמות מדויקות מתרחשות לעיתים רחוקות. עם זאת, אינטגרציה של פונקציית צפיפות ההסתברות מהערך x לערך y מניבה את התדירות הצפויה של דגימות הנתונים בין x ל-y.

לדוגמה, נניח התפלגות נורמלית עם ממוצע של 200 וסטיית תקן של 30. כדי לקבוע את התדירות הצפויה של דגימות נתונים שנמצאות בטווח 211.4 עד 218.7, אפשר לשלב את פונקציית הצפיפות של ההסתברות להתפלגות נורמלית מ-211.4 עד 218.7.

הנחיה

#language
#generativeAI

כל טקסט שהוזן כקלט למודל שפה גדול (LLM) כדי להתנות את המודל כך שיתנהג באופן מסוים. ההנחיות יכולות להיות קצרות כמו ביטוי או ארוכות ככל הצורך (לדוגמה, כל הטקסט של רומן). ההנחיות מחולקות לכמה קטגוריות, כולל אלה שמפורטות בטבלה הבאה:

קטגוריית ההנחיות דוגמה הערות
שאלה מה המהירות של יונה?
הוראות כתיבת שיר מצחיק על מיקסום רווחים. הנחיה שמבקשת ממודל השפה הגדול לבצע משהו.
דוגמה תרגום קוד Markdown ל-HTML. מוצרים לדוגמה:
Markdown: * פריט ברשימה
HTML: <ul> <li>פריט ברשימה</li> &lt;/ul&gt;
המשפט הראשון בהנחיה הזו הוא הוראה. שאר ההנחיה היא דוגמה.
התפקיד להסביר למה ירידה הדרגתית משמשת באימון של למידת מכונה כדי דוקטור בפיזיקה. החלק הראשון של המשפט הוא הוראה. את הביטוי "לתואר דוקטור בפיזיקה" הוא החלק של התפקיד.
קלט חלקי שיש למודל כדי להשלים אותו ראש ממשלת בריטניה מתגורר בכתובת הנחיה חלקית להזנת קלט יכולה להסתיים באופן פתאומי (כמו בדוגמה הזו) או להסתיים בקו תחתון.

מודל בינה מלאכותית גנרטיבית יכול לתת תשובות להנחיה באמצעות טקסט, קוד, תמונות, הטמעות, סרטונים... כמעט הכול.

למידה מבוססת-הנחיה

#language
#generativeAI

יכולת של מודלים מסוימים שמאפשרת להם להתאים את ההתנהגות שלהם בתגובה לקלט טקסט שרירותי (הנחיות). בפרדיגמה רגילה של למידה מבוססת-הנחיה, מודל שפה גדול מגיב להנחיה על ידי יצירת טקסט. לדוגמה, נניח שמשתמש מזין את ההנחיה הבאה:

סכם את חוק התנועה השלישי של ניוטון.

מודל שיכול ללמוד על סמך הנחיות לא עובר אימון ספציפי כדי לענות על ההנחיה הקודמת. במקום זאת, המודל 'יודע' הרבה עובדות על פיזיקה, הרבה על כללי שפה כלליים והרבה על מה שמרכיב תשובות שימושיות באופן כללי. הידע הזה מספיק כדי לספק תשובה. משוב אנושי נוסף ("התשובה הזו הייתה מורכבת מדי". או "מהי תגובה?") מאפשר למערכות למידה מסוימות שמבוססות על הנחיות לשפר את התועלת של התשובות שלהם.

עיצוב הנחיות

#language
#generativeAI

מילה נרדפת להנדסת הנחיות.

הנדסת הנחיות

#language
#generativeAI

האמנות של יצירת הנחיות שמניבות את התשובות הרצויות ממודל שפה גדול. בני אדם מבצעים הנחיות של טרנספורמר. כתיבת הנחיות עם מבנה טוב היא חלק חיוני כדי לקבל תשובות מועילות ממודל שפה גדול. הנדסת פרומפטים תלויה גורמים רבים, כולל:

צפייה מבוא לעיצוב הנחיות אפשר לקבל פרטים נוספים על כתיבת הנחיות מועילות.

עיצוב הנחיות הוא מונח נרדף להנדסת הנחיות.

כוונון של הנחיות

#language
#generativeAI

מנגנון כוונון יעיל בפרמטרים שלומדת 'קידומת' שהמערכת מוסיפה הנחיה בפועל.

וריאציה אחת של כוונון של הנחיות, שלפעמים נקראת כוונון קידומת, היא להוסיף את התחילית כל שכבה. לעומת זאת, רוב ההתאמות של ההנחיות מוסיפות רק קידומת לשכבת הקלט.

תוויות לשרת proxy

#fundamentals

נתונים שמשמשים ליצירת ערכים משוערים של תוויות שלא זמינות באופן ישיר במערך נתונים.

לדוגמה, נניח שאתם צריכים לאמן מודל כדי לחזות את רמת הלחץ של העובדים. מערך הנתונים מכיל הרבה תכונות חיזוי, לא מכיל תווית בשם רמת מתח. לא מתייאשים ובוחרים ב'תאונות במקום העבודה' בתור תווית עקיפה לרמת הלחץ. אחרי הכל, עובדים שנמצאים במצב של לחץ גבוה מעורבים ביות יותר תאונות מאשר עובדים רגועים. או שמא לא? אולי תאונות במקום העבודה עולה ונופלות מסיבות שונות.

דוגמה שנייה: נניח שרוצים שהתוויות is it raining? יהיו תוויות בוליאניות של מערך הנתונים, אבל מערך הנתונים לא מכיל נתוני גשם. אם יש לכם תמונות זמינות, תוכלו להגדיר תמונות של אנשים עם מטריות כתוויות חלופיות לשאלה is it raining? האם זה קורה? תווית טובה של שרת proxy? יכול להיות, אבל יכול להיות שאנשים בתרבויות מסוימות נוטים יותר לשאת מטרייה כדי להגן מפני השמש מאשר מפני הגשם.

תוויות proxy הן לעיתים קרובות שגויות. במידת האפשר, כדאי לבחור בתוויות אמיתיות במקום בתוויות proxy. עם זאת, אם אין תווית בפועל, צריך לבחור את שרת ה-proxy בקפידה, לבחור את התווית הכי פחות גרועה של שרת proxy.

שרת proxy (מאפיינים רגישים)

#fairness
מאפיין שמשמש כמעמד של מאפיין רגיש. לדוגמה, המיקוד של אדם פרטי עשוי לשמש כביטוי להכנסה שלו, גזע או מוצא אתני.

פונקציה טהורה

פונקציה שהפלט שלה מבוסס רק על הקלט שלה, ואין לה צד באפקטים מיוחדים. וספציפית, פונקציה טהורה לא משתמשת ולא משנה מצב גלובלי כלשהו, כמו התוכן של קובץ או הערך של משתנה מחוץ לפונקציה.

אפשר להשתמש בפונקציות טומות כדי ליצור קוד שלא בטוח לשרשורים, וזה שימושי במהלך פיצול של קוד המודל צ'יפים של מאיץ.

שיטות הטרנספורמציה של פונקציות ב-JAX מחייבות שפונקציות הקלט יהיו פונקציות טהורות.

Q

פונקציית Q

#rl

בלמידת חיזוק, הפונקציה החיזוי של ההחזר הצפוי פעולה בתוך מצב ואז לפעול בהתאם למדיניות מסוימת.

פונקציית Q נקראת גם פונקציית ערך של מצב-פעולה.

למידת Q

#rl

בלמידת חיזוק, אלגוריתם שמאפשר לסוכן ללמוד את פונקציית ה-Q האופטימלית של תהליך החלטה של מרקוב על ידי החלת המשוואה של בלמן. תהליך קבלת ההחלטות של מרקוב מייצג סביבה.

quantile

כל קטגוריה בקטגוריות כמותיות.

חלוקה לקטגוריות לפי רמת ריכוז (quantile)

חלוקת הערכים של מאפיין לקטגוריות, כך שכל קטגוריה מכילה את אותו מספר דוגמאות (או כמעט אותו מספר). לדוגמה, באיור הבא 44 הנקודות מחולקות ל-4 קטגוריות, כל אחת מכילה 11 נקודות. כדי שכל קטגוריה בתרשים תכיל את אותו מספר נקודות, חלק מהקטגוריות מכסות רוחב שונה של ערכי x.

44 נקודות על הגרף מחולק ל-4 קטגוריות של 11 נקודות כל אחת.
          למרות שכל קטגוריה מכילה אותו מספר של נקודות נתונים,
          חלק מהקטגוריות מכילות טווח רחב יותר של ערכי מאפיינים מאשר בקטגוריות אחרות
          קטגוריות.

כימות

מונח בעומס יתר שניתן להשתמש בו בכל אחת מהדרכים הבאות:

  • הטמעה של חלוקה של קטגוריות כמותיות לגבי תכונה מסוימת.
  • טרנספורמציה של נתונים לאפסים ואחדים כדי לאפשר אחסון, אימון והסקה מהירים יותר. נתונים בוליאנים עמידים יותר בפני רעש ושגיאות בהשוואה לפורמטים אחרים, ולכן קידוד מדויק יכול לשפר את תקינות המודל. שיטות קונטיינר כוללות עיגול, חיתוך ו binning
  • הפחתת מספר הביטים שמשמשים לאחסון של המודל parameters. לדוגמה, נניח שהפרמטרים של מודל מאוחסנים בתור מספרים עם נקודה צפה (floating-point) של 32 ביט. במסגרת הקידוד, המערכת ממירה את הפרמטרים האלה מ-32 ביט ל-4, 8 או 16 ביט. בעזרת הקידוד אפשר לצמצם את הנתונים הבאים:

    • שימוש במחשוב, בזיכרון, בדיסק וברשת
    • זמן להסיק חיזוי
    • צריכת חשמל

    אבל לפעמים, כימתון מפחית את הנכונות של מודל ויצירת חיזויים.

רשימת סרטונים

#TensorFlow

פעולה ב-TensorFlow שמטמיעה מבנה נתונים של תור. בדרך כלל משתמשים בהם ב-I/O.

R

RAG

#fundamentals

קיצור של יצירה משופרת של אחזור.

יער אקראי

#df

שילוב של עצי החלטה בתוך שכל עץ החלטות אומן לפי רעש אקראי ספציפי, כמו כבודה.

יערות אקראיים הם סוג של יער החלטות.

מדיניות אקראית

#rl

בלמידת חיזוק, מדיניות שבוחרת פעולה באופן אקראי.

דירוג

סוג של למידה מונחית שמטרתו למיין רשימה של פריטים.

דירוג (רגיל)

המיקום הסידורי של כיתה בבעיה של למידת מכונה, שמסווגת את הכיתות מהגבוהה לנמוכה. לדוגמה, דירוג התנהגות המערכת יכולה לדרג את הפרסים של הכלב מהדירוג הגבוה ביותר (סטייק) הכי נמוכה (קייל קמל).

rank (Tensor)

#TensorFlow

מספר המאפיינים בTensor. לדוגמה, לסקלר יש דירוג 0, לווקטור יש דירוג 1 ולמטריצה יש דירוג 2.

לא להתבלבל עם דירוג (סדר).

דירוג

#fundamentals

אדם שמספק תוויות לדוגמאות. 'משתמש שמורשה להוסיף הערות' הוא שם נוסף של מדרג.

recall

מדד למודלים של סיווג שנותן תשובה השאלה הבאה:

כשהעובדות האמיתיות היו הקלאס החיובי, מה אחוז התחזיות שהמודל זיהה כקלאס החיובי בצורה נכונה?

זו הנוסחה:

\[\text{Recall} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}} \]

איפה:

  • 'חיובי נכון' פירושו שהמודל חזה בצורה נכונה את הכיתה החיובית.
  • תוצאה שלילית שגויה (false negative) פירושה שהמודל בטעות חזה את הקטגוריה השלילית.

לדוגמה, נניח שהמודל שלכם ביצע 200 תחזיות לגבי דוגמאות שבהן האמת בפועל הייתה הכיתה החיובית. מתוך 200 התחזיות האלה:

  • 180 מהן היו תוצאות חיוביות אמיתיות.
  • 20 היו שליליות כוזבות.

במקרה זה:

\[\text{Recall} = \frac{\text{180}} {\text{180} + \text{20}} = 0.9 \]

למידע נוסף, ניתן לעיין בקטע סיווג: דיוק, ריקול, דיוק ונושאים קשורים מדדים אפשר לקבל מידע נוסף.

מערכת המלצות

#recsystems

מערכת שבוחרת לכל משתמש קבוצה קטנה יחסית של פריטים רצויים מתוך מאגר גדול. לדוגמה, מערכת המלצות לסרטונים עשויה להמליץ על שני סרטונים מתוך מאגר של 100,000 סרטונים, ולבחור את הסרטים קזבלנקה והסיפור על פילדלפיה למשתמש אחד, ואת הסרטים וונדר וומן והפנתר השחור למשתמש אחר. מערכת המלצות על סרטונים עשויה מבססת את ההמלצות שלו על גורמים כמו:

  • סרטים שמשתמשים דומים דירגו או צפו בהם.
  • ז'אנר, במאים, שחקנים, דמוגרפיית יעד...

יחידה לינארית מתוקנת (ReLU)

#fundamentals

פונקציית הפעלה עם ההתנהגות הבאה:

  • אם הקלט הוא שלילי או אפס, הפלט הוא 0.
  • אם הקלט חיובי, הפלט שווה לקלט.

לדוגמה:

  • אם הקלט הוא -3, הפלט הוא 0.
  • אם הקלט הוא +3, הפלט הוא 3.0.

הנה עלילה של ReLU:

תרשים קרטוזי של שתי שורות. בשורה הראשונה יש קבוע
          y של 0, לאורך ציר ה-X מ--infity,0 עד 0,-0.
          השורה השנייה מתחילה ב-0.0. לשיפוע של הקו הזה יש ערך +1, ולכן הוא עובר מ-0,0 ל-+infinity,+infinity.

ReLU היא פונקציית הפעלה פופולרית מאוד. למרות ההתנהגות הפשוטה שלו, ReLU עדיין מאפשר לרשת עצבית ללמוד קשרים לא לינאריים בין המאפיינים לבין התוויות.

רשת נוירונים חוזרת

#seq

רשת נוירונים שמופעלת בכוונה כמה פעמים, כאשר חלקים מכל הפעלה מועברים להפעלה הבאה. באופן ספציפי, שכבות חבויות מהרצה הקודמת מספקות חלק מהקלט לאותה שכבה מוסתרת ברצפה הבאה. רשתות נוירונים חוזרות שימושיות במיוחד להערכת רצפים, כך שהשכבות המוסתרות יכולות ללמוד מפעולות קודמות של רשת העצבים בחלקים קודמים של הרצף.

לדוגמה, האיור הבא מציג רשת נוירונים חוזרת פועל ארבע פעמים. שימו לב שהערכים שנלמדו בשכבות המוסתרות מההרצה הראשונה הופכים לחלק מהקלט של אותן שכבות מוסתרות בהרצה השנייה. באופן דומה, הערכים שנלמדו בשכבה הסמויה הופכת לחלק מהקלט לאותה שכבה נסתרת בהפעלה השלישית. כך, רשת העצבים הרגולרית מתאמנת בהדרגה ומנבאת את המשמעות של הרצף כולו, ולא רק את המשמעות של מילים בודדות.

רשת נוירונים חוזרת (RNN) שרצה ארבע פעמים כדי לעבד ארבע מילות קלט.

מודל רגרסיה

#fundamentals

באופן לא רשמי, מודל שיוצר חיזוי מספרי. (לעומת זאת, מודל סיווג יוצר חיזוי של סיווג). לדוגמה, אלה כל המודלים של הרגרסיה:

  • מודל שמתאר את הערך של בית מסוים, למשל 423,000 אירו.
  • מודל שחוזה את תוחלת החיים של עץ מסוים, למשל 23.2 שנים.
  • מודל לחיזוי כמות הגשם שתרד בעיר מסוימת במהלך שש השעות הקרובות, למשל 0.18 אינץ'.

שני סוגים נפוצים של מודלים של רגרסיה הם:

לא כל מודל שמפיק חיזויים מספריים הוא מודל רגרסיה. במקרים מסוימים, חיזוי מספרי הוא רק מודל סיווג במקרה שיש שמות מחלקות מספריים. לדוגמה, מודל שחוזה מיקוד מספרי הוא מודל סיווג, ולא מודל רגרסיה.

רגולריזציה (regularization)

#fundamentals

כל מנגנון שמפחית התאמה יתר. דוגמאות לסוגים נפוצים של רגולריזציה:

אפשר גם להגדיר רגולריזציה כעונש על המורכבות של מודל.

שיעור הרגולריזציה

#fundamentals

מספר שמציין את החשיבות היחסית של ארגון במהלך האימון. הגדלת שיעור הרגולריזציה מפחיתה את התאמה יתר, אבל עשויה לצמצם את יכולת החיזוי של המודל. לעומת זאת, הפחתה או השמטה של שיעור הרגיליזציה מגדילה את ההתאמה היתרה.

למידת חיזוק (RL)

#rl

משפחה של אלגוריתמים שמלמדים מדיניות אופטימלית, שמטרתה למקסם את התשואה במהלך אינטראקציה עם סביבה. לדוגמה: הפרס האולטימטיבי ברוב המשחקים הוא ניצחון. מערכות של למידת חיזוק יכולות להפוך למומחות במשחקים מורכבים על ידי הערכת רצפים של מהלכים קודמים במשחק שהובילו בסופו של דבר לניצחונות, ורצפים שהובילו בסופו של דבר להפסדים.

למידה חיזוקים ממשוב אנושי (RLHF)

#generativeAI
#rl

שימוש במשוב מדירוגים אנושיים כדי לשפר את איכות התשובות של מודל. לדוגמה, מנגנון RLHF יכול לבקש מהמשתמשים לדרג את האיכות של התשובה של המודל באמצעות אמוג'י 👍 או 👎. לאחר מכן, המערכת תוכל לשנות את התשובות שלה בעתיד על סמך המשוב הזה.

ReLU

#fundamentals

קיצור של יחידה לינארית מתוקנת.

הפעלה מחדש של מאגר נתונים זמני

#rl

באלגוריתמים דמויי DQN, הזיכרון שבו משתמש הסוכן לאחסן מעברים בין מצבים, לשימוש הפעלה מחדש של החוויה.

רפליקה

עותק של קבוצת האימון או המודל, בדרך כלל במכונה אחרת. לדוגמה, מערכת יכולה להשתמש באסטרטגיה הבאה להטמעת מקבילות נתונים:

  1. הצבת רפליקות של מודל קיים במספר מכונות.
  2. לשלוח קבוצות משנה שונות של האימון לכל רפליקה.
  3. צבירת העדכונים של הפרמטר.

הטיה בדיווח

#fairness

העובדה שהתדירות שבה אנשים כותבים על פעולות, תוצאות או מאפיינים אינם משקפים את העולם האמיתי שלהם תדרים או מידת המאפיין של נכס של קבוצה של אנשים פרטיים. הטיה בדיווח על נתונים יכולה להשפיע על ההרכב של הנתונים שמערכות למידת המכונה לומדות מהם.

לדוגמה, בספרים המילה צחק נפוצה יותר מהמילה נשם. מודל למידת מכונה שמעריך את התדירות היחסית צחוק ונשימה מתוך אוסף ספרים כנראה יקבעו שצחוק יותר נפוץ מנשימה.

בווקטור יהיה זהה,

תהליך המיפוי של נתונים לתכונות מועילות.

דירוג מחדש

#recsystems

השלב האחרון של מערכת המלצות, במהלך התקופה הזו, פריטים שקיבלו ציון עשויים לקבל ציון מחדש בהתאם אלגוריתם (בדרך כלל לא למידת מכונה). במסגרת הדירוג מחדש, המערכת מבצעת הערכה של רשימת הפריטים שנוצרה בשלב הניקוד, ומבצעת פעולות כמו:

  • הסרת פריטים שהמשתמש כבר רכש.
  • העלאת הדירוג של פריטים חדשים יותר.

יצירת מודלים באמצעות שיפור אחזור (RAG)

#fundamentals

שיטה לשיפור האיכות של פלט של מודל שפה גדול (LLM) על ידי הבססת מקורות מידע שאוחזרו אחרי אימון המודל. RAG משפר את רמת הדיוק של תשובות LLM, כי הוא מספק ל-LLM המאומן גישה למידע שאוחזר ממאגרי ידע או ממסמכים מהימנים.

בין הסיבות הנפוצות לשימוש ביצירה עם שיפור אחזור:

  • שיפור הדיוק העובדתי בתשובות שנוצרות למודל.
  • לתת למודל גישה לידע שהוא לא אומן לפיו.
  • שינוי הידע שבו המודל משתמש.
  • מתן אפשרות למודל לצטט מקורות.

לדוגמה, נניח שאפליקציה לכימיה משתמשת ב-PaLM API ליצירת סיכומים שקשורות לשאילתות של משתמשים. כשהקצה העורפי של האפליקציה מקבל שאילתה, הקצה העורפי:

  1. חיפוש נתונים ('מאחזרים') שרלוונטיים לשאילתת המשתמש.
  2. מצרף ('שיפורים') את הנתונים הכימיים הרלוונטיים לשאילתת המשתמש.
  3. ההוראה הזו מורה ל-LLM ליצור סיכום על סמך הנתונים שצורפו.

שורה חדשה

#rl

בלמידת חיזוק, בהינתן מדיניות מסוימת ומצב מסוים, Return הוא הסכום של כל התגמולים שהסוכן צפויה לקבל לאחר ציות למדיניות המצב עד סוף הפרק. כדי להביא בחשבון את העיכוב הטבעי בתגמולים הצפויים, הסוכן מפחית את התגמולים בהתאם למעברי המצב הנדרשים כדי לקבל את התגמול.

לכן, אם גורם ההנחה הוא \(\gamma\), ו- \(r_0, \ldots, r_{N}\)מציין את התגמולים עד סוף הפרק, חישוב התשואה הוא:

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

הטבה

#rl

בלמידת חיזוקים, התוצאה המספרית של ביצוע פעולה במצב, כפי שהיא מוגדרת על ידי הסביבה.

התבססות על רכסים

מילה נרדפת לרגולריזציה של L2. המונח רגולריזציה של רידג' משמשת לעיתים קרובות יותר בנתונים סטטיסטיים מובהקים בהקשרים שונים, ואילו שימוש תדיר יותר ב-L2regularization בלמידת מכונה.

RNN

#seq

ראשי תיבות של רשתות נוירונים חוזרות.

עקומת ROC (מאפיין הפעלה של מקלט)

#fundamentals

תרשים של שיעור תוצאות חיוביות אמיתיות לעומת שיעור תוצאות חיוביות שקריות לסף סיווג שונה בסיווג בינארי.

הצורה של עקומת ROC מרמזת על היכולת של מודל סיווג בינארי כדי להפריד בין סיווגים חיוביים לסיווגים שליליים. נניח, לדוגמה, שמודל סיווג בינארי מפריד בצורה מושלמת בין כל הכיתות השליליות לכל הכיתות החיוביות:

קו מספרים עם 8 דוגמאות חיוביות בצד שמאל ו-7 דוגמאות שליליות בצד ימין.

עקומת ROC של המודל הקודם נראית כך:

עקומת ROC. ציר ה-x הוא שיעור התוצאות החיוביות הכוזבות וציר ה-y הוא שיעור התוצאות החיוביות האמיתיות. העקומה היא בצורת L הפוכה. העקומה מתחילה ב-(0.0,0.0) ועולה ישר ל-(0.0,1.0). לאחר מכן, העקומה עוברת מ-(0.0,1.0) אל (1.0,1.0).

לעומת זאת, באיור הבא מוצגת הרגרסיה הלוגיסטית הגולמית. עבור מודל גרוע שאינו יכול להפריד בין סיווגים שליליים דירוגים חיוביים בכלל:

קו מספרים עם דוגמאות חיוביות וקטגוריות שליליות שמעורבבות זו בזו.

עקומת ה-ROC של המודל הזה נראית כך:

עקומת ROC, שהיא למעשה קו ישר מ-(0.0,0.0)
          עד (1.0,1.0).

בינתיים, בעולם האמיתי, רוב המודלים של סיווג בינארי מפרידים בין כיתות חיוביות ושליליות במידה מסוימת, אבל בדרך כלל לא באופן מושלם. לכן, עקומת ROC אופיינית נמצאת איפשהו בין שני הקצוות:

עקומת ROC. ציר ה-x הוא שיעור התוצאות החיוביות הכוזבות וציר ה-y הוא שיעור התוצאות החיוביות האמיתיות. עקומת ה-ROC מתקרבת לקשת רועשת
          לחצות את נקודות המצפן ממערב לצפון.

הנקודה בגרף ROC הקרובה ביותר ל-(0.0,1.0) מזהה באופן תיאורטי את סף הסיווג האידיאלי. עם זאת, יש כמה בעיות אחרות בעולם האמיתי שמשפיעות על הבחירה של סף הסיווג האידיאלי. לדוגמה, אולי תוצאות שליליות כוזבות גורמות הרבה יותר כאב מאשר תוצאות חיוביות מוטעות.

מדד מספרי שנקרא AUC מסכם את עקומת ה-ROC בערך יחיד של נקודה צפה.

הצגת הנחיות לגבי התפקיד

#language
#generativeAI

חלק אופציונלי בהנחיה שמזהה קהל יעד לתשובה מהמודל בינה מלאכותית גנרטיבית. ללא הנחיה לגבי תפקיד, מודל שפה גדול מספק תשובה שעשויה להיות או לא להיות שימושית לאדם ששואל את השאלות. עם הנחיה לתפקיד, יכול לענות באופן מתאים ומועיל יותר קהל יעד ספציפי. לדוגמה, החלק של הנחיית התפקיד בחלק הבא ההנחיות מופיעות בגופן מודגש:

  • לסכם את המאמר הזה לתואר דוקטור בכלכלה.
  • תארו את האופן שבו פועלות הגאות והשפל לילדים בני עשר.
  • הסבר על המשבר הפיננסי של 2008. דברו אל ילד קטן, או גולדן רטריבר.

הרמה הבסיסית (root)

#df

הצומת ההתחלתי (התנאי הראשון) בעץ החלטות. לפי המוסכמה, תרשימים מציבים את השורש בחלק העליון של עץ ההחלטות. לדוגמה:

עץ החלטות עם שני תנאים ושלושה עלים. התנאי ההתחלתי (x > 2) הוא השורש.

תיקיית שורש

#TensorFlow

הספרייה שציינתם לאירוח ספריות משנה של קובצי האירועים ונקודות הבדיקה של TensorFlow של כמה מודלים.

שגיאה בריבוע הממוצע של Root (RMSE)

#fundamentals

השורש הריבועי של השגיאה הריבובית הממוצעת.

שונות סיבובית

#image

בבעיה של סיווג תמונות, היכולת של אלגוריתם לסווג תמונות גם כשהכיוון שלהן משתנה. לדוגמה, האלגוריתם עדיין יכול לזהות מחבט טניס אם הוא מצביע, שמאלה או למטה. חשוב לזכור שלא תמיד רצוי שהתמונה תהיה עקבית ביחס לסיבוב. לדוגמה, לא צריך לסווג מספר 9 הפוך כמספר 9.

אפשר לעיין גם במאמרים בנושא תלות לא תלוית-מיקום ותלות לא תלוית-גודל.

R בריבוע

מדד רגרסיה שמציין את מידת השונות בתווית שנובעת מתכונה בודדת או מקבוצת תכונות. R בריבוע הוא ערך בין 0 ל-1, ואותו אפשר לפרש כך:

  • אם הערך של R-squared הוא 0, המשמעות היא שאף אחד מהשינויים בתוויות לא נובע מקבוצת המאפיינים.
  • אם הערך של R-squared הוא 1, המשמעות היא שכל הווריאציה של התווית נובעת מקבוצת המאפיינים.
  • R בריבוע בין 0 ל-1 מציין את המידה שבה התווית צפויה להיות וריאציה של תכונה מסוימת או של קבוצת תכונות מסוימת. לדוגמה, R בריבוע של 0.10 פירושו ש-10 אחוז מהשונות בתווית בגלל ערכת התכונות, R בריבוע של 0.20 פירושו 20 אחוז נובעים מקבוצת התכונות, וכן הלאה.

R בריבוע הוא הריבוע של מתאם פירסון מקדם בין הערכים שמודל חזה לבין אמת קרקע.

S

הטיה בדגימה

#fairness

מידע נוסף זמין בקטע הטיות בבחירות.

דגימה עם החלפה

#df

שיטה לבחירת פריטים מתוך קבוצה של פריטים מועמדים, שבה אפשר לבחור את אותו פריט כמה פעמים. הביטוי 'עם החלפה' מציין שלאחר כל בחירה, הפריט שנבחר מוחזר למאגר של הפריטים המועמדים. בשיטה ההפוכה, דגימה ללא החלפה, אפשר לבחור פריט מתאים רק פעם אחת.

לדוגמה, נבחן את קבוצת הפירות הבאה:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

נניח שהמערכת בוחרת באקראי את fig בתור הפריט הראשון. אם משתמשים במדגם עם החלפה, המערכת בוחרת את הפריט השני מהקבוצה הבאה:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

כן, הקבוצה זהה לזו הקודמת, כך שהמערכת עשויה צריך לבחור שוב את fig.

אם משתמשים בדגימה ללא החלפה, לא ניתן לבחור דגימה לאחר בחירתה היא בחרה שוב. לדוגמה, אם המערכת בוחרת באקראי את fig בתור הדוגמה הראשונה, ואז אי אפשר לבחור שוב את fig. לכן המערכת בוחר את הדוגמה השנייה מתוך הקבוצה (המצומצמת) הבאה:

fruit = {kiwi, apple, pear, cherry, lime, mango}

SavedModel

#TensorFlow

הפורמט המומלץ לשמירה ושחזור של מודלים של TensorFlow. SavedModel הוא פורמט סריאליזציה שניתן לשחזור, ללא תלות בשפה, שמאפשר למערכות ולכלים ברמה גבוהה יותר ליצור, לצרוך ולשנות מודלים של TensorFlow.

שמירה ושחזור של הפרק במדריך למתכנת TensorFlow לקבלת פרטים מלאים.

חסכוני

#TensorFlow

אובייקט TensorFlow האחראית על שמירת נקודות ביקורת של מודלים.

סקלר

מספר בודד או מחרוזת יחידה שאפשר לייצג כמספר tensor של rank 0. לדוגמה, שורות קוד שכל אחת מהן יוצרת סקלר אחד ב-TensorFlow:

breed = tf.Variable("poodle", tf.string)
temperature = tf.Variable(27, tf.int16)
precision = tf.Variable(0.982375101275, tf.float64)

התאמה לעומס (scaling)

כל טרנספורמציה מתמטית או שיטה שמשתנות את הטווח של תווית ו/או ערך התכונה. צורות מסוימות של התאמה לעומס הן שימושיות מאוד לטרנספורמציות כמו נירמול.

צורות נפוצות של התאמה לעומס (scaling) שמועילות בלמידת מכונה כוללות:

  • קנה מידה לינארי, המשתמש בדרך כלל בשילוב של החיסור להחליף את הערך המקורי במספר בין 1- ל-+1, או בין 0 ל-1.
  • שינוי לוגריתמי, שבו הערך המקורי מוחלף בלוגריתם שלו.
  • נירמול של ציון ה-Z, שמחליף את עם ערך נקודה צפה (floating-point) שמייצג את מספר סטיות תקן מהממוצע של התכונה הזו.

scikit-learn

פלטפורמה פופולרית של למידת מכונה בקוד פתוח. scikit-learn.org

ניקוד

#recsystems

החלק במערכת ההמלצות שמספק ערך או דירוג לכל פריט שנוצר בשלב יצירת המועמדים.

הטיית בחירה

#fairness

שגיאות במסקנות שנלקחו מנתונים שנדגמו עקב תהליך בחירה שיוצרת הבדלים שיטתיים בין דגימות שנמדדו בנתונים ואת אלה שלא תועדו. אלה סוגי הטיה הבחירה הקיימים:

  • הטיית כיסוי: האוכלוסייה שמיוצגת במערך הנתונים לא להתאים לאוכלוסייה שהמודל של למידת המכונה מייצר ויצירת חיזויים לגבי.
  • הטיה במדגם: הנתונים לא נאספים באופן אקראי מקבוצת היעד.
  • הטיות ללא תגובה (שנקראת גם הטיית השתתפות): משתמשים מ- קבוצות מסוימות ביטלו את הסכמתם לסקרים בשיעור שונה מזה של משתמשים קבוצות אחרות.

לדוגמה, נניח שאתם יוצרים מודל למידת מכונה שחוזה ליהנות מסרט. כדי לאסוף נתוני אימון, מחלקים סקר לכל מי שבשורה הראשונה באולם הקולנוע שבו מוצג הסרט. נשמע שזו דרך הגיונית לאסוף מערך נתונים, אבל צורת איסוף הנתונים הזו עלולה להוביל לבעיות הבאות של הטיה:

  • הטיית כיסוי: על ידי דגימה מאוכלוסייה שבחרה לראות את הסרט, ייתכן שהחיזויים של המודל לא יחולו על אנשים שעדיין לא הביעו את רמת העניין הזו בסרט.
  • הטיה בדגימה: במקום לדגום באופן אקראי מתוך האוכלוסייה המיועדת (כל האנשים שצפו בסרט), דגמתם רק את האנשים בשורה הראשונה. ייתכן שאנשים שיושבים בשורה הראשונה היו יותר עניין בסרט מאשר אלה שורות אחרות.
  • הטיה של אי-תגובה: באופן כללי, אנשים עם דעות חזקות נוטים להשיב לסקרי אופציונליים בתדירות גבוהה יותר מאשר אנשים עם דעות מתונות. מכיוון שהסקר על הסרט הוא אופציונלי, סביר יותר שהתשובות ייצרו התפלגות דו-מוקדית מאשר התפלגות רגילה (בצורת פעמון).

קשב עצמי (שכבת הקשב העצמי)

#language

שכבת רשת נוירונים שמשנה רצף הטמעות (לדוגמה, הטמעות של אסימון) לרצף נוסף של הטמעות. כל הטמעה בסדרת הפלט נוצרת על ידי שילוב של מידע מהרכיבים של סדרת הקלט באמצעות מנגנון תשומת לב.

החלק עצמי בהקשב העצמי מתייחס לרצף עצמו, ולא בהקשר אחר. הקשב העצמי הוא אחד מאבני הבניין העיקריות של טרנספורמרים, והוא משתמש במונחי חיפוש במילון, כמו 'שאילתה', 'מפתח' ו'ערך'.

שכבת הקשב העצמי מתחילה ברצף של ייצוגי קלט, לכל מילה. ייצוג הקלט של מילה יכול להיות הטמעה פשוטה. לכל מילה ברצף קלט, הרשת מציין את הרלוונטיות של המילה לכל רכיב ברצף של ולא של מילים בודדות, ציוני הרלוונטיות קובעים את מידת הייצוג הסופי של המילה שמבוסס על הייצוגים של מילים אחרות.

לדוגמה, נניח את המשפט הבא:

בעל החיים לא חצה את הכביש כי הוא היה עייף מדי.

באיור הבא (מתוך Transformer: A Novel Neural Network Architecture for Language Understanding) מוצג דפוס תשומת הלב של שכבת תשומת הלב העצמית לשם העצם it, כאשר עוצמת החושך של כל שורה מציינת את מידת התרומה של כל מילה לייצוג:

המשפט הבא מופיע פעמיים: The animal didn&#39;t cross the
          street because it was too tired. הקווים מקשרים את לשון הפנייה it במשפט אחד לחמישה אסימונים (The,‏ animal,‏ street,‏ it והנקודה) במשפט השני.  הקו בין לשון הפנייה it לבין המילה animal הוא החזק ביותר.

שכבת הקשב העצמי מדגישה מילים שרלוונטיות למילה 'it'. כאן נוסף לכך, שכבת תשומת הלב למדה להדגיש מילים שהיא עשויה התייחסות, הקצאת המשקל הגבוה ביותר לבעל חיים.

לרצף של n אסימונים, הקשב העצמי משנה רצף של הטמעות n פעמים נפרדות, פעם אחת בכל מיקום ברצף.

עיינו גם בקטעי שימו לב קשב עצמי עם מספר ראשים.

למידה בלתי מונחית

משפחה של שיטות להמרה הבעיה למידת מכונה לא בפיקוח לבעיה של למידת מכונה בפיקוח על ידי יצירת תוויות לגיבוי דוגמאות ללא תווית.

בחלק מהמודלים שמבוססים על טרנספורמר, כמו BERT, נעשה שימוש בלמידה בלתי מפוקחת.

אימון בהדרכה עצמית למידה מונחית למחצה.

הדרכה עצמית

וריאציה של למידה בפיקוח עצמי שימושי במיוחד כאשר כל התנאים הבאים מתקיימים:

אימון עצמאי פועל על ידי איטרציה של שני השלבים הבאים עד שהמודל מפסיק להשתפר:

  1. להשתמש בלמידת מכונה בפיקוח כדי לאמן את המודל לפי הדוגמאות המסומנות בתוויות.
  2. משתמשים במודל שנוצר בשלב 1 כדי ליצור תחזיות (תוויות) לדוגמאות ללא תוויות, ומעבירים את הדוגמאות עם רמת ביטחון גבוהה לדוגמאות עם תוויות עם התווית שחזו.

שימו לב שבכל חזרה על שלב 2 נוספות דוגמאות מתויגות לשלב 1, כדי לאמן את המערכת.

למידה מונחית למחצה

אימון מודל על נתונים שבהם לחלק מדגימות האימון יש תוויות, אבל לחלק אחר אין. אחת מהשיטות ללמידה מונחית למחצה היא להסיק תוויות לדוגמאות ללא תוויות, ואז לאמן את המודל על סמך התוויות שהוסקו כדי ליצור מודל חדש. למידה מונחית למחצה יכולה להיות שימושית אם קשה לקבל תוויות אבל יש הרבה דוגמאות ללא תוויות.

אימון עצמי היא שיטה אחת ללמידה מונחית למחצה למידת מכונה.

מאפיין רגיש

#fairness
מאפיין אנושי שניתן להקצות משקל מיוחד לגורמים משפטיים, מסיבות אתיות, חברתיות או אישיות.

ניתוח סנטימנט

#language

שימוש באלגוריתמים סטטיסטיים או באלגוריתמים של למידת מכונה כדי לקבוע את הגישה הכוללת של קבוצה כלשהי – חיובית או שלילית – כלפי שירות, מוצר, ארגון או נושא. לדוגמה, שימוש ב- הבנת שפה טבעית (NLP), אלגוריתם יכול לבצע ניתוח סנטימנטים במשוב הטקסטואלי מקורס באוניברסיטה כדי לקבוע את המידה שבה בדרך כלל אהבו או לא אהבו את הקורס.

מודל רצף

#seq

מודל שלקלט שלו יש תלות רציפה. לדוגמה, חיזוי הסרטון הבא שבו נצפה מתוך רצף של סרטונים שנצפו בעבר.

משימה מסוג 'רצף לרצף'

#language

משימה שממירה רצף קלט של אסימונים לרצף פלט של אסימונים. לדוגמה, שני סוגים פופולריים של משימות מסוג 'רצף לרצף' הם:

  • מתרגמים:
    • רצף קלט לדוגמה: "אני אוהב אותך".
    • רצף פלט לדוגמה: "Je t'aime".
  • מענה לשאלות:
    • רצף קלט לדוגמה: "Do I need my car in New York City?‎"
    • דוגמה לרצף פלט: "No. Please keep your car at home".

מנה

התהליך שבו מודל מאומן זמין כדי לספק תחזיות באמצעות הסקת מסקנות אונליין או הסקת מסקנות אופליין.

shape (Tensor)

מספר הרכיבים בכל מאפיין של נכס את Tensor. הצורה מיוצגת כרשימה של מספרים שלמים. לדוגמה, המפריד הדו-ממדי הבא הוא בצורה של [3,4]:

[[5, 7, 6, 4],
 [2, 9, 4, 8],
 [3, 6, 5, 1]]

TensorFlow משתמש בפורמט של שורה-גדולה (בסגנון C) כדי לייצג את הסדר של ולכן הצורה ב-TensorFlow היא [3,4] ולא [4,3]. במילים אחרות, ב-Tensor דו-מימדי של TensorFlow, הצורה היא [מספר שורות, מספר עמודות].

צורה סטטית היא צורה של טינסור שידועה בזמן הידור.

צורה דינמית לא ידועה בזמן הידור, ולכן תלויות בנתוני זמן הריצה. יכול להיות שהטנזור הזה מיוצג באמצעות מימד placeholder ב-TensorFlow, כמו ב-[3, ?].

פצל

#TensorFlow
#GoogleCloud

חלוקה לוגית של קבוצת האימון או של מודל. בדרך כלל, תהליך כלשהו יוצר קטעי קוד על ידי חלוקה של הדוגמאות או של הפרמטרים לקטעים (בדרך כלל) בגודל שווה. לאחר מכן כל פיצול מוקצה למכונה אחרת.

חלוקת מודל לשברים נקראת מקביליות של מודל, וחלוקת נתונים לשברים נקראת מקביליות של נתונים.

כיווץ

#df

היפר-פרמטר ב- שיפור הדרגתי ששולט התאמת יתר. כיווץ בהגדלה הדרגתית מקבילה לקצב למידה ירידה הדרגתית. הערך של 'צמצום' הוא ערך עשרוני בין 0.0 ל-1.0. ערך כיווץ נמוך יותר מפחית התאמת יתר גדול יותר מערך כיווץ גדול יותר.

פונקציית סיגמואיד

#fundamentals

פונקציה מתמטית ש"מכווצת" ערך קלט לטווח מוגבל, בדרך כלל 0 עד 1 או 1- עד 1. כלומר, אפשר להעביר כל מספר (שני, מיליון, ל-sigmoid, והפלט עדיין יהיה טווח מוגבל. תרשים של פונקציית ההפעלה הסיגמואידית נראה כך:

תרשים עקומה דו-מימדי עם ערכי x שנעים מהדומיין של אינסוף שלילי לאינסוף חיובי, וערכי y שנעים מהטווח של כמעט 0 לכמעט 1. כש-x הוא 0, הערך של y הוא 0.5. שיפוע העקומה הוא תמיד
          חיובי, כאשר השיפוע הגבוה ביותר הוא 0.0.5 ויורד בהדרגה
          שיפוע ככל שהערך המוחלט של x עולה.

לפונקציית הסיגמואיד יש כמה שימושים בלמידת מכונה, כולל:

מדד דמיון

#clustering

באלגוריתמים של קיבוץ, המדד שמשמש לקביעת מידת הדמיון בין שתי דוגמאות.

תוכנית אחת / נתונים מרובים (SPMD)

שיטת מקבילה שבה אותו חישוב מתבצע על סמך מקורות קלט שונים של נתונים במקביל במכשירים שונים. המטרה של SPMD היא לקבל תוצאות מהר יותר. זהו הסגנון הנפוץ ביותר של תכנות במקביל.

שונות בגודל

#image

בבעיה של סיווג תמונות, היכולת של אלגוריתם לסווג תמונות גם כשגודל התמונה משתנה. לדוגמה, האלגוריתם עדיין יכול לזהות בין אם הוא צורך 2 מיליון פיקסלים או 200,000 פיקסלים. חשוב לזכור שלאלגוריתמים הטובים ביותר לסיווג תמונות עדיין יש מגבלות מעשיות על חוסר תלות בגודל. לדוגמה, סביר להניח שאלגוריתם (או אנוש) לא יסווג נכון תמונות של חתולים צורכות רק 20 פיקסלים.

אפשר לעיין גם בשונות תרגום וגם שונות סיבובית.

רישום

#clustering

בלמידת מכונה לא בפיקוח, קטגוריה של אלגוריתמים שמבצעים ניתוח ראשוני של הדמיון בין דוגמאות. אלגוריתמים של יצירת סקיצות משתמשים בפונקציית גיבוב (hash) רגישה למיקום כדי לזהות נקודות שיש סיכוי גבוה שהן דומות, ולאחר מכן לקבץ אותן לקטגוריות.

שרטוט מפחית את החישוב הנדרש לחישובי דמיון לפי מערכי נתונים גדולים. במקום לחשב את הדמיון לכל זוג דוגמאות במערך הנתונים, אנחנו מחשבים את הדמיון רק לכל זוג נקודות בכל קטגוריה.

skip-gram

#language

n-gram שעשוי להשמיט (או "לדלג") מילים מהמקור כלומר, ייתכן ש-N המילים לא היו סמוכות זה לזה במקור. סמל האפשרויות הנוספות בדיוק, "k-skip-n-gram" הוא n-gram שבו עד k מילים יכולות להיות בוצע דילוג.

לדוגמה, "השועל החום המהיר" הוא יכול להיות 2 גרם:

  • "המהיר"
  • "quick brown"
  • "brown fox"

A "1-skip-2-gram" הוא שתי מילים שבין מילה אחת לכל היותר. לכן, "השועל החום המהיר" כולל 2 גרם 1-דילוג:

  • "חום"
  • "quick fox"

בנוסף, כל ה-2-grams הם גם 2-grams עם דילוג אחד, כי אי אפשר לדלג על פחות ממילה אחת.

סימני דילוג יכולים לעזור לכם להבין טוב יותר את ההקשר של המילה בסביבה. בדוגמה, המילה 'fox' שויך ישירות למילה 'quick' בקבוצה של 2-grams עם דילוג אחד, אבל לא בקבוצה של 2-grams.

אימון עזרה בנושא דילוג על גרם של הטמעת מילים.

softmax

#fundamentals

פונקציה שקובעת את ההסתברויות לכל מחלקה אפשרית במודל סיווג מרובה-כיתות. סכום ההסתברויות ל-1.0 בדיוק. לדוגמה, הטבלה הבאה מציגה את אופן החלוקה של ה-softmax הסתברויות שונות:

התמונה היא... Probability
כלב 0.85
cat 13.
סוס 0.02

פונקציית softmax נקראת גם full softmax.

בניגוד לדגימת מועמדים.

כוונון של הנחיות רכות

#language
#generativeAI

שיטה לכוונון של מודל שפה גדול (LLM) לביצוע משימה מסוימת, בלי לגזול הרבה משאבים כוונון עדין. במקום לאמן מחדש את כל המשקלים במודל, התאמת ההנחיה הרכה משנה באופן אוטומטי את ההנחיה כדי להשיג את אותו יעד.

כשנותנים הנחיה טקסטואלית, בדרך כלל מתבצעת התאמה של הנחיה רכה על ידי הוספת הטמעות נוספות של אסימונים להנחיה, ושימוש בהתפשטות לאחור (backpropagation) כדי לבצע אופטימיזציה של הקלט.

הנחיה 'קשה' מכילה אסימונים אמיתיים במקום הטמעות של אסימונים.

פיצ'ר נדיר

#language
#fundamentals

תכונה שהערכים שלה הם בעיקר אפס או ריקים. לדוגמה, מאפיין שמכיל ערך 1 יחיד ומיליון ערכים של 0 הוא דל. לעומת זאת, למאפיין צפוף יש ערכים שברובם לא אפס או ריקים.

בלמידת מכונה, מספר מפתיע של תכונות הן מועטות. תכונות קטגוריות הן בדרך כלל תכונות מועטות. לדוגמה, מתוך 300 מיני עצים אפשריים ביער, דוגמה אחת עשויה לזהות רק עץ מייפל. או מתוך מיליונים של סרטונים אפשריים בספריית הסרטונים, דוגמה אחת עשויה לזהות רק "קזבלנקה".

במודל, בדרך כלל מייצגים תכונות דלילות באמצעות קידוד one-hot. אם קידוד ה-one-hot גדול, אפשר להוסיף שכבת הטמעה מעל קידוד ה-one-hot כדי לשפר את היעילות.

ייצוג דל

#language
#fundamentals

אחסון רק את המיקומים של רכיבים שאינם אפס בתכונה דלילה.

לדוגמה, נניח שתכונה מסווגת בשם species מזהה את 36 מיני עצים ביער מסוים. נניח גם שכל דוגמה מזהה רק מין אחד.

אפשר להשתמש בווקטור לוהט אחד כדי לייצג את מין העצים בכל אחת מהדוגמאות. וקטור one-hot יכיל 1 יחיד (כדי לייצג את מין העץ הספציפי בדוגמה הזו) ו-35 ערכים של 0 (כדי לייצג את 35 מיני העצים שאינם בדוגמה הזו). אז הייצוג החם של maple עשויים להיראות כך:

וקטור שבו מיקומים 0 עד 23 שומרים על הערך 0, מיקום
          24 שומר את הערך 1, ומיקומים 25 עד 35 שומרים את הערך 0.

לחלופין, ייצוג דליל פשוט יזהה את המיקום של המין הספציפי. אם maple נמצא במיקום 24, הייצוג הדליל של maple יהיה פשוט:

24

שימו לב שהייצוג הדל הוא הרבה יותר קומפקטי מהייצוג בווקטור יהיה זהה,

וקטור דליל

#fundamentals

וקטור שהערכים שלו הם בעיקר אפסים. ראה גם ו-sparsity.

sparsity

מספר הרכיבים שמוגדרים כאפס (או null) בווקטור או במטריצה מחולקת במספר הכולל של הערכים בווקטור או במטריצה הזו. לדוגמה, נבחן מטריצה של 100 רכיבים שבה 98 תאים מכילים אפס. כך מחושב הערך של הדלות:

$$ {\text{sparsity}} = \frac{\text{98}} {\text{100}} = {\text{0.98}} $$

מאפיין החסרונות של התכונות מתייחס למידת השחיקה של וקטור מאפיין. מידת הבולטוּת של המודל מתייחסת לחלק היחסי של המשקולות של המודל.

צבירת נתונים מרחבית

#image

אוסף

פיצול

#df

בעץ החלטות, שם נוסף לתנאי.

פיצול

#df

במהלך האימון של עץ החלטות, התהליך (והאלגוריתם) שאחראים על מציאת התנאי הטוב ביותר בכל צומת.

SPMD

קיצור של Single Program / Multiple data

אובדן ציר ריבועית

הריבוע של הפסד הציר. השלכות של אובדן ציר מרובע חריגים כבדים יותר מאשר אובדן צירים רגילים.

הפסד בריבוע

#fundamentals

מילה נרדפת ל-L2 loss.

אימון מדורג

#language

טקטיקה לאימון מודל ברצף של שלבים נפרדים. היעד יכול להיות כדי לזרז את תהליך האימון או לשפר את איכות המודל.

איור של גישת הסידור בערימה (Progressive Stacking)):

  • שלב 1 מכיל 3 שכבות מוסתרות, שלב 2 מכיל 6 שכבות מוסתרות שלב 3 מכיל 12 שכבות מוסתרות.
  • בשלב 2 מתחילים את האימון עם המשקלים שנלמדו ב-3 השכבות המוסתרות של שלב 1. שלב 3 מתחיל להתאמן עם המשקולות שנלמדו בשלב השישי של שלב 2.

שלושה שלבים שקיבלו את התוויות &#39;שלב 1&#39;, &#39;שלב 2&#39; ו&#39;שלב 3&#39;.
          כל שלב מכיל מספר שונה של שכבות: שלב 1 מכיל 3 שכבות, שלב 2 מכיל 6 שכבות ושלב 3 מכיל 12 שכבות.
          3 השכבות משלב 1 הופכות ל-3 השכבות הראשונות של שלב 2.
          באופן דומה, 6 השכבות משלב 2 הופכות ל-6 השכבות הראשונות של שלב 3.

אפשר לעיין גם במאמר בנושא צנרת עיבוד נתונים.

הסמוי הסופי

#rl

בלמידת חיזוק, ערכי הפרמטרים שמתארים את ההגדרה הנוכחית של הסביבה, שבה הסוכן משתמש כדי לבחור פעולה.

פונקציית ערך מצב-פעולה

#rl

מילה נרדפת ל-Q-function.

סטטי

#fundamentals

פעולה שמתבצעת פעם אחת ולא באופן קבוע. המונחים סטטיים ואופליין הם מילים נרדפות. אלה שימושים נפוצים של נתונים סטטיים ואופליין בלמידת מכונה:

  • מודל סטטי (או מודל אופליין) הוא מודל שאומן פעם אחת ולאחר מכן שהיו בשימוש במשך זמן מה.
  • אימון סטטי (או אימון אופליין) הוא תהליך של אימון סטטי.
  • הֶקֵּשׁ סטטי (או הֶקֵּשׁ אופליין) שבו מודל יוצר קבוצת חיזויים בכל פעם.

בניגוד לדינמי.

הֶקֵּשׁ סטטי

#fundamentals

מילה נרדפת להֶקֵּשׁ אופליין.

נייר מעמדים

#fundamentals

מאפיין שהערכים שלו לא משתנים במאפיין אחד או יותר, בדרך כלל זמן. לדוגמה, מאפיין שהערכים שלו נראים דומים בשנים 2021 ו-2023 הוא מאפיין יציב.

בעולם האמיתי, מעט מאוד מאפיינים מציגים סטציונריות. גם תכונות שמשויכות ליציבות (כמו גובה פני הים) משתנות עם הזמן.

בניגוד לתנודות לא יציבות.

שלב

מסירה קדימה ומסירה אחורה של אצווה אחת.

מידע נוסף זמין במאמר הפצה לאחור בהילוך קדימה ובהעברה אחורה.

גודל השלב

מילה נרדפת לקצב למידה.

ירידה סטוכסטית בגרדינט (SGD)

#fundamentals

אלגוריתם ירידה בגרדינט שבו גודל האצווה הוא אחד. במילים אחרות, SGD מתאמן על דוגמה אחת שנבחרה באופן אקראי מתוך קבוצת אימון.

צעדים

#image

בפעולה קונבולוציונית או ב-pooling, הדלתה בכל מאפיין של הסדרה הבאה של פרוסות הקלט. לדוגמה, האנימציה הבאה, משקף צעדים (1,1) במהלך פעולה קונבולוציה. לכן, פרוסת הקלט הבאה מתחילה מיקום אחד מימין לקלט הקודם . כשהפעולה מגיעה לקצה הימני, הפרוסה הבאה נמצאת בצד ימין אבל עמודה אחת למטה.

מטריצת קלט ביחס של 5x5 ומסנן קונבולוציה בגודל 3x3. כי
     צעדים הם (1,1), מסנן קונבולוציה יופעל 9 פעמים. הראשון
     הפלח המתקפל מעריך את התת-מטריצה בגודל 3x3 בפינה השמאלית העליונה של הקלט
     במטריצה. בפרוסת הנתונים השנייה מתבצעת הערכה של מטריצת המשנה 3x3 בחלק העליון האמצעי. הפלח המתקפל השלישי מעריכה את יחס הגובה-רוחב 3x3 בפינה הימנית העליונה
     מטריקס.  בפרוסה הרביעית מתבצעת הערכה של מטריצת המשנה 3x3 שמשמאל למעלה.
     בפרוסה החמישית מתבצעת הערכה של מטריצת המשנה האמצעית בגודל 3x3. הפלח השישי
     מחשבת את התת-מטריצה הימנית העליונה בגודל 3x3. החלק השביעי מקבל הערכה
     במטריצת המשנה 3x3 משמאל למטה.  הפרוסה השמינית מעריכה את מטריצת המשנה 3x3 שבחלק התחתון-התיכון. החלק התשיעי מוערך ביחס ל-3x3 בפינה הימנית התחתונה
     מטריקס.

הדוגמה הקודמת מדגימה צעד דו-מימדי. אם הקלט היא תלת ממדית, הפסיעה תהיה גם תלת ממדית.

צמצום סיכונים מבני (SRM)

אלגוריתם שמאזן שני יעדים:

  • הצורך ליצור את המודל עם התחזית הכי טובה (לדוגמה, עם האובדן הנמוך ביותר).
  • הצורך שהמודל יהיה פשוט ככל האפשר (למשל, רגילה).

לדוגמה, פונקציה שממזערת את האובדן + רגולריזציה בקבוצת האימון היא אלגוריתם למזעור סיכון מבני.

בניגוד למזעור סיכון ניסיוני.

דגימת משנה

#image

אוסף

טוקן של מילה משנה

#language

ב-language models, אסימון מחרוזת משנה של מילה, שיכולה להיות המילה כולה.

לדוגמה, מילה כמו 'itemize' עשויה להתחלק לחלקים 'item' (מילה בסיס) ו-'ize' (סיומת), שכל אחד מהם מיוצג על ידי אסימון משלו. פיצול של מילים לא נפוצות לקטעים כאלו, שנקראים מילות משנה, מאפשר לפעול על החלקים שמרכיבים את המילה, כמו תחיליות וסיומות.

לעומת זאת, מילים נפוצות כמו " השינוי הזה" ויכול להיות שהוא שמיוצג על ידי אסימון יחיד.

סיכום

#TensorFlow

ב-TensorFlow, ערך או קבוצת ערכים שמחושבים בשלב מסוים, בדרך כלל לצורך מעקב אחר מדדי המודל במהלך האימון.

למידת מכונה בפיקוח

#fundamentals

אימון מודל של תכונות התוויות התואמות. למידת מכונה מבוקרת מקבילה ללמוד נושא מסוים באמצעות סדרה של שאלות את התשובות המתאימות. אחרי הבנת המיפוי בין השאלות של התשובות, התלמידים יכולים לספק תשובות לשאלות חדשות (שלא נראו בעבר) באותו נושא.

השוואה אל למידת מכונה לא בפיקוח.

מאפיין סינתטי

#fundamentals

מאפיין שלא נמצא בין מאפייני הקלט, אלא מורכב מאחד מהם או יותר. שיטות ליצירת תכונות סינתטיות כוללות את האפשרויות הבאות:

  • חלוקה לקטגוריות של מאפיין רציף לקטגוריות של טווחים.
  • יצירת צירוף תכונות.
  • הכפלה (או חלוקה) של ערך מאפיין אחד בערכים אחרים של מאפיינים או בעצמו. לדוגמה, אם a ו-b הן תכונות קלט, אז המאפיין דוגמאות לתכונות סינתטיות:
    • ab
    • a2
  • החלה של פונקציה טרנסצנדנטלית על ערך של מאפיין. לדוגמה, אם c הוא תכונת קלט, אז הדוגמאות הבאות הן תכונות סינתטיות:
    • sin(c)
    • lg(c)

תכונות שנוצרו על ידי נירמול או התאמה לעומס לא נחשבים לתכונות סינתטיות.

T

T5

#language

מודל של למידת העברה מ-טקסט לטקסט, שהוצג על ידי Google AI בשנת 2020. ‏T5 הוא מודל מקודד-מפענח שמבוסס על הארכיטקטורה של Transformer, ומודרך על מערך נתונים גדול במיוחד. הוא יעיל במגוון משימות של עיבוד שפה טבעית (NLP), כמו יצירת טקסט, תרגום שפות וענות על שאלות בצורה שיחה.

השם T5 נגזר מחמש האותיות T במילים 'Text-to-Text Transfer Transformer'.

T5X

#language

מסגרת למידת מכונה בקוד פתוח, שנועדה לפתח וללאמן מודלים של עיבוד שפה טבעית (NLP) בקנה מידה גדול. T5 מוטמע ב-codebase של T5X (כלומר מבוסס על JAX ו-Flax).

טבלת Q

#rl

בלמידת חיזוק, הטמעה למידת מכונה באמצעות טבלה לאחסון פונקציות Q לכל שילוב של מצב ופעולה.

יעד

תווית היא מילה נרדפת.

רשת היעד

#rl

ב-Deep Q-learning, רשת עצבית שהיא קירוב יציב של רשת העצבים הראשית, שבה רשת העצבים הראשית מטמיעה פונקציית Q או מדיניות. לאחר מכן, תוכלו לאמן את הרשת הראשית לפי ערכי ה-Q שצפויים על פי היעד עמוקה מאוד, כך אפשר למנוע את לולאת המשוב שמתרחשת כשהרשת הראשית מתאמנת על ערכי Q שחזתה בעצמה. אם נמנעים מהמשוב הזה, יציבות האימון עולה.

משימה

בעיה שניתן לפתור באמצעות טכניקות של למידת מכונה, כמו:

טמפרטורה

#language
#image
#generativeAI

היפר-פרמטר ששולט במידת הרנדומיזציה בפלט של המודל. ככל שהטמפרטורות גבוהות יותר, התוצאה תהיה אקראית יותר, וטמפרטורות נמוכות יותר גורמות לפלט אקראי פחות.

בחירת הטמפרטורה הטובה ביותר תלויה באפליקציה הספציפית את המאפיינים המועדפים של הפלט של המודל. לדוגמה, אפשר להעלות את הטמפרטורה ככל הנראה כשיוצרים אפליקציה יוצרת פלט קריאייטיב. לעומת זאת, כשיוצרים מודל לסיווג תמונות או טקסט, כדאי להוריד את הטמפרטורה כדי לשפר את הדיוק והעקביות של המודל.

משתמשים בטמפרטורה לעיתים קרובות בשילוב עם softmax.

נתוני זמן

נתונים שתועדו בנקודות זמן שונות. לדוגמה, מכירת מעילי חורף לכל יום בשנה יהיו נתוני זמן.

Tensor

#TensorFlow

מבנה הנתונים הראשי בתוכניות TensorFlow. טינסורים הם מבני נתונים ב-N מימדים (כאשר N יכול להיות גדול מאוד), בדרך כלל סקלריים, וקטורים או מטריצות. הרכיבים של Tensor יכולים להכיל מספר שלם, נקודה צפה (floating-point), או ערכי המחרוזת.

TensorBoard

#TensorFlow

מרכז הבקרה שבו מוצגים הסיכומים שנשמרו במהלך ביצוע ועוד תוכניות TensorFlow.

TensorFlow

#TensorFlow

פלטפורמה מבוזרת ללמידת מכונה בקנה מידה גדול. המונח מתייחס גם לשכבת ה-API הבסיסית ב-TensorFlow, שתומכת בחישוב כללי בתרשימי תעבורת נתונים.

אמנם TensorFlow משמש בעיקר ללמידת מכונה, אבל אפשר להשתמש בו גם למשימות שאינן של למידת מכונה, שדורשות חישובים מספריים באמצעות תרשים של תעבורת נתונים.

TensorFlow Playground

#TensorFlow

תוכנית שממחישה את ההבדלים בין מודל ההשפעה של היפר-פרמטרים (בעיקר רשת נוירונים). אפשר להיכנס אל http://playground.tensorflow.org כדי להתנסות ב-TensorFlow Playground.

הצגת מודעות ב-TensorFlow

#TensorFlow

פלטפורמה לפריסת מודלים מאומנים בסביבת ייצור.

יחידת עיבוד של Tensor (TPU)

#TensorFlow
#GoogleCloud

מעגל משולב ספציפי לאפליקציה (ASIC) שמבצע אופטימיזציה ביצועים של עומסי עבודה (workloads) של למידת מכונה. מערכי ה-ASIC האלה נפרסים כצ'יפים של TPU במכשיר TPU.

דירוג טינסור

#TensorFlow

למידע נוסף, ראו דירוג (חיישן).

צורת הטנזור

#TensorFlow

מספר הרכיבים שTensor מכיל במאפיינים שונים. לדוגמה, ל-Tensor [5, 10] יש צורה של 5 במימד אחד ו-10 באחד אחר.

גודל טנזור

#TensorFlow

המספר הכולל של המשתנים הסקלרים שTensor מכיל. לדוגמה, למערך [5, 10] יש גודל של 50.

TensorStore

ספרייה לקריאה יעילה כתיבת מערכים רב-ממדיים גדולים.

תנאי סיום

#rl

בלמידת חיזוק, התנאים שקובעים מתי פרק מסתיים, למשל כשהסוכן מגיע למצב מסוים או חורג ממספר הסף של מעברי המצב. לדוגמה, במשחק חמש בשורה, פרק מסתיים כשאחד השחקנים מסמן שלוש משבצות רצופות או כשכל המשבצות מסומנות.

test

#df

בעץ החלטות, שם נוסף לתנאי.

אובדן בדיקה

#fundamentals

מדד שמייצג את ההפסד של מודל קבוצת הבדיקה. כשיוצרים מודל, בדרך כלל מנסים לצמצם את אובדן הבדיקות. הסיבה לכך היא שהפסד נמוך של בדיקות אות באיכות גבוהה יותר מאשר הפסד אימון נמוך, או אובדן נמוך של האימות.

לפעמים, פער גדול בין אובדן הבדיקה לאובדן האימון או לאובדן האימות מציין שצריך להגדיל את שיעור הרגיליזציה.

ערכת בדיקה

קבוצת משנה של dataset ששמורה לבדיקה מודל שעבר אימון.

בדרך כלל, מחלקים את הדוגמאות במערך הנתונים לשלושת הדוגמאות הבאות קבוצות משנה נפרדות:

כל דוגמה במערך נתונים צריכה להשתייך רק לאחת מקבוצות המשנה הקודמות. לדוגמה, דוגמה אחת לא יכולה להשתייך גם לקבוצת האימון וגם לקבוצת הבדיקה.

קבוצת האימון וקבוצת האימות קשורות מאוד לאימון מודל. מכיוון שקבוצת הבדיקות משויכת לאימון באופן עקיף בלבד, הפסד הבדיקה הוא מדד איכותי יותר עם פחות הטיה מאשר הפסד האימון או הפסד האימות.

קטע טקסט

#language

טווח של אינדקס מערך שמשויך לקטע משנה ספציפי במחרוזת טקסט. לדוגמה, המילה good במחרוזת Python‏ s="Be good now" תופסת את טווח הטקסט מ-3 עד 6.

tf.Example

#TensorFlow

תקן מאגר נתונים זמני לפרוטוקולים לתיאור נתוני קלט לאימון או להסקת מודלים של למידת מכונה.

tf.keras

#TensorFlow

הטמעה של Keras שמשולבת ב-TensorFlow.

סף (עבור עצי החלטות)

#df

בתנאי יישור לציר, הערך של המערכת משווה בין התכונה. לדוגמה, 75 הוא ערך הסף בתנאי הבא:

grade >= 75

ניתוח סדרות זמן

#clustering

תת-תחום של למידת מכונה ונתונים סטטיסטיים לניתוח נתוני זמן: סוגים רבים של למידת מכונה דורשות ניתוח של סדרת זמנים, כולל סיווג, קיבוץ לאשכולות יצירת תחזיות וזיהוי אנומליות. לדוגמה, אפשר להשתמש בניתוח של סדרות זמן כדי לחזות את המכירות העתידיות של מעילים לחורף לפי חודש, על סמך נתוני מכירות היסטוריים.

חותמת זמן

#seq

תא אחד 'לא מגולגל' בתוך רשת נוירונים חוזרת. לדוגמה, באיור הבא מוצגות שלוש נקודות זמן (שסומנו בסוגריים תחתונים t-1,‏ t ו-t+1):

שלוש נקודות זמן ברשת נוירונים חוזרת. הפלט של המודל
          ה-timestep הראשון הופך לקלט בשלב השני. הפלט
          של השלב השני הופך לקלט של השלב השלישי.

token

#language

במודל שפה, היחידה האטומית שבה מתבצע אימון המודל והחיזויים. בדרך כלל אסימון הוא אחד הבאים:

  • מילה אחת – לדוגמה, הביטוי "כלבים כמו חתולים" מורכב משלוש מילים אסימונים: 'כלבים', 'לייק' ו'חתולים'.
  • דמות מסוימת, לדוגמה, הביטוי "דג אופניים" מורכב מתשע אסימוני תווים. (חשוב לזכור שהשטח הריק נספר כאחד מהאסימונים).
  • מילות משנה – שבהן מילה יחידה יכולה להיות אסימון יחיד או מספר אסימונים. מילה משנה מורכבת ממילה בסיס, מקידומת או מסופן. לדוגמה, שמודל שפה שמשתמש במילות משנה בתור אסימונים עשוי לראות את המילה "כלבים" כשני אסימונים (מילת השורש "כלב" וסיומת הרבים "s"). את אותה יכול לראות את המילה היחידה "גבוהה יותר" כשתי מילות משנה מילת השורש 'גבוה' והסיומת 'er').

בדומיינים מחוץ למודלים של שפה, אסימונים יכולים לייצג סוגים אחרים של יחידות אטומיות. לדוגמה, בתכונה 'ראייה ממוחשבת', אסימון יכול להיות קבוצת משנה של תמונה.

Tower

רכיב של רשת נוירונים עמוקה עצמה היא רשת נוירונים עמוקה. במקרים מסוימים, כל מגדל קורא ממקור נתונים עצמאי, והמגדלים האלה נשארים עצמאיים עד שהפלט שלהם משולב בשכבה סופית. במקרים אחרים (לדוגמה, מגדל המקודד והמפענח הרבה טרנספורמרים), מגדלים יש חיבורי קו ביניהם שתי רשתות נוירונים זו מול זו.

TPU

#TensorFlow
#GoogleCloud

קיצור של Tensor Processing Unit.

צ'יפ TPU

#TensorFlow
#GoogleCloud

מעבד לינארי לתכנות עם זיכרון ברוחב פס גבוה על שבב, שמותאם לאופטימיזציה של עומסי עבודה של למידת מכונה. מספר שבבי TPU פרוסים במכשיר TPU.

מכשיר TPU

#TensorFlow
#GoogleCloud

מעגל מודפס (PCB) עם כמה שבבי TPU, ממשקי רשת ברוחב פס גבוה וחומרה לקירור מערכת.

TPU master

#TensorFlow
#GoogleCloud

תהליך הקואורדינציה המרכזי שפועל במכונה מארחת ששולחת מקבל נתונים, תוצאות, תוכניות, ביצועים ומידע על תקינות המערכת אל עובדי TPU. המאסטר של TPU מנהל גם את ההגדרה וההשבתה של מכשירי TPU.

צומת TPU

#TensorFlow
#GoogleCloud

משאב TPU ב-Google Cloud עם סוג TPU. צומת ה-TPU מתחבר לרשת ה-VPC שלכם מרשת VPC עמית. צמתים של TPU הם משאב שמוגדר ב-Cloud TPU API.

TPU Pod

#TensorFlow
#GoogleCloud

הגדרה ספציפית של מכשירי TPU במרכז הנתונים. כל המכשירים ב-TPU Pod מחוברים זה לזה באמצעות רשת ייעודית במהירות גבוהה. אשכול TPU הוא ההגדרה הגדולה ביותר של מכשירי TPU שזמינה לגרסה ספציפית של TPU.

משאב TPU

#TensorFlow
#GoogleCloud

ישות TPU ב-Google Cloud שאתם יוצרים, מנהלים או צורכים. לדוגמה, צומתי TPU וסוגי TPU הם משאבי TPU.

פרוסת TPU

#TensorFlow
#GoogleCloud

פרוסת TPU היא חלק יחסי ממכשירי ה-TPU בTPU Pod. כל המכשירים בפרוסת TPU מחוברים זה לזה דרך רשת ייעודית במהירות גבוהה.

סוג ה-TPU

#TensorFlow
#GoogleCloud

הגדרה של מכשיר TPU אחד או יותר עם גרסה של חומרת TPU. בוחרים סוג TPU כשיוצרים את צומת TPU ב-Google Cloud. לדוגמה, v2-8 סוג TPU הוא מכשיר TPU v2 יחיד עם 8 ליבות. סוג TPU מסוג v3-2048 הוא 256 מכשירי TPU v3 שמחוברים לרשת וסה"כ 2,048 ליבות. סוגי TPU הם משאבים שמוגדרים ב-Cloud TPU API.

עובד TPU

#TensorFlow
#GoogleCloud

תהליך שפועל במכונה מארחת ומריץ תוכניות של למידת מכונה במכשירי TPU.

הדרכה

#fundamentals

תהליך קביעת הפרמטרים האידיאליים (משקולות הטיות) שכוללות מודל. במהלך האימון, המערכת קוראת דוגמאות ומתאימה את הפרמטרים בהדרגה. בכל שלב של האימון, כל דוגמה משמשת כמה פעמים עד מיליארדי פעמים.

אובדן אימון

#fundamentals

מדד שמייצג את הפסד של מודל במהלך ספציפית איטרציה של אימון. לדוגמה, נניח שפונקציית ההפסד היא Mean Squared Error. אולי הפסד האימון ריבוע השגיאה) עבור האיטרציה העשירית הוא 2.2, וההפסד של האימון עבור האיטרציה ה-100 היא 1.9.

עקומת הפסד מייצגת את אובדן האימון לעומת מספר כמה חזרות. עקומת אובדן מספקת את הטיפים הבאים לגבי אימון:

  • שיפוע יורד מעיד על כך שהמודל משתפר.
  • שיפוע כלפי מעלה מעיד על כך שהמודל הולך ומחמיר.
  • שיפוע ישר מרמז על כך שהמודל הגיע איחוד.

לדוגמה, עקומת ההפסד הבאה היא אידיאלית במידה מסוימת מציג:

  • שיפוע תלול במהלך האיטרציות הראשוניות, שמרמז על כך ולשפר את המודל במהירות.
  • שיפוע שמתיישר בהדרגה (אבל עדיין יורד) עד לקראת סוף האימון, מה שמצביע על שיפור מתמשך של המודל בקצב איטי יותר מאשר במחזורים הראשונים.
  • שיפוע שטוח לקראת סוף האימון, שמצביע על התקרבות.

התרשים של אובדן האימון לעומת איטרציות. עקומת האובדן הזו מתחילה
     עם שיפוע תלול. השיפוע נעשה שטוח בהדרגה עד שהוא הופך לאפס.

אובדן האימון חשוב, אבל כדאי גם לעיין במאמר בנושא הכללה.

training-serving skew

#fundamentals

ההבדל בין הביצועים של מודל במהלך האימון לבין הביצועים של אותו מודל במהלך הצגת המודעות.

קבוצת אימון

#fundamentals

קבוצת המשנה של מערך הנתונים ששימשה לאימון מודל.

באופן מסורתי, הדוגמאות במערך הנתונים מחולקות לשלוש קבוצות משנה נפרדות:

באופן אידיאלי, כל דוגמה במערך הנתונים צריכה להשתייך רק לאחד ואת קבוצות המשנה שקדמו לו. לדוגמה, דוגמה אחת לא יכולה להשתייך גם לקבוצת האימון וגם לקבוצת האימות.

מסלול

#rl

בלמידת חיזוק, רצף של קבוצות נתונים שמייצגות רצף של מעברים במצב של הסוכן, כאשר כל קבוצת נתונים תואמת למצב, לפעולה, לתגמול ולמצב הבא במעבר נתון בין מצבים.

למידה בהעברה

העברת מידע ממשימה אחת של למידת מכונה למשימה אחרת. לדוגמה, בלמידה בריבוי משימות, מודל יחיד פותר מספר משימות, כמו מודל עומק עם צומתי פלט שונים משימות שונות. העברת המידע עשויה להיות כרוכה בהעברת ידע מפתרון של משימה פשוטה יותר למשימה מורכבת יותר, או לכלול להעביר ידע ממשימה שבה יש יותר נתונים, יש פחות נתונים.

רוב מערכות למידת המכונה פותרות משימה אחת. תהליך הלמידה בזמן ההעברה לקראת בינה מלאכותית (AI), שתוכנית אחת יכולה לפתור מספר משימות.

רובוטריק

#language

ארכיטקטורה של רשת עצבית שפותחה ב-Google, שמסתמכת על מנגנוני התמקדות עצמית כדי להפוך רצף של הטמעות קלט לרצף של הטמעות פלט, בלי להסתמך על עיבוי או על רשתות עצביות חזרתיות. אפשר להתייחס ל-Transformer בתור סטאק של שכבות של קשב עצמי.

טרנספורמר יכול לכלול כל אחד מהרכיבים הבאים:

מקודד ממיר רצף של הטמעות (embeddings) לרצף חדש באורך זהה. מקודד כולל N שכבות זהות, שכל אחת מהן מכילה שתי בשכבות המשנה. שתי שכבות המשנה האלה מוחלות בכל מיקום של הקלט של רצף הטמעה, שממירה כל רכיב ברצף הטמעה אוטומטית. שכבת המשנה הראשונה של המקודד צוברת מידע של רצף הקלט. שכבת המשנה השנייה ממירה את את המידע להטמעה של פלט.

מפענח ממיר רצף של הטמעות קלט לרצף של הטמעות פלט, אולי באורך שונה. מפענח כולל גם N שכבות זהות עם שלוש שכבות משנה, ששתיים מהן דומות לשכבות המשנה של המקודד. שכבת המשנה השלישית של המפענח מקבלת את הפלט של המקודד ומחילה את המנגנון של הקשב העצמי כדי לאסוף ממנו מידע.

בפוסט בבלוג Transformer: A Novel Neural Network Architecture for Language הבנה שהוא מבוא טוב לטרנספורמרים.

שונות מתורגמת

#image

בבעיה של סיווג תמונות, היכולת של אלגוריתם לסווג תמונות גם כשהמיקום של אובייקטים בתמונה משתנה. לדוגמה, האלגוריתם עדיין יכול לזהות כלב, בין שהוא במרכז המסגרת או בקצה השמאלי של המסגרת.

אפשר לעיין גם בקטע הבדלים בגודל וגם שונות סיבובית.

טריגר

#seq
#language

N-gram שבו N=3.

שלילי אמיתי (TN)

#fundamentals

דוגמה שבה המודל חוזים נכון סיווג שלילי. לדוגמה, המודל מסיק שהודעת אימייל מסוימת היא לא ספאם, והודעת האימייל הזו אכן לא ספאם.

תוצאה חיובית נכונה (TP)

#fundamentals

דוגמה שבה המודל חוזים נכון כיתה חיובית. לדוגמה, המודל מסיק שהודעת אימייל מסוימת היא ספאם, והודעת האימייל הזו אכן ספאם.

שיעור חיובי אמיתי (TPR)

#fundamentals

מילה נרדפת למשיכה. כלומר:

$$\text{true positive rate} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}}$$

השיעור החיובי האמיתי הוא ציר ה-Y בעקומת ROC.

U

חוסר מודעוּת (למאפיין רגיש)

#fairness

מצב שבו מאפיינים רגישים נמצאים, אבל לא נכללים בנתוני האימון. כי מאפיינים רגישים בדרך כלל קשורים למאפיינים אחרים של הנתונים, מודל שמאומן שהם לא מודעים למאפיין רגיש השפעה שונה ביחס למאפיין הזה, או להפר מגבלות הוגנות אחרות.

התאמה לא מספקת (underfitting)

#fundamentals

יצירת מודל עם יכולת חיזוי נמוכה, כי המודל לא תיעד באופן מלא את המורכבות של נתוני האימון. בעיות רבות עלול לגרום לחוסר התאמה, כולל:

דגימה נמוכה

הסרת דוגמאות מהקבוצה הגדולה יותר במערך נתונים עם חוסר איזון בין הקבוצות כדי ליצור קבוצת אימון מאוזנת יותר.

לדוגמה, נניח שיש מערך נתונים שבו היחס בין הקבוצה הקטנה לבין הקבוצה הגדולה הוא 20:1. כדי להתגבר על הכיתה הזו חוסר איזון, אפשר ליצור מערכת אימון שכוללת את כל המיעוטים אבל רק עשירית מהדוגמאות מכיתות הרוב, ליצור יחס גובה-רוחב של 2:1 בין השיעורים. הודות לדגימה נמוכה, מערכת אימון מאוזנת עשויה ליצור מודל טוב יותר. לחלופין, ייתכן שקבוצת אימון מאוזנת יותר לא תכיל מספיק דוגמאות כדי לאמן יעיל יותר.

השוו בין דגימת יתר.

חד-כיווני

#language

מערכת שמעריכה רק את הטקסט שמקדים קטע יעד של טקסט. לעומת זאת, מערכת דו-כיוונית מעריכה גם את הטקסט שמקדים וגם את הטקסט שבא אחריו קטע יעד של טקסט. פרטים נוספים זמינים במאמר דו-כיווני.

מודל שפה חד-כיווני

#language

מודל שפה שמבוסס את ההסתברויות שלו רק על אסימונים שמופיעים לפני, ולא אחרי, האסימונים של היעד. בניגוד למודל שפה דו-כיווני.

דוגמה ללא תווית

#fundamentals

דוגמה שכוללת תכונות אבל בלי תווית. לדוגמה, בטבלה הבאה מוצגות שלוש דוגמאות ללא תוויות ממודל להערכת ערך של בית, כל אחת עם שלושה מאפיינים אבל ללא ערך של בית:

מספר חדרי שינה מספר חדרי האמבטיה גיל הבית
3 2 15
2 1 72
4 2 34

בלמידת מכונה בפיקוח, המודלים עוברים אימון על דוגמאות מתויגות ומבצעים חיזויים על דוגמאות לא מתויגות.

במודל בפיקוח חלקי, למידה ללא פיקוח, אנחנו משתמשים בדוגמאות ללא תוויות במהלך האימון.

יש להשוות בין דוגמה ללא תווית לבין דוגמה עם תווית.

למידת מכונה בלתי מונחית

#clustering
#fundamentals

אימון של מודל כדי למצוא דפוסים במערך נתונים, בדרך כלל של מערך נתונים ללא תווית.

השימוש הנפוץ ביותר בלמידת מכונה בלתי מבוקרת הוא קיבוץ נתונים לקבוצות של דוגמאות דומות. לדוגמה, מכשיר לא מפוקח של למידת מכונה יכול לקבץ שירים על סמך מאפיינים שונים של המוזיקה. האשכולות שמתקבלים יכולים להפוך לקלט למכונה אחרת אלגוריתמים של למידת מכונה (לדוגמה, לשירות המלצות על מוזיקה). יצירת אשכולות יכולה לעזור כשיש מעט תוויות שימושיות או חסרות תוויות. לדוגמה, בתחומים כמו מניעת ניצול לרעה והונאה, אשכולות יכולים לעזור שבני אדם מבינים טוב יותר את הנתונים.

השוואה בין למידת מכונה בפיקוח.

בניית מודלים לשיפור הביצועים

טכניקת בניית מודל שמשמשת בדרך כלל בשיווק, ומטרתה ליצור מודל של 'השפעה סיבתית' (שנקראת גם 'השפעה מצטברת') של 'טיפול' על 'פרט'. להלן שתי דוגמאות:

  • רופאים יכולים להשתמש בבניית מודל של שיפור כדי לחזות את הירידה בתמותה (השפעה סיבתית) של פרוצדורה רפואית (טיפול), בהתאם לגיל ולהיסטוריה הרפואית של המטופל (האדם).
  • משווקים יכולים להשתמש בבניית מודל של שיפור כדי לחזות את העלייה בסיכוי לרכישה (השפעה סיבתית) כתוצאה ממודעה (טיפול) על אדם (פרט).

המודל למדידת השיפור בביצועים שונה מסיווג או רגרסיה בכך שתוויות מסוימות (לדוגמה, חצי מהתוויות בטיפולים בינאריים) תמיד חסרות בבניית מודל השיפור. לדוגמה, מטופלים יכולים לקבל טיפול או לא לקבל טיפול. לכן אנחנו יכולים רק לראות אם המטופל הולך להחלים או לא להחלים רק באחד משני המצבים האלה (אבל אף פעם לא לשניהם). היתרון העיקרי של מודל שיפור הביצועים הוא שהוא יכול ליצור תחזיות לגבי המצב שלא נצפה (התרחיש ההפוך) ולהשתמש בהן כדי לחשב את ההשפעה הישירה.

הגדלת המשקל

החלת משקל על המחלקה downsampled שווה לגורם שבו בוצעה הדגימה.

מטריצת משתמשים

#recsystems

במערכות המלצות, וקטור הטמעה שנוצר על ידי פירוק מטריצות שמכיל אותות סמויים לגבי העדפות המשתמשים. כל שורה במטריצה של המשתמש מכילה מידע על העוצמה היחסית של אותות סמויים שונים של משתמש יחיד. לדוגמה, נבחן מערכת המלצות לסרטים. במערכת הזו, האותות הלא גלויים במטריצה של המשתמשים עשויים לייצג את תחומי העניין של כל משתמש בז'אנרים מסוימים, או אותות שקשה יותר לפרש שכוללים אינטראקציות מורכבות בין כמה גורמים.

למטריצת המשתמשים יש עמודה לכל מאפיין סמוי ושורה לכל משתמש. כלומר, במטריצת המשתמשים יש אותו מספר שורות כמו ביעד שמפירים לגורמים את המטריצה. לדוגמה, כשמזינים סרט למערכת המלצות עבור 1,000,000 משתמשים, מטריצת המשתמשים תכלול 1,000,000 שורות.

V

אימות

#fundamentals

ההערכה הראשונית של איכות המודל. בתהליך האימות בודקים את איכות התחזיות של המודל בהשוואה לקבוצת האימות.

מכיוון שמערכת האימות שונה מקבוצת האימון, האימות עוזר להגן מפני התאמה יתר.

אפשר להתייחס להערכת המודל מול קבוצת האימות כאל סיבוב הבדיקה הראשון, ולהערכת המודל מול קבוצת הבדיקה כאל סיבוב הבדיקה השני.

אובדן אימות

#fundamentals

מדד שמייצג את הפסד של מודל ב- האימות שהוגדר במהלך תקופה ספציפית איטרציה של אימון.

ראו גם עקומת הכללה.

קבוצת אימות

#fundamentals

קבוצת המשנה של מערך הנתונים שבה מתבצעת הערכה ראשונית מול מודל מאומן. בדרך כלל, את המודל שאומן בהתאם לקבוצת האימות לפני שמבצעים הערכה של המודל ביחס לקבוצת הבדיקה.

בדרך כלל, מחלקים את הדוגמאות במערך הנתונים לשלושת הדוגמאות הבאות קבוצות משנה נפרדות:

באופן אידיאלי, כל דוגמה במערך הנתונים צריכה להיות שייכת רק לאחת מקבוצות המשנה הקודמות. לדוגמה, דוגמה אחת לא צריכה להיות שייכת גם ערכת האימון וגם קבוצת האימות.

שיוך ערכים

התהליך של החלפת ערך חסר בערך חלופי קביל. אם חסר ערך, ניתן למחוק את הדוגמה כולה או יכול להשתמש בהקצאת ערך כדי להשמיט את הדוגמה.

לדוגמה, נבחן מערך נתונים שמכיל את התכונה temperature אמורים להיות מתועדים בכל שעה. עם זאת, ערך הטמפרטורה היה לא זמין במשך שעה מסוימת. לפניכם קטע מתוך מערך הנתונים:

חותמת זמן טמפרטורה
1680561000 10
1680564600 12
1680568200 חסר
1680571800 20
1680575400 21
1680579000 21

המערכת יכולה למחוק את הדוגמה החסרה או להכליל את הטמפרטורה החסרה כ-12,‏ 16,‏ 18 או 20, בהתאם לאלגוריתם ההשלמה.

בעיה הדרגתית נעלמת

#seq

הנטייה ההדרגתית של שכבות מוסתרות בשלב מוקדם חלק מרשתות הנוירונים העמוקות שיהפכו שטוחה באופן מפתיע (נמוך). ככל שההדרגתיות נמוכה יותר ויותר שינויים קטנים במשקולות בצמתים ברשת נוירונים עמוקה, מה שמוביל הם לא לומדים, או לא לומדים בהם. קשה או בלתי אפשרי לאמן מודלים שסובלים מבעיית התנאי של היעלמות השיפוע. תאים של זיכרון לטווח ארוך לטווח קצר פותרים את הבעיה הזו.

בהשוואה לבעיית שיפוע מתפוצץ.

חשיבות משתנה

#df

קבוצת ציונים שמציינת את החשיבות היחסית של כל מאפיין למודל.

לדוגמה, נניח שרוצים ליצור עץ החלטות שמעריך את מחירי הבתים. נניח שעץ ההחלטות הזה משתמש בשלושה מאפיינים: גודל, גיל וסגנון. אם קבוצת החשיבות של המשתנים לשלושת המאפיינים מחושבת כ-{size=5.8, age=2.5, style=4.7}, המשמעות היא שהמאפיין size חשוב יותר לעץ ההחלטות מאשר age או style.

קיימים מדדים שונים של חשיבות של משתנים, שיכולים לקלוט את המידע מומחים ללמידת מכונה על היבטים שונים של מודלים.

מקודד אוטומטי וריאציוני (VAE)

#language

סוג של מקודד אוטומטי שמנצל את אי-ההתאמה בין קלט לפלט כדי ליצור גרסאות ששונו של הקלט. מקודדים אוטומטיים וריאציוניים (VAE) הם שימושיים לשימוש ב-AI גנרטיבי.

אירועי VEE מבוססים על מסקנות משתנות: שיטה להערכת בפרמטרים של מודל ההסתברות.

וקטור

מונח עמוס מאוד שהמשמעות שלו משתנה מבחינות מתמטיות שונות ובתחומים מדעיים. בלמידת מכונה, לוקטור כולל שני מאפיינים:

  • סוג הנתונים: וקטורים בלמידת מכונה בדרך כלל מכילים מספרי נקודה צפה (floating-point).
  • מספר הרכיבים: זהו אורך הווקטור או המאפיין שלו.

לדוגמה, נניח שיש וקטור מאפיינים שמכיל שמונה מספרים בספרות עשרוניות. האורך או המאפיין של וקטור המאפיינים הזה הוא שמונה. חשוב לזכור שלווקטורים של למידת מכונה יש בדרך כלל מספר רב של מאפיינים.

אפשר לייצג סוגים רבים ושונים של מידע בתור וקטור. לדוגמה:

  • כל מיקום על פני כדור הארץ יכול להיות מיוצג כוקטור דו-מימדי, שבו המאפיין הראשון הוא קו הרוחב והשני הוא קו האורך.
  • אפשר לייצג את המחירים הנוכחיים של כל אחת מ-500 מניות וקטור 500 ממדי.
  • אפשר לייצג התפלגות הסתברויות במספר סופי של כיתות כוקטור. לדוגמה, במערכת סיווג רב-קטגוריות, חוזה אחד מתוך שלושה צבעי פלט (אדום, ירוק או צהוב) שהפלט הוא את הווקטור (0.3, 0.2, 0.5) ומשמעותו P[red]=0.3, P[green]=0.2, P[yellow]=0.5.

אפשר לשרשר וקטורים; ולכן אפשר להשתמש במגוון של סוגי מדיה שמיוצג בווקטור יחיד. חלק מהמודלים פועלים ישירות על שרשור של הרבה קידודים של ערכים חד-משמעיים (one-hot).

מעבדים מיוחדים כמו TPU מותאמים לביצוע פעולות מתמטיות על וקטורים.

וקטור הוא טנסור בעל דרג 1.

W

הפסד וסרשטיין

אחת מפונקציות האובדן הנפוצות ברשתות יריבות גנרטיביות, שמבוססת על מרחק Earth Mover's בין התפלגות הנתונים שנוצרו לבין הנתונים האמיתיים.

משקל

#fundamentals

ערך שהמודל מכפיל בערך אחר. אימון הוא התהליך של קביעת המשקלים האידיאליים של מודל, והסקה הוא התהליך של שימוש במשקלים שנלמדו כדי לבצע תחזיות.

ריבועים נמוכים יותר משוקללים (WALS)

#recsystems

אלגוריתם למזעור פונקציית היעד במהלך פירוק מטריצות במערכות המלצות, שמאפשר להפחית את המשקל של הדוגמאות החסרות. WALS ממזער את בריבוע בין המטריצה המקורית לבין השחזור לפי ביצוע לסירוגין בין תיקון הפירוק לגורמים של שורות לבין פירוק לגורמים של עמודות. אפשר לפתור כל אחת מהאופטימיזציות האלה באמצעות אופטימיזציה קונית של ריבועים קטנים. פרטים נוספים זמינים בקורס 'מערכות המלצות'.

סכום משוקלל

#fundamentals

הסכום של כל ערכי הקלט הרלוונטיים כפול המשקלים התואמים שלהם. לדוגמה, נניח שהקלט הרלוונטי מכיל את הנתונים הבאים:

ערך הקלט משקל הקלט
2 1.3-
-1 0.6
3 0.4

לכן הסכום המשוקלל הוא:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

סכום משוקלל הוא ארגומנט הקלט פונקציית ההפעלה.

מודל רחב

מודל לינארי שכולל בדרך כלל הרבה מאפייני קלט דלילים. אנחנו מתייחסים לכך כ'רחבה' מאז מודל כזה הוא סוג מיוחד של רשת נוירונים עם מספר גדול של מקורות קלט שמתחברים ישירות לצומת הפלט. דגמים רחבים לעיתים קרובות קל יותר לנפות באגים ולבדוק נתונים מאשר מודלים עמוקים. למרות שמודלים רחבים לא יכולים לבטא פונקציות לא לינאריות באמצעות שכבות חבויות, אפשר להשתמש בהם בשילוב עם טרנספורמציות כמו מיזוג מאפיינים וחלוקה לקטגוריות כדי ליצור מודלים של פונקציות לא לינאריות בדרכים שונות.

השוו בין שימושים במודל עומק.

רוחב

מספר הנוירונים בשכבה מסוימת של רשת עצבית.

חוכמת ההמונים

#df

הרעיון שלפיו חישוב הממוצע של דעות או אומדנים לגבי קבוצה גדולה מהאנשים ('הקהל') מניב תוצאות טובות ומפתיעות. לדוגמה, נניח שיש משחק שבו אנשים מנחשים את מספר סוכריות ג'לי ארוזות בצנצנת גדולה. למרות שרוב ההשערות הבודדות יהיו לא מדויקות, הניסיון מראה שהממוצע של כל ההשערות קרוב באופן מפתיע למספר האמיתי של הסוכריות בקופסה.

אוספים (ensembles) הם אנלוגיה תוכנתית של 'חוכמת ההמונים'. גם אם מודלים ספציפיים מניבים תחזיות לא מדויקות במיוחד, לרוב חישוב הממוצע של התחזיות של מודלים רבים מניב תחזיות טובות להפתיע. לדוגמה, יכול להיות שעץ החלטות ספציפי יספק תחזיות גרועות, אבל יער החלטות יספק לעיתים קרובות תחזיות טובות מאוד.

הטמעת מילים

#language

לייצג כל מילה בקבוצת מילים בתוך embedding vector; כלומר, שמייצג כל מילה בתור וקטור של ערכי נקודה צפה (floating-point) בין 0.0 ל-1.0. מילים עם מילים דומות משמעויות שונות יותר מאשר למילים עם משמעויות שונות. לדוגמה, לגזרים, לסלרי ולמלפפונים יהיו ייצוגים דומים יחסית, שיהיה שונה מאוד מהייצוגים של מטוס, משקפי שמש ומשחת שיניים.

X

XLA ‏(Accelerated Linear Algebra)

כלי מהדר בקוד פתוח ללמידת מכונה למעבדי GPU, למעבדים (CPU) ולמאיצים של למידת מכונה.

המהדר של XLA משתמש במודלים ממסגרות פופולריות של למידת מכונה כמו PyTorch, TensorFlow ו-JAX, שמבצע אופטימיזציה שלהם. לביצוע בעל ביצועים גבוהים בפלטפורמות חומרה שונות, מעבדי GPU, מעבדים (CPU) ומאיצים של למידת מכונה.

Z

למידה מאפס

סוג של אימון למידת מכונה, שבו המודל מסיק תחזית למשימה שלא אימנו אותו עליה באופן ספציפי. במילים אחרות, המודל לא נותנים לו אפס דוגמאות לאימון ספציפי למשימה כדי לבצע הסקת מסקנות לגבי המשימה הזו.

יצירת הנחיות מאפס

#language
#generativeAI

הנחיה שלא כוללת דוגמה לאופן שבו רוצים שהמודל השפה הגדול יגיב. לדוגמה:

חלקים בהנחיה אחת הערות
מהו המטבע הרשמי של המדינה שצוינה? השאלה שעליה יצטרך לענות ה-LLM.
הודו: השאילתה בפועל.

מודל השפה הגדול עשוי להשיב באחת מהאפשרויות הבאות:

  • רופיות
  • INR
  • רופי הודי
  • הרופי
  • הרופי ההודי

כל התשובות נכונות, אבל יכול להיות שתעדיפו פורמט מסוים.

השוו בין הנחיה ללא טירגוט לבין המונחים הבאים:

נירמול של ציון ה-Z

#fundamentals

שיטת התאמה לעומס (scaling) שמחליפה נתונים גולמיים הערך של feature עם ערך נקודה צפה (floating-point) מספר סטיות התקן מהממוצע של אותה תכונה. לדוגמה, נניח שיש תכונה שהממוצע שלה הוא 800 והסטייה התקינה שלה היא 100. הטבלה הבאה מציגה איך נירמול ציון ה-Z ימפה את הערך הגולמי לציון ה-Z שלו:

ערך גולמי נקודות Z
800 0
950 1.5+
575 2.25-

לאחר מכן, מודל למידת המכונה מתאמן על ציוני ה-Z של המאפיין הזה במקום על הערכים הגולמיים.