מילון מונחים ללמידת מכונה: עקרונות בסיסיים של למידת מכונה

הדף הזה מכיל מונחים ממילון 'יסודות ה-ML'. כאן מפורטות כל ההגדרות במילון.

A

דיוק

#fundamentals

מספר התחזיות של הסיווג הנכון חלקי מספר התחזיות הכולל. כלומר:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

לדוגמה, מודל שהניב 40 תחזיות נכונות ו-10 תחזיות שגויות יהיה בעל רמת דיוק של:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

סיווג בינארי מספק שמות ספציפיים לקטגוריות השונות של תחזיות נכונות ותחזיות שגויות. לכן, הנוסחה של הדיוק בסיווג בינארי היא:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

כאשר:

השוו בין הדיוק לבין הדיוק והחזר.

למידע נוסף, ראו סיווג: דיוק, זיכרון, רמת דיוק ומדדים קשורים במדריך למתחילים בנושא למידת מכונה.

פונקציית הפעלה

#fundamentals

פונקציה שמאפשרת לרשתות נוירונים ללמוד יחסים לא ליניאריים (מורכבים) בין המאפיינים לבין התווית.

פונקציות הפעלה פופולריות כוללות:

התרשימים של פונקציות ההפעלה אף פעם לא הם קווים ישרים בודדים. לדוגמה, התרשים של פונקציית ההפעלה ReLU מורכב משני קווים ישרים:

תרשים קרטוזי של שתי שורות. לשורה הראשונה יש ערך y קבוע של 0, שפועל לאורך ציר ה-x מ--infinity,0 עד 0,-0.
          השורה השנייה מתחילה ב-0,0. לשיפוע של הקו הזה יש ערך +1, ולכן הוא עובר מ-0,0 ל-+infinity,+infinity.

תרשים של פונקציית ההפעלה הסיגמואידית נראה כך:

תרשים עקומה דו-מימדי עם ערכי x שנעים בין אינסוף שלילי לבין חיובי, וערכי y שנעים בין כמעט 0 לבין כמעט 1. כש-x הוא 0, הערך של y הוא 0.5. השיפוע של העקומה הוא תמיד חיובי, עם השיפוע הגבוה ביותר ב-0,0.5 ושיפועים הולכים ופוחתים ככל שהערך המוחלט של x עולה.

מידע נוסף זמין בקטע רשתות נוירונליות: פונקציות הפעלה במסגרת קורס ה-Crash Course בנושא למידת מכונה.

לגבי בינה מלאכותית,

#fundamentals

תוכנית או מודל לא אנושיים שיכולים לפתור משימות מורכבות. לדוגמה, תוכנה או מודל שמתרגמים טקסט, או תוכנה או מודל שמזהים מחלות מתמונות רדיולוגיות, הם דוגמאות לשימוש בבינה מלאכותית.

באופן רשמי, למידת מכונה היא תחום משנה של בינה מלאכותית. עם זאת, בשנים האחרונות ארגונים מסוימים התחילו להשתמש במונחים בינה מלאכותית ולמידת מכונה באופן חלופי.

AUC (השטח מתחת לעקומת ROC)

#fundamentals

מספר בין 0.0 ל-1.0 שמייצג את היכולת של מודל סיווג בינארי להפריד בין כיתות חיוביות לבין כיתות שליליות. ככל ש-AUC קרוב יותר ל-1.0, כך למודל יש יכולת טובה יותר להפריד בין הכיתות.

לדוגמה, באיור הבא מוצג מודל סיווג שמפריד בצורה מושלמת בין כיתות חיוביות (אליפסות ירוקות) לכיתות שליליות (ריבועים סגולים). המודל המושלם הלא ריאליסטי הזה כולל AUC של 1.0:

קו מספרים עם 8 דוגמאות חיוביות בצד אחד ו-9 דוגמאות שליליות בצד השני.

לעומת זאת, באיור הבא מוצגות התוצאות של מודל סיווג שיצר תוצאות אקראיות. ערך AUC של המודל הזה הוא 0.5:

קו מספרים עם 6 דוגמאות חיוביות ו-6 דוגמאות שליליות.
          רצף הדוגמאות הוא חיובי, שלילי, חיובי, שלילי, חיובי, שלילי, חיובי, שלילי, חיובי, שלילי, חיובי.

כן, ערך AUC של המודל הקודם הוא 0.5 ולא 0.0.

רוב המודלים נמצאים במקום כלשהו בין שני הקצוות. לדוגמה, המודל הבא מפריד באופן חלקי בין תוצאות חיוביות לשליליות, ולכן ערך ה-AUC שלו הוא בין 0.5 ל-1.0:

קו מספרים עם 6 דוגמאות חיוביות ו-6 דוגמאות שליליות.
          רצף הדוגמאות הוא שלילי, שלילי, שלילי, שלילי, חיובי, שלילי, חיובי, חיובי, שלילי, חיובי, חיובי, חיובי.

פונקציית AUC מתעלמת מכל ערך שתגדירו לסף הסיווג. במקום זאת, AUC מתייחס לכל ערכי הסף האפשריים לסיווג.

למידע נוסף, ראו סיווג: ROC ו-AUC בקורס המקוצר על למידת מכונה.

B

חזרה לאחור (backpropagation)

#fundamentals

האלגוריתם שמטמיע את ירידה בגרדינט ברשתות נוירונים.

אימון של רשת נוירונים כרוך בהרבה iterations של המחזור הבא בשני שלבים:

  1. במהלך העברה קדימה, המערכת מעבדת קבוצה של דוגמאות כדי לספק חיזויים. המערכת משווה כל תחזית לכל ערך של תווית. ההפרש בין התחזית לערך התווית הוא האובדן לדוגמה הזו. המערכת אוספת את ההפסדים של כל הדוגמאות כדי לחשב את ההפסד הכולל של האצווה הנוכחית.
  2. במהלך החזרה לאחור (backpropagation), המערכת מפחיתה את האובדן על ידי התאמת המשקלים של כל הנוירונים בכל השכבות המוסתרות.

רשתות נוירונים מכילות לעיתים קרובות הרבה נוירונים במספר שכבות חבויות. כל אחד מהנוירונים האלה תורם להפסד הכולל בדרכים שונות. התפשטות לאחור קובעת אם להגדיל או להקטין את המשקלים שחלים על תאי עצב מסוימים.

שיעור הלמידה הוא מכפיל שקובע את מידת העלייה או הירידה של כל משקל בכל מעבר לאחור. שיעור למידה גבוה יגדיל או יקטין כל משקל יותר מאשר שיעור למידה נמוך.

במונחים של חשבון, החזרה לאחור מיישמת את כלל השרשרת. מחשבון. כלומר, חזרה לאחור מחשבת את הנגזרת החלוקה של השגיאה ביחס לכל פרמטר.

לפני שנים, מומחי למידת מכונה נאלצו לכתוב קוד כדי להטמיע חזרה לאחור. ממשקי API מודרניים של למידת מכונה כמו Keras מטמיעים עכשיו עבורכם חזרה לאחור (backpropagation). סוף סוף!

מידע נוסף זמין בקטע רשתות נוירונליות בקורס המקוצר על למידת מכונה.

אצווה

#fundamentals

קבוצת הדוגמאות שמשמשות במחזור אחד של אימון. גודל האצווה קובע את מספר הדוגמאות באצווה.

בקטע epoch מוסבר איך קבוצה קשורה ל-epoch.

מידע נוסף זמין בקטע רגרסיה לינארית: היפר-פרמטרים בקורס המקוצר בנושא למידת מכונה.

גודל אצווה

#fundamentals

מספר הדוגמאות בקבוצה. לדוגמה, אם גודל האצווה הוא 100, המערכת מעבדת 100 דוגמאות לכל מחזור.

אלה כמה מהשיטות הפופולריות לקביעת גודל האצווה:

  • Stochastic Gradient Descent‏ (SGD), שבה גודל האצווה הוא 1.
  • קבוצה מלאה, שבה גודל הקבוצה הוא מספר הדוגמאות בכל קבוצת האימון. לדוגמה, אם קבוצת האימון מכילה מיליון דוגמאות, גודל האצווה יהיה מיליון דוגמאות. בדרך כלל, שיטת 'קבוצה מלאה' היא לא יעילה.
  • מיני-באצ', שבהם גודל הקבוצה הוא בדרך כלל בין 10 ל-1,000. בדרך כלל, שיטת ה-mini-batch היא השיטה היעילה ביותר.

מידע נוסף זמין במאמרים הבאים:

הטיה (אתיקה/הוגנות)

#fairness
#fundamentals

1. יצירת קלישאות, דעות קדומות או העדפה של דברים, אנשים או קבוצות מסוימים על פני אחרים. ההטיות האלה יכולות להשפיע על איסוף הנתונים ועל הפרשתם, על תכנון המערכת ועל האופן שבו המשתמשים מקיימים אינטראקציה עם המערכת. דוגמאות לסוג הזה של הטיה:

2. שגיאה שיטתית שנובעת מפרוצדורה של דגימה או דיווח. דוגמאות לסוג הזה של הטיה:

חשוב לא להתבלבל עם מונח ההטיה במודלים של למידת מכונה או עם הטיית החיזוי.

למידע נוסף, ראו צדק: סוגי הטיות במדריך למתחילים בנושא למידת מכונה.

הטיה (מתמטית) או מונח הטיה

#fundamentals

ציר או סטייה ממקור. הטיה היא פרמטר במודלים של למידת מכונה, שסימונו הוא אחד מהסמלים הבאים:

  • b
  • w0

לדוגמה, הנטייה היא הערך b בנוסחה הבאה:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

בקווים דו-ממדיים פשוטים, הטיה היא פשוט 'נקודת הצטלבות עם ציר y'. לדוגמה, ההטיה של הקו באיור הבא היא 2.

התרשים של קו עם שיפוע של 0.5 וסטייה (נקודת המפגש של הקו עם ציר y) של 2.

הטיה קיימת כי לא כל המודלים מתחילים בנקודת המוצא (0,0). לדוגמה, נניח שהכניסה לפארק שעשועים עולה 2 אירו ועוד 0.5 אירו לכל שעה שהלקוח שוהה בפארק. לכן, לדגם שממפה את העלות הכוללת יש הטיה של 2, כי העלות הנמוכה ביותר היא 2 אירו.

חשוב לא להתבלבל בין הטיה לבין הטיה מבחינה אתית והוגנת או הטיה בתחזית.

מידע נוסף זמין בקטע רגרסיה לינארית במאמר קורס מקוצר על למידת מכונה.

סיווג בינארי

#fundamentals

סוג של משימה של סיווג שמטרתה לחזות אחת משתי קטגוריות בלתי ניתנות להפרדה:

לדוגמה, שני המודלים הבאים של למידת מכונה מבצעים כל אחד סיווג בינארי:

  • מודל שמזהה אם הודעות אימייל הן ספאם (הקבוצה החיובית) או לא ספאם (הקבוצה השלילית).
  • מודל שמעריך סימפטומים רפואיים כדי לקבוע אם לאדם יש מחלה מסוימת (הסיווג החיובי) או שאין לו את המחלה הזו (הסיווג השלילי).

בניגוד לסיווג של כמה מחלקות.

אפשר לעיין גם במאמרים רגרסיה לוגיסטית וסף סיווג.

מידע נוסף זמין בקטע סיווג במאמר קורס מקוצר על למידת מכונה.

bucketing

#fundamentals

המרת מאפיין יחיד למספר מאפיינים בינאריים שנקראים קטגוריות או תאים, בדרך כלל על סמך טווח ערכים. התכונה החתוכה היא בדרך כלל תכונה רציפה.

לדוגמה, במקום לייצג את הטמפרטורה כמאפיין יחיד רצוף של נקודה צפה, אפשר לפצל טווחי טמפרטורות לקטגוריות נפרדות, כמו:

  • קטגוריית 'קר' תהיה קטגוריה עם הטמפרטורה<= 10 מעלות צלזיוס.
  • 11 עד 24 מעלות צלזיוס ייכללו בקטגוריה 'מזג אוויר נוח'.
  • 'חם': 25 מעלות צלזיוס ומעלה.

המודל יתייחס לכל ערך באותו קטגוריה באופן זהה. לדוגמה, הערכים 13 ו-22 נמצאים בקטגוריה 'אקלים ממוזג', ולכן המודל מתייחס לשני הערכים באופן זהה.

למידע נוסף, ראו נתונים מספריים: חלוקה לקבוצות בקורס המקוצר בנושא למידת מכונה.

C

נתונים קטגוריאליים

#fundamentals

מאפיינים שיש להם קבוצה ספציפית של ערכים אפשריים. לדוגמה, נניח שיש מאפיין קטגוריאלי בשם traffic-light-state, שיכול לקבל רק אחד משלושת הערכים האפשריים הבאים:

  • red
  • yellow
  • green

ייצוג המאפיין traffic-light-state כמאפיין קטגוריאלי מאפשר למודל ללמוד את ההשפעות השונות של red,‏ green ו-yellow על התנהגות הנהגים.

לפעמים תכונות קטגוריות נקראות תכונות בדידות.

בניגוד לנתונים מספריים.

מידע נוסף זמין בקטע עבודה עם נתונים קטגוריאליים בקורס המקוצר בנושא למידת מכונה.

מחלקה

#fundamentals

קטגוריה שתווית יכולה להשתייך אליה. לדוגמה:

  • במודל סיווג בינארי שמזהה ספאם, שני הכיתות יכולות להיות ספאם ולא ספאם.
  • במודל סיווג מרובה-כיתתי שמזהה גזעי כלבים, הכיתות יכולות להיות פודל, ביגל, מולוס וכו'.

מודל סיווג חוזה סיווג. לעומת זאת, מודל רגרסיה מנבא מספר ולא סיווג.

מידע נוסף זמין בקטע סיווג במאמר קורס מקוצר על למידת מכונה.

מודל סיווג

#fundamentals

מודל שהחיזוי שלו הוא מחלקה. לדוגמה, אלה כולם מודלים של סיווג:

  • מודל לחיזוי השפה של משפט קלט (צרפתית? ספרדית? איטלקית?).
  • מודל לחיזוי מיני עצים (אדר? אלון? באובב?).
  • מודל שמתאר את הסיכוי לקבלת תוצאה חיובית או שלילית לגבי מצב רפואי מסוים.

לעומת זאת, מודלים של רגרסיה צופים מספרים ולא כיתות.

שני סוגים נפוצים של מודלים של סיווג הם:

סף סיווג (classification threshold)

#fundamentals

בסיווג בינארי, מספר בין 0 ל-1 שממיר את הפלט הגולמי של מודל רגרסיה לוגיסטית לחיזוי של הקלאס החיובי או של הקלאס השלילי. חשוב לזכור שסף הסיווג הוא ערך שבני אדם בוחרים, ולא ערך שנבחר על ידי אימון המודל.

מודל רגרסיה לוגיסטית מניב ערך גולמי בין 0 ל-1. לאחר מכן:

  • אם הערך הגולמי הזה גדול מסף הסיווג, המערכת תחזה את הכיתה החיובית.
  • אם הערך הגולמי הזה קטן מערך הסף לסיווג, תתבצע חיזוי של הכיתה השלילית.

לדוגמה, נניח שסף הסיווג הוא 0.8. אם הערך הגולמי הוא 0.9, המודל חוזה את הכיתה החיובית. אם הערך הגולמי הוא 0.7, המודל מנבא את הכיתה השלילית.

הבחירה של סף הסיווג משפיעה מאוד על מספר התוצאות החיוביות הכוזבות ועל מספר התוצאות השליליות הכוזבות.

מידע נוסף זמין בקטע סף וערכי מטריצת הבלבול בקורס המקוצר בנושא למידת מכונה.

מערך נתונים עם אי-איזון בין הכיתות

#fundamentals

מערך נתונים לבעיית סיווג שבה המספר הכולל של תוויות בכל סיווג שונה באופן משמעותי. לדוגמה, נניח שיש מערך נתונים של סיווג בינארי, ושתי התוויות שלו מחולקות באופן הבא:

  • 1,000,000 תוויות שליליות
  • 10 תוויות חיוביות

היחס בין תוויות שליליות לתוויות חיוביות הוא 100,000 ל-1, כך שמדובר במערך נתונים עם חוסר איזון בין הכיתות.

לעומת זאת, מערך הנתונים הבא לא לא מאוזן מבחינת סיווג כי היחס בין תוויות שליליות לתוויות חיוביות קרוב ל-1:

  • 517 תוויות שליליות
  • 483 תוויות חיוביות

מערכי נתונים עם כמה סיווגים יכולים גם להיות לא מאוזנים מבחינת הסיווגים. לדוגמה, מערך הנתונים הבא של סיווג בכמה כיתות גם הוא לא מאוזן מבחינת הכיתות, כי לתוויות אחת יש הרבה יותר דוגמאות מאשר לשתי האחרות:

  • 1,000,000 תוויות עם הכיתה 'ירוק'
  • 200 תוויות עם הכיתה 'purple'
  • 350 תוויות עם הכיתה 'כתום'

מידע נוסף זמין במאמרים בנושא אנטרופי, הרוב והמיעוט.

חיתוך

#fundamentals

טכניקה לטיפול בחריגים באמצעות אחת מהפעולות הבאות או שתיהן:

  • הפחתת הערכים של המאפיין שגבוהים מסף מקסימלי עד לסף המקסימלי.
  • הגדלת ערכי המאפיינים שקטנים מסף מינימלי עד לסף המינימלי הזה.

לדוגמה, נניח שפחות מ-0.5% מהערכים של מאפיין מסוים נמצאים מחוץ לטווח 40 עד 60. במקרה כזה, תוכלו לבצע את הפעולות הבאות:

  • חיסור של כל הערכים שמעל 60 (הסף המקסימלי) כך שהם יהיו בדיוק 60.
  • כל הערכים שקטנים מ-40 (הסף המינימלי) יקוצצו לערך 40.

ערכים חריגים עלולים לפגוע במודלים, ולפעמים לגרום למשקלים לחרוג מטווח הערכים שלהם במהלך האימון. ערכים חריגים מסוימים יכולים גם לפגוע באופן משמעותי במדדים כמו דיוק. חיתוך הוא שיטה נפוצה להגבלת הנזק.

חיתוך שיפוע מאלץ את הערכים של השיפוע להישאר בטווח שנקבע במהלך האימון.

מידע נוסף זמין בקטע נתונים מספריים: נורמליזציה במדריך למתחילים בנושא למידת מכונה.

מטריצת בלבול

#fundamentals

טבלה בגודל NxN שמסכמת את מספר התחזיות הנכונות והשגויות של מודל הסיווג. לדוגמה, שימו לב למטריצת הבלבול הבאה של מודל סיווג בינארי:

גידול (חזוי) ללא גידול (חזוי)
גידול (ערכי סף) 18 (TP) 1 (FN)
ללא גידול (ערכי סף) 6 (FP) 452 (TN)

במטריית הבלבול שלמעלה מוצגים הנתונים הבאים:

  • מתוך 19 התחזיות שבהן העובדה המוכחת הייתה 'גידול', המודל סיווג בצורה נכונה 18 תחזיות וסיווג בצורה שגויה תחזית אחת.
  • מתוך 458 התחזיות שבהן האמת בפועל הייתה 'ללא גידול', המודל סיווג בצורה נכונה 452 תחזיות וסיווג בצורה שגויה 6 תחזיות.

מטריצת הבלבול של בעיית סיווג במספר מחלקות יכולה לעזור לכם לזהות דפוסים של שגיאות. לדוגמה, ניקח את מטריצת הבלבול הבאה של מודל סיווג בן 3 סיווגים שמסווג שלושה סוגים שונים של איריס (Virginica,‏ Versicolor ו-Setosa). כשהתשתית האמינה הייתה Virginica, מתוך מטריצת הבלבול עולה שהמודל היה צפוי לחזות בטעות את Versicolor הרבה יותר מאשר את Setosa:

  Setosa (חזוי) Versicolor (חזוי) Virginica (חזוי)
Setosa (ערכי סף) 88 12 0
Versicolor (ערכי סף) 6 141 7
Virginica (ערכי סף) 2 27 109

דוגמה נוספת: מטריצת בלבול עשויה לחשוף שמודל שהודרן לזיהוי ספרות בכתב יד נוטה לחזות בטעות את המספר 9 במקום 4, או בטעות את המספר 1 במקום 7.

מטריצות בלבול מכילות מספיק מידע כדי לחשב מגוון מדדי ביצועים, כולל רמת הדיוק ורמת החזרה.

תכונה רציפה

#fundamentals

תכונה עם טווח אינסופי של ערכים אפשריים, כמו טמפרטורה או משקל.

בניגוד לתכונה בדידה.

התכנסות

#fundamentals

מצב שמגיעים אליו כשהערכים של loss משתנים מעט מאוד או בכלל לא בכל חזרה. לדוגמה, עקומת האובדן הבאה מציעה שצבירת ההסכמה תתרחש אחרי כ-700 חזרות:

תרשים קרטוזי. ציר ה-X הוא אובדן. ציר ה-Y הוא מספר החזרות של האימון. האובדן גבוה מאוד במהלך החזרות הראשונות, אבל הוא יורד בצורה חדה. אחרי כ-100 חזרות, האובדן עדיין יורד, אבל באופן הדרגתי הרבה יותר. אחרי כ-700 חזרות, אובדן הלמידה נשאר יציב.

מודל מתכנס כשאימון נוסף לא משפרת אותו.

בלמידת עומק, ערכי האובדן נשארים לפעמים קבועים או כמעט קבועים במשך הרבה חזרות לפני שהם יורדים. במהלך תקופה ארוכה של ערכי אובדן קבועים, ייתכן שתקבלו תחושה מוטעית של התקרבות.

אפשר לעיין גם במאמר בנושא עצירה מוקדמת.

למידע נוסף, ראו התכנסות של מודלים ועקומות אובדן בקורס המקוצר בנושא למידת מכונה.

D

DataFrame

#fundamentals

סוג נתונים פופולרי ב-pandas שמייצג מערכי נתונים בזיכרון.

DataFrame הוא מקביל לטבלה או לגיליון אלקטרוני. לכל עמודה של DataFrame יש שם (כותרת), וכל שורה מזוהה באמצעות מספר ייחודי.

כל עמודה ב-DataFrame מובנית כמו מערך דו-מימדי, אלא שאפשר להקצות לכל עמודה סוג נתונים משלה.

אפשר לעיין גם בדף העזרה הרשמי של pandas.DataFrame.

מערך נתונים

#fundamentals

אוסף של נתונים גולמיים, שמאורגנים בדרך כלל (אבל לא רק) באחד מהפורמטים הבאים:

  • גיליון אלקטרוני
  • קובץ בפורמט CSV (ערכים מופרדים בפסיקים)

מודל עמוק

#fundamentals

רשת נוירונים שמכילה יותר משכבה מוסתרת אחת.

מודל עמוק נקרא גם רשת עצבית עמוקה.

בניגוד למודל רחב.

תכונה צפופה

#fundamentals

מאפיין שבו רוב הערכים או כולם שונים מאפס, בדרך כלל Tensor של ערכים בספרות עשרוניות. לדוגמה, הטנזור הבא עם 10 רכיבים הוא צפוף כי 9 מהערכים שלו שונים מאפס:

8 3 7 5 2 4 0 4 9 6

בניגוד למאפיין דל.

עומק

#fundamentals

הסכום של הגורמים הבאים ברשת נוירונים:

לדוגמה, רשת עצבית עם חמש שכבות חבויות ושכבת פלט אחת היא עמוקה ב-6.

שימו לב ששכבת הקלט לא משפיעה על העומק.

תכונה בדידה

#fundamentals

תכונה עם קבוצה סופית של ערכים אפשריים. לדוגמה, מאפיין שערכיו יכולים להיות רק animal (חיה), vegetable (ירק) או mineral (מינרל) הוא מאפיין בדיד (או קטגורי).

בניגוד לתכונה רציפה.

דינמי

#fundamentals

משהו שנעשה לעיתים קרובות או באופן קבוע. המונחים דינמי ובאינטרנט הם מונחים נרדפים בלמידת מכונה. אלה שימושים נפוצים של דינמיות ואונליין בלמידת מכונה:

  • מודל דינמי (או מודל אונליין) הוא מודל שעובר אימון מחדש בתדירות גבוהה או באופן רציף.
  • הדרכה דינמית (או הדרכה אונליין) היא תהליך של אימון בתדירות גבוהה או באופן רציף.
  • הסקה דינמית (או הסקה אונליין) היא תהליך יצירת התחזיות על פי דרישה.

מודל דינמי

#fundamentals

מודל שמתאמן מחדש לעיתים קרובות (ואולי אפילו באופן רציף). מודל דינמי הוא 'לומד לכל החיים' שמתאים את עצמו כל הזמן לנתונים המשתנים. מודל דינמי נקרא גם מודל אונליין.

בניגוד למודל סטטי.

E

הפסקה מוקדמת

#fundamentals

שיטה לסדרת שכוללת סיום של אימון לפני שהירידה בהפסד האימון מסתיימת. כשמשתמשים בעצירה מוקדמת, מפסיקים את אימון המודל בכוונה כשהאובדן במערך נתוני אימות מתחיל לעלות, כלומר כשהביצועים של הכללה נפגעים.

שכבת הטמעה

#language
#fundamentals

שכבה מוסתרת מיוחדת שמתאמנה על מאפיין קטגוריאלי בעל מאפיינים רבים, כדי ללמוד בהדרגה וקטור הטמעה בעל מאפיינים פחותים. שכבת הטמעה מאפשרת לרשת נוירונים להתאמן בצורה יעילה הרבה יותר מאשר אימון רק על התכונה הקטגורית בעלת המאפיינים המרובים.

לדוגמה, נכון לעכשיו יש ב-Earth תמיכה בכ-73,000 מינים של עצים. נניח שסוג העץ הוא מאפיין במודל, כך ששכבת הקלט של המודל כוללת וקטור one-hot באורך 73,000 רכיבים. לדוגמה, יכול להיות ש-baobab יוצג כך:

מערך של 73,000 רכיבים. ב-6,232 הרכיבים הראשונים מופיע הערך 0. הרכיב הבא מכיל את הערך 1. 66,767 האלמנטים האחרונים מכילים את הערך אפס.

מערך של 73,000 רכיבים הוא ארוך מאוד. אם לא מוסיפים שכבת הטמעה למודל, תהליך האימון יהיה מאוד ממושך בגלל הכפלה של 72,999 אפסים. אולי בחרתם שכבת הטמעה שתכלול 12 מאפיינים. כתוצאה מכך, שכבת ההטמעה תלמד בהדרגה וקטור הטמעה חדש לכל מין עץ.

במצבים מסוימים, גיבוב הוא חלופה סבירה לשכבת הטמעה.

מידע נוסף זמין בקטע הטמעות (Embeddings) בקורס המקוצר על למידת מכונה.

תקופה של זמן מערכת

#fundamentals

סבב אימון מלא על כל קבוצת האימון, כך שכל דוגמה עובדה פעם אחת.

תקופת אימון מייצגת חזרות של אימון N/גודל האצווה, כאשר N הוא המספר הכולל של הדוגמאות.

לדוגמה, נניח את הדברים הבאים:

  • מערך הנתונים מורכב מ-1,000 דוגמאות.
  • גודל האצווה הוא 50 דוגמאות.

לכן, כדי להשלים עידן אחד נדרשות 20 חזרות:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

מידע נוסף זמין בקטע רגרסיה לינארית: היפר-פרמטרים בקורס המקוצר בנושא למידת מכונה.

דוגמה

#fundamentals

הערכים של שורה אחת של מאפיינים, ואפשר גם של תווית. דוגמאות ללמידה מונחית נכללות בשתי קטגוריות כלליות:

  • דוגמה מתויגת מורכבת מתכונה אחת או יותר ומתווית. דוגמאות מתויגות משמשות במהלך האימון.
  • דוגמה ללא תווית מורכבת ממאפיין אחד או יותר, אבל ללא תווית. דוגמאות ללא תוויות משמשות במהלך ההסקה.

לדוגמה, נניח שאתם מארגנים אימון של מודל כדי לקבוע את ההשפעה של תנאי מזג האוויר על הציונים של התלמידים בבחינות. לפניכם שלוש דוגמאות עם תוויות:

תכונות תווית
טמפרטורה לחות לחץ ציון הבדיקה
15 47 998 טוב
19 34 1020 מצוינת
18 92 1012 גרועה

לפניכם שלוש דוגמאות ללא תוויות:

טמפרטורה לחות לחץ  
12 62 1014  
21 47 1017  
19 41 1021  

השורה של מערך נתונים היא בדרך כלל המקור הגולמי לדוגמה. כלומר, דוגמה בדרך כלל מורכבת מקבוצת משנה של העמודות במערך הנתונים. בנוסף, המאפיינים בדוגמה יכולים לכלול גם מאפיינים סינתטיים, כמו מעבר בין מאפיינים.

למידע נוסף, אפשר לעיין בקטע למידה בפיקוח בקורס 'מבוא ללמידת מכונה'.

F

תוצאה שלילית שגויה (FN)

#fundamentals

דוגמה שבה המודל חוזה בטעות את המחלקה השלילית. לדוגמה, המודל צופה שהודעת אימייל מסוימת לא ספאם (הקבוצה השלילית), אבל ההודעה הזו באמת ספאם.

תוצאה חיובית שגויה (FP)

#fundamentals

דוגמה שבה המודל חוזה בטעות את המחלקה החיובית. לדוגמה, המודל חוזה שהודעת אימייל מסוימת היא ספאם (הקלאס החיובי), אבל הודעת האימייל הזו בפועל לא ספאם.

מידע נוסף זמין בקטע סף וערכי מטריצת הבלבול בקורס המקוצר בנושא למידת מכונה.

שיעור תוצאות חיוביות שגויות (FPR)

#fundamentals

היחס בין הדוגמאות השליליות בפועל שהמודל ניבא בטעות כשיכות לקבוצה החיובית. הנוסחה הבאה מחשבת את שיעור התוצאות החיוביות השגויות:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

שיעור החיובים השקריים הוא ציר ה-x בעקומת ROC.

למידע נוסף, ראו סיווג: ROC ו-AUC בקורס המקוצר על למידת מכונה.

מאפיין

#fundamentals

משתנה קלט למודל למידת מכונה. דוגמה מורכבת מתכונה אחת או יותר. לדוגמה, נניח שאתם מארגנים אימון של מודל כדי לקבוע את ההשפעה של תנאי מזג האוויר על הציונים של התלמידים בבחינות. בטבלה הבאה מוצגות שלוש דוגמאות, כל אחת מהן מכילה שלושה מאפיינים ותווית אחת:

תכונות תווית
טמפרטורה לחות לחץ ציון הבדיקה
15 47 998 92
19 34 1020 84
18 92 1012 87

בניגוד לתווית.

מידע נוסף זמין בקטע למידה בפיקוח בקורס 'מבוא ללמידת מכונה'.

תכונה חוצת

#fundamentals

תכונה סינתטית שנוצרת על ידי 'מיזוג' של תכונות קטגוריות או תכונות בקטגוריות.

לדוגמה, נניח שיש מודל 'חיזוי מצב רוח' שמייצג את הטמפרטורה באחת מארבעת הקטגוריות הבאות:

  • freezing
  • chilly
  • temperate
  • warm

והוא מייצג את מהירות הרוח באחד משלושת הקטגוריות הבאות:

  • still
  • light
  • windy

ללא צירופי תכונות, המערכת מאומנת בנפרד על כל אחד משבעת הקטגוריות השונות שלמעלה. כך, המודל מתאמן על freezing, למשל, בנפרד מהאימון על windy, למשל.

לחלופין, אפשר ליצור שילוב של תכונות של טמפרטורה ומהירות רוח. למאפיין הסינתטי הזה יהיו 12 הערכים האפשריים הבאים:

  • freezing-still
  • freezing-light
  • freezing-windy
  • chilly-still
  • chilly-light
  • chilly-windy
  • temperate-still
  • temperate-light
  • temperate-windy
  • warm-still
  • warm-light
  • warm-windy

בעזרת צירופי תכונות, המודל יכול ללמוד את ההבדלים במצב הרוח בין יום freezing-windy לבין יום freezing-still.

אם יוצרים מאפיין סינתטי משני מאפיינים שיש לכל אחד מהם הרבה קטגוריות שונות, למאפיין המצטלב שייווצר יהיה מספר עצום של שילובים אפשריים. לדוגמה, אם למאפיין אחד יש 1,000 קטגוריות ולמאפיין השני יש 2,000 קטגוריות, למאפיין המצטבר יהיו 2,000,000 קטגוריות.

באופן רשמי, צלב הוא מכפלה קרטוזיאנית.

בדרך כלל משתמשים במאפיינים משולבים עם מודלים לינאריים, ולעיתים רחוקות משתמשים בהם עם רשתות עצביות.

מידע נוסף זמין בקטע נתונים קטגוריאליים: צירופי מאפיינים בקורס המקוצר בנושא למידת מכונה.

הנדסת פיצ'רים (feature engineering)

#fundamentals
#TensorFlow

תהליך שכולל את השלבים הבאים:

  1. לקבוע אילו תכונות עשויות להיות שימושיות באימון מודל.
  2. המרת נתונים גולמיים ממערך הנתונים לגרסאות יעילות של התכונות האלה.

לדוגמה, יכול להיות שתבחרו להשתמש בתכונה temperature. לאחר מכן, תוכלו להתנסות בחלוקה לקטגוריות כדי לבצע אופטימיזציה של מה שהמודל יכול ללמוד מטווחים שונים של temperature.

לפעמים ההנדסה של המאפיינים נקראת חילוץ מאפיינים או יצירת מאפיינים.

למידע נוסף, אפשר לעיין בקטע נתונים מספריים: איך מודל מטמיע נתונים באמצעות וקטורים של מאפיינים במדריך למתחילים בנושא למידת מכונה.

קבוצת תכונות

#fundamentals

הקבוצה של המאפיינים שבהם מתבצע אימון של המודל של למידת המכונה. לדוגמה, מיקוד, גודל הנכס ומצב הנכס עשויים להרכיב קבוצת תכונות פשוטה של מודל לחיזוי מחירי דיור.

וקטור מאפיינים

#fundamentals

המערך של ערכי feature שמרכיבים דוגמה. הווקטור המאפיין מוזן במהלך האימון ובמהלך ההסקה. לדוגמה, וקטור המאפיינים של מודל עם שני מאפיינים נפרדים יכול להיות:

[0.92, 0.56]

ארבע שכבות: שכבת קלט, שתי שכבות סמויות ושכבת פלט אחת.
          שכבת הקלט מכילה שני צמתים, אחד מכיל את הערך
          0.92 והשני מכיל את הערך 0.56.

כל דוגמה מספקת ערכים שונים לוקטור המאפיינים, כך שוקטור המאפיינים לדוגמה הבאה יכול להיות משהו כזה:

[0.73, 0.49]

הנדסת מאפיינים קובעת איך לייצג את המאפיינים בוקטור המאפיינים. לדוגמה, מאפיין קטגוריאלי בינארי עם חמישה ערכים אפשריים יכול להיות מיוצג באמצעות קידוד one-hot. במקרה כזה, החלק של וקטור המאפיינים לדוגמה מסוימת יהיה מורכב מארבעה אפסים ומערך 1.0 יחיד במיקום השלישי, באופן הבא:

[0.0, 0.0, 1.0, 0.0, 0.0]

דוגמה נוספת: נניח שהמודל מורכב משלושה מאפיינים:

  • מאפיין קטגוריאלי בינארי עם חמישה ערכים אפשריים שמיוצגים באמצעות קידוד one-hot. לדוגמה: [0.0, 1.0, 0.0, 0.0, 0.0]
  • מאפיין קטגורי בינארי נוסף עם שלושה ערכים אפשריים שמיוצגים באמצעות קידוד one-hot. לדוגמה: [0.0, 0.0, 1.0]
  • מאפיין של נקודה צפה (floating-point), לדוגמה: 8.3.

במקרה כזה, וקטור המאפיינים של כל דוגמה יהיה מיוצג על ידי תשעה ערכים. בהתאם לערכים לדוגמה ברשימה הקודמת, וקטור המאפיינים יהיה:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

למידע נוסף, אפשר לעיין בקטע נתונים מספריים: איך מודל מטמיע נתונים באמצעות וקטורים של מאפיינים במדריך למתחילים בנושא למידת מכונה.

לולאת משוב

#fundamentals

בלמידת מכונה, מצב שבו התחזיות של מודל משפיעות על נתוני האימון של אותו מודל או של מודל אחר. לדוגמה, מודל שממליץ על סרטים ישפיע על הסרטים שאנשים רואים, והם ישפיעו על מודלים עתידיים של המלצות לסרטים.

מידע נוסף זמין בקטע מערכות למידת מכונה בסביבת ייצור: שאלות שכדאי לשאול במדריך למתחילים בנושא למידת מכונה.

G

הכללה

#fundamentals

היכולת של המודל לבצע חיזויים מדויקים לגבי נתונים חדשים שלא נראו בעבר. מודל שיכול לבצע הכללה הוא ההפך ממודל שמוגדר לפיסת יתר.

למידע נוסף, אפשר לקרוא את הקטע הכללה בקורס המקוצר על למידת מכונה.

עקומת הכללה

#fundamentals

תרשים של אובדן האימון ושל אובדן האימות כפונקציה של מספר החזרות.

עקומת הכללה יכולה לעזור לכם לזהות התאמה יתר. לדוגמה, עקומת הגנרליזציה הבאה מצביעה על התאמה יתר, כי אובדן האימות הופך בסופו של דבר גבוה משמעותית מאובדן האימון.

תרשים קרטוזי שבו ציר ה-Y מסומן בתווית &#39;אובדן&#39; וציר ה-X מסומן בתווית &#39;חזרות&#39;. יופיעו שני תרשימים. בתרשים אחד מוצג אובדן האימון ובתרשים השני מוצג אובדן האימות.
          שתי התרשימים מתחילים באופן דומה, אבל אובדן הלמידה יורד בסופו של דבר הרבה מתחת לאובדן האימות.

למידע נוסף, אפשר לקרוא את הקטע הכללה בקורס המקוצר על למידת מכונה.

ירידה בגרדינט

#fundamentals

טכניקה מתמטית לצמצום הפסד. ירידה בגרדינט מתאימה באופן איטרטיבי את המשקלים ואת ההטיות, ומוצאת בהדרגה את השילוב הטוב ביותר לצמצום האובדן.

ירידה בגרדינט היא שיטה ישנה – הרבה יותר ישנה – מלמידת מכונה.

מידע נוסף זמין בקטע רגרסיה לינארית: ירידה בגרדינט במסגרת קורס ה-Crash Course בנושא למידת מכונה.

ערכי סף (ground truth)

#fundamentals

מציאות.

מה שקרה בפועל.

לדוגמה, נניח שיש מודל סיווג בינארי שמנבא אם סטודנט בשנה הראשונה שלו באוניברסיטה יסיים את הלימודים תוך שש שנים. האמת בפועל של המודל הזה היא אם התלמיד סיים את הלימודים תוך שש שנים או לא.

H

שכבה נסתרת

#fundamentals

שכבה ברשת עצבית בין שכבת הקלט (המאפיינים) לבין שכבת הפלט (החיזוי). כל שכבה מוסתרת מורכבת מנוירון אחד או יותר. לדוגמה, רשת העצבים הבאה מכילה שתי שכבות סמויות, הראשונה עם שלושה נוירונים והשנייה עם שני נוירונים:

ארבע שכבות. השכבה הראשונה היא שכבת קלט שמכילה שני מאפיינים. השכבה השנייה היא שכבה מוסתרת שמכילה שלושה נוירונים. השכבה השלישית היא שכבה מוסתרת שמכילה שני נוירונים. השכבה הרביעית היא שכבת פלט. כל מאפיין מכיל שלושה קצוות, שכל אחד מהם מפנה לנוירון אחר בשכבה השנייה. כל אחד מהנוירונים בשכבה השנייה מכיל שני קצוות, שכל אחד מהם מצביע על נוירון אחר בשכבה השלישית. כל אחד מהנוירונים בשכבה השלישית מכיל קצוות אחד, שמצביע על שכבת הפלט.

רשת עצבית עמוקה מכילה יותר משכבה אחת מוסתרת. לדוגמה, האיור הקודם הוא רשת נוירונלית עמוקה כי המודל מכיל שתי שכבות חבויות.

מידע נוסף זמין בקטע רשתות נוירונליות: צמתים ושכבות מוסתרות במדריך למתחילים בנושא למידת מכונה.

היפר-פרמטר

#fundamentals

המשתנים שאתם או שירות לכוונון היפר-פרמטריםמשנים במהלך רצפים של אימון מודל. לדוגמה, שיעור הלמידה הוא היפר-פרמטר. אפשר להגדיר את קצב הלמידה ל-0.01 לפני סשן אימון אחד. אם תבחרו שהערך 0.01 גבוה מדי, תוכלו להגדיר את קצב הלמידה ל-0.003 בסשן האימון הבא.

לעומת זאת, פרמטרים הם משקלים והטיות שונים שהמודל לומד במהלך האימון.

מידע נוסף זמין בקטע רגרסיה לינארית: היפר-פרמטרים בקורס המקוצר בנושא למידת מכונה.

I

נתונים בעלי התפלגות עצמאית זהה (i.i.d)

#fundamentals

נתונים שנשלפים מהתפלגות שלא משתנה, ושכל ערך שנשלף לא תלוי בערכים שנשלפו בעבר. נתונים בלתי תלויים זהים הם הגז האידיאלי של למידת המכונה – מבנה מתמטי שימושי, אבל כמעט אף פעם לא נמצא במדויק בעולם האמיתי. לדוגמה, חלוקת המבקרים בדף אינטרנט עשויה להיות בלתי תלויה בחלון זמן קצר. כלומר, החלוקה לא משתנה במהלך החלון הקצר הזה, ובדרך כלל הביקור של אדם אחד לא תלוי בביקורים של אנשים אחרים. עם זאת, אם תרחיבו את חלון הזמן הזה, יכול להיות שיופיעו הבדלים עונתיים במספר המבקרים בדף האינטרנט.

מידע נוסף זמין במאמר בנושא חוסר סטציונריות.

הסקה

#fundamentals

בלמידת מכונה, תהליך יצירת חיזויים על ידי החלת מודל מאומן על דוגמאות ללא תוויות.

למושג 'הסקה' יש משמעות שונה במעט בסטטיסטיקה. פרטים נוספים זמינים במאמר בנושא הסקת מסקנות סטטיסטיות בוויקיפדיה.

במאמר למידה מונחית בקורס 'מבוא ל-ML' מוסבר מה תפקיד ההסקה במערכת של למידה מונחית.

שכבת קלט

#fundamentals

השכבה של רשת נוירונים שמכילה את וקטור המאפיינים. כלומר, שכבת הקלט מספקת דוגמאות לאימון או להסקה. לדוגמה, שכבת הקלט ברשת העצבית הבאה מורכבת משתי תכונות:

ארבע שכבות: שכבת קלט, שתי שכבות סמויות ושכבת פלט.

יכולת הפרשנות

#fundamentals

היכולת להסביר או להציג את התובנות של מודל של למידת מכונה במונחים שאנשים יכולים להבין.

לדוגמה, רוב המודלים של רגרסיה לינארית ניתנים לניתוח בקלות רבה. (צריך רק לבדוק את המשקלים המאומנים של כל מאפיין). בנוסף, קל מאוד להבין את יערות ההחלטות. עם זאת, בחלק מהמודלים נדרשת תצוגה חזותית מתוחכמת כדי שאפשר יהיה להבין אותם.

אפשר להשתמש בכלי להסבר על למידת מכונה (LIT) כדי לפרש מודלים של למידת מכונה.

איטרציה

#fundamentals

עדכון יחיד של הפרמטרים של המודלהמשקולות וההטיות של המודל – במהלך האימון. גודל האצווה קובע כמה דוגמאות המודל מעבד בחזרה אחת. לדוגמה, אם גודל האצווה הוא 20, המערכת מעבדת 20 דוגמאות לפני שהיא משייכת את הפרמטרים.

כשמאמנים רשת נוירונים, חזרה אחת כוללת את שני השלבים הבאים:

  1. העברה קדימה (forward pass) כדי להעריך את האובדן בקבוצה אחת.
  2. העברה לאחור (backpropagation) כדי לשנות את הפרמטרים של המודל על סמך האובדן וקצב הלמידה.

L

רגולריזציה של L0

#fundamentals

סוג של תיקון שמחיל על המספר הכולל של משקלים שאינם אפס במודל. לדוגמה, מודל עם 11 משקלים שאינם אפס יקבל עונש גבוה יותר מאשר מודל דומה עם 10 משקלים שאינם אפס.

לפעמים קוראים לרגולריזציה מסוג L0 רגולריזציה לפי נורמלי L0.

אובדן L1

#fundamentals

פונקציית אובדן שמחשבת את הערך המוחלט של ההפרש בין הערכים בפועל של התוויות לבין הערכים שהמודל צופה. לדוגמה, זהו החישוב של אובדן L1 בקבוצה של חמש דוגמאות:

הערך בפועל של הדוגמה הערך הצפוי של המודל הערך המוחלט של הדלתה
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = אובדן L1

אובדן L1 פחות רגיש לערכים חריגים מאשר אובדן L2.

השגיאה הממוצעת המוחלטת היא אובדן L1 הממוצע לכל דוגמה.

רגולריזציה של L1

#fundamentals

סוג של רגולריזציה שמטיל קנס על משקלים ביחס לסכום הערך המוחלט של המשקלים. רגולריזציה של L1 עוזרת להקטין את המשקלים של מאפיינים לא רלוונטיים או כמעט לא רלוונטיים ל-0. תכונה עם משקל של 0 נחשבת כתכונה שהוסרה מהמודל.

בניגוד לרגילור L2.

אובדן L2

#fundamentals

פונקציית אובדן שמחשבת את הריבועים של ההפרש בין הערכים בפועל של התוויות לבין הערכים שהמודל צופה. לדוגמה, זהו החישוב של אובדן L2 בקבוצה של חמש דוגמאות:

הערך בפועל של הדוגמה הערך הצפוי של המודל ריבוע הדלתא
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
  16 = הפסד ב-L2

בגלל הריבועים, אובדן L2 מגביר את ההשפעה של ערכים חריגים. כלומר, אובדן L2 מגיב בצורה חזקה יותר לחיזויים גרועים מאשר אובדן L1. לדוגמה, האובדן ב-L1 של האצווה הקודמת יהיה 8 במקום 16. שימו לב שערכה חריגה אחת מהווה 9 מתוך 16 הערכים.

במודלים של רגרסיה נעשה בדרך כלל שימוש בפונקציית ההפסד L2.

השגיאה הריבובית הממוצעת היא אובדן L2 הממוצע לכל דוגמה. Squared loss הוא שם נוסף ל-L2 loss.

רגולריזציה של L2

#fundamentals

סוג של סדרה שמענישה את המשקלים ביחס לסכום של הריבועים של המשקלים. רגולריזציה של L2 עוזרת להביא את המשקלים של ערכים חריגים (אלה עם ערכים חיוביים גבוהים או ערכים שליליים נמוכים) קרוב יותר ל-0, אבל לא ממש ל-0. מאפיינים עם ערכים שקרובים מאוד ל-0 נשארים במודל, אבל הם לא משפיעים הרבה על התחזית של המודל.

תמיד קל יותר להכליל מודלים לינאריים כשמשתמשים ברגולציה L2.

בניגוד לרגילור L1.

תווית

#fundamentals

בלמידת מכונה מבוקרת, החלק 'תשובה' או 'תוצאה' בדוגמה.

כל דוגמה מתויגת מורכבת ממאפיין אחד או יותר ומתווית. לדוגמה, במערך נתונים לזיהוי ספאם, התווית תהיה כנראה 'ספאם' או 'לא ספאם'. במערך נתונים של כמות משקעים, התווית עשויה להיות כמות המשקעים שירדה בתקופה מסוימת.

דוגמה עם תווית

#fundamentals

דוגמה שמכילה תכונה אחת או יותר ותווית. לדוגמה, בטבלה הבאה מוצגות שלוש דוגמאות עם תוויות ממודל להערכת ערך של בית, כל אחת עם שלוש תכונות ותווית אחת:

מספר חדרי שינה מספר חדרי האמבטיה גיל הבית מחיר הבית (תווית)
3 2 15 345,000$
2 1 72 179,000$
4 2 34 392,000$

בלמידת מכונה בפיקוח, המודלים עוברים אימון על דוגמאות מתויגות ומבצעים חיזויים על דוגמאות לא מתויגות.

השוואה בין דוגמה עם תוויות לבין דוגמאות ללא תוויות.

lambda

#fundamentals

שם נרדף ל-שיעור רגולריזציה.

Lambda הוא מונח עם עומס יתר. כאן אנחנו מתמקדים בהגדרת המונח ברגולריזציה.

שכבה

#fundamentals

קבוצה של נוירונים ברשת נוירונים. שלושה סוגים נפוצים של שכבות:

לדוגמה, באיור הבא מוצגת רשת עצבית עם שכבת קלט אחת, שתי שכבות חבויות ושכבת פלט אחת:

רשת עצבית עם שכבת קלט אחת, שתי שכבות סמויות ושכבת פלט אחת. שכבת הקלט מורכבת משתי תכונות. השכבה החבויה הראשונה מורכבת משלושה תאי עצב, והשכבה החבויה השנייה מורכבת משני תאי עצב. שכבת הפלט מורכבת מצומת יחיד.

ב-TensorFlow, שכבות הן גם פונקציות Python שמקבלות Tensors ואפשרויות הגדרה כקלט, ויוצרות אחרים כפלט.

קצב למידה

#fundamentals

מספר עם נקודה צפה שמציין לאלגוריתם gradient descent את מידת ההתאמה של המשקלים וההטיות בכל חזרה. לדוגמה, שיעור למידה של 0.3 יתאים את המשקלים וההטיות בעוצמה פי שלושה יותר מאשר שיעור למידה של 0.1.

קצב הלמידה הוא היפר-פרמטר מרכזי. אם תגדירו את קצב הלמידה נמוך מדי, תהליך האימון יימשך זמן רב מדי. אם מגדירים את קצב הלמידה גבוה מדי, לעיתים קרובות קשה להגיע להתכנסות בגרדינט דסצנט.

ליניארי

#fundamentals

קשר בין שני משתנים או יותר שאפשר לייצג רק באמצעות חיבור והכפלה.

הגרף של קשר לינארי הוא קו.

בניגוד ללא לינארי.

מודל לינארי

#fundamentals

מודל שמקצה משקל אחד לכל מאפיין כדי לבצע חיזויים. (מודלים לינאריים כוללים גם הטיה). לעומת זאת, במודלים עמוקים, הקשר בין המאפיינים לתחזיות הוא בדרך כלל לא לינארי.

בדרך כלל קל יותר לאמן מודלים לינאריים, והם קלים יותר לפרש מאשר מודלים עמוקים. עם זאת, מודלים עמוקים יכולים ללמוד קשרים מורכבים בין תכונות.

רגרסיה ליניארית ורגרסיה לוגיסטית הם שני סוגים של מודלים לינאריים.

רגרסיה לינארית

#fundamentals

סוג של מודל למידת מכונה שבו מתקיימים שני התנאים הבאים:

השוואה בין רגרסיה לינארית לבין רגרסיה לוגיסטית. כמו כן, כדאי להבדיל בין רגרסיה לבין סיווג.

רגרסיה לוגיסטית

#fundamentals

סוג של מודל רגרסיה שמנבא את הסבירות. למודלים של רגרסיה לוגיסטית יש את המאפיינים הבאים:

  • התווית היא קטגוריאלית. המונח רגרסיה לוגיסטית מתייחס בדרך כלל לרגרסיה לוגיסטית בינארית, כלומר למודל שמחשב הסתברויות לתווית עם שני ערכים אפשריים. וריאנט פחות נפוץ, רגרסיה לוגיסטית פולינומית, מחשב את הסבירויות לתוויות עם יותר משני ערכים אפשריים.
  • פונקציית האובדן במהלך האימון היא Log Loss. (אפשר להציב כמה יחידות של Log Loss במקביל לתווית עם יותר משני ערכים אפשריים).
  • למודל יש ארכיטקטורה לינארית, ולא רשת עצבית עמוקה. עם זאת, שאר ההגדרה הזו חלה גם על מודלים עמוקים שמנבאים את ההסתברויות של תוויות קטגוריות.

לדוגמה, נניח שמודל רגרסיה לוגיסטית מחשב את הסבירות של כתובת אימייל להיחשב כספאם או לא כספאם. נניח שבמהלך ההסקה, המודל צופה ערך של 0.72. לכן המודל מעריך:

  • יש 72% סיכוי שהאימייל הוא ספאם.
  • יש 28% סיכוי שהאימייל לא ספאם.

מודל רגרסיה לוגיסטית משתמש בארכיטקטורה של שני שלבים:

  1. המודל יוצר חיזוי גולמי (y') על ידי החלת פונקציה לינארית של מאפייני הקלט.
  2. המודל משתמש בחיזוי הגולמי הזה כקלט לפונקציית סיגמויד, שממירה את החיזוי הגולמי לערך בין 0 ל-1, לא כולל.

כמו כל מודל רגרסיה, מודל רגרסיה לוגיסטית חוזה מספר. עם זאת, המספר הזה בדרך כלל הופך לחלק ממודל סיווג בינארי באופן הבא:

  • אם המספר הצפוי גבוה מסף הסיווג, מודל הסיווג הבינארי צופה את הכיתה החיובית.
  • אם המספר הצפוי קטן מסף הסיווג, מודל הסיווג הבינארי צופה את הכיתה השלילית.

אובדן נתונים ביומן

#fundamentals

פונקציית האובדן שמשמשת ברגרסיה לוגיסטית בינארית.

log-odds

#fundamentals

הלוגריתם של ההסתברות של אירוע כלשהו.

אובדן

#fundamentals

במהלך האימון של מודל בפיקוח, מדד למרחק בין התחזית של המודל לבין התווית שלו.

פונקציית אובדן מחשבת את האובדן.

עקומת אובדן

#fundamentals

תרשים של הפסד כפונקציה של מספר החזרות של האימון. בתרשים הבא מוצגת פונקציית אובדן אופיינית:

תרשים קרטוזי של אובדן לעומת חזרות אימון, שבו מוצג ירידה מהירה באובדן בחזרות הראשונות, ואחריה ירידה הדרגתית ואז שיפוע שטוח במהלך החזרות האחרונות.

בעזרת עקומות אובדן אפשר לקבוע מתי המודל מתכנס או מתאים יותר מדי.

בעקומות אובדן אפשר להציג את כל סוגי האובדן הבאים:

אפשר לעיין גם במאמר הקו של הגנרליזציה.

פונקציית אובדן

#fundamentals

במהלך האימון או הבדיקה, פונקציה מתמטית שמחשבת את האובדן בקבוצה של דוגמאות. פונקציית אובדן מחזירה אובדן נמוך יותר במודלים שמפיקים תחזיות טובות, בהשוואה למודלים שמפיקים תחזיות גרועות.

מטרת האימון היא בדרך כלל למזער את האובדן שפונקציית האובדן מחזירה.

יש סוגים רבים של פונקציות אובדן. בוחרים את פונקציית האובדן המתאימה לסוג המודל שאתם יוצרים. לדוגמה:

M

למידה חישובית

#fundamentals

תוכנה או מערכת שמאמנות מודל מנתוני קלט. המודל המאומן יכול לבצע חיזויים שימושיים מנתונים חדשים (שלא נראו בעבר) שנשלפו מאותה חלוקה שבה השתמשו לאימון המודל.

למידת מכונה מתייחסת גם לתחום המחקר שעוסק בתוכניות או במערכות האלה.

מחלקת הרוב

#fundamentals

התווית הנפוצה יותר במערך נתונים עם חוסר איזון בין הקטגוריות. לדוגמה, אם נתונים קבוצת נתונים שמכילה 99% תוויות שליליות ו-1% תוויות חיוביות, התוויות השליליות הן הכיתה הגדולה ביותר.

בניגוד לכיתה של מיעוט.

קבוצה קטנה של מודלים

#fundamentals

קבוצת משנה קטנה שנבחרה באופן אקראי מתוך קבוצה שעברה עיבוד במחזור אחד. גודל האצווה של קבוצת משנה בדרך כלל נע בין 10 ל-1,000 דוגמאות.

לדוגמה, נניח שקבוצת האימון כולה (הקבוצה המלאה) מורכבת מ-1,000 דוגמאות. נניח גם שהגדרתם את גודל האצווה של כל אצווה משנה ל-20. לכן, בכל מחזור, המערכת קובעת את האובדן ב-20 דוגמאות אקראיות מתוך 1,000 הדוגמאות, ולאחר מכן משייכת מחדש את המשקלים ואת ההטיות בהתאם.

קל יותר לחשב את האובדן בקבוצת משנה מאשר את האובדן בכל הדוגמאות בקבוצה המלאה.

קבוצת מיעוט

#fundamentals

התווית הפחות נפוצה במערך נתונים עם חוסר איזון בין הקטגוריות. לדוגמה, אם מערך נתונים מכיל 99% תוויות שליליות ו-1% תוויות חיוביות, התוויות החיוביות הן קבוצת המיעוט.

בניגוד למחלקת הרוב.

מודל

#fundamentals

באופן כללי, כל מבנה מתמטי שמעבד נתוני קלט ומחזיר פלט. במילים אחרות, מודל הוא קבוצת הפרמטרים והמבנה שנדרשים למערכת כדי לבצע תחזיות. בלמידת מכונה מבוקרת, המודל מקבל דוגמה כקלט ומסיק חיזוי כפלט. בתוך למידת המכונה בפיקוח, יש הבדלים מסוימים בין המודלים. לדוגמה:

אפשר לשמור, לשחזר או ליצור עותקים של מודל.

למידת מכונה לא בפיקוח גם יוצרת מודלים, בדרך כלל פונקציה שיכולה למפות דוגמה של קלט לאשכול המתאים ביותר.

סיווג של כמה מחלקות

#fundamentals

בלמידה מבוקרת, בעיית סיווג שבה מערך הנתונים מכיל יותר משתי קבוצות של תוויות. לדוגמה, התוויות במערך הנתונים של Iris צריכות להיות אחת משלוש הכיתות הבאות:

  • Iris setosa
  • Iris virginica
  • Iris versicolor

מודל שהודר על מערך הנתונים של Iris ומנבא את סוג Iris בדוגמאות חדשות מבצע סיווג בכמה כיתות.

לעומת זאת, בעיות סיווג שמבדילות בין שתי קטגוריות בדיוק הן מודלים של סיווג בינארי. לדוגמה, מודל אימייל שמתאים את ההודעה לקטגוריה ספאם או לא ספאם הוא מודל סיווג בינארי.

בבעיות של קיבוץ לאשכולות, סיווג למספר מחלקות מתייחס ליותר משני אשכולות.

לא

סיווג שלילי

#fundamentals

בסיווג בינארי, סיווג אחד נקרא חיובי והסיווג השני נקרא שלילי. המחלקה החיובית היא הדבר או האירוע שהמודל בודק, והמחלקה השלילית היא האפשרות השנייה. לדוגמה:

  • הכיתה השלילית בבדיקות רפואיות עשויה להיות 'לא גידול'.
  • הכיתה השלילית בסיווג אימיילים עשויה להיות 'לא ספאם'.

בניגוד לכיתה חיובית.

רשת הזרימה קדימה

#fundamentals

מודל שמכיל לפחות שכבה מוסתרת אחת. רשת עצבית עמוקה היא סוג של רשת עצבית שמכילה יותר משכבה אחת מוסתרת. לדוגמה, בתרשים הבא מוצגת רשת עצבית עמוקה שמכילה שתי שכבות חבויות.

רשת עצבית עם שכבת קלט, שתי שכבות גלויות ושכבת פלט.

כל נוירון ברשת נוירונים מחובר לכל הצמתים בשכבה הבאה. לדוגמה, בתרשים הקודם, שימו לב שכל אחד משלושת הנוירונים בשכבה החבויה הראשונה מחובר בנפרד לשני הנוירונים בשכבה החבויה השנייה.

רשתות נוירונים שמוטמעות במחשבים נקראות לפעמים רשתות נוירונים מלאכותיות כדי להבדיל אותן מרשתות נוירונים שנמצאות במוחים ובמערכות עצביות אחרות.

חלק מרשתות נוירונליות יכולות לחקות יחסי לא לינאריים מורכבים מאוד בין מאפיינים שונים לבין התווית.

אפשר לעיין גם במאמרים בנושא רשת נוירונים מלאכותית (CNN) ורשת נוירונים חוזרת (RNN).

נוירון

#fundamentals

בלמידת מכונה, יחידה נפרדת בשכבה מוסתרת של רשת נוירונים. כל נוירון מבצע את הפעולה הבאה בשני שלבים:

  1. הפונקציה מחשבת את הסכום המשוקלל של ערכי הקלט, כפול המשקלים התואמים שלהם.
  2. מעביר את הסכום המשוקלל כקלט לפונקציית הפעלה.

נוירון בשכבה החבויה הראשונה מקבל קלט מערכי המאפיינים בשכבת הקלט. נוירון בכל שכבה מוסתרת אחרי השכבה הראשונה מקבל קלט מהנוירונים בשכבה המוסתרת הקודמת. לדוגמה, נוירון בשכבה החבויה השנייה מקבל קלט מהנוירונים בשכבה החבויה הראשונה.

באיור הבא מוצגים שני תאי עצב והקלט שלהם.

רשת עצבית עם שכבת קלט, שתי שכבות גלויות ושכבת פלט. שני תאי עצב מודגשים: אחד בשכבה החבויה הראשונה ואחד בשכבה החבויה השנייה. הנוירון המודגש בשכבה החבויה הראשונה מקבל קלט משני המאפיינים בשכבת הקלט. הנוירון המודגש בשכבה הגלומה השנייה מקבל קלט מכל אחד משלושת הנוירונים בשכבה הגלומה הראשונה.

נוירון ברשת נוירונים מחקה את ההתנהגות של נוירונים במוח ובחלקים אחרים של מערכות העצבים.

צומת (רשת נוירונים)

#fundamentals

נוירון בשכבה מוסתרת.

לא לינארי

#fundamentals

קשר בין שני משתנים או יותר, שלא ניתן לייצג רק באמצעות חיבור ותכופל. אפשר לייצג יחס לינארי כקו, אבל אי אפשר לייצג יחס לא לינארי כקו. לדוגמה, נניח שיש שני מודלים שכל אחד מהם משיייך תכונה אחת לתווית אחת. המודל בצד ימין הוא לינארי והמודל בצד שמאל הוא לא לינארי:

שני תרשימים. תרשים אחד הוא קו, כך שמדובר בקשר לינארי.
          התרשים השני הוא עקומה, כך שמדובר ביחס לא לינארי.

אי-יציבות

#fundamentals

מאפיין שהערכים שלו משתנים במאפיין אחד או יותר, בדרך כלל זמן. לדוגמה, ריכזנו כאן כמה דוגמאות לתנודות לא יציבות:

  • מספר בגדי הים שנמכרים בחנות מסוימת משתנה בהתאם לעונה.
  • כמות הפרי מסוים שנקטף באזור מסוים היא אפס במשך רוב השנה, אבל גדולה מאוד לתקופה קצרה.
  • עקב שינויי האקלים, הטמפרטורות השנתיות הממוצעות משתנות.

בניגוד לסטציונריות.

נירמול

#fundamentals

באופן כללי, התהליך של המרת טווח הערכים בפועל של משתנה לטווח ערכים סטנדרטי, כמו:

  • -1 עד +1
  • 0 עד 1
  • ציונים סטנדרטיים (בערך, -3 עד +3)

לדוגמה, נניח שהטווח בפועל של הערכים של מאפיין מסוים הוא 800 עד 2,400. כחלק מפיתוח מאפיינים, אפשר לנרמל את הערכים בפועל לטווח סטנדרטי, למשל -1 עד +1.

נורמליזציה היא משימה נפוצה בפיתוח מאפיינים. בדרך כלל, אימון המודלים מהיר יותר (והחיזויים שהם מניבים טובים יותר) כשלכל מאפיין מספרי בוקטור המאפיינים יש בערך אותו טווח.

פרטים נוספים זמינים במודול 'עבודה עם נתונים מספריים' במסגרת קורס ה-Crash Course בנושא למידת מכונה. אפשר לעיין גם במאמר נירמול לפי ציון תקן.

נתונים מספריים

#fundamentals

מאפיינים שמיוצגים כמספרים שלמים או כמספרים בעלי ערך ממשי. לדוגמה, מודל להערכת ערך של בית ייצג את גודל הבית (במטרים רבועים או בפוט רבועים) כנתונים מספריים. ייצוג מאפיין כנתונים מספריים מציין שלערכים של המאפיין יש קשר מתמטי לתווית. כלומר, סביר להניח שלמספר המטרות הרבועות בבית יש קשר מתימטי כלשהו לערך הבית.

לא כל נתוני המספרים השלמים צריכים להיות מיוצגים כנתונים מספריים. לדוגמה, בחלקים מסוימים בעולם, מקודמי דואר הם מספרים שלמים. עם זאת, לא צריך לייצג מקודמי דואר שלמים כנתונים מספריים במודלים. הסיבה לכך היא שמיקוד 20000 לא חזק פי שניים (או חצי) ממיקוד 10000. בנוסף, למרות שמיקודים שונים כן משויכים לערכי נדל"ן שונים, אי אפשר להניח שערכים של נדל"ן במיקוד 20000 גבוהים פי שניים מערכים של נדל"ן במיקוד 10000. במקום זאת, צריך לייצג את המיקוד כנתונים קטגוריאליים.

לפעמים תכונות מספריות נקראות תכונות רציפות.

O

לא מקוון

#fundamentals

מילה נרדפת ל-static.

הסקת מסקנות אופליין

#fundamentals

התהליך שבו מודל יוצר קבוצה של תחזיות ואז שומר אותן במטמון. לאחר מכן, האפליקציות יכולות לגשת לחיזוי המשוער מהמטמון במקום להריץ מחדש את המודל.

לדוגמה, נניח שיש מודל שיוצר תחזיות מזג אוויר מקומיות (חיזויים) פעם בארבע שעות. אחרי כל הפעלה של המודל, המערכת שומרת במטמון את כל תחזיות מזג האוויר המקומיות. אפליקציות מזג האוויר מאחזרות את התחזיות מהמטמון.

הסקת אופליין נקראת גם הסקה סטטית.

בניגוד להסקה אונליין.

קידוד one-hot

#fundamentals

ייצוג נתונים קטגוריים כוקטור שבו:

  • רכיב אחד מוגדר ל-1.
  • כל שאר הרכיבים מוגדרים ל-0.

בדרך כלל משתמשים בקידוד One-hot כדי לייצג מחרוזות או מזהים שיש להם קבוצה סופית של ערכים אפשריים. לדוגמה, נניח למאפיין קטגורי מסוים בשם Scandinavia יש חמישה ערכים אפשריים:

  • "Denmark"
  • "Sweden"
  • "Norway"
  • "Finland"
  • "Iceland"

קידוד One-hot יכול לייצג כל אחד מחמשת הערכים באופן הבא:

country וקטור
"Denmark" 1 0 0 0 0
"Sweden" 0 1 0 0 0
"Norway" 0 0 1 0 0
"Finland" 0 0 0 1 0
"Iceland" 0 0 0 0 1

בעזרת קידוד one-hot, המודל יכול ללמוד קשרים שונים על סמך כל אחת מחמש המדינות.

ייצוג של מאפיין כנתונים מספריים הוא חלופה לקידוד one-hot. לצערנו, הצגת המדינות הסקנדינביות באופן מספרי היא לא בחירה טובה. לדוגמה, נניח את הייצוג המספרי הבא:

  • הערך של 'דנמרק' הוא 0
  • הערך של 'שוודיה' הוא 1
  • הערך של 'נורווגיה' הוא 2
  • הערך של 'פינלנד' הוא 3
  • "Iceland" הוא 4

כשמשתמשים בקידוד מספרי, המודל מפרש את המספרים הגולמיים באופן מתמטי ומנסה להתאמן על המספרים האלה. עם זאת, איסלנד לא גדולה פי שניים (או חצי) בנורווגיה, ולכן המודל יגיע למסקנות מוזרות.

אחד נגד כולם

#fundamentals

בהינתן בעיית סיווג עם N מחלקות, פתרון שמורכב מ-N סיווגים בינאריים נפרדים – סיווג בינארי אחד לכל תוצאה אפשרית. לדוגמה, אם יש מודל שמסווג דוגמאות כ'חי', 'צומח' או 'מינרל', פתרון של 'אחד מול כולם' יספק את שלושת הסיווגים הבינאריים הנפרדים הבאים:

  • בעל חיים לעומת לא בעל חיים
  • ירק לעומת לא ירק
  • מינרלי לעומת לא מינרלי

online

#fundamentals

שם נרדף ל-דינמי.

הסקת מסקנות אונליין

#fundamentals

יצירת תחזיות על פי דרישה. לדוגמה, נניח שאפליקציה מעבירה קלט למודל ומנפיקה בקשה לחיזוי. מערכת שמשתמשת בהסקה אונליין מגיבה לבקשה על ידי הפעלת המודל (והחזרת החיזוי לאפליקציה).

בניגוד להסקה אופליין.

שכבת הפלט

#fundamentals

השכבה 'האחרונה' של רשת נוירונים. שכבת הפלט מכילה את החיזוי.

באיור הבא מוצגת רשת עצבית עמוקה קטנה עם שכבת קלט, שתי שכבות חבויות ושכבת פלט:

רשת עצבית עם שכבת קלט אחת, שתי שכבות סמויות ושכבת פלט אחת. שכבת הקלט מורכבת משתי תכונות. השכבה החבויה הראשונה מורכבת משלושה תאי עצב, והשכבה החבויה השנייה מורכבת משני תאי עצב. שכבת הפלט מורכבת מצומת יחיד.

התאמת יתר (overfitting)

#fundamentals

יצירת מודל שתואם לנתוני האימון בצורה כה הדוקה, עד שהמודל לא מצליח לבצע חיזויים נכונים על נתונים חדשים.

רגולריזציה יכולה לצמצם את ההתאמה היתרה. אימון על קבוצת אימון גדולה ומגוונת יכול גם לצמצם את ההתאמה היתרה.

P

פנדות

#fundamentals

ממשק API לניתוח נתונים שמתמקד בעמודות, שנבנה על גבי numpy. הרבה מסגרות של למידת מכונה, כולל TensorFlow, תומכות במבני נתונים של pandas כקלט. פרטים נוספים זמינים במסמכי התיעוד של pandas.

פרמטר

#fundamentals

המשקולות וההטיות שהמודל לומד במהלך האימון. לדוגמה, במודל של רגרסיה לינארית, הפרמטרים מורכבים מההטיה (b) ומכל המשקלים (w1,‏ w2 וכן הלאה) בנוסחה הבאה:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

לעומת זאת, הפרמטרים העל-רמתיים הם הערכים שאתם (או שירות לכוונון פרמטרים על-רמתיים) מספקים למודל. לדוגמה, שיעור הלמידה הוא היפר-פרמטר.

מחלקה חיובית

#fundamentals

הכיתה שאליה אתם בודקים את התלמידים.

לדוגמה, הכיתה החיובית בדגם של סרטן עשויה להיות 'גידול'. הכיתה החיובית בסיווג אימיילים עשויה להיות 'ספאם'.

בניגוד לכיתה שלילית.

עיבוד תמונה (Post Processing)

#fairness
#fundamentals

שינוי הפלט של מודל אחרי ההרצה שלו. אפשר להשתמש בעיבוד נתונים לאחר העיבוד כדי לאכוף אילוצים של הוגנות בלי לשנות את המודלים עצמם.

לדוגמה, אפשר להחיל עיבוד נתונים לאחר תהליך למסווג בינארי על ידי הגדרת סף סיווג כך ששוויון הזדמנויות יישמר למאפיין מסוים, על ידי בדיקה ששיעור החיובים האמיתיים זהה לכל הערכים של המאפיין הזה.

חיזוי (prediction)

#fundamentals

הפלט של מודל. לדוגמה:

  • התחזית של מודל סיווג בינארי היא הכיתה החיובית או הכיתה השלילית.
  • התחזית של מודל סיווג עם כמה מחלקות היא מחלקה אחת.
  • התחזית של מודל רגרסיה לינארית היא מספר.

תוויות proxy

#fundamentals

נתונים שמשמשים להערכת תוויות שלא זמינות באופן ישיר במערך נתונים.

לדוגמה, נניח שאתם צריכים לאמן מודל כדי לחזות את רמת הלחץ של העובדים. מערך הנתונים מכיל הרבה תכונות חיזוי, אבל לא מכיל תווית בשם רמת לחץ. לא מתייאשים ובוחרים ב'תאונות במקום העבודה' בתור תווית עקיפה לרמת הלחץ. אחרי הכל, עובדים שנמצאים במצב של לחץ גבוה מעורבים ביות יותר תאונות מאשר עובדים רגועים. או שמא לא? יכול להיות שמספר תאונות במקום העבודה עולה ויורד מכמה סיבות.

דוגמה שנייה: נניח שרוצים שהתוויות is it raining? יהיו תוויות בוליאניות למערך הנתונים, אבל מערך הנתונים לא מכיל נתוני גשם. אם יש לכם תמונות זמינות, תוכלו להגדיר תמונות של אנשים עם מטריות כתוויות חלופיות לשאלה is it raining? האם זו תווית proxy טובה? יכול להיות, אבל יכול להיות שאנשים בתרבויות מסוימות נוטים יותר לשאת מטרייה כדי להגן מפני השמש מאשר מפני הגשם.

תוויות שרת proxy לעיתים קרובות לא מושלמות. במידת האפשר, כדאי לבחור בתוויות אמיתיות במקום בתוויות proxy. עם זאת, אם אין תווית בפועל, צריך לבחור את תווית ה-proxy בקפידה רבה, ולבחור את תווית ה-proxy הכי פחות גרועה.

R

RAG

#fundamentals

קיצור של יצירת מודלים שמבוססת על אחזור.

בודק/ת

#fundamentals

אדם שמספק תוויות לדוגמאות. 'מתעד' הוא שם נוסף למעריך.

יחידה לינארית מתוקנת (ReLU)

#fundamentals

פונקציית הפעלה עם ההתנהגות הבאה:

  • אם הקלט הוא שלילי או אפס, הפלט הוא 0.
  • אם הקלט חיובי, הפלט שווה לקלט.

לדוגמה:

  • אם הקלט הוא -3, הפלט הוא 0.
  • אם הקלט הוא +3, הפלט הוא 3.0.

לפניכם תרשים של ReLU:

תרשים קרטוזי של שתי שורות. לשורה הראשונה יש ערך y קבוע של 0, שפועל לאורך ציר ה-x מ--infinity,0 עד 0,-0.
          השורה השנייה מתחילה ב-0,0. לשיפוע של הקו הזה יש ערך +1, ולכן הוא עובר מ-0,0 ל-+infinity,+infinity.

ReLU היא פונקציית הפעלה פופולרית מאוד. למרות ההתנהגות הפשוטה שלו, ReLU עדיין מאפשר לרשת עצבית ללמוד קשרים לא לינאריים בין המאפיינים לבין התוויות.

מודל רגרסיה

#fundamentals

באופן לא רשמי, מודל שיוצר חיזוי מספרי. (לעומת זאת, מודל סיווג יוצר חיזוי של סיווג). לדוגמה, אלה כל המודלים של הרגרסיה:

  • מודל שמתאים את הערך של בית מסוים באירו, למשל 423,000.
  • מודל לחיזוי תוחלת החיים של עץ מסוים בשנים, למשל 23.2.
  • מודל לחיזוי כמות הגשם בסנטימטרים שיתרחשו בעיר מסוימת במהלך שש השעות הבאות, למשל 0.18.

שני סוגים נפוצים של מודלים של רגרסיה הם:

  • רגרסיה לינארית, שמוצאת את הקו שמתאים בצורה הטובה ביותר את ערכי התוויות למאפיינים.
  • רגרסיה לוגיסטית, שמפיקה סבירות בין 0.0 ל-1.0 שהמערכת ממפה בדרך כלל לחיזוי של סיווג.

לא כל מודל שמפיק תחזיות מספריות הוא מודל רגרסיה. במקרים מסוימים, תחזית מספרית היא למעשה רק מודל סיווג שבמקרה יש לו שמות של כיתות מספריות. לדוגמה, מודל שמתאר מיקוד מספרי הוא מודל סיווג, ולא מודל רגרסיה.

רגולריזציה (regularization)

#fundamentals

כל מנגנון שמפחית את התאמה יתר. דוגמאות לסוגים נפוצים של רגולריזציה:

אפשר גם להגדיר רגולריזציה כעונש על המורכבות של מודל.

שיעור הרגולריזציה

#fundamentals

מספר שמציין את החשיבות היחסית של הסדרה במהלך האימון. הגדלת קצב הרגיליזציה מפחיתה את התאמה יתר, אבל עשויה לצמצם את יכולת החיזוי של המודל. לעומת זאת, הפחתה או השמטה של שיעור הרגיליזציה מגדילה את ההתאמה היתרה.

ReLU

#fundamentals

קיצור של יחידה לינארית מתוקנת.

יצירת מודלים באמצעות שיפור אחזור (RAG)

#fundamentals

טכניקה לשיפור האיכות של הפלט של מודל שפה גדול (LLM) על ידי הביסוס שלו על מקורות ידע שאוחזרו אחרי שהמודל הוכשר. RAG משפר את הדיוק של התשובות של LLM על ידי מתן גישה למידע שמוחזר ממסמכים או ממאגרי ידע מהימנים ל-LLM המאומן.

בין הסיבות הנפוצות לשימוש ביצירה עם שיפור אחזור:

  • הגדלת הדיוק העובדתי של התשובות שנוצרות על ידי מודל.
  • מתן גישה למודל לידע שלא אומן עליו.
  • שינוי הידע שבו המודל משתמש.
  • הפעלת היכולת של המודל לצטט מקורות.

לדוגמה, נניח שאפליקציית כימיה משתמשת ב-PaLM API כדי ליצור סיכומים שקשורים לשאילתות של משתמשים. כשהקצה העורפי של האפליקציה מקבל שאילתה, הקצה העורפי:

  1. חיפוש ('אחזור') של נתונים שרלוונטיים לשאילתה של המשתמש.
  2. הוספה ('השלמה') של נתוני הכימיה הרלוונטיים לשאילתה של המשתמש.
  3. הפקודה מורה ל-LLM ליצור סיכום על סמך הנתונים שצורפו.

עקומת ROC (מאפיין הפעולה של מקלט)

#fundamentals

תרשים של שיעור תוצאות חיוביות אמיתיות לעומת שיעור תוצאות חיוביות שקריות לסף סיווג שונה בסיווג בינארי.

הצורה של עקומת ROC מצביעה על היכולת של מודל סיווג בינארי להפריד בין כיתות חיוביות לכיתות שליליות. נניח, לדוגמה, שמודל סיווג בינארי מפריד בצורה מושלמת בין כל הכיתות השליליות לכל הכיתות החיוביות:

קו מספרים עם 8 דוגמאות חיוביות בצד שמאל ו-7 דוגמאות שליליות בצד ימין.

עקומת ROC של המודל הקודם נראית כך:

עקומת ROC. ציר ה-X מייצג את שיעור התוצאות החיוביות הכוזבות וציר ה-Y מייצג את שיעור התוצאות החיוביות האמיתיות. לקו העקומה יש צורה של L הפוך. העקומה מתחילה ב-(0.0,0.0) ועולה ישר ל-(0.0,1.0). לאחר מכן, העקומה עוברת מ-(0.0,1.0) ל-(1.0,1.0).

לעומת זאת, באיור הבא מוצגים בתרשים הערכים הגולמיים של הרגרסיה הלוגיסטית של מודל גרוע שלא מצליח להפריד בכלל בין כיתות שליליות לכיתות חיוביות:

קו מספרים עם דוגמאות חיוביות וקטגוריות שליליות שמעורבבות זו בזו.

עקומת ה-ROC של המודל הזה נראית כך:

עקומת ROC, שהיא למעשה קו ישר מ-(0.0,0.0)
          ל-(1.0,1.0).

בינתיים, בעולם האמיתי, רוב המודלים של סיווג בינארי מפרידים בין כיתות חיוביות ושליליות במידה מסוימת, אבל בדרך כלל לא באופן מושלם. לכן, עקומת ROC אופיינית נמצאת איפשהו בין שתי הקיצוניות:

עקומת ROC. ציר ה-X מייצג את שיעור התוצאות החיוביות הכוזבות וציר ה-Y מייצג את שיעור התוצאות החיוביות האמיתיות. עקומת ה-ROC היא מעין קשת רועדת שעוברת על נקודות המצפן ממערב לצפון.

הנקודה בגרף ROC הקרובה ביותר ל-(0.0,1.0) מזהה באופן תיאורטי את סף הסיווג האידיאלי. עם זאת, יש כמה בעיות אחרות בעולם האמיתי שמשפיעות על הבחירה של סף הסיווג האידיאלי. לדוגמה, יכול להיות שתוצאות שליליות כוזבות גורמות ליותר נזק מאשר תוצאות חיוביות כוזבות.

מדד מספרי שנקרא AUC מסכם את עקומת ROC בערך יחיד של נקודה צפה.

שורש טעות ריבועית ממוצעת (RMSE)

#fundamentals

השורש הריבועי של השגיאה הריבובית הממוצעת.

S

פונקציית סיגמואיד

#fundamentals

פונקציה מתמטית שמצמצמת ערך קלט לטווח מוגבל, בדרך כלל מ-0 עד 1 או מ--1 עד 1. כלומר, אפשר להעביר לכל מספר (שניים, מיליון, מיליארד שלילי וכו') פונקציית סיגמואיד, והפלט עדיין יהיה בטווח המוגבל. תרשים של פונקציית ההפעלה הסיגמואידית נראה כך:

תרשים עקומה דו-מימדי עם ערכי x שנעים בין אינסוף שלילי לבין חיובי, וערכי y שנעים בין כמעט 0 לבין כמעט 1. כש-x הוא 0, הערך של y הוא 0.5. השיפוע של העקומה הוא תמיד חיובי, עם השיפוע הגבוה ביותר ב-0,0.5 ושיפועים הולכים ופוחתים ככל שהערך המוחלט של x עולה.

לפונקציית הסיגמואיד יש כמה שימושים בלמידת מכונה, כולל:

softmax

#fundamentals

פונקציה שקובעת את ההסתברויות לכל מחלקה אפשרית במודל סיווג מרובה-כיתות. הסיכויים מצטברים בדיוק ל-1.0. לדוגמה, בטבלה הבאה מוצגת חלוקת ההסתברויות השונות של softmax:

התמונה היא... Probability
כלב 0.85
cat 0.13
סוס 0.02

פונקציית softmax נקראת גם full softmax.

בניגוד לדגימת מועמדים.

תכונה דלילה

#language
#fundamentals

מאפיין שהערכים שלו הם בעיקר אפס או ריקים. לדוגמה, מאפיין שמכיל ערך 1 יחיד ומיליון ערכים של 0 הוא דל. לעומת זאת, למאפיין צפוף יש ערכים שברובם לא אפס או ריקים.

בלמידת מכונה, מספר מפתיע של תכונות הן תכונות דלילות. תכונות קטגוריות הן בדרך כלל תכונות דלילות. לדוגמה, מתוך 300 מיני עצים אפשריים ביער, דוגמה אחת עשויה לזהות רק עץ מייפל. למשל, מתוך מיליוני הסרטונים האפשריים בספריית סרטונים, דוגמה אחת עשויה לזהות רק את 'קזבלנקה'.

במודל, בדרך כלל מייצגים תכונות דלילות באמצעות קידוד one-hot. אם קידוד ה-one-hot גדול, אפשר להוסיף שכבת הטמעה מעל קידוד ה-one-hot כדי לשפר את היעילות.

ייצוג דליל

#language
#fundamentals

אחסון רק את המיקומים של רכיבים שאינם אפס בתכונה דלילה.

לדוגמה, נניח שתכונה קטגורית בשם species מזהה את 36 מיני העצים ביער מסוים. נניח גם שכל דוגמה מזהה רק מין אחד.

אפשר להשתמש בווקטור one-hot כדי לייצג את מיני העצים בכל דוגמה. וקטור one-hot יכיל 1 יחיד (כדי לייצג את מין העץ הספציפי בדוגמה הזו) ו-35 ערכים של 0 (כדי לייצג את 35 מיני העצים שאינם בדוגמה הזו). לכן, הייצוג של maple במצב one-hot עשוי להיראות כך:

וקטור שבו המיקומים 0 עד 23 מכילים את הערך 0, המיקום 24 מכיל את הערך 1 והמיקומים 25 עד 35 מכילים את הערך 0.

לחלופין, ייצוג דליל פשוט יזהה את המיקום של המין הספציפי. אם maple נמצא במיקום 24, הייצוג הדליל של maple יהיה פשוט:

24

שימו לב שהייצוג הדליל קומפקטי הרבה יותר מהייצוג של ערכים חד-ממדיים.

וקטור דליל

#fundamentals

וקטור שהערכים שלו הם בעיקר אפס. אפשר לעיין גם במאמרים בנושא מאפיין דל ודלילות.

אובדן בריבוע

#fundamentals

מילה נרדפת ל-L2 loss.

סטטי

#fundamentals

פעולה שמתבצעת פעם אחת ולא באופן קבוע. המונחים סטטי ואופליין הם מונחים נרדפים. אלה שימושים נפוצים של נתונים סטטיים ואופליין בלמידת מכונה:

  • מודל סטטי (או מודל אופליין) הוא מודל שמתאמן פעם אחת ואז משמש במשך זמן מה.
  • אימון סטטי (או אימון אופליין) הוא תהליך האימון של מודל סטטי.
  • היקש סטטי (או היקש אופליין) הוא תהליך שבו מודל יוצר קבוצה של תחזיות בכל פעם.

בניגוד לדינמי.

הסקה סטטית

#fundamentals

מונח נרדף להסקה אופליין.

סטציונריות

#fundamentals

מאפיין שהערכים שלו לא משתנים במאפיין אחד או יותר, בדרך כלל זמן. לדוגמה, מאפיין שהערכים שלו נראים דומים בשנים 2021 ו-2023 הוא מאפיין יציב.

בעולם האמיתי, מעט מאוד מאפיינים מציגים סטציונריות. גם תכונות שמשויכות ליציבות (כמו גובה פני הים) משתנות עם הזמן.

בניגוד לתנודות לא יציבות.

ירידה סטוכסטית בגרדינט (SGD)

#fundamentals

אלגוריתם ירידה בגרדינט שבו גודל האצווה הוא אחד. במילים אחרות, SGD מתאמן על דוגמה אחת שנבחרה באופן אקראי מתוך קבוצת אימון.

למידת מכונה בפיקוח

#fundamentals

אימון מודל ממאפיינים ומתוויות התואמות שלהם. למידת מכונה בפיקוח דומה ללמידת נושא על ידי לימוד של קבוצת שאלות והתשובות התואמות שלהן. אחרי שהתלמידים יבינו את המיפוי בין השאלות לתשובות, הם יוכלו לספק תשובות לשאלות חדשות (שלא נראו בעבר) באותו נושא.

השוואה ללמידת מכונה ללא פיקוח.

מאפיין סינתטי

#fundamentals

מאפיין שלא נמצא בין מאפייני הקלט, אלא מורכב מאחת מהם או יותר. שיטות ליצירת תכונות סינתטיות כוללות את האפשרויות הבאות:

  • חלוקה לקטגוריות של מאפיין רציף לקטגוריות של טווחים.
  • יצירת צירוף מאפיינים.
  • הכפלה (או חלוקה) של ערך מאפיין אחד בערכי מאפיינים אחרים או בעצמו. לדוגמה, אם a ו-b הם מאפייני קלט, אלה דוגמאות למאפיינים סינתטיים:
    • ab
    • a2
  • החלה של פונקציה טרנסצנדנטלית על ערך של מאפיין. לדוגמה, אם c הוא מאפיין קלט, אלה דוגמאות למאפיינים סינתטיים:
    • sin(c)
    • ln(c)

תכונות שנוצרות על ידי נורמליזציה או שינוי קנה מידה בלבד לא נחשבות לתכונות סינתטיות.

T

אובדן נתונים בבדיקה

#fundamentals

מדד שמייצג את האובדן של מודל ביחס לקבוצת הבדיקות. כשיוצרים מודל, בדרך כלל מנסים למזער את אובדן הבדיקה. הסיבה לכך היא שאובדן נמוך בבדיקה הוא אות איכות חזק יותר מאשר אובדן נמוך באימון או אובדן נמוך באימות.

לפעמים, פער גדול בין אובדן הבדיקה לאובדן האימון או לאובדן האימות מציין שצריך להגדיל את שיעור הרגיליזציה.

הדרכה

#fundamentals

התהליך של קביעת הפרמטרים האידיאליים (משקלים ותכונות הטיה) שמרכיבים מודל. במהלך האימון, המערכת קוראת דוגמאות ומתאימה את הפרמטרים בהדרגה. בכל שלב של האימון, כל דוגמה משמשת כמה פעמים עד מיליארדי פעמים.

אובדן אימון

#fundamentals

מדד שמייצג את האובדן של מודל במהלך מחזור אימון מסוים. לדוגמה, נניח שפונקציית ההפסד היא Mean Squared Error. יכול להיות שההפסד של האימון (השגיאה הממוצעת הריבונית) עבור האיטרציה ה-10 הוא 2.2, וההפסד של האימון עבור האיטרציה ה-100 הוא 1.9.

עקומת אובדן מציגה את אובדן האימון לעומת מספר החזרות. עקומת אובדן מספקת את הטיפים הבאים לגבי אימון:

  • שיפוע כלפי מטה מרמז שהמודל משתפר.
  • שיפוע כלפי מעלה מעיד על כך שהמודל הולך ומשתפר.
  • שיפוע שטוח מרמז שהמודל הגיע לערך קבוע.

לדוגמה, בעקומת ההפסדים השלמה הזו מוצגים:

  • שיפוע תלול כלפי מטה במהלך האיטרציות הראשוניות, שמצביע על שיפור מהיר של המודל.
  • שיפוע שמתיישר בהדרגה (אבל עדיין יורד) עד לקראת סוף האימון, מה שמצביע על שיפור מתמשך של המודל בקצב איטי יותר מאשר במחזורים הראשונים.
  • שיפוע שטוח לקראת סוף האימון, שמצביע על התקרבות.

התרשים של אובדן האימון לעומת איטרציות. עקומת ההפסד הזו מתחילה עם שיפוע תלול כלפי מטה. השיפוע נעשה שטוח יותר ויותר עד שהוא הופך לאפס.

אובדן האימון חשוב, אבל כדאי גם לעיין במאמר בנושא הכללה.

training-serving skew

#fundamentals

ההבדל בין הביצועים של מודל במהלך האימון לבין הביצועים של אותו מודל במהלך הצגת המודעות.

קבוצת אימון

#fundamentals

קבוצת המשנה של מערך הנתונים ששימשה לאימון מודל.

באופן מסורתי, הדוגמאות במערך הנתונים מחולקות לשלוש קבוצות משנה נפרדות:

באופן אידיאלי, כל דוגמה במערך הנתונים צריכה להשתייך רק לאחת מקבוצות המשנה הקודמות. לדוגמה, דוגמה אחת לא יכולה להשתייך גם לקבוצת האימון וגם לקבוצת האימות.

שלילי אמיתי (TN)

#fundamentals

דוגמה שבה המודל חוזה מחלקה שלילית. לדוגמה, המודל מסיק שהודעת אימייל מסוימת היא לא ספאם, והודעת האימייל הזו אכן לא ספאם.

תוצאה חיובית נכונה (TP)

#fundamentals

דוגמה שבה המודל חוזה מחלקה חיובית. לדוגמה, המודל מסיק שהודעת אימייל מסוימת היא ספאם, והודעת האימייל הזו אכן ספאם.

שיעור תוצאות חיוביות אמיתיות (TPR)

#fundamentals

מילה נרדפת למשיכה. כלומר:

$$\text{true positive rate} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}}$$

שיעור החיוביות האמיתי הוא ציר ה-y בעקומת ROC.

U

התאמה לא מספקת (underfitting)

#fundamentals

יצירת מודל עם יכולת חיזוי נמוכה, כי המודל לא תפס במלואה את המורכבות של נתוני האימון. יש הרבה בעיות שעלולות לגרום לבעיות בהתאמה, כולל:

דוגמה ללא תווית

#fundamentals

דוגמה שמכילה תכונות אבל לא תווית. לדוגמה, בטבלה הבאה מוצגות שלוש דוגמאות ללא תוויות ממודל להערכת ערך של בית, כל אחת עם שלושה מאפיינים אבל ללא ערך של בית:

מספר חדרי שינה מספר חדרי האמבטיה גיל הבית
3 2 15
2 1 72
4 2 34

בלמידת מכונה בפיקוח, המודלים עוברים אימון על דוגמאות מתויגות ומבצעים חיזויים על דוגמאות לא מתויגות.

בלמידה מונחית למחצה ובלמידה לא מונחית, נעשה שימוש בדוגמאות ללא תוויות במהלך האימון.

השוואה בין דוגמה ללא תוויות לבין דוגמה עם תוויות.

למידת מכונה בלתי מונחית

#clustering
#fundamentals

אימון מודל כדי לזהות דפוסים במערך נתונים, בדרך כלל מערך נתונים ללא תוויות.

השימוש הנפוץ ביותר בלמידת מכונה בלתי מבוקרת הוא קיבוץ נתונים לקבוצות של דוגמאות דומות. לדוגמה, אלגוריתם של למידת מכונה ללא הדרכה יכול לקבץ שירים על סמך מאפיינים שונים של המוזיקה. האשכולות שנוצרים יכולים להפוך לקלט לאלגוריתמים אחרים של למידת מכונה (למשל, לשירות המלצות למוזיקה). אפשר להשתמש בצבירה כשיש מעט תוויות מועילות או שאין תוויות בכלל. לדוגמה, בתחומים כמו מניעת התנהלות פוגעת ומניעת הונאות, אשכולות יכולים לעזור לאנשים להבין טוב יותר את הנתונים.

בניגוד ללמידת מכונה בפיקוח.

V

אימות

#fundamentals

ההערכה הראשונית של איכות המודל. בתהליך האימות בודקים את איכות התחזיות של המודל בהשוואה לקבוצת האימות.

מכיוון שקבוצת האימות שונה מקבוצת האימון, האימות עוזר למנוע התאמה יתר.

אפשר להתייחס להערכת המודל מול קבוצת האימות כאל סבב הבדיקה הראשון, ולהערכת המודל מול קבוצת הבדיקות כאל סבב הבדיקה השני.

אובדן אימות

#fundamentals

מדד שמייצג את האובדן של מודל בקבוצת האימות במהלך חזרה מסוימת של האימון.

אפשר לעיין גם במאמר הקו של הגנרליזציה.

קבוצת אימות

#fundamentals

קבוצת המשנה של מערך הנתונים שבה מתבצעת הערכה ראשונית מול מודל מאומן. בדרך כלל, בודקים את המודל המאומן בקבוצת האימות כמה פעמים לפני שבודקים אותו בקבוצת הבדיקה.

באופן מסורתי, מחלקים את הדוגמאות במערך הנתונים לשלוש קבוצות משנה נפרדות:

באופן אידיאלי, כל דוגמה במערך הנתונים צריכה להשתייך רק לאחת מקבוצות המשנה הקודמות. לדוגמה, דוגמה אחת לא יכולה להשתייך גם לקבוצת האימון וגם לקבוצת האימות.

W

משקל

#fundamentals

ערך שהמודל מכפיל בערך אחר. אימון הוא התהליך של קביעת המשקלים האידיאליים של מודל, והסקה הוא התהליך של שימוש במשקלים שנלמדו כדי לבצע תחזיות.

סכום משוקלל

#fundamentals

הסכום של כל ערכי הקלט הרלוונטיים כפול המשקלים המתאימים שלהם. לדוגמה, נניח שהנתונים הרלוונטיים מורכבים מהנתונים הבאים:

ערך קלט משקל הקלט
2 -1.3
-1 0.6
3 0.4

לכן, הסכום המשוקלל הוא:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

סכום משוקלל הוא ארגומנט הקלט של פונקציית ההפעלה.

Z

נורמליזציה לפי ציון תקן

#fundamentals

טכניקה של שינוי קנה מידה שמחליפה ערך גולמי של מאפיין בערך של נקודה צפה שמייצג את מספר סטיות התקן מהממוצע של המאפיין. לדוגמה, נניח שיש תכונה שהממוצע שלה הוא 800 והסטייה התקינה שלה היא 100. בטבלה הבאה מוסבר איך נורמליזציה לפי ציון Z ממפה את הערך הגולמי לציון ה-Z שלו:

ערך גולמי ציון תקן
800 0
950 ‎+1.5
575 -2.25

לאחר מכן, מודל למידת המכונה מתאמן על ציוני ה-Z של המאפיין הזה במקום על הערכים הגולמיים.