מילון מונחים ללמידת מכונה: עקרונות בסיסיים של למידת מכונה

הדף הזה מכיל את מילון המונחים של יסודות למידת המכונה. לכל המונחים במילון המונחים, יש ללחוץ כאן.

A

דיוק

#fundamentals

מספר החיזוי של הסיווגים הנכונים במספר הכולל של החיזויים. כלומר:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

לדוגמה, מודל שביצע 40 חיזויים נכונים ו-10 חיזויים שגויים החיזויים יהיו בעלי רמת דיוק של:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

סיווג בינארי מספק שמות ספציפיים לקטגוריות השונות של חיזויים נכונים חיזויים שגויים. כלומר, נוסחת הדיוק לסיווג בינארי הוא:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

איפה:

השוו והבדילו עם דיוק precision וגם ריקול.

פונקציית הפעלה

#fundamentals

פונקציה שמאפשרת לרשתות נוירונים ללמוד קשרים nonlinear (מורכבים) בין תכונות לתיוג.

פונקציות הפעלה פופולריות כוללות:

התרשימים של פונקציות ההפעלה הם אף פעם לא קווים ישרים בודדים. לדוגמה, התרשים של פונקציית ההפעלה של ReLU מורכב שני קווים ישרים:

תרשים קרטזי בשני שורות. בשורה הראשונה יש קבוע
          y של 0, לאורך ציר ה-X מ--infity,0 עד 0,-0.
          השורה השנייה מתחילה ב-0.0. לקו הזה יש שיפוע של 1+. לכן
          הוא בין 0,0 ל-+אינסוף,+אינסוף.

שרטוט של פונקציית ההפעלה sigmoid נראה כך:

תרשים מעוקל דו-ממדי עם ערכי x שמתפרש על פני הדומיין
          -אינסוף עד +חיובי, בעוד שערכי ה-y מתפרשים על הטווח כמעט 0 עד
          כמעט 1. כש-x הוא 0, y הוא 0.5. שיפוע העקומה הוא תמיד
          חיובי, כאשר השיפוע הגבוה ביותר הוא 0,0.5 ויורד בהדרגה
          שיפוע כשהערך המוחלט של x עולה.

לגבי בינה מלאכותית,

#fundamentals

תוכנה לא אנושית או מודל שיכולים לפתור משימות מתוחכמות. לדוגמה, תוכנית או מודל שמתרגם טקסט, או תוכנית או מודל מאפשרת לזהות מחלות מתמונות רדיולוגיות, וגם שהן מציגות בינה מלאכותית.

באופן רשמי, למידת מכונה היא תת-תחום של בינה מלאכותית גנרטיבית. עם זאת, בשנים האחרונות, ארגונים מסוימים התחילו להשתמש מונחים בינה מלאכותית ולמידת מכונה.

AUC (אזור מתחת לעקומת ROC)

#fundamentals

מספר בין 0.0 ל-1.0 שמייצג של מודל סיווג בינארי יכולת להפריד כיתות חיוביות מחלקות שליליות. ככל שה-AUC קרוב יותר ל-1.0, כך היכולת של המודל להפריד טובה יותר. אחד מהשני.

לדוגמה, באיור הבא מוצג מודל של מסווג שמפרידה בין סיווגים חיוביים (אליפסות ירוקות) למחלקות שליליות (מלבנים סגולים) בצורה מושלמת. המודל המושלם מבחינה לא מציאותית AUC של 1.0:

ציר מספרים עם 8 דוגמאות חיוביות בצד אחד
          9 דוגמאות שליליות בצד השני.

לעומת זאת, באיור הבא מוצגות התוצאות של מסווג שיצרנו תוצאות אקראיות. מודל AUC של מודל זה הוא 0.5:

ציר מספרים עם 6 דוגמאות חיוביות ו-6 דוגמאות שליליות.
          רצף הדוגמאות הוא חיובי, שלילי,
          חיובי, שלילי, חיובי, שלילי, חיובי, שלילי, חיובי
          שלילי, חיובי, שלילי.

כן, מספר AUC של המודל הקודם הוא 0.5 ולא 0.0.

רוב המודלים נמצאים במקום כלשהו בין שתי הקיצוניות האלה. לדוגמה, את המודל הבא מפריד במידה מסוימת בין חיוביים שליליים, יש מספר AUC בין 0.5 ל-1.0:

ציר מספרים עם 6 דוגמאות חיוביות ו-6 דוגמאות שליליות.
          רצף הדוגמאות הוא שלילי, שלילי, שלילי, שלילי
          חיובי, שלילי, חיובי, חיובי, שלילי, חיובי, חיובי,
          חיובית.

AUC מתעלם מכל ערך שהגדרת עבורו סף הסיווג. במקום זאת, AUC המערכת מביאה בחשבון את כל ערכי הסף האפשריים לסיווג.

B

הפצה לאחור

#fundamentals

האלגוריתם שמיישם ירידה הדרגתית ב- רשתות נוירונים.

אימון של רשת נוירונים כולל איטרציות רבות במחזור של שני המעברים:

  1. במהלך ההעברה קדימה, המערכת מעבדת אצווה של דוגמאות ליצירת חיזויים. המערכת משווה בין שני הערכים חיזוי לכל ערך של תווית. ההבדל בין החיזוי וערך התווית הוא לוס בדוגמה. המערכת צוברת את ההפסדים עבור כל הדוגמאות כדי לחשב את הסכום הכולל באצווה הנוכחית.
  2. במהלך המעבר לאחור (ההפצה לאחור), המערכת מפחיתה את האובדן בשיעור של לשנות את המשקולות של כל הנוירונים שכבות מוסתרות.

רשתות נוירונים מכילות בדרך כלל נוירונים רבים בשכבות נסתרות רבות. כל אחד מהנוירונים האלה תורם לאובדן הכולל בדרכים שונות. הפצה לאחור קובעת אם להגדיל או להקטין את המשקולות שחל על נוירונים מסוימים.

קצב הלמידה הוא מכפיל ששולט מידת ההגדלה או ההקטנה של כל משקל אחורה. קצב למידה גבוה יגדיל או יקטין כל משקל יותר מ- קצב למידה נמוך.

במונחי החשבון, ההפצה לאחור מטמיעה את כלל שרשרת. מהחשבון. כלומר, ההפצה לאחור מחשבת את נגזרת חלקית של השגיאה עם ביחס לכל פרמטר.

לפני שנים רבות, בעלי מקצוע בתחום למידת מכונה היו צריכים לכתוב קוד כדי להטמיע הפצה לאחור. ממשקי API מודרניים של למידת מכונה כמו TensorFlow מיישמים עכשיו הפצה לאחור. סוף סוף!

אצווה

#fundamentals

סט של דוגמאות לאימון אחד איטרציה. גודל האצווה קובע את מספר הדוגמאות אצווה.

בקטע תקופת זמן לקביעת נושאים יש הסבר על האופן שבו קבוצה מסוימת קשורה תקופה של זמן מערכת.

גודל אצווה

#fundamentals

מספר הדוגמאות באצווה. לדוגמה, אם גודל המקבץ הוא 100, המודל יעבד 100 דוגמאות לכל איטרציה.

אסטרטגיות נפוצות לגודל אצווה הן:

  • Stochastic Gradient Descent (SGD), שבו גודל הקבוצה הוא 1.
  • אצווה מלאה, שבה גודל הקבוצה הוא מספר הדוגמאות כולה הוגדר אימון. למשל, אם האימון הוגדר מכיל מיליון דוגמאות, הגודל של קבוצת הקבצים הוא מיליון דוגמאות. אצווה מלאה היא בדרך כלל אסטרטגיה לא יעילה.
  • מיני-אצווה שבו גודל הקבוצה הוא בדרך כלל בין 10 ו-1000. בדרך כלל, השיטה היעילה ביותר היא הצגת מיני-אצווה.

הטיה (אתיקה/הוגנות)

#fairness
#fundamentals

1. סטריאוטיפים, דעות קדומות או העדפה כלפי דברים מסוימים, אנשים או קבוצות על פני אחרים. ההטיות האלה יכולות להשפיע על איסוף הנתונים פירוש הנתונים, המבנה של מערכת והאינטראקציה בין המשתמשים עם מערכת. דוגמאות לסוגים כאלה של הטיה:

2. שגיאה מערכתית שנוצרה באמצעות דגימה או תהליך דיווח. דוגמאות לסוגים כאלה של הטיה:

חשוב להבדיל בין מונח ההטיה במודלים של למידת מכונה. או הטיה בחיזוי.

מונח של הטיה (מתמטיקה) או הטיה

#fundamentals

יירוט או היסט ממקור. הטיה היא פרמטר ב- של למידת מכונה, שמסמל אחד הבאים:

  • ב
  • w0

לדוגמה, ההטיה היא הערך b בנוסחה הבאה:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

בקו דו-ממדי פשוט, ההטיה פירושה "חיתוך y". לדוגמה, ההטיה של הקו באיור הבא היא 2.

תרשים קו עם שיפוע 0.5 והטיה (חיתוך y) של 2.

קיימת הטיה כי לא כל המודלים מתחילים מהמקור (0,0). לדוגמה, נניח שלפארק שעשועים עולה שני אירו לכניסה, ועוד 0.5 אירו לכל שעה שבה לקוח נשאר. לכן, מודל שממפה את העלות הכוללת בהטיה 2 כי העלות הנמוכה ביותר היא 2 אירו.

חשוב להבדיל בין דעות קדומות לבין הטיה והגינות. או הטיה בחיזוי.

סיווג בינארי

#fundamentals

סוג של משימת סיווג חוזה אחד משני סיווגים בלעדיים:

לדוגמה, שני המודלים הבאים של למידת מכונה מבצעים כל אחד סיווג בינארי:

  • מודל שקובע אם הודעות אימייל spam (הסיווג החיובי) או לא ספאם (הסיווג השלילי).
  • מודל שמעריך תסמינים רפואיים כדי לקבוע אם אדם הוא מחלה מסוימת (הסיווג החיובי) או שאין לו מחלה (הסיווג השלילי).

ניגוד לסיווג מרובה-מחלקות.

כדאי לעיין גם ברגרסיה לוגית, סף הסיווג.

יצירת קטגוריות

#fundamentals

המרת תכונה יחידה למספר תכונות בינאריות שנקראים קטגוריות או bins, בדרך כלל על סמך טווח ערכים. התמונה שנחתכה היא בדרך כלל תכונה רציפה.

לדוגמה, במקום לייצג טמפרטורה כמדד אחד נקודה צפה (floating-point), אפשר לקצץ טווחי טמפרטורות לקטגוריות נפרדות, כמו:

  • <= 10 מעלות צלזיוס יהיה "קר" בקטגוריה שלכם.
  • 11-24 מעלות צלזיוס הוא ה"ממוזג" בקטגוריה שלכם.
  • >= 25 מעלות צלזיוס יהיה "חם" בקטגוריה שלכם.

המודל יתייחס לכל ערך באותה קטגוריה באופן זהה. עבור לדוגמה, הערכים 13 ו-22 נמצאים שניהם בקטגוריה הממוזגת, כך שהערכים מתייחס לשני הערכים באופן זהה.

C

נתונים קטגוריים

#fundamentals

לתכונות עם קבוצה ספציפית של ערכים אפשריים. לדוגמה, נחשוב על תכונה קטגורית בשם traffic-light-state, שיכולה רק מכיל אחד משלושת הערכים האפשריים הבאים:

  • red
  • yellow
  • green

על ידי ייצוג של traffic-light-state כתכונה קטגורית, מודל יכול ללמוד השפעות שונות של red, green ו-yellow על התנהגות הנהגים.

לפעמים תכונות קטגוריות נקראות תכונות נפרדות.

השוו בין נתונים מספריים.

מחלקה

#fundamentals

קטגוריה שאליה תווית יכולה להשתייך. לדוגמה:

  • במודל סיווג בינארי שמזהה ספאם, שני הסוגים עשויים להיות ספאם ולא ספאם.
  • במודל סיווג רב-מחלקות שמשמש לזיהוי גזעים של כלבים, הסוגים יכולים להיות פודל, ביגל, פאג, וכן הלאה.

מודל סיווג יוצר חיזוי של מחלקה. לעומת זאת, מודל רגרסיה חוזה מספר ולא כיתה.

מודל סיווג.

#fundamentals

מודל שהחיזוי שלו הוא מחלקה. לדוגמה, המודלים הבאים הם מודלים של סיווג:

  • מודל שחוזה את השפה של משפט קלט (צרפתית? ספרדית? איטלקית?).
  • מודל שחוזה את זני העצים (מייפל? אלון? באובב?).
  • מודל לחיזוי המחלקה החיובית או השלילית של שיעור מסוים מצב רפואי.

לעומת זאת, מודלים של רגרסיה חוזים מספרים ולא סיווגים.

יש שני סוגים נפוצים של מודלים של סיווג:

סף סיווג (classification threshold)

#fundamentals

בסיווג בינארי, מספר בין 0 ל-1 שממיר את הפלט הגולמי של מודל רגרסיה לוגיסטית לחיזוי של המחלקה החיובית או המחלקה השלילית. שימו לב שסף הסיווג הוא ערך שהאדם בוחר. לא ערך שנבחר באמצעות אימון מודלים.

מודל רגרסיה לוגיסטי יוצר ערך גולמי בין 0 ל-1. לאחר מכן:

  • אם הערך הגולמי הזה גבוה מסף הסיווג, החיזוי של המחלקה החיובית.
  • אם הערך הגולמי הזה נמוך מסף הסיווג, את המחלקה השלילית.

לדוגמה, נניח שסף הסיווג הוא 0.8. אם הערך הגולמי הוא 0.9, אז המודל חוזה את המחלקה החיובית. אם הערך הגולמי הוא 0.7, אז המודל חוזה את המחלקה השלילית.

בחירת סף הסיווג משפיעה באופן משמעותי על מספר תוצאות חיוביות מוטעות וגם מילות מפתח שליליות שגויות.

מערך נתונים עם איזון בכיתה

#fundamentals

מערך נתונים של בעיית סיווג שבה המספר הכולל של התוויות בכל כיתה שונים באופן משמעותי. לדוגמה, נבחן מערך נתונים של סיווג בינארי ששתי תוויות שלו. מחולקות באופן הבא:

  • 1,000,000 תוויות שליליות
  • 10 תוויות חיוביות

היחס בין תוויות שליליות לתוויות חיוביות הוא 100,000 ל-1, הוא מערך נתונים עם איזון בין מחלקות.

לעומת זאת, מערך הנתונים הבא לא מאוזן, כי היחס בין התוויות השליליות לתוויות החיוביות קרוב יחסית ל-1:

  • 517 תוויות שליליות
  • 483 תוויות חיוביות

אפשר גם לאזן בין מערכי נתונים מכמה מחלקות. לדוגמה, גם מערך הנתונים של סיווג מרובה-מחלקות לא מאוזן, מכיוון שתווית אחת יש הרבה יותר דוגמאות מהשניים האחרים:

  • 1,000,000 תוויות עם סיווג "ירוק"
  • 200 תוויות עם סיווג "סגול"
  • 350 תוויות עם סיווג "כתום"

ראו גם אנטרופיה, סיווג רוב, וסיווג מיעוט.

חיתוך

#fundamentals

שיטה לטיפול בחריגים יוצאי דופן באמצעות אחד או יותר משניהם:

  • הורדת ערכי feature שגדולים מהמקסימום עד לסף המקסימלי הזה.
  • הגדלת הערכים של התכונות שלא חורגים מהסף המינימלי עד לערך הזה הסף המינימלי.

לדוגמה, נניח ש-<0.5% מהערכים של תכונה מסוימת נופלים מחוץ לטווח של 40-60. במקרה כזה, אפשר לבצע את הפעולות הבאות:

  • צריך להצמיד את כל הערכים שחורגים מ-60 (הסף המקסימלי) כך שיהיו בדיוק 60.
  • צריך להצמיד את כל הערכים מתחת ל-40 (הסף המינימלי) כך שיהיו בדיוק 40.

ערכים חריגים חשודי טעות עלולים להזיק למודלים, ולפעמים לגרום למשקולות עד הסוף במהלך האימון. גם חריגים יוצאי דופן עלולים לקלקל משמעותית מדדים כמו דיוק. חיתוך הוא שיטה נפוצה להגבלת את הנזק.

כוחות חיתוך חיתוך (Gradient) ערכי הדרגתיות בטווח ייעודי במהלך האימון.

מטריצת בלבול

#fundamentals

טבלת NxN שמסכמת את מספר החיזויים הנכונים והשגויים שנוצר במודל סיווג. לדוגמה, נבחן את מטריצת הבלבול הבאה עבור מודל סיווג בינארי:

גידול (לפי חיזוי) ללא גידול (לפי חיזוי)
Tumor (ground truth) 18 (TP) 1 (FN)
לא-Tumor (אמת קרקע) 6 (FP) 452 (TN)

מטריצת הבלבול שלמעלה מראה את הדברים הבאים:

  • מתוך 19 החיזויים שבהם האמת האדמה הייתה Tumor, המודל סיווג את 18 בצורה נכונה וסיווג את 1 באופן שגוי.
  • מתוך 458 החיזויים שבהם האמת (ground truth) הייתה לא-Tumor, המודל סיווג נכון של 452 וסיווג שגוי של 6.

מטריצת הבלבול לסיווג מרובה-מחלקות יכולה לעזור לכם לזהות דפוסים של טעויות. לדוגמה, נבחן את מטריצת הבלבול הבאה בשביל 3 מחלקות מודל סיווג רב-מחלקות שמסווג שלושה סוגים שונים של קשתית העין (וירג'יניה, ורזיקול וסטוסה). כשהאמת הבסיסית הייתה וירג'יניה, מטריצת הבלבול מראה שלמודל היה הרבה יותר סיכויים בטעות חוזים 'Versicolor' מאשר 'Setosa':

  סטוסה (לפי התחזית) דרגת מלל (צפוי) וירג'יניה (לפי החיזוי)
Setosa (ground truth) 88 12 0
Versicolor (ground truth) 6 141 7
וירג'יניה (האמת היבשתית) 2 27 109

דוגמה נוספת, מטריצת בלבול יכולה לחשוף שמודל מאומן זיהוי ספרות בכתב יד נוטה לחזות בטעות 9 במקום 4, או לחזות בטעות את הערך 1 ולא את 7.

מטריצות בלבול מכילות מספיק מידע כדי לחשב מגוון מדדי ביצועים, כולל דיוק ו-recall.

תכונה רציפה

#fundamentals

תכונה עם נקודה צפה (floating-point) עם מגוון אינסופי של אפשרויות ערכים, כמו טמפרטורה או משקל.

ניגודיות עם תכונה נפרדת.

התכנסות

#fundamentals

מצב שמגיעים אליו כשערכי הפסד משתנים מעט מאוד או לא בכלל בכל איטרציה. לדוגמה, לפי עקומה של הפסד, הצ'אט הוא בערך 700 איטרציות:

עלילה קרטזית. ציר ה-X יאבד. ציר ה-Y הוא מספר האימון
          כמה חזרות. האובדן גבוה מאוד במהלך האיטרציות הראשונות, אבל
          יורדת חדה. לאחר כ-100 חזרות, האובדן עדיין
          בסדר יורד, אבל בהדרגה. לאחר כ-700 חזרות,
          האובדן נשאר קבוע.

מודל מתכנס כשאימון נוסף לא מצליח לשפר את המודל.

בלמידה עמוקה, ערכי אובדן לפעמים נשארים קבועים או כמעט כל כך במשך הרבה חזרות לפני שבסופו של דבר יורדות. במהלך תקופה ארוכה של ערכי הפסדים קבועים, יכול להיות שתקבלו באופן זמני תחושה שגויה של התכנסות.

למידע נוסף, כדאי לעיין בקטע עצירה מוקדמת.

D

DataFrame

#fundamentals

סוג נתונים פופולרי של פנדות לייצוג מערכי נתונים בזיכרון.

DataFrame מקביל לטבלה או לגיליון אלקטרוני. כל עמודה של ל-DataFrame יש שם (כותרת), וכל שורה מזוהה באמצעות מספר ייחודי.

כל עמודה ב-DataFrame בנויה כמו מערך דו-ממדי, מלבד אפשר להקצות לכל עמודה סוג נתונים משלה.

עוד מידע רשמי הפניה ל-pandas.DataFrame .

מערך נתונים או מערך נתונים

#fundamentals

אוסף של נתונים גולמיים, לרוב (אבל לא רק) שמאורגן בפורמטים הבאים:

  • גיליון אלקטרוני
  • קובץ בפורמט CSV (ערכים המופרדים בפסיקים)

מודל עמוק

#fundamentals

רשת נוירונים שמכילה יותר מרשת אחת שכבה מוסתרת.

מודל עומק נקרא גם רשת נוירונים עמוקה.

השוו עם מודל רחב.

רכיב דחוס

#fundamentals

תכונה שבה רוב הערכים או כולם הם לא אפס, בדרך כלל Tensor של ערכי נקודה צפה (floating-point). לדוגמה, רכיב Tensor של 10 רכיבים צפוף כי 9 מהערכים שלו הם לא אפס:

8 3 7 5 2 4 0 4 9 6

ניגודיות עם תכונה מצומצמת.

עומק

#fundamentals

הסכום של הפריטים הבאים ברשת נוירונים:

לדוגמה, רשת נוירונים עם חמש שכבות נסתרות ושכבת פלט אחת העומק הוא 6.

שימו לב ששכבת הקלט עומק ההשפעה.

פיצ'ר בדיד

#fundamentals

תכונה עם קבוצה מוגבלת של ערכים אפשריים. לדוגמה, תכונה שהערכים שלה יכולים להיות רק בעל חיים, ירק או מינרל בדיספרה (או קטגורית).

ניגודיות עם תכונה רציפה.

דינמי

#fundamentals

פעולה שבוצעה בתדירות גבוהה או ברציפות. המונחים דינמיים ואונליין הם מילים נרדפות בלמידת מכונה. בהמשך מפורטים שימושים נפוצים באונליין ובאונליין במכונות במצב למידה:

  • מודל דינמי (או מודל אונליין) הוא מודל שאומנו מחדש לעיתים קרובות או באופן מתמשך.
  • אימון דינמי (או הדרכה אונליין) היא תהליך האימון בתדירות גבוהה או מתמשכת.
  • הסקה דינמית (או הסקת מסקנות אונליין) היא התהליך של יצירת תחזיות על פי דרישה.

מודל דינמי

#fundamentals

מודל שנמצא לעיתים קרובות (אולי אפילו מתמשך) הכשרה מחדש. מודל דינמי הוא 'למידה לכל החיים' ש מתאים את עצמו כל הזמן לנתונים שמתפתחים. מודל דינמי נקרא גם מודל אונליין.

השוו עם המודל הסטטי.

E

עצירה מוקדמת

#fundamentals

שיטה לארגון שכוללת סיום האימון לפני סיום האימון בירידה. בעצירה מוקדמת, אתם מפסיקים באופן מכוון את אימון המודל כשההפסד של מערך נתונים של אימות מתחיל increase; כלומר, כאשר הביצועים של הכללה ירדו.

שכבת הטמעה

#language
#fundamentals

שכבה נסתרת מיוחדת שמבצעת אימון על תכונה קטגורית בעלת ממדים גבוהים כדי ללמוד בהדרגה את וקטור ההטמעה של מימד נמוך יותר. מאפשרת לרשת נוירונים לאמן הרבה יותר ביעילות רבה יותר מאשר אימונים רק על התכונה קטגורית בממדים גבוהים.

לדוגמה, Google Earth תומך כרגע בכ-73,000 זני עצים. נניח מין עצים הוא תכונה במודל, לכן בשכבת הקלט יש וקטור חם אחד 73,000 לאורך זמן. לדוגמה, אולי baobab מיוצגת בערך כך:

מערך של 73,000 רכיבים. 6,232 הרכיבים הראשונים שומרים את הערך
     0. הרכיב הבא מכיל את הערך 1. נשמרים 66,767 הרכיבים האחרונים
     הערך אפס.

מערך של 73,000 רכיבים הוא ארוך מאוד. אם לא מוסיפים שכבת הטמעה האימון של המודל ידרוש זמן רב מאוד שמכפילה 72,999 אפסים. אולי תבחרו את שכבת ההטמעה שתכיל של 12 מאפיינים. כתוצאה מכך, שכבת ההטמעה תלמד בהדרגה וקטור הטמעה חדש לכל מין של עץ.

במצבים מסוימים, גיבוב הוא חלופה סבירה לשכבת הטמעה.

תקופה של זמן מערכת

#fundamentals

עובר אימון מלא על כל ערכת האימון כך שכל דוגמה עברה עיבוד פעם אחת.

תקופה של זמן מערכת מייצגת את הגודל של N/גודל אצווה איטרציות, שבהן N הוא את המספר הכולל של הדוגמאות.

לדוגמה, נניח את הדברים הבאים:

  • מערך הנתונים כולל 1,000 דוגמאות.
  • גודל הקבוצה הוא 50 דוגמאות.

לכן בתקופה מסוימת נדרשים 20 איטרציות:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

דוגמה

#fundamentals

הערכים של שורה אחת של features ואולי גם ערכים של תווית. דוגמאות ב: למידה מונחית מתחלקת לשניים קטגוריות כלליות:

  • דוגמה מסומנת בתווית מורכבת מתכונה אחת או יותר ותווית. במהלך האימון נעשה שימוש בדוגמאות מסומנות בתוויות.
  • דוגמה ללא תווית מורכבת מדוגמה אחת או יותר תכונות, אבל בלי תווית. בתהליך ההסקה נעשה שימוש בדוגמאות ללא תוויות.

למשל, נניח שאתם מאמנים מודל כדי לקבוע את ההשפעה את תנאי מזג האוויר בציוני המבחנים של התלמידים. לפניכם שלוש דוגמאות לתוויות:

תכונות תווית
טמפרטורה לחות לחץ ציון הבדיקה
15 47 998 טוב
19 34 1020 מצוינת
18 92 1012 גרועה

הנה שלוש דוגמאות לא מסומנות:

טמפרטורה לחות לחץ  
12 62 1014  
21 47 1017  
19 41 1021  

השורה של מערך נתונים היא בדרך כלל המקור הגולמי של דוגמה. כלומר, הדוגמה בדרך כלל מורכבת מקבוצת משנה של העמודות מערך הנתונים. בנוסף, התכונות שבדוגמה יכולות לכלול גם תכונות סינתטיות, כמו תכונות חוצה.

F

false negative (FN)

#fundamentals

דוגמה שבה המודל חוזה בטעות את מחלקה שלילית. לדוגמה, המודל חוזה שהודעת אימייל מסוימת היא לא ספאם (הסיווג השלילי), אבל הודעת האימייל הזו למעשה היא ספאם.

תוצאה חיובית כוזבת (FP)

#fundamentals

דוגמה שבה המודל חוזה בטעות את סיווג חיובי. לדוגמה, המודל מייצר תחזית של שהודעת אימייל מסוימת היא ספאם (הסיווג החיובי), אבל הודעת אימייל היא למעשה אינה ספאם.

שיעור חיובי שווא (FPR)

#fundamentals

החלק של הדוגמאות השליליות בפועל שעבורן המודל שגוי חוזים את המחלקה החיובית. הנוסחה הבאה מחשבת את הארגומנט 'FALSE' שיעור חיובי:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

השיעור החיובי השגוי הוא ציר ה-X בעקומת ROC.

מאפיין

#fundamentals

משתנה קלט למודל למידת מכונה. דוגמה שכולל תכונה אחת או יותר. לדוגמה, נניח שאתם מאמנים כדי לקבוע את ההשפעה של תנאי מזג האוויר על ציוני המבחנים של התלמידים. בטבלה הבאה מוצגות שלוש דוגמאות, וכל אחת מהן כוללת שלוש תכונות ותווית אחת:

תכונות תווית
טמפרטורה לחות לחץ ציון הבדיקה
15 47 998 92
19 34 1020 84
18 92 1012 87

השוו בין באמצעות תווית.

צלב פיצ'רים

#fundamentals

תכונה סינתטית שנוצרה באמצעות 'חצייה' תכונות קטגוריות או קטגוריות.

לדוגמה, שימוש ב'תחזית מצב הרוח' שמייצג באחת מארבע הקטגוריות הבאות:

  • freezing
  • chilly
  • temperate
  • warm

הוא מייצג את מהירות הרוח באחת משלוש הקטגוריות הבאות:

  • still
  • light
  • windy

ללא הצלבות מאפיינים, המודל הלינארי מתאמן בנפרד על כל אחד את שבע הקטגוריות השונות שמופיעות לפניהן. למשל, המודל מאומנות על freezing בנפרד מהאימון, למשל windy.

לחלופין, אפשר ליצור מדד של הפרשי טמפרטורה מהירות הרוח. לתכונה הסינתטית הזו יש את 12 האפשרויות הבאות ערכים:

  • freezing-still
  • freezing-light
  • freezing-windy
  • chilly-still
  • chilly-light
  • chilly-windy
  • temperate-still
  • temperate-light
  • temperate-windy
  • warm-still
  • warm-light
  • warm-windy

בזכות הצלבים, המודל יכול ללמוד את ההבדלים במצבי הרוח בין יום freezing-windy ליום freezing-still.

אם יוצרים תכונה סינתטית משתי תכונות שבכל אחת מהן יש הרבה של הקטגוריות השונות, של שילובים אפשריים. לדוגמה, אם לתכונה אחת יש 1,000 קטגוריות ו בתכונה השנייה יש 2,000 קטגוריות, בצלב של התכונה שמתקבל יש 2,000,000 קטגוריות.

באופן רשמי, צלב הוא מכפלה קרטזית.

הצלבות פיצ'רים משמשות בעיקר עם מודלים ליניאריים, ורק לעיתים רחוקות משתמשים בהן ברשתות נוירונים.

הנדסת פיצ'רים (feature engineering)

#fundamentals
#TensorFlow

תהליך שכולל את השלבים הבאים:

  1. איך להחליט אילו תכונות עשויות להועיל באימון של מודל.
  2. להמיר נתונים גולמיים ממערך הנתונים לגרסאות יעילות של את התכונות האלה.

לדוגמה, אפשר להחליט ש-temperature יכול להיות שימושי . לאחר מכן תוכלו להתנסות ביצירת קטגוריות. כדי לבצע אופטימיזציה של מה שהמודל יכול ללמוד מטווחים שונים של temperature.

לפעמים קוראים להנדסת פיצ'רים (feature engineering) חילוץ תכונות או YouTube.

קבוצת פיצ'רים

#fundamentals

קבוצת התכונות של למידת המכונה מתבצע אימון של מודל. לדוגמה, מיקוד, גודל נכס ומצב הנכס יכולים הרכיבו קבוצת תכונות פשוטה למודל שחוזה את מחירי הדיור.

וקטור מאפיינים

#fundamentals

מערך הערכים של feature example. הווקטור המאפיין הוא קלט במהלך אימון ובמהלך הסקת מסקנות. לדוגמה, הווקטור המאפיין של מודל עם שתי תכונות נפרדות יכול להיות:

[0.92, 0.56]

ארבע שכבות: שכבת קלט, שתי שכבות מוסתרות ושכבת פלט אחת.
          שכבת הקלט מכילה שני צמתים, שאחד מהם מכיל את הערך
          0.92 והשני שמכיל את הערך 0.56.

כל דוגמה מספקת ערכים שונים לווקטור המאפיין, של הדוגמה הבאה, יכול להיות, למשל:

[0.73, 0.49]

הנדסת פיצ'רים (feature engineering) קובעת איך לייצג בווקטור המאפיין. לדוגמה, תכונה בינארית קטגורית עם שחמישה ערכים אפשריים יכולים להיות מיוצגים באמצעות קידוד חם אחד. במקרה הזה, החלק של בדוגמה מסוימת, יהיה מורכב מארבעה אפסים 1.0 יחיד במיקום השלישי, באופן הבא:

[0.0, 0.0, 1.0, 0.0, 0.0]

דוגמה נוספת, נניח שהמודל שלך מורכב משלוש תכונות:

  • תכונה בינארית קטגורית עם חמישה ערכים אפשריים שמיוצגים באמצעות קידוד חם אחד; לדוגמה: [0.0, 1.0, 0.0, 0.0, 0.0]
  • עוד תכונה בינארית קטגורית עם שלושה ערכים אפשריים באמצעות קידוד חם אחד; לדוגמה: [0.0, 0.0, 1.0]
  • פיצ'ר נקודה צפה (floating-point), לדוגמה: 8.3.

במקרה הזה, הווקטור המאפיין של כל דוגמה מיוצג ב-תשעה ערכים. בהתאם לערכים לדוגמה ברשימה שלמעלה, יהיה:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

לולאת משוב

#fundamentals

בלמידת מכונה, מצב שבו החיזויים של המודל משפיעים על לאימון של אותו מודל או של מודל אחר. לדוגמה, מודל ממליצה על סרטים ישפיעו על הסרטים שאנשים יראו, ולאחר מכן להשפיע על המודלים הבאים של המלצות לסרטים.

G

הכללה

#fundamentals

היכולת של מודל לבצע חיזויים נכונים לגבי של נתונים שלא נצפו בעבר. מודל שאפשר ליצור כללי הוא ההפך של מודל שמתאים במיוחד.

עקומת הכללה

#fundamentals

תרשים של הפסד באימון וגם אובדן אימות כפונקציה של מספר איטרציות.

עקומת הכללה יכולה לעזור לך לזהות התאמת יתר. לדוגמה, עקומת ההכללה מצביעה על התאמת יתר כי אובדן האימות בסופו של דבר יהיה גבוה באופן משמעותי מההפסד באימון.

גרף קרטזי שבו ציר ה-Y מסומן בתווית &#39;הפסד&#39; וב&#39;ציר ה-X&#39;
          הוא חזרות מתויגות. יופיעו שתי תרשימים. בתרשים אחד ניתן לראות את
          והשני מראה את הפסד האימות.
          שתי העלילות מתחילות באותו אופן, אבל אובדן האימון בסופו של דבר
          יורדים הרבה יותר נמוך מאובדן האימות.

ירידה הדרגתית

#fundamentals

שיטה מתמטית לצמצום הפסד. תהליך ירידה הדרגתי משתנה באופן חזרתי משקולות והטיות, למצוא בהדרגה את השילוב הטוב ביותר כדי למזער את האובדן.

תהליך הירידה ההדרגתי הוא ישן יותר – הרבה, הרבה יותר ישן – מלמידת מכונה.

אמת קרקע

#fundamentals

מציאות.

מה שקרה בפועל.

לדוגמה, שימו לב לסיווג בינארי שחוזה אם תלמיד בשנת הלימודים הראשונה שלו תסיים את הלימודים בתוך שש שנים. האמת לגבי המודל הזה היא אם או ולא שהתלמיד סיים את הלימודים תוך שש שנים.

H

שכבה נסתרת

#fundamentals

שכבה ברשת נוירונים בין inputLayer (התכונות) ואז שכבת הפלט (החיזוי). כל שכבה מוסתרת מורכבת מנוירונים אחד או יותר. לדוגמה, רשת הנוירונים הבאה מכילה שתי שכבות נסתרות, הראשון עם שלושה נוירונים והשני עם שני נוירונים:

ארבע שכבות. השכבה הראשונה היא שכבת קלט שמכילה
          לבינה מלאכותית גנרטיבית. השכבה השנייה היא שכבה נסתרת שמכילה
          נוירונים. השכבה השלישית היא שכבה נסתרת שמכילה
          נוירונים. השכבה הרביעית היא שכבת פלט. כל תכונה
          מכיל שלושה קצוות, שכל אחד מהם מפנה לנוירון אחר
          בשכבה השנייה. כל אחד מהנוירונים בשכבה השנייה
          מכיל שני קצוות, שכל אחד מהם מפנה לנוירון אחר
          בשכבה השלישית. כל אחד מהנוירונים בשכבה השלישית מכיל
          קצה אחד, שכל אחד מהם מפנה לשכבת הפלט.

רשת נוירונים עמוקה מכילה יותר מרשת נוירונים עמוקה של השכבה הנסתרת. לדוגמה, האיור שלמעלה הוא דוגמת עיצוב נוירונים כי המודל מכיל שתי שכבות נסתרות.

היפר-פרמטר

#fundamentals

המשתנים שאתם או שירות כוונון של היפר-פרמטרים לבצע התאמות במהלך רציפות של אימון מודל. לדוגמה, קצב למידה הוא היפר-פרמטר. אפשר להגדיר את קצב הלמידה ל-0.01 לפני סשן אימון אחד. אם אם תציינו ש-0.01 גבוה מדי, אולי תוכלו להגדיר את הלמידה ל-0.003 בסשן ההדרכה הבא.

לעומת זאת, פרמטרים משקולות ודעה קדומה שלפיה המודל לומד במהלך האימון.

I

מופצת באופן עצמאי וזהה (i.d)

#fundamentals

נתונים הנובעים מהתפלגות שלא משתנה, ואיפה כל ערך לא תלויים בערכים שציירנו קודם לכן. מזהה הוא הגז האידיאלי של מכונה למידת מכונה - מבנה מתמטי שימושי, אך כמעט אף פעם לא נמצא בדיוק בעולם האמיתי. לדוגמה, התפלגות המבקרים בדף אינטרנט יכול להיות תוך חלון זמן קצר; כלומר, ההתפלגות לא במהלך החלון הקצר הזה וביקור של אדם אחד בדרך כלל ללא תלות בביקור של אדם אחר. אבל, אם מרחיבים את חלון הזמן הזה, עשויים להופיע הבדלים עונתיים בין המבקרים בדף האינטרנט.

ניתן לעיין גם במאמר לא תחנה.

הֶקֵּשׁ,

#fundamentals

בלמידת מכונה, תהליך יצירת תחזיות על ידי החלת מודל מאומן על דוגמאות ללא תווית.

להשערה יש משמעות שונה מעט בסטטיסטיקה. לצפייה מאמר בוויקיפדיה על מסקנות סטטיסטיות.

שכבת קלט

#fundamentals

השכבה של רשת נוירונים מכילה את הוקטור של התכונה. כלומר, שכבת הקלט, שמספק דוגמאות לאימון הֶקֵּשׁ. לדוגמה, שכבת הקלט בדוגמה הבאה רשת נוירונים מורכבת משתי תכונות:

ארבע שכבות: שכבת קלט, שתי שכבות מוסתרות ושכבת פלט.

בינה מלאכותית

#fundamentals

היכולת להסביר או להציג את ההיגיון של מודל למידת מכונה במונחים מובנים לאדם.

למשל, רוב המודלים של רגרסיה ליניארית מאוד לפענוח, צריך רק לבדוק את המשקולות לאחר אימון feature.) גם ביערות החלטה ניתן להבין בצורה משמעותית. עם זאת, חלק מהמודלים נדרש תצוגה מתוחכמת כדי שתהיה ניתנת לפענוח.

אפשר להשתמש הכלי חיזוי תוצאות הלמידה (LIT) כדי לפרש מודלים של למידת מכונה.

איטרציה

#fundamentals

עדכון יחיד של פרמטרים של מודלמשקולות והטיות – במהלך אימון. גודל האצווה קובע מספר הדוגמאות שהמודל מעבד באיטרציה אחת. לדוגמה, אם גודל המקבץ הוא 20, המודל יעבד 20 דוגמאות לפני לשנות את הפרמטרים.

במהלך אימון של רשת נוירונים, איטרציה אחת כוללת את שני האישורים הבאים:

  1. מעבר קדימה כדי להעריך הפסד באצווה אחת.
  2. מעבר אחורה (הפצה לאחור) לשינוי של של המודל על סמך ההפסד וקצב הלמידה.

L

תקינה0

#fundamentals

סוג של ארגון להעניש את המספר הכולל של משקולות שאינם אפס במודל. לדוגמה, למודל יש 11 משקולות שאינן אפס יוטלו סנקציות על מודל דומה שיש לו 10 משקולות שאינן אפס.

הרגולריזציה של L0 נקראת לפעמים regularization L0-norm.

הפסד 1

#fundamentals

פונקציית הפסד שמחשבת את הערך המוחלט של ההבדל בין ערכי התווית בפועל מהם הערכים שמודל חוזים אותם. לדוגמה, הנה חישוב של הפסד 1 עבור אצווה מתוך חמש דוגמאות:

הערך בפועל של דוגמה הערך החזוי של המודל הערך המוחלט של דלתא
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = הפסד 1 L

אובדן 1 פחות רגיש לחריגים חשודי טעות מאשר אובדן של L2.

השגיאה המוחלטת הממוצעת היא הממוצע הפסד 1 לכל דוגמה.

תקינה1

#fundamentals

סוג של ארגון שמוטל עליו סנקציות משקולות ביחס לסכום הערך המוחלט של את המשקולות. הרגולריזציה 1 עוזרת לעודד את המשקולות של גורמים לא רלוונטיים או תכונות שכמעט לא רלוונטיות ל-0 בדיוק. תכונה עם משקל של 0 מוסר מהמודל.

השוו עם L2 רגולריזציה.

אובדן 2 L

#fundamentals

פונקציית הפסד שמחשבת את הריבוע של ההבדל בין ערכי התווית בפועל מהם הערכים שמודל חוזים אותם. לדוגמה, הנה חישוב של הפסד 2 L עבור אצווה של חמישה דוגמאות:

הערך בפועל של דוגמה הערך החזוי של המודל ריבוע דלתא
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
  16 = הפסד 2 L

בגלל ריבוע, הפסד 2 מגביר את ההשפעה של חריגים יוצאי דופן. כלומר, הפסד של L2 מגיב חזק יותר לחיזויים גרועים מאשר L1 הפסד. לדוגמה, הפסד L1 הקבוצה הקודמת תהיה 8 ולא 16. שימו לב שמאפיין חשבונות חריגים של 9 מתוך ה-16.

מודלים של רגרסיה בדרך כלל משתמשים באובדן L2 בתור פונקציית הפסד.

השגיאה הממוצעת בריבוע היא הממוצע L2 הפסד לכל דוגמה. הפסד ריבועי הוא שם נוסף להפסד של L2.

תקינה2

#fundamentals

סוג של ארגון שמוטל עליו סנקציות משקולות ביחס לסכום הריבועים של המשקולות. הרגולריזציה 2 עוזרת להשיג משקולות חריגות (אלה עם ערכים שליליים גבוהים או שליליים, שקרובים ל-0 אבל לא בדיוק ל-0. תכונות עם ערכים קרובים מאוד ל-0 נשארות במודל אבל לא משפיעות על התחזית של המודל באופן משמעותי.

רמה 2 תמיד משפרת את ההכללה מודלים לינאריים.

השוו עם L1 רגיל.

תווית

#fundamentals

בלמידת מכונה בפיקוח, "answer" או 'תוצאה' חלק מ-example.

כל דוגמה מסומנת בתווית מורכבת מדוגמה אחת או יותר תכונות ותווית. למשל, בהודעת ספאם של מערך נתונים, כנראה שהתווית תהיה 'ספאם'. או 'לא ספאם'. במערך נתונים של משקעים, התווית יכולה להיות גשם שירד בפרק זמן מסוים.

דוגמה עם תווית

#fundamentals

דוגמה שכוללת תכונה אחת או יותר וגם label. לדוגמה, הטבלה הבאה מציגה 3 דוגמאות מתויגות מתוך מודל הערכת שווי הבית, כאשר לכל אחת יש שלוש תכונות ותווית אחת:

מספר חדרי שינה מספר חדרי הרחצה גיל הבית מחיר הבית (תווית)
3 2 15 345,000$
2 1 72 179,000$
4 2 34 392,000$

בלמידת מכונה בפיקוח, מודלים מתאמנים על דוגמאות מתויגות, ומפיקים תחזיות לגבי דוגמאות ללא תווית.

יש להשוות בין דוגמאות עם תוויות לדוגמאות ללא תווית.

למבדה

#fundamentals

מילה נרדפת לשיעור הנורמליזציה.

Lambda הוא מונח עמוס מדי. כאן נתמקד בהגדרה של regularization.

שכבה

#fundamentals

קבוצה של נוירונים רשת נוירונים. שלושה סוגים נפוצים של שכבות הן:

לדוגמה, באיור הבא מוצגת רשת נוירונים עם שכבת קלט אחת, שתי שכבות מוסתרות ושכבת פלט אחת:

רשת נוירונים עם שכבת קלט אחת, שתי שכבות נסתרות והשנייה
          בשכבת פלט. שכבת הקלט מורכבת משתי מאפיינים. הראשון
          השכבה הנסתרת מורכבת משלושה נוירונים והשכבה השנייה נסתרת
          מורכב משני נוירונים. שכבת הפלט מורכבת מצומת אחד.

ב-TensorFlow, שכבות הן גם פונקציות Python שמקבלות חיישנים ואפשרויות תצורה בתור קלט כדי לייצר טנזורים אחרים כפלט.

קצב למידה

#fundamentals

מספר נקודה צפה (floating-point) שמציין את הירידה ההדרגתית את האלגוריתם לשינוי המשקל וההטיות איטרציה. לדוגמה, קצב למידה של 0.3 להתאים משקולות והטיות, פי שלושה יותר, מאשר קצב למידה מתוך 0.1.

קצב הלמידה הוא היפר-פרמטר מפתח. אם מגדירים קצב הלמידה נמוך מדי, האימון יימשך יותר מדי זמן. אם המיקום הגדרתם קצב למידה גבוה מדי, בירידה ההדרגתית יש לעתים קרובות בעיות להגיע לאיחוד.

ליניארי

#fundamentals

קשר בין שני משתנים או יותר שאפשר לייצג אך ורק באמצעות חיבור וכפל.

התרשים של קשר ליניארי הוא קו.

השוו ל-nonlinear.

מודל לינארי

#fundamentals

מודל שמקצה משקל אחד לכל פיצ'ר כדי ליצור חיזויים. (מודלים לינאריים גם כוללים הטיה). לעומת זאת, הקשר בין תכונות לחיזויים במודלים עמוקים בדרך כלל nonlinear.

בדרך כלל קל יותר לאמן מודלים לינאריים, לפרשנות לעומת מודלים עמוקים. אבל, לפעמים מודלים עמוקים יכולים ללמוד קשרים מורכבים בין תכונות.

רגרסיה לינארית וגם רגרסיה לוגיסטית הם שני סוגים של מודלים לינאריים.

רגרסיה ליניארית

#fundamentals

סוג של מודל למידת מכונה שבו מתקיימים שני התנאים הבאים:

  • המודל הוא מודל לינארי.
  • החיזוי הוא ערך בנקודה צפה (floating-point). (זהו החלק רגרסיה של רגרסיה ליניארית.)

בצעו השוואה בין רגרסיה ליניארית לבין רגרסיה לוגיסטית. בנוסף, השוו בין רגרסיה לבין סיווג.

רגרסיה לוגיסטית

#fundamentals

סוג של מודל רגרסיה שחוזה הסתברות. למודלים של רגרסיה לוגיסטית יש את המאפיינים הבאים:

  • התווית היא קטגורית. המונח לוגיסטי רגרסיה מתייחסת בדרך כלל לרגרסיה לוגיסטית בינארית, כלומר למודל שמחשב הסתברויות לתוויות עם שני ערכים אפשריים. היא וריאציה פחות נפוצה, רגרסיה לוגיסטית ריבוינומית, הסתברויות לתוויות עם יותר משני ערכים אפשריים.
  • פונקציית האובדן במהלך האימון היא מחיקת יומנים. (אפשר למקם במקביל יחידות של אובדן יומנים מרובים עבור תוויות עם יותר משני ערכים אפשריים).
  • למודל יש ארכיטקטורה ליניארית, ולא רשת נוירונים עמוקה. עם זאת, שאר ההגדרה של ההגדרה חלה גם על מודלים עמוקים שמנבאים הסתברויות לתוויות קטגוריות.

לדוגמה, נבחן מודל רגרסיה לוגיסטי שמחשב את שהודעת אימייל קלט היא ספאם או לא ספאם. במהלך ההסקה, נניח שהמודל חוזה את הערך 0.72. לכן, מבצע הערכה של:

  • סיכוי של 72% שהאימייל הוא ספאם.
  • סיכוי של 28% שהודעת האימייל היא לא ספאם.

מודל רגרסיה לוגיסטי מבוסס על ארכיטקטורת שני שלבים:

  1. המודל יוצר חיזוי גולמי (y) על ידי החלת פונקציה לינארית של תכונות קלט.
  2. המודל משתמש בחיזוי הגולמי הזה כקלט sigmoid, שממירה את חיזוי לערך בין 0 ל-1, לא כולל.

בדומה לכל מודל רגרסיה, מודל רגרסיה לוגיסטי חוזה מספר. עם זאת, המספר הזה בדרך כלל הופך לחלק מסיווג בינארי באופן הבא:

  • אם המספר החזוי גדול מה סף הסיווג, ומודל הסיווג הבינארי חוזים את המחלקה החיובית.
  • אם המספר החזוי נמוך מסף הסיווג, מודל הסיווג הבינארי חוזה את המחלקה השלילית.

אובדן תיעוד

#fundamentals

פונקציית ההפסד בשימוש הבינארי רגרסיה לוגיסטית.

סיכויים לרישום ביומן

#fundamentals

הלוגריתם של הסיכויים לאירוע מסוים.

הפסד

#fundamentals

במהלך האימון של מודל בפיקוח, מדד שמציין את המרחק החיזוי של המודל מגיע מהתווית שלו.

פונקציית הפסד מחשבת את אובדן.

עקומת הפסד

#fundamentals

תרשים של הפסד כפונקציה של מספר האימון איטרציות. בתרשים הבא מוצג הפסד אופייני עקומה:

גרף קרטזי של הפסד לעומת איטרציות של אימון, שמראה
          ירידה מהירה באובדן של החזרות הראשוניות, ואחריה ירידה הדרגתית
          ואז שיפוע שטוח במהלך האיטרציות הסופיות.

עקומות אובדן יכולות לעזור לכם לקבוע מתי המודל שיחה או התאמת יתר.

עקומות אובדן יכולות להציג את כל סוגי האובדן הבאים:

ראו גם עקומת הכללה.

את פונקציית האובדן

#fundamentals

במהלך אימון או בדיקה, פונקציה מתמטית שמחשבת וכל מספר של דוגמאות. פונקציית הפסד מחזירה ערך אובדן נמוך יותר מודלים שמפיקים תחזיות טובות מאשר מודלים שמייצרים ויצירת חיזויים לא טובים.

מטרת האימון היא בדרך כלל לצמצם את האובדן של פונקציית הפסד החזרות.

יש סוגים רבים ושונים של פונקציות אובדן. בוחרים את סוג האובדן המתאים מתאים לסוג המודל שאתם בונים. לדוגמה:

M

למידה חישובית

#fundamentals

תוכנית או מערכת שמאמנים מודל מנתוני הקלט. אחרי האימון, המודל יכול להפיק חיזויים שימושיים מנתונים חדשים (שלא הוצגו בעבר) מתוך הנתונים שוות בהתפלגות כמו זו ששימשה לאימון המודל.

למידת מכונה מתייחסת גם לתחום המחקר המדובר עם התוכנות האלה או המערכות האלה.

קבוצת הרוב

#fundamentals

ככל שהתווית הכי נפוצה מערך נתונים לא מאוזן class. לדוגמה, בהינתן מערך נתונים שמכיל 99% תוויות שליליות ו-1% תוויות חיוביות, תוויות שליליות הן סיווג הרוב.

השוו ל-סיווג מיעוט.

מיני-אצווה

#fundamentals

קבוצת משנה קטנה, שנבחרה באופן אקראי של אצווה שמעובדת איטרציה. גודל האצווה של קבוצת מיני-אצווה הוא בדרך כלל בין 10 ל-1,000 דוגמאות.

לדוגמה, נניח שכל קבוצת האימון (קבוצת האימון המלאה) כולל 1,000 דוגמאות. כמו כן, נניח שהגדרתם את גודל אצווה של כל מיני-אצווה עד 20. לכן, כל אחד היא קובעת את האובדן באקראי 20 מתוך 1,000 הדוגמאות, ואז משנה את המשקולות ואת ההטיות בהתאם.

הרבה יותר יעיל לחשב את האובדן בקבוצה קטנה מאשר את כל הדוגמאות בקבוצה המלאה.

סיווג מיעוט

#fundamentals

התווית פחות נפוצה מערך נתונים לא מאוזן class. לדוגמה, בהינתן מערך נתונים שמכיל 99% תוויות שליליות ו-1% תוויות חיוביות, תוויות חיוביות הן סיווג המיעוטים.

ניגודיות עם סיווג רוב.

מודל

#fundamentals

באופן כללי, כל מבנה מתמטי שמעבד נתוני קלט ומחזיר הפלט. מודל מנוסח באופן שונה. מודל הוא קבוצת הפרמטרים והמבנה שנדרשים למערכת כדי לבצע חיזויים. בלמידת מכונה בפיקוח, שמודל לוקח דוגמה כקלט ומסיק חיזוי כפלט. בלמידת מכונה בפיקוח, שונים במידה מסוימת. לדוגמה:

אפשר לשמור מודל, לשחזר אותו או ליצור עותקים שלו.

למידת מכונה לא בפיקוח יוצרת מודלים, בדרך כלל פונקציה שיכולה למפות דוגמה לקלט האשכול המתאים ביותר.

סיווג לכמה כיתות

#fundamentals

בלמידה מונחית, קיימת בעיית סיווג שבהן מערך הנתונים מכיל יותר משתי מחלקות של תוויות. לדוגמה, התוויות במערך הנתונים של Iris חייבות להיות אחת מהאפשרויות הבאות שלושה סיווגים:

  • אירוס סטוסה
  • אירוס וירג'יניה
  • אירוס צבעוני

מודל שאומן על מערך הנתונים של אירוס, שצופה את סוג האירוס על סמך דוגמאות חדשות הוא לבצע סיווג מרובה-כיתות.

לעומת זאת, בעיות סיווג שמבדילות בין שני סוגים של מחלקות הן מודלים לסיווג בינארי. לדוגמה, מודל אימייל שחוזה ספאם או לא ספאם הוא מודל סיווג בינארי.

בבעיות קיבוץ, סיווג מרובה-מחלקות מתייחס שני אשכולות.

לא

סיווג שלילי

#fundamentals

בסיווג בינארי, מחלקה אחת מוגדר חיובי, והשני נקרא שלילי. הסיווג החיובי הוא הדבר או האירוע שעבורם המודל בודק, והסיווג השלילי הוא אפשרית אחרת. לדוגמה:

  • הסיווג השלילי בבדיקה רפואית עשוי להיות 'לא גידול'.
  • הסיווג השלילי במסווג אימייל עשוי להיות 'לא ספאם'.

השוו עם סיווג חיובי.

רשת הזרימה קדימה

#fundamentals

מודל שמכיל לפחות אחד מהמודלים שכבה מוסתרת. רשת נוירונים עמוקה היא סוג של רשת נוירונים שמכיל יותר משכבה נסתרת אחת. לדוגמה, התרשים הבא מציגה רשת נוירונים עמוקה שמכילה שתי שכבות נסתרות.

רשת נוירונים עם שכבת קלט, שתי שכבות נסתרות
          בשכבת פלט.

כל נוירון ברשת נוירונים מתחבר לכל הצמתים בשכבה הבאה. לדוגמה, בתרשים הקודם, שימו לב שכל אחד משלושת הנוירונים בשכבה הסמויה הראשונה, מתחברים בנפרד לשני שני הנוירונים את השכבה השנייה מוסתרת.

לפעמים רשתות נוירונים שמוטמעות במחשבים נקראות רשתות נוירונים מלאכותיות כדי להבדיל ביניהן ברשתות נוירונים שנמצאות במוח ובמערכות עצבים אחרות.

רשתות נוירונים מסוימות יכולות לחקות קשרים לא ליניאריים מורכבים מאוד בין תכונות שונות לבין התווית.

ראו גם רשת עצבית מתקפלת וגם רשת נוירונים חוזרת.

נוירון

#fundamentals

בלמידת מכונה, יחידה נפרדת בתוך שכבה מוסתרת של רשת נוירונים. כל נוירון מבצע את הפעולות הבאות פעולה דו-שלבית:

  1. מחשבת את הסכום המשוקלל של ערכי הקלט כפול לפי המשקולות שלהם.
  2. מעביר את הסכום המשוקלל כקלט אל פונקציית ההפעלה.

נוירון בשכבה הסמויה הראשונה מקבל קלט מערכי המאפיינים בשכבת הקלט. נוירון בכל שכבה נסתרת שמעבר לו הראשון מקבל את הקלט מהנוירונים בשכבה הסמויה הקודמת. לדוגמה, נוירון בשכבה הסמויה השנייה מקבל קלט נוירונים בשכבה הנסתרת הראשונה.

באיור הבא מדגישים שני נוירונים ואת של קלטים.

רשת נוירונים עם שכבת קלט, שתי שכבות נסתרות
          בשכבת פלט. שני נוירונים מודגשים: אחד
          בשכבה השנייה והשנייה בשכבה השנייה. הרכיב המודגש
          הנוירון בשכבה הסמויה הראשונה מקבל קלט משתי התכונות
          בשכבת הקלט. הנוירון המודגש בשכבה הסמויה השנייה
          מקבל קלט מכל אחד משלושת הנוירונים
          בשכבת זרימת הנתונים.

נוירון ברשת נוירונים מחקה את ההתנהגות של נוירונים במוח בחלקים אחרים של מערכות העצבים.

צומת (רשת נוירונים)

#fundamentals

נוירון בשכבה מוסתרת.

nonlinear

#fundamentals

קשר בין שני משתנים או יותר שלא ניתן לייצג אך ורק באמצעות חיבור וכפל. קשר לינארי אפשר לייצג כקו, קשר nonlinear יכול להיות מיוצגים כקו. לדוגמה, נבחן שני מודלים שכל אחד מהם קשור ישות אחת בתווית אחת. המודל מצד שמאל הוא ליניארי והמודל מצד ימין הוא לא ליניארי:

שתי גרפים. תרשים אחד הוא קו, ולכן זהו קשר ליניארי.
          התרשים השני הוא עקומה, כך שזהו קשר לא ליניארי.

שאינו תחנה

#fundamentals

תכונה שהערכים שלה משתנים במאפיין אחד או יותר, בדרך כלל זמן. לדוגמה, שימו לב לדוגמאות הבאות של מיקום שאינו נייח:

  • מספר בגדי הים שנמכרים בחנות מסוימת משתנה בהתאם לעונה.
  • כמות של פירות מסוימים שקטפו באזור מסוים הוא אפס בחלק גדול מהשנה, אבל גדול לתקופה קצרה.
  • עקב שינויי האקלים, הטמפרטורות השנתיות הממוצעות משתנות.

ניגודיות עם תחנות.

נירמול

#fundamentals

באופן כללי, התהליך של המרת הטווח האמיתי של משתנה בטווח ערכים סטנדרטי, למשל:

  • -1 עד +1
  • 0 עד 1
  • את ההתפלגות הנורמלית

לדוגמה, נניח שטווח הערכים בפועל של ישות מסוימת הוא 800 עד 2,400. כחלק מהנדסת תכונות, אפשר לנרמל את הערכים בפועל עד לטווח סטנדרטי, כ-1- ל-+1.

נירמול הוא משימה נפוצה הנדסת תכונות. אימון המודלים בדרך כלל מהיר יותר (ולהפיק חיזויים טובים יותר) כשכל תכונה מספרית לוקטור של המאפיין יש טווח דומה, פחות או יותר.

נתונים מספריים

#fundamentals

תכונות שמיוצגות כמספרים שלמים או כמספרים בעלי ערך ממשי. לדוגמה, מודל הערכת הבית ייצג ככל הנראה את הגודל של בית (במטרים רבועים או במטרים רבועים) כנתונים מספריים. ייצוג מאפיין מסוים כנתונים מספריים מציין שהערכים של התכונה קשר מתמטי לתווית. כלומר, כנראה שמספר המטרים רבועים בבית יש קשר מתמטי לערך של הבית.

לא כל נתוני המספרים השלמים צריכים להיות מיוצגים כנתונים מספריים. לדוגמה, בחלקים מסוימים בעולם המיקודים הם מספרים שלמים. עם זאת, מיקוד של מספר שלם קודים לא צריכים להיות מיוצגים כנתונים מספריים במודלים. הסיבה לכך היא המיקוד של 20000 אינו גבוה פי שניים (או חצי) כמו מיקוד של 10000. בנוסף, למרות שמיקודי מיקוד שונים כן קשורים למיקומים שונים אנחנו לא יכולים להניח שערכי הנדל"ן במיקוד הערך של 20,000 יהיה כפול מערכי הנדל"ן במיקוד 10000. מספרי מיקוד צריכים להיות מיוצגים כנתונים קטגוריים במקום זאת.

לפעמים תכונות מספריות נקראות תכונות רציפות.

O

לא מקוון

#fundamentals

מילה נרדפת לסטטי.

הסקת מסקנות אופליין

#fundamentals

התהליך שבו מודל יוצר קבוצה של חיזויים ואז לשמור במטמון (לשמור) את התחזיות האלה. לאחר מכן האפליקציות יכולות לגשת חיזוי מהמטמון ולא מהפעלה מחדש של המודל.

לדוגמה, נבחן מודל שיוצר תחזיות מזג אוויר מקומיות (חיזויים) פעם אחת בכל ארבע שעות. לאחר כל הרצה של מודל, המערכת שומר במטמון את כל תחזיות מזג האוויר המקומיות. אפליקציות מזג אוויר מאחזרות את התחזיות מהמטמון.

הסקת מסקנות אופליין נקראת גם הסקה סטטית.

השוו בין הסקת מסקנות אונליין.

קידוד חד-פעמי

#fundamentals

ייצוג של נתונים קטגוריים כווקטור שבו:

  • רכיב אחד מוגדר ל-1.
  • כל שאר הרכיבים מוגדרים כ-0.

קידוד חד-פעמי משמש בדרך כלל לייצוג מחרוזות או מזהים יש סט סופי של ערכים אפשריים. לדוגמה, נניח שתכונה מסוימת של קטגוריות בשם ל-Scandinavia יש חמישה ערכים אפשריים:

  • "דנמרק"
  • "שוודיה"
  • "נורווגיה"
  • "פינלנד"
  • "איסלנד"

קידוד חם אחד יכול לייצג כל אחד מחמשת הערכים באופן הבא:

country וקטור
"דנמרק" 1 0 0 0 0
"שוודיה" 0 1 0 0 0
"נורווגיה" 0 0 1 0 0
"פינלנד" 0 0 0 1 0
"איסלנד" 0 0 0 0 1

בזכות קידוד חד-פעמי, המודל יכול ללמוד חיבורים שונים על סמך כל אחת מחמש המדינות.

הצגת תכונה כנתונים מספריים היא לקידוד חד-פעמי. למרבה הצער, אנחנו מייצגים האפשרות במדינות סקנדינבית היא לא טובה. לדוגמה, נבחן את הייצוג המספרי הבא:

  • "דנמרק" הוא 0
  • "שוודיה" הוא 1
  • "נורווגיה" הוא 2
  • "פינלנד" הוא 3
  • "איסלנד" הוא 4

בקידוד מספרי, המודל יפרש את המספרים הגולמיים מתמטית והם ננסה לאמן את המספרים האלה. עם זאת, איסלנד לא למעשה גדולה פי שניים (או חצי) משהו כמו נורווגיה, כך שהמודל יגיע לכמה מסקנות מוזרות.

אחד לעומת כולם

#fundamentals

בהינתן בעיית סיווג ב-N מחלקות, פתרון שמורכב מ-N מסווגים בינאריים – מסווג בינארי אחד עבור כל תוצאה אפשרית. לדוגמה, בהינתן מודל שמסווג דוגמאות כגון בעלי חיים, ירק או מינרל, פתרון אחד מול כולם יספק את בעזרת שלושה מסווגים בינאריים נפרדים:

  • בעל חיים לעומת לא בעל חיים
  • ירק לעומת ללא ירק
  • מינרל לעומת לא מינרלי

online

#fundamentals

דינמית היא מילה נרדפת.

הֶקֵּשׁ אונליין

#fundamentals

יצירת חיזויים על פי דרישה. לדוגמה, נניח שאפליקציה מעבירה קלט למודל ושולחת בקשה צפי. מערכת שמתבססת על מסקנות אונליין מגיבה לבקשה באמצעות הרצת מודל (ולהחזיר את החיזוי לאפליקציה).

השוו בין הסקת מסקנות אופליין.

שכבת פלט

#fundamentals

משחק הגמר של רשת נוירונים. שכבת הפלט מכילה את החיזוי.

באיור הבא מוצגת רשת נוירונים עמוקה קטנה עם קלט שתי שכבות נסתרות, ושכבת פלט:

רשת נוירונים עם שכבת קלט אחת, שתי שכבות נסתרות והשנייה
          בשכבת פלט. שכבת הקלט מורכבת משתי מאפיינים. הראשון
          השכבה הנסתרת מורכבת משלושה נוירונים והשכבה השנייה נסתרת
          מורכב משני נוירונים. שכבת הפלט מורכבת מצומת אחד.

התאמת יתר (overfitting)

#fundamentals

ליצור מודל שתואם נתוני אימון עד כדי כך שהמודל לא מצליח להפיק חיזויים נכונים לגבי נתונים חדשים.

הסתגלות יכולה לצמצם את התאמת יתר. גם אימונים על מערך אימונים גדול ומגוון יכול לצמצם את ההתאמה יתר.

P

פנדות

#fundamentals

ממשק API לניתוח נתונים שמתמקד בעמודות ומבוסס על numpy. הרבה מסגרות של למידת מכונה, כולל TensorFlow, תומך במבני נתונים של פנדות בתור קלט. לצפייה מסמכי תיעוד של פנדות לקבלת פרטים.

פרמטר

#fundamentals

המשקולות וההטיות שהמודל לומד במהלך הדרכה. לדוגמה, במודל רגרסיה ליניארית, הפרמטרים מכילים ההטיה (ב) וכל המשקולות (w1, w2, וכן הלאה) בנוסחה הבאה:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

לעומת זאת, היפר-פרמטר הם הערכים אתם (או שירות שמספק היפר-פרמטרים) מספקים למודל. לדוגמה, קצב למידה הוא היפר-פרמטר.

כיתה חיובית

#fundamentals

הכיתה שעבורה מתבצעת הבדיקה.

לדוגמה, הסיווג החיובי במודל סרטן עשוי להיות 'גידול'. הסיווג החיובי במסווג אימיילים עשוי להיות 'ספאם'.

השוו בין סיווג שלילי.

לאחר עיבוד

#fairness
#fundamentals

התאמת הפלט של המודל אחרי הפעלת המודל. ניתן להשתמש בעיבוד לאחר עיבוד כדי לאכוף מגבלות הוגנות, שמשנים את המודלים עצמם.

לדוגמה, ניתן להחיל לאחר עיבוד על מסווג בינארי באמצעות הגדרה של סף סיווג, נשמר שוויון ההזדמנויות לגבי מאפיין מסוים, על ידי בדיקה שהשיעור החיובי האמיתי זהה לכל הערכים של המאפיין.

חיזוי (prediction)

#fundamentals

הפלט של המודל. לדוגמה:

  • החיזוי של מודל סיווג בינארי הוא הערך החיובי או את המחלקה השלילית.
  • החיזוי של מודל סיווג מרובה מחלקות הוא מחלקה אחת.
  • החיזוי של מודל רגרסיה ליניארית הוא מספר.

תוויות לשרת proxy

#fundamentals

נתונים שמשמשים לחישוב משוער של תוויות שלא זמינים ישירות במערך נתונים.

לדוגמה, נניח שצריך לאמן מודל כדי לחזות עובד רמת הלחץ. מערך הנתונים מכיל הרבה תכונות חיזוי, לא מכיל תווית בשם רמת מתח. בוחרים באפשרות 'תאונות במקום העבודה' ללא חשש כתווית לשרת proxy עבור רמת הלחץ. אחרי הכול, עובדים שסובלים ממתח גבוה מסתנכרנים יותר תאונות מאשר עובדים רגועים. או שאולי נכון? אולי תאונות במקום העבודה עולה ונופלות מסיבות שונות.

דוגמה שנייה: נניח שאתם רוצים שהתווית האם יורד גשם? תהיה תווית בוליאנית. של מערך הנתונים, אבל מערך הנתונים לא מכיל נתוני גשם. אם המיקום תמונות זמינות, אפשר ליצור תמונות של אנשים לשאת מטריות בתור תווית של שרת proxy עבור האם יורד גשם? האם זה קורה? תווית טובה של שרת proxy? ייתכן, אבל אנשים מתרבויות מסוימות יותר סביר לשאת מטריות כדי להגן מפני שמש מאשר גשם.

תוויות proxy הן לעיתים קרובות שגויות. כשאפשר, כדאי לבחור בתוויות בפועל במקום תוויות לשרת proxy. עם זאת, אם אין תווית בפועל, צריך לבחור את שרת ה-proxy ובחרת את התווית הכי פחות גרועה של שרת proxy.

R

RAG

#fundamentals

קיצור של יצירה משופרת של אחזור.

דירוג

#fundamentals

אדם שמספק תוויות לדוגמאות. 'משתמש שמורשה להוסיף הערות' הוא שם נוסף של מדרג.

יחידה לינארית מתוקנת (ReLU)

#fundamentals

פונקציית הפעלה עם ההתנהגות הבאה:

  • אם הקלט הוא שלילי או אפס, הפלט הוא 0.
  • אם הקלט הוא חיובי, הפלט שווה לקלט.

לדוגמה:

  • אם הקלט הוא -3, הפלט הוא 0.
  • אם הקלט הוא +3, הפלט הוא 3.0.

הנה עלילה של ReLU:

תרשים קרטזי בשני שורות. בשורה הראשונה יש קבוע
          y של 0, לאורך ציר ה-X מ--infity,0 עד 0,-0.
          השורה השנייה מתחילה ב-0.0. לקו הזה יש שיפוע של 1+. לכן
          הוא בין 0,0 ל-+אינסוף,+אינסוף.

ReLU היא פונקציית הפעלה פופולרית מאוד. למרות ההתנהגות הפשוטה שלו, תקן ReLU עדיין מאפשר לרשת נוירונים ללמוד nonlinear בין התכונות לבין התווית.

מודל רגרסיה

#fundamentals

באופן לא רשמי, מודל שיוצר חיזוי מספרי. (לעומת זאת, מודל סיווג יוצר מחלקה prediction.) לדוגמה, המודלים הבאים הם מודלים של רגרסיה:

  • מודל שחוזה את הערך של בית מסוים, למשל 423,000 אירו.
  • מודל שחוזה את תוחלת החיים של עץ מסוים, למשל 23.2 שנים.
  • מודל שחוזה את כמות הגשם שיירד בעיר מסוימת במהלך שש השעות הבאות, למשל 0.18 אינץ'.

שני סוגים נפוצים של מודלים של רגרסיה הם:

לא כל מודל שמפיק חיזויים מספריים הוא מודל רגרסיה. במקרים מסוימים, חיזוי מספרי הוא רק מודל סיווג במקרה שיש שמות מחלקות מספריים. לדוגמה, מודל שחוזה מיקוד מספרי הוא מודל סיווג, ולא מודל רגרסיה.

רגולריזציה (regularization)

#fundamentals

כל מנגנון שמפחית התאמה יתר. סוגים פופולריים של הרגולריזציה:

אפשר להגדיר רגילה גם כקנס על מורכבות המודל.

שיעור הרגולריזציה

#fundamentals

מספר שמציין את החשיבות היחסית של ארגון במהלך האימון. העלאת שיעור הרגולריזציה מפחית התאמת יתר, אבל עשוי הפחתת כוח החיזוי של המודל. לעומת זאת, צמצום או השמטה שיעור הרגולריזציה מגדיל את התאמת יתר.

ReLU

#fundamentals

קיצור של Rectified Linear Unit

Retrieval-augmented Gen (RAG)

#fundamentals

שיטה לשיפור האיכות של הפלט של מודל שפה גדול (LLM) על ידי הבססת מקורות מידע שאוחזרו אחרי אימון המודל. RAG משפר את רמת הדיוק של תשובות LLM, כי הוא מספק ל-LLM המאומן גישה למידע שאוחזר ממאגרי ידע או ממסמכים מהימנים.

בין המניעים הנפוצים לשימוש בהפקה משופרת של אחזור:

  • שיפור הדיוק העובדתי בתשובות שנוצרות למודל.
  • לתת למודל גישה לידע שהוא לא אומן לפיו.
  • שינוי הידע שבו המודל משתמש.
  • מתן אפשרות למודל לצטט מקורות.

לדוגמה, נניח שאפליקציה לכימיה משתמשת ב-PaLM API ליצירת סיכומים שקשורות לשאילתות של משתמשים. כשהקצה העורפי של האפליקציה מקבל שאילתה, הקצה העורפי:

  1. חיפוש נתונים ('מאחזרים') שרלוונטיים לשאילתת המשתמש.
  2. מצרף ('שיפורים') את הנתונים הכימיים הרלוונטיים לשאילתת המשתמש.
  3. מורה ל-LLM ליצור סיכום על סמך הנתונים שצורפו.

עקומת ROC (מאפיין הפעלת מקלט)

#fundamentals

תרשים של שיעור חיובי אמיתי לעומת שיעור חיובי שווא למאפיינים שונים ערכי סף לסיווג בבינארי. של משפטים יחידים,

הצורה של עקומת ROC מרמזת על היכולת של מודל סיווג בינארי כדי להפריד בין סיווגים חיוביים לסיווגים שליליים. נניח, למשל, שמודל סיווג בינארי מפריד לחלוטין בין כל הערכים מכל הכיתות החיוביות:

ציר מספרים עם 8 דוגמאות חיוביות בצד ימין
          7 דוגמאות שליליות משמאל.

עקומת ה-ROC של המודל הקודם נראית כך:

עקומת ROC. ציר ה-X הוא שיעור חיובי שגוי וציר ה-Y
          הוא השיעור החיובי האמיתי. העקומה היא בצורת L הפוכה. העקומה
          מתחיל ב- (0.0,0.0) ונמשך ישירות עד (0.0,1.0). ואז את העקומה
          מ-(0.0,1.0) ל-(1.0,1.0).

לעומת זאת, באיור הבא מוצגת הרגרסיה הלוגיסטית הגולמית. עבור מודל גרוע שאינו יכול להפריד בין סיווגים שליליים דירוגים חיוביים בכלל:

ציר מספרים עם דוגמאות חיוביות וסיווגים שליליים
          מתערבבים לגמרי.

עקומת ה-ROC של המודל הזה נראית כך:

עקומת ROC, שהיא למעשה קו ישר מ-(0.0,0.0)
          עד (1.0,1.0).

בינתיים, בעולם האמיתי, רוב המודלים הבינאריים של סיווג בינאריים מפרידים בין דירוגים חיוביים ושליליים במידה מסוימת, אבל בדרך כלל לא בצורה מושלמת. אז, עקומה טיפוסית של ROC נופלת בין שתי הקצוות הקיצוניים:

עקומת ROC. ציר ה-X הוא שיעור חיובי שגוי וציר ה-Y
          הוא השיעור החיובי האמיתי. עקומת ה-ROC מתקרבת לקשת רועשת
          לחצות את נקודות המצפן ממערב לצפון.

הנקודה בעקומת ROC הקרובה ביותר ל-(0.0,1.0) מזהה תיאורטית סף הסיווג האידיאלי. עם זאת, יש כמה בעיות אחרות בעולם האמיתי להשפיע על הבחירה של סף הסיווג האידיאלי. לדוגמה, אולי תוצאות שליליות כוזבות גורמות הרבה יותר כאב מאשר תוצאות חיוביות מוטעות.

מדד מספרי שנקרא AUC מסכם את עקומת ה-ROC ערך יחיד של נקודה צפה (floating-point).

שגיאה בריבוע הממוצע של Root (RMSE)

#fundamentals

השורש הריבועי של השגיאה הממוצעת בריבוע.

S

פונקציית סיגמואיד

#fundamentals

פונקציה מתמטית ש"מעיכה" ערך קלט לטווח מוגבל, בדרך כלל 0 עד 1 או 1- עד 1. כלומר, אפשר להעביר כל מספר (שני, מיליון, ל-sigmoid, והפלט עדיין יהיה טווח מוגבל. שרטוט של פונקציית ההפעלה sigmoid נראה כך:

תרשים מעוקל דו-ממדי עם ערכי x שמתפרש על פני הדומיין
          -אינסוף עד +חיובי, בעוד שערכי ה-y מתפרשים על הטווח כמעט 0 עד
          כמעט 1. כש-x הוא 0, y הוא 0.5. שיפוע העקומה הוא תמיד
          חיובי, כאשר השיפוע הגבוה ביותר הוא 0,0.5 ויורד בהדרגה
          שיפוע כשהערך המוחלט של x עולה.

לפונקציית sigmoid יש כמה שימושים בלמידת מכונה, כולל:

softmax

#fundamentals

פונקציה שקובעת הסתברויות לכל מחלקה אפשרית מודל סיווג מרובה-מחלקות. סכום ההסתברויות ל-1.0 בדיוק. לדוגמה, הטבלה הבאה מציגה את אופן החלוקה של ה-softmax הסתברויות שונות:

התמונה היא... Probability
כלב 85.
cat 13.
סוס 0.02

הכלי Softmax נקרא גם full softmax.

השוו לדגימת מועמדים.

פיצ'ר נדיר

#language
#fundamentals

תכונה שהערכים שלה הם בעיקר אפס או ריקים. לדוגמה, תכונה שמכילה ערך בודד ומיליון ערכים של 0 מצומצמת. לעומת זאת, לתכונה צפופה יש ערכים הם בעיקר לא אפס או ריקים.

בלמידת מכונה, למספר מפתיע של תכונות יש מעט תכונות. תכונות קטגוריות הן בדרך כלל תכונות מעטות. לדוגמה, מתוך 300 מיני עצים אפשריים ביער, דוגמה אחת יכול לזהות רק עץ אֶדֶר. או מתוך מיליונים של סרטונים אפשריים בספריית הסרטונים, דוגמה אחת עשויה לזהות רק "קזבלנקה".

במודל, בדרך כלל מייצגים תכונות מועטות עם קידוד חם אחד. אם הקידוד החד-פעמי הוא גדול, אפשר להוסיף שכבת הטמעה מעל בקידוד חם אחד ליעילות גבוהה יותר.

ייצוג דל

#language
#fundamentals

אחסון רק של המיקומים של אלמנטים שאינם אפס בתכונה מצומצמת.

לדוגמה, נניח שתכונה קטגורית בשם species מזהה את 36 מיני עצים ביער מסוים. בנוסף, מניחים שכל אחד example מזהה רק מין אחד.

אפשר להשתמש בווקטור לוהט אחד כדי לייצג את מין העצים בכל אחת מהדוגמאות. וקטור חם אחד יכיל 1 יחיד (לייצוג את מין העצים הספציפי בדוגמה הזו) ו-35 0s (כדי לייצג 35 זני עצים לא בדוגמה הזו). אז הייצוג החם של maple עשויים להיראות כך:

וקטור שבו מיקומים 0 עד 23 שומרים על הערך 0, מיקום
          24 שומר את הערך 1, ומיקומים 25 עד 35 שומרים את הערך 0.

לחלופין, ייצוג דליל פשוט יזהה את המיקום של מינים מסוימים. אם maple נמצא במיקום 24, אז הייצוג הדל של maple יהיו פשוט:

24

שימו לב שהייצוג הדל הוא הרבה יותר קומפקטי מהייצוג בווקטור יהיה זהה,

וקטור דליל

#fundamentals

וקטור שהערכים שלו הם בעיקר אפסים. ראה גם ו-sparsity.

הפסד בריבוע

#fundamentals

מילה נרדפת לאובדן L2.

סטטי

#fundamentals

פעולה שבוצעה פעם אחת במקום ברציפות. המונחים סטטיים ואופליין הם מילים נרדפות. בהמשך מפורטים שימושים נפוצים במודלים סטטיים ואופליין במכונה. במצב למידה:

  • מודל סטטי (או מודל אופליין) הוא מודל שאומן פעם אחת ולאחר מכן שהיו בשימוש במשך זמן מה.
  • אימון סטטי (או אימון אופליין) הוא התהליך של אימון סטטי.
  • הֶקֵּשׁ סטטי (או הֶקֵּשׁ אופליין) שבו מודל יוצר קבוצת חיזויים בכל פעם.

השוו עם דינמית.

הֶקֵּשׁ סטטי

#fundamentals

מילה נרדפת להֶקֵּשׁ אופליין.

נייר מעמדים

#fundamentals

תכונה שהערכים שלה לא משתנים במאפיין אחד או יותר, בדרך כלל הזמן. לדוגמה, ישות שהערכים שלה נראים בערך אותו דבר בשנת 2021, וגם מוצגים בשנת 2023 תחנה אחת.

בעולם האמיתי, מעט מאוד תכונות מוצגות בסביבה פיזית. תכונות מאוזנות מקביל לשינוי היציבות (כמו גובה פני הים) לאורך זמן.

ניגודיות עם לא תחנות.

ירידה סטוכסטית הדרגתית (SGD)

#fundamentals

אלגוריתם של ירידה הדרגתית שבו גודל אצווה הוא אחד. במילים אחרות, מתבצע אימון של SGD דוגמה אחת שנבחרה בצורה אחידה אקראיות מתוך קבוצת אימון.

למידת מכונה בפיקוח

#fundamentals

אימון של מודל מתכונות התוויות התואמות. למידת מכונה מבוקרת מקבילה ללמוד נושא מסוים באמצעות סדרה של שאלות את התשובות המתאימות. אחרי הבנת המיפוי בין השאלות של התשובות, התלמידים יכולים לספק תשובות לשאלות חדשות (שלא נראו בעבר) באותו נושא.

השוואה עם למידת מכונה לא בפיקוח.

תכונה סינתטית

#fundamentals

תכונה שלא קיימת בתכונות הקלט, אבל שהורכב מאחד או יותר מהם. שיטות ליצירת תכונות סינתטיות כוללים את הפרטים הבאים:

  • חלוקה לקטגוריות של מאפיין מתמשך לתוך סלי טווח.
  • יצירת תכונות שונות.
  • הכפלה (או חלוקה) של ערך מאפיין אחד בערכים של תכונות אחרות או כשלעצמו. לדוגמה, אם a ו-b הן תכונות קלט, אז המאפיין דוגמאות לתכונות סינתטיות:
    • ab
    • a2
  • החלת פונקציה טרנסצנדנטלית על ערך של מאפיין. לדוגמה, אם c הוא תכונת קלט, אז הדוגמאות הבאות הן תכונות סינתטיות:
    • sin(c)
    • ln(c)

תכונות שנוצרות על ידי נירמול או התאמה לעומס לא נחשבים לתכונות סינתטיות.

T

אובדן בדיקה

#fundamentals

מדד שמייצג את ההפסד של מודל קבוצת הבדיקה. כשיוצרים מודל, בדרך כלל מנסים לצמצם את אובדן הבדיקות. הסיבה לכך היא שהפסד נמוך של בדיקות אות באיכות גבוהה יותר מאשר הפסד אימון נמוך, או הפסד אימות נמוך.

לפעמים יש פער גדול בין אובדן בדיקות לבין אובדן האימון או איבוד האימות מציע שצריך להגדיל regularization rate.

הדרכה

#fundamentals

תהליך קביעת הפרמטרים האידיאליים (משקולות הטיות) שכוללות מודל. במהלך האימון, המערכת קוראת examples ומשנה את הפרמטרים בהדרגה. באימון נעשה שימוש בכל כמה פעמים עד מיליארדי פעמים.

אובדן אימון

#fundamentals

מדד שמייצג את הפסד של מודל במהלך ספציפית איטרציה של אימון. לדוגמה, נניח שהפונקציה אובדן הוא שגיאה בריבוע הממוצע. אולי הפסד האימון ריבוע השגיאה) עבור האיטרציה העשירית הוא 2.2, וההפסד של האימון עבור האיטרציה ה-100 היא 1.9.

עקומת הפסד מייצגת את אובדן האימון לעומת מספר כמה חזרות. עקומת הפסד מספקת את הרמזים הבאים לגבי אימון:

  • שיפוע יורד מעיד שהמודל משתפר.
  • שיפוע כלפי מעלה מעיד שהמודל הולך ומחמיר.
  • שיפוע ישר מרמז על כך שהמודל הגיע איחוד.

לדוגמה, עקומת ההפסד הבאה היא אידיאלית במידה מסוימת מציג:

  • שיפוע תלול במהלך האיטרציות הראשוניות, שמרמז על כך ולשפר את המודל במהירות.
  • שיפוע שמתרחב בהדרגה (אבל עדיין למטה) עד שקרוב לסוף של אימון, שמרמז על שיפור מתמשך של המודל איטי יותר מאשר במהלך האיטרציות הראשוניות.
  • שיפוע ישר לקראת סוף האימון, שמרמז על התכנסות.

התרשים של אובדן אימון לעומת איטרציות. עקומת האובדן הזו מתחילה
     עם שיפוע תלול. השיפוע מתפזר בהדרגה עד
     השיפוע הופך לאפס.

למרות שחשוב לזכור שהפסד האימון חשוב, הכללה כללית.

training-serving skew

#fundamentals

ההבדל בין ביצועי המודל במהלך אימון והביצועים של אותו מודל במהלך הצגת מודעות.

ערכת אימון

#fundamentals

קבוצת המשנה של מערך הנתונים שמשמשת לאימון מודל.

בדרך כלל, הדוגמאות במערך הנתונים מחולקות לשלוש קבוצות משנה נפרדות:

באופן אידיאלי, כל דוגמה במערך הנתונים צריכה להשתייך רק לאחד ואת קבוצות המשנה שקדמו לו. לדוגמה, דוגמה אחת לא צריכה להיות שייכת גם ערכת האימון וגם קבוצת האימות.

שלילי נכון (TN)

#fundamentals

דוגמה שבה המודל חוזים נכון סיווג שלילי. לדוגמה, המודל מסיק הודעת אימייל מסוימת היא לא ספאם, והודעת האימייל הזו לא ספאם.

חיובי אמיתי (TP)

#fundamentals

דוגמה שבה המודל חוזים נכון כיתה חיובית. לדוגמה, המודל מסיק הודעת אימייל מסוימת היא ספאם, והודעת האימייל הזו היא באמת ספאם.

שיעור חיובי אמיתי (TPR)

#fundamentals

מילה נרדפת. כלומר:

$$\text{true positive rate} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}}$$

השיעור החיובי האמיתי הוא ציר ה-Y בעקומת ROC.

U

התאמה מתחת לבגדים

#fundamentals

יצירת מודל עם יכולת חיזוי נמוכה, כי המודל לא תיעד באופן מלא את המורכבות של נתוני האימון. בעיות רבות עלול לגרום לחוסר התאמה, כולל:

דוגמה ללא תווית

#fundamentals

דוגמה שכוללת תכונות אבל בלי תווית. לדוגמה, בטבלה הבאה מוצגות שלוש דוגמאות של בית ללא תווית מודל הערכה, שלכל אחד יש שלוש תכונות אך ללא ערך בית:

מספר חדרי שינה מספר חדרי הרחצה גיל הבית
3 2 15
2 1 72
4 2 34

בלמידת מכונה בפיקוח, מודלים מאומנים לפי דוגמאות מתויגות, ומפיקים תחזיות לגבי דוגמאות ללא תווית.

במודל בפיקוח חלקי, למידה ללא פיקוח, אנחנו משתמשים בדוגמאות ללא תוויות במהלך האימון.

יש להשוות בין דוגמה ללא תווית לבין דוגמה עם תווית.

למידת מכונה בלתי מונחית

#clustering
#fundamentals

אימון של מודל כדי למצוא דפוסים במערך נתונים, בדרך כלל של מערך נתונים ללא תווית.

השימוש הנפוץ ביותר בלמידת מכונה בלתי מונחית הוא נתוני אשכול לקבוצות של דוגמאות דומות. לדוגמה, מכשיר לא מפוקח של למידת מכונה יכול לקבץ שירים על סמך מאפיינים שונים של המוזיקה. האשכולות שמתקבלים יכולים להפוך לקלט למכונה אחרת אלגוריתמים של למידת מכונה (לדוגמה, לשירות המלצות על מוזיקה). יצירת אשכולות יכולה לעזור כשיש מעט תוויות שימושיות או חסרות תוויות. לדוגמה, בתחומים כמו מניעת ניצול לרעה והונאה, אשכולות יכולים לעזור שבני אדם מבינים טוב יותר את הנתונים.

השוואה בין למידת מכונה בפיקוח.

V

אימות

#fundamentals

ההערכה הראשונית של איכות המודל. האימות בודק את איכות החיזויים של המודל ביחס קבוצת אימות.

מכיוון שמערכת האימות שונה מקבוצת האימון, האימות עוזר להגן מפני התאמה יתר.

אפשר להעריך את המודל ביחס לקבוצת האימות בסבב הראשון של בדיקה והערכה של המודל ביחס קבוצת בדיקה היא הסבב השני של הבדיקות.

אובדן אימות

#fundamentals

מדד שמייצג את הפסד של מודל ב- האימות שהוגדר במהלך תקופה ספציפית איטרציה של אימון.

ראו גם עקומת הכללה.

קבוצת אימות

#fundamentals

קבוצת המשנה של מערך הנתונים שמבצע את הפעולות הראשוניות לבצע הערכה בהשוואה למודל מאומן. בדרך כלל, את המודל שאומן בהתאם לקבוצת האימות לפני שמבצעים הערכה של המודל ביחס לקבוצת הבדיקה.

בדרך כלל, מחלקים את הדוגמאות במערך הנתונים לשלושת הדוגמאות הבאות קבוצות משנה נפרדות:

באופן אידיאלי, כל דוגמה במערך הנתונים צריכה להשתייך רק לאחד ואת קבוצות המשנה שקדמו לו. לדוגמה, דוגמה אחת לא צריכה להיות שייכת גם ערכת האימון וגם קבוצת האימות.

W

משקל

#fundamentals

ערך שהמודל מכפיל בערך אחר. אימון הוא התהליך לקביעת המשקולות האידיאליות של מודל; הסקת מסקנות הוא התהליך של שימוש במשקולות שנלמדו כדי להפיק חיזויים.

סכום משוקלל

#fundamentals

הסכום של כל ערכי הקלט הרלוונטיים כפול ומשקולות. לדוגמה, נניח שהקלט הרלוונטי מכיל את הנתונים הבאים:

ערך הקלט משקל הקלט
2 1.3-
-1 0.6
3 0.4

לכן הסכום המשוקלל הוא:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

סכום משוקלל הוא ארגומנט הקלט פונקציית ההפעלה.

Z

נירמול של ציון ה-Z

#fundamentals

שיטת התאמה לעומס (scaling) שמחליפה נתונים גולמיים הערך של feature עם ערך נקודה צפה (floating-point) מספר סטיות התקן מהממוצע של אותה תכונה. לדוגמה, נבחן ישות שהממוצע שלה הוא 800 ושהתקן שלה הוא 100. הטבלה הבאה מציגה איך נירמול ציון ה-Z ימפה את הערך הגולמי לציון ה-Z שלו:

ערך גולמי נקודות Z
800 0
950 1.5+
575 2.25-

לאחר מכן, מודל למידת המכונה מאמן את ערכי ה-Z של התכונה הזו במקום בערכים הגולמיים.