המשימות של למידת מכונה בפיקוח מוגדרות היטב וניתן להחיל אותן על מגוון תרחישים, כמו זיהוי ספאם או חיזוי משקעים.
מושגים בסיסיים של למידה מונחית
למידת מכונה בפיקוח מבוססת על המושגים המרכזיים הבאים:
- נתונים
- דגם
- הדרכה
- הערכה
- מסקנה
נתונים
נתונים הם המנוע של למידת המכונה. הנתונים מגיעים בצורה של מילים ומספרים שמאוחסנים בטבלאות, או כערכים של פיקסלים וצורות גל שמצולמים בתמונות ובקובצי אודיו. אנחנו מאחסנים נתונים קשורים במערכי נתונים. לדוגמה, יכול להיות שיש לנו מערך נתונים שכולל את הפרטים הבאים:
- תמונות של חתולים
- מחירי דיור
- מידע על מזג האוויר
מערכי נתונים מורכבים מדוגמאות נפרדות שמכילות מאפיינים ותווית. אפשר להתייחס לדוגמה כאל שורה אחת בגיליון אלקטרוני. מאפיינים הם הערכים שבהם מודל בפיקוח משתמש כדי לחזות את התווית. התווית היא 'התשובה', או הערך שאנחנו רוצים למודל לחזות. במודל מזג אוויר לחיזוי כמות המשקעים, המאפיינים יכולים להיות קו הרוחב, קו האורך, טמפרטורה, לחות, כיסוי עננים, כיוון הרוח ולחץ אטמוספרי. התווית תהיה rainfall amount.
דוגמאות שמכילות גם תכונות וגם תווית נקראות דוגמאות מתויגות.
שתי דוגמאות עם תוויות
לעומת זאת, דוגמאות ללא תוויות מכילות תכונות אבל לא תווית. אחרי שיוצרים מודל, הוא מנבא את התווית מהמאפיינים.
שתי דוגמאות ללא תוויות
מאפייני מערך הנתונים
מאפייני מערך הנתונים הם הגודל והמגוון שלו. 'גודל' מציין את מספר הדוגמאות. המדד 'מגוון' מציין את הטווח שהדוגמאות האלה מכסות. מערכי נתונים טובים הם גם גדולים וגם מגוונים מאוד.
יש מערכי נתונים גדולים ומגוונים. עם זאת, יש מערכי נתונים גדולים עם מגוון נמוך, ויש מערכי נתונים קטנים עם מגוון גבוה. במילים אחרות, מערך נתונים גדול לא מבטיח מגוון מספיק, ומערך נתונים שמגוון מאוד לא מבטיח מספיק דוגמאות.
לדוגמה, מערך נתונים יכול להכיל נתונים של 100 שנים, אבל רק לחודש יולי. שימוש במערך הנתונים הזה כדי לחזות את כמות המשקעים בינואר יניב תחזיות גרועות. לעומת זאת, מערך נתונים יכול לכלול רק כמה שנים אבל לכלול כל חודש. ייתכן שהתחזיות שיניב מערך הנתונים הזה יהיו גרועות כי הוא לא מכיל מספיק שנים כדי להביא בחשבון את השונות.
בדיקת ההבנה
מאגר נתונים יכול להיות מאופיין גם לפי מספר המאפיינים שלו. לדוגמה, מערכי נתונים מסוימים של מזג האוויר עשויים להכיל מאות תכונות, החל מתמונות לוויין ועד לערכים של כיסוי עננים. מערכי נתונים אחרים עשויים להכיל רק שלוש או ארבע תכונות, כמו לחות, לחץ אטמוספרי וטמפרטורה. קבוצות נתונים עם יותר תכונות יכולות לעזור למודל לגלות דפוסים נוספים ולבצע חיזויים טובים יותר. עם זאת, מערכי נתונים עם יותר מאפיינים לא תמיד מניב מודלים שמספקים חיזויים טובים יותר, כי יכול להיות שלמאפיינים מסוימים אין קשר סיבתי לתווית.
דגם
בלמידה בפיקוח, מודל הוא אוסף המספרים המורכב שמגדיר את הקשר המתמטי בין דפוסים ספציפיים של מאפייני קלט לבין ערכים ספציפיים של תוויות פלט. המודל מגלה את התבניות האלה במהלך האימון.
הדרכה
כדי שמודל בפיקוח יוכל לבצע תחזיות, צריך לאמן אותו. כדי לאמן מודל, אנחנו נותנים לו מערך נתונים עם דוגמאות מתויגות. מטרת המודל היא למצוא את הפתרון הטוב ביותר לחיזוי התוויות מהמאפיינים. המודל מוצא את הפתרון הטוב ביותר על ידי השוואה בין הערך החזוי שלו לערך בפועל של התווית. על סמך ההפרש בין הערכים הצפויים לבין הערכים בפועל – שמוגדר בתור האובדן – המודל מעדכן את הפתרון שלו באופן הדרגתי. במילים אחרות, המודל לומד את הקשר המתמטי בין המאפיינים לבין התווית כדי שיוכל לחזות בצורה הטובה ביותר נתונים שלא נראו.
לדוגמה, אם המודל צפה 1.15 inches
שלג, אבל הערך בפועל היה .75 inches
, המודל משנה את הפתרון שלו כך שהחיזוי יהיה קרוב יותר ל-.75 inches
. אחרי שהמודל בודק כל דוגמה במערך הנתונים – במקרים מסוימים, כמה פעמים – הוא מגיע לפתרון שמספק את התחזיות הטובות ביותר, בממוצע, לכל אחת מהדוגמאות.
הדוגמה הבאה ממחישה אימון של מודל:
המודל מקבל דוגמה אחת עם תוויות ומספק חיזוי.
איור 1. מודל למידת מכונה שמבצע חיזוי מדוגמה מתויגת.
המודל משווה את הערך החזוי שלו לערך בפועל ומעדכן את הפתרון שלו.
איור 2. מודל למידת מכונה שמעדכן את הערך החזוי שלו.
המודל חוזר על התהליך הזה לכל דוגמה מתויגת במערך הנתונים.
איור 3. מודל למידת מכונה שמעדכן את התחזיות שלו לכל דוגמה מתויגת במערך הנתונים לאימון.
כך, המודל לומד בהדרגה את הקשר הנכון בין המאפיינים לבין התווית. ההבנה ההדרגתית הזו היא גם הסיבה לכך שמערכי נתונים גדולים ומגוונים יוצרים מודל טוב יותר. המודל ראה יותר נתונים עם טווח רחב יותר של ערכים, והוא שיפר את ההבנה שלו לגבי הקשר בין המאפיינים לבין התווית.
במהלך האימון, מומחי ה-ML יכולים לבצע התאמות עדינות בהגדרות ובתכונות שבהן המודל משתמש כדי לבצע חיזויים. לדוגמה, לתכונות מסוימות יש יכולת חיזוי טובה יותר מאשר לתכונות אחרות. לכן, מומחי ML יכולים לבחור באילו תכונות המודל ישתמש במהלך האימון. לדוגמה, נניח שמערך נתונים של מזג אוויר מכיל את time_of_day
כתכונה. במקרה כזה, מומחה ל-ML יכול להוסיף או להסיר את time_of_day
במהלך האימון כדי לראות אם המודלים מניבים תחזיות טובות יותר עם המאפיין או בלעדיו.
הערכה
אנחנו מעריכים מודל מאומן כדי לקבוע עד כמה הוא למד. כשאנחנו מעריכים מודל, אנחנו משתמשים במערך נתונים מתויג, אבל אנחנו נותנים למודל רק את המאפיינים של מערך הנתונים. לאחר מכן אנחנו משווים את התחזיות של המודל לערכים האמיתיים של התווית.
איור 4. הערכת מודל של למידת מכונה על ידי השוואה בין התחזיות שלו לבין הערכים בפועל.
בהתאם לחיזויים של המודל, יכול להיות שנבצע אימון והערכה נוספים לפני שנפרוס את המודל באפליקציה בעולם האמיתי.
בדיקת ההבנה
מסקנה
אחרי שנהיה מרוצים מהתוצאות של הערכת המודל, נוכל להשתמש בו כדי ליצור תחזיות, שנקראות הסקות, על דוגמאות ללא תוויות. בדוגמה של אפליקציית מזג האוויר, נמסור למודל את תנאי מזג האוויר הנוכחיים – כמו הטמפרטורה, לחץ האטמוספרה והלחות היחסית – והוא ינבא את כמות המשקעים.