השאלות הבאות יעזרו לכם לחדד את ההבנה שלכם לגבי מושגי הליבה של למידת המכונה.
עוצמת החיזוי
מודלים של למידת מכונה (ML) בפיקוח מאומנים באמצעות מערכי נתונים עם דוגמאות מתויגות. המודל לומד לחזות את התווית מהמאפיינים. עם זאת, לא לכל מאפיין במערך נתונים יש יכולת חיזוי. במקרים מסוימים, רק כמה תכונות משמשות כחזויות לתיוג. במערך הנתונים שבהמשך, משתמשים במחיר בתור התווית ובעמודות הנותרות בתור המאפיינים.
לדעתך, אילו שלוש תכונות הן הסבירות ביותר לחזות את מחיר הרכב?
Make_model, year, miles.
סביר להניח ששם היצרן, הדגם, שנת הייצור והקילומטראז' של הרכב הם בין הגורמים החזקים ביותר שמשפיעים על המחיר שלו.
Color, height, make_model.
הגובה והצבע של הרכב הם לא גורמים חזקים שמשפיעים על המחיר שלו.
Miles, gearbox, make_model.
תיבת ההילוכים היא לא גורם עיקרי שמשפיע על המחיר.
Tire_size, wheel_base, year.
גודל הצמיגים ובסיס הגלגלים הם לא גורמים חזקים שמשפיעים על מחיר הרכב.
למידה מונחית ולמידה בלתי מונחית
בהתאם לבעיה, תשתמשו בגישה בפיקוח או ללא פיקוח.
לדוגמה, אם אתם יודעים מראש את הערך או הקטגוריה שאתם רוצים לחזות, תוכלו להשתמש בלמידה בפיקוח. עם זאת, אם רוצים לדעת אם מערך הנתונים מכיל פילוח או קיבוץ של דוגמאות קשורות, צריך להשתמש בלמידה ללא הדרכה.
נניח שיש לכם מערך נתונים של משתמשים באתר של קניות אונליין, והוא מכיל את העמודות הבאות:
אם תרצו להבין את סוגי המשתמשים שמבקרים באתר, האם תשתמשו בלמידה בפיקוח או בלמידה ללא פיקוח?
למידה בלתי מונחית.
מכיוון שאנחנו רוצים שהמודל יקבץ קבוצות של לקוחות קשורים, נשתמש בלמידה ללא הדרכה. אחרי שהמודל יקבץ את המשתמשים, נגדיר שמות משותפים לכל אשכול, למשל 'מחפשי הנחות', 'ציידי מבצעים', 'גולשים', 'נאמנים' ו'נודדים'.
למידה בפיקוח, כי אני מנסה לחזות לאיזו כיתה משתייך המשתמש.
בלמידה מבוקרת, מערך הנתונים צריך לכלול את התווית שאתם מנסים לחזות. אין במערך הנתונים תווית שמפנה לקטגוריה של משתמש.
נניח שיש לכם מערך נתונים של שימוש באנרגיה בבתים עם העמודות הבאות:
באיזה סוג של למידת מכונה היית משתמש כדי לחזות את מספר שעות הקילוואט שנעשה בהן שימוש בשנה בבית שנבנה לאחרונה?
למידה מונחית.
למידה בפיקוח מתבצעת על דוגמאות מתויגות. במערך הנתונים הזה, התווית תהיה 'קילוואט-שעה בשימוש בשנה' כי זה הערך שרוצים שהמודל יחזה. התכונות יהיו: 'שטח בנוי', 'מיקום' ו'שנה שבה נבנה'.
למידה בלתי מונחית.
בלמידה בלתי מונחית נעשה שימוש בדוגמאות לא מתויגות. בדוגמה הזו, התווית תהיה 'קילוואט-שעה בשימוש בשנה' כי זה הערך שרוצים שהמודל יחזה.
נניח שיש לכם מערך נתונים של טיסות עם העמודות הבאות:
אם רוצים לחזות את העלות של כרטיס אוטובוס, משתמשים ברגרסיה או בסיווג?
רגרסיה
הפלט של מודל רגרסיה הוא ערך מספרי.
סיווג
הפלט של מודל סיווג הוא ערך בדיד, בדרך כלל מילה. במקרה כזה, העלות של כרטיס אוטובוס היא ערך מספרי.
על סמך מערך הנתונים, האם אפשר לאמן מודל סיווג כדי לסווג את העלות של כרטיס אוטובוס כ'גבוהה', 'ממוצעת' או 'נמוכה'?
כן, אבל קודם כול צריך להמיר את הערכים המספריים בעמודה coach_ticket_cost
לערכים קטגוריאליים.
אפשר ליצור מודל סיווג ממערך הנתונים.
צריך לבצע פעולה דומה לזו:
- חיפוש העלות הממוצעת של כרטיס משדה התעופה של המוצא לשדה התעופה של היעד.
- קובעים את ערכי הסף שייחשבו כ'גבוה', 'ממוצע' ו'נמוך'.
- השוואה של העלות הצפויה לערכי הסף, והצגת הקטגוריה שבה נמצא הערך.
לא. אי אפשר ליצור מודל סיווג. הערכים של coach_ticket_cost
הם מספריים ולא קטגוריים.
עם קצת עבודה, תוכלו ליצור מודל סיווג.
לא. מודלים של סיווג צופים רק שתי קטגוריות, כמו spam
או not_spam
. המודל הזה יצטרך לחזות שלוש קטגוריות.
מודלים של סיווג יכולים לחזות כמה קטגוריות. הם נקראים מודלים של סיווג בכמה כיתות.
אימון והערכה
אחרי שאנחנו מארגנים מודל, אנחנו מעריכים אותו באמצעות מערך נתונים עם דוגמאות מתויגות, ומשווים את הערך המשוער של המודל לערך בפועל של התווית.
בוחרים את שתי התשובות הטובות ביותר לשאלה.
אם התחזיות של המודל שגויות, מה אפשר לעשות כדי לשפר אותן?
מאומנים מחדש את המודל, אבל משתמשים רק בתכונות שלדעתכם יש להן את יכולת החיזוי החזקה ביותר של התווית.
אימון מחדש של המודל עם פחות תכונות, אבל עם יותר יכולת חיזוי, יכול להניב מודל שמבצע חיזויים טובים יותר.
אי אפשר לתקן מודל שהתחזיות שלו שגויות.
אפשר לתקן מודל שהתחזיות שלו שגויות. רוב המודלים דורשים כמה מחזורי אימון עד שהם מספקים תחזיות שימושיות.
מאומנים מחדש את המודל באמצעות מערך נתונים גדול ומגוון יותר.
מודלים שמודרכים על מערכי נתונים עם יותר דוגמאות וטווח רחב יותר של ערכים יכולים לספק תחזיות טובות יותר, כי למודל יש פתרון כללי טוב יותר לקשר בין המאפיינים לבין התווית.
נסו גישה אחרת לאימון. לדוגמה, אם השתמשתם בגישה בפיקוח, נסו גישה ללא פיקוח.
גישה שונה של אימון לא תניב תחזיות טובות יותר.
עכשיו אתם מוכנים לעבור לשלב הבא במסע שלכם ב-ML:
מדריך לאנשים ו-AI אם אתם מחפשים קבוצה של שיטות, שיטות מומלצות ודוגמאות לשימוש ב-ML, שמוצגות על ידי גוגלרים, מומחים בתעשייה ומחקרים אקדמיים.
מסגור הבעיה. אם אתם מחפשים גישה שנבדקה בשטח ליצירת מודלים של למידת מכונה ולהימנעות ממלכודות נפוצות בדרך.
קורס מקוצר על למידת מכונה אם אתם מוכנים ללמוד על למידת מכונה בצורה מעמיקה ומעשית.