בחינת ההבנה שלכם

השאלות הבאות יעזרו לכם לגבש את ההבנה של מושגי הליבה בלמידת מכונה.

כוח חיזוי

אימון המודלים של למידת מכונה מבוקרת מתבצע באמצעות מערכי נתונים עם דוגמאות בתוויות. המודל לומד איך לחזות את התווית על סמך התכונות. עם זאת, לא לכל תכונה במערך הנתונים יש יכולת חיזוי. במקרים מסוימים, רק כמה תכונות משמשות כחיזוי של התווית. במערך הנתונים הבא, משתמשים במחיר בתור תווית ובעמודות האחרות בתור המאפיינים.

דוגמה מתויגת למאפיינים של רכב.

אילו שלוש תכונות הן לדעתך התחזיות הטובות ביותר למחיר הרכב?
Make_model, שנה, מיילים.
יש סבירות גבוהה כי שם היצרן, הדגם, השנה והקילומטרים של הרכב הם בין החיזויים הטובים ביותר למחיר הרכב.
צבע, גובה, מודל יצרן.
הגובה והצבע של הרכב הם לא חיזוי מדויק של מחיר הרכב.
מיילים, תיבת גלגלים, יצרן_דגם.
תיבת ההילוכים אינה חיזוי עיקרי של המחיר.
Tire_size, wheel_base, year.
גודל הצמיג ובסיס הגלגלים לא מהווים חיזוי מדויק של מחיר הרכב.

למידה מונחית וללא פיקוח

בהתאם לבעיה, בוחרים בגישה מפוקחת או לא מבוקרת. לדוגמה, אם אתם יודעים מראש את הערך או הקטגוריה שרוצים לחזות, תוכלו להשתמש בלמידה מונחית. עם זאת, כדי לדעת אם מערך הנתונים מכיל פילוחים או קבוצות של דוגמאות קשורות, אפשר להשתמש בלמידה לא מונחית.

נניח שיש לכם מערך נתונים של משתמשים באתר קניות באינטרנט, והוא הכיל את העמודות הבאות:

תמונה של שורה של מאפייני לקוח.

אם אתם רוצים להבין מהם סוגי המשתמשים שמבקרים באתר, האם כדאי לכם להשתמש בלמידה מונחית או בלמידה בלתי מונחית?
למידה בלתי מונחית.
אנחנו רוצים שהמודל יקבץ קבוצות של לקוחות קשורים, לכן נשתמש בלמידה ללא פיקוח. אחרי שהמודל יקבץ את המשתמשים, ניצור שמות משלנו לכל אשכול, לדוגמה: "מחפשי הנחה", "ציידי מבצעים", "גולשים", ו"נוודים".
למידה מבוקרת כי אני מנסה לחזות לאיזו כיתה משתמש מסוים שייך.
בלמידה מונחית, מערך הנתונים חייב להכיל את התווית שרוצים לחזות. במערך הנתונים אין תווית שמפנה לקטגוריה של משתמש.

נניח שיש לכם מערך נתונים של צריכת אנרגיה עבור בתים עם העמודות הבאות:

תמונה של שורה של מאפייני בית.

באיזה סוג של למידת מכונה (ML) אפשר להשתמש כדי לחזות את קילוואט שעה שישמשו לבניית בית חדש?
למידה מונחית.
תרגולים של למידה מונחית על דוגמאות עם תוויות. במערך הנתונים הזה "קילוואט שעות בשימוש בשנה" יהיה התווית כי זה הערך שרוצים שהמודל יחז. התכונות יהיו 'מטרים רבועים', 'מיקום' ו'שנת הבנייה'.
למידה בלתי מונחית.
בלמידה לא מונחית נעשה שימוש בדוגמאות ללא תוויות. בדוגמה הזו, התווית 'קילוט שעות שימוש בשנה' תהיה התווית כי זה הערך שרוצים שהמודל יחזה.

נניח שיש לכם מערך נתונים של טיסות עם העמודות הבאות:

תמונה של שורה של נתוני טיסה.

אם רוצים לחזות את העלות של כרטיס נסיעה, האם כדאי להשתמש ברגרסיה או בסיווג?
רגרסיה
הפלט של מודל רגרסיה הוא ערך מספרי.
סיווג
הפלט של מודל הסיווג הוא ערך נפרד, בדרך כלל מילה. במקרה הזה, העלות של כרטיס הנסיעה היא ערך מספרי.
על סמך מערך הנתונים, האם אפשר לאמן מודל סיווג כדי לסווג את העלות של כרטיס נסיעה כ 'גבוהה', 'ממוצעת' או 'נמוכה'?
כן, אבל קודם נצטרך להמיר את הערכים המספריים בעמודה coach_ticket_cost לערכים קטגוריים.
אפשר ליצור מודל סיווג ממערך הנתונים. צריך לבצע את הפעולה הבאה:
  1. מחפשים את העלות הממוצעת של כרטיס משדה התעופה שממנו יוצאת הטיסה לשדה התעופה של היעד.
  2. קובעים את ערכי הסף שמגדירים מהם 'גבוה', 'ממוצע' ו'נמוך'.
  3. משווים את העלות החזויה לערכי הסף ויוצרים פלט של הקטגוריה שבה הערך נכלל.
לא. אי אפשר ליצור מודל סיווג. הערכים של coach_ticket_cost הם מספריים ולא קטגוריים.
אפשר ליצור מודל סיווג בעזרת מעט עבודה.
לא. מודלים של סיווג חוזים רק שתי קטגוריות, כמו spam או not_spam. במודל הזה צריך לחזות שלוש קטגוריות.
מודלים של סיווג יכולים לחזות מספר קטגוריות. הם נקראים מודלים של סיווג מרובה מחלקות.

הכשרה והערכה

אחרי שאימנו מודל, אנחנו מבצעים הערכה באמצעות מערך נתונים עם דוגמאות מתויגות, ומשווים את הערך החזוי של המודל לערך בפועל של התווית.

בוחרים את שתי התשובות הטובות ביותר לשאלה.

אם החיזויים של המודל רחוקים, מה תוכלו לעשות כדי לשפר אותם?
אימון מחדש של המודל, אבל השתמש רק בתכונות שלדעתך יש להן את יכולת החיזוי החזקה ביותר עבור התווית.
אימון מחדש של המודל עם פחות תכונות אבל שיש לו יותר יכולות חיזוי, יכול ליצור מודל שיוצר חיזויים טובים יותר.
אי אפשר לתקן מודל שהחיזויים שלו רחוקים.
יש אפשרות לתקן מודל שהתחזיות שלו מושבתות. ברוב המודלים צריך לבצע כמה סבבים של אימון עד שהם יוצרים חיזויים שימושיים.
אימון מחדש של המודל באמצעות מערך נתונים גדול ומגוון יותר.
מודלים שהוכשרו לפי מערכי נתונים עם יותר דוגמאות ומגוון רחב יותר של ערכים יכולים להפיק חיזויים טובים יותר, כי למודל יש פתרון כללי טוב יותר לקשר בין התכונות והתווית.
כדאי לנסות גישת אימון שונה. לדוגמה, אם השתמשתם בגישה בפיקוח, נסו להשתמש בגישה ללא פיקוח.
גישת אימון שונה לא תניב תחזיות טובות יותר.

עכשיו אתם מוכנים לעשות את הצעד הבא במסע שלכם בלמידת מכונה:

  • אנשים ומדריך AI. אם אתם מחפשים קבוצת שיטות, שיטות מומלצות ודוגמאות שיוצגו על ידי גוגלרים, מומחים מהתעשייה ומחקרים אקדמיים לשימוש בלמידת מכונה.

  • בעיות בפריים. אם אתם מחפשים גישה נבדקת בתחום ליצירת מודלים של למידת מכונה ולהימנע ממלכודות נפוצות לאורך הדרך.

  • קורס קריסה ללמידת מכונה. אם אתם מוכנים לקבל גישה עמוקה ומעשית כדי ללמוד עוד על למידת מכונה.