השאלות הבאות יעזרו לכם להבין טוב יותר את המושגים העיקריים של ML.
יכולת חיזוי
מודלים של למידת מכונה מונחית מאומנים באמצעות מערכי נתונים עם דוגמאות מתויגות. המודל לומד איך לחזות את התווית מהמאפיינים. עם זאת, לא לכל מאפיין בקבוצת נתונים יש יכולת חיזוי. במקרים מסוימים, רק כמה תכונות משמשות כגורמי חיזוי של התווית. במערך הנתונים שבהמשך, משתמשים במחיר כתווית ובשאר העמודות כמאפיינים.
אילו שלושה מאפיינים לדעתך הם המנבאים הכי טובים של מחיר מכונית?
יצרן_דגם, שנה, מיילים.
היצרן/הדגם, השנה והקילומטראז' של הרכב הם כנראה בין הגורמים החזקים ביותר לחיזוי המחיר שלו.
צבע, גובה, יצרן_דגם.
הגובה והצבע של מכונית לא מאפשרים לחזות את המחיר שלה בצורה מדויקת.
מיילים, תיבת הילוכים, יצרן_דגם.
תיבת ההילוכים היא לא גורם מרכזי לחיזוי המחיר.
Tire_size, wheel_base, year.
גודל הצמיגים ובסיס הגלגלים לא מאפשרים לחזות במדויק את מחיר המכונית.
למידה מפוקחת ובלתי מפוקחת
בהתאם לבעיה, תשתמשו בגישה מפוקחת או לא מפוקחת.
לדוגמה, אם אתם יודעים מראש את הערך או הקטגוריה שאתם רוצים לחזות, תשתמשו בלמידה מפוקחת. עם זאת, אם רוצים לדעת אם מערך הנתונים מכיל פילוחים או קיבוצים של דוגמאות קשורות, צריך להשתמש בלמידה לא מפוקחת.
נניח שיש לכם מערך נתונים של משתמשים באתר קניות אונליין, והוא מכיל את העמודות הבאות:
אם רוצים להבין את סוגי המשתמשים שמבקרים באתר,
האם כדאי להשתמש בלמידה מפוקחת או בלמידה לא מפוקחת?
למידה לא מפוקחת.
כדי שהמודל יקבץ קבוצות של לקוחות קשורים, נשתמש בלמידה לא מפוקחת. אחרי שהמודל יסווג את המשתמשים לקבוצות,
ניצור שמות משלנו לכל קבוצה, למשל:
'מחפשי הנחות', 'מחפשי מבצעים', 'גולשים', 'נאמנים' ו'מתעניינים'.
למידה מפוקחת כי אני מנסה לחזות לאיזו כיתה
משתמש שייך.
בלמידה מבוקרת, קבוצת הנתונים צריכה להכיל את התווית שאתם מנסים לחזות. במערך הנתונים, אין תווית שמתייחסת לקטגוריה של משתמש.
נניח שיש לכם מערך נתונים של צריכת אנרגיה בבתים עם העמודות הבאות:
איזה סוג של ML היית משתמש בו כדי לחזות את מספר קילוואט השעה שייצרכו בשנה בבית חדש?
למידה מפוקחת.
למידה מונחית מתבססת על אימון באמצעות דוגמאות מתויגות. במערך הנתונים הזה, התווית תהיה 'קילוואט שעה בשימוש בשנה', כי זה הערך שהמודל צריך לחזות. התכונות יהיו:
"שטח," "מיקום" ו"שנת בנייה".
למידה לא מפוקחת.
למידה בלתי מונחית מתבססת על דוגמאות לא מתויגות. בדוגמה הזו,
התווית תהיה 'קילוואט שעות בשימוש בשנה' כי זה הערך שרוצים שהמודל יחזה.
נניח שיש לכם מערך נתונים של טיסות עם העמודות הבאות:
אם רוצים לחזות את העלות של כרטיס טיסה, האם צריך להשתמש ברגרסיה או בסיווג?
רגרסיה
הפלט של מודל רגרסיה הוא ערך מספרי.
סיווג
הפלט של מודל סיווג הוא ערך נפרד, בדרך כלל מילה. במקרה הזה, העלות של כרטיס טיסה היא ערך מספרי.
בהתבסס על מערך הנתונים, תוכל לאמן מודל סיווג כדי לסווג את העלות של כרטיס טיסה כ'גבוהה', 'ממוצעת' או 'נמוכה'?
כן, אבל קודם צריך להמיר את הערכים המספריים בעמודה airplane_ticket_cost לערכים קטגוריים.
אפשר ליצור מודל סיווג ממערך הנתונים.
לדוגמה:
- מה העלות הממוצעת של כרטיס מנמל התעופה שממנו יוצאים אל נמל התעופה של היעד.
- קובעים את ערכי הסף שיגדירו את הרמות 'גבוהה', 'ממוצעת' ו'נמוכה'.
- השוואה בין העלות הצפויה לבין ערכי הסף, והצגת הקטגוריה שהערך משתייך אליה.
לא. אי אפשר ליצור מודל סיווג. הערכים של airplane_ticket_cost הם מספריים ולא קטגוריים.
בעזרת עבודה קלה, תוכלו ליצור מודל סיווג.
לא. מודלים של סיווג חוזים רק שתי קטגוריות, כמו
spam או not_spam. המודל הזה יצטרך לחזות שלוש קטגוריות.
מודלים של סיווג יכולים לחזות כמה קטגוריות. הם נקראים מודלים של סיווג רב-מחלקתי.
אימון והערכה
אחרי שאנחנו מאמנים מודל, אנחנו מעריכים אותו באמצעות מערך נתונים עם דוגמאות מסומנות ומשווים בין הערך החזוי של המודל לבין הערך בפועל של התווית.
בוחרים את שתי התשובות הטובות ביותר לשאלה.
אם התחזיות של המודל רחוקות מהמציאות, מה אפשר לעשות כדי לשפר אותן?
מאמנים מחדש את המודל, אבל משתמשים רק בתכונות שלדעתכם יש להן את יכולת החיזוי הכי חזקה לגבי התווית.
אימון מחדש של המודל עם פחות מאפיינים, אבל עם יכולת חיזוי גבוהה יותר, יכול להניב מודל שמספק חיזויים טובים יותר.
אי אפשר לתקן מודל שהתחזיות שלו רחוקות מהמציאות.
אפשר לתקן מודל שהחיזויים שלו לא מדויקים. רוב המודלים צריכים לעבור כמה סבבי אימון עד שהם מספקים חיזויים שימושיים.
לאמן מחדש את המודל באמצעות מערך נתונים גדול ומגוון יותר.
מודלים שאומנו על מערכי נתונים עם יותר דוגמאות ומגוון רחב יותר של ערכים יכולים להפיק תחזיות טובות יותר, כי למודל יש פתרון מוכלל טוב יותר לקשר בין התכונות לבין התווית.
אפשר לנסות גישה שונה לאימון. לדוגמה, אם השתמשתם בגישה מפוקחת, נסו להשתמש בגישה לא מפוקחת.
גישה שונה להדרכה לא תניב תחזיות טובות יותר.
עכשיו אפשר לעבור לשלב הבא במסע שלכם בתחום ה-ML: