ייצור מערכות למידת מכונה: שאלות שכדאי לשאול

השיעור הזה מתמקד בשאלות שצריך לשאול לגבי הנתונים והמודל במערכות הייצור.

האם כל התכונות מועילות?

מומלץ לעקוב באופן שוטף אחרי המודל כדי להסיר תכונות שתורמות מעט או בכלל לא ליכולת החיזוי של המודל. אם נתוני הקלט של המאפיין הזה ישתנו באופן פתאומי, יכול להיות שההתנהגות של המודל תשתנה באופן פתאומי בדרכים לא רצויות.

כדאי לעיין גם בשאלה הקשורה הבאה:

  • האם התועלת של התכונה מצדיקה את העלות של הוספת התכונה?

תמיד יש נטייה להוסיף עוד תכונות למודל. לדוגמה, נניח שמצאתם תכונה חדשה שהוספה שלה משפרת מעט את התחזיות של המודל. תחזיות טובות יותר במעט הן בהחלט טובות יותר מתחזיות גרועות במעט, אבל התכונה הנוספת מוסיפה לעומס התחזוקה.

האם מקור הנתונים מהימן?

כמה שאלות שאפשר לשאול לגבי מהימנות נתוני הקלט:

  • האם האות תמיד יהיה זמין או שהוא מגיע ממקור לא מהימן? לדוגמה:
    • האם האות מגיע משרת שמתרסק בעומס כבד?
    • האם האות מגיע מאנשים שיוצאים לחופשה בכל אוגוסט?
  • האם המערכת שמחשבת את נתוני הקלט של המודל משתנה לפעמים? אם כן:
    • באיזו תדירות?
    • איך תדעו מתי המערכת הזו תשתנה?

מומלץ ליצור עותק משלכם של הנתונים שאתם מקבלים מתהליך ה-upstream. לאחר מכן, אפשר לעבור לגרסה הבאה של נתוני המקור רק אם אתם בטוחים שזה בטוח.

האם המודל שלכם הוא חלק מלולאת משוב?

לפעמים מודל יכול להשפיע על נתוני האימון שלו. לדוגמה, התוצאות ממודלים מסוימים הופכות (באופן ישיר או עקיף) למאפייני קלט של אותו מודל.

לפעמים מודל יכול להשפיע על מודל אחר. לדוגמה, נניח שני מודלים לחיזוי מחירי מניות:

  • מודל א', שהוא מודל חיזוי גרוע.
  • דגם ב'.

מכיוון שמודל א' מכיל באגים, הוא מחליט בטעות לקנות מניות של חברת X. הרכישות האלה גורמות לעלייה במחיר של מניה X. מודל ב' משתמש במחיר של מניית X כמאפיין קלט, ולכן מודל ב' יכול להגיע למסקנות שגויות לגבי הערך של מניית X. לכן, מודל ב' יכול לקנות או למכור מניות של נייר הערך X על סמך ההתנהגות הפגומה של מודל א'. ההתנהגות של מודל ב', לעומת זאת, יכולה להשפיע על מודל א', ולגרום למצב של קדחת טוליפים או לירידה במחיר המניה של חברת X.

תרגול: בדיקת ההבנה

אילו שלושה מהמודלים הבאים חשופים ללולאת משוב?
מודל לדירוג אוניברסיטאות שמדרג את בתי הספר בין היתר לפי מידת הקבלה שלהם – אחוז התלמידים שהגישו בקשה ונכנסו.
מודל של מאפייני פנים שמזהה אם אדם מחייך בתמונה. המודל הזה עובר אימון באופן קבוע על בסיס מסד נתונים של תמונות סטוק שמתעדכן באופן אוטומטי מדי חודש.
מודל של תוצאות בחירות שמתבסס על סקר של 2% מהמצביעים אחרי סגירת הקלפיות, כדי לחזות את המנצח בבחירות לראשות העיר.
מודל לחיזוי תנועה שמתבסס על גודל ההמונים בחוף כדי לחזות עומסי תנועה במוצאי הכבישים המהירים ליד החוף.
מודל של ערך דיור שמתבסס על גודל (שטח במטרים רבועים), מספר חדרי שינה ומיקום גיאוגרפי כתכונות, ומאפשר לחזות את מחירי הבתים.
מודל להמלצות על ספרים שמציע רומנים שהמשתמשים עשויים לאהוב, על סמך הפופולריות שלהם (כלומר, מספר הפעמים שבהן הספרים נרכשו).