ייצור מערכות למידת מכונה: שאלות שכדאי לשאול

השיעור הזה מתמקד בשאלות שכדאי לשאול לגבי הנתונים ובמערכות ייצור.

האם כל תכונה מועילה?

עליך לעקוב בקביעות אחר המודל שלך כדי להסיר תכונות שתורמות ליכולת החיזוי של המודל, אם בכלל. אם נתוני הקלט של שמפעילות שינויים פתאומיים, ההתנהגות של המודל עשויה ישתנו בדרכים לא רצויות.

בנוסף, כדאי להביא בחשבון את השאלה הקשורה הבאה:

  • האם השימושיות של התכונה מצדיקה את עלות ההכללה שלה?

תמיד מפתה להוסיף עוד תכונות למודל. לדוגמה, נניח שמצאתם תכונה חדשה שההוספה שלה יוצרת את החיזויים למודל קצת יותר טוב. חיזויים קצת יותר טובים בהחלט נראים טוב יותר תחזיות קצת יותר גרועות, עם זאת, התכונה הנוספת מוסיפה נטל התחזוקה.

האם מקור הנתונים מהימן?

כמה שאלות לגבי האמינות של נתוני הקלט:

  • האם האות תמיד יהיה זמין או שהוא מגיע מקור לא מהימן? לדוגמה:
    • האם האות מגיע משרת שקורס בגלל עומס כבד?
    • האם האות מגיע מאנשים שיוצאים לחופשה בכל חודש אוגוסט?
  • האם המערכת שממחשבת את נתוני הקלט של המודל משתנה מתישהו? אם זו הסיבה, צריך:
    • באיזו תדירות?
    • איך תדעו מתי המערכת משתנה?

כדאי ליצור עותק משלכם של הנתונים שאתם מקבלים תהליך upstream. לאחר מכן, התקדמו רק לגרסה הבאה של ה-upstream נתונים כאשר אתה בטוח שניתן לעשות זאת בצורה בטוחה.

האם המודל הוא חלק מלולאת משוב?

לפעמים מודל יכול להשפיע על נתוני האימון שלו. לדוגמה, תוצאות ממודלים מסוימים הופכים לקלט (באופן ישיר או עקיף) לאותו מודל.

לפעמים מודל יכול להשפיע על מודל אחר. לדוגמה, נבחן לחיזוי מחירי מניות:

  • מודל א', שהוא מודל חיזוי גרוע.
  • מודל ב.

מכיוון שמודל א' הוא באגים, הוא מחליט בטעות לקנות מניה X. הרכישות האלה גורמות למחיר של מניה X. מודל ב' משתמש במחיר. ממאגר X כתכונת קלט, כך שמודל ב' יכול להגיע מסקנות לגבי הערך של מניה X. לכן, מודל ב' יכול קנייה או מכירה של מניות של מניה X בהתבסס על התנהגות הבאגים של מודל א'. ההתנהגות של מודל ב' יכולה להשפיע על מודל א', מה שעלול להפעיל שיגעון צבעוני או שקף המניה של חברה X.

תרגיל: בדקו את ההבנה שלכם

לאילו שלושת המודלים הבאים יש חשיפה לולאת משוב?
מודל לחיזוי עומסי תנועה שחוזים עומסי תנועה ביציאה מהכביש המהיר בקרבת החוף, תוך שימוש בגודל הקהל של החוף בתור אחת מהתכונות שלו.
סביר להניח שחלק מהמבקרים בחוף יבססו את התוכניות שלהם על מצב התנועה יצירת תחזית. אם יש קהל גדול בחוף וצפוי תנועה. כבד, אנשים רבים עשויים לתכנן תוכניות חלופיות. עשוי להוריד את רצועת החוף ולכן תיתכן תחזית תנועה קלה יותר, שלאחר מכן עשויה יותר נוכחות, והמחזור חוזר.
מודל המלצות על ספרים שמרמז על רומנים שהמשתמשים עשויים לאהוב בהתאם לפופולריות שלהם (כלומר, מספר הפעמים שהספרים נרכשו).
סביר להניח שהמלצות על ספרים יעודדו רכישות, מכירות נוספות יוזנו בחזרה למודל כקלט, ולהגדיל את הסבירות שנמליץ על אותם ספרים העתידי.
מודל דירוג של אוניברסיטה שמדרג בתי ספר בחלקו לפי סלקטיביות – אחוז התלמידים שנרשמו אושרה.
הדירוגים של המודל הזה עשויים לעורר עניין נוסף בקרב אנשים מהמובילים בדירוג לבתי ספר, וכך להגדיל את מספר הבקשות שהם מקבלים. אם הקריטריונים האלה בתי הספר ימשיכו לקבל את אותו מספר של תלמידים, הסלקטיביות הגדלה (אחוז התלמידים להתקבל לתוכנית ירד). הזה יגדיל את מספר בתי הספר את הדירוגים שלך, שיגדילו עוד יותר מידת העניין של סטודנטים פוטנציאליים, וכן הלאה...
מודל של תוצאות הבחירות שצופה את המנצח מרוץ לראשות העירייה על ידי סקר של 2% מהמצביעים לאחר סגירת הקלפיות.
אם המודל לא מפרסם את התחזית שלו עד לאחר שהסקרים נסגר, אין אפשרות שהתחזיות שלו ישפיעו על מצביע או התנהגות המשתמשים.
מודל של ערך דיור שחוזה את מחירי הבית, באמצעות גודל (שטח במטרים רבועים), מספר חדרי השינה והמיקום הגיאוגרפי בתור תכונות.
אין אפשרות לשנות במהירות את מיקום הבית, הגודל או מספר חדרי השינה בתגובה לתחזיות המחירים, יצירת לולאת משוב בלתי סבירה. עם זאת, יש הקשר בין הגודל למספר חדרי השינה (בתים גדולים יותר) סביר להניח שיהיו יותר חדרים) ושיצטרכו להפריד בין הילדים.
מודל של מאפייני פנים שמזהה אם אדם מחייך בתמונה, שמאומנת באופן קבוע לפי מסד נתונים של צילומים ממאגר שמתעדכן באופן אוטומטי כל חודש.
אין כאן לולאת משוב, כי לחיזויים של המודלים אין על מסד הנתונים של התמונות. אבל ניהול גרסאות של הקלט של הנתונים האלה יש חשש, כי העדכונים החודשיים האלה עשויים השפעות בלתי צפויות על המודל.