השיעור הזה מתמקד בשאלות שצריך לשאול לגבי הנתונים והמודל במערכות הייצור.
האם כל התכונות מועילות?
מומלץ לעקוב באופן שוטף אחרי המודל כדי להסיר תכונות שתורמות מעט או בכלל לא ליכולת החיזוי של המודל. אם נתוני הקלט של המאפיין הזה ישתנו באופן פתאומי, יכול להיות שההתנהגות של המודל תשתנה באופן פתאומי בדרכים לא רצויות.
כדאי לעיין גם בשאלה הקשורה הבאה:
- האם התועלת של התכונה מצדיקה את העלות של הוספת התכונה?
תמיד יש נטייה להוסיף עוד תכונות למודל. לדוגמה, נניח שמצאתם תכונה חדשה שהוספה שלה משפרת מעט את התחזיות של המודל. תחזיות טובות יותר במעט הן בהחלט טובות יותר מתחזיות גרועות במעט, אבל התכונה הנוספת מוסיפה לעומס התחזוקה.
האם מקור הנתונים מהימן?
כמה שאלות שאפשר לשאול לגבי מהימנות נתוני הקלט:
- האם האות תמיד יהיה זמין או שהוא מגיע ממקור לא מהימן? לדוגמה:
- האם האות מגיע משרת שמתרסק בעומס כבד?
- האם האות מגיע מאנשים שיוצאים לחופשה בכל אוגוסט?
- האם המערכת שמחשבת את נתוני הקלט של המודל משתנה לפעמים? אם כן:
- באיזו תדירות?
- איך תדעו מתי המערכת הזו תשתנה?
מומלץ ליצור עותק משלכם של הנתונים שאתם מקבלים מתהליך ה-upstream. לאחר מכן, אפשר לעבור לגרסה הבאה של נתוני המקור רק אם אתם בטוחים שזה בטוח.
האם המודל שלכם הוא חלק מלולאת משוב?
לפעמים מודל יכול להשפיע על נתוני האימון שלו. לדוגמה, התוצאות ממודלים מסוימים הופכות (באופן ישיר או עקיף) למאפייני קלט של אותו מודל.
לפעמים מודל יכול להשפיע על מודל אחר. לדוגמה, נניח שני מודלים לחיזוי מחירי מניות:
- מודל א', שהוא מודל חיזוי גרוע.
- דגם ב'.
מכיוון שמודל א' מכיל באגים, הוא מחליט בטעות לקנות מניות של חברת X.
הרכישות האלה גורמות לעלייה במחיר של מניה X. מודל ב' משתמש במחיר של מניית X כמאפיין קלט, ולכן מודל ב' יכול להגיע למסקנות שגויות לגבי הערך של מניית X. לכן, מודל ב' יכול לקנות או למכור מניות של נייר הערך X על סמך ההתנהגות הפגומה של מודל א'.
ההתנהגות של מודל ב', לעומת זאת, יכולה להשפיע על מודל א', ולגרום למצב של קדחת טוליפים או לירידה במחיר המניה של חברת X.
תרגול: בדיקת ההבנה
אילו שלושה מהמודלים הבאים חשופים ללולאת משוב?
מודל לחיזוי תנועה שמתבסס על גודל ההמונים בחוף כדי לחזות עומסי תנועה במוצאי הכבישים המהירים ליד החוף.
סביר להניח שחלק מהמבקרים בחוף יבססו את התוכניות שלהם על התחזית לתנועה. אם יש המון אנשים בחוף וצפוי עומס תנועה, יכול להיות שאנשים רבים יעשו תוכניות חלופיות. כתוצאה מכך, מספר המבקרים בחוף עשוי לרדת, וכתוצאה מכך התחזית של עומס התנועה תהיה נמוכה יותר, וכתוצאה מכך מספר המבקרים עשוי לעלות, והמחזור הזה יחזור על עצמו.
מודל להמלצות על ספרים שמציע רומנים שהמשתמשים עשויים לאהוב, על סמך הפופולריות שלהם (כלומר, מספר הפעמים שבהן הספרים נרכשו).
סביר להניח שהמלצות על ספרים יעודדו רכישות, והמכירות הנוספות האלה יועברו חזרה למודל כקלט, וכך יגברו הסיכויים להציע את אותם הספרים בעתיד.
מודל לדירוג אוניברסיטאות שמדרג את בתי הספר בין היתר לפי מידת הקבלה שלהם – אחוז התלמידים שהגישו בקשה ונכנסו.
הדירוגים של המודל עשויים לעורר עניין נוסף בבתי ספר עם הדירוגים הגבוהים ביותר, וכך להגדיל את מספר הבקשות שהם מקבלים. אם בתי הספר האלה ימשיכו לקבל את אותו מספר תלמידים, רמת הקבלה תהיה גבוהה יותר (אחוז הסטודנטים שיקבלו תשובה חיובית יקטן). כך יתחזקו הדירוגים של בתי הספר האלה, וכתוצאה מכך יגדל עוד יותר העניין של תלמידים פוטנציאליים, וכן הלאה…
מודל של תוצאות בחירות שמתבסס על סקר של 2% מהמצביעים אחרי סגירת הקלפיות, כדי לחזות את המנצח בבחירות לראשות העיר.
אם התחזית של המודל לא תפורסם עד לסגירת הקלפיות, לא תהיה לה השפעה על התנהגות הבוחרים.
מודל של ערך דיור שמתבסס על גודל (שטח במטרים רבועים), מספר חדרי שינה ומיקום גיאוגרפי כתכונות, ומאפשר לחזות את מחירי הבתים.
אי אפשר לשנות במהירות את המיקום, הגודל או מספר החדרים של בית בתגובה לחיזויים של מחירים, ולכן סביר להניח שלא תהיה לכך השפעה על מחירי הבתים. עם זאת, יכול להיות שיש קורלציה בין הגודל למספר חדרי השינה (סביר להניח שבבתים גדולים יש יותר חדרים), וייתכן שיהיה צורך להפריד ביניהם.
מודל של מאפייני פנים שמזהה אם אדם מחייך בתמונה. המודל הזה עובר אימון באופן קבוע על בסיס מסד נתונים של תמונות סטוק שמתעדכן באופן אוטומטי מדי חודש.
אין כאן לולאת משוב, כי התחזיות של המודל לא משפיעות על מסד הנתונים של התמונות. עם זאת, יש כאן חשש לגבי ניהול גרסאות של נתוני הקלט, כי לעדכונים החודשיים האלה יכולות להיות השפעות בלתי צפויות על המודל.