התאמת יתר

התאמת יתר היא יצירת מודל שתואם (מזכרת) את המשפט האימון הוגדר, שהמודל לא מצליח לספק תחזיות נכונות לגבי נתונים חדשים. מודל overfit מקביל להמצאה שמניבה ביצועים טובים בשיעור ה-Lab, חסר ערך בעולם האמיתי.

באיור 11 נניח שכל צורה גאומטרית מייצגת מיקום של עץ ביער מרובע. היהלומים הכחולים מסמנים את המיקומים של עצים בריאים, והעיגולים הכתומים מסמנים את המיקומים של העצים החולים.

איור 11. הדמות מכילה כ-60 נקודות, שחצי מהן
            עצים בריאים והעצים האחרים חולים.
            העצים הבריאים נמצאים בעיקר בריבוע הצפון-מזרחי, אך
            עצים בריאים מגיעים לרבעונים הצפון-מערביים. העצים חולים
            נמצאים בעיקר בריבוע הדרום-מזרחי, אבל כמה מהעצים החולים
            לזרום לרבעונים אחרים.
איור 11. ערכת אימון: מיקום של עצים בריאים וחולים ביער מרובע.

 

ציירו מבחינה מנטלית צורות - קווים, עקומות, אליפסות...כל דבר - כדי להפריד עצים בריאים מהעצים החולים. לאחר מכן, מרחיבים את השורה הבאה כדי לבדוק של הפרדה אפשרית אחת.

הצורות המורכבות שמוצגות באיור 12 סווגו בהצלחה את כל הצורות, למעט שתיים העצים. אם נחשוב על הצורות כמודל, אז זה מדהים מודל טרנספורמר.

או שלא? מודל מעולה במיוחד מסווג דוגמאות חדשות לקטגוריות. איור 13 מראה מה קורה כאשר אותו מודל מבצע תחזיות דוגמאות מקבוצת הבדיקה:

איור 13. קבוצה חדשה של עצים בריאים וחולים שמוצגים כשכבת-על
            שמוצג באיור 12. המודל מסווג באופן שגוי הרבה
            עצים.
איור 13.ערכת בדיקות: מודל מורכב להבחנה בין עצים חולים לעצים בריאים.

 

לכן, המודל המורכב שמוצג באיור 12 עשה עבודה מצוינת בערכת האימון אבל עבודה לא טובה במבחן. זה מקרה קלאסי במודל התאמת יתר לנתונים של קבוצת האימון.

התאמה, התאמת יתר והלבשה תחתונה

המודל חייב לספק חיזויים טובים לגבי נתונים חדשים. כלומר, אתם שואפים ליצור מודל ש"מתאים" נתונים חדשים.

כמו שראיתם, מודל ללבוש חליפין מספק תחזיות מעולות להגדיר חיזויים אבל גרועים לגבי נתונים חדשים. מודל חסר לא מספק אפילו חיזויים טובים לגבי נתוני האימון. אם מודל התאמת יתר כמו מוצר שיש לו ביצועים טובים במעבדה אבל פחות טוב בעולם האמיתי, מודל הלבשה תחתונה הוא כמו מוצר שאפילו לא מצליח בשיעור ה-Lab.

איור 14. עלילה קרטזית. ציר ה-X מסומן בתווית 'איכות החיזויים
            בנושא סט האימון.' ציר ה-Y מסומן בתווית 'איכות החיזויים ב-
            נתונים מהעולם האמיתי.' עקומה מתחילה במקור ועולה בהדרגה,
            אבל אז נופל באותה מהירות. החלק השמאלי התחתון של העקומה
            (איכות נמוכה של תחזיות על נתונים בעולם האמיתי ואיכות נמוכה של
            חיזויים לגבי ערכת אימון) מסומנת בתווית 'מודלים של התאמה נמוכה'. 
            החלק הימני התחתון של העקומה (איכות נמוכה של תחזיות על
            נתונים מהעולם האמיתי אבל באיכות גבוהה של תחזיות בערכת האימון)
            מסומנת בתווית 'מודלים להתאמה אישית'. שיא העקומה (איכות גבוהה
            של תחזיות על נתונים מהעולם האמיתי ואיכות בינונית של תחזיות
            נקראת 'מודלים של התאמה'.
איור 14. דוגמנים או דוגמניות בלבוש לבוש, בגזרה ובגזרה גבוהה.

 

הכללה היא ההפך מבחינת התאמת יתר. כלומר, מודל שמכלל היטב יוצר ויצירת חיזויים על נתונים חדשים. המטרה שלכם היא ליצור מודל שמכלל היטב לנתונים חדשים.

זיהוי התאמת יתר

העקומות הבאות עוזרות לזהות התאמת יתר:

  • עקומות הפסד
  • עקומות הכללה

עקומת הפסד מתארת את האובדן של המודל ביחס למספר האיטרציות של האימון. גרף שמציג שתי עקומות הפסד או יותר נקרא הכללה עקומה. הבאים עקומת ההכללה מראה שתי עקומות הפסד:

איור 15. פונקציית האובדן של קבוצת האימון באופן הדרגתי
            דוחה. גם פונקציית האובדן של קבוצת האימות נדחית
            אבל אז היא מתחילה לעלות לאחר מספר מסוים של חזרות.
איור 15. עקומת הכללה שמרמזת באופן משמעותי על התאמת יתר.

 

שימו לב ששתי עקומות האובדן פועלות באופן דומה בהתחלה ורק אחר כך נפרדות. כלומר, לאחר מספר מסוים של חזרות, ירידות הפסד או היא יציבה (מקפיצים) בערכת האימון, אבל עבור קבוצת האימות. זה מרמז על התאמת יתר.

לעומת זאת, עקומת הכללה של מודל בעל התאמה טובה מציגה שתי עקומות הפסד שיש להם צורות דומות.

מה גורם להתאמה יתר של המכשיר?

באופן כללי, התאמת יתר נגרמת מאחת מהסיבות הבאות או משניהם בעיות:

  • ערכת האימון לא מייצגת במידה הולמת נתונים מהחיים האמיתיים קבוצת האימות או קבוצת הבדיקה).
  • המודל מורכב מדי.

תנאי הכללה

מודל מתאמן על ערכת אימון, אבל המבחן האמיתי לשווי של מודל הוא הוא יוצר תחזיות לגבי דוגמאות חדשות, במיוחד לגבי נתונים מהעולם האמיתי. במהלך פיתוח המודל, ערכת הבדיקה שלכם משמשת כביטוי לנתונים מהעולם האמיתי. אימון מודל שמכלל היטב מרמז על התנאים הבאים של מערך נתונים:

  • הדוגמאות חייבות להיות מופצת באופן עצמאי וזהה, וזו דרך מהודרת לומר הדוגמאות לא יכולות להשפיע זו על זו.
  • מערך הנתונים הוא stationary, כלומר מערך הנתונים לא משתנה באופן משמעותי עם הזמן.
  • למחיצות של מערכי הנתונים יש התפלגות זהה. כלומר, הדוגמאות בערכת האימון דומות מבחינה סטטיסטית דוגמאות בקבוצת האימות, בקבוצת הבדיקה ובנתונים מהעולם האמיתי.

נסו את התרגילים הבאים כדי ללמוד על התנאים הקודמים.

תרגילים: בדקו את ההבנה שלכם

נבחן את המחיצות הבאות של מערכי הנתונים.
עמודה אופקית שמחולקת לשלושה חלקים: 70% מהעמודה
                     הוא מערך האימון, 15% ערכת האימות ו-15%
                     קבוצת הבדיקה
מה צריך לעשות כדי לוודא שהדוגמאות בערכת האימון בעלי התפלגות סטטיסטית דומה לדוגמאות את קבוצת האימות ואת קבוצת הבדיקה?
ערבוב את הדוגמאות במערך הנתונים באופן נרחב לפני לחלק אותם למחיצות.
כן. ערבוב טוב של דוגמאות הופך את המחיצות להרבה יותר יהיו דומים מבחינה סטטיסטית.
ממיינים את הדוגמאות מהישן לחדש ביותר.
אם הדוגמאות במערך הנתונים לא נשארות קבועות, מיון הופך את המחיצות לפחות דומה.
לא לעשות דבר. בהינתן מספיק דוגמאות, חוק הממוצעים מבטיח באופן טבעי שההתפלגות יהיו דומה מבחינה סטטיסטית.
לצערי זה לא המצב. הדוגמאות בחלקים מסוימים במערך הנתונים יהיו שונים מאלה .
שירות סטרימינג מפתח מודל לחיזוי הפופולריות של תוכניות טלוויזיה חדשות פוטנציאליות במשך שלוש השנים הבאות. תוכניות של שירותי סטרימינג לאמן את המודל במערך נתונים שכוללות מאות מיליוני דוגמאות, מעבר עשר שנים. האם המודל הזה ייתקל בבעיה?
כנראה. של הצופים בעלי טעם שונה באופן שההתנהגות הקודמת לא יכולה לחזות.
כן. טעמי הצופים לא נייחים. הם משתנים כל הזמן.
בהחלט לא. מערך הנתונים גדול מספיק כדי ליצור ויצירת חיזויים.
למרבה הצער, טעמים שונים הם לא נייחים.
סביר להניח שלא. של הצופים טעמים משתנים בדרכים מחזוריות צפויות. הנתונים של עשר שנים יאפשרו למודל לספק תחזיות טובות על מגמות עתידיות.
למרות שהיבטים מסוימים של הבידור הם מחזוריים במידה מסוימת, שאומן מהיסטוריית בידור קודמת, קשה לחזות את השנים הבאות.
מטרת מודל היא לחזות כמה זמן ייקח לאנשים ללכת קילומטר אחד על סמך נתוני מזג האוויר (טמפרטורה, נקודת הטל משקעים) שנאספו במשך יותר משנה בעיר שמזג האוויר בה משתנה משמעותית לפי עונה. אתם יכולים לבנות ולבדוק מודל למרות שערכי מזג האוויר משתנים באופן משמעותי עונה?
כן
כן, אפשר לבנות ולבדוק מודל ממערך הנתונים הזה. צריך רק לוודא שהנתונים מחולקים באופן שווה, כך שהנתונים מכל ארבע העונות מחולקים באופן שווה מחיצות שונות.
לא
בהנחה שמערך הנתונים הזה מכיל מספיק דוגמאות של טמפרטורה, טל ומשקעים, ואז אפשר לבנות ולבדוק מודל במערך הנתונים הזה. צריך רק לוודא שהנתונים מחולקים למחיצות באופן שווה, כך שהנתונים מכל ארבע העונות יחולקו באופן שווה למחיצות השונות.

תרגיל אתגר

אתם יוצרים מודל שחוזה את התאריך האידיאלי שבו נוסעים יקנו כרטיס רכבת למסלול מסוים. לדוגמה, המודל עשוי להמליץ שהמשתמשים קונים את הכרטיס שלהם ב-8 ביולי לרכבת שיוצאת ב-23 ביולי. חברת הרכבות מעדכנת את המחירים מדי שעה ומתבססת על העדכונים שלה של גורמים, אבל בעיקר על המספר הנוכחי של המושבים הזמינים. כלומר:

  • אם יש הרבה מושבים, מחירי הכרטיסים בדרך כלל נמוכים.
  • אם יש מעט מאוד מושבים זמינים, מחירי הכרטיסים בדרך כלל גבוהים.
המודל שלך נראה נמוך בסט האימות ובקבוצת הבדיקה, אבל לפעמים תחזיות גרועות לגבי נתונים בעולם האמיתי. למה?
אפשר ללחוץ כאן כדי לראות את התשובה