נבחן מערך נתונים שמכיל תווית קטגורית שהערך שלו הוא חיובי או שלילי. במערך נתונים מאוזן, מספר הערכים חיוביים ותוויות שליליות הן בערך שווה. עם זאת, אם תווית אחת נפוצה יותר מהתווית השנייה, מערך הנתונים לא מאוזן. התווית הדומיננטית במערך נתונים לא מאוזן נקראת majority class; התווית הפחות נפוצה נקראת סיווג מיעוט.
הטבלה הבאה מספקת שמות וטווחים מקובלים עבור דרגות שונות של חוסר איזון:
אחוז הנתונים ששייכים לסיווג מיעוט | מידת חוסר האיזון |
---|---|
20-40% ממערך הנתונים | מתון |
1-20% ממערך הנתונים | בינוני |
פחות מ-1% ממערך הנתונים | קיצונית |
לדוגמה, נניח שיש קבוצת נתונים לזיהוי וירוסים שבה קבוצת המיעוט מייצגת 0.5% מקבוצת הנתונים וקבוצת הרוב מייצגת 99.5%. מערכי נתונים לא מאוזנים באופן קיצוני כמו זה הם נפוצים ברפואה, רוב הנבדקים לא יחלו בוירוס.
לפעמים מערכי נתונים לא מאוזנים לא מכילים מספיק דוגמאות של מיעוט כדי לאמן מודל בצורה תקינה. כלומר, עם מעט מאוד תוויות חיוביות, המודל מתאמן כמעט אך ורק על תוויות שליליות ולא יכול ללמוד מספיק על תוויות חיוביות. לדוגמה, אם גודל האצווה הוא 50, הרבה קבוצות לא יכילו תוויות חיוביות.
לרוב, במיוחד במערכי נתונים עם חוסר איזון קל ובחלק מהמערכים עם חוסר איזון מתון, חוסר האיזון לא מהווה בעיה. לכן, כדאי לנסות קודם לאמן את המודל על מערך הנתונים המקורי. אם המודל פועל היטב, סיימתם. אם לא, לפחות המודל הלא אופטימלי מספק ערך הבסיס לניסויים עתידיים. לאחר מכן תוכלו לנסות את הטכניקות הבאות כדי להתגבר על בעיות שנגרמה כתוצאה ממערכי נתונים לא מאוזנים.
הפחתת דגימה והעלאת משקל
אחת הדרכים להתמודד עם מערך נתונים לא מאוזן היא להפחית את הדגימה ולשפר את המשקל סיווג הרוב. אלה ההגדרות של שני המונחים החדשים:
- דגימה לאחור (בהקשר הזה) היא אימון על קבוצת משנה קטנה באופן לא פרופורציונלי של דוגמאות מהמעמד הגדול ביותר.
- הגדלת המשקל היא הוספת משקל לדוגמה של הכיתה שעברתה דגימה לאחור, ששווה לגורם שבו הפחתתם את הדגימה.
שלב 1: מקטינים את הדגימה של מחלקת הרוב ניקח לדוגמה את מערך הנתונים בנושא וירוסים שמוצג איור 5 שיש בו יחס של תווית חיובית אחת לכל 200 תוויות שליליות. דגימה לאחור ביחס של 10 משפר את האיזון ל-1 חיובי ל-20 שליליים (5%). למרות שמערך האימון שמתקבל עדיין מתון לא מאוזן, יחס הגובה-רוחב בין התוצאות החיוביות לבין הערכים השליליים הרבה יותר טוב מאשר היחס המקורי הלא מאוזן (0.5%).
שלב 2: הגדלת המשקל של הכיתה שעברתה דגימה: מוסיפים משקלים לדוגמה לכיתה שעברתה דגימה. אחרי דגימה לאחור ביחס של 10, משקל הדוגמה צריך להיות 10. (כן, זה אולי ייראה לא הגיוני, אבל אסביר מדוע בהמשך.)
המונח משקל לא מתייחס לפרמטרים של המודל (כמו w1 או ש2). כאן, משקל מתייחס משקולות לדוגמה, שמגבירים את החשיבות של כל דוגמה במהלך האימון. אם משקל הדוגמה הוא 10, המשמעות היא שהמודל מתייחס לדוגמה כחשובה פי 10 (בזמן חישוב האובדן) בהשוואה לדוגמה עם משקל 1.
המשקל צריך להיות שווה לגורם שבו השתמשתם כדי להוריד את הדגימה:
\[\text{ \{example weight\} = \{original example weight\} × \{downsampling factor\} }\]
הוספת משקולות לדוגמה אחרי הפחתת הדגימה עשויה להיראות מוזר. אחרי הכול, בניסיון לשפר את המודל בקרב קבוצת מיעוט, אז למה לא להעלות משקל סיווג הרוב? למעשה, הגדלת המשקל של הכיתה הגדולה יותר נוטה לצמצם את ההטיה בתחזית. כלומר, הגדלה של המשקל לאחר דגימה נוטה להקטין את הדלתא בין הממוצע של החיזויים של המודל ושל הממוצע של התוויות של מערך הנתונים.
יחסי איזון מחדש
כמה כדאי להקטין את הדגימה ולשפר את המשקל כדי לאזן מחדש את מערך הנתונים? כדי לקבוע את התשובה, כדאי לערוך ניסויים עם יחס האיזון החוזר, בדיוק כמו שאפשר לנסות עם היפר-פרמטרים. עם זאת, התשובה תלויה בגורמים הבאים:
- גודל הקבוצה
- יחס חוסר האיזון
- מספר הדוגמאות בערכת האימון
באופן אידיאלי, כל קבוצה צריכה להכיל כמה דוגמאות לסיווגים של מיעוט. אצווה שלא מכילה מספיק מחלקות מיעוט תהיה אימון ברמה נמוכה מאוד. הגודל של אצווה צריך להיות גדול פי כמה מיחס חוסר האיזון. לדוגמה, אם יחס חוסר האיזון הוא 100:1, גודל הקבוצה להיות לפחות 500.
תרגול: בדיקת ההבנה
נניח את המצב הבא:
- מערך האימון מכיל יותר ממיליארד דוגמאות.
- גודל האצווה הוא 128.
- יחס חוסר האיזון הוא 100:1, לכן ערכת האימון מחולקת באופן הבא:
- כמיליארד דוגמאות לסיווגי הרוב.
- כ-10 מיליון דוגמאות של מיעוט.