מערכי נתונים: מערכי נתונים לא מאוזנים

נניח שיש מערך נתונים שמכיל תווית קטגוריאלית שהערך שלה הוא חיובי או שלילי. במערך נתונים מאוזן, מספר התוויות חיוביות ושליליות הוא בערך זהה. עם זאת, אם תווית אחת נפוצה יותר מהתווית השנייה, מערך הנתונים לא מאוזן. התווית השכיחה ביותר במערך נתונים לא מאוזן נקראת מחלקת הרוב, והתווית הפחות נפוצה נקראת מחלקת המיעוט.

בטבלה הבאה מפורטים שמות וטווחים מקובלים לסוגי חוסר האיזון השונים:

אחוז הנתונים ששייכים לקבוצת המיעוט מידת חוסר האיזון
20-40% ממערך הנתונים מתון
1-20% ממערך הנתונים בינוני
פחות מ-1% ממערך הנתונים קיצונית

לדוגמה, נניח שיש קבוצת נתונים לזיהוי וירוסים שבה קבוצת המיעוט מייצגת 0.5% מקבוצת הנתונים וקבוצת הרוב מייצגת 99.5%. מערכי נתונים לא מאוזנים מאוד כמו זה נפוצים ברפואה, כי לרוב הנבדקים לא יהיה הנגיף.

איור 5.  תרשים עמודות עם שתי עמודות. בעמודה אחת מוצגות כ-200 כיתות שליליות, ובעמודה השנייה מוצגת כיתה אחת חיובית.
איור 5. מערך נתונים לא מאוזן במיוחד.

 

לפעמים מערכי נתונים לא מאוזנים לא מכילים מספיק דוגמאות של מיעוט כדי לאמן מודל כראוי. כלומר, עם מעט מאוד תוויות חיוביות, המודל מתאמן כמעט אך ורק על תוויות שליליות ולא יכול ללמוד מספיק על תוויות חיוביות. לדוגמה, אם גודל האצווה הוא 50, הרבה אצוות לא יכילו תוויות חיוביות.

לרוב, במיוחד במערכי נתונים עם חוסר איזון קל ובחלק מהמערכים עם חוסר איזון מתון, חוסר האיזון לא מהווה בעיה. לכן, כדאי לנסות קודם לאמן את המודל על מערך הנתונים המקורי. אם המודל פועל היטב, סיימתם. אם לא, לפחות המודל הלא אופטימלי מספק בסיס טוב לניסויים עתידיים. לאחר מכן, תוכלו לנסות את השיטות הבאות כדי להתגבר על בעיות שנגרמות כתוצאה מקבוצות נתונים לא מאוזנות.

דגימה לאחור והגדלת משקל

אחת מהדרכים לטיפול במערך נתונים לא מאוזן היא להקטין את המדגם ולהגדיל את המשקל של הכיתה הגדולה ביותר. אלה ההגדרות של שני המונחים החדשים:

  • דגימה לאחור (בהקשר הזה) היא אימון על קבוצת משנה קטנה באופן לא פרופורציונלי של דוגמאות מהמעמד הגדול ביותר.
  • הגדלת המשקל היא הוספת משקל לדוגמה של הכיתה שעברתה דגימה לאחור, ששווה לגורם שבו הפחתת את הדגימה.

שלב 1: הפחתת המדגם של הכיתה הגדולה ביותר. נבחן את מערך הנתונים של הווירוסים שמוצג באיור 5, שיש לו יחס של תווית חיובית אחת לכל 200 תוויות שליליות. דגימה לאחור ביחס של 10 משפר את האיזון ל-1 חיובי ל-20 שליליים (5%). אמנם קבוצת האימון שנוצרה עדיין לא מאוזנת באופן מתון, אבל היחס בין התמונות החיוביות לשליליות טוב בהרבה מהיחס המקורי הלא מאוזן במיוחד (0.5%).

איור 6. תרשים עמודות עם שתי עמודות. בעמודה אחת מוצגות 20 כיתות עם נתונים שליליים, ובעמודה השנייה מוצגת כיתה אחת עם נתונים חיוביים.
איור 6. דגימה לאחור.

 

שלב 2: הגדלת המשקל של הכיתה שעברתה דגימה: מוסיפים משקלים לדוגמה לכיתה שעברתה דגימה. אחרי דגימה לאחור ביחס של 10, משקל הדוגמה צריך להיות 10. (כן, זה אולי נשמע לא הגיוני, אבל נסביר למה בהמשך).

איור 7. תרשים של שני שלבים של דגימה לאחור והגדלת משקל.
            שלב 1: דגימת ירידה מחלצת דוגמאות אקראיות מהקלאס הדומיננטי. שלב 2: הוספת משקל לדגימות שעבר עליהן דגימה למטה.
איור 7. הגדלת המשקל.

 

המונח weight לא מתייחס לפרמטר של מודל (כמו w1 או w2). כאן, weight מתייחס למשקלים של דוגמאות, שמגדילים את החשיבות של דוגמה מסוימת במהלך האימון. אם משקל הדוגמה הוא 10, המשמעות היא שהמודל מתייחס לדוגמה כחשובה פי 10 (בזמן חישוב האובדן) בהשוואה לדוגמה עם משקל 1.

הערך של weight צריך להיות שווה לגורם שבו השתמשתם כדי לבצע דגימה לאחור:

\[\text{ \{example weight\} = \{original example weight\} × \{downsampling factor\} }\]

אולי נראה מוזר להוסיף משקלים לדוגמה אחרי דגימה לאחור. אחרי הכל, אתם מנסים לשפר את המודל לגבי סיווג המיעוט, אז למה להגדיל את המשקל של סיווג הרוב? למעשה, הגדלת המשקל של הכיתה הגדולה יותר נוטה לצמצם את ההטיה בתחזית. כלומר, הגדלת המשקלים אחרי דגימה לאחור נוטה לצמצם את ההפרש בין הממוצע של התחזיות של המודל לבין הממוצע של התוויות של מערך הנתונים.

יחסי איזון מחדש

כמה כדאי להקטין את המדגם ולהגדיל את המשקל כדי לאזן מחדש את מערך הנתונים? כדי להגיע לתשובה, כדאי להתנסות ביחס של איזון מחדש, בדיוק כמו שמתנסים בפרמטרים היפר-מרחביים אחרים. עם זאת, התשובה תלויה בגורמים הבאים:

  • גודל האצווה
  • יחס חוסר האיזון
  • מספר הדוגמאות בקבוצת האימון

באופן אידיאלי, כל קבוצה צריכה להכיל כמה דוגמאות של מיעוט. אם קבוצות האימון לא יכללו מספיק דוגמאות של מיעוט, אימון המערכת יהיה גרוע מאוד. גודל האצווה צריך להיות גדול פי כמה מיחס אי-האיזון. לדוגמה, אם יחס אי-האיזון הוא 100:1, גודל האצווה צריך להיות לפחות 500.

תרגול: בדיקת ההבנה

נניח את המצב הבא:

  • קבוצת האימון מכילה קצת יותר ממיליארד דוגמאות.
  • גודל האצווה הוא 128.
  • יחס אי-האיזון הוא 100:1, כך שקבוצת האימון מחולקת באופן הבא:
    • כמיליארד דוגמאות של קבוצת הרוב.
    • כ-10 מיליון דוגמאות של מיעוט.
אילו מההצהרות הבאות נכונות?
הגדלת גודל האצווה ל-1,024 תשפר את המודל שייווצר.
כשגודל האצווה הוא 1,024, כל אצווה תכלול בממוצע כ-10 דוגמאות של מיעוט, וזה אמור לעזור לכם לאמן מודל הרבה יותר טוב.
אם משאירים את גודל האצווה ב-128 אבל מבצעים דגימה לאחור (והגדלת משקל) ל-20:1, המודל שייווצר ישתפר.
בזכות דגימת ירידה, בכל קבוצה של 128 דוגמאות יהיו בממוצע כ-21 דוגמאות של מיעוט, וזה אמור להספיק לאימון של מודל שימושי. שימו לב שצמצום הדגימה מפחית את מספר הדוגמאות בקבוצת האימון מקצת יותר ממיליארד ל-60 מיליון.
ההיפר-פרמטרים הנוכחיים תקינים.
אם גודל הקבוצה הוא 128, כל קבוצה תכלול בממוצע דוגמה אחת של קבוצת מיעוט, ויכול להיות שהיא לא תספיק כדי לאמן מודל שימושי.