מערכי נתונים: מערכי נתונים לא מאוזנים

נבחן מערך נתונים שמכיל תווית קטגורית שהערך שלו הוא חיובי או שלילי. במערך נתונים מאוזן, מספר הערכים חיוביים ותוויות שליליות הן בערך שווה. עם זאת, אם תווית אחת נפוצה יותר מהתווית השנייה, מערך הנתונים לא מאוזן. התווית הדומיננטית במערך נתונים לא מאוזן נקראת majority class; התווית הפחות נפוצה נקראת סיווג מיעוט.

הטבלה הבאה מספקת שמות וטווחים מקובלים עבור דרגות שונות של חוסר איזון:

אחוז הנתונים ששייכים לסיווג מיעוט מידת חוסר האיזון
20-40% ממערך הנתונים מתון
1-20% ממערך הנתונים בינוני
פחות מ-1% ממערך הנתונים קיצונית

לדוגמה, נניח שיש קבוצת נתונים לזיהוי וירוסים שבה קבוצת המיעוט מייצגת 0.5% מקבוצת הנתונים וקבוצת הרוב מייצגת 99.5%. מערכי נתונים לא מאוזנים באופן קיצוני כמו זה הם נפוצים ברפואה, רוב הנבדקים לא יחלו בוירוס.

איור 5.  תרשים עמודות עם שתי עמודות. בעמודה אחת מוצגות כ-200 כיתות שליליות, ובעמודה השנייה מוצגת כיתה אחת חיובית.
איור 5. מערך נתונים לא מאוזן במיוחד.

 

לפעמים מערכי נתונים לא מאוזנים לא מכילים מספיק דוגמאות של מיעוט כדי לאמן מודל בצורה תקינה. כלומר, עם מעט מאוד תוויות חיוביות, המודל מתאמן כמעט אך ורק על תוויות שליליות ולא יכול ללמוד מספיק על תוויות חיוביות. לדוגמה, אם גודל האצווה הוא 50, הרבה קבוצות לא יכילו תוויות חיוביות.

לרוב, במיוחד במערכי נתונים עם חוסר איזון קל ובחלק מהמערכים עם חוסר איזון מתון, חוסר האיזון לא מהווה בעיה. לכן, כדאי לנסות קודם לאמן את המודל על מערך הנתונים המקורי. אם המודל פועל היטב, סיימתם. אם לא, לפחות המודל הלא אופטימלי מספק ערך הבסיס לניסויים עתידיים. לאחר מכן תוכלו לנסות את הטכניקות הבאות כדי להתגבר על בעיות שנגרמה כתוצאה ממערכי נתונים לא מאוזנים.

הפחתת דגימה והעלאת משקל

אחת הדרכים להתמודד עם מערך נתונים לא מאוזן היא להפחית את הדגימה ולשפר את המשקל סיווג הרוב. אלה ההגדרות של שני המונחים החדשים:

  • דגימה לאחור (בהקשר הזה) היא אימון על קבוצת משנה קטנה באופן לא פרופורציונלי של דוגמאות מהמעמד הגדול ביותר.
  • הגדלת המשקל היא הוספת משקל לדוגמה של הכיתה שעברתה דגימה לאחור, ששווה לגורם שבו הפחתתם את הדגימה.

שלב 1: מקטינים את הדגימה של מחלקת הרוב ניקח לדוגמה את מערך הנתונים בנושא וירוסים שמוצג איור 5 שיש בו יחס של תווית חיובית אחת לכל 200 תוויות שליליות. דגימה לאחור ביחס של 10 משפר את האיזון ל-1 חיובי ל-20 שליליים (5%). למרות שמערך האימון שמתקבל עדיין מתון לא מאוזן, יחס הגובה-רוחב בין התוצאות החיוביות לבין הערכים השליליים הרבה יותר טוב מאשר היחס המקורי הלא מאוזן (0.5%).

איור 6. תרשים עמודות עם שתי עמודות. בעמודה אחת מוצגות 20 מילות מפתח שליליות
            classes; בעמודה השנייה מוצגת כיתה חיובית אחת.
איור 6. דגימה נמוכה

 

שלב 2: הגדלת המשקל של הכיתה שעברתה דגימה: מוסיפים משקלים לדוגמה לכיתה שעברתה דגימה. אחרי דגימה לאחור ביחס של 10, משקל הדוגמה צריך להיות 10. (כן, זה אולי ייראה לא הגיוני, אבל אסביר מדוע בהמשך.)

איור 7. תרשים דו-שלבי של הפחתת דגימה ושדרוג של משקל.
            שלב 1: הפחתת הנתונים שולפת דוגמאות אקראיות מהרוב
            בכיתה. שלב 2: שקלול נוסף מוסיף משקל לנתונים בדגימה
            דוגמאות.
איור 7. משקולות.

 

המונח משקל לא מתייחס לפרמטרים של המודל (כמו w1 או ש2). כאן, משקל מתייחס משקולות לדוגמה, שמגבירים את החשיבות של כל דוגמה במהלך האימון. אם משקל הדוגמה הוא 10, המשמעות היא שהמודל מתייחס לדוגמה כחשובה פי 10 (בזמן חישוב האובדן) בהשוואה לדוגמה עם משקל 1.

המשקל צריך להיות שווה לגורם שבו השתמשתם כדי להוריד את הדגימה:

\[\text{ \{example weight\} = \{original example weight\} × \{downsampling factor\} }\]

הוספת משקולות לדוגמה אחרי הפחתת הדגימה עשויה להיראות מוזר. אחרי הכול, בניסיון לשפר את המודל בקרב קבוצת מיעוט, אז למה לא להעלות משקל סיווג הרוב? למעשה, הגדלת המשקל של הכיתה הגדולה יותר נוטה לצמצם את ההטיה בתחזית. כלומר, הגדלה של המשקל לאחר דגימה נוטה להקטין את הדלתא בין הממוצע של החיזויים של המודל ושל הממוצע של התוויות של מערך הנתונים.

יחסי איזון מחדש

כמה כדאי להקטין את הדגימה ולשפר את המשקל כדי לאזן מחדש את מערך הנתונים? כדי לקבוע את התשובה, כדאי לערוך ניסויים עם יחס האיזון החוזר, בדיוק כמו שאפשר לנסות עם היפר-פרמטרים. עם זאת, התשובה תלויה בגורמים הבאים:

  • גודל הקבוצה
  • יחס חוסר האיזון
  • מספר הדוגמאות בערכת האימון

באופן אידיאלי, כל קבוצה צריכה להכיל כמה דוגמאות לסיווגים של מיעוט. אצווה שלא מכילה מספיק מחלקות מיעוט תהיה אימון ברמה נמוכה מאוד. הגודל של אצווה צריך להיות גדול פי כמה מיחס חוסר האיזון. לדוגמה, אם יחס חוסר האיזון הוא 100:1, גודל הקבוצה להיות לפחות 500.

תרגול: בדיקת ההבנה

נניח את המצב הבא:

  • מערך האימון מכיל יותר ממיליארד דוגמאות.
  • גודל האצווה הוא 128.
  • יחס חוסר האיזון הוא 100:1, לכן ערכת האימון מחולקת באופן הבא:
    • כמיליארד דוגמאות לסיווגי הרוב.
    • כ-10 מיליון דוגמאות של מיעוט.
אילו מההצהרות הבאות נכונות?
הגדלת הקובץ ל-1,024 תשפר את התוצאה מודל טרנספורמר.
אם גודל קבוצת הקבצים הוא 1,024, הממוצע של כל קבוצת קבצים יהיה 10 פריטים בממוצע. דוגמאות לכיתות מיעוט, אשר אמורות לעזור לאמן מודל טוב יותר.
שמירה על גודל אצווה של 128, אבל הפחתת דגימה (והעלאת משקל) ל-20:1 תשפר את המודל שמתקבל.
בזכות דגימת ירידה, בכל קבוצה של 128 דוגמאות יהיו בממוצע כ-21 דוגמאות של מיעוט, וזה אמור להספיק לאימון של מודל שימושי. חשוב לזכור שהקטנה של הדגימה מפחיתה את מספר באימון האימון בכ-60 מיליון.
ההיפר-פרמטרים הנוכחיים תקינים.
אם גודל הקבוצה הוא 128, כל קבוצה תהיה בממוצע מיעוט אחד. לדוגמה, שעשויים להיות לא מספיקים כדי לאמן מודל טרנספורמר.