מערכי נתונים: מערכי נתונים לא מאוזנים

נבחן מערך נתונים שמכיל תווית קטגורית שהערך שלו הוא חיובי או שלילי. במערך נתונים מאוזן, מספר הערכים חיוביים ותוויות שליליות הן בערך שווה. עם זאת, אם תווית אחת נפוצה יותר מהתווית השנייה, מערך הנתונים לא מאוזן. התווית הדומיננטית במערך נתונים לא מאוזן נקראת majority class; התווית הפחות נפוצה נקראת סיווג מיעוט.

הטבלה הבאה מספקת שמות וטווחים מקובלים עבור דרגות שונות של חוסר איזון:

אחוז הנתונים ששייכים לסיווג מיעוט דרגה של חוסר איזון
20-40% ממערך הנתונים מתון
1-20% ממערך הנתונים בינוני
פחות מ-1% ממערך הנתונים קיצונית

לדוגמה, נבחן מערך נתונים לזיהוי וירוסים שבו יש סיווג של מיעוט שמייצג 0.5% ממערך הנתונים, וסיווג הרוב מייצג 99.5%. מערכי נתונים לא מאוזנים באופן קיצוני כמו זה הם נפוצים ברפואה, רוב הנבדקים לא יחלו בוירוס.

איור 5.  תרשים עמודות עם שתי עמודות. בעמודה אחת מוצגות כ-200
            סיווגים שליליים; בעמודה השנייה מוצגת כיתה חיובית אחת.
איור 5. מערך נתונים לא מאוזן במיוחד.

 

מערכי נתונים לא מאוזנים לפעמים לא מכילים מספיק סיווג של מיעוט דוגמאות לאימון נכון של מודל. כלומר, כשיש כל כך מעט תוויות חיוביות, המודל מתאמן כמעט רק על תוויות שליליות ולא יכול ללמוד מספיק על תוויות חיוביות. לדוגמה, אם גודל האצווה הוא 50, הרבה קבוצות לא יכילו תוויות חיוביות.

לעיתים קרובות, במיוחד כשמדובר בחוסר איזון מתון ובצורה מתונה מערכי נתונים, חוסר איזון הוא לא בעיה. לכן, קודם כל, כדאי לנסות על מערך הנתונים המקורי. אם המודל פועל כמו שצריך, סיימתם. אם לא, לפחות המודל הלא אופטימלי מספק ערך הבסיס לניסויים עתידיים. לאחר מכן תוכלו לנסות את הטכניקות הבאות כדי להתגבר על בעיות שנגרמה כתוצאה ממערכי נתונים לא מאוזנים.

הפחתת דגימה והעלאת משקל

אחת הדרכים להתמודד עם מערך נתונים לא מאוזן היא להפחית את הדגימה ולשפר את המשקל סיווג הרוב. אלה ההגדרות של שני המונחים החדשים:

  • דגימה נמוכה (בהקשר הזה) הוא אימון על קבוצה קטנה באופן לא פרופורציונלי של קבוצת הרוב דוגמאות.
  • שילת משקל היא הוספה המשקל לדוגמה של המחלקה המוקטנת השווה לגורם שבו בוצעה דגימה.

שלב 1: מקטינים את הדגימה של מחלקת הרוב חשוב לזכור מערך נתונים של וירוסים עם יחס של תווית חיובית אחת לכל 200 ערכים שליליים. תוויות. דגימה לפי גורם 20 משפר את היתרה ל-1 חיובי ל-10 שליליים (10%). על אף של קבוצת האימון שמתקבלת עדיין לא מאוזן, החלק הערך 'חיובי' ל'שלילי' טוב בהרבה מהמקור ללא איזון קיצוני ביחס גובה-רוחב של 0.5%).

איור 6. תרשים עמודות עם שתי עמודות. עמודה אחת מציגה 20 ערכים שליליים
            סיווגים בעמודה השנייה מוצגת כיתה חיובית אחת.
איור 6. דגימה נמוכה

 

שלב 2: העלאת המשקל של המחלקה שנדחתה: הוספת דוגמה של משקולות למחלקה במדגם יורד. לאחר ביצוע דגימה בפקטור של 20, המשקל לדוגמה צריך להיות 20. (כן, זה אולי ייראה לא הגיוני, אבל אסביר מדוע בהמשך.)

איור 7. תרשים דו-שלבי של הפחתת דגימה ושדרוג של משקל.
            שלב 1: דגימה שולפת דוגמאות אקראיות מהרוב
            בכיתה. שלב 2: שקלול נוסף מוסיף משקל לנתונים בדגימה
            דוגמאות.
איור 7. משקולות.

 

המונח משקל לא מתייחס לפרמטרים של המודל (כמו w1 או ש2). כאן, משקל מתייחס משקולות לדוגמה, שמגבירים את החשיבות של כל דוגמה במהלך האימון. אם מדובר בדוגמה של משקל 10, המודל מתייחס לדוגמה כאל פי 10 יותר חשוב (במצב של אובדן מידע) מאשר דוגמה משקל 1.

המשקל צריך להיות שווה לגורם שבו השתמשתם כדי להוריד את הדגימה:

\[\text{ \{example weight\} = \{original example weight\} × \{downsampling factor\} }\]

הוספת משקולות לדוגמה אחרי הפחתת הדגימה עשויה להיראות מוזר. אחרי הכול, בניסיון לשפר את המודל בקרב קבוצת מיעוט, אז למה לא להעלות משקל סיווג הרוב? למעשה, העלאת שקלול של הרוב נוטה להפחית הטיה של חיזוי. כלומר, הגדלה של המשקל לאחר דגימה נוטה להקטין את הדלתא בין הממוצע של החיזויים של המודל ושל הממוצע של התוויות של מערך הנתונים.

יחסי איזון

כמה כדאי להקטין את הדגימה ולשפר את המשקל כדי לאזן מחדש את מערך הנתונים? כדי לקבוע את התשובה, כדאי לערוך ניסויים עם יחס האיזון החוזר, בדיוק כמו שאפשר לנסות עם היפר-פרמטרים. עם זאת, התשובה בסופו של דבר תלויה בגורמים הבאים:

  • גודל הקבוצה
  • יחס חוסר איזון
  • מספר הדוגמאות בערכת האימון

באופן אידיאלי, כל קבוצה צריכה להכיל כמה דוגמאות לסיווגים של מיעוט. אצווה שלא מכילה מספיק מחלקות מיעוט תהיה אימון ברמה נמוכה מאוד. הגודל של אצווה צריך להיות גדול פי כמה מיחס חוסר האיזון. לדוגמה, אם יחס חוסר האיזון הוא 100:1, גודל הקבוצה להיות לפחות 500.

תרגיל: בדקו את ההבנה שלכם

כדאי להביא בחשבון את המצב הבא:

  • גודל הקבוצה הוא 128.
  • יחס חוסר האיזון הוא 100:1.
  • מערך האימון מכיל מיליארד דוגמאות.
אילו מההצהרות הבאות נכונות?
הגדלת הקובץ ל-1,024 תשפר את התוצאה מודל טרנספורמר.
אם גודל קבוצת הקבצים הוא 1,024, הממוצע של כל קבוצת קבצים יהיה 10 פריטים בממוצע. דוגמאות לכיתות מיעוט, שאמורות להספיק לאימון. ללא דגימה, קבוצת האימון ממשיכה לכלול דגימה מיליארדי דוגמאות.
הפחתת דגימה (ועדכון) ל-20:1 תוך שמירה על גודל הקבוצה ב-128 תווים ישפר את המודל שמתקבל.
בכל קבוצה יהיו בממוצע 9 דוגמאות לסיווגי מיעוט, מספיקים לאימון. הפחתת הדגימה מפחיתה ביעילות את מספר הדוגמאות באימון, ממיליארד עד 40 מיליון.
המצב הנוכחי הוא תקין.
רוב האצוות לא יכילו מספיק כיתות מיעוט כדי לאמן מערך שימושי מודל טרנספורמר.