נבחן מערך נתונים שמכיל תווית קטגורית שהערך שלו הוא חיובי או שלילי. במערך נתונים מאוזן, מספר הערכים חיוביים ותוויות שליליות הן בערך שווה. עם זאת, אם תווית אחת נפוצה יותר מהתווית השנייה, מערך הנתונים לא מאוזן. התווית הדומיננטית במערך נתונים לא מאוזן נקראת majority class; התווית הפחות נפוצה נקראת סיווג מיעוט.
הטבלה הבאה מספקת שמות וטווחים מקובלים עבור דרגות שונות של חוסר איזון:
אחוז הנתונים ששייכים לסיווג מיעוט | דרגה של חוסר איזון |
---|---|
20-40% ממערך הנתונים | מתון |
1-20% ממערך הנתונים | בינוני |
פחות מ-1% ממערך הנתונים | קיצונית |
לדוגמה, נבחן מערך נתונים לזיהוי וירוסים שבו יש סיווג של מיעוט שמייצג 0.5% ממערך הנתונים, וסיווג הרוב מייצג 99.5%. מערכי נתונים לא מאוזנים באופן קיצוני כמו זה הם נפוצים ברפואה, רוב הנבדקים לא יחלו בוירוס.
מערכי נתונים לא מאוזנים לפעמים לא מכילים מספיק סיווג של מיעוט דוגמאות לאימון נכון של מודל. כלומר, כשיש כל כך מעט תוויות חיוביות, המודל מתאמן כמעט רק על תוויות שליליות ולא יכול ללמוד מספיק על תוויות חיוביות. לדוגמה, אם גודל האצווה הוא 50, הרבה קבוצות לא יכילו תוויות חיוביות.
לעיתים קרובות, במיוחד כשמדובר בחוסר איזון מתון ובצורה מתונה מערכי נתונים, חוסר איזון הוא לא בעיה. לכן, קודם כל, כדאי לנסות על מערך הנתונים המקורי. אם המודל פועל כמו שצריך, סיימתם. אם לא, לפחות המודל הלא אופטימלי מספק ערך הבסיס לניסויים עתידיים. לאחר מכן תוכלו לנסות את הטכניקות הבאות כדי להתגבר על בעיות שנגרמה כתוצאה ממערכי נתונים לא מאוזנים.
הפחתת דגימה והעלאת משקל
אחת הדרכים להתמודד עם מערך נתונים לא מאוזן היא להפחית את הדגימה ולשפר את המשקל סיווג הרוב. אלה ההגדרות של שני המונחים החדשים:
- דגימה נמוכה (בהקשר הזה) הוא אימון על קבוצה קטנה באופן לא פרופורציונלי של קבוצת הרוב דוגמאות.
- שילת משקל היא הוספה המשקל לדוגמה של המחלקה המוקטנת השווה לגורם שבו בוצעה דגימה.
שלב 1: מקטינים את הדגימה של מחלקת הרוב חשוב לזכור מערך נתונים של וירוסים עם יחס של תווית חיובית אחת לכל 200 ערכים שליליים. תוויות. דגימה לפי גורם 20 משפר את היתרה ל-1 חיובי ל-10 שליליים (10%). על אף של קבוצת האימון שמתקבלת עדיין לא מאוזן, החלק הערך 'חיובי' ל'שלילי' טוב בהרבה מהמקור ללא איזון קיצוני ביחס גובה-רוחב של 0.5%).
שלב 2: העלאת המשקל של המחלקה שנדחתה: הוספת דוגמה של משקולות למחלקה במדגם יורד. לאחר ביצוע דגימה בפקטור של 20, המשקל לדוגמה צריך להיות 20. (כן, זה אולי ייראה לא הגיוני, אבל אסביר מדוע בהמשך.)
המונח משקל לא מתייחס לפרמטרים של המודל (כמו w1 או ש2). כאן, משקל מתייחס משקולות לדוגמה, שמגבירים את החשיבות של כל דוגמה במהלך האימון. אם מדובר בדוגמה של משקל 10, המודל מתייחס לדוגמה כאל פי 10 יותר חשוב (במצב של אובדן מידע) מאשר דוגמה משקל 1.
המשקל צריך להיות שווה לגורם שבו השתמשתם כדי להוריד את הדגימה:
\[\text{ \{example weight\} = \{original example weight\} × \{downsampling factor\} }\]
הוספת משקולות לדוגמה אחרי הפחתת הדגימה עשויה להיראות מוזר. אחרי הכול, בניסיון לשפר את המודל בקרב קבוצת מיעוט, אז למה לא להעלות משקל סיווג הרוב? למעשה, העלאת שקלול של הרוב נוטה להפחית הטיה של חיזוי. כלומר, הגדלה של המשקל לאחר דגימה נוטה להקטין את הדלתא בין הממוצע של החיזויים של המודל ושל הממוצע של התוויות של מערך הנתונים.
יחסי איזון
כמה כדאי להקטין את הדגימה ולשפר את המשקל כדי לאזן מחדש את מערך הנתונים? כדי לקבוע את התשובה, כדאי לערוך ניסויים עם יחס האיזון החוזר, בדיוק כמו שאפשר לנסות עם היפר-פרמטרים. עם זאת, התשובה בסופו של דבר תלויה בגורמים הבאים:
- גודל הקבוצה
- יחס חוסר איזון
- מספר הדוגמאות בערכת האימון
באופן אידיאלי, כל קבוצה צריכה להכיל כמה דוגמאות לסיווגים של מיעוט. אצווה שלא מכילה מספיק מחלקות מיעוט תהיה אימון ברמה נמוכה מאוד. הגודל של אצווה צריך להיות גדול פי כמה מיחס חוסר האיזון. לדוגמה, אם יחס חוסר האיזון הוא 100:1, גודל הקבוצה להיות לפחות 500.
תרגיל: בדקו את ההבנה שלכם
כדאי להביא בחשבון את המצב הבא:
- גודל הקבוצה הוא 128.
- יחס חוסר האיזון הוא 100:1.
- מערך האימון מכיל מיליארד דוגמאות.