הוגנות: צמצום הטיה

אחרי שאנחנו מזהים מקור של הטיה בנתוני האימון, אנחנו יכולים לנקוט פעולות יזום כדי לצמצם את ההשפעות שלה. מהנדסי למידת מכונה (ML) משתמשים בדרך כלל בשתי אסטרטגיות עיקריות כדי לתקן הטיה:

  • הרחבת נתוני האימון.
  • שינוי פונקציית האובדן של המודל.

הוספת נתוני אימון

אם בבדיקה של נתוני האימון התגלו בעיות של נתונים חסרים, שגויים או מוטים, בדרך כלל הדרך הישירה ביותר לטפל בבעיה היא לאסוף נתונים נוספים.

עם זאת, הרחבת נתוני האימון יכולה להיות אידיאלית, אבל החיסרון של הגישה הזו הוא שהיא לא תמיד אפשרית, בגלל מחסור בנתונים זמינים או אילוצי משאבים שמפריעים לאיסוף הנתונים. לדוגמה, יכול להיות שאיסוף נתונים נוספים יהיה יקר מדי או זמן רב מדי, או שהוא לא יהיה אפשרי בגלל הגבלות משפטיות או הגבלות שקשורות לפרטיות.

שינוי פונקציית האופטימיזציה של המודל

במקרים שבהם לא ניתן לאסוף נתוני אימון נוספים, גישה נוספת לצמצום ההטיות היא לשנות את אופן החישוב של אובדן הנתונים במהלך אימון המודל. בדרך כלל אנחנו משתמשים בפונקציית אופטימיזציה כמו log loss כדי להעניש על חיזויים שגויים של המודלים. עם זאת, אובדן היומנים לא מתחשב גם בחברות בקבוצת משנה. לכן, במקום להשתמש באובדן יומנים, אנחנו יכולים לבחור בפונקציית אופטימיזציה שנועדה להטיל עונשים על שגיאות באופן שמתחשב בהוגנות, המנוגדת לחוסר האיזון שזיהינו בנתוני האימון שלנו.

בספרייה של TensorFlow לטיפול במודלים יש כלי שאפשר להשתמש בהם כדי להחיל שתי שיטות שונות לצמצום הטיה במהלך אימון המודל:

  • MinDiff:‏ MinDiff שואף לאזן את השגיאות בשני פלחים שונים של נתונים (תלמידים/ות ממגדר זכר/נקבה לעומת תלמידים/ות ממגדר לא בינארי) על ידי הוספת ענישה על הבדלים בהתפלגויות התחזיות של שתי הקבוצות.

  • התאמת לוגיטים של תרחיש נגדית: התאמת לוגיטים של תרחיש נגדית (CLP) נועדה לוודא ששינוי של מאפיין רגיש בדוגמה מסוימת לא ישנה את התחזית של המודל לגבי הדוגמה הזו. לדוגמה, אם מערך נתונים של אימון מכיל שתי דוגמאות שהערכים של המאפיינים שלהן זהים, מלבד ערך gender של male בדוגמאה אחת וערך gender של nonbinary בדוגמאה השנייה, CLP יוסיף עונש אם התחזיות לשתי הדוגמאות האלה יהיו שונות.

השיטות שבוחרים לשינוי של פונקציית האופטימיזציה תלויות בתרחישי השימוש של המודל. בחלק הבא נבחן מקרוב את האופן שבו ניתן לגשת למשימה של הערכת מודל למידת הוגנות בהתאם לתרחישים לדוגמה האלה.

תרגול: בדיקת ההבנה

אילו מההצהרות הבאות לגבי שיטות לצמצום הטיה נכונות?
גם MinDiff וגם CLP מטילים קנס על אי התאמות בביצועי המודל שקשורות למאפיינים רגישים
מטרת שתי השיטות היא לצמצם את ההטיה על ידי הטלת קנס על שגיאות חיזוי שנובעות מאיזון לקוי באופן שבו מאפיינים רגישים מיוצגים בנתוני האימון.
המדד MinDiff מתייחס להבדלים בהתפלגות הכוללת של התחזיות בפלחים שונים של נתונים, ואילו המדד CLP מתייחס לאי-התאמות בתחזיות של זוגות ספציפיים של דוגמאות.
כדי להתמודד עם הטיה, המערכת של MinDiff מיישרת את התפלגות הציונים של שתי תתי-קבוצות. כדי לטפל בהטיה, צריך לוודא שדוגמאות ספציפיות לא יטופלו באופן שונה רק בגלל החברות שלהן בקבוצת המשנה.
הוספת דוגמאות נוספות למערך הנתונים לאימון תמיד תעזור למנוע הטיה בתחזיות של המודל.
הוספת דוגמאות אימון נוספות היא אסטרטגיה יעילה לצמצום ההטיה, אבל חשוב לשים לב להרכב של נתוני האימון החדשים. אם בדוגמאות הנוספות לאימון קיים חוסר איזון דומה לזה של הנתונים המקוריים, אז סביר להניח שהן לא יעזרו לצמצם את ההטיות הקיימות.
אם אתם מצמצמים את ההטיה על ידי הוספת נתוני אימון, אסור גם להחיל את MinDiff או את CLP במהלך האימון.
הוספת נתוני אימון והטמעת שיטות כמו MinDiff או CLP יכולות להיות משלימים. לדוגמה, מהנדס למידת מכונה יכול לאסוף מספיק נתוני אימון נוספים כדי לצמצם את אי ההתאמה בביצועים ב-30%, ואז להשתמש ב-MinDiff כדי לצמצם את אי ההתאמה ב-50% נוספים.