הוגנות: צמצום הטיה

אחרי מקור להטיות נמצא בנתוני האימון, אנחנו יכולים לנקוט צעדים יזומים לצמצם את ההשפעות. יש שתי אסטרטגיות עיקריות של למידת מכונה (ML) מהנדסים משתמשים בדרך כלל כדי לתקן הטיה:

  • הגדלת נתוני האימון.
  • כוונון פונקציית האובדן של המודל.

הגדלת נתוני האימון

אם בבדיקה של נתוני האימון התגלו בעיות של בעיות חסרות, שגויות, או נתונים מעוותים, הדרך הישירה ביותר לטפל בבעיה היא כדי לאסוף נתונים נוספים.

עם זאת, בעוד שהגדלת נתוני האימון יכולה להיות אידיאלית, החיסרון של היא גם יכולה להיות לא מעשית, עקב היעדר אילוצים זמינים של נתונים או משאבים שמונעים איסוף נתונים. לדוגמה, איסוף של נתונים נוספים עלול להיות יקר מדי, גוזל זמן רב או לא מעשי עקב הגבלות משפטיות/פרטיות.

שינוי פונקציית האופטימיזציה של המודל

במקרים שבהם לא ניתן לאסוף נתוני אימון נוספים, אפשרות אחרת לצמצום ההטיות היא להתאים את אופן החישוב של האובדן במהלך המודל באימון. אנחנו משתמשים בדרך כלל בפונקציית אופטימיזציה כמו הפסד יומן כדי להטיל עונש על המודל הלא נכון ויצירת חיזויים. עם זאת, אובדן היומנים לא מכניס את החברות בתת-הקבוצה אל להפעיל שיקול דעת. כך שבמקום להשתמש בהפסד של יומנים, אנחנו יכולים לבחור הגדרת אופטימיזציה שנועדה להטיל עונשים על טעויות באופן שמתחשב בהוגנות מנוגד לחוסר האיזון שזיהינו בנתוני האימון שלנו.

הספרייה לתיקון מודלים של TensorFlow מספקת כלי עזר לשימוש טכניקות שונות לצמצום הטיות במהלך אימון המודל:

  • MinDiff: המטרה של MinDiff היא לאזן בין השגיאות בשתי פרוסות נתונים שונות (סטודנטים/נשים לעומת סטודנטים לא בינאריים) על ידי הוספת עונש על הבדלים בהתפלגות החיזוי בין שתי הקבוצות.

  • התאמת Logit לעובדות נגדיות: הצמדה של לוגייט נגדי (CLP) נועדה להבטיח ששינוי של דוגמה נתונה לא משנה את החיזוי של המודל לכך לדוגמה. לדוגמה, אם מערך נתונים לאימון מכיל שתי דוגמאות ערכי התכונות זהים, אבל לאחד מהם יש ערך gender של male ו- לצד השני יש ערך gender של nonbinary, CLP יוסיף עונש אם החיזויים לשתי הדוגמאות האלה שונים.

הטכניקות שתבחרו לשינוי פונקציית האופטימיזציה הן בהתאם לתרחישים לדוגמה של המודל. בקטע הבא נתייחס לבחון מקרוב את האופן שבו ניגשים למשימה של הערכת מודל לצורך הוגנות על ידי בחינת התרחישים לדוגמה האלה.

תרגיל: בדקו את ההבנה שלכם

אילו מההצהרות הבאות לגבי טכניקות לצמצום הטיות הן נכונות?
גם MinDiff וגם CLP מונעים פערים בביצועי המודל קשור למאפיינים רגישים
שתי הטכניקות נועדו לצמצם את ההטיות על ידי ענישה של החיזוי כתוצאה מחוסר איזון באופן שבו מאפיינים רגישים שמיוצגים בנתוני אימון.
MinDiff מעודד הבדלים בהתפלגות הכוללת של חיזויים לפלחים שונים של נתונים, ואילו CLP נותן עונש על אי-התאמה בתחזיות של זוגות ספציפיים של דוגמאות.
MinDiff מטפל בהטיה על ידי יישור התפלגות הציונים לשניים תת-הקבוצות. CLP מתמודד עם הטיה באמצעות ההקפדה על כך שדוגמאות בודדות לא יטופלו באופן שונה רק בגלל החברות שלהם בקבוצת המשנה.
הוספת דוגמאות למערך הנתונים לאימון תמיד תעזור נגד הטיות בחיזויים של המודל.
הוספת דוגמאות אימון היא אסטרטגיה יעילה צמצום ההטיות, אבל ההרכב של נתוני האימון החדשים חשובים. אם דוגמאות האימון הנוספות חוסר איזון בנתונים המקוריים, הם כנראה לא יעזרו לצמצם את ההטיה הקיימת.
אם אתם מצמצמים את ההטיות על ידי הוספה של נתוני אימון, אסור להשתמש גם ב-MinDiff או CLP במהלך האימון.
הגדלת נתוני אימון ויישום של טכניקות כמו MinDiff או CLP יכולות להיות משלימים. לדוגמה, ייתכן שמהנדס למידת מכונה יוכל כדי לאסוף מספיק נתוני אימון נוספים כדי לצמצם את הפערים בנתונים ב-30%, ואז להשתמש ב-MinDiff כדי לצמצם עוד יותר את של אי-התאמה ב-50% נוספים.