אחרי מקור להטיות נמצא בנתוני האימון, אנחנו יכולים לנקוט צעדים יזומים לצמצם את ההשפעות. יש שתי אסטרטגיות עיקריות של למידת מכונה (ML) מהנדסים משתמשים בדרך כלל כדי לתקן הטיה:
- הגדלת נתוני האימון.
- כוונון פונקציית האובדן של המודל.
הגדלת נתוני האימון
אם בבדיקה של נתוני האימון התגלו בעיות של בעיות חסרות, שגויות, או נתונים מעוותים, הדרך הישירה ביותר לטפל בבעיה היא כדי לאסוף נתונים נוספים.
עם זאת, בעוד שהגדלת נתוני האימון יכולה להיות אידיאלית, החיסרון של היא גם יכולה להיות לא מעשית, עקב היעדר אילוצים זמינים של נתונים או משאבים שמונעים איסוף נתונים. לדוגמה, איסוף של נתונים נוספים עלול להיות יקר מדי, גוזל זמן רב או לא מעשי עקב הגבלות משפטיות/פרטיות.
שינוי פונקציית האופטימיזציה של המודל
במקרים שבהם לא ניתן לאסוף נתוני אימון נוספים, אפשרות אחרת לצמצום ההטיות היא להתאים את אופן החישוב של האובדן במהלך המודל באימון. אנחנו משתמשים בדרך כלל בפונקציית אופטימיזציה כמו הפסד יומן כדי להטיל עונש על המודל הלא נכון ויצירת חיזויים. עם זאת, אובדן היומנים לא מכניס את החברות בתת-הקבוצה אל להפעיל שיקול דעת. כך שבמקום להשתמש בהפסד של יומנים, אנחנו יכולים לבחור הגדרת אופטימיזציה שנועדה להטיל עונשים על טעויות באופן שמתחשב בהוגנות מנוגד לחוסר האיזון שזיהינו בנתוני האימון שלנו.
הספרייה לתיקון מודלים של TensorFlow מספקת כלי עזר לשימוש טכניקות שונות לצמצום הטיות במהלך אימון המודל:
MinDiff: המטרה של MinDiff היא לאזן בין השגיאות בשתי פרוסות נתונים שונות (סטודנטים/נשים לעומת סטודנטים לא בינאריים) על ידי הוספת עונש על הבדלים בהתפלגות החיזוי בין שתי הקבוצות.
התאמת Logit לעובדות נגדיות: הצמדה של לוגייט נגדי (CLP) נועדה להבטיח ששינוי של דוגמה נתונה לא משנה את החיזוי של המודל לכך לדוגמה. לדוגמה, אם מערך נתונים לאימון מכיל שתי דוגמאות ערכי התכונות זהים, אבל לאחד מהם יש ערך
gender
שלmale
ו- לצד השני יש ערךgender
שלnonbinary
, CLP יוסיף עונש אם החיזויים לשתי הדוגמאות האלה שונים.
הטכניקות שתבחרו לשינוי פונקציית האופטימיזציה הן בהתאם לתרחישים לדוגמה של המודל. בקטע הבא נתייחס לבחון מקרוב את האופן שבו ניגשים למשימה של הערכת מודל לצורך הוגנות על ידי בחינת התרחישים לדוגמה האלה.