עד עכשיו, הדיונים שלנו לגבי מדדי הוגנות הניחו שהאימון שלנו והדוגמאות לבדיקה כוללות נתונים דמוגרפיים מקיפים תת-הקבוצות שנמצאות בבדיקה. אך לרוב זה לא המצב.
נניח שמערך הנתונים של בקשות ההצטרפות לא מכיל נתונים דמוגרפיים מלאים. במקום זאת, החברות בקבוצה הדמוגרפית מתועדת עבור אחוז קטן בלבד של דוגמאות, כמו תלמידים שבחרו לזהות בעצמם את הקבוצה שייך ל-. במקרה הזה, פירוט של מאגר המועמדים שלנו ל: ותלמידים שנדחו עכשיו נראית כך:
לא ניתן להעריך כאן תחזיות של המודל לקבוצות דמוגרפיות שונות שוויון או שוויון הזדמנויות, כי אין לנו נתונים דמוגרפיים ל-94% מהדוגמאות שלנו. עם זאת, לגבי 6% מהדוגמאות שמכילות מאפיינים דמוגרפיים, אנחנו עדיין יכולים להשוות בין זוגות של תחזיות ספציפיות (מועמד לרוב לעומת מועמד למיעוט) ובודקים אם הם היו שיטופלו בצורה שווה באמצעות המודל.
לדוגמה, נניח שבדקנו ביסודיות את נתוני התכונות זמינים לשני מועמדים (אחד בקבוצת הרוב והשני בקבוצת מיעוט מסומנים בכוכב בתמונה למטה), וקובעים שהם הם בעלי כשירות כניסה זהה בכל ההיבטים. אם המודל מאפשר חיזוי זהה עבור שני המועמדים האלה (כלומר, אם אחד מהם דוחה את שניהם מועמדים או מקבל את שני המועמדים), הוא אמור לענות על הוגנות במקרים כאלה. הוגנות נגדית קובעת דוגמאות שהן זהות בכל ההיבטים, מלבד מאפיין רגיש נתון (כאן, חברות בקבוצה דמוגרפית), צריכה להוביל לאותו מודל צפי.
יתרונות וחסרונות
כפי שצוין קודם, אחד מהיתרונות המרכזיים של הוגנות נגדית הוא יכול לשמש להערכת תחזיות הוגנות במקרים רבים, מדדים אחרים לא ניתנים לביצוע. אם מערך נתונים לא מכיל את הקבוצה המלאה של המאפיינים הקבוצתיים הרלוונטיים שנכללו בבדיקה, להיות אפשרות להעריך את הוגנות באמצעות שוויון דמוגרפי או שוויון הזדמנות מצוינת. אבל אם המאפיינים הקבוצתיים האלה זמינים לקבוצת משנה של דוגמאות, ואפשר לזהות צמדים דומים של בקבוצות שונות, בעלי המקצוע בתחום יכולים להשתמש בהוגנות מנוגדת כמדד לבדיקת המודל לאיתור הטיות פוטנציאליות בתחזיות.
בנוסף, מאחר שמדדים כמו 'שוויון דמוגרפי' ו'שוויון' להעריך קבוצות של הזדמנויות במצטבר, והן עשויות להסוות בעיות של הטיה שמשפיעות על את המודל ברמה של חיזויים בודדים, שיכולים להציג הערכה באמצעות הוגנות מנוגדת. לדוגמה, נניח שבקשות הכניסה שלנו מקבלים מועמדים מתאימים מקבוצת הרוב וממיעוט או קבוצה מסוימת באותו אחוז, אבל מועמד למיעוט המתאים ביותר הוא נדחה ואילו מועמד הרוב המוסמך ביותר עם אותו יתקבלו פרטי כניסה. ניתוח הוגנות מנוגדת יכול לעזור בזיהוי סוגים כאלה של פערים כדי שאפשר יהיה לטפל בהם.
לעומת זאת, החיסרון העיקרי של הוגנות מנוגדת הוא שלא לספק תמונה הוליסטית של הטיה בתחזיות של מודלים. זיהוי ו ייתכן שתיקון מספר קטן של אי שוויון בצמדים של דוגמאות לא יהיה מספיק כדי לטפל בבעיות של הטיה מערכתית המשפיעות על קבוצות משנה שלמות של דוגמאות.
במקרים שבהם זה אפשרי, בעלי המקצוע בתחום יכולים לשקול לבצע שני נתונים ביחד ניתוח הוגנות (באמצעות מדד כגון שוויון דמוגרפי או שוויון הזדמנות) וגם ניתוח הוגנות מנוגדת כדי להשיג מגוון תובנות לגבי הטיה פוטנציאלית שדורשת תיקון.
תרגיל: בדקו את ההבנה שלכם
בקבוצת החיזויים באיור 7 שלמעלה, את הזוגות הבאים של זהות (לא כולל חברות בקבוצה) האם התקבלו חיזויים שמפירים עקרון ההוגן?
סיכום
התאמה דמוגרפית, שוויון הזדמנויות, והוגן נגדי מספק הגדרות מתמטיות שונות הוגנות בכל הנוגע לחיזויים של מודלים. ואלו רק שלוש אפשרויות דרכים לכמת את ההוגנות. חלק מההגדרות של הוגנות עשויות להיות באופן הדדי לא תואמת, כלומר ייתכן שלא ניתן יהיה לספק אותם בו-זמנית את החיזויים של המודל.
אז איך תבחרו את האפשרות "הנכון" האם הוא מדד הוגנות למודל שלך? צריך: חשוב להביא בחשבון את ההקשר שבו נעשה שימוש במודל הזה ואת המטרות הגורפות שרוצים להשיג. לדוגמה, המטרה היא להשיג ייצוג שווה (במקרה זה, 'שוויון דמוגרפי' הוא המדד האופטימלי) או ש להשיג שוויון הזדמנויות (כאן, שוויון הזדמנויות יכול להיות מדד)?
כדי לקבל מידע נוסף על ההוגנות בלמידת מכונה ולחקור את הבעיות האלה לעומק, אפשר להיכנס הוגן ולמידת מכונה: מגבלות והזדמנויות מאת סולון ברוקאס, מוריץ הארדט וארווינד נאראיאנן.