הוגנות: הוגנות נגדית

עד עכשיו, הדיונים שלנו לגבי מדדי הוגנות הניחו שהאימון שלנו והדוגמאות לבדיקה כוללות נתונים דמוגרפיים מקיפים תת-הקבוצות שנמצאות בבדיקה. אך לרוב זה לא המצב.

נניח שמערך הנתונים של בקשות ההצטרפות לא מכיל נתונים דמוגרפיים מלאים. במקום זאת, החברות בקבוצה הדמוגרפית מתועדת עבור אחוז קטן בלבד של דוגמאות, כמו תלמידים שבחרו לזהות בעצמם את הקבוצה שייך ל-. במקרה הזה, פירוט של מאגר המועמדים שלנו ל: ותלמידים שנדחו עכשיו נראית כך:

מאגר של 100 תלמידים ותלמידות, המחולק לשתי קבוצות:
      מועמדים שנדחו (80 סמלי תלמידים) ומועמדים שהתקבלו (20
      בסמלי התלמידים). כל הסמלים אפורים מוצללים (המשמעות היא
      הקבוצה הדמוגרפית לא ידועה), מלבד 6 סמלים. בקטע 'נדחתה'
      קבוצה, שני סמלי סטודנטים מוצללים בכחול ושני סמלים של תלמידים מוצללים
      של כתום. בקבוצה 'אושרה', סמל אחד של תלמיד מוצלל בכחול ואחד
      כתום מוצלל.
איור 5. מאגר מועמדים, עם חברות בקבוצה דמוגרפית לא ידוע כמעט לכל המועמדים (סמלים מוצללים באפור).

לא ניתן להעריך כאן תחזיות של המודל לקבוצות דמוגרפיות שונות שוויון או שוויון הזדמנויות, כי אין לנו נתונים דמוגרפיים ל-94% מהדוגמאות שלנו. עם זאת, לגבי 6% מהדוגמאות שמכילות מאפיינים דמוגרפיים, אנחנו עדיין יכולים להשוות בין זוגות של תחזיות ספציפיות (מועמד לרוב לעומת מועמד למיעוט) ובודקים אם הם היו שיטופלו בצורה שווה באמצעות המודל.

לדוגמה, נניח שבדקנו ביסודיות את נתוני התכונות זמינים לשני מועמדים (אחד בקבוצת הרוב והשני בקבוצת מיעוט מסומנים בכוכב בתמונה למטה), וקובעים שהם הם בעלי כשירות כניסה זהה בכל ההיבטים. אם המודל מאפשר חיזוי זהה עבור שני המועמדים האלה (כלומר, אם אחד מהם דוחה את שניהם מועמדים או מקבל את שני המועמדים), הוא אמור לענות על הוגנות במקרים כאלה. הוגנות נגדית קובעת דוגמאות שהן זהות בכל ההיבטים, מלבד מאפיין רגיש נתון (כאן, חברות בקבוצה דמוגרפית), צריכה להוביל לאותו מודל צפי.

אותו מאגר מועמדים כמו בתמונה הקודמת, למעט
      את הגרסה הזו, סמל כחול אחד של תלמיד (ששייך לקבוצת הרוב)
      סמל תלמיד כתום אחד (ששייך לקבוצת המיעוט) בכרטיסייה 'נדחה'
      מסומנת בכוכב, שמציין ששני המועמדים
      זהה (מלבד קבוצה דמוגרפית).
איור 6. הוגנות נגדית מתאפשרת עבור שני סוגי התוכן דוגמאות (שמשתנה רק בחברות בקבוצה דמוגרפית) בתוספת הערות עם מאחר שהמודל מקבל את אותה החלטה לגבי שניהם (נדחה).

יתרונות וחסרונות

כפי שצוין קודם, אחד מהיתרונות המרכזיים של הוגנות נגדית הוא יכול לשמש להערכת תחזיות הוגנות במקרים רבים, מדדים אחרים לא ניתנים לביצוע. אם מערך נתונים לא מכיל את הקבוצה המלאה של המאפיינים הקבוצתיים הרלוונטיים שנכללו בבדיקה, להיות אפשרות להעריך את הוגנות באמצעות שוויון דמוגרפי או שוויון הזדמנות מצוינת. אבל אם המאפיינים הקבוצתיים האלה זמינים לקבוצת משנה של דוגמאות, ואפשר לזהות צמדים דומים של בקבוצות שונות, בעלי המקצוע בתחום יכולים להשתמש בהוגנות מנוגדת כמדד לבדיקת המודל לאיתור הטיות פוטנציאליות בתחזיות.

בנוסף, מאחר שמדדים כמו 'שוויון דמוגרפי' ו'שוויון' להעריך קבוצות של הזדמנויות במצטבר, והן עשויות להסוות בעיות של הטיה שמשפיעות על את המודל ברמה של חיזויים בודדים, שיכולים להציג הערכה באמצעות הוגנות מנוגדת. לדוגמה, נניח שבקשות הכניסה שלנו מקבלים מועמדים מתאימים מקבוצת הרוב וממיעוט או קבוצה מסוימת באותו אחוז, אבל מועמד למיעוט המתאים ביותר הוא נדחה ואילו מועמד הרוב המוסמך ביותר עם אותו יתקבלו פרטי כניסה. ניתוח הוגנות מנוגדת יכול לעזור בזיהוי סוגים כאלה של פערים כדי שאפשר יהיה לטפל בהם.

לעומת זאת, החיסרון העיקרי של הוגנות מנוגדת הוא שלא לספק תמונה הוליסטית של הטיה בתחזיות של מודלים. זיהוי ו ייתכן שתיקון מספר קטן של אי שוויון בצמדים של דוגמאות לא יהיה מספיק כדי לטפל בבעיות של הטיה מערכתית המשפיעות על קבוצות משנה שלמות של דוגמאות.

במקרים שבהם זה אפשרי, בעלי המקצוע בתחום יכולים לשקול לבצע שני נתונים ביחד ניתוח הוגנות (באמצעות מדד כגון שוויון דמוגרפי או שוויון הזדמנות) וגם ניתוח הוגנות מנוגדת כדי להשיג מגוון תובנות לגבי הטיה פוטנציאלית שדורשת תיקון.

תרגיל: בדקו את ההבנה שלכם

איור פעילות. שתי קבוצות של מעגלים: שלילי
             חיזויים וחיזויים חיוביים.
             חיזויים שליליים מורכבים מ-50 מעגלים:
             39 עיגולים אפורים, 8 עיגולים כחולים ו-3 עיגולים כתומים. אחת
             עיגול כחול מסומן בתווית 'A', עיגול כתום אחד מסומן בתווית 'A',
             ועיגול כחול אחד מסומן בתווית C. 
             'חיזויים חיוביים' מורכבים מ-15 מעגלים:
             10 עיגולים אפורים, 3 עיגולים כחולים ו-2
             עיגולים כתומים. עיגול כחול אחד מסומן בתווית 'B', כתום אחד
             מעגל מסומן בתווית B ועיגול כחול אחד עם התווית C.
             מתחת לתרשים מופיע מקרא שעיגולים כחולים מייצגים
             דוגמה בקבוצת הרוב, עיגולים כתומים מייצגים
             דוגמה בקבוצת המיעוט, ומעגלים אפורים מייצגים
             דוגמאות שהחברות שלהן בקבוצה לא ידועה
איור 7. חיזויים שליליים וחיוביים על קבוצת דוגמאות, שכוללות שלושה זוגות של דוגמאות שסומנו כ-A, B ו-C.

בקבוצת החיזויים באיור 7 שלמעלה, את הזוגות הבאים של זהות (לא כולל חברות בקבוצה) האם התקבלו חיזויים שמפירים עקרון ההוגן?

זוג א'
זוג חיזויים של א' תומך בהוגנות מנוגדת, כי גם את הדוגמה בקבוצת הרוב (כחול) והדוגמה בקבוצת הרוב קבוצת מיעוט (כתום) קיבלה את אותו חיזוי (שלילי).
זוג ב'
החיזויים של זוג ב' תואמים להוגנות מנוגדת, כי גם את הדוגמה בקבוצת הרוב (כחול) והדוגמה בקבוצת הרוב קבוצת מיעוט (כתום) קיבלה את אותו חיזוי (חיובי).
זוג ג'
החיזויים של זוג ג' הם עבור שתי דוגמאות ששתיהן שייכות קבוצת הרוב (כחול). העובדה שהמודל יצר בחיזוי של הדוגמאות הזהות האלה, מצביעות על כך להיות בעיות רחבות יותר בביצועים של המודל. מחקר. עם זאת, התוצאה הזו לא מפרה הוגנות, שהתנאים שלה חלים רק במקרים שבהם כל אחת מהדוגמאות האלה מגיעה מקבוצות שונות.
אף אחד מהצמדים האלה לא מפר יושרה מנוגדת
התחזיות לגבי זוגות A ו-B עומדות בדרישות של הוגנות מנוגדת כי בשני המקרים, הדוגמה בקבוצת הרוב בקבוצת המיעוט מקבלים את אותו חיזוי. התאמה ג' ושתי הדוגמאות שייכות לאותה קבוצה (קבוצת הרוב), לכן הוגנות נגדית אינה רלוונטית במקרה זה.

סיכום

התאמה דמוגרפית, שוויון הזדמנויות, והוגן נגדי מספק הגדרות מתמטיות שונות הוגנות בכל הנוגע לחיזויים של מודלים. ואלו רק שלוש אפשרויות דרכים לכמת את ההוגנות. חלק מההגדרות של הוגנות עשויות להיות באופן הדדי לא תואמת, כלומר ייתכן שלא ניתן יהיה לספק אותם בו-זמנית את החיזויים של המודל.

אז איך תבחרו את האפשרות "הנכון" האם הוא מדד הוגנות למודל שלך? צריך: חשוב להביא בחשבון את ההקשר שבו נעשה שימוש במודל הזה ואת המטרות הגורפות שרוצים להשיג. לדוגמה, המטרה היא להשיג ייצוג שווה (במקרה זה, 'שוויון דמוגרפי' הוא המדד האופטימלי) או ש להשיג שוויון הזדמנויות (כאן, שוויון הזדמנויות יכול להיות מדד)?

כדי לקבל מידע נוסף על ההוגנות בלמידת מכונה ולחקור את הבעיות האלה לעומק, אפשר להיכנס הוגן ולמידת מכונה: מגבלות והזדמנויות מאת סולון ברוקאס, מוריץ הארדט וארווינד נאראיאנן.