ML Practicum: Fairness in Perspective API

בדקו את ההבנה שלכם: זיהוי הטיה ותיקון שלה

זיהוי הטיה

בתרגיל מס' 1: סקירת המודל, אישרתם שהמודל סיווג באופן לא פרופורציונלי תגובות שמונחי הזהות שלהן רעילים. אילו מדדים עוזרים להסביר את הסיבה להטיה הזו? האפשרויות מפורטות למטה.
דיוק

דיוק מודד את האחוז מתוך סך כל החיזויים הנכונים – אחוז החיזויים שהם חיוביים או שליליים אמיתיים. השוואת הדיוק של קבוצות משנה שונות (למשל, מידע דמוגרפי על מגדר מסוים) מאפשרת לנו להעריך את הביצועים היחסיים של המודל בכל קבוצה, ויכולה לשמש כאינדיקטור להשפעה של ההטיות על המודל.

עם זאת, מאחר שדיוק מתייחס לחיזויים נכונים ולא נכונים באופן מצטבר, אין הבחנה בין שני הסוגים של החיזויים הנכונים לבין שני הסוגים של חיזויים שגויים. על סמך הדיוק בלבד, אנחנו לא יכולים לקבוע את ההתפלגויות הבסיסיות של תוצאות חיוביות, תוצאות שליליות אמיתיות, תוצאות חיוביות שגויות ושל גורמים שליליים כוזבים, וכך לקבל תובנות נוספות לגבי מקור ההטיה.

שיעור חיובי שגוי

שיעור חיובי שגוי (FPR) הוא אחוז הדוגמאות שליליות ממשיות (תגובות לא רעילות) שסווגו באופן שגוי כחיוביות (תגובות רעילות). FPR הוא מדד של ההשפעה של ההטיה על המודל. כשמשווים את מספרי ה-FPR בקבוצות משנה שונות (למשל, מידע דמוגרפי שונה לגבי מגדר מסוים), אנחנו מגלים שיש סבירות גבוהה יותר שתגובות טקסט שמכילות מונחים הקשורים למגדר יסווגו באופן שגוי כרעילות (תוצאות חיוביות שגויות) מאשר תגובות שלא מכילות את המונחים האלה.

עם זאת, אנחנו לא רוצים למדוד את ההשפעה של ההטיה, אלא למצוא את הסיבה לה. כדי לעשות זאת, עלינו לבחון לעומק את הקלט לנוסחה של FPR.

תוצאות שליליות בפועל ונתונים חיוביים בפועל
במערכי הנתונים של האימון והבדיקות של המודל הזה, תוצאות חיוביות בפועל הן כל הדוגמאות של תגובות רעילות, ו דוגמאות שליליות בפועל הן דוגמאות לא רעילות. מכיוון שמונחי הזהות עצמם הם ניטרליים, אנחנו נצפה למספר מאוזן של מספר מאוזן של תגובות שליליות בפועל עם הערות חיוביות בפועל שמכילות מונח זהות נתון. אם אנחנו רואים מספר נמוך באופן לא פרופורציונלי של תוצאות שליליות בפועל, זה אומר לנו שהמודל לא ראה הרבה דוגמאות של מונחי זהות המשמשים בהקשרים חיוביים או ניטרליים. במקרה כזה, המודל עשוי ללמוד על מתאם בין מונחי זהות לבין רעילות.
החזרה
Recall הוא אחוז החיזויים החיוביים בפועל שסווגו כחיוביים. הנתון הזה מציין את אחוז התגובות הרעילות שהמודל זיהה בהצלחה. במקרה הזה אנחנו חוששים להטיות שקשורות לתוצאות חיוביות כוזבות (תגובות לא רעילות שסווגו כרעילות), והזכירה לא מספקת תובנה לגבי הבעיה הזו.

הטיה מתקנת

אילו מהפעולות הבאות עשויות להיות שיטות יעילות לתיקון ההטיה בנתוני האימון שנעשה בהם שימוש בתרגיל מס' 1 ובתרגיל מס' 2? האפשרויות מפורטות למטה.
הוסיפו לקבוצת האימון עוד דוגמאות שליליות (לא רעילות) שמכילות מונחי זהות.
הוספת עוד דוגמאות שליליות (תגובות שהן למעשה לא רעילות) שמכילות מונחים מזהים תעזור לך לאזן את מערך האימון. לאחר מכן המודל יראה איזון טוב יותר בין מונחי הזהות המשמשים בהקשרים רעילים בהקשרים לא רעילים, כדי שהוא יוכל ללמוד שהמונחים עצמם הם ניטרליים.
צריך להוסיף לקבוצת האימון עוד דוגמאות חיוביות (רעילות) שמכילות מונחי זהות.
בקבוצת המשנה של הדוגמאות שמכילות מונחי זהות, יש כבר ייצוג יתר של דוגמאות רעילות. אם נוסיף עוד יותר דוגמאות למערך האימון, נגביר את ההטיה הקיימת במקום לתקן אותה.
צריך להוסיף לקבוצת האימון עוד דוגמאות שליליות (לא רעילות) ללא מונחי זהות.
מונחי הזהות כבר לא מקבלים מספיק ייצוג בדוגמאות שליליות. הוספת עוד דוגמאות שליליות ללא מונחי זהות תגדיל את חוסר האיזון ולא תעזור לתקן את ההטיה.
צריך להוסיף לקבוצת האימון עוד דוגמאות חיוביות (רעילות) ללא מונחי זהות.

ייתכן שהוספת עוד דוגמאות חיוביות ללא מונחים של זהות תעזור לבטל את הקשר בין מונחי זהות לבין רעילות שהמודל למד בעבר.

הערכת הטיה

אימנת בעצמך את הכלי לסיווג רעילות טקסט, וצוות מהנדסי התוכנה שלך מתכנן להשתמש בו כדי לדחות באופן אוטומטי הצגה של תגובות שמסווגות כ'רעילות'. אתם חוששים שהטיה כלשהי כלפי רעילות בגלל תגובות שקשורות למגדר עלולה להוביל לדיכוי של שיח בנושא מגדר שאינו רעיל, וברצונכם להעריך הטיה קשורה למגדר בחיזויים של המסווג. באילו מהמדדים הבאים צריך להשתמש כדי להעריך את המודל? האפשרויות מפורטות למטה.
שיעור חיובי שגוי (FPR)
בסביבת הייצור, המודל ישמש לדיכוי אוטומטי של חיזויים חיוביים (רעילים). המטרה שלך היא לוודא שהמודל לא מסתיר תוצאות חיוביות מוטעות (תגובות לא רעילות שהמודל סיווג באופן שגוי כ'רעילות') בשיעור גבוה יותר מאשר תגובות כלליות. השוואה בין FPR לקבוצות משנה של מגדר לבין FPR הכולל היא דרך טובה לבדוק איך לטפל בהטיה בתרחיש לדוגמה שלכם.
שיעור שלילי שגוי (FNR)
FNR מודדת את השיעור שבו המודל מסווג באופן שגוי את הסיווג החיובי (כאן, 'רעיל') כסיווג שלילי ('לא רעיל'). בתרחיש לדוגמה הזה, המדד מציין את השיעור שבו תגובות רעילות יעברו דרך המסנן ויוצגו למשתמשים. כאן, העניין העיקרי שלך הוא כיצד ההטיה מתבטאת במונחים של דיכוי של שיח לא רעיל. הפונקציה FNR לא מספקת שום תובנות לגבי המאפיין הזה של ביצועי המודל.
דיוק
דיוק מודד את אחוז החיזויים של המודל שהיו נכונים, ולהפך, אחוז החיזויים שהיו שגויים. במקרה לדוגמה הזה, הדיוק מראה את הסבירות שהמסנן מכיל שיח לא רעיל או שהמסנן מציג שיח רעיל. הבעיה העיקרית שלכם היא הבעיה הקודמת, ולא השנייה. הדיוק מאחד את שתי הבעיות, לכן זה לא המדד האידיאלי להערכה שאפשר להשתמש בו כאן.
AUC
AUC מספק מדידה מוחלטת של יכולת החיזוי של המודל. זה מדד טוב להערכת הביצועים הכוללים. עם זאת, הנושא הזה מדאיג אותך באופן ספציפי את שיעורי ההסרה של התגובות, ו-AUC לא מספק לך תובנות ישירות על הבעיה הזו.
מנהל תוכן נוסף לצוות שלך, ומנהל המוצר החליט לשנות את אופן הפריסה של המסווג. במקום להסתיר אוטומטית את התגובות המסווגות כ'רעילות', תוכנת הסינון תסמן את התגובות האלה כדי שמנהל התוכן יבדוק אותן. בגלל שאנשים יבדקו תגובות שסומנו כ'רעילות', ההטיה כבר לא תבוא לידי ביטוי בצורת דיכוי של תוכן. באילו מהמדדים הבאים כדאי להשתמש כדי למדוד הטיה — ואת ההשפעה של תיקון ההטיות — עכשיו? האפשרויות מפורטות למטה.
שיעור חיובי שגוי (FPR)
שיעור חיובי שגוי מציין את אחוז התגובות לא רעילות שסווגו באופן שגוי כ'רעילות'. מאחר שמנהלי בודקים אנושיים יבדקו עכשיו את כל התגובות של המודל, התוויות 'רעילות' אמורות להגיע למרבית התוצאות החיוביות השגויות, FPR כבר לא מהווה את הבעיה העיקרית.
שיעור שלילי שגוי (FNR)
מנהל אנושי יבדוק את כל התגובות שסומנו כ'רעילות' ויוודא שהתוצאות החיוביות השגויות אינן מוסתרות, אבל הן לא יבדקו תגובות שסומנו כ'לא רעילות'. כך פתוחה האפשרות להטיה הקשורה למילים שליליות שקריות. אפשר להשתמש ב-FNR (אחוז התוצאות החיוביות בפועל שסווגו כשליליות) כדי להעריך באופן שיטתי אם יש סיכוי גבוה יותר שתגובות רעילות לקבוצות משנה של מגדר הן לא רעילות מאשר תגובות כלליות.
דיוק
דיוק מייצג את אחוז החיזויים החיוביים שהם בפועל חיוביים - במקרה זה, אחוז החיזויים ה "רעילים" הנכונים. מאחר שאדמין אנושי יבדוק את כל החיזויים 'הרעילים', אין צורך להגדיר את הדיוק באחד ממדדי ההערכה העיקריים.
החזרה
מדד זכירת המודעה מציין את אחוז התוצאות החיוביות בפועל שסווגו בצורה נכונה. על הערך הזה אפשר לגזור את אחוז התוצאות החיוביות בפועל שסווגו באופן שגוי (1 – זכירה), והוא מדד שימושי לבדיקה אם תגובות רעילות שקשורות למגדר מסווגות באופן שגוי כ'לא רעילות' בהשוואה לתגובות באופן כללי.