זיהוי ההטיה

צוות Jigsaw העריך לראשונה את מודל הרעילות של API ל-Perspective API, והוא גילה שהוא מניב ביצועים טובים בקבוצת נתוני הבדיקה. אבל הם היו חוששים שעדיין תהיה הטיה בדגם של החיזויים של המודל אם היו שגיאות שיטתיות בנתוני האימון. כדי להבטיח את האיכות של נתוני האימון, הם לקחו את השלב הנוסף של קריאת התוויות שסופקו על ידי מדרגים אנושיים כדי לוודא שהם מדויקים.

עם זאת, למרות הפעולות היזומות האלה, שנעשו כדי למנוע הטיה בנתונים של האימון, המשתמשים עדיין גילו בעיה חיובית שגויה בתגובות שכוללות מונחי זהות. איך זה קרה?

בביקורת השנייה של קבוצת ההדרכה נמצא שרוב התגובות שכוללות מונחים שמאפשרים זיהוי בגלל גזע, דת ומגדר סומנו כרעלות. התוויות האלה היו נכונות. רוב התגובות באינטרנט שכללו את מונחי הזהות האלה היו רעלות. עם זאת, בעקבות ההטיה הזו, המודל זיהה קשר בין הנוכחות של מונחי הזהות האלה לבין רעילות, שלא משקפת באופן מדויק את הקשרים הניטרליים של המונחים עצמם.

הצוות גילה פער קריטי בנתוני האימון של המודל: אזור שבו לא היו מספיק נתוני הדרכה כדי לייצג היבט מרכזי של מציאות. קבוצת האימון לא הכילה מספיק דוגמאות של תגובות זהות לא רעלות כדי שהמודל יגלה שהמונחים עצמם היו ניטרליים, ושההקשר שבו נעשה בו שימוש הוא מה שחשוב.