פראלטיקה של ML: הוגנות ב-API של פרספקטיבה

תלמדו איך צוות Jigsaw התייחס להטרדה באינטרנט בשותפות עם צוות הטכנולוגיה של Google נגד ניצול לרעה על ידי פיתוח API של Perspective, שמשתמש בלמידה חישובית כדי לזהות תגובות רעלות. לאחר מכן, השתמשו באינדיקטורים של הוגנות כדי להעריך מודלים של למידת מכונה (ML) ולצמצם את ההטיות הלא מכוונות בנתוני האימון.

מבוא

Jigsaw היא יחידה ב-Alphabet שבונה טכנולוגיה שמגינה על העולם. בשנת 2017, הצוות בחר לטפל בהטרדה באינטרנט ופיתח Perspective API. המטרה של ה-API של פרספקטיבה היא להגדיל את ההשתתפות, את האיכות ואת האהדה של השיחות אונליין. מפתחים ובעלי אתרים יכולים להשתמש בפרספקטיבה כדי לזהות ולסנן טקסט שמעכב דו-שיח בונה בפורומים באינטרנט. לשם כך, אנחנו מנתחים תוכן של תגובות שמכילות תוכן שעשוי להיות פוגעני, כולל איומים, עלבונות, שפה גסה ושפה גסה.

ה-API של פרספקטיבה מקבל טקסט של תגובה כקלט ומחזיר "score" מ- 0 דירוג של 0 מציין הסתברות של 0% לכך שהתגובה רעילה, ציון של 1 מציין הסתברות של 100% לכך שהתגובה רעילה, וציון של 0.5 מעיד על סבירות של 50% לכך שהתגובה רעילה (כלומר, שהמודל אינו בטוח).

הצהרת בעיה

לאחר ההשקה הראשונית של ה-API של פרספקטיבה, משתמשים חיצוניים גילו קשר חיובי בין מונחי זהות המכילים מידע על גזע או נטייה מינית וציון רעילות. לדוגמה, הביטוי "I isמכונות שחורות של אישה&מירכאות; קיבלתי ציון של רעלות 0.87. במקרה הזה, מונחי הזהות לא היו בשימוש באופן מטעה, כך שהדוגמה הזו סווגה באופן שגוי. איפה משהו השתבש?