הוגנות: סוגי הטיה

מודלים של למידת מכונה (ML) הם לא אובייקטיביים מטבעם. מומחי למידת מכונה מארגנים מודלים על ידי הזנת מערך נתונים של דוגמאות לאימון, והמעורבות האנושית בהקצאה ובארגון של הנתונים האלה עלולה לגרום לכך שהתחזיות של המודל יהיו חשופות להטיה.

כשאתם בונים מודלים, חשוב להיות מודעים לנטיות אנושיות נפוצות שעשויות להתבטא בנתונים שלכם, כדי שתוכלו לנקוט פעולות יזום כדי לצמצם את ההשפעות שלהן.

הטיה בדיווח

הטיה היסטורית

הטיית אוטומציה

הטיה בבחירה

הטיה בבחירת דוגמאות מתרחשת אם הדוגמאות של מערך הנתונים נבחרות באופן שלא משקף את ההפצה שלהן בעולם האמיתי. להטיית בחירה יכולות להיות צורות רבות, כולל הטיית כיסוי, הטיה של אי-תגובה והטיית דגימה.

הטיית כיסוי

הטיה של אי-תגובה

הטיה בדגימה

הטיה בייחוס לקבוצה

הטיית שיוך (Attribution) קבוצתי היא נטייה ליצור כללי של ההתייחסות לאנשים ספציפיים לכל הקבוצה שאליה הם שייכים. הטיה של שיוך קבוצתי מתבטאת לעיתים קרובות בשתי הצורות הבאות:

הטיה בתוך הקבוצה

הטיה הומוגנית כלפי קבוצה חוץ

הטיה מרומזת

הטיית אישור

הטיה של מבצע הניסוי

תרגול: בדיקת ההבנה

איזה מהסוגים הבאים של הטיה יכול היה לתרום לחזויות המוטה במודל הקבלה לקולג' שמתואר במבוא?
הטיה היסטורית
מודל הקבלה הוכשר על סמך רשומות של תלמידים מ-20 השנים האחרונות. אם תלמידים מקבוצות מיעוט לא היו מיוצגים באופן הולם בנתונים האלה, המודל היה עלול לשחזר את אותן אי-השוויות היסטוריות כשיבצע חיזויים על נתוני תלמידים חדשים.
הטיה לטובת הקבוצה
מודל הקבלה אומן על ידי סטודנטים פעילים באוניברסיטה, שיכול להיות שהיו להם העדפות לא מודעות לקבלת סטודנטים שמגיעים מרקעים דומים לשלהם, ויכול להיות שההעדפות האלה השפיעו על האופן שבו הם אספו או עיצבו את המאפיינים של הנתונים שעליהם התבסס המודל.
הטיית אישור
מודל הקבלה הוכשר על ידי סטודנטים פעילים באוניברסיטה, שסביר להניח שהיו להם אמונות קודמות לגבי סוגי ההסמכות שמשויכים להצלחה בתוכנית למדעי המחשב. יכול להיות שהם אסף או הפכו את הנתונים בטעות, כך שהמודל אישר את האמונות הקיימות האלה.
הטיית אוטומציה
הטיה אוטומטית עשויה להסביר למה ועדת הקבלה בחרה להשתמש במודל למידת מכונה כדי לקבל החלטות לגבי קבלה. יכול להיות שהם האמינו שמערכת אוטומטית תניב תוצאות טובות יותר מאשר החלטות של בני אדם. עם זאת, הטיה של אוטומציה לא מספקת תובנות לגבי הסיבה לכך שהתחזיות של המודל היו מוטה.