מילון מונחים ללמידת מכונה: הוגנות

הדף הזה מכיל מונחים ממילון המונחים בנושא הוגנות. כאן מפורטות כל ההגדרות במילון.

A

מאפיין

#fairness

מילה נרדפת ל-feature.

במסגרת הצדק בלמידת מכונה, מאפיינים מתייחסים לרוב למאפיינים שקשורים לאנשים פרטיים.

הטיית אוטומציה

#fairness

כשגורם קבלת החלטות אנושי מעדיף המלצות של מערכת אוטומטית לקבלת החלטות על פני מידע שנוצר ללא אוטומציה, גם אם מערכת קבלת ההחלטות האוטומטית טועה.

למידע נוסף, אפשר לקרוא את המאמר צדק: סוגים של הטיה במדריך למתחילים בנושא למידת מכונה.

B

הטיה (אתיקה/הוגנות)

#fairness
#fundamentals

1. יצירת קלישאות, דעות קדומות או העדפה של דברים, אנשים או קבוצות מסוימים על פני אחרים. ההטיות האלה יכולות להשפיע על איסוף הנתונים ועל הפרשתם, על תכנון המערכת ועל האופן שבו המשתמשים מקיימים אינטראקציה עם המערכת. דוגמאות לסוג הזה של הטיה:

2. שגיאה שיטתית שנובעת מפרוצדורה של דגימה או דיווח. דוגמאות לסוג הזה של הטיה:

חשוב לא להתבלבל עם מונח ההטיה במודלים של למידת מכונה או עם הטיית החיזוי.

למידע נוסף, ראו צדק: סוגי הטיות במדריך למתחילים בנושא למידת מכונה.

C

הטיית אישור

#fairness

הנטייה לחפש מידע, לפרש אותו, להעדיף אותו ולזכור אותו באופן שמאשר את האמונות או ההשערות הקיימות של האדם. מפתחי למידת מכונה עשויים לאסוף או לתייג נתונים בטעות בדרכים שמשפיעות על תוצאה שתומכת בדעות הקיימות שלהם. הטיית אישור היא סוג של הטיה משתמעת.

הטיה של הנסיין היא סוג של הטיית אישור, שבה הנסיין ממשיך לאמן מודלים עד שהשערה קיימת מאומתת.

הוגנות תנאי-נגד

#fairness

מדד הוגנות שבודק אם סיווג נותן את אותו תוצאה לאדם אחד כמו לאדם אחר שזהה לראשון, מלבד לגבי מאפיינים רגישים אחד או יותר. בדיקת הסיווג לצורך בדיקת הוגנות נגדית היא אחת מהשיטות לזיהוי מקורות פוטנציאליים של הטיה במודל.

מידע נוסף זמין במאמרים הבאים:

הטיה של כיסוי

#fairness

ראו הטיה של תהליך הבחירה.

D

שוויון דמוגרפי

#fairness

מדד הוגנות שמתקיים אם תוצאות הסיווג של מודל לא תלויות במאפיין רגיש נתון.

לדוגמה, אם גם תלמידים מליליפוט וגם תלמידים מברובדינגיאני מתקבלים לאוניברסיטת גלובדדבריב, המשמעות היא ששוויון דמוגרפי מתקיים אם אחוז הקבלה של התלמידים מליליפוט זהה לאחוז הקבלה של התלמידים מברובדינגיאני, ללא קשר לכך שקבוצה אחת כשירה יותר בממוצע מהקבוצה השנייה.

בניגוד להשוואת הסיכויים ולשוויון הזדמנויות, שבהם מותר לתוצאות הסיווג הכוללות להיות תלויות במאפיינים רגישים, אבל אסור לתוצאות הסיווג של תוויות מסוימות של אמת בפועל להיות תלויות במאפיינים רגישים. במאמר 'התמודדות עם אפליה באמצעות למידת מכונה חכמה יותר' מופיעה הדמיה שממחישה את הפשרות שצריך לעשות כשמבצעים אופטימיזציה להשגת שוויון דמוגרפי.

למידע נוסף, ראו צדק: שוויון דמוגרפי בקורס המקוצר בנושא למידת מכונה.

השפעה שונה

#fairness

קבלת החלטות לגבי אנשים שמשפיעות באופן לא פרופורציונלי על קבוצות משנה שונות באוכלוסייה. בדרך כלל מדובר במצבים שבהם תהליך קבלת החלטות אלגוריתמי פוגע בקבוצות משנה מסוימות או נותן להן יתרון על פני קבוצות אחרות.

לדוגמה, נניח שלפי אלגוריתם שקובע את הזכאות של אדם לקבל הלוואה לבית קטן, סביר יותר שהוא יסווג את האדם כ'לא עומד בדרישות' אם הכתובת למשלוח דואר שלו מכילה מיקוד מסוים. אם יש סיכוי גבוה יותר שלאנשים ב-Big-Endian יהיו כתובות למשלוח דואר עם קוד האימייל הזה מאשר לאנשים ב-Little-Endian, יכול להיות שהאלגוריתם הזה יוביל להשפעה שונה על קבוצות שונות.

בניגוד להתייחסות מפלה, שמתמקדת בפערים שנובעים כאשר מאפייני קבוצות משנה משמשים כקלט מפורש בתהליך קבלת ההחלטות האלגוריתמי.

טיפול מפלה

#fairness

הוספת מאפיינים רגישים של הנושאים לתהליך קבלת ההחלטות האלגוריתמיות, כך שקבוצות משנה שונות של אנשים יקבלו טיפול שונה.

לדוגמה, נניח שיש אלגוריתם שקובע את הזכאות של גמדים לקבלת הלוואה לבית מיניאטורי על סמך הנתונים שהם מספקים בבקשת ההלוואה. אם האלגוריתם משתמש בקשר של Lilliputian כ-Big-Endian או כ-Little-Endian כקלט, הוא מטפל באופן שונה בקבוצות שונות לפי המאפיין הזה.

בניגוד להשפעה לא שווה, שמתמקדת בהבדלים בהשפעות החברתיות של החלטות אלגוריתמיות על קבוצות משנה, ללא קשר לכך שהקבוצות המשנה האלה הן קלט למודלים.

E

שוויון הזדמנויות

#fairness

מדד הוגנות שמאפשר להעריך אם מודל מסוים מנבא את התוצאה הרצויה באותה מידה לכל הערכים של מאפיין רגיש. במילים אחרות, אם התוצאה הרצויה של מודל היא הסיווג החיובי, המטרה היא ששיעור החיוביים האמיתיים יהיה זהה בכל הקבוצות.

שוויון הזדמנויות קשור לשוויון הסיכויים, שמחייב שגם שיעורי החיובים האמיתיים וגם שיעורי החיובים השקריים יהיו זהים בכל הקבוצות.

נניח ש-Glubbdubdrib University מקבלת גם ליליפוטים וגם ברודינגנגיים לתוכנית מתמטיקה מחמירה. בתי הספר העל-יסודיים של ליליפוט מציעים תוכנית לימודים עשירה של שיעורי מתמטיקה, ורוב התלמידים עומדים בדרישות הקבלה לתוכנית האוניברסיטאית. בתי הספר התיכוניים בברודינגנ' לא מציעים שיעורי מתמטיקה בכלל, וכתוצאה מכך, הרבה פחות תלמידים עומדים בדרישות. שוויון הזדמנויות מתקיים לגבי התווית המועדפת 'התקבל' ביחס לאזרחות (ליליפוטי או ברודינגיאני) אם הסיכוי של תלמידים שעומדים בדרישות להתקבל הוא זהה, ללא קשר לכך שהם ליליפוטיים או ברודינגיאניים.

לדוגמה, נניח ש-100 תלמידים מליליפוט ו-100 תלמידים מברובדינגינג מגישים בקשה לאוניברסיטת Glubbdubdrib, וההחלטות לגבי הקבלה מתקבלות באופן הבא:

טבלה 1. מועמדים קטנים (90% מהם עומדים בדרישות)

  כשיר לא מתאים
התקבל 45 3
נדחה 45 7
סה"כ 90 10
אחוז התלמידים שעומדים בדרישות והתקבלו: 45/90 = 50%
אחוז התלמידים שלא עומדים בדרישות והודחו: 7/10 = 70%
אחוז התלמידים מליליפוטיה שהתקבלו בסה"כ: (45+3)/100 = 48%

 

טבלה 2. מועמדים עם נתונים עצומים (10% מהם עומדים בדרישות):

  כשיר לא מתאים
התקבל 5 9
נדחה 5 81
סה"כ 10 90
אחוז הסטודנטים שעומדים בדרישות והתקבלו: 5/10 = 50%
אחוז הסטודנטים שלא עומדים בדרישות והודחו: 81/90 = 90%
אחוז הסטודנטים מברודינגיאניה שהתקבלו: (5+9)/100 = 14%

הדוגמאות הקודמות עומדות בקריטריון של שוויון הזדמנויות לקבלת תלמידים שעומדים בדרישות, כי לכל אחד מתלמידי ליליפוט וברודינגנאג יש סיכוי של 50% להתקבל.

אמנם מדד השוויון הזדמנויות עומד בדרישות, אבל שני מדדי ההוגנות הבאים לא עומדים בדרישות:

  • שוויון דמוגרפי: סטודנטים מליליפוטי ומברודינגיאני מתקבלים לאוניברסיטה בשיעורים שונים: 48% מהסטודנטים מליליפוטי מתקבלים, אבל רק 14% מהסטודנטים מברודינגיאני מתקבלים.
  • שוויון סיכויים: לתלמידים שעומדים בדרישות מליליפוטין ומברודינגיאניה יש את אותה ההסתברות להתקבל, אבל לא מתקיים האילוץ הנוסף שלפיו לתלמידים שלא עומדים בדרישות מליליפוטין ומברודינגיאניה יש את אותה ההסתברות להידחות. בקשות של לליפוטים לא כשירים נדחות בשיעור של 70%, ואילו בקשות של ברודינגנזים לא כשירים נדחות בשיעור של 90%.

למידע נוסף, ראו צדק: שוויון הזדמנויות בקורס המקוצר בנושא למידת מכונה.

הסתברות שווה

#fairness

מדד הוגנות שמאפשר להעריך אם מודל מנבא תוצאות באותה רמה לכל הערכים של מאפיין רגיש, הן לגבי הסיווג החיובי והן לגבי הסיווג השלילי – ולא רק לגבי סיווג אחד או השני בלבד. במילים אחרות, גם שיעור החיובים האמיתיים וגם שיעור השלילים הכוזבים צריכים להיות זהים בכל הקבוצות.

האפשרות 'שוויון סיכויים' קשורה לשוויון הזדמנויות, שמתמקדת רק בשיעורי שגיאות של סיווג אחד (חיובי או שלילי).

לדוגמה, נניח שאוניברסיטת Glubbdubdrib מקבלת גם ליליפוטים וגם ברודינגנאים לתוכנית מתמטיקה מחמירה. בתי הספר התיכוניים של ליליפוט מציעים תוכנית לימודים עשירה של שיעורי מתמטיקה, ורוב התלמידים עומדים בדרישות הקבלה לתוכנית האוניברסיטאית. בתי הספר התיכוניים בברודינגנ' לא מציעים שיעורי מתמטיקה בכלל, וכתוצאה מכך הרבה פחות תלמידים עומדים בדרישות. הקריטריון של שוויון הסיכויים מתקיים אם לא משנה אם המועמד הוא אדם קטן או אדם גדול, אם הוא עומד בדרישות, הסיכוי שלו להתקבל לתוכנית הוא זהה, ואם הוא לא עומד בדרישות, הסיכוי שלו להידחות הוא זהה.

נניח ש-100 תלמידים מליליפוט ו-100 תלמידים מברובדינגיאני מתקבלים לאוניברסיטת Glubbdubdrib, וההחלטות לגבי הקבלה מתקבלות באופן הבא:

טבלה 3 מועמדים קטנים (90% מהם עומדים בדרישות)

  כשיר לא מתאים
התקבל 45 2
נדחה 45 8
סה"כ 90 10
אחוז התלמידים שעומדים בדרישות והתקבלו: 45/90 = 50%
אחוז התלמידים שלא עומדים בדרישות והודחו: 8/10 = 80%
אחוז התלמידים מליליפוטיה שהתקבלו בסה"כ: (45+2)/100 = 47%

 

טבלה 4. מועמדים עם נתונים עצומים (10% מהם עומדים בדרישות):

  כשיר לא מתאים
התקבל 5 18
נדחה 5 72
סה"כ 10 90
אחוז הסטודנטים שעומדים בדרישות והתקבלו: 5/10 = 50%
אחוז הסטודנטים שלא עומדים בדרישות והודחו: 72/90 = 80%
אחוז הסטודנטים מברודינגיאניה שהתקבלו: (5+18)/100 = 23%

תנאי הקבלה של שוויון הסיכויים מתקיים כי לכל אחד מהסטודנטים המתאימים מליליפוטיאן ומברודינגיאני יש 50% סיכוי להתקבל, ולכל אחד מהסטודנטים הלא מתאימים מליליפוטיאן ומברודינגיאני יש 80% סיכוי להידחות.

ההגדרה הרשמית של שוויון הסיכויים מופיעה במאמר 'שוויון הזדמנויות בלמידה בפיקוח' באופן הבא: "המנבא Ŷ עומד בתנאי של שוויון הסיכויים ביחס למאפיין המוגן A ולתוצאה Y אם Ŷ ו-A הם עצמאיים, מותנים ב-Y".

הטיית הנסיין

#fairness

ראו הטיית אישור.

F

אילוץ הוגנות

#fairness
החלת אילוץ על אלגוריתם כדי לוודא שנענים להגדרה אחת או יותר של הוגנות. דוגמאות למגבלות של הוגנות:

מדד הוגנות

#fairness

הגדרה מתמטית של 'הוגנות' שניתנת למדידה. דוגמאות למדדי הוגנות נפוצים:

מדדי הוגנות רבים הם בלתי ניתנים להפרדה. למידע נוסף, ראו חוסר תאימות של מדדי הוגנות.

G

הטיית שיוך קבוצתי

#fairness

ההנחה שכל מה שתקף לגבי אדם מסוים תקף גם לכל האנשים בקבוצה הזו. ההשפעות של הטיה בשיוך קבוצתי עלולות להחמיר אם נעשה שימוש בדגימת נוחות לאיסוף נתונים. בדגימה לא מייצגת, ייתכן שייערכו שיוך (Attribution) שלא משקף את המציאות.

כדאי לעיין גם בהטיה של הומוגניות מחוץ לקבוצה ובהטיה של הומוגניות בתוך הקבוצה. למידע נוסף, אפשר לקרוא את המאמר צדק: סוגים של הטיה בקורס המקוצר בנושא למידת מכונה.

H

הטיה היסטורית

#fairness

סוג של הטיה שכבר קיימת בעולם ומצאה את דרכה למערך נתונים. ההטיות האלה נוטות לשקף סטריאוטיפים תרבותיים קיימים, אי-שוויון דמוגרפיות ודעות קדומות כלפי קבוצות חברתיות מסוימות.

לדוגמה, נניח שרוצים ליצור מודל סיווג שחוזה אם מגיש בקשה לקבלת הלוואה לא ישלם את ההלוואה. המודל הזה עבר אימון על סמך נתונים היסטוריים של אי-תשלום הלוואות משנות ה-80 מבנקים מקומיים בשתי קהילות שונות. אם בעבר, לבקשות מימון מקהילה א' הייתה פי שישה יותר סבירות להגיע לחדלות פירעון מאשר לבקשות מימון מקהילה ב', יכול להיות שהמודל ילמד הטיה היסטורית וכתוצאה מכך יהיה פחות סיכוי לאשר בקשות מימון מקהילה א', גם אם התנאים ההיסטוריים שהובילו לשיעורי חדלות הפירעון הגבוהים יותר בקהילה הזו כבר לא רלוונטיים.

למידע נוסף, אפשר לקרוא את המאמר צדק: סוגים של הטיה במדריך למתחילים בנושא למידת מכונה.

I

הטיה מרומזת

#fairness

יצירת שיוך או הנחה באופן אוטומטי על סמך המודלים והזיכרונות של המוח. דעות קדומות משתמעות יכולות להשפיע על הגורמים הבאים:

  • איך הנתונים נאספים ומסווגים.
  • איך מתכננים ומפתחים מערכות של למידת מכונה.

לדוגמה, כשמפתחים סיווג לזיהוי תמונות חתונה, מהנדס יכול להשתמש בנוכחות של שמלה לבנה בתמונה כתכונה. עם זאת, שמלות לבנות היו נהוגות רק בתקופות מסוימות ובתרבויות מסוימות.

כדאי לעיין גם במאמר בנושא הטיית אישור.

אי-תאימות של מדדי הוגנות

#fairness

הרעיון שחלק מהמושגים של הוגנות לא תואמים זה לזה, ואי אפשר לעמוד בהם בו-זמנית. כתוצאה מכך, אין מדד אוניברסלי יחיד למדידה של הוגנות שאפשר להחיל על כל הבעיות של למידת המכונה.

יכול להיות שזה נשמע מייאש, אבל חוסר התאימות של מדדי הצדק לא מעיד על כך שהמאמצים לשמירה על הצדק לא מניבים תוצאות. במקום זאת, מוצע להגדיר את הצדק בהקשר של בעיה נתונה של למידת מכונה, במטרה למנוע נזקים ספציפיים לתרחישים לדוגמה שלה.

לסקירה מפורטת יותר בנושא הזה, אפשר לעיין במאמר On the (im)possibility of fairness.

הוגנות אישית

#fairness

מדד הוגנות שבודק אם אנשים דומים מסווגים באופן דומה. לדוגמה, בית הספר Brobdingnagian Academy עשוי לרצות לשמור על הוגנות אישית על ידי הבטחת הסיכוי שווה של שני תלמידים עם ציונים זהים בבחינות סטנדרטיות להתקבל לבית הספר.

חשוב לזכור שצדק מותאם אישית תלוי לחלוטין באופן שבו מגדירים את 'הדמיון' (במקרה הזה, ציונים במבחנים ובחנים), ויש סיכון להוספת בעיות חדשות של צדק אם מדד הדמיון מחמיץ מידע חשוב (למשל, רמת הקושי של תוכנית הלימודים של התלמיד/ה).

במאמר 'שוויון באמצעות מודעוּת' מפורטת דיון מפורט יותר בנושא שוויון בין פרטים.

הטיה לטובת הקבוצה

#fairness

העדפה של הקבוצה שלכם או של המאפיינים שלכם. אם הבוחנים או המבקרים הם חברים, בני משפחה או עמיתים לעבודה של מפתח למידת המכונה, הטיה פנימית בקבוצה עלולה לפסול את בדיקת המוצר או את מערך הנתונים.

הטיה לטובת הקבוצה היא סוג של הטיה של שיוך לקבוצה. אפשר לעיין גם במאמר בנושא הטיה של הומוגניות בקבוצה חיצונית.

למידע נוסף, ראו צדק: סוגי הטיות במדריך למתחילים בנושא למידת מכונה.

לא

הטיה של אי-תגובה

#fairness

ראו הטיה של תהליך הבחירה.

O

הטיה של הומוגניות בקבוצה החיצונית

#fairness

הנטייה לראות אנשים מחוץ לקבוצה שלכם דומים יותר זה לזה מאשר אנשים בקבוצה שלכם, כשמשווים בין עמדות, ערכים, מאפייני אישיות ומאפיינים אחרים. בקבוצה מתייחס לאנשים שיש לכם אינטראקציה איתם באופן קבוע, ומחוץ לקבוצה מתייחס לאנשים שאין לכם אינטראקציה איתם באופן קבוע. אם תיצרו מערך נתונים על ידי בקשה מאנשים לספק מאפיינים של קבוצות חיצוניות, יכול להיות שהמאפיינים האלה יהיו פחות מורכבים ויותר סטראוטיפיים מאשר המאפיינים שהמשתתפים יציינו לגבי אנשים בקבוצה שלהם.

לדוגמה, תושבי ליליפוט עשויים לתאר את הבתים של תושבי ליליפוט אחרים בפירוט רב, תוך ציון הבדלים קטנים בסגנונות הארכיטקטוניים, בחלונות, בדלתות ובגדלים. עם זאת, אותם ליליפוטים עשויים פשוט להצהיר שכל תושבי ברודינגנז חיים בבתים זהים.

הטיה של הומוגניות בקבוצה חיצונית היא סוג של הטיה של שיוך לקבוצה.

אפשר לעיין גם במאמר בנושא הטיה לטובת הקבוצה.

P

הטיית השתתפות

#fairness

מונח נרדף לנטייה לא לענות. ראו הטיה של תהליך הבחירה.

עיבוד תמונה (Post Processing)

#fairness
#fundamentals

שינוי הפלט של מודל אחרי ההרצה שלו. אפשר להשתמש בעיבוד נתונים לאחר העיבוד כדי לאכוף אילוצים של הוגנות בלי לשנות את המודלים עצמם.

לדוגמה, אפשר להחיל עיבוד נתונים לאחר תהליך למסווג בינארי על ידי הגדרת סף סיווג כך ששוויון הזדמנויות יישמר למאפיין מסוים, על ידי בדיקה ששיעור החיובים האמיתיים זהה לכל הערכים של המאפיין הזה.

תאימות חזוי

#fairness

מדד הוגנות שבודק אם, למסווג נתון, שיעורי הדיוק זהים בקבוצות המשנה שנבדקות.

לדוגמה, מודל שמתבסס על נתונים היסטוריים כדי לחזות את הסיכוי להתקבל לקולג' יעמוד בקריטריון של שוויון חיזוי לפי לאום אם שיעור הדיוק שלו זהה לזה של נתונים היסטוריים לגבי סטודנטים ממדינות שונות.

'התאמה חזותית חזותית' נקראת לפעמים גם התאמה חזותית חזותית.

לסקירה מפורטת יותר על שוויון חיזוי, אפשר לעיין בקטע הסבר על הגדרות של הוגנות (סעיף 3.2.1).

שיעור חליפין חזוי

#fairness

שם נוסף להתאמה חזוי.

עיבוד מראש

#fairness
עיבוד נתונים לפני שהם משמשים לאימון מודל. עיבוד מקדים יכול להיות פשוט כמו הסרת מילים ממאגר טקסט באנגלית שלא מופיעות במילון האנגלי, או מורכב כמו ביטוי מחדש של נקודות נתונים באופן שמבטל כמה שיותר מאפיינים שיש להם מתאם עם מאפיינים רגישים. עיבוד מקדים יכול לעזור לעמוד באילוצים של הוגנות.

שרת proxy (מאפיינים רגישים)

#fairness
מאפיין שמשמש כתחליף למאפיין רגיש. לדוגמה, יכול להיות שהמיקוד של אדם ישמש כסמל לנתונים כמו ההכנסה, הגזע או האתניות שלו.

R

הטיית דיווח

#fairness

העובדה שתדירות הכתיבה של אנשים על פעולות, תוצאות או נכסים לא משקפת את התדירויות שלהם בעולם האמיתי או את מידת המאפיין של נכס מסוים לקבוצה של אנשים. הטיה בדיווח על נתונים יכולה להשפיע על ההרכב של הנתונים שמערכות למידת המכונה לומדות מהם.

לדוגמה, בספרים המילה צחק נפוצה יותר מהמילה נשם. מודל למידת מכונה שמעריך את התדירות היחסית של צחוק ונשימה מתוך מאגר של ספרים, סביר להניח שיגיע למסקנה שהצחוק נפוץ יותר מהנשימה.

S

הטיה בדגימה

#fairness

ראו הטיה של תהליך הבחירה.

הטיית בחירה

#fairness

שגיאות במסקנות שנגזרות מנתונים שנדגמו, כתוצאה מתהליך בחירה שיוצר הבדלים שיטתיים בין דגימות שנצפו בנתונים לבין דגימות שלא נצפו. אלה סוגי הטיה הבחירה הקיימים:

  • הטיית כיסוי: האוכלוסייה שמיוצגת במערך הנתונים לא תואמת לאוכלוסייה שלגביה מודל למידת המכונה מבצע חיזויים.
  • הטיה במדגם: הנתונים לא נאספים באופן אקראי מקבוצת היעד.
  • הטיה של אי-תגובה (שנקראת גם הטיה של השתתפות): משתמשים מקבוצות מסוימות מבטלים את ההסכמה להשתתף בסקר בשיעורים שונים מאשר משתמשים מקבוצות אחרות.

לדוגמה, נניח שאתם יוצרים מודל למידת מכונה שמתבסס על נתונים כדי לחזות את מידת ההנאה של אנשים מסרט. כדי לאסוף נתוני אימון, מחלקים סקר לכל מי שבשורה הראשונה באולם הקולנוע שבו מוצג הסרט. נשמע שזו דרך הגיונית לאסוף מערך נתונים, אבל צורת איסוף הנתונים הזו עלולה להוביל לבעיות הבאות של הטיה:

  • הטיה של כיסוי: כשמשתמשים במדגם מתוך אוכלוסייה שבחרה לצפות בסרט, יכול להיות שהתחזיות של המודל לא יהיו כלליות לאנשים שלא הביעו עדיין את רמת העניין הזו בסרט.
  • הטיה בדגימה: במקום לדגום באופן אקראי מתוך האוכלוסייה המיועדת (כל האנשים שצפו בסרט), דגמתם רק את האנשים בשורה הראשונה. יכול להיות שהאנשים בישיבה בשורה הראשונה התעניינו יותר בסרט מאשר אנשים בשורות אחרות.
  • הטיה של אי-תגובה: באופן כללי, אנשים עם דעות חזקות נוטים להשיב לסקרי אופציונליים בתדירות גבוהה יותר מאנשים עם דעות מתונות. מכיוון שהסקר על הסרט הוא אופציונלי, סביר יותר שהתשובות ייצרו התפלגות דו-מוקדית מאשר התפלגות רגילה (בצורת פעמון).

מאפיין רגיש

#fairness
מאפיין אנושי שעשוי לקבל עדיפות מיוחדת מסיבות משפטיות, מוסריות, חברתיות או אישיות.

U

חוסר מודעוּת (למאפיין רגיש)

#fairness

מצב שבו מאפיינים רגישים נמצאים, אבל לא נכללים בנתוני האימון. מאפיינים רגישים נוטים להיות בקורלציה למאפיינים אחרים של הנתונים, ולכן מודל שהוכשרה בלי לדעת על מאפיין רגיש עדיין יכול להשפיע באופן שונה על המאפיין הזה, או להפר אילוצים אחרים של הוגנות.