בדף הזה מופיעים מונחים במילון המונחים של AI אחראי. כאן אפשר לראות את כל המונחים במילון המונחים.
A
מאפיין
מילה נרדפת לתכונה.
בהקשר של הוגנות בלמידת מכונה, מאפיינים מתייחסים לרוב למאפיינים שקשורים לאנשים פרטיים.
הטיית אוטומציה
מצב שבו מקבל החלטות אנושי מעדיף המלצות שנוצרו על ידי מערכת אוטומטית לקבלת החלטות על פני מידע שנוצר ללא אוטומציה, גם כשהמערכת האוטומטית לקבלת החלטות מבצעת טעויות.
מידע נוסף זמין במאמר הוגנות: סוגי הטיה בסדנת מבוא ללמידת מכונה.
B
הטיה (אתיקה/הוגנות)
1. הצגת סטריאוטיפים, דעות קדומות או העדפה של דברים, אנשים או קבוצות מסוימים על פני אחרים. ההטיות האלה יכולות להשפיע על איסוף הנתונים ועל הפרשנות שלהם, על עיצוב המערכת ועל האופן שבו המשתמשים מבצעים אינטראקציה עם המערכת. דוגמאות להטיות מסוג זה:
- הטיית אוטומציה
- הטיית אישור
- הטיה של עורכי הניסוי
- הטיה בשיוך לקבוצה
- הטיה מרומזת
- הטיה לטובת קבוצת השייכות
- הטיית הומוגניות של קבוצת חוץ
2. שגיאה שיטתית שנובעת מהליך דגימה או דיווח. דוגמאות להטיות מסוג זה:
לא להתבלבל עם מונח ההטיה במודלים של למידת מכונה או עם הטיה בתחזית.
מידע נוסף זמין במאמר הוגנות: סוגי הטיה בקורס המזורז ללימוד מכונת למידה.
C
הטיית אישור
הנטייה לחפש מידע, לפרש אותו, להעדיף אותו ולזכור אותו באופן שמחזק את האמונות או ההשערות הקיימות של האדם. יכול להיות שמפתחים של למידת מכונה יאספו או יתייגו נתונים בדרכים שישפיעו על התוצאה ויאשרו את האמונות הקיימות שלהם. הטיית אישור היא סוג של הטיה מרומזת.
הטיה של עורכי ניסויים היא סוג של הטיית אישור שבה עורך ניסויים ממשיך לאמן מודלים עד שמאושרת השערה קיימת.
הוגנות קונטרה-פקטואלית
מדד הוגנות שבודק אם מודל סיווג מפיק את אותה תוצאה עבור אדם מסוים כמו עבור אדם אחר זהה, למעט מאפיינים רגישים מסוימים. הערכה של מודל סיווג מבחינת הוגנות קונטרה-פקטואלית היא שיטה אחת לחשיפת מקורות פוטנציאליים של הטיה במודל.
מידע נוסף זמין במאמרים הבאים:
- הוגנות: הוגנות מנוגדת לעובדות בקורס המקוצר על למידת מכונה.
- When Worlds Collide: Integrating Different Counterfactual Assumptions in Fairness
הטיית כיסוי
ראו הטיית בחירה.
D
שוויון דמוגרפי
מדד הוגנות שמתקיים אם תוצאות הסיווג של המודל לא תלויות במאפיין רגיש נתון.
לדוגמה, אם גם אנשי ליליפוט וגם אנשי ברובדינגנאג מגישים בקשה להתקבל לאוניברסיטת גלאבדאבדריב, מתקבלת שוויון דמוגרפי אם אחוז אנשי ליליפוט שהתקבלו זהה לאחוז אנשי ברובדינגנאג שהתקבלו, ללא קשר לשאלה אם קבוצה אחת מוסמכת יותר מהשנייה בממוצע.
ההגדרה הזו שונה מסיכויים שווים ומשוויון הזדמנויות, שמאפשרות לתוצאות הסיווג הכוללות להיות תלויות במאפיינים רגישים, אבל לא מאפשרות לתוצאות הסיווג של תוויות אמת בסיסית מסוימות להיות תלויות במאפיינים רגישים. במאמר "Attacking discrimination with smarter machine learning" (התמודדות עם אפליה באמצעות למידת מכונה חכמה יותר) מוצג תרשים שממחיש את היתרונות והחסרונות של אופטימיזציה להשגת שוויון דמוגרפי.
מידע נוסף זמין במאמר בנושא הוגנות: שוויון דמוגרפי בקורס המקוצר על למידת מכונה.
השפעה שונה
קבלת החלטות לגבי אנשים שמשפיעות באופן לא פרופורציונלי על קבוצות משנה שונות באוכלוסייה. בדרך כלל הכוונה היא למצבים שבהם תהליך אלגוריתמי של קבלת החלטות פוגע בקבוצות משנה מסוימות יותר מאחרות, או מועיל להן יותר מאשר לאחרות.
לדוגמה, נניח שיש אלגוריתם שקובע אם אדם זכאי להלוואה לרכישת בית זעיר. סביר יותר שהאלגוריתם יסווג את האדם כ'לא זכאי' אם כתובת למשלוח דואר שלו מכילה מיקוד מסוים. אם לליליפוטים מסוג Big-Endian יש סיכוי גבוה יותר לכתובות למשלוח עם המיקוד הזה מאשר לליליפוטים מסוג Little-Endian, יכול להיות שהאלגוריתם הזה יגרום להשפעה לא פרופורציונלית.
הגדרה זו שונה מיחס מפלה, שמתמקדת בפערים שנוצרים כשמאפיינים של תת-קבוצה הם קלט מפורש לתהליך קבלת החלטות אלגוריתמי.
יחס שונה
הכללת מאפיינים רגישים של נושאים בתהליך קבלת החלטות אלגוריתמי, כך שקבוצות משנה שונות של אנשים מקבלות יחס שונה.
לדוגמה, נניח שיש אלגוריתם שקובע אם אנשים מליליפוט זכאים להלוואה לרכישת בית מיניאטורי על סמך הנתונים שהם מספקים בבקשת ההלוואה. אם האלגוריתם משתמש בנתונים משוייכים של תושב ליליפוט כ-Big-Endian או כ-Little-Endian כקלט, הוא מבצע אפליה לאורך הממד הזה.
ההגדרה הזו שונה מהשפעה לא פרופורציונלית, שמתמקדת בפערים בהשפעות החברתיות של החלטות אלגוריתמיות על קבוצות משנה, בלי קשר לשאלה אם קבוצות המשנה האלה הן נתוני קלט למודל.
E
שוויון הזדמנויות
מדד הוגנות להערכת היכולת של המודל לחזות את התוצאה הרצויה באופן שווה לכל הערכים של מאפיין רגיש. במילים אחרות, אם התוצאה הרצויה של מודל היא הסיווג החיובי, המטרה היא ששיעור החיוביים האמיתיים יהיה זהה לכל הקבוצות.
שוויון הזדמנויות קשור לסיכויים שווים, שדורש שגם שיעורי ה-TRUE האמיתיים וגם שיעורי ה-FALSE הכוזבים יהיו זהים בכל הקבוצות.
נניח שבאוניברסיטת גלאבדאבדריב מתקבלים ללימודי מתמטיקה גם ליליפוטים וגם ברובדינגנאגים. בבתי הספר התיכוניים של ליליפוט מוצעת תוכנית לימודים מקיפה של שיעורי מתמטיקה, ורוב התלמידים עומדים בדרישות של התוכנית האוניברסיטאית. בבתי הספר התיכוניים בברובדינגנאג לא מוצעים שיעורי מתמטיקה בכלל, וכתוצאה מכך, הרבה פחות תלמידים עומדים בדרישות. התנאי של שוויון הזדמנויות מתקיים לגבי התווית המועדפת 'התקבל/ה' בהקשר של לאום (ליליפוט או ברובדינגנאג) אם לתלמידים שעומדים בדרישות יש סיכוי שווה להתקבל, בלי קשר ללאום שלהם (ליליפוט או ברובדינגנאג).
לדוגמה, נניח ש-100 אנשים מליליפוט ו-100 אנשים מברובדינגנאג הגישו בקשה להתקבל לאוניברסיטת גלובדאבדריב, וההחלטות לגבי הקבלה מתקבלות באופן הבא:
טבלה 1. מועמדים קטנים מאוד (90% מהם עומדים בדרישות)
| כשירים | לא מתאים | |
|---|---|---|
| התקבל | 45 | 3 |
| נדחה | 45 | 7 |
| סה"כ | 90 | 10 |
|
אחוז הסטודנטים שעומדים בדרישות והתקבלו: 45/90 = 50% אחוז הסטודנטים שלא עומדים בדרישות ונדחו: 7/10 = 70% האחוז הכולל של סטודנטים מליליפוט שהתקבלו: (45+3)/100 = 48% |
||
טבלה 2. מועמדים גדולים מאוד (10% כשירים):
| כשירים | לא מתאים | |
|---|---|---|
| התקבל | 5 | 9 |
| נדחה | 5 | 81 |
| סה"כ | 10 | 90 |
|
אחוז הסטודנטים שעומדים בדרישות שהתקבלו: 5/10 = 50% אחוז הסטודנטים שלא עומדים בדרישות שנדחו: 81/90 = 90% אחוז הסטודנטים הכולל מ-Brobdingnag שהתקבלו: (5+9)/100 = 14% |
||
הדוגמאות הקודמות עומדות בדרישה לשוויון הזדמנויות לקבלה של תלמידים שעומדים בדרישות, כי גם לליליפוטים וגם לברובדינגנאגים שעומדים בדרישות יש סיכוי של 50% להתקבל.
למרות שהשוויון בהזדמנויות מתקיים, שני מדדי ההוגנות הבאים לא מתקיימים:
- שוויון דמוגרפי: שיעורי הקבלה של ליליפוטים ושל ברובדינגנאגים לאוניברסיטה שונים; 48% מהסטודנטים הליליפוטים מתקבלים, אבל רק 14% מהסטודנטים הברובדינגנאגים מתקבלים.
- סיכויים שווים: לתלמידים זכאים מליליפוט ומברובדינגנאג יש סיכוי שווה להתקבל, אבל התנאי הנוסף שלפיו לתלמידים לא זכאים מליליפוט ומברובדינגנאג יש סיכוי שווה להידחות לא מתקיים. שיעור הדחייה של ליליפוטים לא מוסמכים הוא 70%, לעומת 90% של ברובדינגנאגים לא מוסמכים.
מידע נוסף זמין במאמר הוגנות: שוויון הזדמנויות בקורס Machine Learning Crash Course.
הסתברות שווה
מדד הוגנות שנועד להעריך אם מודל חוזה תוצאות באותה רמת דיוק לכל הערכים של מאפיין רגיש ביחס לסיווג החיובי ולסיווג השלילי – ולא רק ביחס לסיווג אחד. במילים אחרות, גם שיעור החיוביים האמיתיים וגם שיעור השליליים הכוזבים צריכים להיות זהים בכל הקבוצות.
הסיכויים שווים קשורים לשוויון הזדמנויות, שמתמקד רק בשיעורי השגיאות עבור סיווג יחיד (חיובי או שלילי).
לדוגמה, נניח שאוניברסיטת גלאבדאבדריב מקבלת לתוכנית לימודים קפדנית במתמטיקה גם ליליפוטים וגם ברובדינגנאגים. בתי הספר התיכוניים של ליליפוט מציעים תוכנית לימודים מקיפה של שיעורי מתמטיקה, ורוב התלמידים עומדים בדרישות של התוכנית האוניברסיטאית. בבתי הספר התיכוניים בברובדינגנאג לא מוצעים שיעורי מתמטיקה בכלל, וכתוצאה מכך, הרבה פחות תלמידים עומדים בדרישות. הקריטריון של סיכויים שווים מתקיים אם הסיכוי של מועמד מתאים להתקבל לתוכנית שווה לסיכוי של מועמד מתאים אחר להתקבל לתוכנית, בלי קשר לגודל שלו (ליליפוט או ברובדינגנאג), והסיכוי של מועמד לא מתאים להידחות שווה לסיכוי של מועמד לא מתאים אחר להידחות.
נניח ש-100 אנשים מליליפוט ו-100 אנשים מברובדינגנאג מגישים בקשה להתקבל לאוניברסיטת גלובדאבדריב, והחלטות הקבלה מתקבלות באופן הבא:
טבלה 3. מועמדים קטנים מאוד (90% מהם עומדים בדרישות)
| כשירים | לא מתאים | |
|---|---|---|
| התקבל | 45 | 2 |
| נדחה | 45 | 8 |
| סה"כ | 90 | 10 |
|
אחוז התלמידים שעומדים בדרישות והתקבלו: 45/90 = 50% אחוז התלמידים שלא עומדים בדרישות ונדחו: 8/10 = 80% האחוז הכולל של תלמידי ליליפוט שהתקבלו: (45+2)/100 = 47% |
||
טבלה 4. מועמדים גדולים מאוד (10% כשירים):
| כשירים | לא מתאים | |
|---|---|---|
| התקבל | 5 | 18 |
| נדחה | 5 | 72 |
| סה"כ | 10 | 90 |
|
אחוז הסטודנטים שעומדים בדרישות והתקבלו: 5/10 = 50% אחוז הסטודנטים שלא עומדים בדרישות ונדחו: 72/90 = 80% אחוז הסטודנטים הכולל מברובדינגנאג שהתקבלו: (5+18)/100 = 23% |
||
ההגדרה 'סיכויים שווים' מתקיימת כי לסטודנטים כשירים מליליפוט ומברובדינגנאג יש סיכוי של 50% להתקבל, ולסטודנטים לא כשירים מליליפוט ומברובדינגנאג יש סיכוי של 80% להידחות.
ההגדרה הפורמלית של סיכויים שווים מופיעה במאמר "Equality of Opportunity in Supervised Learning" (שוויון הזדמנויות בלמידה מפוקחת) באופן הבא: "הערך החזוי Ŷ מקיים סיכויים שווים ביחס לתכונה המוגנת A ולתוצאה Y אם Ŷ ו-A הם בלתי תלויים, בהינתן Y".
הטיה של עורכי הניסוי
F
מגבלת הוגנות
החלת אילוץ על אלגוריתם כדי להבטיח שמתקיימת הגדרה אחת או יותר של הוגנות. דוגמאות למגבלות הוגנות:- עיבוד שלאחר יצירת הפלט של המודל.
- שינוי פונקציית ההפסד כדי לשלב קנס על הפרה של מדד הוגנות.
- הוספה ישירה של אילוץ מתמטי לבעיית אופטימיזציה.
מדד הוגנות
הגדרה מתמטית של 'הוגנות' שאפשר למדוד. דוגמאות למדדי הוגנות הכי רווחיים:
הרבה מדדים של הוגנות הם בלעדיים הדדית. אפשר לעיין באי-התאמה של מדדים של הוגנות.
G
הטיית ייחוס לקבוצה
בהנחה שמה ש-TRUE לגבי אדם מסוים נכון גם לגבי כל האנשים בקבוצה. ההשפעות של הטיית שיוך קבוצתית עלולות להיות חמורות יותר אם משתמשים בדגימה נוחה לאיסוף נתונים. במדגם לא מייצג, יכול להיות שיינתנו שיוכים שלא משקפים את המציאות.
כדאי לעיין גם בהטיה של הומוגניות מחוץ לקבוצה ובהטיה של העדפת קבוצת השייכות. מידע נוסף זמין גם במאמר הוגנות: סוגי הטיה בסדנה המקוונת בנושא למידת מכונה.
H
הטיה היסטורית
סוג של הטיה שכבר קיימת בעולם והגיעה למערך נתונים. ההטיות האלה נוטות לשקף סטריאוטיפים תרבותיים קיימים, אי-שוויון דמוגרפי ודעות קדומות כלפי קבוצות חברתיות מסוימות.
לדוגמה, נניח שיש מודל סיווג שמנבא אם מבקש הלוואה יפגר בתשלומים או לא. המודל הזה אומן על נתונים היסטוריים של פיגורים בתשלומים על הלוואות משנות ה-80 מבנקים מקומיים בשתי קהילות שונות. אם בעבר, הסיכוי של מועמדים מקהילה א' שלא לעמוד בתנאי ההלוואה היה גבוה פי שישה מהסיכוי של מועמדים מקהילה ב', יכול להיות שהמודל ילמד הטיה היסטורית שתגרום לו להיות פחות סביר לאשר הלוואות בקהילה א', גם אם התנאים ההיסטוריים שהובילו לשיעורי ברירת המחדל הגבוהים יותר בקהילה הזו כבר לא רלוונטיים.
מידע נוסף זמין במאמר הוגנות: סוגי הטיה בסדנת מבוא ללמידת מכונה.
I
הטיה מרומזת
יצירת קשר או הנחה באופן אוטומטי על סמך מודלים של תודעה וזיכרונות. הטיה מרומזת יכולה להשפיע על:
- איך הנתונים נאספים ומסווגים.
- איך מערכות למידת מכונה מתוכננות ומפותחות.
לדוגמה, כשבונה מודל סיווג כדי לזהות תמונות חתונה, מהנדס יכול להשתמש בנוכחות של שמלה לבנה בתמונה כמאפיין. עם זאת, שמלות לבנות היו מקובלות רק בתקופות מסוימות ובתרבויות מסוימות.
אפשר לעיין גם במאמר בנושא הטיית אישור.
אי התאמה בין מדדי הוגנות
הרעיון שלפיו חלק מהמושגים של הוגנות לא תואמים זה לזה ולא ניתן לספק אותם בו-זמנית. לכן, אין מדד אוניברסלי יחיד לכמותיות של הוגנות שאפשר להחיל על כל בעיות ה-ML.
יכול להיות שזה נשמע מייאש, אבל חוסר התאמה של מדדי הוגנות לא אומר שהמאמצים להשגת הוגנות הם חסרי תועלת. במקום זאת, הוא מציע להגדיר את ההוגנות בהקשר של בעיה נתונה של למידת מכונה, במטרה למנוע נזקים שספציפיים לתרחישי השימוש שלה.
במאמר "On the (im)possibility of fairness" יש דיון מפורט יותר על חוסר התאימות של מדדי הוגנות.
הוגנות אישית
מדד הוגנות שבודק אם אנשים דומים מסווגים באופן דומה. לדוגמה, יכול להיות שבאקדמיה מסוימת ירצו להבטיח הוגנות אינדיבידואלית, כלומר ששני תלמידים עם ציונים זהים במבחנים סטנדרטיים יקבלו סיכוי שווה להתקבל למוסד.
חשוב לזכור שההוגנות האישית תלויה לחלוטין בהגדרה של 'דמיון' (במקרה הזה, ציונים במבחנים וציונים בלימודים), ויש סיכון ליצירת בעיות חדשות של הוגנות אם מדד הדמיון לא כולל מידע חשוב (כמו רמת הקושי של תוכנית הלימודים של התלמיד).
במאמר "הוגנות באמצעות מודעות" מופיע דיון מפורט יותר בנושא ההוגנות האישית.
הטיה לטובת קבוצת השייכות
העדפה של הקבוצה שאליה משתייכים או של מאפיינים אישיים. אם הבודקים או המדרגים הם חברים, בני משפחה או עמיתים של מפתח הלמידה החישובית, יכול להיות שהטיה בתוך הקבוצה תפסול את בדיקת המוצר או את מערך הנתונים.
הטיה לטובת הקבוצה היא סוג של הטיית ייחוס קבוצתית. אפשר לעיין גם במאמר בנושא הטיית הומוגניות של קבוצת חוץ.
מידע נוסף זמין במאמר הוגנות: סוגי הטיה בקורס המזורז ללימוד מכונת למידה.
לא
הטיית סקר שלא מולא
ראו הטיית בחירה.
O
הטיית הומוגניות של קבוצת חוץ
הנטייה לראות חברים בקבוצה החיצונית כדומים יותר מאשר חברים בקבוצה הפנימית, כשמשווים בין עמדות, ערכים, תכונות אישיות ומאפיינים אחרים. בתוך הקבוצה – אנשים שיש לכם איתם אינטראקציה באופן קבוע; מחוץ לקבוצה – אנשים שאין לכם איתם אינטראקציה באופן קבוע. אם יוצרים מערך נתונים על ידי בקשה מאנשים לספק מאפיינים לגבי קבוצות חיצוניות, יכול להיות שהמאפיינים האלה יהיו פחות מדויקים ויותר סטריאוטיפיים מאשר מאפיינים שהמשתתפים מפרטים לגבי אנשים בקבוצה הפנימית שלהם.
לדוגמה, יכול להיות שאנשים מליליפוט יתארו בפירוט רב את הבתים של אנשים אחרים מליליפוט, ויציינו הבדלים קטנים בסגנונות האדריכלות, בחלונות, בדלתות ובגדלים. אבל יכול להיות שאנשי ליליפוט פשוט יצהירו שכל הענקים בברובדינגנאג חיים בבתים זהים.
הטיית הומוגניות של קבוצה חיצונית היא סוג של הטיית ייחוס לקבוצה.
אפשר לעיין גם במאמר בנושא הטיה לטובת קבוצת השייכות.
P
הטיית השתתפות
מילה נרדפת להטיית סקר שלא מולא. ראו הטיית בחירה.
עיבוד תמונה (Post Processing)
שינוי הפלט של מודל אחרי שהמודל הופעל. אפשר להשתמש בעיבוד שלאחר מכן כדי לאכוף אילוצי הוגנות בלי לשנות את המודלים עצמם.
לדוגמה, אפשר להחיל עיבוד אחרי על מודל סיווג בינארי על ידי הגדרת סף סיווג כך ששוויון הזדמנויות יישמר עבור מאפיין מסוים. כדי לעשות זאת, צריך לוודא ששיעור החיוביים האמיתיים זהה לכל הערכים של אותו מאפיין.
שוויון חיזוי
מדד הוגנות שבודק אם שיעורי הדיוק שווים עבור קבוצות משנה שנבדקות במודל סיווג נתון.
לדוגמה, מודל שמנבא קבלה למכללה יעמוד בדרישות של שוויון חיזוי לפי לאום אם שיעור הדיוק שלו זהה עבור אנשים מליליפוט ואנשים מברובדינגנאג.
לפעמים קוראים לשיטה הזו גם שוויון חזוי בשיעורי ההמרה.
דיון מפורט יותר בנושא שוויון חיזוי זמין במאמר הסבר על הגדרות ההוגנות (סעיף 3.2.1).
השוואת מחירים חזויה
שם נוסף לשוויון חיזוי.
עיבוד מקדים
עיבוד נתונים לפני השימוש בהם לאימון מודל. העיבוד המקדים יכול להיות פשוט כמו הסרת מילים מ קורפוס טקסט באנגלית שלא מופיעות במילון האנגלי, או מורכב כמו שינוי של נקודות נתונים באופן שמבטל כמה שיותר מאפיינים שקשורים למאפיינים רגישים. עיבוד מקדים יכול לעזור לעמוד באילוצי הוגנות.proxy (מאפיינים רגישים)
מאפיין שמשמש כתחליף למאפיין רגיש. לדוגמה, יכול להיות שמיקוד של אדם מסוים ישמש כאינדיקטור לנתונים כמו הכנסה, גזע או מוצא אתני.R
הטיית דיווח
העובדה שהתדירות שבה אנשים כותבים על פעולות, תוצאות או מאפיינים לא משקפת את התדירות שלהם בעולם האמיתי או את המידה שבה מאפיין מסוים מאפיין קבוצה של אנשים. הטיה בדיווח יכולה להשפיע על הרכב הנתונים שמערכות מצב למידה לומדות מהם.
לדוגמה, בספרים, המילה צחק נפוצה יותר מהמילה נשם. מודל למידת מכונה שמעריך את התדירות היחסית של צחוק ונשימה מתוך קורפוס של ספרים, כנראה יקבע שצחוק נפוץ יותר מנשימה.
מידע נוסף זמין במאמר הוגנות: סוגי הטיה בסדנת מבוא ללמידת מכונה.
S
הטיית דגימה
ראו הטיית בחירה.
הטיית בחירה
שגיאות במסקנות שמוסקים מנתונים מדוגמים בגלל תהליך בחירה שמייצר הבדלים שיטתיים בין הדגימות שנצפו בנתונים לבין הדגימות שלא נצפו. אלה סוגי הטיית הבחירה שקיימים:
- הטיה בכיסוי: האוכלוסייה שמיוצגת במערך הנתונים לא תואמת לאוכלוסייה שלגביה מודל למידת המכונה מפיק תחזיות.
- הטיית דגימה: הנתונים לא נאספים באופן אקראי מקבוצת היעד.
- הטיית סקר שלא מולא (נקראת גם הטיית השתתפות): משתמשים מקבוצות מסוימות בוחרים שלא להשתתף בסקרים בשיעורים שונים ממשתמשים מקבוצות אחרות.
לדוגמה, נניח שאתם יוצרים מודל למידת מכונה שמנבא את מידת ההנאה של אנשים מסרט. כדי לאסוף נתונים לאימון, אתם מחלקים שאלון לכל מי שיושב בשורה הראשונה באולם קולנוע שבו מוקרן הסרט. מבלי לחשוב על זה יותר מדי, יכול להיות שזו נראית דרך סבירה לאסוף מערך נתונים. עם זאת, צורת איסוף הנתונים הזו עלולה להוביל להטיות הבחירה הבאות:
- הטיה בכיסוי: אם המודל מתבסס על מדגם של אנשים שבחרו לצפות בסרט, יכול להיות שהתחזיות שלו לא יהיו רלוונטיות לאנשים שלא הביעו עניין ברמה הזו בסרט.
- הטיה בדגימה: במקום לדגום באופן אקראי מתוך האוכלוסייה המיועדת (כל האנשים בסרט), דגמת רק את האנשים בשורה הראשונה. יכול להיות שהאנשים שישבו בשורה הראשונה התעניינו בסרט יותר מאלה שישבו בשורות אחרות.
- הטיה בגלל סקר שלא מולא: באופן כללי, אנשים עם דעות מוצקות נוטים להשיב לסקרים אופציונליים בתדירות גבוהה יותר מאנשים עם דעות מתונות. מכיוון שהשתתפות בסקר על הסרט היא אופציונלית, סביר יותר שהתשובות יצרו התפלגות דו-אופנית ולא התפלגות נורמלית (בצורת פעמון).
מאפיין רגיש
מאפיין אנושי שעשוי לקבל התייחסות מיוחדת מסיבות משפטיות, אתיות, חברתיות או אישיות.U
חוסר מודעות (למאפיין רגיש)
מצב שבו קיימים מאפיינים רגישים, אבל הם לא נכללים בנתוני האימון. מאחר שלעתים קרובות יש קורלציה בין מאפיינים רגישים לבין מאפיינים אחרים בנתונים שלכם, יכול להיות שלמודל שאומן בלי להביא בחשבון מאפיין רגיש עדיין תהיה השפעה לא שוויונית ביחס למאפיין הזה, או שהוא יפר אילוצים אחרים של הוגנות.