בדף הזה מופיעים מונחים במילון המונחים של AI אחראי. כאן אפשר לראות את כל המונחים במילון המונחים.
A
מאפיין
מילה נרדפת לתכונה.
בהקשר של הוגנות בלמידת מכונה, מאפיינים מתייחסים לרוב למאפיינים שקשורים לאנשים פרטיים.
הטיית אוטומציה
מצב שבו מקבל החלטות אנושי מעדיף המלצות שנוצרו על ידי מערכת אוטומטית לקבלת החלטות על פני מידע שנוצר ללא אוטומציה, גם כשהמערכת האוטומטית לקבלת החלטות מבצעת טעויות.
מידע נוסף זמין במאמר הוגנות: סוגי הטיה בסדנת מבוא ללמידת מכונה.
B
הטיה (אתיקה/הוגנות)
1. הצגת סטריאוטיפים, דעות קדומות או העדפה של דברים, אנשים או קבוצות מסוימים על פני אחרים. ההטיות האלה יכולות להשפיע על איסוף הנתונים ועל הפרשנות שלהם, על עיצוב המערכת ועל האופן שבו המשתמשים מבצעים אינטראקציה עם המערכת. דוגמאות להטיות מסוג זה:
- הטיית אוטומציה
- הטיית אישור
- הטיה של עורכי הניסוי
- הטיה בשיוך לקבוצה
- הטיה מרומזת
- הטיה לטובת קבוצת השייכות
- הטיה של הומוגניות בקבוצה החיצונית
2. שגיאה שיטתית שנובעת מהליך דגימה או דיווח. דוגמאות להטיות מסוג זה:
לא להתבלבל עם מונח ההטיה במודלים של למידת מכונה או עם הטיה בתחזית.
מידע נוסף זמין במאמר הוגנות: סוגי הטיה בקורס המזורז ללימוד מכונת למידה.
C
הטיית אישור
הנטייה לחפש מידע, לפרש אותו, להעדיף אותו ולזכור אותו באופן שמחזק את האמונות או ההשערות הקיימות של האדם. מפתחים של למידת מכונה עלולים לאסוף או לתייג נתונים בדרכים שמשפיעות על תוצאה שתומכת באמונות הקיימות שלהם. הטיית אישור היא סוג של הטיה מרומזת.
הטיה של עורכי ניסויים היא סוג של הטיית אישור שבה עורך ניסויים ממשיך לאמן מודלים עד שמאושרת השערה קיימת.
הוגנות קונטרה-פקטואלית
מדד הוגנות שבודק אם מודל סיווג מפיק את אותה תוצאה עבור אדם מסוים כמו עבור אדם אחר זהה, למעט מאפיינים רגישים מסוימים. הערכה של מודל סיווג מבחינת הוגנות קונטרה-פקטואלית היא שיטה אחת לזיהוי מקורות פוטנציאליים של הטיה במודל.
מידע נוסף זמין במאמרים הבאים:
- הוגנות: הוגנות מנוגדת לעובדות בקורס המקוצר על למידת מכונה.
- When Worlds Collide: Integrating Different Counterfactual Assumptions in Fairness
הטיית כיסוי
ראו הטיית בחירה.
D
שוויון דמוגרפי
מדד הוגנות שמתקיים אם תוצאות הסיווג של המודל לא תלויות במאפיין רגיש נתון.
לדוגמה, אם גם אנשים מליליפוט וגם אנשים מברובדינגנאג מגישים בקשה להתקבל לאוניברסיטת גלובדובדריב, שוויון דמוגרפי מושג אם אחוז האנשים מליליפוט שהתקבלו זהה לאחוז האנשים מברובדינגנאג שהתקבלו, ללא קשר לשאלה אם קבוצה אחת מוסמכת יותר מהשנייה בממוצע.
ההגדרה הזו שונה מהשוואת סיכויים ושוויון הזדמנויות, שמאפשרות לתוצאות הסיווג הכוללות להיות תלויות במאפיינים רגישים, אבל לא מאפשרות לתוצאות הסיווג של תוויות אמת בסיסית מסוימות להיות תלויות במאפיינים רגישים. במאמר "Attacking discrimination with smarter machine learning" (התמודדות עם אפליה באמצעות למידת מכונה חכמה יותר) מוצג תרשים שממחיש את היתרונות והחסרונות של אופטימיזציה להשגת שוויון דמוגרפי.
מידע נוסף זמין במאמר בנושא הוגנות: שוויון דמוגרפי בקורס המקוצר על למידת מכונה.
השפעה שונה
קבלת החלטות לגבי אנשים שמשפיעות באופן לא פרופורציונלי על קבוצות משנה שונות באוכלוסייה. בדרך כלל מדובר במצבים שבהם תהליך אלגוריתמי של קבלת החלטות פוגע בחלק מקבוצות המשנה יותר מאשר באחרות, או מועיל לחלק מקבוצות המשנה יותר מאשר לאחרות.
לדוגמה, נניח שיש אלגוריתם שקובע אם אדם זכאי להלוואה לרכישת בית זעיר. סביר יותר שהאלגוריתם יסווג את האדם כ'לא זכאי' אם כתובת הדואר שלו מכילה מיקוד מסוים. אם לתושבי ליליפוט שמשתמשים בשיטת Big-Endian יש סיכוי גבוה יותר להשתמש בכתובות למשלוח עם המיקוד הזה מאשר לתושבי ליליפוט שמשתמשים בשיטת Little-Endian, יכול להיות שהאלגוריתם הזה יוביל להשפעה לא פרופורציונלית.
ההגדרה הזו שונה מיחס מפלה, שמתמקדת בפערים שנוצרים כשמאפיינים של קבוצת משנה הם קלט מפורש לתהליך קבלת החלטות אלגוריתמי.
יחס שונה
הכללת מאפיינים רגישים של נושאים בתהליך קבלת החלטות אלגוריתמי, כך שקבוצות משנה שונות של אנשים מקבלות יחס שונה.
לדוגמה, נניח שיש אלגוריתם שקובע אם לתושבי ליליפוט מגיעה הלוואה לרכישת בית מיניאטורי על סמך הנתונים שהם מספקים בבקשת ההלוואה. אם האלגוריתם משתמש בהשתייכות של תושב ליליפוט כ-Big-Endian או כ-Little-Endian כקלט, הוא מבצע אפליה לאורך הממד הזה.
ההגדרה הזו שונה מהשפעה לא פרופורציונלית, שמתמקדת בפערים בהשפעות החברתיות של החלטות אלגוריתמיות על קבוצות משנה, בלי קשר לשאלה אם קבוצות המשנה האלה הן נתוני קלט למודל.
E
שוויון הזדמנויות
מדד הוגנות להערכת היכולת של מודל לחזות את התוצאה הרצויה באופן שווה לכל הערכים של מאפיין רגיש. במילים אחרות, אם התוצאה הרצויה של מודל היא הסיווג החיובי, המטרה היא ששיעור החיוביים האמיתיים יהיה זהה לכל הקבוצות.
שוויון הזדמנויות קשור לסיכויים שווים, שמשמעותו שגם שיעורי החיוביים האמיתיים וגם שיעורי החיוביים הכוזבים זהים בכל הקבוצות.
נניח שאוניברסיטת גלאבדאבדריב מקבלת לתוכנית לימודים קפדנית במתמטיקה גם ליליפוטים וגם ברובדינגנאגים. בתי הספר התיכוניים של ליליפוט מציעים תוכנית לימודים מקיפה של שיעורי מתמטיקה, ורוב התלמידים עומדים בדרישות של התוכנית האוניברסיטאית. בבתי הספר התיכוניים בברובדינגנאג לא מוצעים שיעורי מתמטיקה בכלל, ולכן הרבה פחות תלמידים עומדים בדרישות. הדרישה לשוויון הזדמנויות מתקיימת לגבי התווית המועדפת 'התקבל' בהקשר של לאום (ליליפוט או ברובדינגנאג) אם הסיכוי של תלמידים שעומדים בדרישות להתקבל הוא זהה, בלי קשר ללאום שלהם (ליליפוט או ברובדינגנאג).
לדוגמה, נניח ש-100 אנשים מליליפוט ו-100 אנשים מברובדינגנאג הגישו בקשה להתקבל לאוניברסיטת גלובדאבדריב, וההחלטות לגבי הקבלה מתקבלות באופן הבא:
טבלה 1. מועמדים קטנים (90% מהם עומדים בדרישות)
כשירים | לא מתאים | |
---|---|---|
התקבל | 45 | 3 |
נדחה | 45 | 7 |
סה"כ | 90 | 10 |
אחוז הסטודנטים שעומדים בדרישות והתקבלו: 45/90 = 50% אחוז הסטודנטים שלא עומדים בדרישות ונדחו: 7/10 = 70% האחוז הכולל של סטודנטים מליליפוט שהתקבלו: (45+3)/100 = 48% |
טבלה 2. מועמדים בברובדינגנאג (10% כשירים):
כשירים | לא מתאים | |
---|---|---|
התקבל | 5 | 9 |
נדחה | 5 | 81 |
סה"כ | 10 | 90 |
אחוז הסטודנטים שעומדים בדרישות שהתקבלו: 5/10 = 50% אחוז הסטודנטים שלא עומדים בדרישות שנדחו: 81/90 = 90% אחוז הסטודנטים הכולל מברובדינגנאג שהתקבלו: (5+9)/100 = 14% |
הדוגמאות הקודמות עומדות בדרישה לשוויון הזדמנויות לקבלה של תלמידים שעומדים בדרישות, כי גם לליליפוטים וגם לברובדינגנאגים שעומדים בדרישות יש סיכוי של 50% להתקבל.
למרות שמתקיימת שוויון הזדמנויות, שני מדדי ההוגנות הבאים לא מתקיימים:
- שוויון דמוגרפי: שיעורי הקבלה של ליליפוטים ושל ברובדינגנאגים לאוניברסיטה שונים; 48% מהסטודנטים הליליפוטים מתקבלים, אבל רק 14% מהסטודנטים הברובדינגנאגים מתקבלים.
- סיכויים שווים: לתלמידים זכאים מליליפוט ולתלמידים זכאים מברובדינגנאג יש סיכוי שווה להתקבל, אבל התנאי הנוסף שלפיו לתלמידים לא זכאים מליליפוט ולתלמידים לא זכאים מברובדינגנאג יש סיכוי שווה להידחות לא מתקיים. שיעור הדחייה של Lilliputians לא מוסמכים הוא 70%, לעומת 90% של Brobdingnagians לא מוסמכים.
מידע נוסף זמין במאמר הוגנות: שוויון הזדמנויות בקורס Machine Learning Crash Course.
הסתברות שווה
מדד הוגנות שנועד להעריך אם מודל חוזה תוצאות באותה רמת דיוק לכל הערכים של מאפיין רגיש ביחס לסיווג החיובי ולסיווג השלילי – ולא רק ביחס לסיווג אחד. במילים אחרות, גם שיעור החיוביים האמיתיים וגם שיעור השליליים הכוזבים צריכים להיות זהים בכל הקבוצות.
הסיכויים שווים קשורים לשוויון הזדמנויות, שמתמקד רק בשיעורי השגיאות עבור סיווג יחיד (חיובי או שלילי).
לדוגמה, נניח שאוניברסיטת גלאבדאבדריב מקבלת לתוכנית לימודים קפדנית במתמטיקה גם ליליפוטים וגם ברובדינגנאגים. בתי הספר התיכוניים של ליליפוט מציעים תוכנית לימודים מקיפה של שיעורי מתמטיקה, ורוב התלמידים עומדים בדרישות של התוכנית האוניברסיטאית. בבתי הספר התיכוניים בברובדינגנאג לא מוצעים שיעורי מתמטיקה בכלל, וכתוצאה מכך, הרבה פחות תלמידים עומדים בדרישות. הקריטריון של סיכויים שווים מתקיים אם לכל מועמד, לא משנה אם הוא ליליפוט או ברובדינגנאג, יש סיכוי שווה להתקבל לתוכנית אם הוא עומד בדרישות, וסיכוי שווה להידחות אם הוא לא עומד בדרישות.
נניח ש-100 אנשים מליליפוט ו-100 אנשים מברובדינגנאג הגישו בקשה להתקבל לאוניברסיטת גלובדאבדריב, וההחלטות לגבי הקבלה מתקבלות באופן הבא:
טבלה 3. מועמדים קטנים (90% מהם עומדים בדרישות)
כשירים | לא מתאים | |
---|---|---|
התקבל | 45 | 2 |
נדחה | 45 | 8 |
סה"כ | 90 | 10 |
אחוז התלמידים שעומדים בדרישות והתקבלו: 45/90 = 50% אחוז התלמידים שלא עומדים בדרישות ונדחו: 8/10 = 80% האחוז הכולל של תלמידי ליליפוט שהתקבלו: (45+2)/100 = 47% |
טבלה 4. מועמדים בברובדינגנאג (10% כשירים):
כשירים | לא מתאים | |
---|---|---|
התקבל | 5 | 18 |
נדחה | 5 | 72 |
סה"כ | 10 | 90 |
אחוז הסטודנטים שעומדים בדרישות והתקבלו: 5/10 = 50% אחוז הסטודנטים שלא עומדים בדרישות ונדחו: 72/90 = 80% אחוז הסטודנטים הכולל מברובדינגנאג שהתקבלו: (5+18)/100 = 23% |
התנאי של סיכויים שווים מתקיים כי לסטודנטים מתאימים מליליפוט ומברובדינגנאג יש סיכוי של 50% להתקבל, ולסטודנטים לא מתאימים מליליפוט ומברובדינגנאג יש סיכוי של 80% להידחות.
ההגדרה הפורמלית של סיכויים שווים מופיעה במאמר "Equality of Opportunity in Supervised Learning" (שוויון הזדמנויות בלמידה מפוקחת) באופן הבא: "הערך החזוי Ŷ מקיים סיכויים שווים ביחס לתכונה המוגנת A ולתוצאה Y אם Ŷ ו-A הם בלתי תלויים, בהינתן Y".
הטיה של עורך הניסוי
מידע נוסף על הטיית אישור
F
מגבלת הוגנות
החלת אילוץ על אלגוריתם כדי להבטיח שמתקיימת הגדרה אחת או יותר של הוגנות. דוגמאות למגבלות הוגנות:- עיבוד שלאחר יצירת הפלט של המודל.
- שינוי פונקציית ההפסד כדי לשלב קנס על הפרה של מדד הוגנות.
- הוספה ישירה של אילוץ מתמטי לבעיית אופטימיזציה.
מדד הוגנות
הגדרה מתמטית של 'הוגנות' שאפשר למדוד. דוגמאות למדדי הוגנות נפוצים:
הרבה מדדים של הוגנות הם בלעדיים הדדית. אפשר לעיין באי-התאמה של מדדים של הוגנות.
G
הטיית ייחוס לקבוצה
הנחה שמה שנכון לגבי אדם מסוים נכון גם לגבי כל האנשים בקבוצה הזו. ההשפעות של הטיית שיוך קבוצתית עלולות להיות חמורות יותר אם משתמשים בדגימה נוחה לאיסוף נתונים. במדגם לא מייצג, יכול להיות שיוצגו שיוכים שלא משקפים את המציאות.
כדאי לעיין גם בהטיית הומוגניות של קבוצות חיצוניות ובהטיה לטובת קבוצת הפנים. מידע נוסף זמין גם במאמר הוגנות: סוגי הטיה בקורס המקוצר על למידת מכונה.
H
הטיה היסטורית
סוג של הטיה שכבר קיימת בעולם והגיעה למערך נתונים. ההטיות האלה נוטות לשקף סטריאוטיפים תרבותיים קיימים, אי-שוויון דמוגרפי ודעות קדומות כלפי קבוצות חברתיות מסוימות.
לדוגמה, נניח שיש מודל סיווג שמנבא אם מבקש הלוואה יפגר בתשלומים או לא. המודל הזה אומן על נתונים היסטוריים של פיגורים בתשלומים על הלוואות משנות ה-80 מבנקים מקומיים בשתי קהילות שונות. אם בעבר, הסיכוי שמועמדים מקהילה א' לא יעמדו בהחזר ההלוואות היה פי שישה יותר גבוה מהסיכוי שמועמדים מקהילה ב' לא יעמדו בהחזר ההלוואות, יכול להיות שהמודל ילמד הטיה היסטורית שתגרום לכך שהסיכוי שהמודל יאשר הלוואות בקהילה א' יהיה נמוך יותר, גם אם התנאים ההיסטוריים שהובילו לשיעורי ברירת המחדל הגבוהים יותר בקהילה הזו כבר לא רלוונטיים.
מידע נוסף זמין במאמר הוגנות: סוגי הטיה בסדנת מבוא ללמידת מכונה.
I
הטיה מרומזת
יצירת קשר או הנחה באופן אוטומטי על סמך מודלים של תודעה וזיכרונות. הטיה מרומזת יכולה להשפיע על:
- איך הנתונים נאספים ומסווגים.
- איך מערכות למידת מכונה מתוכננות ומפותחות.
לדוגמה, כשבונה מודל סיווג כדי לזהות תמונות חתונה, מהנדס יכול להשתמש בנוכחות של שמלה לבנה בתמונה כמאפיין. עם זאת, שמלות לבנות היו מקובלות רק בתקופות מסוימות ובתרבויות מסוימות.
אפשר לעיין גם במאמר בנושא הטיית אישור.
אי התאמה בין מדדי הוגנות
הרעיון שלפיו חלק מהמושגים של הוגנות לא תואמים זה לזה ולא ניתן לספק אותם בו-זמנית. לכן, אין מדד אוניברסלי יחיד לכימות ההוגנות שאפשר להחיל על כל בעיות ה-ML.
יכול להיות שזה נשמע מייאש, אבל חוסר התאמה של מדדי הוגנות לא אומר שהמאמצים להשגת הוגנות הם חסרי תועלת. במקום זאת, הוא מציע להגדיר את ההוגנות בהקשר של בעיה נתונה של למידת מכונה, במטרה למנוע נזקים ספציפיים לתרחישי השימוש שלה.
במאמר "On the (im)possibility of fairness" יש דיון מפורט יותר על חוסר התאימות של מדדי הוגנות.
הוגנות אישית
מדד הוגנות שבודק אם אנשים דומים מסווגים באופן דומה. לדוגמה, יכול להיות שב-Brobdingnagian Academy ירצו להבטיח הוגנות אישית, כלומר ששני תלמידים עם ציונים זהים וציונים זהים במבחנים סטנדרטיים יקבלו סיכוי שווה להתקבל ללימודים.
חשוב לזכור שההוגנות האישית תלויה לחלוטין בהגדרה של 'דמיון' (במקרה הזה, ציונים במבחנים וציונים בלימודים), ויש סיכון ליצירת בעיות חדשות של הוגנות אם מדד הדמיון לא כולל מידע חשוב (כמו רמת הקושי של תוכנית הלימודים של התלמיד).
במאמר "הוגנות באמצעות מודעות" מופיע דיון מפורט יותר בנושא ההוגנות האישית.
הטיה לטובת קבוצת השייכות
העדפה של הקבוצה שאליה משתייכים או של מאפיינים אישיים. אם הבודקים או המדרגים הם חברים, בני משפחה או עמיתים של מפתח הלמידה החישובית, יכול להיות שהטיה בתוך הקבוצה תפסול את בדיקת המוצר או את מערך הנתונים.
הטיה לטובת הקבוצה היא סוג של הטיית ייחוס לקבוצה. אפשר לעיין גם במאמר בנושא הטיית הומוגניות של קבוצת חוץ.
מידע נוסף זמין במאמר הוגנות: סוגי הטיה בקורס המזורז ללימוד מכונת למידה.
לא
הטיית אי-היענות
ראו הטיית בחירה.
O
הטיית הומוגניות של קבוצת חוץ
הנטייה לראות חברים בקבוצה החיצונית כדומים יותר מאשר חברים בקבוצה הפנימית, כשמשווים בין עמדות, ערכים, תכונות אישיות ומאפיינים אחרים. בתוך הקבוצה מתייחס לאנשים שיש לכם אינטראקציה איתם באופן קבוע; מחוץ לקבוצה מתייחס לאנשים שאין לכם אינטראקציה איתם באופן קבוע. אם תיצרו מערך נתונים על ידי בקשה מאנשים לספק מאפיינים לגבי קבוצות חיצוניות, יכול להיות שהמאפיינים האלה יהיו פחות מדויקים ויותר סטריאוטיפיים מאשר מאפיינים שהמשתתפים יציינו לגבי אנשים בקבוצה הפנימית שלהם.
לדוגמה, יכול להיות שאנשים מליליפוט יתארו בפירוט רב את הבתים של אנשים אחרים מליליפוט, ויציינו הבדלים קטנים בסגנונות האדריכלות, בחלונות, בדלתות ובגדלים. אבל יכול להיות שאותם ליליפוטים פשוט יצהירו שכל תושבי ברובדינגנאג גרים בבתים זהים.
הטיית הומוגניות של קבוצה חיצונית היא סוג של הטיית ייחוס לקבוצה.
אפשר לעיין גם במאמר בנושא הטיה לטובת קבוצת השייכות.
P
הטיית השתתפות
מילה נרדפת להטיית אי-תגובה. ראו הטיית בחירה.
עיבוד תמונה (Post Processing)
שינוי הפלט של מודל אחרי שהמודל הופעל. אפשר להשתמש בעיבוד שלאחר מכן כדי לאכוף אילוצי הוגנות בלי לשנות את המודלים עצמם.
לדוגמה, אפשר להחיל עיבוד אחרי על מודל סיווג בינארי על ידי הגדרת סף סיווג כך ששוויון הזדמנויות יישמר עבור מאפיין מסוים. כדי לעשות זאת, צריך לוודא ששיעור החיוביים האמיתיים זהה לכל הערכים של אותו מאפיין.
שוויון חזוי
מדד הוגנות שבודק אם שיעורי הדיוק שווים עבור קבוצות משנה שנבדקות במודל סיווג נתון.
לדוגמה, מודל שמנבא קבלה למכללה יעמוד בדרישות של שוויון חיזוי לפי לאום אם שיעור הדיוק שלו יהיה זהה עבור אנשים מליליפוט ואנשים מברובדינגנאג.
לפעמים קוראים לשיטה הזו גם שוויון חזוי בשיעורי ההמרה.
בסעיף 3.2.1 'הסברים על הגדרות ההוגנות' מופיע דיון מפורט יותר בנושא שוויון חיזוי.
השוואת מחירים חזויה
שם נוסף לשוויון חיזוי.
עיבוד מקדים
עיבוד נתונים לפני השימוש בהם לאימון מודל. העיבוד המקדים יכול להיות פשוט כמו הסרת מילים ממאגר טקסט באנגלית שלא מופיעות במילון האנגלי, או מורכב כמו שינוי של נקודות נתונים באופן שמבטל כמה שיותר מאפיינים שקשורים למאפיינים רגישים. עיבוד מקדים יכול לעזור לעמוד במגבלות הוגנות.proxy (מאפיינים רגישים)
מאפיין שמשמש כתחליף למאפיין רגיש. לדוגמה, יכול להיות שמיקוד של אדם מסוים ישמש כפרוקסי לנתונים כמו הכנסה, גזע או מוצא אתני.R
הטיית דיווח
התדירות שבה אנשים כותבים על פעולות, תוצאות או מאפיינים לא משקפת את התדירות שלהם בעולם האמיתי או את המידה שבה מאפיין מסוים מאפיין קבוצה של אנשים. הטיה בדיווח יכולה להשפיע על הרכב הנתונים שמערכות למידת מכונה לומדות מהם.
לדוגמה, בספרים, המילה צחק נפוצה יותר מהמילה נשם. מודל למידת מכונה שמעריך את התדירות היחסית של צחוק ונשימה מתוך קורפוס של ספרים, כנראה יקבע שצחוק נפוץ יותר מנשימה.
מידע נוסף זמין במאמר הוגנות: סוגי הטיה בסדנת מבוא ללמידת מכונה.
S
הטיית דגימה
ראו הטיית בחירה.
הטיית בחירה
שגיאות במסקנות שמוסקים מנתונים מדוגמים בגלל תהליך בחירה שמייצר הבדלים שיטתיים בין הדגימות שנצפו בנתונים לבין הדגימות שלא נצפו. אלה סוגי הטיית הבחירה שקיימים:
- הטיה בכיסוי: האוכלוסייה שמיוצגת במערך הנתונים לא תואמת לאוכלוסייה שלגביה מודל למידת המכונה מפיק תחזיות.
- הטיית דגימה: הנתונים לא נאספים באופן אקראי מקבוצת היעד.
- הטיית אי-תגובה (נקראת גם הטיית השתתפות): משתמשים מקבוצות מסוימות בוחרים שלא להשתתף בסקרים בשיעורים שונים ממשתמשים מקבוצות אחרות.
לדוגמה, נניח שאתם יוצרים מודל למידת מכונה שמנבא את מידת ההנאה של אנשים מסרט. כדי לאסוף נתונים לאימון, אתם מחלקים שאלון לכל מי שיושב בשורה הראשונה באולם קולנוע שבו מוקרן הסרט. יכול להיות שזה נשמע כמו דרך סבירה לאיסוף מערך נתונים, אבל שיטת איסוף הנתונים הזו עלולה להוביל להטיות הבחירה הבאות:
- הטיה בכיסוי: אם המודל מתבסס על מדגם של אנשים שבחרו לצפות בסרט, יכול להיות שהתחזיות שלו לא יהיו רלוונטיות לאנשים שלא הביעו עניין ברמה הזו בסרט.
- הטיה בדגימה: במקום לדגום באופן אקראי מתוך האוכלוסייה המיועדת (כל האנשים בסרט), דגמתם רק את האנשים בשורה הראשונה. יכול להיות שהאנשים שישבו בשורה הראשונה התעניינו בסרט יותר מאלה שישבו בשורות אחרות.
- הטיה בגלל אי-היענות: באופן כללי, אנשים עם דעות מוצקות נוטים להשיב לסקרים אופציונליים בתדירות גבוהה יותר מאנשים עם דעות מתונות. מכיוון שהשתתפות בסקר על הסרט היא אופציונלית, סביר יותר שהתשובות יצרו התפלגות דו-אופנית ולא התפלגות נורמלית (בצורת פעמון).
מאפיין רגיש
מאפיין אנושי שעשוי לקבל התייחסות מיוחדת מסיבות משפטיות, אתיות, חברתיות או אישיות.U
חוסר מודעות (למאפיין רגיש)
מצב שבו קיימים מאפיינים רגישים, אבל הם לא נכללים בנתוני האימון. מאחר שלעתים קרובות יש קורלציה בין מאפיינים רגישים לבין מאפיינים אחרים בנתונים שלכם, יכול להיות שלמודל שאומן בלי להביא בחשבון מאפיין רגיש עדיין תהיה השפעה לא שוויונית ביחס למאפיין הזה, או שהוא יפר אילוצים אחרים של הוגנות.