Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

מילון מונחים של למידת מכונה: בינה מלאכותית אחראית

הדף הזה מכיל מונחים במילון המונחים של אתיקה של בינה מלאכותית. כאן אפשר לראות את כל המונחים במילון המונחים.

A

מאפיין

#responsible

מילה נרדפת לתכונה.

בנושא ההוגנות בלמידת מכונה, המונח 'מאפיינים' מתייחס בדרך כלל למאפיינים שקשורים לאנשים פרטיים.

הטיית אוטומציה

#responsible

כשמקבל החלטות אנושי מעדיף המלצות שנוצרו על ידי מערכת אוטומטית לקבלת החלטות על פני מידע שנוצר ללא אוטומציה, גם כשהמערכת האוטומטית לקבלת החלטות עושה טעויות.

מידע נוסף זמין במאמר הוגנות: סוגי הטיה בסדנת מבוא ללמידת מכונה.

B

הטיה (אתיקה/הוגנות)

#responsible

#fundamentals

1. הצגת סטריאוטיפים, דעות קדומות או העדפה של דברים, אנשים או קבוצות מסוימים על פני אחרים. ההטיות האלה יכולות להשפיע על איסוף הנתונים ועל הפרשנות שלהם, על עיצוב המערכת ועל האופן שבו המשתמשים מבצעים אינטראקציה עם המערכת. דוגמאות להטיות מסוג זה:

הטיית אוטומציה
הטיית אישור
הטיה של עורכי הניסוי
הטיה בשיוך לקבוצה
הטיה מרומזת
הטיה לטובת קבוצת השייכות
הטיית הומוגניות של קבוצת חוץ

2. שגיאה שיטתית שנובעת מהליך דגימה או דיווח. דוגמאות להטיות מסוג זה:

הטיית כיסוי
הטיית אי-תגובה
הטיית השתתפות
הטיה בדיווח
הטיית דגימה
הטיית בחירה

לא להתבלבל עם מונח ההטיה במודלים של למידת מכונה או עם הטיה בתחזית.

מידע נוסף זמין במאמר הוגנות: סוגי הטיה בקורס המזורז ללימוד מכונת למידה.

C

הטיית אישור

#responsible

הנטייה לחפש מידע, לפרש אותו, להעדיף אותו ולזכור אותו באופן שמחזק את האמונות או ההשערות הקיימות של האדם. יכול להיות שמפתחים של למידת מכונה יאספו או יתייגו נתונים בדרכים שישפיעו על התוצאה ויאשרו את האמונות הקיימות שלהם. הטיית אישור היא סוג של הטיה מרומזת.

הטיית הנסיין היא סוג של הטיית אישור שבה הנסיין ממשיך לאמן מודלים עד שמאושרת השערה קיימת.

הוגנות קונטרה-פקטואלית

#responsible

#Metric

מדד הוגנות שבודק אם מודל סיווג מפיק את אותה תוצאה עבור אדם מסוים כמו עבור אדם אחר שזהה לו, למעט מאפיינים רגישים מסוימים. הערכה של מודל סיווג מבחינת הוגנות קונטרה-פקטואלית היא שיטה אחת לחשיפת מקורות פוטנציאליים של הטיה במודל.

מידע נוסף זמין במאמרים הבאים:

הוגנות: הוגנות מנוגדת לעובדות בקורס המקוצר על למידת מכונה.
When Worlds Collide: Integrating Different Counterfactual Assumptions in Fairness

הטיית כיסוי

#responsible

ראו הטיית בחירה.

D

שוויון דמוגרפי

#responsible

#Metric

מדד הוגנות שמתקיים אם תוצאות הסיווג של מודל לא תלויות במאפיין רגיש נתון.

לדוגמה, אם גם אנשי ליליפוט וגם אנשי ברובדינגנאג מגישים בקשה להתקבל לאוניברסיטת גלובדובדריב, שוויון דמוגרפי מושג אם אחוז אנשי ליליפוט שהתקבלו זהה לאחוז אנשי ברובדינגנאג שהתקבלו, ללא קשר לשאלה אם קבוצה אחת מוסמכת יותר בממוצע מהקבוצה השנייה.

ההגדרה הזו שונה מסיכויים שווים ומשוויון הזדמנויות, שמאפשרות לתוצאות הסיווג הכוללות להיות תלויות במאפיינים רגישים, אבל לא מאפשרות לתוצאות הסיווג של תוויות אמת בסיסית מסוימות להיות תלויות במאפיינים רגישים. במאמר "Attacking discrimination with smarter machine learning" (התמודדות עם אפליה באמצעות למידת מכונה חכמה יותר) מוצג תרשים שממחיש את היתרונות והחסרונות של אופטימיזציה להשגת שוויון דמוגרפי.

מידע נוסף זמין במאמר בנושא הוגנות: שוויון דמוגרפי בקורס המקוצר על למידת מכונה.

השפעה לא פרופורציונלית

#responsible

קבלת החלטות לגבי אנשים שמשפיעות באופן לא פרופורציונלי על קבוצות משנה שונות באוכלוסייה. בדרך כלל הכוונה היא למצבים שבהם תהליך אלגוריתמי של קבלת החלטות פוגע בקבוצות משנה מסוימות יותר מאחרות, או מועיל להן יותר מאשר לאחרות.

לדוגמה, נניח שיש אלגוריתם שקובע אם תושב ליליפוט זכאי להלוואה לרכישת בית זעיר, ושהאלגוריתם הזה נוטה יותר לסווג את התושב כ'לא זכאי' אם כתובת למשלוח דואר שלו מכילה מיקוד מסוים. אם לליליפוטים מסוג Big-Endian יש סיכוי גבוה יותר לכתובות למשלוח עם המיקוד הזה מאשר לליליפוטים מסוג Little-Endian, יכול להיות שהאלגוריתם הזה יגרום להשפעה לא פרופורציונלית.

ההגדרה הזו שונה מיחס מפלה, שמתמקדת בפערים שנוצרים כשמאפיינים של קבוצת משנה הם קלט מפורש לתהליך קבלת החלטות אלגוריתמי.

יחס שונה

#responsible

הכללת מאפיינים רגישים של נושאים בתהליך קבלת החלטות אלגוריתמי, כך שקבוצות משנה שונות של אנשים מקבלות יחס שונה.

לדוגמה, נניח שיש אלגוריתם שקובע אם אנשים מליליפוט זכאים להלוואה לרכישת בית מיניאטורי על סמך הנתונים שהם מספקים בבקשת ההלוואה. אם האלגוריתם משתמש בהשתייכות של תושב ליליפוט כ-Big-Endian או כ-Little-Endian כקלט, הוא מבצע אפליה לאורך הממד הזה.

המושג הזה שונה מהשפעה לא פרופורציונלית, שמתמקד בפערים בהשפעות החברתיות של החלטות אלגוריתמיות על קבוצות משנה, בלי קשר לשאלה אם קבוצות המשנה האלה הן נתוני קלט למודל.

E

שוויון הזדמנויות

#responsible

#Metric

מדד הוגנות להערכת היכולת של המודל לחזות את התוצאה הרצויה באופן שווה לכל הערכים של מאפיין רגיש. במילים אחרות, אם התוצאה הרצויה של מודל היא הסיווג החיובי, המטרה היא ששיעור החיוביים האמיתיים יהיה זהה לכל הקבוצות.

שוויון הזדמנויות קשור לסיכויים שווים, שמשמעותו שגם שיעורי החיוביים האמיתיים וגם שיעורי החיוביים הכוזבים זהים בכל הקבוצות.

נניח שאוניברסיטת גלאבדאבדריב מקבלת לתוכנית לימודים קפדנית במתמטיקה גם ליליפוטים וגם ברובדינגנאגים. בתי הספר התיכוניים של ליליפוט מציעים תוכנית לימודים מקיפה של שיעורי מתמטיקה, ורוב התלמידים עומדים בדרישות של התוכנית האוניברסיטאית. בבתי הספר התיכוניים של ברובדינגנאג לא מוצעים שיעורי מתמטיקה בכלל, וכתוצאה מכך, הרבה פחות תלמידים עומדים בדרישות. התנאי לשוויון הזדמנויות מתקיים לגבי התווית המועדפת 'התקבל' בהתייחס ללאום (ליליפוטי או ברובדינגנאגי) אם לתלמידים שעומדים בדרישות יש סיכוי שווה להתקבל, בלי קשר להיותם ליליפוטים או ברובדינגנאגים.

לדוגמה, נניח ש-100 אנשים מליליפוט ו-100 אנשים מברובדינגנאג הגישו בקשה להתקבל לאוניברסיטת גלובדאבדריב, וההחלטות לגבי הקבלה מתקבלות באופן הבא:

טבלה 1. מועמדים קטנים (90% מהם כשירים)

	כשירים	לא מתאים
התקבל	45	3
נדחה	45	7
סה"כ	90	10
אחוז הסטודנטים שעומדים בדרישות שהתקבלו: 45/90 = 50% אחוז הסטודנטים שלא עומדים בדרישות שנדחו: 7/10 = 70% האחוז הכולל של סטודנטים מליליפוט שהתקבלו: (45+3)/100 = 48%

טבלה 2. מועמדים גדולים מאוד (10% כשירים):

	כשירים	לא מתאים
התקבל	5	9
נדחה	5	81
סה"כ	10	90
אחוז הסטודנטים שעומדים בדרישות שהתקבלו: 5/10 = 50% אחוז הסטודנטים שלא עומדים בדרישות שנדחו: 81/90 = 90% אחוז הסטודנטים הכולל מברובדינגנאג שהתקבלו: (5+9)/100 = 14%

הדוגמאות הקודמות עומדות בדרישה לשוויון הזדמנויות לקבלה של תלמידים שעומדים בדרישות, כי גם לליליפוטים וגם לברובדינגנאגים שעומדים בדרישות יש סיכוי של 50% להתקבל.

למרות שהשוויון בהזדמנויות מתקיים, שני מדדי ההוגנות הבאים לא מתקיימים:

שוויון דמוגרפי: שיעורי הקבלה של ליליפוטים ושל ברובדינגנאגים לאוניברסיטה שונים; 48% מהסטודנטים הליליפוטים מתקבלים, אבל רק 14% מהסטודנטים הברובדינגנאגים מתקבלים.
סיכויים שווים: למרות שלתלמידים זכאים מליליפוט ולתלמידים זכאים מברובדינגנאג יש סיכוי שווה להתקבל, המגבלה הנוספת שלפיה לתלמידים לא זכאים מליליפוט ולתלמידים לא זכאים מברובדינגנאג יש סיכוי שווה להידחות לא מתקיימת. שיעור הדחייה של תושבי ליליפוט לא כשירים הוא 70%, לעומת 90% של תושבי ברובדינגנאג לא כשירים.

מידע נוסף זמין במאמר הוגנות: שוויון הזדמנויות בקורס Machine Learning Crash Course.

הסתברות שווה

#responsible

#Metric

מדד הוגנות שנועד להעריך אם מודל חוזה תוצאות באותה רמת דיוק לכל הערכים של מאפיין רגיש ביחס לסיווג חיובי ולסיווג שלילי – ולא רק ביחס לסיווג אחד. במילים אחרות, גם שיעור החיוביים האמיתיים וגם שיעור השליליים הכוזבים צריכים להיות זהים בכל הקבוצות.

הסיכויים שווים קשורים לשוויון הזדמנויות, שמתמקד רק בשיעורי השגיאות עבור סיווג יחיד (חיובי או שלילי).

לדוגמה, נניח שאוניברסיטת גלובדובדריב מקבלת לתוכנית לימודים קפדנית במתמטיקה גם ליליפוטים וגם ברובדינגנאגים. בתי הספר התיכוניים של ליליפוט מציעים תוכנית לימודים מקיפה של שיעורי מתמטיקה, ורוב התלמידים עומדים בדרישות של התוכנית האוניברסיטאית. בבתי הספר התיכוניים בברובדינגנאג לא מוצעים שיעורי מתמטיקה בכלל, וכתוצאה מכך, הרבה פחות תלמידים עומדים בדרישות. התנאי של סיכויים שווים מתקיים אם למועמדים יש סיכוי שווה להתקבל לתוכנית אם הם עומדים בדרישות, וסיכוי שווה להידחות אם הם לא עומדים בדרישות, בלי קשר לגודל שלהם.

נניח ש-100 אנשים מליליפוט ו-100 אנשים מברובדינגנאג הגישו בקשה להתקבל לאוניברסיטת גלובדאבדריב, וההחלטות לגבי הקבלה מתקבלות באופן הבא:

טבלה 3. מועמדים קטנים (90% מהם כשירים)

	כשירים	לא מתאים
התקבל	45	2
נדחה	45	8
סה"כ	90	10
אחוז התלמידים שעומדים בדרישות והתקבלו: 45/90 = 50% אחוז התלמידים שלא עומדים בדרישות ונדחו: 8/10 = 80% האחוז הכולל של תלמידי ליליפוט שהתקבלו: (45+2)/100 = 47%

טבלה 4. מועמדים גדולים מאוד (10% כשירים):

	כשירים	לא מתאים
התקבל	5	18
נדחה	5	72
סה"כ	10	90
אחוז הסטודנטים שעומדים בדרישות שהתקבלו: 5/10 = 50% אחוז הסטודנטים שלא עומדים בדרישות שנדחו: 72/90 = 80% אחוז הסטודנטים הכולל מברובדינגנאג שהתקבלו: (5+18)/100 = 23%

התנאי של סיכויים שווים מתקיים כי לסטודנטים מליליפוט ומברובדינגנאג שעומדים בדרישות יש סיכוי של 50% להתקבל, ולסטודנטים מליליפוט ומברובדינגנאג שלא עומדים בדרישות יש סיכוי של 80% להידחות.

ההגדרה הפורמלית של סיכויי הצלחה שווים מופיעה במאמר "Equality of Opportunity in Supervised Learning" (שוויון הזדמנויות בלמידה מפוקחת) באופן הבא: "המאפיין המנבא Ŷ עומד בדרישות של סיכויי הצלחה שווים ביחס למאפיין המוגן A ולתוצאה Y אם Ŷ ו-A הם בלתי תלויים, בהינתן Y".

הטיה של עורכי הניסוי

#responsible

מידע נוסף על הטיית אישור

F

מגבלת הוגנות

#responsible

החלת אילוץ על אלגוריתם כדי להבטיח שמתקיימת הגדרה אחת או יותר של הוגנות. דוגמאות למגבלות הוגנות:

עיבוד שלאחר יצירת הפלט של המודל.
שינוי פונקציית ההפסד כדי לשלב קנס על הפרה של מדד הוגנות.
הוספה ישירה של אילוץ מתמטי לבעיית אופטימיזציה.

מדד הוגנות

#responsible

#Metric

הגדרה מתמטית של 'הוגנות' שאפשר למדוד. דוגמאות למדדי הוגנות נפוצים:

equalized odds
שוויון חיזוי
הוגנות מנוגדת לעובדות
שוויון דמוגרפי

הרבה מדדים של הוגנות הם בלעדיים הדדית. אפשר לקרוא על כך במאמר בנושא אי-תאימות של מדדים של הוגנות.

G

הטיית ייחוס לקבוצה

#responsible

הנחה שמה שנכון לגבי אדם מסוים נכון גם לגבי כל האנשים בקבוצה. ההשפעות של הטיית שיוך קבוצתית עלולות להיות חמורות יותר אם משתמשים בדגימה נוחה לאיסוף נתונים. במדגם לא מייצג, יכול להיות שיינתנו שיוכים שלא משקפים את המציאות.

כדאי לעיין גם בהטיה של הומוגניות מחוץ לקבוצה ובהטיה של העדפת קבוצת השייכות. מידע נוסף זמין גם במאמר הוגנות: סוגי הטיה בסדנה המקוונת בנושא למידת מכונה.

H

הטיה היסטורית

#responsible

סוג של הטיה שכבר קיימת בעולם והגיעה למערך נתונים. ההטיות האלה נוטות לשקף סטריאוטיפים תרבותיים קיימים, אי-שוויון דמוגרפי ודעות קדומות כלפי קבוצות חברתיות מסוימות.

לדוגמה, נניח שיש מודל סיווג שמנבא אם מבקש הלוואה יפגר בתשלומים או לא. המודל הזה אומן על נתונים היסטוריים של פיגורים בתשלומים על הלוואות משנות ה-80 מבנקים מקומיים בשתי קהילות שונות. אם בעבר, הסיכוי של מועמדים מקהילה א' שלא לעמוד בתנאי ההלוואה היה גבוה פי שישה מהסיכוי של מועמדים מקהילה ב', יכול להיות שהמודל ילמד הטיה היסטורית שתגרום לו להיות פחות סביר לאשר הלוואות בקהילה א', גם אם התנאים ההיסטוריים שהובילו לשיעורי ברירת המחדל הגבוהים יותר בקהילה הזו כבר לא רלוונטיים.

מידע נוסף זמין במאמר הוגנות: סוגי הטיה בסדנת מבוא ללמידת מכונה.

I

הטיה מרומזת

#responsible

יצירת קשר או הנחה באופן אוטומטי על סמך מודלים של תודעה וזיכרונות. הטיות מובלעות יכולות להשפיע על:

איך הנתונים נאספים ומסווגים.
איך מערכות למידת מכונה מתוכננות ומפותחות.

לדוגמה, כשבונה מודל סיווג כדי לזהות תמונות חתונה, מהנדס יכול להשתמש בנוכחות של שמלה לבנה בתמונה כמאפיין. עם זאת, שמלות לבנות היו מקובלות רק בתקופות מסוימות ובתרבויות מסוימות.

אפשר לעיין גם במאמר בנושא הטיית אישור.

אי התאמה של מדדי הוגנות

#responsible

#Metric

הרעיון שלפיו חלק מהמושגים של הוגנות לא תואמים זה לזה ואי אפשר לספק אותם בו-זמנית. לכן, אין מדד אוניברסלי יחיד לכמותיות של הוגנות שאפשר להחיל על כל בעיות ה-ML.

יכול להיות שזה נשמע מייאש, אבל חוסר התאמה של מדדי הוגנות לא אומר שהמאמצים להשגת הוגנות הם חסרי תועלת. במקום זאת, הוא מציע להגדיר הוגנות בהקשר של בעיה נתונה של למידת מכונה, במטרה למנוע נזקים ספציפיים לתרחישי השימוש שלה.

במאמר "On the (im)possibility of fairness" יש דיון מפורט יותר על חוסר התאימות של מדדי הוגנות.

הוגנות אישית

#responsible

#Metric

מדד הוגנות שבודק אם סיווג של אנשים דומים הוא דומה. לדוגמה, יכול להיות שבאקדמיה בברובדינגנאג ירצו להבטיח הוגנות כלפי כל אחד מהתלמידים, ולכן יקפידו על כך שלשני תלמידים עם ציונים זהים וציונים זהים במבחנים סטנדרטיים יהיה סיכוי שווה להתקבל ללימודים.

חשוב לזכור שההוגנות האישית תלויה לחלוטין בהגדרה של 'דמיון' (במקרה הזה, ציונים במבחנים וציונים בלימודים), ויש סיכון ליצירת בעיות חדשות שקשורות להוגנות אם מדד הדמיון לא כולל מידע חשוב (כמו רמת הקושי של תוכנית הלימודים של התלמיד).

במאמר "הוגנות באמצעות מודעות" מופיע דיון מפורט יותר בנושא ההוגנות האישית.

הטיה לטובת קבוצת השייכות

#responsible

העדפה של הקבוצה שאליה משתייכים או של מאפיינים אישיים. אם הבודקים או המדרגים הם חברים, בני משפחה או עמיתים של מפתח הלמידה החישובית, יכול להיות שהטיה בתוך הקבוצה תפסול את בדיקת המוצר או את מערך הנתונים.

הטיה לטובת הקבוצה היא סוג של הטיית ייחוס לקבוצה. אפשר לעיין גם במאמר בנושא הטיה של הומוגניות מחוץ לקבוצה.

מידע נוסף זמין במאמר הוגנות: סוגי הטיה בקורס המזורז ללימוד מכונת למידה.

לא

הטיית סקר שלא מולא

#responsible

ראו הטיית בחירה.

O

הטיית הומוגניות של קבוצת חוץ

#responsible

הנטייה לראות חברים בקבוצה החיצונית כדומים יותר מאשר חברים בקבוצה הפנימית, כשמשווים בין עמדות, ערכים, תכונות אישיות ומאפיינים אחרים. בתוך הקבוצה מתייחס לאנשים שיש לכם אינטראקציה איתם באופן קבוע; מחוץ לקבוצה מתייחס לאנשים שאין לכם אינטראקציה איתם באופן קבוע. אם יוצרים מערך נתונים על ידי בקשה מאנשים לספק מאפיינים לגבי קבוצות חיצוניות, יכול להיות שהמאפיינים האלה יהיו פחות מורכבים ויותר סטריאוטיפיים מאשר מאפיינים שהמשתתפים מפרטים לגבי אנשים בקבוצה הפנימית שלהם.

לדוגמה, תושבי ליליפוט יכולים לתאר את הבתים של תושבי ליליפוט אחרים בפירוט רב, ולציין הבדלים קטנים בסגנונות האדריכליים, בחלונות, בדלתות ובגדלים. אבל יכול להיות שאותם ליליפוטים פשוט יצהירו שכל תושבי ברובדינגנאג גרים בבתים זהים.

הטיית הומוגניות של קבוצה חיצונית היא סוג של הטיית ייחוס לקבוצה.

אפשר לעיין גם במאמר בנושא הטיה לטובת קבוצת השייכות.

P

הטיית השתתפות

#responsible

מילה נרדפת להטיית סקר שלא מולא. ראו הטיית בחירה.

עיבוד תמונה (Post Processing)

#responsible

#fundamentals

שינוי הפלט של מודל אחרי שהמודל הופעל. אפשר להשתמש בעיבוד שלאחר מכן כדי לאכוף אילוצי הוגנות בלי לשנות את המודלים עצמם.

לדוגמה, אפשר להחיל עיבוד אחרי על מודל סיווג בינארי על ידי הגדרת סף סיווג כך ששוויון הזדמנויות יישמר עבור מאפיין מסוים. כדי לעשות זאת, צריך לוודא ששיעור החיוביים האמיתיים זהה לכל הערכים של אותו מאפיין.

שוויון חזוי

#responsible

#Metric

מדד הוגנות שבודק אם שיעורי הדיוק שווים עבור קבוצות משנה שנבדקות במודל סיווג נתון.

לדוגמה, מודל שמנבא קבלה למכללה יעמוד בדרישות של שוויון חיזוי לפי לאום אם שיעור הדיוק שלו זהה עבור אנשים מליליפוט ואנשים מברובדינגנאג.

לפעמים קוראים לשיטה הזו גם שוויון חזוי בשיעורי ההמרה.

דיון מפורט יותר בנושא שוויון חיזוי זמין במאמר הסבר על הגדרות של הוגנות (סעיף 3.2.1).

השוואת מחירים חזויה

#responsible

#Metric

שם נוסף לשוויון חיזוי.

עיבוד מקדים

#responsible

עיבוד נתונים לפני שהם משמשים לאימון מודל. העיבוד המקדים יכול להיות פשוט כמו הסרת מילים מקורפוס טקסט באנגלית שלא מופיעות במילון האנגלי, או מורכב כמו שינוי של נקודות נתונים באופן שמבטל כמה שיותר מאפיינים שקשורים למאפיינים רגישים. עיבוד מקדים יכול לעזור לעמוד באילוצי הוגנות.

provenance

#responsible

נתונים שמפרטים איך נוצר או שונה תוכן של מדיה דיגיטלית.

proxy (מאפיינים רגישים)

#responsible

מאפיין שמשמש כתחליף למאפיין רגיש. לדוגמה, יכול להיות שמיקוד של אדם מסוים ישמש כפרוקסי לנתונים כמו הכנסה, גזע או מוצא אתני.

R

הטיית דיווח

#responsible

העובדה שהתדירות שבה אנשים כותבים על פעולות, תוצאות או מאפיינים לא משקפת את התדירות שלהם בעולם האמיתי או את המידה שבה מאפיין מסוים מאפיין קבוצה של אנשים. הטיה בדיווח יכולה להשפיע על הרכב הנתונים שמערכות למידת מכונה לומדות מהם.

לדוגמה, בספרים, המילה צחק נפוצה יותר מהמילה נשם. מודל למידת מכונה שמעריך את התדירות היחסית של צחוק ונשימה מתוך קורפוס של ספרים, כנראה יקבע שצחוק נפוץ יותר מנשימה.

מידע נוסף זמין במאמר הוגנות: סוגי הטיה בסדנת מבוא ללמידת מכונה.

S

הטיית דגימה

#responsible

ראו הטיית בחירה.

הטיית בחירה

#responsible

שגיאות במסקנות שמוסקים מנתונים שנלקחו לדוגמה בגלל תהליך בחירה שמייצר הבדלים שיטתיים בין הדוגמאות שנצפו בנתונים לבין אלה שלא נצפו. אלה סוגי הטיית הבחירה שקיימים:

הטיה בכיסוי: האוכלוסייה שמיוצגת במערך הנתונים לא תואמת לאוכלוסייה שלגביה מודל למידת המכונה מפיק תחזיות.
הטיית דגימה: הנתונים לא נאספים באופן אקראי מקבוצת היעד.
הטיית סקר שלא מולא (נקראת גם הטיית השתתפות): משתמשים מקבוצות מסוימות בוחרים שלא להשתתף בסקרים בשיעורים שונים ממשתמשים מקבוצות אחרות.

לדוגמה, נניח שאתם יוצרים מודל למידת מכונה שמנבא את מידת ההנאה של אנשים מסרט. כדי לאסוף נתוני אימון, אתם מחלקים שאלון לכל מי שיושב בשורה הראשונה באולם קולנוע שבו מוקרן הסרט. מבלי לחשוב יותר מדי, יכול להיות שזו נראית דרך סבירה לאיסוף מערך נתונים. עם זאת, שיטת איסוף הנתונים הזו עלולה להוביל להטיות הבחירה הבאות:

הטיה בכיסוי: אם המודל מתבסס על מדגם של אנשים שבחרו לצפות בסרט, יכול להיות שהתחזיות שלו לא יהיו רלוונטיות לאנשים שלא הביעו עניין ברמה הזו בסרט.
הטיה בדגימה: במקום לדגום באופן אקראי מתוך האוכלוסייה המיועדת (כל האנשים בסרט), דגמתם רק את האנשים בשורה הראשונה. יכול להיות שהאנשים שישבו בשורה הראשונה התעניינו בסרט יותר מאלה שישבו בשורות אחרות.
הטיה בגלל אי-היענות: באופן כללי, אנשים עם דעות מוצקות נוטים להשיב לסקרים אופציונליים בתדירות גבוהה יותר מאנשים עם דעות מתונות. מכיוון שהשתתפות בסקר על הסרט היא אופציונלית, סביר יותר שהתשובות יצרו התפלגות דו-אופנית ולא התפלגות נורמלית (בצורת פעמון).

מאפיין רגיש

#responsible

מאפיין אנושי שעשוי לקבל התייחסות מיוחדת מסיבות משפטיות, אתיות, חברתיות או אישיות.

U

חוסר מודעות (למאפיין רגיש)

#responsible

מצב שבו קיימים מאפיינים רגישים, אבל הם לא נכללים בנתוני האימון. מכיוון שלעתים קרובות יש קורלציה בין מאפיינים רגישים לבין מאפיינים אחרים בנתונים של מישהו, יכול להיות שלמודל שאומן בלי להביא בחשבון מאפיין רגיש עדיין תהיה השפעה לא שוויונית ביחס למאפיין הזה, או שהוא יפר אילוצים אחרים של הוגנות.

מילון מונחים של למידת מכונה: בינה מלאכותית אחראית קל לארגן דפים בעזרת אוספים אפשר לשמור ולסווג תוכן על סמך ההעדפות שלך.

A

מאפיין

הטיית אוטומציה

B

הטיה (אתיקה/הוגנות)

C

הטיית אישור

הוגנות קונטרה-פקטואלית

הטיית כיסוי

D

שוויון דמוגרפי

השפעה לא פרופורציונלית

יחס שונה

E

שוויון הזדמנויות

הסתברות שווה

הטיה של עורכי הניסוי

F

מגבלת הוגנות

מדד הוגנות

G

הטיית ייחוס לקבוצה

H

הטיה היסטורית

I

הטיה מרומזת

אי התאמה של מדדי הוגנות

הוגנות אישית

הטיה לטובת קבוצת השייכות

לא

הטיית סקר שלא מולא

O

הטיית הומוגניות של קבוצת חוץ

P

הטיית השתתפות

עיבוד תמונה (Post Processing)

שוויון חזוי

השוואת מחירים חזויה

עיבוד מקדים

provenance

proxy (מאפיינים רגישים)

R

הטיית דיווח

S

הטיית דגימה

הטיית בחירה

מאפיין רגיש

U

חוסר מודעות (למאפיין רגיש)

מילון מונחים של למידת מכונה: בינה מלאכותית אחראית