הוגנות: זיהוי הטיה

כשמכינים את הנתונים לאימון מודלים ולהערכה, חשוב לזכור נושאים של הוגנות ולבדוק את המקורות הפוטנציאליים הטיה, ניתן לצמצם באופן יזום את ההשפעות שלו לפני שחרור המודל בסביבת הייצור.

איפה הטיה עלולה להסתגל? הנה כמה נורות אדומות שחשוב לחפש במערך הנתונים.

חסרים ערכים של תכונות

אם מערך הנתונים כולל תכונה אחת או יותר שחסרים להם ערכים עבור מאפיין גדול מספר דוגמאות, שיכול להיות סימן לכך שמאפיינים מרכזיים מסוימים של מערך הנתונים לא מיוצגים מספיק.

תרגיל: בדקו את ההבנה שלכם

אתם מאמנים מודל כדי לחזות את יכולת השימוש של כלבי הצלה מגוון תכונות, כולל גזע, גיל, משקל, מזג אוויר, ואת כמות הפרווה של הפרווה בכל יום. המטרה שלכם היא לוודא שהמודל ביצועים טובים באותה מידה בקרב כל סוגי הכלבים, ללא קשר לכושר הפיזי שלהם. או מאפיינים התנהגותיים

גיליתם ש-1,500 מתוך 5,000 הדוגמאות במערך האימון חסרים ערכי מזג אוויר. אילו מהמקורות הבאים הם מקורות פוטנציאליים הטיה שכדאי לחקור?

סביר להניח שנתוני מזג האוויר יהיו חסרים בגזעים מסוימים של כלבים.
אם הזמינות של נתוני הטמפרטורה תואמת לגזע הכלבים, עשויות להיות תחזיות פחות מדויקות לגבי יכולת ההטמעה מגזעים מסוימים של כלבים.
סביר להניח שלא יהיו נתונים על מזג האוויר לכלבים מתחת לגיל 12 חודשים
אם הזמינות של נתוני מזג האוויר תואמת לגיל, אז כתוצאה מכך, יכולות להיות תחזיות פחות מדויקות לגבי יכולת ההטמעה גורים לעומת כלבים בוגרים.
נתוני מזג האוויר חסרים לגבי כל הכלבים שניצלו מערים גדולות.
במבט ראשון, יכול להיות שלא נראה שמדובר במקור פוטנציאלי של הטיה, כי הנתונים החסרים ישפיעו על כל הכלבים בערים באופן שווה, ללא קשר לגזע, לגיל, למשקל וכו'. עם זאת, אנחנו עדיין צריכים לחשוב על המיקום שממנו כלב עשוי לשמש בפועל כנציג למאפיינים. לדוגמה, אם כלבים מערים גדולות להיות קטנים באופן משמעותי מכלבים באזורים כפריים יותר מה שעלול להוביל לתחזיות פחות מדויקות לגבי יכולת ההטמעה. לכלבים במשקל נמוך או לגזעים מסוימים של כלבים קטנים.
נתוני מזג האוויר חסרים במערך הנתונים באופן אקראי.
אם נתוני מזג האוויר באמת חסרים באקראי, אז לא מקור פוטנציאלי להטיה. אבל יכול להיות שגם ייתכן שייראה שחסרים נתונים באופן אקראי, אך בדיקה נוספת עשוי להסביר את הפער. לכן חשוב לבצע בדיקה מעמיקה כדי לשלול אפשרויות אחרות, מניחים שפערי הנתונים הם אקראיים.

ערכי תכונות לא צפויים

כשבוחנים נתונים, צריך גם לחפש דוגמאות שכוללות ערכים של תכונות שמתבלטות כלא אופייניות או יוצאות דופן. התכונות הבלתי צפויות האלה יכולים להצביע על בעיות שקרו במהלך איסוף הנתונים אי דיוקים שעלולים ליצור הטיה.

תרגיל: בדקו את ההבנה שלכם

עיינו במערך ההיפותטי הבא של דוגמאות לאימון כלב הצלה סנטימנטים להטמעה.

גזע גיל (שנים) משקל (פאונד) מזג shedding_level
פודל צעצוע 2 12 מרגש נמוך
גולדן רטריבר 7 65 רגוע גבוה
לברדור רטריבר 35 73 רגוע גבוה
בולדוג צרפתי 0.5 11 רגוע בינונית
גזע מעורב לא ידוע 4 45 מרגש גבוה
כלב באסט 9 48 רגוע בינונית
האם אתם יכולים לזהות בעיות כלשהן בנתוני התכונה?
אפשר ללחוץ כאן כדי לראות את התשובה

הטיית נתונים

כל סוג של סטייה בנתונים, שבה קבוצות או מאפיינים מסוימים עשויים להיות אם יש להם ייצוג יתר או ייצוג יתר ביחס לשכיחות שלהם בעולם האמיתי, הם יכולים ליצור הטיה במודל שלכם.

כשבודקים את ביצועי המודל, חשוב לא רק לבחון את התוצאות במצטבר, אבל להציג את התוצאות לפי תת-קבוצות. לדוגמה, במקרה של כדי לשמור על הוגנות, זה לא מספיק כדי לשמור על הוגנות. פשוט לבחון את הדיוק הכולל. אנחנו צריכים גם לבדוק את הביצועים לפי תת-קבוצות כדי לוודא שהמודל מניב ביצועים טובים באותה מידה לכל גזע של כלבים, קבוצת גיל, קבוצת מידות.

בהמשך יחידת הלימוד הזו, בקטע הערכה מתוך דעות קדומות, לבחון שיטות שונות להערכה של מודלים לפי תת-קבוצות.