הוגנות: זיהוי הטיה

כשאתם מכינים את הנתונים לאימון ולבדיקה של המודל, חשוב לשים לב לבעיות של הוגנות ולבדוק אם יש מקורות פוטנציאליים של הטיה, כדי שתוכלו לצמצם באופן יזום את ההשפעות שלהן לפני שתפעילו את המודל בסביבת הייצור.

איפה יכולות להיות הטיות? ריכזנו כאן כמה נורות אדומות שכדאי לחפש במערך הנתונים.

ערכים חסרים של מאפיינים

אם במערך הנתונים יש מאפיין אחד או יותר שחסרים להם ערכים במספר גדול של דוגמאות, יכול להיות שזה סימן לכך שמאפיינים מרכזיים מסוימים של מערך הנתונים לא מיוצגים מספיק.

תרגיל: בדקו את ההבנה שלכם

אתם מאומנים מודל לחיזוי התאמת כלבים מאומצים לצורכי אימוץ על סמך מגוון מאפיינים, כולל גזע, גיל, משקל, מזג וכמות הפרווה שנושרת מדי יום. המטרה היא לוודא שהמודל מניב ביצועים טובים באותה מידה בכל סוגי הכלבים, ללא קשר למאפיינים הפיזיים או ההתנהגותיים שלהם

אתם מגלים של-1,500 מתוך 5,000 הדוגמאות בקבוצת האימון חסרים ערכים של מזג. אילו מהגורמים הבאים הם מקורות פוטנציאליים של הטיה שצריך לבדוק?

סביר יותר שנתוני המזג יהיו חסרים לגבי גזעים מסוימים של כלבים.
אם הזמינות של נתוני המזג תלויה בגזע הכלב, יכול להיות שהחיזויים לגבי התאמה לאימוץ של גזעי כלבים מסוימים יהיו פחות מדויקים.
סביר יותר שנתוני המזג יהיו חסרים לגבי כלבים מתחת לגיל 12 חודשים
אם הזמינות של נתוני המזג קשורה לגיל, יכול להיות שהחיזויים לגבי התאמה לאימוץ של גורים יהיו פחות מדויקים בהשוואה לחיזויים לגבי כלבים בוגרים.
נתוני המזג חסרים לגבי כל הכלבים שנחלצו מערים גדולות.
במבט ראשון, יכול להיות שלא נראה שמדובר במקרה של הטיה, כי הנתונים החסרים ישפיעו על כל הכלבים מהערים הגדולות באופן שווה, ללא קשר לגזע, לגיל, למשקל וכו'. עם זאת, עדיין צריך להביא בחשבון שהמיקום שממנו מגיע הכלב עשוי לשמש כתחליף למאפיינים הפיזיים האלה. לדוגמה, אם יש סיכוי גבוה יותר שחיות מחמד בערים גדולות יהיו קטנות יותר מאשר חיות מחמד באזורים כפריים, יכול להיות שהתחזיות לגבי הסיכוי שלהן להתאקלמות יהיו פחות מדויקות לגבי חיות מחמד עם משקל נמוך או לגבי גזעים מסוימים של כלבים קטנים.
נתוני המזג חסרים במערך הנתונים באופן אקראי.
אם נתוני המזג חסרים באמת באופן אקראי, זה לא יהיה מקור פוטנציאלי להטיה. עם זאת, יכול להיות שנתוני המזג ייראו חסרים באופן אקראי, אבל בדיקה נוספת עשויה לחשוף הסבר לפערים. לכן חשוב לבצע בדיקה יסודית כדי לשלול אפשרויות אחרות, במקום להניח שפערי הנתונים הם אקראיים.

ערכים לא צפויים של תכונות

כשבודקים את הנתונים, כדאי גם לחפש דוגמאות שמכילות ערכים של מאפיינים ששונים במיוחד מהמאפיינים הרגילים או מהמאפיינים הרגילים האחרים. ערכים בלתי צפויים של המאפיינים האלה עשויים להצביע על בעיות שהתרחשו במהלך איסוף הנתונים או על אי-דיוקים אחרים שעשויים להוביל לשגיאות.

תרגיל: בדקו את ההבנה שלכם

כדאי לעיין בדוגמאות ההיפותטיות הבאות לאימון מודל של התאמה לאימוץ של כלבים מכלבייה.

גזע גיל (שנים) משקל (פאונד) מזג shedding_level
פודל צעצוע 2 12 רגזני נמוך
גולדן רטריבר 7 65 שלווה גבוה
לברדור רטריבר 35 73 שלווה גבוה
בולדוג צרפתי 0.5 11 רגוע בינונית
כלב מעורב לא ידוע 4 45 מרגש גבוה
באסט האונד 9 48 שלווה בינונית
האם אתם יכולים לזהות בעיות כלשהן בנתוני התכונה?
אפשר ללחוץ כאן כדי לראות את התשובה

הטיה בנתונים

כל סוג של הטיה בנתונים, שבו קבוצות או מאפיינים מסוימים מיוצגים בצורה לא פרופורציונלית בהשוואה לשכיחות שלהם בעולם האמיתי, עלול להטות את המודל.

כשבודקים את ביצועי המודל, חשוב לא רק לבחון את התוצאות באופן מצטבר, אלא גם לפלח את התוצאות לפי קבוצות משנה. לדוגמה, במקרה של המודל שלנו לאימוץ כלבי הצלה, כדי לשמור על הוגנות, זה לא מספיק רק לבדוק את הדיוק הכולל. אנחנו צריכים גם לבדוק את הביצועים לפי תת-קבוצות, כדי לוודא שהמודל מניב ביצועים דומים לכל גזע של כלבים, קבוצת גיל וקבוצת גדלים.

בהמשך המודול, בקטע בדיקת מודל לזיהוי הטיה, נבחן לעומק שיטות שונות לבדיקת מודלים לפי קבוצות משנה.