כשמכינים את הנתונים לאימון מודלים ולהערכה, חשוב לזכור נושאים של הוגנות ולבדוק את המקורות הפוטנציאליים הטיה, ניתן לצמצם באופן יזום את ההשפעות שלו לפני שחרור המודל בסביבת הייצור.
איפה הטיה עלולה להסתגל? הנה כמה נורות אדומות שחשוב לחפש במערך הנתונים.
חסרים ערכים של תכונות
אם מערך הנתונים כולל תכונה אחת או יותר שחסרים להם ערכים עבור מאפיין גדול מספר דוגמאות, שיכול להיות סימן לכך שמאפיינים מרכזיים מסוימים של מערך הנתונים לא מיוצגים מספיק.
תרגיל: בדקו את ההבנה שלכם
גיליתם ש-1,500 מתוך 5,000 הדוגמאות במערך האימון חסרים ערכי מזג אוויר. אילו מהמקורות הבאים הם מקורות פוטנציאליים הטיה שכדאי לחקור?
ערכי תכונות לא צפויים
כשבוחנים נתונים, צריך גם לחפש דוגמאות שכוללות ערכים של תכונות שמתבלטות כלא אופייניות או יוצאות דופן. התכונות הבלתי צפויות האלה יכולים להצביע על בעיות שקרו במהלך איסוף הנתונים אי דיוקים שעלולים ליצור הטיה.
תרגיל: בדקו את ההבנה שלכם
עיינו במערך ההיפותטי הבא של דוגמאות לאימון כלב הצלה סנטימנטים להטמעה.
גזע | גיל (שנים) | משקל (פאונד) | מזג | shedding_level |
---|---|---|---|---|
פודל צעצוע | 2 | 12 | מרגש | נמוך |
גולדן רטריבר | 7 | 65 | רגוע | גבוה |
לברדור רטריבר | 35 | 73 | רגוע | גבוה |
בולדוג צרפתי | 0.5 | 11 | רגוע | בינונית |
גזע מעורב לא ידוע | 4 | 45 | מרגש | גבוה |
כלב באסט | 9 | 48 | רגוע | בינונית |
גזע | גיל (שנים) | משקל (פאונד) | מזג | shedding_level |
---|---|---|---|---|
פודל צעצוע | 2 | 12 | מרגש | נמוך |
גולדן רטריבר | 7 | 65 | רגוע | גבוה |
לברדור רטריבר | 35 | 73 | רגוע | גבוה |
בולדוג צרפתי | 0.5 | 11 | רגוע | בינונית |
גזע מעורב לא ידוע | 4 | 45 | מרגש | גבוה |
כלב באסט | 9 | 48 | רגוע | בינונית |
הכלב הזקן ביותר שאומת על ידי שיאי העולם של גינס היה Bluey, כלב בקר אוסטרלי שחי בן 29 שנים ו-5 חודשים. לכן נראה לא הגיוני שהלברדור רטריבר הוא למעשה בן 35, והיה סבירות גבוהה יותר שגיל הכלב חושב או תועד באופן לא מדויק (אולי הכלב הוא למעשה בן 3.5). השגיאה הזו יכולה להעיד גם על בעיות דיוק רחבות יותר בנתוני הגיל במערך הנתונים שמצריכות חקירה נוספת.
הטיית נתונים
כל סוג של סטייה בנתונים, שבה קבוצות או מאפיינים מסוימים עשויים להיות אם יש להם ייצוג יתר או ייצוג יתר ביחס לשכיחות שלהם בעולם האמיתי, הם יכולים ליצור הטיה במודל שלכם.
כשבודקים את ביצועי המודל, חשוב לא רק לבחון את התוצאות במצטבר, אבל להציג את התוצאות לפי תת-קבוצות. לדוגמה, במקרה של כדי לשמור על הוגנות, זה לא מספיק כדי לשמור על הוגנות. פשוט לבחון את הדיוק הכולל. אנחנו צריכים גם לבדוק את הביצועים לפי תת-קבוצות כדי לוודא שהמודל מניב ביצועים טובים באותה מידה לכל גזע של כלבים, קבוצת גיל, קבוצת מידות.
בהמשך יחידת הלימוד הזו, בקטע הערכה מתוך דעות קדומות, לבחון שיטות שונות להערכה של מודלים לפי תת-קבוצות.