כשאתם בוחנים את הנתונים כדי לקבוע מהי הדרך הטובה ביותר לייצג אותם במודל שלכם, חשוב לזכור גם בעיות בהוגנות ובדיקה יזומה של מקורות הטיות פוטנציאליים.
איפה ההטיה עשויה לנוע? הנה שלושה נורות אדומות שכדאי לבדוק בקבוצת הנתונים שלכם.
חסרים ערכים של תכונות
אם בקבוצת הנתונים שלכם יש תכונה אחת או יותר שחסרים להן ערכים עבור מספר גדול של דוגמאות, זה יכול להיות סימן לכך שמאפייני מפתח מסוימים של מערך הנתונים לא זוכים לייצוג הולם.
לדוגמה, בטבלה הבאה מוצג סיכום של נתונים סטטיסטיים עיקריים לקבוצת משנה של תכונות במערך הנתונים של הדיור בקליפורניה, ששמור בפנדות DataFrame
ומופק באמצעות DataFrame.describe
. שימו לב שלכל התכונות יש count
עם ערך של 17,000, מה שמציין שאין ערכים חסרים:
longitude | latitude | total_rooms | אוכלוסייה | בתי אב | חציון | ערך_חציוני | |
---|---|---|---|---|---|---|---|
ספירה | 17,000.0 | 17,000.0 | 17,000.0 | 17,000.0 | 17,000.0 | 17,000.0 | 17,000.0 |
ממוצע | -119.6 | 35.6 | 2,643.7 | 1429.6 | 501.2 | 3.9 | 207.3 |
Std | 2.0 | 2.1 | 2,179.9 | 1147.9 | 384.5 | 1.9 | 116.0 |
דק' | -124.3 | 32.5 | 2.0 | 3.0 | 1.0 | 0.5 | 15.0 |
25% | -121.8 | 33.9 | 1,462.0 | 790.0 | 282.0 | 2.6 | 119.4 |
50% | -118.5 | 34.2 | 2,127.0 | 1,167.0 | 409.0 | 3.5 | 180.4 |
75% | -118.0 | 37.7י | 3,151.2 | 1721.0 | 605.2 | 4.8 | 265.0 |
מקסימלי | -114.3 | 42.0 | 37937.0 | 35682.0 | 6082.0 | 15.0 | 500.0 |
נניח שלשלוש תכונות (population
, households
ו-median_income
) היה רק ספירה של 3000
— כלומר, היו 14,000 ערכים חסרים עבור כל תכונה:
longitude | latitude | total_rooms | אוכלוסייה | בתי אב | חציון | ערך_חציוני | |
---|---|---|---|---|---|---|---|
ספירה | 17,000.0 | 17,000.0 | 17,000.0 | 3,000.0 | 3,000.0 | 3,000.0 | 17,000.0 |
ממוצע | -119.6 | 35.6 | 2,643.7 | 1429.6 | 501.2 | 3.9 | 207.3 |
Std | 2.0 | 2.1 | 2,179.9 | 1147.9 | 384.5 | 1.9 | 116.0 |
דק' | -124.3 | 32.5 | 2.0 | 3.0 | 1.0 | 0.5 | 15.0 |
25% | -121.8 | 33.9 | 1,462.0 | 790.0 | 282.0 | 2.6 | 119.4 |
50% | -118.5 | 34.2 | 2,127.0 | 1,167.0 | 409.0 | 3.5 | 180.4 |
75% | -118.0 | 37.7י | 3,151.2 | 1721.0 | 605.2 | 4.8 | 265.0 |
מקסימלי | -114.3 | 42.0 | 37937.0 | 35682.0 | 6082.0 | 15.0 | 500.0 |
בזכות 14,000 הערכים החסרים האלה, יהיה קשה יותר להשוות באופן מדויק את ההכנסה החציונית של משקי הבית למחירים החציוניים של בתים. לפני אימון מודל על סמך הנתונים האלה, יש לחקור את הגורמים לערכים החסרים כדי לוודא שאין הטיות נסתרות שאחראיות לנתוני ההכנסה והאוכלוסייה החסרים.
ערכי תכונות בלתי צפויים
כשאתם מעיינים בנתונים, כדאי גם לחפש דוגמאות שכוללות ערכי תכונות שמתבלטים באופן חריג או לא טיפוסי. ערכי המאפיינים הבלתי צפויים האלו עשויים להצביע על בעיות שהתרחשו במהלך איסוף הנתונים או על אי-דיוקים אחרים שעשויים להוביל להטיה.
לדוגמה, תוכלו לראות את הדוגמאות הבאות מתוך קבוצת הנתונים של דיור בקליפורניה:
longitude | latitude | total_rooms | אוכלוסייה | בתי אב | חציון | ערך_חציוני | |
---|---|---|---|---|---|---|---|
1 | -121.7 | 38.0 | 7,105.0 | 3,523.0 | 1088.0 | 5.0 | 0.2 |
2 | -122.4 | 37.8 | 2,479.0 | 1816.0 | 496.0 | 3.1 | 0.3 |
3 | -122.0 | 37.0 | 2,813.0 | 1337.0 | 477.0 | 17.7 | 0.3 |
4 | -103.5 | 43.8 | 2,212.0 | 803.0 | 144.0 | 5.3 | 0.2 |
5 | -117.1 | 32.8 | 2963.0 | 1,162.0 | 556.0 | 3.6 | 0.2 |
6 | -118.0 | 33.7 | 3396.0 | 1,542.0 | 472.0 | 7.4 | 0.4 |
האם תוכלו לזהות ערכי תכונה לא צפויים?
הטיה
כל סוג של הטיה בנתונים, כאשר קבוצות או מאפיינים מסוימים עשויים לקבל ייצוג גרוע מדי או חוסר ייצוג הולם ביחס לשכיחות שלהם בעולם האמיתי, עלול להטות את המודל שלך.
אם השלמתם את תרגיל אימות האימות, ייתכן שתיזכרו איך הרצה אקראית של מערך הדיור בקליפורניה לפני חלוקתו לקבוצות הדרכה ואימות הניבה הטיות בנתונים. איור 1 מציג באופן חזותי קבוצת משנה של נתונים שנאספו ממערך הנתונים המלא שמייצג באופן בלעדי את האזור הצפון-מערבי של קליפורניה.
איור 1. מפה של מדינת קליפורניה בשכבת-על של נתונים ממערך הנתונים של קליפורניה. כל נקודה מייצגת גוש דיור, בצבעים שבין כחול לאדום במחיר חציוני לבית, החל מנמוך ועד גבוה, בהתאמה.
אם נשתמש בדגימה שאינה מייצגת כדי לאמן מודל לחזות את מחירי הדיור בקליפורניה, היעדר נתוני הדיור מחלקי דרום קליפורניה יהיה בעייתי. ההטיה הגיאוגרפית המקודדת במודל עלולה להשפיע לרעה על קונים לבית בקהילות לא מיוצגות.