לפני שיוצרים וקטורים של מאפיינים, מומלץ ללמוד נתונים מספריים בשתי דרכים:
- הציגו את הנתונים בתרשימים או בתרשימים.
- קבלת נתונים סטטיסטיים על הנתונים.
המחשת הנתונים
התרשימים יכולים לעזור לכם למצוא חריגות או דפוסים שמסתתרים בנתונים. לכן, לפני שמתעמקים בניתוח הנתונים, כדאי לבחון את של הנתונים באופן גרפי, כתרשימי פיזור או להיסטוגרמות. הצגת תרשימים שלא רק בתחילת צינור הנתונים, אלא גם בכל שלבי הנתונים וטרנספורמציות. בעזרת תצוגות חזותיות אפשר לבדוק באופן שוטף את ההשערות.
מומלץ לעבוד עם פנדות כדי ליצור תצוגה חזותית:
שימו לב שכלים מסוימים להצגה חזותית של נתונים מותאמים לפורמטים מסוימים של נתונים. כלי חזותי שעוזר לך להעריך חוצץ פרוטוקולים עשוי, או לא תוכלו לעזור לכם להעריך את נתוני ה-CSV.
הערכה סטטיסטית של הנתונים
מעבר לניתוח חזותי, מומלץ גם להעריך תכונות פוטנציאליות מתמטיות, ואיסוף של נתונים סטטיסטיים בסיסיים כמו:
- ממוצע וחציון
- סטיית תקן
- את הערכים ברמות הרבעוניות: 0, 25, 50, 75 ו-100 אחוזונים. האחוזון ה-0 הוא הערך המינימלי של העמודה הזו. ה האחוזון ה-100 הוא הערך המקסימלי של העמודה הזו. (האחוזון ה-50% הוא החציון).
חריגים
חריג חשוד טעות הוא ערך מרחק מרוב הערכים האחרים בתכונה או בתווית. ערכים חריגים יוצאי דופן גורמים לעיתים קרובות לבעיות באימון מודלים, לכן חשוב למצוא חריגים.
כשהדלתא בין האחוזון ה-0 ל-25 שונה באופן משמעותי מהדלתא שבין האחוזון ה-75 ל-100, כנראה שמערך הנתונים מכיל חריגים.
ערכים חריגים יכולים להיכלל בכל אחת מהקטגוריות הבאות:
- יוצא הדופן נובע מטעות. לדוגמה, יכול להיות שבמסגרת הניסוי הניסיוני הזין בטעות אפס נוסף, או מכשיר שאסף נתונים תקלה. בדרך כלל מומלץ למחוק דוגמאות שמכילות חריגים חשודי טעות.
- הדבר שגורם חריג חשוד טעות הוא נקודה לגיטימית על הגרף, לא טעות.
במקרה הזה, המודל שעבר אימון
בסופו של דבר צריך להסיק תחזיות טובות על נקודות החריגות האלה?
- אם כן, שמרו את נקודות החריגות האלה בערכת האימון. אחרי הכול, חריגות בתכונות מסוימות משקפות לפעמים חריגים בתווית, כך חריגים חשודי טעות יכולים לעזור למודל שלכם להפיק חיזויים טובים יותר. חשוב להיזהר, חריגות קיצוניות עדיין עלולות לפגוע במודל שלכם.
- אם לא, צריך למחוק את החריגות או להשתמש בהנדסת פיצ'רים (feature engineering) פולשנית יותר שיטות, כמו החלקה.