נתונים מספריים: צעדים ראשונים

לפני שיוצרים ווקטורים של מאפיינים, מומלץ לבחון נתונים מספריים בשתי דרכים:

  • להציג את הנתונים בתרשים או בגרף.
  • לקבל נתונים סטטיסטיים על הנתונים שלכם.

המחשת הנתונים

תרשימים יכולים לעזור לכם למצוא חריגות או דפוסים שמסתתרים בנתונים. לכן, לפני שמתעמקים בניתוח, כדאי להציג את הנתונים באופן גרפי, כתרשים פיזור או כהיסטוגרמה. אפשר להציג תרשימים לא רק בתחילת צינור עיבוד הנתונים, אלא גם לאורך טרנספורמציות הנתונים. התצוגות החזותיות עוזרות לכם לבדוק באופן שוטף את ההנחות שלכם.

מומלץ להשתמש ב-pandas לצורך ויזואליזציה:

חשוב לזכור שכלי חזותיים מסוימים מותאמים לפורמטים מסוימים של נתונים. יכול להיות שכלי להצגה חזותית שעוזר לכם להעריך מאגרי נתונים של פרוטוקולים יוכל לעזור לכם להעריך נתוני CSV, ויכול להיות שלא.

הערכה סטטיסטית של הנתונים

בנוסף לניתוח חזותי, מומלץ גם להעריך תכונות ומדבקות פוטנציאליות באופן מתמטי, ולצבור נתונים סטטיסטיים בסיסיים כמו:

  • ממוצע וחציון
  • סטיית תקן
  • הערכים בחלוקות הרבעוניות: האחוזונים ה-0, ה-25, ה-50, ה-75 וה-100. האחוזון ה-0 הוא הערך המינימלי בעמודה הזו, והאחוזון ה-100 הוא הערך המקסימלי בעמודה הזו. (האחוזון ה-50 הוא החציון).

איתור ערכים חריגים

חריג הוא ערך שונה ממרבית הערכים האחרים במאפיין או בתווית. ערכים חריגים בדרך כלל גורמים לבעיות בהדרכת המודל, ולכן חשוב למצוא ערכים חריגים.

אם הדלתה בין האחוזון ה-0 לאחוזון ה-25 שונה באופן משמעותי מהדלתא בין האחוזון ה-75 לאחוזון ה-100, סביר להניח שקבוצת הנתונים מכילה ערכים חריגים.

ערכים חריגים יכולים להיכלל באחת מהקטגוריות הבאות:

  • הערך החרגתי נובע מטעות. לדוגמה, יכול להיות שמשתמש הזין בטעות אפס נוסף, או שמכשיר לא תקין אסף את הנתונים. בדרך כלל כדאי למחוק דוגמאות שמכילות חריגים של שגיאות.
  • הערך החרגתי הוא נקודת נתונים לגיטימית, לא שגיאה. במקרה כזה, האם המודל המאומן יצטרך להסיק תחזיות טובות לגבי ערכים חריגים כאלה?
    • אם כן, יש להשאיר את הערכים החריגים האלה בקבוצת האימון. אחרי הכל, ערכים חריגים במאפיינים מסוימים משקפים לפעמים ערכים חריגים בתוויות, כך שהערכים החריגים יכולים למעשה לעזור למודל לחזות טוב יותר. חשוב לזכור שערכים חריגים קיצוניים עדיין עלולים לפגוע במודל.
    • אם לא, מוחקים את הערכים החריגים או מחילים שיטות פולשניות יותר של הנדסת תכונות, כמו חיתוך.