התקינות של מודל למידת מכונה (ML) נקבעת על סמך הנתונים שלו. מזינים את לבנות מודלים של נתונים בריאים, והם ישגשגו. להזין את חלקי המודל, יהיו חסרי ערך.
שיטות מומלצות לעבודה עם נתונים מספריים:
- חשוב לזכור שמודל למידת המכונה מקיים אינטראקציה עם הנתונים וקטור התכונות, לא הנתונים מערך נתונים.
- נרמול הכי הרבה תכונות מספריות.
- אם אסטרטגיית הנירמול הראשונה שלכם לא מצליחה, כדאי לשקול כדי לנרמל את הנתונים.
- Binning, נקרא גם חלוקה לקטגוריות, יותר טוב מאשר נירמול.
- כתיבה של נתוני אימות תוך התחשבות באיך הנתונים צריכים להיראות
בדיקות כדי לאמת את הציפיות האלה. מוצרים לדוגמה:
- הערך המוחלט של קו הרוחב לא יכול לחרוג מ-90. אפשר לכתוב לבדוק אם מופיע בנתונים ערך של קו רוחב שגדול מ-90.
- אם הנתונים שלך מוגבלים למדינת פלורידה, אפשר לכתוב בדיקות כדי לבדוק שקווי הרוחב הם בין 24 ל-31, כולל.
- המחשת הנתונים באמצעות תרשימי פיזור והיסטוגרמות. חיפוש של חריגות.
- אספו נתונים סטטיסטיים לא רק מכל מערך הנתונים אלא גם קבוצות משנה של מערך הנתונים. הסיבה לכך היא שלפעמים נתונים סטטיסטיים נצברים להסתיר בעיות בחלקים קטנים יותר במערך נתונים.
- מתעדים את כל הטרנספורמציות בנתונים.
נתונים הם המשאב החשוב ביותר שלכם, לכן חשוב להתייחס אליהם בזהירות.
מידע נוסף
- במדריך כללים של למידת מכונה יש הנדסת פיצ'רים (feature engineering).
המאמרים הבאים
ברכות על סיום המודול הזה.
אנחנו ממליצים לכם לעיין במודולים של MLCC. בקצב שלכם ובקצב הרצוי לכם. כדי לעקוב אחרי הזמנה מומלצת, מומלץ לעבור למודול הבא: ייצוג נתונים קטגוריים: