בריאות המודל של למידת המכונה (ML) נקבעת על סמך הנתונים שלו. מזינים את לבנות מודלים של נתונים בריאים, והם ישגשגו. להזין את חלקי המודל, יהיו חסרי ערך.
שיטות מומלצות לעבודה עם נתונים מספריים:
- חשוב לזכור שמודל למידת המכונה מקיים אינטראקציה עם הנתונים וקטור התכונות, לא הנתונים dataset.
- נורמלים את רוב המאפיינים המספריים.
- אם אסטרטגיית הנירמול הראשונה שלכם לא מצליחה, כדאי לשקול כדי לנרמל את הנתונים.
- Binning, נקרא גם חלוקה לקטגוריות, יותר טוב מאשר נירמול.
- כתיבה של נתוני אימות תוך התחשבות באיך הנתונים צריכים להיראות
בדיקות כדי לאמת את הציפיות האלה. מוצרים לדוגמה:
- הערך המוחלט של קו הרוחב לא יכול לחרוג מ-90. אפשר לכתוב לבדוק אם מופיע בנתונים ערך של קו רוחב שגדול מ-90.
- אם הנתונים שלך מוגבלים למדינת פלורידה, אפשר לכתוב בדיקות כדי לבדוק שקווי הרוחב הם בין 24 ל-31, כולל.
- הצגה ויזואלית של הנתונים באמצעות תרשים פיזור והיסטוגרמות. חיפוש של חריגות.
- איסוף נתונים סטטיסטיים לא רק לגבי כל מערך הנתונים, אלא גם לגבי קבוצות משנה קטנות יותר של מערך הנתונים. הסיבה לכך היא שלפעמים נתונים סטטיסטיים מצטברים מסתירים בעיות בחלקים קטנים יותר של מערך נתונים.
- מתעדים את כל הטרנספורמציות של הנתונים.
הנתונים הם המשאב החשוב ביותר שלכם, לכן חשוב לטפל בהם בזהירות.
מידע נוסף
- המדריך Rules of Machine Learning מכיל קטע חשוב בנושא Feature Engineering.
המאמרים הבאים
כל הכבוד על סיום המודול הזה!
אנחנו ממליצים לכם לבדוק את מודולי ה-MLCC השונים בקצב ובעניין שלכם. כדי לעקוב אחרי הזמנה מומלצת, מומלץ לעבור למודול הבא: ייצוג נתונים קטגוריים: