אפשר לאמן מודלים של למידת מכונה רק על ערכים של נקודה צפה. עם זאת, תכונות רבות של מערכי נתונים לא הן ערכים של נקודות צפות באופן טבעי. לכן, חלק חשוב בלמידת מכונה הוא טרנספורמציה של מאפיינים שאינם של נקודה צפה לייצוגים של נקודה צפה.
לדוגמה, נניח ש-street names
היא תכונה. רוב שמות הרחובות הם מחרוזות, כמו 'Broadway' או 'Vilakazi'.
אי אפשר לאמן את המודל על 'Broadway', לכן צריך להפוך את 'Broadway' למספר עשרוני. במודול 'נתונים איכותיים' מוסבר איך עושים את זה.
בנוסף, כדאי לבצע טרנספורמציה גם לרוב המאפיינים של נקודות צפות. תהליך הטרנספורמציה הזה, שנקרא נורמליזציה, ממיר מספרים בספרות עשרוניות מוצפות לטווח מוגבל שמשפר את אימון המודל. במודול 'נתונים מספריים' מוסבר איך לעשות זאת.
דגימת נתונים כשיש יותר מדי מהם
יש ארגונים שיש להם שפע של נתונים. כשמערך הנתונים מכיל יותר מדי דוגמאות, צריך לבחור קבוצת משנה של דוגמאות לאימון. כשהדבר אפשרי, כדאי לבחור את קבוצת המשנה שרלוונטית ביותר לחיזויים של המודל.
דוגמאות למסננים שמכילים פרטים אישיים מזהים (PII)
מערכי נתונים טובים לא כוללים דוגמאות שמכילות פרטים אישיים מזהים (PII). המדיניות הזו עוזרת להגן על הפרטיות, אבל היא עשויה להשפיע על המודל.
מידע נוסף על הנושאים האלה זמין במודול 'בטיחות ופרטיות' בהמשך הקורס.