מערכי נתונים: טרנספורמציה של נתונים

מודלים של למידת מכונה יכולים לאמן רק על ערכים של נקודה צפה (floating-point). עם זאת, הרבה תכונות של מערכי נתונים הן לא ערכים מנקודה צפה (floating-point) באופן טבעי. לכן, חלק חשוב אחד מלמידת המכונה הוא תכונות שאינן נקודה צפה (floating-point) לייצוגים בנקודה צפה (floating-point).

לדוגמה, נניח ש-street names היא תכונה. רוב שמות הרחובות הן מחרוזות, כמו "ברודווי" או 'וילאקזי'. לא ניתן לאמן את המודל ב"ברודווי", ולכן עליך לבצע טרנספורמציה ל"ברודווי" למספר נקודה צפה (floating-point). הנתונים הקטגוריים מודול מוסבר איך לעשות זאת.

בנוסף, צריך לבצע טרנספורמציה גם של רוב התכונות מסוג נקודה צפה (floating-point). תהליך הטרנספורמציה הזה, שנקרא נירמול, משלים המרה מספרים בעלי נקודה צפה (floating-point) לטווח מוגבל שמשפר את אימון המודל. הנתונים המספריים מודול מוסבר איך לעשות זאת.

דגימת נתונים כשיש לך יותר מדי מהם

ארגונים מסוימים מתמלאים בשפע של נתונים. כשמערך הנתונים מכיל יותר מדי דוגמאות, צריך לבחור קבוצת משנה של דוגמאות לאימון. כשהדבר אפשרי, בחרו את קבוצת המשנה הרלוונטית ביותר שרלוונטיות לחיזויים של המודל.

דוגמאות לסינון המכילות פרטים אישיים מזהים (PII)

מערכי נתונים טובים ללא דוגמאות שמכילות פרטים אישיים מזהים (PII). המדיניות הזו עוזרת להגן על הפרטיות, אבל יכולה להשפיע על המודל.

למידע נוסף על הנושאים האלה, אפשר לעיין במודול 'בטיחות ופרטיות' בהמשך הקורס.