מתאמנים של למידת מכונה משקיעים הרבה יותר זמן בהערכה, בניקוי ובטרנספורמציה מאשר לבניית מודלים. הנתונים חשובים כל כך עד שהקורס הזה מקצה שלוש יחידות שלמות לנושא:
- עבודה עם נתונים מספריים (היחידה הזו)
- עבודה עם נתונים קטגוריים
- מערכי נתונים, הכללה והתאמת יתר
היחידה הזו מתמקדת נתונים מספריים, מה המשמעות של מספרים שלמים או ערכי נקודה צפה (floating-point) שמתנהגים כמו מספרים. כלומר, אפשר להוסיף אותם, הם ניתנים לספירה, מסודרים, וכן הלאה. היחידה הבאה מתמקדת נתונים קטגוריים, שיכולים כוללות מספרים שמתנהגים כמו קטגוריות. היחידה השלישית מתמקדת באופן שבו להכין את הנתונים כדי להבטיח תוצאות איכותיות במהלך האימון וההערכה את המודל.
דוגמאות לנתונים מספריים:
- טמפרטורה
- משקל
- מספר האיילים החורפים בשמורת טבע
לעומת זאת, מיקוד בארה"ב הם מספרים בני חמש ספרות או תשע ספרות, אל תנהגו כמו מספרים יחסים מתמטיים. המיקוד 40004 (במחוז נלסון, קנטאקי) הוא לא פי שניים מהכמות של המיקוד 20002 (בוושינגטון די. סי). המספרים האלה שמייצגים קטגוריות, במיוחד אזורים גיאוגרפיים, ונחשבים נתונים קטגוריים.