מערכי נתונים, הכללה והתאמת יתר

מבוא

יחידת הלימוד הזו מתחילה בשאלה מובילה. יש לבחור אחת מהתשובות הבאות:

אם הייתם צריכים לשפר אחד מהתחומים הבאים כרגע בפרויקט למידת מכונה, בצורה יעילה?
שיפור האיכות של מערך הנתונים
הנתונים גוברים על הכול. לאיכות ולגודל של מערך הנתונים יש חשיבות רבה ממש אלגוריתם חדש שבו משתמשים כדי לבנות את המודל.
שימוש בפונקציית הפסד חכמה יותר כדי לאמן את המודל
נכון, פונקציית הפסדים טובה יותר יכולה לעזור למודל לאמן מהר יותר, אבל הוא עדיין רחוק לפני פריט אחר ברשימה הזו.

והנה שאלה מובילה עוד יותר:

נחשו: בפרויקט למידת המכונה שלכם, כמה זמן אתם בדרך כלל משקיעים בהכנה ובטרנספורמציה של נתונים?
יותר ממחצית מזמן הפרויקט
כן, מתאמנים של למידת מכונה משקיעים את רוב הזמן שלהם באמצעות בניית מערכי נתונים והנדסת פיצ'רים (feature engineering).
פחות ממחצית מזמן הפרויקט
מתכננים דברים נוספים! בדרך כלל, 80% מהזמן של למידת מכונה הוא להשקיע בבניית מערכי נתונים ובטרנספורמציה של נתונים.

ביחידה הזאת נלמד על המאפיינים של למידת מכונה ואיך להכין את הנתונים שלכם כדי להבטיח תוצאות באיכות גבוהה, אימון והערכה של המודל.