Google uses AI technology to translate content into your preferred language. AI translations can contain errors.
מערכי נתונים, הכללה והתאמה יתר
קל לארגן דפים בעזרת אוספים
אפשר לשמור ולסווג תוכן על סמך ההעדפות שלך.
מבוא
יחידת הלימוד הזו מתחילה בשאלה מובילה.
בוחרים באחת מהתשובות הבאות:
אם הייתם צריכים לתת עדיפות לשיפור אחד מהתחומים הבאים בפרויקט למידת המכונה שלכם, איזה מהם ישפיע בצורה המשמעותית ביותר?
שיפור האיכות של מערך הנתונים
הנתונים גוברים על הכול.
לאיכות ולגודל של מערך הנתונים יש חשיבות רבה
ממש אלגוריתם חדש שבו משתמשים כדי לבנות את המודל.
החלת פונקציית הפסד חכמה יותר על אימון המודל
נכון, פונקציית הפסדים טובה יותר יכולה לעזור למודל לאמן מהר יותר, אבל
הוא עדיין רחוק לפני פריט אחר ברשימה הזו.
וזו שאלה מניחה עוד יותר:
נסו לנחש: כמה זמן בדרך כלל אתם משקיעים בהכנה ובטרנספורמציה של הנתונים בפרויקט למידת המכונה?
יותר ממחצית מזמן הפרויקט
כן, מומחי למידת מכונה מבלים את רוב הזמן שלהם ביצירת מערכי נתונים ובפיתוח מאפיינים.
פחות ממחצית משך הפרויקט
מתכננים דברים נוספים! בדרך כלל, 80% מהזמן בפרויקט של למידת מכונה מוקדש ליצירת מערכי נתונים ולטרנספורמציה של נתונים.
ביחידה הזו תלמדו על המאפיינים של מערכי נתונים ללמידת מכונה, ותקבלו מידע נוסף על הכנת הנתונים כדי להבטיח תוצאות באיכות גבוהה במהלך אימון המודל והערכתו.
אלא אם צוין אחרת, התוכן של דף זה הוא ברישיון Creative Commons Attribution 4.0 ודוגמאות הקוד הן ברישיון Apache 2.0. לפרטים, ניתן לעיין במדיניות האתר Google Developers. Java הוא סימן מסחרי רשום של חברת Oracle ו/או של השותפים העצמאיים שלה.
עדכון אחרון: 2025-07-27 (שעון UTC).
[null,null,["עדכון אחרון: 2025-07-27 (שעון UTC)."],[],[]]