נתונים מספריים: תכונות של תכונות מספריות טובות

היחידה הזו בדקה דרכים למפות נתונים גולמיים אל וקטורים של מאפיינים. תכונות מספריות טובות חולקות את התכונות שמתוארות בקטע הזה.

שם ברור

לכל תכונה צריכה להיות משמעות ברורה, הגיונית וברורה לכל אדם את הפרויקט. לדוגמה, המשמעות של ערך המאפיין הבא היא מבלבל:

לא מומלץ

home_age: 851472000

לעומת זאת, השם והערך של התכונה הבאה ברורים יותר:

המלצות

home_age_years: 27

נבדקו או נבדקו לפני האימון

למרות שהמודול הזה הקדיש זמן רב outliers, הנושא הוא חשובה מספיק כדי להצדיק אזכור אחד סופי. במקרים מסוימים, נתונים בעייתיים (במקום בחירות הנדסיות גרועות) גורמים לערכים לא ברורים. לדוגמה, user_age_in_years הבאים הגיעו ממקור שלא בדק ערכים מתאימים:

לא מומלץ

user_age_in_years: 224

אבל אנשים יכולים להיות בני 24:

המלצות

user_age_in_years: 24

כדאי לבדוק את הנתונים.

הגיוני

'ערך קסם' היא אי-רציפות מכוונת באופן . לדוגמה, נניח שיש תכונה רציפה בשם watch_time_in_seconds יכול להכיל כל ערך של נקודה צפה (floating-point) בין 0 ל-30, אבל מייצג את החסר של מדידה עם ערך הקסם 1-:

לא מומלץ

watch_time_in_seconds: -1

אם הערך של watch_time_in_seconds הוא 1-, המודל יאלץ לנסות לחשב הסבר על המשמעות של צפייה בסרט אחורה בזמן. המודל שמתקבל הן לא מפיקות חיזויים טובים.

שיטה טובה יותר היא ליצור תכונה בוליאנית נפרדת בין אם watch_time_in_seconds צוין ערך. לדוגמה:

המלצות

Watch_time_in_seconds: 4.82
is_watch_time_in_seconds_defined=True

Watch_time_in_seconds: 0
is_watch_time_in_seconds_defined=False

עכשיו נבחן מודל נפרד תכונה מספרית שהערכים שלה חייבים להשתייך לקבוצת ערכים סופית. כאן כאשר ערך חסר, סימן שהערך חסר באמצעות ערך חדש ב- את הקבוצה הסופית. בעזרת תכונה מובחנת המודל ילמד משקולות שונות של כל ערך, כולל משקולות מקוריות לתכונות חסרות.