מודל למידת מכונה לא יכול לראות, לשמוע או לזהות דוגמאות לקלט באופן ישיר. במקום זאת, צריך ליצור ייצוג של הנתונים כדי לספק למודל נקודת תצפית מועילה על האיכויות העיקריות של הנתונים. כלומר, כדי לאמן מודל, צריך לבחור את קבוצת התכונות שמייצגות את הנתונים בצורה הטובה ביותר.
ייצוג
מנתונים גולמיים לתכונות
הרעיון הוא למפות כל חלק של הווקטור שמשמאל לשדה אחד או יותר אל וקטור המאפיין בצד ימין.
מנתונים גולמיים לתכונות
מנתונים גולמיים לתכונות
מנתונים גולמיים לתכונות
- מילון ממפה כל שם רחוב למספר int ב- {0, ...,V-1}
- עכשיו מייצגים וקטור בוהק אחד למעלה כ-<i>
תכונות של תכונה טובה
ערכי התכונות צריכים להופיע עם ערך שונה מאפס יותר ממספר קטן של פעמים במערך הנתונים.
my_device_id:8SK982ZZ1242Z
device_model:galaxy_s6
תכונות של תכונה טובה
לתכונות מסוימות צריכה להיות משמעות ברורה וברורה.
user_age:23
user_age:123456789
תכונות של תכונה טובה
תכונות לא אמורות לקבל ערכי 'קסם'
(במקום זאת, יש להשתמש בתכונה בוליאנית נוספת, כמו Watch_time_is_defined!)
watch_time: -1.0
watch_time: 1.023
watch_time_is_defined: 1.0
תכונות של תכונה טובה
ההגדרה של התכונה לא אמורה להשתנות עם הזמן.
(שימו לב בהתאם למערכות למידת מכונה אחרות!)
city_id:"br/sao_paulo"
inferred_city_cluster_id:219
תכונות של תכונה טובה
הפצה לא צריכה להיות חריגת קיצונית
מומלץ לשנות את כל התכונות לטווח דומה, כגון (1-, 1) או (0, 5).
הטריק של ביןין
הטריק של ביןין
- יוצרים מספר סלים בוליאניים, שכל אחד מהם ממפה לתכונה ייחודית חדשה
- מאפשרת למודל להתאים ערך שונה לכל סל
הרגלים טובים
הכרת הנתונים
- הצגה חזותית: הצבה של היסטוגרמות, דרגו מהגבוה לנמוך ביותר.
- ניפוי באגים: דוגמאות כפולות? חסרים ערכים? יוצאי דופן? הנתונים תואמים למרכזי הבקרה? נתוני אימון ואימות דומים?
- מעקב: כמויות התכונות, מספר הדוגמאות לאורך זמן?