איחוד יומני נתונים

במהלך הרכבת מערך הכשרה, לפעמים צריך להצטרף לכמה מקורות נתונים.

סוגים של יומנים

אפשר לעבוד עם כל אחד מסוגי הנתונים הבאים:

  • יומני עסקאות
  • נתוני מאפיין
  • נתונים סטטיסטיים נצברים

יומני עסקאות מתעדים אירוע ספציפי. לדוגמה, יומן עסקאות עשוי לתעד כתובת IP שממנה נשלחת שאילתה ואת התאריך והשעה שבהם בוצעה השאילתה. אירועי עסקה תואמים לאירוע מסוים.

נתוני מאפיינים מכילים תמונות מצב של מידע. למשל:

  • דמוגרפיית משתמשים
  • היסטוריית החיפושים בזמן השאילתה

נתוני המאפיינים לא ספציפיים לאירוע או לרגע מסוים, אבל עדיין יכולים להיות שימושיים לביצוע חיזויים. במשימות חיזוי שלא קשורות לאירוע מסוים (לדוגמה, חיזוי נטישה של משתמש, שכרוך בטווח זמן ולא ברגע מסוים), נתוני מאפיינים עשויים להיות הסוג היחיד של נתונים.

יש קשר בין נתוני מאפיינים לבין יומני עסקאות. לדוגמה, תוכלו ליצור סוג של נתוני מאפיינים על ידי צבירת מספר יומנים של עסקאות, תוך יצירת נתונים סטטיסטיים מצטברים. במקרה כזה, אפשר לעיין ביומנים רבים של עסקאות כדי ליצור מאפיין יחיד עבור המשתמש.

נתונים סטטיסטיים נצברים יוצרים מאפיין מכמה יומני עסקאות. למשל:

  • תדירות השאילתות של המשתמש
  • שיעור הקליקים הממוצע במודעה מסוימת

מקורות התחברות מצורפים

כל סוג של יומן נמצא בדרך כלל במיקום אחר. כשאוספים נתונים עבור מודל הלמידה החישובית, צריך לאחד בין מקורות שונים כדי ליצור את קבוצת הנתונים. לפניכם מספר דוגמאות:

  • השתמשו במזהה המשתמש ובחותמת הזמן ביומני העסקאות כדי לחפש מאפיינים של משתמשים בזמן האירוע.
  • יש להשתמש בחותמת הזמן של העסקה כדי לבחור את היסטוריית החיפושים בזמן השאילתה.

מקורות נתונים של חיזויים – אונליין לעומת אופליין

בקורס קריסה של למידת מכונה למדתם על מצב אונליין לעומת מצב אופליין. הבחירה משפיעה על האופן שבו המערכת אוספת נתונים:

  • אונליין - זמן האחזור הוא חשש, לכן המערכת שלכם חייבת ליצור קלט במהירות.
  • אופליין – סביר להניח שאין לכם מגבלות חישוב, כך שאתם יכולים לבצע פעולות מורכבות באופן דומה ליצירת נתונים על הדרכות.

לדוגמה, במקרים רבים צריך לחפש את נתוני המאפיינים ממערכת אחרת. מצב כזה עלול לגרום לבעיות בזמן האחזור. בדומה לכך, חישוב הנתונים הסטטיסטיים המצטברים עשוי להיות יקר בזמן אמת. אם זמן האחזור הוא חוסם, אחת האפשרויות היא להסיק את הנתונים הסטטיסטיים האלה.