זיהוי תוויות ומקורות

תוויות ישירות לעומת תוויות נגזרות

למידה חישובית קלה יותר כשהתוויות מוגדרות היטב. התווית הכי טובה היא תווית ישירה של מה שרוצים לחזות. לדוגמה, אם רוצים לחזות אם משתמש הוא חובב טיילור סוויפט, תווית ישירה תהיה "המשתמש הוא חובב טיילור סוויפט."

בדיקה פשוטה יותר של מעריצים עשויה להיות צפייה אם המשתמש צפה בסרטון של טיילור סוויפט ב-YouTube. התווית "משתמש צפה בסרטון של טיילור סוויפט ב-YouTube" היא תווית נגזרת מפני שהיא לא מודדת באופן ישיר את מה שברצונך לחזות. האם התווית הנגזרת הזו היא אינדיקציה אמינה לכך שהמשתמש אוהב את טיילור סוויפט? איכות המודל תהיה טובה רק כהקשר בין התווית שהוסקה לבין החיזוי הרצוי.

מקורות של תוויות

הפלט של המודל יכול להיות אירוע או מאפיין. התוצאה היא שני סוגי התוויות הבאות:

  • תווית ישירה של אירועים, כמו "האם המשתמש לחץ על תוצאת החיפוש המובילה?"
  • תווית ישירה של מאפיינים, כמו "האם המפרסם יוציא יותר מ-$X בשבוע הבא?"

תוויות ישירות לאירועים

באירועים, תוויות ישירות הן בדרך כלל פשוטות, כי אפשר לתעד את התנהגות המשתמשים במהלך האירוע ולהשתמש בו כתווית. במהלך תיוג אירועים, כדאי לשאול את עצמכם את השאלות הבאות:

  • איך היומנים שלך מובְנים?
  • מה נחשב ל'אירוע' ביומנים שלך?

למשל, האם המערכת מתעדת ביומן משתמש לוחץ על תוצאת חיפוש או כשמשתמש מבצע חיפוש? אם יש לכם יומני קליקים, שימו לב שאף פעם לא תראו חשיפה בלי קליק. אתם צריכים יומנים שבהם האירועים הם חשיפות, כך שתוכלו לכלול את כל המקרים שבהם המשתמש רואה תוצאת חיפוש מובילה.

תוויות ישירות למאפיינים

נניח שהתווית שלכם היא "המפרסם יוציא יותר מ-$X בשבוע הבא". בדרך כלל, אתם משתמשים בנתונים מהימים הקודמים כדי לחזות מה יקרה בימים הקרובים. לדוגמה, האיור הבא מציג עשרה ימים של נתוני הדרכה שחוזים את שבעת הימים הבאים:

יומן שמודגש בו בלוק של 10 ימים, ואחריו בלוק של שבעה ימים.
המודל משתמש בנתונים מהבלוק של 10 ימים כדי ליצור חיזויים בבלוק של 7 הימים.

זכרו לשקול עונתיות או השפעות מחזוריות. לדוגמה, מפרסמים עשויים להוציא יותר בסופי שבוע. לכן תוכלו להשתמש בחלון של 14 יום, או להשתמש בתאריך כתכונה כדי שהמודל ילמד השפעות שנתיות.

לתוויות ישירות יש צורך ביומנים של התנהגות קודמת

במקרים הקודמים, שמנו לב שאנחנו צריכים נתונים לגבי התוצאה האמיתית. לא משנה כמה מפרסמים השקיעו או אילו משתמשים צפו בסרטונים של טיילור סוויפט, היינו צריכים נתונים היסטוריים כדי להשתמש בלמידה חישובית מבוקרת. למידה חישובית מפיקה תחזיות על סמך מה שקרה בעבר, כך שאם אין לכם יומנים בעבר, תצטרכו לקבל אותם.

מה קורה אם אין לכם נתונים לרישום?

אולי המוצר שלכם עדיין לא קיים, ולכן אין לכם נתונים להתחברות. במקרה כזה, תוכלו לבצע אחת או יותר מהפעולות הבאות:

  • שימוש בהיוריסטיקה להשקה הראשונה, ולאחר מכן אימון המערכת על סמך נתונים שתועדו.
  • שימוש ביומנים מבעיה דומה כדי לאתחל את המערכת.
  • משתמשים במדרגים אנושיים כדי לייצר נתונים על ידי ביצוע משימות.

למה להשתמש בנתונים אנושיים מתויגים?

יש יתרונות וחסרונות לשימוש בנתונים שמסומנים בתווית אנושית.

יתרונות

  • מדרגים אנושיים יכולים לבצע מגוון רחב של משימות.
  • הנתונים מחייבים אתכם בהגדרה ברורה של הבעיה.

חסרונות

  • הנתונים יקרים בדומיינים מסוימים.
  • בדרך כלל, כדי ליצור נתונים טובים נדרשות כמה פעמים.

שיפור האיכות

בודקים תמיד את העבודה של המדרגים האנושיים. לדוגמה, תייגו 1, 000 דוגמאות בעצמכם כדי לראות איך התוצאות תואמות למדרגים'. (הוספת תוויות לעצמכם היא גם שיטה מצוינת להכיר את הנתונים.) אם יהיו פערים, אל תנחשו שהדירוגים שלכם הם הנכונים, במיוחד אם יש שיקול דעת. אם מדרגים אנושיים הוסיפו שגיאות, אפשר להוסיף הוראות שיעזרו להם ולנסות שוב.

כדאי לבחון את הנתונים שלכם באופן ידני, ללא קשר לאופן שבו הגעתם לנתונים שלכם. אנדריי קרפתי עשה זאת ב-ImageNet וכתב על החוויה.