סקירה כללית בנושא יצירת מועמדים

יצירת המועמדים היא השלב הראשון של ההמלצה. בהינתן שאילתה, יוצרת קבוצה של מועמדים רלוונטיים. הטבלה הבאה מציגה גישות נפוצות ליצירת מועמדים:

סוגהגדרהדוגמה
סינון מבוסס-תוכן משתמשת בדמיון בין פריטים כדי להמליץ על פריטים דומים למה שהמשתמש אוהב. אם משתמש א' צופה בשני סרטונים של חתולים חמודים, המערכת יכול להמליץ למשתמש על סרטונים של בעלי חיים חמודים.
סינון שיתופי שימוש בדמיון בין שאילתות ופריטים בו-זמנית כדי לספק המלצות. אם משתמש א' דומה למשתמש ב', ומשתמש ב' אוהב את סרטון 1, אז המערכת יכולה להמליץ על סרטון 1 למשתמש א' (גם אם משתמש א' לא סיפק ראית סרטונים שדומים לסרטון 1).

מרחב הטמעה

סינון מבוסס תוכן וסינון שיתופי ממפים כל פריט וכל שאילתה (או הקשר) לווקטור הטמעה במרחב הטמעה נפוץ \(E = \mathbb R^d\)בדרך כלל, מרחב ההטמעה הוא נמוך (כלומר, \(d\) הוא קטן בהרבה מגודל הקורפוס), ולוכד מבנה לטנטי של הפריט או של קבוצת השאילתות. פריטים דומים, כמו YouTube סרטונים שבדרך כלל נצפים על ידי אותו משתמש, נמצאים קרוב זה לזה שטח הטמעה. המושג 'קרבה' מוגדר באמצעות מדד הדמיון.

מדדי דמיון

מידת דמיון היא פונקציה \(s : E \times E \to \mathbb R\) לוקחת זוג הטמעות ומחזירה סקלר שמודד את הדמיון ביניהם. ניתן להשתמש בהטמעות עבור יצירת מועמדים באופן הבא: הטמעת שאילתות \(q \in E\), המערכת מחפשת הטמעות של פריטים \(x \in E\) שקרובות ל- \(q\), כלומר, הטמעות עם ערך דומות \(s(q, x)\).

כדי לקבוע את מידת הדמיון, רוב מערכות ההמלצות מסתמכות על באחד או יותר מהקריטריונים הבאים:

  • קוסינוס
  • מכפלת נקודות
  • המרחק של האקלדים

קוסינוס

זה פשוט הקוסינוס של הזווית בין שני הערכים וקטורים, \(s(q, x) = \cos(q, x)\)

מכפלה

מכפלת הנקודה של שני וקטורים \(s(q, x) = \langle q, x \rangle = \sum_{i = 1}^d q_i x_i\) הוא נתון גם באמצעות \(s(q, x) = \|x\| \|q\| \cos(q, x)\) (הקוסינוס של זווית כפול במכפלה של הנורמות). כך שאם ההטמעות מנורמל, ואז מכפלת המכפלה וקוסינוס

המרחק של האקלדים

זה המרחק הרגיל באוקלדית המרחב המשותף, \(s(q, x) = \|q - x\| = \left[ \sum_{i = 1}^d (q_i - x_i)^2\right]^{\frac{1}{2}}\). מרחק קטן יותר פירושו דמיון גבוה יותר. שימו לב שכאשר ההטמעות מוטמעות הם מנורמלים, המרחק בסגנון אוקלידי בריבוע חופף למכפלה של נקודות (וקוסינוס) עד למספר קבוע, כי פנייה \(\frac{1}{2}\|q - x\|^2 = 1 - \langle q, x \rangle\).

תמונה שמציגה מרחב הטמעה דו-ממדי, שמכיל הטמעת שאילתות ושלושה פריטים מועמדים.

השוואה בין מדדי דמיון

חשבו על הדוגמה באיור משמאל. הווקטור השחור ממחיש הטמעה של שאילתות. שלושת וקטורי ההטמעה האחרים (פריט א', פריט ב', פריט ג') שמייצגים פריטים אפשריים. בהתאם למידת הדמיון שבה נעשה שימוש, הפרמטר של הפריטים יכול להיות שונה.

בעזרת התמונה, נסו לקבוע את דירוג הפריט באמצעות כל שלושת מידות דמיון: קוסינוס, מכפלת נקודות ומרחק אוקלדלי.

איזו מידת דמיון?

בהשוואה לקוסינוס, הדמיון בין מכפלת הנקודות רגיש את הנורמה של ההטמעה. כלומר, ככל שהנורמה גדולה יותר כך יש דמיון רב יותר (לפריטים עם זווית חדה) והסבירות שיומלצו על הפריט עולה. המצב הזה יכול להשפיע על באופן הבא:

  • פריטים שמופיעים בתדירות גבוהה מאוד בערכת האימון (למשל, סרטונים פופולריים ב-YouTube) כוללים בדרך כלל הטמעות עם נורמות גדולות. אם אתם רוצים לתעד נתוני פופולריות, כדאי לכם עם העדפת מוצר נקודה. עם זאת, אם לא תזהרו, פריטים מסוימים עלולים לשלוט בהמלצות. בפועל, יכול להשתמש בווריאציות אחרות של מדדי דמיון עם פחות הדגשה בנורמה של הפריט. לדוגמה, הגדירו \(s(q, x) = \|q\|^\alpha \|x\|^\alpha \cos(q, x)\) עבור חלק \(\alpha \in (0, 1)\).

  • פריטים שמופיעים לעתים רחוקות מאוד לא יתעדכנו בתדירות גבוהה באימון. לכן, אם הם מאותחלים בנורמה גדולה, ייתכן שהמערכת תמליץ על פריטים נדירים במקום פריטים רלוונטיים יותר. כדי להימנע מכך להיות זהירים לגבי אתחול הטמעה ושימוש הרגולריזציה. נפרט את הבעיה הזו בתרגיל הראשון.