מדידת הדמיון בין הטמעות

עכשיו יש לכם הטמעות לכל זוג דוגמאות. מדד הדמיון בפיקוח מקבל את הטמעות הנתונים האלה ומחזיר מספר שמודד את הדמיון ביניהן. חשוב לזכור שהטמעות הן וקטורים של מספרים. כדי למצוא את הדמיון בין שני וקטורים A=[a1,a2,...,an] ו- B=[b1,b2,...,bn], בוחרים באחד משלושת מדדי הדמיון הבאים:

מדידהמשמעותנוסחה ככל שהדמיון גדל, המדד הזה...
מרחק אוקלידיהמרחק בין הקצוות של הווקטורים (a1b1)2+(a2b2)2+...+(aNbN)2 ירידה
קוסינוסקוסינוס הזווית θ בין וקטורים aTb|a||b| עלייה
מכפלת נקודהקוסינוס כפול אורכי שני הווקטורים a1b1+a2b2+...+anbn =|a||b|cos(θ) עולה. הוא גם גדל עם אורך הווקטורים.

בחירת מדד דמיון

בניגוד לקוסינוס, מכפלת הנקודות היא פרופורציונלית לאורך הווקטור. זה חשוב כי לדוגמאות שמופיעות לעיתים קרובות מאוד בקבוצת האימון (למשל, סרטונים פופולריים ב-YouTube) יש נטייה לקבל וקטורים של הטמעה באורך גדול. אם רוצים לתעד את הפופולריות, בוחרים במכפלת נקודה. עם זאת, יש סיכון שדוגמאות פופולריות יטעו את מדד הדמיון. כדי לאזן את הנטייה הזו, אפשר להעלות את האורך בחזקה α <1 כדי לחשב את המכפלה הסקלרית כ- |a|α|b|αcos(θ).

כדי להבין טוב יותר איך אורך הווקטור משנה את מדד הדמיון, מנרמלים את אורכי הווקטור ל-1 ומבחינים בכך ששלושת המדדים הופכים להיות פרופורציוניים זה לזה.

הוכחה: פרופורציונליות של מדדי הדמיון
אחרי שמבצעים נורמליזציה של a ו-b כך ש- ||a||=1 ו- ||b||=1, שלושת המדדים האלה קשורים זה לזה באופן הבא:
  • המרחק האוקלידי = ||ab||=||a||2+||b||22aTb=22cos(θab).
  • מכפלת נקודה = |a||b|cos(θab)=11cos(θab)=cos(θab).
  • קוסינוס = cos(θab).
לכן, כל שלושת מדדי הדמיון זהים כי הם יחסיים ל- cos(θab).

בדיקה של מדדי הדמיון

מדד הדמיון מחשב את הדמיון בין שתי דוגמאות, ביחס לזוגות אחרים של דוגמאות. בהמשך מופיעה השוואה בין שני הסוגים, ידני ומפוקח:

סוגאיך יוצריםהכי טוב עבורהשלכות
ידנישילוב ידני של נתוני תכונות. מערכי נתונים קטנים עם תכונות שקל לשלב. נותן תובנות לגבי תוצאות חישובי הדמיון. אם נתוני המאפיינים משתנים, צריך לעדכן את מדד הדמיון באופן ידני.
בפיקוחמדידת המרחק בין הטמעות (embeddings) שנוצרו על ידי DNN בפיקוח. מערכי נתונים גדולים עם תכונות שקשה לשלב. לא מספקת תובנות לגבי התוצאות. עם זאת, רשת עצבית עמוקה יכולה להתאים את עצמה באופן אוטומטי לשינויים בנתוני המאפיינים.