עכשיו יש לכם הטמעות לכל זוג דוגמאות. מדד הדמיון בפיקוח מקבל את הטמעות הנתונים האלה ומחזיר מספר שמודד את הדמיון ביניהן. חשוב לזכור שהטמעות הן וקטורים של מספרים. כדי למצוא את הדמיון בין שני וקטורים ו- , בוחרים באחד משלושת מדדי הדמיון הבאים:
מדידה | משמעות | נוסחה | ככל שהדמיון גדל, המדד הזה... |
---|---|---|---|
מרחק אוקלידי | המרחק בין הקצוות של הווקטורים | ירידה | |
קוסינוס | קוסינוס הזווית בין וקטורים | עלייה | |
מכפלת נקודה | קוסינוס כפול אורכי שני הווקטורים | עולה. הוא גם גדל עם אורך הווקטורים. |
בחירת מדד דמיון
בניגוד לקוסינוס, מכפלת הנקודות היא פרופורציונלית לאורך הווקטור. זה חשוב כי לדוגמאות שמופיעות לעיתים קרובות מאוד בקבוצת האימון (למשל, סרטונים פופולריים ב-YouTube) יש נטייה לקבל וקטורים של הטמעה באורך גדול. אם רוצים לתעד את הפופולריות, בוחרים במכפלת נקודה. עם זאת, יש סיכון שדוגמאות פופולריות יטעו את מדד הדמיון. כדי לאזן את הנטייה הזו, אפשר להעלות את האורך בחזקה כדי לחשב את המכפלה הסקלרית כ- .
כדי להבין טוב יותר איך אורך הווקטור משנה את מדד הדמיון, מנרמלים את אורכי הווקטור ל-1 ומבחינים בכך ששלושת המדדים הופכים להיות פרופורציוניים זה לזה.
- המרחק האוקלידי = .
- מכפלת נקודה = .
- קוסינוס = .
בדיקה של מדדי הדמיון
מדד הדמיון מחשב את הדמיון בין שתי דוגמאות, ביחס לזוגות אחרים של דוגמאות. בהמשך מופיעה השוואה בין שני הסוגים, ידני ומפוקח:
סוג | איך יוצרים | הכי טוב עבור | השלכות |
---|---|---|---|
ידני | שילוב ידני של נתוני תכונות. | מערכי נתונים קטנים עם תכונות שקל לשלב. | נותן תובנות לגבי תוצאות חישובי הדמיון. אם נתוני המאפיינים משתנים, צריך לעדכן את מדד הדמיון באופן ידני. |
בפיקוח | מדידת המרחק בין הטמעות (embeddings) שנוצרו על ידי DNN בפיקוח. | מערכי נתונים גדולים עם תכונות שקשה לשלב. | לא מספקת תובנות לגבי התוצאות. עם זאת, רשת עצבית עמוקה יכולה להתאים את עצמה באופן אוטומטי לשינויים בנתוני המאפיינים. |