מדידת הדמיון בין הטמעות

עכשיו יש לכם הטמעות לכל צמד דוגמאות. דמיון בפיקוח המילה 'מודדת' לוקחת את ההטמעות האלה ומחזירה מספר שמודד את הדמיון שלהן. חשוב לזכור שהטמעות הן וקטורים של מספרים. כדי למצוא את הדמיון בין שני וקטורים \(A = [a_1,a_2,...,a_n]\) וגם \(B = [b_1,b_2,...,b_n]\), לבחור אחד משלושת מדדי הדמיון הבאים:

מדידהמשמעותנוסחה ככל שהדמיון גדל, המדד הזה...
המרחק של האקלדיםהמרחק בין הקצוות של וקטורים \(\sqrt{(a_1-b_1)^2+(a_2-b_2)^2+...+(a_N-b_N)^2}\) ירידות
קוסינוסקוסינוס זווית \(\theta\) בין וקטורים \(\frac{a^T b}{|a| \cdot |b|}\) עליות
מכפלהקוסינוס כפול האורך של שני הווקטורים \(a_1b_1+a_2b_2+...+a_nb_n\) \(=|a||b|cos(\theta)\) עלייה. גדל גם לאורך של וקטורים.

בחירת מדד הדמיון

בניגוד לקוסינוס, המכפלה של הנקודה פרופורציונלית לאורך הווקטור. זה חשוב כי דוגמאות שמופיעות לעיתים קרובות מאוד בהדרכה (לדוגמה, סרטונים פופולריים ב-YouTube) יש בדרך כלל וקטורי הטמעה באורכים גדולים. אם אם רוצים לתעד את הפופולריות, ואז לבחור מוצר נקודה. אבל, הסיכון הוא דוגמאות פופולריות עשויות להטות את מדד הדמיון. כדי לאזן את ההטיה הזו, אפשר צריך להגדיל את האורך למעריך \(\alpha\ < 1\) כדי לחשב את המכפלה שלו בתור \(|a|^{\alpha}|b|^{\alpha}\cos(\theta)\).

כדי להבין טוב יותר כיצד אורך הווקטור משנה את מידת הדמיון, נרמול שאורך הווקטור הוא 1, ומבחין בכך ששלושת המדידות הופכות לפרופורציונליות. שתי רשתות נוירונים זו מול זו.

הוכחה: פרופורציונליות של מדדי דמיון
אחרי נירמול של a ו-b כך ש \(||a||=1\) וגם \(||b||=1\), שלושת המדדים האלה קשורים כך:
  • המרחק של אוקלדיה = \(||a-b|| = \sqrt{||a||^2 + ||b||^2 - 2a^{T}b} = \sqrt{2-2\cos(\theta_{ab})}\).
  • נקודה = \( |a||b| \cos(\theta_{ab}) = 1\cdot1\cdot \cos(\theta_{ab}) = cos(\theta_{ab})\).
  • קוסינוס = \(\cos(\theta_{ab})\).
כך, כל שלושת מדדי הדמיון שוות ערך מכיוון שהם ביחס ל- \(cos(\theta_{ab})\).

בדיקה של מדדי דמיון

מדד דמיון מכמת את הדמיון בין צמדים ביחס לצמדים אחרים של דוגמאות. שני הסוגים: בפיקוח ההורים, אפשר להשוות ביניהם:

סוגאיך יוצרים סרטוני Shortsהכי טוב עבורהשלכות
ידנילשלב את נתוני התכונות באופן ידני. מערכי נתונים קטנים עם תכונות שקל לשלב אותן. מספקת תובנות לגבי התוצאות של חישובי הדמיון. אם מאפיין שינויים בנתונים, תצטרכו לעדכן באופן ידני את מידת הדמיון.
בפיקוחמדידת המרחק בין הטמעות שנוצרו על ידי DNN בפיקוח. מערכי נתונים גדולים עם תכונות שקשה לשלב. לא מספק תובנות לגבי התוצאות. עם זאת, ה-DNN יכול להתאים את עצמו באופן אוטומטי לשינוי נתוני תכונות.