עכשיו יש לכם הטמעות לכל צמד דוגמאות. דמיון בפיקוח המילה 'מודדת' לוקחת את ההטמעות האלה ומחזירה מספר שמודד את הדמיון שלהן. חשוב לזכור שהטמעות הן וקטורים של מספרים. כדי למצוא את הדמיון בין שני וקטורים \(A = [a_1,a_2,...,a_n]\) וגם \(B = [b_1,b_2,...,b_n]\), לבחור אחד משלושת מדדי הדמיון הבאים:
מדידה | משמעות | נוסחה | ככל שהדמיון גדל, המדד הזה... |
---|---|---|---|
המרחק של האקלדים | המרחק בין הקצוות של וקטורים | \(\sqrt{(a_1-b_1)^2+(a_2-b_2)^2+...+(a_N-b_N)^2}\) | ירידות |
קוסינוס | קוסינוס זווית \(\theta\) בין וקטורים | \(\frac{a^T b}{|a| \cdot |b|}\) | עליות |
מכפלה | קוסינוס כפול האורך של שני הווקטורים | \(a_1b_1+a_2b_2+...+a_nb_n\) \(=|a||b|cos(\theta)\) | עלייה. גדל גם לאורך של וקטורים. |
בחירת מדד הדמיון
בניגוד לקוסינוס, המכפלה של הנקודה פרופורציונלית לאורך הווקטור. זה חשוב כי דוגמאות שמופיעות לעיתים קרובות מאוד בהדרכה (לדוגמה, סרטונים פופולריים ב-YouTube) יש בדרך כלל וקטורי הטמעה באורכים גדולים. אם אם רוצים לתעד את הפופולריות, ואז לבחור מוצר נקודה. אבל, הסיכון הוא דוגמאות פופולריות עשויות להטות את מדד הדמיון. כדי לאזן את ההטיה הזו, אפשר צריך להגדיל את האורך למעריך \(\alpha\ < 1\) כדי לחשב את המכפלה שלו בתור \(|a|^{\alpha}|b|^{\alpha}\cos(\theta)\).
כדי להבין טוב יותר כיצד אורך הווקטור משנה את מידת הדמיון, נרמול שאורך הווקטור הוא 1, ומבחין בכך ששלושת המדידות הופכות לפרופורציונליות. שתי רשתות נוירונים זו מול זו.
- המרחק של אוקלדיה = \(||a-b|| = \sqrt{||a||^2 + ||b||^2 - 2a^{T}b} = \sqrt{2-2\cos(\theta_{ab})}\).
- נקודה = \( |a||b| \cos(\theta_{ab}) = 1\cdot1\cdot \cos(\theta_{ab}) = cos(\theta_{ab})\).
- קוסינוס = \(\cos(\theta_{ab})\).
בדיקה של מדדי דמיון
מדד דמיון מכמת את הדמיון בין צמדים ביחס לצמדים אחרים של דוגמאות. שני הסוגים: בפיקוח ההורים, אפשר להשוות ביניהם:
סוג | איך יוצרים סרטוני Shorts | הכי טוב עבור | השלכות |
---|---|---|---|
ידני | לשלב את נתוני התכונות באופן ידני. | מערכי נתונים קטנים עם תכונות שקל לשלב אותן. | מספקת תובנות לגבי התוצאות של חישובי הדמיון. אם מאפיין שינויים בנתונים, תצטרכו לעדכן באופן ידני את מידת הדמיון. |
בפיקוח | מדידת המרחק בין הטמעות שנוצרו על ידי DNN בפיקוח. | מערכי נתונים גדולים עם תכונות שקשה לשלב. | לא מספק תובנות לגבי התוצאות. עם זאת, ה-DNN יכול להתאים את עצמו באופן אוטומטי לשינוי נתוני תכונות. |