現在您已擁有任一範例的嵌入。監督式相似度 測量的是這些嵌入,然後傳回一個數字來測量它們的相似度。 請注意,嵌入是數字向量。如要找出 建立兩個向量 \(A = [a_1,a_2,...,a_n]\) 以及 \(B = [b_1,b_2,...,b_n]\) 請從下列三種相似度量中擇一使用:
測量 | 意義 | 公式 | 隨著相似度增加,這個指標... |
---|---|---|---|
歐幾里德距離 | 向量末端間的距離 | \(\sqrt{(a_1-b_1)^2+(a_2-b_2)^2+...+(a_N-b_N)^2}\) | 減少 |
餘弦 | 向量之間 \(\theta\) 角度的餘弦 | \(\frac{a^T b}{|a| \cdot |b|}\) | 增加 |
點產品 | 餘弦乘以兩個向量的長度 | \(a_1b_1+a_2b_2+...+a_nb_n\) \(=|a||b|cos(\theta)\) | 增加。也會隨著向量長度增加。 |
選擇相似度量單位
相對於餘弦,內積與向量長度成正比。 這項資訊十分重要,因為訓練中經常出現的範例 (例如熱門 YouTube 影片) 通常都有嵌入向量 長篇內容。 如果發生以下情況: 就是要掌握熱門程度 請選擇內積然而,風險是 常見的例子可能導致相似度指標出現偏差。如要平衡偏差 將長度提高為指數 \(\alpha\ < 1\) 即可計算內積 \(|a|^{\alpha}|b|^{\alpha}\cos(\theta)\)。
如要進一步瞭解向量長度如何改變相似度量,請將 將向量長度縮減為 1,請注意,這三種度量 互相交流
證明:相似度度量的比例
將 a 和 b 正規化後, \(||a||=1\) 和 \(||b||=1\)
這三項評估指標具有以下關聯:
- 厄瓜多距離 = \(||a-b|| = \sqrt{||a||^2 + ||b||^2 - 2a^{T}b} = \sqrt{2-2\cos(\theta_{ab})}\)。
- 點號乘積 = \( |a||b| \cos(\theta_{ab}) = 1\cdot1\cdot \cos(\theta_{ab}) = cos(\theta_{ab})\)。
- 餘弦 = \(\cos(\theta_{ab})\)。
評估相似度指標
相似度量會量化一對資料集 與其他樣本的相對概念分別是手動和 監督式模型的差異如下:
類型 | 建立方式 | 適用情境 | 影響 |
---|---|---|---|
手動 | 手動合併特徵資料。 | 具備可輕鬆整合特徵的小型資料集。 | 提供相似度計算結果的深入分析資訊。如果功能 資料變更,必須手動更新相似度測量結果。 |
監督式 | 測量 建立受監督的 DNN | 特徵難以組合的大型資料集。 | 不提供結果的深入分析。不過,DNN 可以 變更特徵資料 |