測量嵌入的相似性

現在您已擁有任一範例的嵌入。監督式相似度 測量的是這些嵌入,然後傳回一個數字來測量它們的相似度。 請注意,嵌入是數字向量。如要找出 建立兩個向量 \(A = [a_1,a_2,...,a_n]\) 以及 \(B = [b_1,b_2,...,b_n]\) 請從下列三種相似度量中擇一使用:

測量意義公式 隨著相似度增加,這個指標...
歐幾里德距離向量末端間的距離 \(\sqrt{(a_1-b_1)^2+(a_2-b_2)^2+...+(a_N-b_N)^2}\) 減少
餘弦向量之間 \(\theta\) 角度的餘弦 \(\frac{a^T b}{|a| \cdot |b|}\) 增加
點產品餘弦乘以兩個向量的長度 \(a_1b_1+a_2b_2+...+a_nb_n\) \(=|a||b|cos(\theta)\) 增加。也會隨著向量長度增加。

選擇相似度量單位

相對於餘弦,內積與向量長度成正比。 這項資訊十分重要,因為訓練中經常出現的範例 (例如熱門 YouTube 影片) 通常都有嵌入向量 長篇內容。 如果發生以下情況: 就是要掌握熱門程度 請選擇內積然而,風險是 常見的例子可能導致相似度指標出現偏差。如要平衡偏差 將長度提高為指數 \(\alpha\ < 1\) 即可計算內積 \(|a|^{\alpha}|b|^{\alpha}\cos(\theta)\)。

如要進一步瞭解向量長度如何改變相似度量,請將 將向量長度縮減為 1,請注意,這三種度量 互相交流

證明:相似度度量的比例
將 a 和 b 正規化後, \(||a||=1\) 和 \(||b||=1\) 這三項評估指標具有以下關聯:
  • 厄瓜多距離 = \(||a-b|| = \sqrt{||a||^2 + ||b||^2 - 2a^{T}b} = \sqrt{2-2\cos(\theta_{ab})}\)。
  • 點號乘積 = \( |a||b| \cos(\theta_{ab}) = 1\cdot1\cdot \cos(\theta_{ab}) = cos(\theta_{ab})\)。
  • 餘弦 = \(\cos(\theta_{ab})\)。
因此,這三項相似度指標相等,因為 正比 \(cos(\theta_{ab})\)。

評估相似度指標

相似度量會量化一對資料集 與其他樣本的相對概念分別是手動和 監督式模型的差異如下:

類型建立方式適用情境影響
手動手動合併特徵資料。 具備可輕鬆整合特徵的小型資料集。 提供相似度計算結果的深入分析資訊。如果功能 資料變更,必須手動更新相似度測量結果。
監督式測量 建立受監督的 DNN 特徵難以組合的大型資料集。 不提供結果的深入分析。不過,DNN 可以 變更特徵資料