測量嵌入的相似性

您現在已為任何一組範例建立嵌入。受控相似度評估會採用這些嵌入資料,並傳回用於評估相似度的數字。請注意,嵌入是數字向量。如要找出兩個向量 A=[a1,a2,...,an]B=[b1,b2,...,bn]之間的相似度,請選擇下列三種相似度評估方法之一:

測量意義公式 隨著相似度增加,這項指標...
歐幾里得距離向量端點之間的距離 (a1b1)2+(a2b2)2+...+(aNbN)2 減少
餘弦向量間角度的餘弦值 θ aTb|a||b| 增加
點積餘弦乘以兩個向量的長度 a1b1+a2b2+...+anbn =|a||b|cos(θ) 增加。也會隨著向量長度增加。

選擇相似度評估指標

與餘弦相反,點積與向量長度成正比。這一點很重要,因為在訓練集 (例如熱門 YouTube 影片) 中經常出現的範例,其嵌入向量通常長度較長。 如果您想擷取熱門程度,請選擇 dot product。不過,熱門範例可能會扭曲相似度指標,為平衡這種偏差,您可以將長度提升為指數 α <1 ,以便計算內積為 |a|α|b|αcos(θ)

為進一步瞭解向量長度如何影響相似度評估,請將向量長度標準化為 1,並注意到這三項評估會彼此成比例。

證明:相似度測量方法的比例
將 a 和 b 標準化後, ||a||=1||b||=1,這三個指標的關係如下:
  • 歐幾里得距離 = ||ab||=||a||2+||b||22aTb=22cos(θab)
  • 內積 = |a||b|cos(θab)=11cos(θab)=cos(θab)
  • 餘弦 = cos(θab)
因此,三種相似度評估方式都相等,因為它們都與 cos(θab)成正比。

查看相似度評估

相似度評估指標會根據其他組合的相似度,量化一組範例的相似度。以下比較手動和監督兩種類型:

類型建立方式最適合影響
手動手動合併特徵資料。 資料集較小,且內含可輕鬆合併的功能。 提供相似度計算結果的洞察資料。如果特徵資料有所變更,您必須手動更新相似度評估指標。
監督式測量受控 DNN 產生的嵌入項目之間的距離。 包含難以合併特徵的大型資料集。 無法提供結果洞察。不過,DNN 可自動調整以因應變化的特徵資料。