本頁面由 Cloud Translation API 翻譯而成。

測量嵌入的相似性

您現在已為任何一組範例建立嵌入。受控相似度評估會採用這些嵌入資料，並傳回用於評估相似度的數字。請注意，嵌入是數字向量。如要找出兩個向量 \(A = [a_1,a_2,...,a_n]\) 和 \(B = [b_1,b_2,...,b_n]\)之間的相似度，請選擇下列三種相似度評估方法之一：

測量	意義	公式	隨著相似度增加，這項指標...
歐幾里得距離	向量端點之間的距離	\(\sqrt{(a_1-b_1)^2+(a_2-b_2)^2+...+(a_N-b_N)^2}\)	減少
餘弦	向量間角度的餘弦值 \(\theta\)	\(\frac{a^T b}{\|a\| \cdot \|b\|}\)	增加
點積	餘弦乘以兩個向量的長度	\(a_1b_1+a_2b_2+...+a_nb_n\) \(=\|a\|\|b\|cos(\theta)\)	增加。也會隨著向量長度增加。

選擇相似度評估指標

與餘弦相反，點積與向量長度成正比。這一點很重要，因為在訓練集 (例如熱門 YouTube 影片) 中經常出現的範例，其嵌入向量通常長度較長。如果您想擷取熱門程度，請選擇 dot product。不過，熱門範例可能會扭曲相似度指標，為平衡這種偏差，您可以將長度提升為指數 \(\alpha\ < 1\) ，以便計算內積為 \(|a|^{\alpha}|b|^{\alpha}\cos(\theta)\)。

為進一步瞭解向量長度如何影響相似度評估，請將向量長度標準化為 1，並注意到這三項評估會彼此成比例。

證明：相似度測量方法的比例

將 a 和 b 標準化後， \(||a||=1\) 和 \(||b||=1\)，這三個指標的關係如下：

歐幾里得距離 = \(||a-b|| = \sqrt{||a||^2 + ||b||^2 - 2a^{T}b} = \sqrt{2-2\cos(\theta_{ab})}\)。
內積 = \( |a||b| \cos(\theta_{ab}) = 1\cdot1\cdot \cos(\theta_{ab}) = cos(\theta_{ab})\)。
餘弦 = \(\cos(\theta_{ab})\)。

因此，三種相似度評估方式都相等，因為它們都與 \(cos(\theta_{ab})\)成正比。

查看相似度評估

相似度評估指標會根據其他組合的相似度，量化一組範例的相似度。以下比較手動和監督兩種類型：

類型	建立方式	最適合	影響
手動	手動合併特徵資料。	資料集較小，且內含可輕鬆合併的功能。	提供相似度計算結果的洞察資料。如果特徵資料有所變更，您必須手動更新相似度評估指標。
監督式	測量受控 DNN 產生的嵌入項目之間的距離。	包含難以合併特徵的大型資料集。	無法提供結果洞察。不過，DNN 可自動調整以因應變化的特徵資料。

自動編碼器、預測器和嵌入

進行隨堂測驗

測量嵌入的相似性 透過集合功能整理內容 你可以依據偏好儲存及分類內容。

選擇相似度評估指標

查看相似度評估

測量嵌入的相似性