在上述圖片中,如果您希望
b
更接近 a
而非 c
,應選擇哪個評估指標?點積
答對了!點積與餘弦和向量長度成正比。因此,即使
b
和 c
形成的角度的餘弦比 b
和 a
形成的角度還要高,但 a
的向量長度較長,因此 a
和 b
的點積會大於 b
和 c
的點積。餘弦
餘弦值只取決於向量之間的角度,角度越小 \(\theta_{bc}\) , \(\cos(\theta_{bc})\) 就會大於 \(\cos(\theta_{ab})\)。
歐幾里得距離
距離 \(\vec{bc}\) 小於 \(\vec{ab}\),因此
b
會比a
更靠近 c
。你要計算音樂影片的相似度。音樂影片的嵌入向量長度與其熱門程度成正比。您可以從餘弦切換為點積,以便計算相似度。音樂影片的相似度如何變化?
熱門影片與其他影片的相似性會提高。
由於內積會受到兩個向量長度的影響,因此熱門影片的向量長度越長,就會越接近所有影片。
熱門影片只會與其他熱門影片更相似。
請注意,內積的計算方式為 \(|a||b|\cos(\theta)\)。假設
a
是熱門音樂影片,我們知道其內嵌長度 \(|a|\)會大於不受歡迎的影片。長度越長,點積積乘積就會增加,無論 \(|b|\)的值為何。因此,熱門影片會變得更像所有其他影片,而非只與其他熱門影片相似。熱門影片之間的相似性會低於不那麼熱門的影片。
由於點積積算法會隨著向量長度增加,而熱門影片的向量長度很高,因此相似度評估值會增加,不會減少。
沒有變更。
點積會受到向量長度的影響。熱門影片的向量長度較長,會影響相似度評估 (先前為餘弦)。
假設您從內積切換回餘弦,並採用與上一題相同的設定。音樂影片的相似度如何變化?
熱門影片與所有影片的相似度降低。
由於餘弦值不受向量長度影響,因此熱門影片嵌入向量的長度不會影響相似度。因此,從點積轉換成餘弦,可降低熱門影片與所有其他影片的相似度。
熱門影片會變得更相似。
餘弦不會受到向量長度影響,因此改用點積積算法會導致所有熱門影片的相似度降低。
熱門影片之間的相似性會越來越高。
餘弦不會受到向量長度影響,因此改用點積積算法會導致所有熱門影片的相似度降低。
沒有變更。
由於餘弦不會受到向量長度影響,而點積會受到影響,因此從點積切換為餘弦會改變相似度。