在上圖中,如果希望
b
更貼近個人需求
比 c
還高 a
,應該選擇哪個指標?點產品
答對了!內積會和餘弦和
超過 50% 的向量長度雖然餘弦的餘弦較高
由
b
和 c
組成,比形成角
乘以 b
和 a
,則向量長度的加長
a
會做出 a
和
b
大於 b
的內積和
c
。
餘弦
餘弦只取決於向量之間的角度,較小
角 \(\theta_{bc}\) 使 \(\cos(\theta_{bc})\) 大於
\(\cos(\theta_{ab})\)。
歐幾里德距離
距離 \(\vec{bc}\) 小於 \(\vec{ab}\),離開
b
比 c
更靠近「a
」。您要計算音樂影片的相似度。長度
嵌入向量的音樂影片與影片熱門程度成正比。個人中心
從餘弦切換至內積來計算相似度。做法
音樂影片之間的相似度是否有所不同?
一般而言,熱門影片與所有影片的相似程度較高。
由於內積會受兩個向量的長度影響,
大型向量長度的長短影片,會讓影片更貼近所有影片
影片。
熱門影片比其他熱門影片更加相似。
提醒您,內積的計算方式為 \(|a||b|\cos(\theta)\)。
假設
a
是熱門音樂影片,我們知道
嵌入長度 ( \(|a|\)) 大於非熱門影片的比例。
長度越大,
不限 \(|b|\)的值。因此熱門影片
不像其他熱門影片,反而更加貼近其他所有影片。
比起熱門影片,熱門影片的差異不如以往
較不受歡迎的影片。
隨著內積產品隨著向量長度增加
向量長度就會增加,相似度度量則會增加,而非則會下降。
沒有變更
圓點產品會受到向量長度影響。高向量長度
熱門影片會改變 (先前為餘弦) 相似度指標。
假設你切換回先前問題的設定
從內積轉換成餘弦音樂影片之間的相似度有何變化?
熱門影片與所有影片都不相似。
由於餘弦不受向量長度影響,所以大型向量
熱門影片嵌入之長度無法帶來相似性。
因此,從內積產品改用餘弦會降低相似度
比較熱門影片和其他所有影片的成效
熱門影片跟所有影片都更相似。
餘弦不受向量長度影響,因此可從中點切換
就會導致所有熱門影片的相似度下降。
熱門影片之間的差異變得比較相似。
餘弦不受向量長度影響,因此可從中點切換
就會導致所有熱門影片的相似度下降。
沒有變更
由於餘弦不受向量長度的影響
從內積產品換到餘弦會改變相似性。