衡量嵌入的相似度

现在,任何一对样本都有嵌入。监督式相似度 会采用这些嵌入,并返回测量其相似度的数字。 请记住,嵌入是数字的向量。为了找出两者之间的相似度, 两个矢量 \(A = [a_1,a_2,...,a_n]\) 和 \(B = [b_1,b_2,...,b_n]\), 请从以下三种相似性度量中选择一种:

测量含义公式 随着相似度的提高,此衡量指标...
欧几里得距离矢量两端之间的距离 \(\sqrt{(a_1-b_1)^2+(a_2-b_2)^2+...+(a_N-b_N)^2}\) 减少
余弦向量之间 \(\theta\) 角度的余弦 \(\frac{a^T b}{|a| \cdot |b|}\) 提高
点积余弦乘以两个向量的长度 \(a_1b_1+a_2b_2+...+a_nb_n\) \(=|a||b|cos(\theta)\) 增加。也会随着矢量的长度而增加。

选择相似度度量

与余弦相反,点积与矢量长度成正比。 这一点很重要,因为样本在训练中非常频繁地出现, 集(例如热门 YouTube 视频)的嵌入向量往往 大型语言模型。 如果您 然后选择“点积”不过,存在的风险是 热门样本可能会导致相似度指标出现偏差。为了平衡这种偏差,您可以 将长度增加到指数 \(\alpha\ < 1\) 即可计算点积 以 \(|a|^{\alpha}|b|^{\alpha}\cos(\theta)\)的身份使用。

为了更好地了解向量长度如何改变相似度度量,请归一化 将向量长度设为 1,您会发现这三个量度成正比, 相互通信。

证明:相似性指标的比例性
将 a 和 b 归一化,以使 \(||a||=1\) 和 \(||b||=1\): 这三个评估指标之间的关系如下:
  • 欧几里得距离 = \(||a-b|| = \sqrt{||a||^2 + ||b||^2 - 2a^{T}b} = \sqrt{2-2\cos(\theta_{ab})}\)。
  • 点积 = \( |a||b| \cos(\theta_{ab}) = 1\cdot1\cdot \cos(\theta_{ab}) = cos(\theta_{ab})\)。
  • 余弦 = \(\cos(\theta_{ab})\)。
。 因此,这三个相似性度量是等效的,因为它们 成比例: \(cos(\theta_{ab})\)。

相似性度量回顾

相似性度量量化 是相对的。有两种类型:手动和 下面是监督式学习的比较对象:

类型如何创建适用的情形影响
手动手动合并特征数据。 具有易于组合的特征的小型数据集。 可深入了解相似度计算的结果。If 特征 必须手动更新相似度衡量。
受监管测量通过 监督式 DNN。 具有难以组合特征的大型数据集。 不提供有关结果的数据分析。然而,DNN 可以 以及更改特征数据。