现在,任何一对样本都有嵌入。监督式相似度 会采用这些嵌入,并返回测量其相似度的数字。 请记住,嵌入是数字的向量。为了找出两者之间的相似度, 两个矢量 \(A = [a_1,a_2,...,a_n]\) 和 \(B = [b_1,b_2,...,b_n]\), 请从以下三种相似性度量中选择一种:
测量 | 含义 | 公式 | 随着相似度的提高,此衡量指标... |
---|---|---|---|
欧几里得距离 | 矢量两端之间的距离 | \(\sqrt{(a_1-b_1)^2+(a_2-b_2)^2+...+(a_N-b_N)^2}\) | 减少 |
余弦 | 向量之间 \(\theta\) 角度的余弦 | \(\frac{a^T b}{|a| \cdot |b|}\) | 提高 |
点积 | 余弦乘以两个向量的长度 | \(a_1b_1+a_2b_2+...+a_nb_n\) \(=|a||b|cos(\theta)\) | 增加。也会随着矢量的长度而增加。 |
选择相似度度量
与余弦相反,点积与矢量长度成正比。 这一点很重要,因为样本在训练中非常频繁地出现, 集(例如热门 YouTube 视频)的嵌入向量往往 大型语言模型。 如果您 然后选择“点积”不过,存在的风险是 热门样本可能会导致相似度指标出现偏差。为了平衡这种偏差,您可以 将长度增加到指数 \(\alpha\ < 1\) 即可计算点积 以 \(|a|^{\alpha}|b|^{\alpha}\cos(\theta)\)的身份使用。
为了更好地了解向量长度如何改变相似度度量,请归一化 将向量长度设为 1,您会发现这三个量度成正比, 相互通信。
证明:相似性指标的比例性
将 a 和 b 归一化,以使 \(||a||=1\) 和 \(||b||=1\):
这三个评估指标之间的关系如下:
- 欧几里得距离 = \(||a-b|| = \sqrt{||a||^2 + ||b||^2 - 2a^{T}b} = \sqrt{2-2\cos(\theta_{ab})}\)。
- 点积 = \( |a||b| \cos(\theta_{ab}) = 1\cdot1\cdot \cos(\theta_{ab}) = cos(\theta_{ab})\)。
- 余弦 = \(\cos(\theta_{ab})\)。
相似性度量回顾
相似性度量量化 是相对的。有两种类型:手动和 下面是监督式学习的比较对象:
类型 | 如何创建 | 适用的情形 | 影响 |
---|---|---|---|
手动 | 手动合并特征数据。 | 具有易于组合的特征的小型数据集。 | 可深入了解相似度计算的结果。If 特征 必须手动更新相似度衡量。 |
受监管 | 测量通过 监督式 DNN。 | 具有难以组合特征的大型数据集。 | 不提供有关结果的数据分析。然而,DNN 可以 以及更改特征数据。 |