これで、任意の例のペアのエンベディングが作成されました。教師ありの類似性測定は、これらのエンベディングを受け取り、類似性を測定する数値を返します。エンベディングは数値のベクトルです。2 つのベクトル \(A = [a_1,a_2,...,a_n]\) と \(B = [b_1,b_2,...,b_n]\)の類似性を確認するには、次の 3 つの類似性測定方法のいずれかを選択します。
測定 | 意味 | 数式 | 類似性が高まるにつれて、この指標は... |
---|---|---|---|
ユークリッド距離 | ベクトルの端間の距離 | \(\sqrt{(a_1-b_1)^2+(a_2-b_2)^2+...+(a_N-b_N)^2}\) | 減少 |
コサイン | ベクトル間の角度のコサイン \(\theta\) | \(\frac{a^T b}{|a| \cdot |b|}\) | 増加 |
内積 | コサイン × 両方のベクトルの長さ | \(a_1b_1+a_2b_2+...+a_nb_n\) \(=|a||b|cos(\theta)\) | 増加します。ベクトルの長さとともに増加します。 |
類似性測度の選択
コサインとは対照的に、ドット積はベクトルの長さに比例します。これは、トレーニング セットで非常に頻繁に出現する例(人気のある YouTube 動画など)は、長いエンベディング ベクトルを持つ傾向があるため重要です。 人気度を取得する場合は、ドット積を選択します。ただし、人気のある例が類似性指標を歪めるリスクがあります。この偏りを調整するには、長さを指数 \(\alpha\ < 1\) に上げると、ドット積を \(|a|^{\alpha}|b|^{\alpha}\cos(\theta)\)として計算できます。
ベクトルの長さが類似性測定値にどのように影響するかをより深く理解するには、ベクトルの長さを 1 に正規化し、3 つの測定値が互いに比例していることを確認します。
- ユークリッド距離 = \(||a-b|| = \sqrt{||a||^2 + ||b||^2 - 2a^{T}b} = \sqrt{2-2\cos(\theta_{ab})}\)。
- ドット積 = \( |a||b| \cos(\theta_{ab}) = 1\cdot1\cdot \cos(\theta_{ab}) = cos(\theta_{ab})\)。
- コサイン = \(\cos(\theta_{ab})\)。
類似性測度の確認
類似度指標は、他のサンプルペアと比較して、サンプルペア間の類似度を定量化します。手動と教師ありの 2 つのタイプを以下に比較します。
タイプ | 作成方法 | 最適な用途 | 影響 |
---|---|---|---|
手動 | 対象物データを手動で結合する。 | 結合が簡単な特徴を含む小規模なデータセット。 | 類似度計算の結果に関する分析情報を提供します。特徴データが変更された場合は、類似性測定値を手動で更新する必要があります。 |
管理対象 | 教師あり DNN によって生成されたエンベディング間の距離を測定します。 | 結合が難しい特徴を含む大規模なデータセット。 | 結果に関する分析情報は提供されません。一方、DNN は変化する特徴データに自動的に適応できます。 |