Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

エンベディングからの類似度の測定

これで、任意の例のペアのエンベディングが作成されました。教師ありの類似性測定は、これらのエンベディングを受け取り、類似性を測定する数値を返します。エンベディングは数値のベクトルです。2 つのベクトル \(A = [a_1,a_2,...,a_n]\) と \(B = [b_1,b_2,...,b_n]\)の類似性を確認するには、次の 3 つの類似性測定方法のいずれかを選択します。

測定	意味	数式	類似性が高まるにつれて、この指標は...
ユークリッド距離	ベクトルの端間の距離	\(\sqrt{(a_1-b_1)^2+(a_2-b_2)^2+...+(a_N-b_N)^2}\)	減少
コサイン	ベクトル間の角度のコサイン \(\theta\)	\(\frac{a^T b}{\|a\| \cdot \|b\|}\)	増加
内積	コサイン × 両方のベクトルの長さ	\(a_1b_1+a_2b_2+...+a_nb_n\) \(=\|a\|\|b\|cos(\theta)\)	増加します。ベクトルの長さとともに増加します。

類似性測度の選択

コサインとは対照的に、ドット積はベクトルの長さに比例します。これは、トレーニングセットで非常に頻繁に出現する例（人気のある YouTube 動画など）は、長いエンベディングベクトルを持つ傾向があるため重要です。人気度を取得する場合は、ドット積を選択します。ただし、人気のある例が類似性指標を歪めるリスクがあります。この偏りを調整するには、長さを指数 \(\alpha\ < 1\) に上げると、ドット積を \(|a|^{\alpha}|b|^{\alpha}\cos(\theta)\)として計算できます。

ベクトルの長さが類似性測定値にどのように影響するかをより深く理解するには、ベクトルの長さを 1 に正規化し、3 つの測定値が互いに比例していることを確認します。

証明: 類似性測度の比例性

a と b を \(||a||=1\) と \(||b||=1\)のように正規化すると、これらの 3 つの測定値は次のように関連します。

ユークリッド距離 = \(||a-b|| = \sqrt{||a||^2 + ||b||^2 - 2a^{T}b} = \sqrt{2-2\cos(\theta_{ab})}\)。
ドット積 = \( |a||b| \cos(\theta_{ab}) = 1\cdot1\cdot \cos(\theta_{ab}) = cos(\theta_{ab})\)。
コサイン = \(\cos(\theta_{ab})\)。

したがって、3 つの類似性測定はすべて \(cos(\theta_{ab})\)に比例するため、同等です。

類似性測度の確認

類似度指標は、他のサンプルペアと比較して、サンプルペア間の類似度を定量化します。手動と教師ありの 2 つのタイプを以下に比較します。

タイプ	作成方法	最適な用途	影響
手動	対象物データを手動で結合する。	結合が簡単な特徴を含む小規模なデータセット。	類似度計算の結果に関する分析情報を提供します。特徴データが変更された場合は、類似性測定値を手動で更新する必要があります。
管理対象	教師あり DNN によって生成されたエンベディング間の距離を測定します。	結合が難しい特徴を含む大規模なデータセット。	結果に関する分析情報は提供されません。一方、DNN は変化する特徴データに自動的に適応できます。

オートエンコーダ、予測子、エンベディング

理解度を確認する

エンベディングからの類似度の測定 コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

類似性測度の選択

類似性測度の確認

エンベディングからの類似度の測定