エンベディング: エンベディングの取得

エンベディングは、Google で作成された最先端のアルゴリズムなど、さまざまな方法で取得できます。

標準的な次元数の削減手法

低次元空間の高次元空間の重要な構造をとらえるには、多くの既存の数学的手法が存在します。理論上は、これらの手法のいずれかを使用して、機械学習システムのエンベディングを作成できます。

たとえば、主成分分析（PCA）を使用して単語のエンベディングを作成しています。PCA は、Bag of Words Vector のような一連のインスタンスを考慮して、相関性が高いディメンションを 1 つのディメンションに分解しようとします。

Word2vec

Word2vec は、単語のエンベディングをトレーニングするために Google が開発したアルゴリズムです。Word2vec では分布仮説に基づいて、意味的に類似した単語を幾何学的に近接する埋め込みベクトルにマッピングします。

分布仮説は、隣接する単語が同じである単語は、意味的に似ている傾向があることを示しています。「dog」と「cat」はどちらも「獣医」という言葉の近くによく登場します。この事実は、その意味の類似性を反映しています。言語学者の John Firth 氏が 1957 年に次のように述べました。

Word2Vec は、そのようなコンテキスト情報を利用し、ニューラルネットワークをトレーニングして、実際に発生する単語のグループをランダムにグループ化された単語から区別します。入力レイヤは、ターゲット単語と 1 つ以上のコンテキスト単語のスパース表現を取ります。この入力は、単一の小さな隠れ層に接続します。

アルゴリズムの 1 つのバージョンでは、ターゲット単語をランダムなノイズの単語に置き換えて、ネガティブサンプルを作成しています。陽性の例の場合、「飛行機が飛ぶ」と判断されると、システムは「ジョギングフライ」でスワップして、対照的なネガティブな例である「ジョギングハエ」を作成します。

他のバージョンのアルゴリズムでは、真のターゲット単語とランダムに選択されたコンテキスト単語を組み合わせて、ネガティブサンプルを作成します。ポジティブサンプル（the、plane）、（fly、plane）、ネガティブサンプル（compiled、plane）、(who,plan) を取得して、実際にどのペアがテキストとして一緒に表示されたかを特定する場合があります。

ただし、分類器はいずれのバージョンのシステムでも実際の目標ではありません。モデルをトレーニングした後、エンベディングを用意します。入力レイヤと隠しレイヤを接続する重みを使用して、単語のスパース表現を小さなベクトルにマッピングできます。この埋め込みは、他の分類器で再利用できます。

word2vec の詳細については、tensorflow.org のチュートリアルをご覧ください。

大規模モデルの一部としてのエンベディングのトレーニング

ターゲットタスクのニューラルネットワークの一部として、エンベディングを学ぶこともできます。このアプローチでは、エンベディングを特定のシステムに合わせて適切にカスタマイズできますが、エンベディングを個別にトレーニングするよりも時間がかかる場合があります。

一般に、スパースデータ（または埋め込みを希望する高密度データ）がある場合、サイズ d の特別なタイプ隠しユニットである埋め込みユニットを作成できます。この埋め込みレイヤは、他の対象物や非表示レイヤと組み合わせることができます。他の DNN の場合と同様に、最後のレイヤは最適化対象の損失になります。たとえば、コラボレーションフィルタリングを実行しているとします。目標は、他のユーザーの興味 / 関心からユーザーの興味や関心を予測することです。これを、ユーザーが視聴した少数の映画をポジティブラベルとしてランダムに保留（または保留）することで教師あり学習の問題としてモデル化し、ソフトマックスの損失を最適化できます。

図 5. コラボレーションフィルタリングデータから映画のエンベディングを学習するための DNN アーキテクチャのサンプル。

もう 1 つの例として、DNN の一部として不動産の広告にある単語のエンベディングレイヤを作成して住宅価格を予測する場合、トレーニングデータにある住宅の既知の販売価格をラベルとして使用して L₂ の損失を最適化します。

d 次元のエンベディングを学習する場合、各アイテムは d 次元空間内の点にマッピングされ、この空間内で類似アイテムが近くに配置されます。図 6 は、エンベディングレイヤで学習した重みと幾何学的なビューの関係を示しています。入力ノードと d 次元のエンベディングレイヤ内のノードの間のエッジの重みは、各 d 軸の座標値に対応しています。

図 6: 埋め込み層の幾何学的な図。

低次元空間への変換

本番環境の ML システム（3 分）