エンベディングは、高次元ベクトルを変換できる比較的低次元の空間です。エンベディングを使用すると、単語を表す疎なベクトルなどの大規模な入力で機械学習を簡単に行うことができます。理想的には、エンベディングは、意味的に類似した入力をエンベディング空間内の近くに配置することで、入力の一部のセマンティクスをキャプチャします。エンベディングは、学習してモデル間で再利用できます。
エンベディング
コラボレーション フィルタリングの動機
- 入力: 500,000 人のユーザーが視聴することを選択した 1,000,000 本の映画
- タスク: ユーザーに映画をおすすめする
この問題を解くには、どの映画が互いに類似しているかを判断する方法が必要です。
動画の類似性に基づく整理(1 日)
映画を似ている動画から構成する(2 日)
2 次元のエンベディング
2 次元のエンベディング
d 次元のエンベディング
- 映画へのユーザーの興味や関心は、
- 各映画は D 次元のポイントになり、ディメンション d の値はその側面に映画がどれだけ適合しているかを表す
- エンベディングはデータから学習できる
ディープ ネットワークでエンベディングを学習する
- 個別のトレーニング プロセスは必要ありません。エンベディング レイヤは、ディメンションごとに 1 つのユニットを持つ隠れ層です。
- 管理情報(ユーザーが同じ 2 本の映画を見ているなど)によって、目的のタスクに合わせて学習したエンベディングを調整する
- 非表示にしたユニットは、最終的に目標を最適化するために D 次元空間内のアイテムを整理する方法を直感的に理解できます
入力表現
- それぞれの例(このマトリックスの行)は、ユーザーが視聴した特徴(映画)のスパース ベクトルです。
- この例の密な表現: (0, 1, 0, 1, 0, 0, 0, 1)
スペースと時間の観点からは効率的ではありません。
入力表現
- 各特徴を 0, ..., # 個の映画 - 1 の整数にマッピングする辞書を作成します
- ユーザーが再生した映画のみを表すスパース ベクトルを効率的に表現します。これは次の形式で表します。
ディープ ネットワークへの埋め込みレイヤ
住宅販売価格を予測する回帰問題:
ディープ ネットワークへの埋め込みレイヤ
住宅販売価格を予測する回帰問題:
ディープ ネットワークへの埋め込みレイヤ
住宅販売価格を予測する回帰問題:
ディープ ネットワークへの埋め込みレイヤ
住宅販売価格を予測する回帰問題:
ディープ ネットワークへの埋め込みレイヤ
住宅販売価格を予測する回帰問題:
ディープ ネットワークへの埋め込みレイヤ
住宅販売価格を予測する回帰問題:
ディープ ネットワークへの埋め込みレイヤ
手書きの数字を予測するマルチクラス分類:
ディープ ネットワークへの埋め込みレイヤ
手書きの数字を予測するマルチクラス分類:
ディープ ネットワークへの埋め込みレイヤ
手書きの数字を予測するマルチクラス分類:
ディープ ネットワークへの埋め込みレイヤ
手書きの数字を予測するマルチクラス分類:
ディープ ネットワークへの埋め込みレイヤ
手書きの数字を予測するマルチクラス分類:
ディープ ネットワークへの埋め込みレイヤ
手書きの数字を予測するマルチクラス分類:
ディープ ネットワークへの埋め込みレイヤ
手書きの数字を予測するマルチクラス分類:
ディープ ネットワークへの埋め込みレイヤ
コラボレーション フィルタリングにより、おすすめする映画を予測する:
ディープ ネットワークへの埋め込みレイヤ
コラボレーション フィルタリングにより、おすすめする映画を予測する:
ディープ ネットワークへの埋め込みレイヤ
コラボレーション フィルタリングにより、おすすめする映画を予測する:
ディープ ネットワークへの埋め込みレイヤ
コラボレーション フィルタリングにより、おすすめする映画を予測する:
ディープ ネットワークへの埋め込みレイヤ
コラボレーション フィルタリングにより、おすすめする映画を予測する:
ディープ ネットワークへの埋め込みレイヤ
コラボレーション フィルタリングにより、おすすめする映画を予測する:
ディープ ネットワークへの埋め込みレイヤ
コラボレーション フィルタリングにより、おすすめする映画を予測する:
ジオメトリ ビューに対応
ディープ ネットワーク
- 隠されたユニットはそれぞれディメンション(潜在特徴)に対応する
- ムービーと非表示レイヤの間のエッジの重みは座標値になります。
単一の映画のエンベディングのジオメトリ ビュー
エンベディングの埋め込み数の選択
- 高次元のエンベディングにより、入力値の関係をより正確に表現できる
- ただし、ディメンションが多いほど、過学習のリスクが増し、トレーニング速度が低下する
- 経験則(経験から始めることをおすすめしますが、検証データを用いて調整する必要があります): $$ dimensions \approx \sqrt[4]{possible\;values} $$
ツールとしてのエンベディング
- エンベディングは、アイテム(映画、テキストなど)を低次元の現実的なベクトルにマッピングし、類似のアイテムが互いに近接するようにします。
- エンベディングを高密度データ(音声など)に適用し、有意な類似性の指標を作成する
- 多様なデータタイプ(テキスト、画像、音声など)を共同で埋め込みることによる、それらの類似性の確立