このページは Cloud Translation API によって翻訳されました。

ソフトマックストレーニング

前のページでは、ディープレイヤにソフトマックスレイヤを組み込む方法をニューラルネットワークです。このページでは、Google Cloud の使用します。

トレーニングデータ

ソフトマックスのトレーニングデータはクエリの特徴と \(x\) ユーザーが操作したアイテムのベクトル（（確率分布 \(p\)）とします。それらは、次の図をご覧ください。モデルの変数は、トレーニングプロセスでレイヤに分割されます。以降のスライドではオレンジ色で図に示していますモデルは通常、トレーニングデータに含まれる確率的勾配降下法を使っています

ソフトマックスディープニューラルネットワークのトレーニングをハイライト表示した画像

ネガティブサンプリング

損失関数は 2 つの確率ベクトルを比較するため、 \(p, \hat p(x) \in \mathbb R^n\) （グラウンドトゥルースと（それぞれモデルの出力）、（単一のクエリに対する \(x\)）損失の勾配は、コーパスサイズが大きすぎると \(n\) 法外な費用が発生します。

正のアイテムに対してのみ勾配を計算するシステムをセットアップできます。（グラウンドトゥルースベクトルでアクティブなアイテム）。ただし、陽性のペアでのみトレーニングする場合、モデルは以下で説明します。

折り畳み式

質問を表す 3 つの異なる正方形のグループと、アイテムを表す円が表示されている、半分に折りたたまれた飛行機の画像。グループごとに異なる色があり、クエリは同じグループ内のアイテムにのみ影響します。

次の図では、各色がそれぞれ異なる色を表す場合、クエリとアイテムのカテゴリです（正方形で表示）各クエリのみほとんどのインタラクションは、同じ色のアイテム（円で表される）とやり取りします。たとえば、各カテゴリは YouTube ではそれぞれ別の言語であると考えてください。一般的なユーザーは、主に 1 つの言語で動画を視聴します。

モデルは、特定のクエリやアイテムのエンベディングを（その中の類似性を正しく取り込み、異なる色のエンベディングは最終的に同じ領域になる場合があります。エンべディング空間の重みです。この現象は 折りたたみは、クエリ時に、予測値から外れたアイテムのハイスコアをモデルができます。

ネガティブサンプルとは、「関連性が低い」とラベル付けされたアイテムです関連付けられますトレーニング中にモデルのネガティブサンプルを示すことで、異なるグループのエンベディングは互いに押し離される必要があります。

すべてのアイテムを使用して勾配を計算する代わりに陽性（高価）だけを使用したモデルなど、折りたたんでいる）では、ネガティブサンプリングを使用できます。より正確には、次の項目を使用して、近似勾配を計算します。

すべての正項目（ターゲットラベルに表示される項目）
除外アイテムのサンプル（\(j\) \({1, …, n}\)）

陰性のサンプリングにはさまざまな方法があります。

均一にサンプリングできます。
確率が高いアイテム j は、確率が高いスコア \(\psi(x) . V_j\)。これは直感的に勾配に大きく寄与する特徴があります）。これらの例は多くの場合ハードネガティブといいます。

で確認できます。 <ph type="x-smartling-placeholder">

オン行列分解とソフトマックス

DNN モデルは行列分解の多くの制限を解決しますが、通常はトレーニングとクエリにかかる費用が高くなります次の表は、 2 つのモデルの重要な違いについて学びました

	行列分解	ソフトマックス DNN
クエリの特徴	簡単に含められない。	含めることができる。
コールドスタート	語彙外の表現を簡単に処理できない抽出されますいくつかのヒューリスティックを使用できます（たとえば、（新しいクエリ、類似クエリの平均エンベディング）	新しいクエリを簡単に処理。
折り畳み式	折りたたみを簡単に軽減できる WALS で観測されていない重みを調整します。	折りたたまれます。使用が必要ネガティブサンプリングや重力などの手法を使用します。
トレーニングのスケーラビリティ	大規模なものまで容易に拡張可能コーパス（場合によっては数億個以上のアイテム）を入力行列がスパースです。	非常に大規模にスケーリングするのが難しいあります。ハッシュ化などのいくつかの手法を使用して、ネガティブサンプリングなどが含まれます。
サービングのスケーラビリティ	エンベディング U、V は静的一連の候補を事前に計算して保存できます	アイテムのエンベディング V は静的保存できます。通常、クエリ埋め込みはクエリ時に計算する必要があり、モデルのコストが高くなります。提供します。

概要は次のとおりです。

大規模なコーパスには、通常、行列分解が適しています。スケーリングが簡単で、クエリにかかる費用を抑え、折りたたまれにくくなります。
DNN モデルではパーソナライズされた好みをより適切にキャプチャできますが、トレーニングが難しくクエリの費用も高くなりますDNN モデルが推奨される行列分解にフィードするものです。DNN モデルでは、関連性をさらに高めますまた、通常は DNN モデルの折りたたみが許容範囲内です。関連性が高いとみなされた、事前にフィルタされた一連の候補をランク付けします。

Softmax モデル

取得

ソフトマックス トレーニング

トレーニング データ

ネガティブ サンプリング

オン行列分解とソフトマックス

ソフトマックストレーニング

トレーニングデータ

ネガティブサンプリング