このページでは、シーケンス モデルの用語集について説明します。用語集のすべての用語については、こちらをクリックしてください。
B
ビグラム
N=2 の N-gram。
E
勾配爆発問題
ディープ ニューラル ネットワーク(特に再帰ニューラル ネットワーク)の勾配が驚くほど急に(高い)になる傾向があります。急勾配になると、多くの場合、ディープ ニューラル ネットワークの各ノードの重みが大きくなります。
勾配の爆発的な問題に悩まされているモデルのトレーニングは不可能または不可能になります。グラデーションのクリッピングを使用すると、この問題を軽減できます。
勾配消失の問題と比較します。
F
ゲートを忘れて
セルを通る情報の流れを調整する短期短期メモリセルの部分。フォーゲット ゲートは、セル状態から破棄する情報を決定することで、コンテキストを維持します。
G
グラデーション クリッピング
勾配降下法を使用してモデルをトレーニングする場合、勾配降下法で勾配の最大値を人為的に制限(クリッピング)することにより、勾配爆発の問題を軽減するためによく使用されるメカニズム。
L
長期短期メモリ(LSTM)
手書き認識、機械翻訳、画像キャプションなど、アプリケーションで一連のデータを処理するために使用される再帰ニューラル ネットワーク内のセル。LSTM は、RNN 内の以前のセルからの新しい入力とコンテキストに基づいて内部メモリ状態で履歴を維持することにより、長いデータ シーケンスのために RNN をトレーニングする際に発生する勾配消失の問題を解決します。
LSTM
N
N グラム
N 個の単語の順序付きシーケンス。たとえば、「本当に本当に」は 2 グラムです。順序が関係するので、実際に「本当に」2 グラムは、「本当に異常」とは異なります。
N | このタイプの N-gram の名前 | 例 |
---|---|---|
2 | ビグラムまたは 2 グラム | テイクアウト、移動、ランチ、ディナー |
3 | トリグラムまたは 3 グラム | 多すぎる視覚障害のマウス、3 つのマウス、ベルを鳴らす |
4 | 4 グラム | 公園を歩いていて、風が吹いていて、少年がレンズ豆を食べていた |
自然言語理解モデルの多くは、N グラムによってユーザーが次に入力または発話する単語を予測します。たとえば、ユーザーが「ブラインド」と入力した場合、トライグラムに基づく NLU モデルは、ユーザーが次に「マウス」と入力すると予測します。
N グラムと「バッグ」という単語は、順序付けされていない単語のセットです。
R
反復性ニューラル ネットワーク
意図的に複数回実行されるニューラル ネットワーク。各実行の一部を次の実行に入れます。具体的には、前の実行の隠しレイヤは、次の実行で同じ隠しレイヤへの入力の一部を提供します。再帰型ニューラル ネットワークは特にシーケンスの評価に有効です。これにより、隠れた層は、シーケンスの前半におけるニューラル ネットワークの過去の実行から学習できます。
下の図は、4 回実行される反復性ニューラル ネットワークを示しています。最初の実行で隠しレイヤで学習された値は、2 回目の実行で同じ隠しレイヤへの入力の一部になります。同様に、2 回目の実行で、隠れ層で学習された値は、3 回目の実行で隠しレイヤへの入力の一部になります。このように、反復性ニューラル ネットワークは、個々の単語の意味だけでなく、シーケンス全体の意味を徐々にトレーニングして予測します。
RNN
S
シーケンス モデル
入力が連続した依存関係を持つモデル。たとえば、以前に視聴された一連の動画から次に視聴される動画を予測します。
T
タイムステップ
再帰型ニューラル ネットワーク内の「ロール解除された」セル 1 つ。たとえば、次の図は、3 つのタイムステップ(下付き文字 t-1、t、t+1 のラベルが付いたもの)を示しています。
トリグラム
N=3 の N-gram。
V
勾配消失問題
一部のディープ ニューラル ネットワークの初期の隠れ層の勾配が、驚くほど平坦(低)になる傾向。勾配を徐々に小さくすると、ディープ ニューラル ネットワークのノードの重みに対する変化が徐々に小さくなり、学習がほとんど、またはまったくなくなります。勾配消失問題の影響を受けているモデルは、トレーニングが困難または不可能になります。長期短期メモリセルは、この問題に対処します。
勾配爆発問題と比較します。