このページでは、シーケンス モデルの用語集について説明します。用語集のすべての用語については、こちらをクリックしてください。
B
Bigram
N グラム(N=2 の場合)。
E
勾配爆発の問題
ディープ ニューラル ネットワーク(特に再帰型ニューラル ネットワーク)の勾配が驚くほど急勾配(高い)になる傾向があります。急勾配は、多くの場合、ディープ ニューラル ネットワークで各ノードの重みを非常に大きく更新します。
勾配爆発の問題に悩まされているモデルのトレーニングは、困難または不可能になります。勾配クリッピングを使用すると、この問題を軽減できます。
比較対象として、「消失勾配問題」があります。
F
フォーゲット ゲート
セル内の情報の流れを制御する長短期メモリセルの部分。Forget のゲートは、セルの状態から破棄する情報を決定することでコンテキストを維持します。
1 階
グラデーション クリッピング
勾配降下法を使用してモデルをトレーニングするときに、勾配の最大値を人為的に制限(クリッピング)することで、勾配爆発問題を軽減するためによく使用されるメカニズム。
L
長短期記憶(LSTM)
再帰型ニューラル ネットワーク内のセルの一種で、手書き認識、機械翻訳、画像キャプションなどのアプリケーションで一連のデータを処理するために使用される。LSTM は、RNN 内の以前のセルからの新しい入力とコンテキストに基づいて内部メモリ状態に履歴を維持することで、長いデータシーケンスによる RNN のトレーニング時に発生する勾配消失問題に対処します。
LSTM
N
N グラム
N 個の単語の順序付きシーケンス。たとえば、truly madly は 2 グラムです。順序に関連性があるため、「マッドリー トゥルー」と「真にマッドリー」は 2 グラムが異なります。
N | この種類の N グラムの名前 | 例 |
---|---|---|
2 | バイグラムまたは 2 グラム | ランチを食べる、ディナーを食べる |
3 | トライグラムまたは 3 グラム | 3 匹の盲目のネズミを食べすぎ、 |
4 | 4 グラム | 公園を散歩する、風の中のほこり、少年がレンズ豆を食べた、 |
自然言語理解モデルの多くは、ユーザーが次に入力または発話する単語を予測するために N グラムを使用します。たとえば、ユーザーが「スリーブラインド」を入力したとします。トライグラムに基づく NLU モデルは、ユーザーが次にマウスを入力することを予測します。
N グラムと、順序付けされていない単語の集合であるbag of words と対比します。
R
回帰型ニューラル ネットワーク
意図的に複数回実行されるニューラル ネットワーク。各実行の一部が次の実行にフィードされます。具体的には、前回の実行の隠しレイヤが、次の実行で同じ隠しレイヤに入力の一部を提供します。再帰型ニューラル ネットワークは、シーケンスの評価に特に有用です。これにより、隠れ層はシーケンスの前の部分でのニューラル ネットワークの実行から学習できます。
たとえば次の図は、4 回実行される再帰型ニューラル ネットワークを示しています。最初の実行で隠しレイヤで学習した値は、2 回目の実行で同じ隠しレイヤへの入力の一部になります。同様に、2 回目の実行で隠しレイヤで学習した値は、3 回目の実行で同じ隠しレイヤへの入力の一部になります。このようにして、再帰型ニューラル ネットワークは個々の単語の意味だけでなく、シーケンス全体の意味を徐々にトレーニングして予測します。
RNN
再帰型ニューラル ネットワークの略語。
S
シーケンス モデル
入力に順次依存性があるモデル。たとえば、以前に視聴した一連の動画から次に視聴される動画を予測します。
T
タイムステップ
再帰型ニューラル ネットワーク内の「アンロールされた」セル 1 つ。たとえば、次の図は 3 つのタイムステップを示しています(下付き文字 t-1、t、t+1 が付いています)。
トライグラム
N グラム(N=3 の場合)。
V
消失勾配問題
一部のディープ ニューラル ネットワークの初期の隠れ層の勾配は、驚くほど平坦(低レベル)になる傾向があります。勾配を低くするほど、ディープ ニューラル ネットワークのノードの重みに対する変更が小さくなり、学習がほとんどまたはまったくなくなります。勾配消失の問題に苦しむモデルのトレーニングは、困難または不可能になります。長短期記憶セルがこの問題に対処しています。
勾配爆発問題と比較してください。