ML 用語集: シーケンス モデル

このページには、シーケンス モデルの用語集の用語が記載されています。用語集のすべての用語については、こちらをクリックしてください。

B

ビグラム

#seq
#language

N=2 のN グラム

E

勾配爆発問題

#seq

ディープ ニューラル ネットワーク(特に再帰ニューラル ネットワーク)の勾配が驚くほど急勾配(高)になる傾向。勾配が急な場合、ディープラーニング ネットワーク内の各ノード重みが大幅に更新されることがあります。

勾配爆発の問題が発生しているモデルは、トレーニングが困難または不可能です。この問題は、勾配クリッピングで軽減できます。

勾配消失問題と比較してください。

F

忘れるゲート

#seq

長期短期記憶セルの一部で、セル内の情報の流れを調節します。忘却ゲートでは、セルの状態から破棄する情報を決定することでコンテキストを維持します。

G

グラデーションのクリッピング

#seq

勾配降下を使用してモデルをトレーニングするときに、勾配の最大値を人為的に制限(クリップ)することで、勾配の急増の問題を軽減するためによく使用されるメカニズム。

L

長短期記憶(LSTM)

#seq

手書き認識、機械翻訳、画像キャプションなどのアプリケーションでデータシーケンスを処理するために使用される再帰型ニューラル ネットワークのセルタイプ。LSTM は、長いデータシーケンスが原因で RNN をトレーニングする際に発生する勾配消失問題に対処します。これは、RNN 内の以前のセルからの新しい入力とコンテキストに基づいて、内部メモリ状態の履歴を維持することで実現されます。

LSTM

#seq

長・短期記憶の略。

N

N グラム

#seq
#language

順序付きの N 個の単語。たとえば、「truly madly」は 2 グラムです。順序が重要であるため、madly trulytruly madly とは異なる 2 グラムです。

N この種類の N グラムの名前
2 バイグラムまたは 2 グラム to go, go to, eat lunch, eat dinner
3 トリグラムまたは 3 グラム ate too much, three blind mice, the bell tolls
4 4 グラム walk in the park, dust in the wind, the boy ate lentils

多くの自然言語理解モデルは、N グラムを使用して、ユーザーが入力または発音する次の単語を予測します。たとえば、ユーザーが「three blind」と入力したとします。3 文字語に基づく NLU モデルは、ユーザーが次に「mice」と入力することを予測します。

N グラムは、単語の順序付けされていないセットであるバッグ オブ ワードとは対照的です。

R

再帰型ニューラル ネットワーク

#seq

意図的に複数回実行されるニューラル ネットワーク。各実行の一部が次の実行にフィードされます。具体的には、前の実行の隠れ層が、次の実行の同じ隠れ層に入力の一部を提供します。再帰型ニューラル ネットワークは、シーケンスの評価に特に役立ちます。これにより、隠れ層は、シーケンスの前半部分でニューラル ネットワークの以前の実行から学習できます。

たとえば、次の図は 4 回実行される再帰型ニューラル ネットワークを示しています。最初の実行で隠れ層で学習された値は、2 回目の実行で同じ隠れ層への入力の一部になります。同様に、2 回目の実行で隠れ層で学習された値は、3 回目の実行で同じ隠れ層への入力の一部になります。このように、RNN は、個々の単語の意味だけでなく、シーケンス全体の意味を徐々にトレーニングして予測します。

4 回実行して 4 つの入力単語を処理する RNN。

RNN

#seq

再帰型ニューラル ネットワークの略称。

S

シーケンス モデル

#seq

入力に順序依存関係があるモデル。たとえば、以前に視聴した動画のシーケンスから、次に視聴する動画を予測します。

T

タイムステップ

#seq

再帰型ニューラル ネットワーク内の 1 つの「展開済み」セル。たとえば、次の図は 3 つのタイムステップ(下付き添え字 t-1、t、t+1 でラベル付け)を示しています。

回帰型ニューラル ネットワークの 3 つのタイムステップ。最初のタイムステップの出力が 2 番目のタイムステップの入力になります。2 番目のタイムステップの出力が 3 番目のタイムステップの入力になります。

3 グラム

#seq
#language

N=3 の N グラム

V

勾配消失問題

#seq

一部のディープ ニューラル ネットワークの初期の隠れ層の勾配が驚くほどフラット(低い)になる傾向。勾配が低くなると、ディープ ニューラル ネットワーク内のノードの重みの変化が小さくなり、学習がほとんどまたはまったく行われなくなります。勾配消失の問題が発生したモデルは、トレーニングが困難または不可能になります。この問題に対処するために、長短期記憶セルが使用されます。

急増する勾配の問題と比較してください。