言語モデルは何ですか?
言語モデル トークンの確率を推定する トークン、つまり、より長いシーケンスのトークン内で発生する一連のトークン。トークン 単語、サブワード(単語のサブセット)、1 文字を指定できます。
次の文と、それを完成させる可能性のあるトークンについて考えてください。
When I hear rain on my roof, I _______ in my kitchen.
言語モデルは、さまざまなトークンやトークンの確率を トークンのシーケンスをエンコードして空白を完成させます。たとえば、次のようになります。 確率テーブルで、可能性のあるトークンとその確率を特定します。
確率 | トークン |
---|---|
9.4% | スープを作る |
5.2% | 湯沸かしポットを温める |
3.6% | 牛 |
2.5% | 昼寝 |
2.2% | リラックス |
場合によっては、一連のトークンが文全体になることもあります。 文章や要約を作成したりできます
アプリケーションは確率テーブルを使用して予測を行うことができます。 予測が最も高い確率になる可能性がある(例: 「スープを作る」) 確率が特定の値を上回るトークンをランダムに あります。
テキスト シーケンスの空白を埋める確率を推定することで、 次のようなより複雑なタスクに拡張できます。
- テキストを生成しています。
- ある言語から別の言語へのテキストの翻訳。
- ドキュメントの要約を行っています。
最新の言語モデルは、トークンの統計パターンをモデル化することで 非常に強力な言語の内部表現であり、 トレーニングされます。
N グラム言語モデル
N グラムは、順序立った単語のシーケンスです (N はシーケンスの単語数)です。 たとえば、N が 2 の場合、その N グラムは 2 グラム( bigram);N が 5 のとき、N グラムは 5 グラムと呼ばれます。トレーニング ドキュメントで次のフレーズがあるとします。
you are very nice
結果の 2 グラムは次のようになります。
- あなたは
- 非常に
- すごくいい
N が 3 の場合、N グラムは 3 グラム( トライグラム)。同じフレーズで、 結果の 3 グラムは次のようになります。
- あなたはとても
- とてもいいね
2 つの単語を入力として、3 グラムに基づく言語モデルは、 単語の確率です。たとえば、次の 2 つの単語があるとします。
orange is
言語モデルはトレーニングから得た 3 グラムをすべて検証し、
orange is
で始まるコーパスから、最も可能性が高い 3 番目の単語を決定します。
何百もの 3 グラムは orange is
という 2 つの単語で始めることができますが、
次の 2 つの可能性のみに注目してください。
orange is ripe orange is cheerful
1 つ目の可能性(orange is ripe
)は、果物のオレンジについてです。
2 つ目の可能性(orange is cheerful
)は色に関するものです
オレンジです。
コンテキスト
人間は比較的長いコンテキストを保持できます。ある劇の第 3 幕を見ながら、 アクティビティ 1 で紹介したキャラクターの知識を保持する。同様に、 長いジョークのオチで笑ってしまいます。というのも、 コピーされます。
言語モデルでは、コンテキストとは、テキストの前後に有用な情報のことです。 指定します。コンテキストは、言語モデルが「オレンジ」であるかどうかを判定するのに役立つ シトラスの果物または色です
コンテキストは、言語モデルによる予測の精度向上に役立ちますが、
3 グラムの文は十分なコンテキストを提供していますか?残念ながら、唯一のコンテキストは 3 グラム
最初の 2 つの単語です。たとえば、2 つの単語 orange is
は一致しません。
言語モデルが 3 番目の単語を予測するのに十分なコンテキストを提供します。
コンテキストが不足しているため、3 グラムに基づく言語モデルは多くの間違いを犯します。
長い N グラムは、短い N グラムよりも多くのコンテキストを提供します。 ただし、N が大きくなるにつれて、各インスタンスの相対的な発生数は減少します。 N が非常に大きくなると、言語モデルには通常、モデルに 1 つの N 個のトークンの出現ごとの出現頻度も確認できます。この場合、 ターゲット トークンを予測します。
再帰型ニューラル ネットワーク
再帰型ニューラル ネットワーク N グラムよりも多くのコンテキストを提供します。再帰型ニューラル ネットワークは、ニューラル ネットワーク トレーニングに使用されるニューラル ネットワーク トークンのシーケンスです。たとえば、回帰型ニューラル ネットワークは、 各単語から選択したコンテキストを段階的に学習する(および無視することを学習する) 相手の話を聞くときのように、文章で表現します。 大規模な再帰型ニューラル ネットワークは、複数の単語の一節からコンテキストを得ることができます。 生成します。
回帰型ニューラル ネットワークは、N グラムよりも多くのコンテキストを学習しますが、 回帰型ニューラル ネットワークが直感的に理解できる有用なコンテキストは、 制限されています。再帰型ニューラル ネットワークは、「トークンごとにトークン」情報を評価します。 これに対して、次のトピックである大規模言語モデル(LLM)は、 コンテキスト全体を一度に評価できます。
長いコンテキストに対する再帰型ニューラル ネットワークのトレーニングは、 消える勾配 解決します。
演習:理解度をチェックする
- 6 グラムに基づく言語モデル
- 5 グラムに基づく言語モデル