大規模言語モデル

言語モデルは何ですか?

言語モデル トークンの確率を推定する トークン、つまり、より長いシーケンスのトークン内で発生する一連のトークン。トークン 単語、サブワード(単語のサブセット)、または 1 文字を指定できます。

次の文と、それを完成させる可能性のあるトークンについて考えてください。

When I hear rain on my roof, I _______ in my kitchen.

言語モデルは、さまざまなトークンやトークンの確率を トークンのシーケンスをエンコードして空白を完成させます。たとえば、次のようになります。 確率テーブルで、可能性のあるトークンとその確率を特定します。

確率 トークン
9.4% スープを作る
5.2% 湯沸かしポットを温める
3.6%
2.5% 昼寝
2.2% リラックス

場合によっては、一連のトークンが文全体になることもあります。 文章や要約を作成したりできます

アプリケーションは確率テーブルを使用して予測を行うことができます。 予測が最も高い確率になる可能性がある(例: 「スープを作る」) 確率が特定の値を上回るトークンをランダムに あります。

テキスト シーケンスの空白を埋める確率を推定することで、 次のようなより複雑なタスクに拡張できます。

  • テキストを生成しています。
  • ある言語から別の言語へのテキストの翻訳。
  • ドキュメントの要約を行っています。

最新の言語モデルは、トークンの統計パターンをモデル化することで 非常に強力な言語の内部表現であり、 トレーニングされます。

N グラム言語モデル

N グラムは、順序立った単語のシーケンスです (N はシーケンスの単語数)です。 たとえば、N が 2 の場合、その N グラムは 2 グラムbigram);N が 5 のとき、N グラムは 5 グラムと呼ばれます。トレーニング ドキュメントで次のフレーズがあるとします。

you are very nice

結果の 2 グラムは次のようになります。

  • あなたは
  • 非常に
  • すごくいい

N が 3 の場合、N グラムは 3 グラムトライグラム)。同じフレーズで、 結果の 3 グラムは次のようになります。

  • あなたはとても
  • とてもいいね

2 つの単語を入力として、3 グラムに基づく言語モデルは、 単語の確率です。たとえば、次の 2 つの単語があるとします。

orange is

言語モデルはトレーニングから得た 3 グラムをすべて検証し、 orange is で始まるコーパスから、最も可能性が高い 3 番目の単語を決定します。 何百もの 3 グラムは orange is という 2 つの単語で始めることができますが、 次の 2 つの可能性のみに注目してください。

orange is ripe
orange is cheerful

1 つ目の可能性(orange is ripe)は、果物のオレンジについてです。 2 つ目の可能性(orange is cheerful)は色に関するものです オレンジです。

コンテキスト

人間は比較的長いコンテキストを保持できます。ある劇の第 3 幕を見ながら、 アクティビティ 1 で紹介したキャラクターの知識を保持する。同様に、 長いジョークのオチで笑ってしまいます。というのも、 コピーされます。

言語モデルでは、コンテキストは 指定します。コンテキストは、言語モデルが「オレンジ」であるかどうかを判定するのに役立つ シトラスの果物または色です

コンテキストは、言語モデルによる予測の精度向上に役立ちますが、 3 グラムの文は十分なコンテキストを提供していますか?残念ながら、唯一のコンテキストは 3 グラム 最初の 2 つの単語です。たとえば、2 つの単語 orange is は一致しません。 言語モデルが 3 番目の単語を予測するのに十分なコンテキストを提供します。 コンテキストが不足しているため、3 グラムに基づく言語モデルは多くの間違いを犯します。

長い N グラムは、短い N グラムよりも多くのコンテキストを提供します。 ただし、N が大きくなるにつれて、各インスタンスの相対的な発生数は減少します。 N が非常に大きくなると、言語モデルには通常、モデルに 1 つの N 個のトークンの出現ごとの出現頻度も確認できます。この場合、 ターゲット トークンを予測します。

再帰型ニューラル ネットワーク

再帰型ニューラル ネットワーク N グラムよりも多くのコンテキストを提供します。再帰型ニューラル ネットワークは、ニューラル ネットワーク トレーニングに使用されるニューラル ネットワーク トークンのシーケンスです。たとえば、回帰型ニューラル ネットワークは、 各単語から選択したコンテキストを段階的に学習する(および無視することを学習する) 相手の話を聞くときのように、文章で表現します。 大規模な再帰型ニューラル ネットワークは、複数の単語の一節からコンテキストを得ることができます。 生成します。

回帰型ニューラル ネットワークは、N グラムよりも多くのコンテキストを学習しますが、 回帰型ニューラル ネットワークが直感的に理解できる有用なコンテキストは、 制限されています。再帰型ニューラル ネットワークは、「トークンごとにトークン」情報を評価します。 これに対して、次のトピックである大規模言語モデル(LLM)は、 コンテキスト全体を一度に評価できます。

長いコンテキストに対する再帰型ニューラル ネットワークのトレーニングは、 消える勾配 解決します

演習:理解度をチェックする

英語のテキストの予測精度を上げるのはどちらの言語モデルですか?
  • 6 グラムに基づく言語モデル
  • 5 グラムに基づく言語モデル
正解はトレーニングの規模と多様性によって異なる あります。
トレーニング セットが数百万の多様なドキュメントにまたがる場合、 6 グラムに基づくモデルは、おそらくこのモデルより 5 グラムを基準としています。
6 グラムに基づく言語モデル。
この言語モデルにはより多くのコンテキストがありますが、 多数のドキュメントでトレーニングされているため、6 グラムのほとんどは まれです。
5 グラムに基づく言語モデル。
この言語モデルはコンテキストが少ないため、生成 AI を 6 グラムに基づく言語モデルよりも優れています。