このページは Cloud Translation API によって翻訳されました。

大規模言語モデル

言語モデルは何ですか？

言語モデル トークンの確率を推定するトークン、つまり、より長いシーケンスのトークン内で発生する一連のトークン。トークン単語、サブワード（単語のサブセット）、1 文字を指定できます。

アイコンをクリックすると、トークンの詳細が表示されます。

最新の言語モデルでは、サブワード、つまり、意味を含むテキストを返します。チャンクの長さは、各チャンクの長さから句読点や所有格の s などの 1 文字を単語全体に適用します。接頭辞と接尾辞は、別々のサブワードとして表すことができます。たとえば、「unwatched」という単語は次のように表されます。 3 つのサブワードがあります。

un（接頭辞）
watch（ルート）
ed（接尾辞）

「猫」という単語は、次の 2 つのサブワードで表されます。

cat（根）
s（接尾辞）

「反制度主義」などの複雑な言葉データアナリストが 6 つのサブワードです。

アンチ
の
確立する
ment
エイリアン
主義

トークン化は言語固有であるため、トークンあたりの文字数は言語によって異なります。英語の場合、1 つのトークンが約 4 文字に対応します。約 3/4 の単語なので、400 トークンは約 300 単語です。

トークンは言語モデリングのアトミック単位、つまり最小単位です。

トークンは、サービスアカウントにも適用され、 <ph type="x-smartling-placeholder"></ph> コンピュータビジョンと <ph type="x-smartling-placeholder"></ph> 生成できます。

次の文と、それを完成させる可能性のあるトークンについて考えてください。

When I hear rain on my roof, I _______ in my kitchen.

言語モデルは、さまざまなトークンやトークンの確率をトークンのシーケンスをエンコードして空白を完成させます。たとえば、次のようになります。確率テーブルで、可能性のあるトークンとその確率を特定します。

確率	トークン
9.4%	スープを作る
5.2%	湯沸かしポットを温める
3.6%	牛
2.5%	昼寝
2.2%	リラックス

場合によっては、一連のトークンが文全体になることもあります。文章や要約を作成したりできます

アプリケーションは確率テーブルを使用して予測を行うことができます。予測が最も高い確率になる可能性がある（例: 「スープを作る」）確率が特定の値を上回るトークンをランダムにあります。

テキストシーケンスの空白を埋める確率を推定することで、次のようなより複雑なタスクに拡張できます。

テキストを生成しています。
ある言語から別の言語へのテキストの翻訳。
ドキュメントの要約を行っています。

最新の言語モデルは、トークンの統計パターンをモデル化することで非常に強力な言語の内部表現であり、トレーニングされます。

N グラム言語モデル

N グラムは、順序立った単語のシーケンスです（N はシーケンスの単語数）です。たとえば、N が 2 の場合、その N グラムは 2 グラム（ bigram);N が 5 のとき、N グラムは 5 グラムと呼ばれます。トレーニングドキュメントで次のフレーズがあるとします。

you are very nice

結果の 2 グラムは次のようになります。

あなたは
非常に
すごくいい

N が 3 の場合、N グラムは 3 グラム（ トライグラム）。同じフレーズで、結果の 3 グラムは次のようになります。

あなたはとても
とてもいいね

2 つの単語を入力として、3 グラムに基づく言語モデルは、単語の確率です。たとえば、次の 2 つの単語があるとします。

orange is

言語モデルはトレーニングから得た 3 グラムをすべて検証し、 orange is で始まるコーパスから、最も可能性が高い 3 番目の単語を決定します。何百もの 3 グラムは orange is という 2 つの単語で始めることができますが、次の 2 つの可能性のみに注目してください。

orange is ripe
orange is cheerful

1 つ目の可能性（orange is ripe）は、果物のオレンジについてです。 2 つ目の可能性（orange is cheerful）は色に関するものですオレンジです。

コンテキスト

人間は比較的長いコンテキストを保持できます。ある劇の第 3 幕を見ながら、アクティビティ 1 で紹介したキャラクターの知識を保持する。同様に、長いジョークのオチで笑ってしまいます。というのも、コピーされます。

言語モデルでは、コンテキストとは、テキストの前後に有用な情報のことです。指定します。コンテキストは、言語モデルが「オレンジ」であるかどうかを判定するのに役立つシトラスの果物または色です

コンテキストは、言語モデルによる予測の精度向上に役立ちますが、 3 グラムの文は十分なコンテキストを提供していますか？残念ながら、唯一のコンテキストは 3 グラム最初の 2 つの単語です。たとえば、2 つの単語 orange is は一致しません。言語モデルが 3 番目の単語を予測するのに十分なコンテキストを提供します。コンテキストが不足しているため、3 グラムに基づく言語モデルは多くの間違いを犯します。

長い N グラムは、短い N グラムよりも多くのコンテキストを提供します。ただし、N が大きくなるにつれて、各インスタンスの相対的な発生数は減少します。 N が非常に大きくなると、言語モデルには通常、モデルに 1 つの N 個のトークンの出現ごとの出現頻度も確認できます。この場合、ターゲットトークンを予測します。

再帰型ニューラルネットワーク

再帰型ニューラルネットワーク N グラムよりも多くのコンテキストを提供します。再帰型ニューラルネットワークは、ニューラルネットワークトレーニングに使用されるニューラルネットワーク トークンのシーケンスです。たとえば、回帰型ニューラルネットワークは、各単語から選択したコンテキストを段階的に学習する（および無視することを学習する）相手の話を聞くときのように、文章で表現します。大規模な再帰型ニューラルネットワークは、複数の単語の一節からコンテキストを得ることができます。生成します。

回帰型ニューラルネットワークは、N グラムよりも多くのコンテキストを学習しますが、回帰型ニューラルネットワークが直感的に理解できる有用なコンテキストは、制限されています。再帰型ニューラルネットワークは、「トークンごとにトークン」情報を評価します。これに対して、次のトピックである大規模言語モデル（LLM）は、コンテキスト全体を一度に評価できます。

長いコンテキストに対する再帰型ニューラルネットワークのトレーニングは、 消える勾配解決します。

演習：理解度をチェックする

英語のテキストの予測精度を上げるのはどちらの言語モデルですか？

6 グラムに基づく言語モデル
5 グラムに基づく言語モデル

正解はトレーニングの規模と多様性によって異なるあります。

トレーニングセットが数百万の多様なドキュメントにまたがる場合、 6 グラムに基づくモデルは、おそらくこのモデルより 5 グラムを基準としています。

6 グラムに基づく言語モデル。

この言語モデルにはより多くのコンテキストがありますが、多数のドキュメントでトレーニングされているため、6 グラムのほとんどはまれです。

5 グラムに基づく言語モデル。

この言語モデルはコンテキストが少ないため、生成 AI を 6 グラムに基づく言語モデルよりも優れています。

理解度チェック（10 分）

大規模言語モデル（LLM）とは（15 分）