このページは Cloud Translation API によって翻訳されました。

LLM: 大規模言語モデルとは何でしょうか。

新しいテクノロジーである大規模言語モデル（LLM）は、トークンまたはトークンのシーケンスを予測します。場合によっては、数段落分のトークンを予測します。トークンは、単語、サブワード（単語のサブセット）、単一の文字にすることができます。LLM は、次の理由により、N グラム言語モデルや回帰型ニューラルネットワークよりもはるかに優れた予測を行います。

LLM には、反復モデルよりもはるかに多くのパラメータが含まれています。
LLM は、はるかに多くのコンテキストを収集します。

このセクションでは、LLM のビルドに最も成功し、広く使用されているアーキテクチャである Transformer について説明します。

Transformer とは

Transformer は、翻訳などのさまざまな言語モデルアプリケーション向けの最新のアーキテクチャです。

図 1. 入力は「I am a good dog.」です。Transformer ベースの翻訳ツールは、その入力を Je suis un bon chien という出力に変換します。これは、フランス語に翻訳された同じ文です。 — **図 1.** 英語からフランス語に翻訳する Transformer ベースのアプリケーション。

完全な Transformer は、エンコーダとデコーダで構成されます。

エンコーダは、入力テキストを中間表現に変換します。エンコーダは巨大なニューラルネットです。
デコーダは、その中間表現を有用なテキストに変換します。デコーダも巨大なニューラルネットです。

たとえば、翻訳ツールでは次のようになります。

エンコーダは、入力テキスト（英語の文など）をなんらかの中間表現に処理します。
デコーダは、その中間表現を出力テキスト（同等のフランス語の文など）に変換します。

図 2. Transformer ベースの翻訳者は、英語の文の中間表現を生成するエンコーダから始まります。デコーダは、その中間表現をフランス語の出力文に変換します。 — **図 2.**完全な Transformer には、エンコーダとデコーダの両方が含まれています。

アイコンをクリックすると、部分 Transformers の詳細を確認できます。

このモジュールでは、エンコーダとデコーダの両方を含む完全な Transformers に焦点を当てていますが、エンコーダのみのアーキテクチャとデコーダのみのアーキテクチャもあります。

エンコーダのみのアーキテクチャは、入力テキストを中間表現（多くの場合、エンベディングレイヤ）にマッピングします。エンコーダのみのアーキテクチャのユースケース:
- 入力シーケンス内の任意のトークンを予測する（これは言語モデルの従来の役割です）。
- 分類システムなど、別のシステムの入力として使用できる高度なエンベディングを作成します。
デコーダ専用アーキテクチャは、すでに生成されたテキストから新しいトークンを生成します。デコーダ専用モデルは通常、シーケンスの生成に優れています。最新のデコーダ専用モデルは、生成能力を使用して、会話履歴やその他のプロンプトの続きを作成できます。

セルフアテンションとは？

Transformer はコンテキストを強化するために、自己注意力というコンセプトに大きく依存しています。実質的には、セルフアテンションは入力の各トークンの代わりに次の質問をします。

「入力の他の各トークンがこのトークンの解釈にどの程度影響するか？」

「セルフアテンション」の「自己」は入力シーケンスを指します。一部の注意機構は、入力トークンと出力シーケンス内のトークン（翻訳など）や他のシーケンス内のトークンとの関係に重み付けを行います。ただし、セルフアテンションは、入力シーケンス内のトークン間の関係の重要度のみを重視します。

単純にするために、各トークンが単語であり、完全なコンテキストが 1 つの文のみであるとします。次の文について考えてみましょう。

The animal didn't cross the street because it was too tired.

前の文には 11 語が含まれています。11 個の単語はそれぞれ、他の 10 個の単語に注意を払い、それらの 10 個の単語が自分にとってどれほど重要かを考えています。たとえば、この文には代名詞 it が含まれています。代名詞はあいまいなことが多い。代名詞（it）は通常、最近の名詞または名詞句を指しますが、例文では、動物または通りのうち、最近の名詞のうちどれを指していますか？

セルフアテンションメカニズムは、近くにある各単語と代名詞 it の関連性を判断します。図 3 に結果を示します。線が青いほど、その単語が代名詞「it」にとって重要です。つまり、代名詞「それ」にとって「動物」は「通り」よりも重要です。

図 3. 「動物は疲れていたため道路を渡らなかった」という文の 11 個の単語のそれぞれが代名詞「it」と関連する度合い。「動物」という言葉は、「it」という代名詞に最も関連性があります。 — **図 3.** 代名詞 it の自己注意力。 Transformer: A Novel Neural Network Architecture for Language Understanding より

逆に、文の最後の単語が次のように変わったとします。

The animal didn't cross the street because it was too wide.

修正されたこの文章では、自己注意力が、代名詞 it に対して「ストリート」よりも関連性が高いと評価するかもしれません。

一部のセルフアテンションメカニズムは双方向です。つまり、注目している単語の前と後のトークンの関連性スコアが計算されます。たとえば、図 3 では、it の両側の単語が検査されています。したがって、双方向セルフアテンションメカニズムでは、アテンションの対象となる単語の両側の単語からコンテキストを収集できます。一方、単方向のセルフアテンションメカニズムでは、注目されている単語の片側の単語からのみコンテキストを収集できます。双方向のセルフアテンションは、シーケンス全体の表現を生成する場合に特に役立ちますが、トークンごとにシーケンスを生成するアプリでは単方向のセルフアテンションが必要です。このため、エンコーダは双方向の自己注意を使用し、デコーダは一方向の自己注意を使用します。

マルチヘッドセルフアテンションとは

通常、各セルフアテンションレイヤは複数のセルフアテンションヘッドで構成されます。レイヤの出力は、さまざまなヘッドの出力の算術演算（重み付け平均やドット積など）です。

各セルフアテンションレイヤはランダムな値に初期化されるため、各ヘッドは、アテンションの対象となる各単語と近接する単語の間に異なる関係を学習できます。たとえば、前のセクションで説明したセルフアテンションレイヤは、代名詞 it が参照する名詞を特定することに重点を置いています。ただし、他のセルフアテンションレイヤは、各単語と他のすべての単語の文法上の関連性を学習したり、他のインタラクションを学習したりする場合があります。

アイコンをクリックして、LLM の Big O について学びます。

セルフアテンションでは、コンテキスト内のすべての単語が、コンテキスト内の他のすべての単語との関連性を学習します。したがって、これを O(N²) 問題と宣言したくなります。ここで、

N はコンテキスト内のトークン数です。

上記の Big O が十分に心配でなかったかのように、Transformer には複数の自己注意レイヤと、自己注意レイヤごとに複数の自己注意ヘッドが含まれているため、Big O は実際には次のようになります。

O(N² · S · D)

ここで

S はセルフアテンションレイヤの数です。
D は、レイヤあたりのヘッド数です。

LLM のトレーニング方法の詳細を確認するには、アイコンをクリックします。

LLM をゼロからトレーニングすることはほとんどありません。産業用 LLM をトレーニングするには、ML の専門知識、計算リソース、時間の膨大な量が必要です。いずれにしても、アイコンをクリックして詳細を確認されたため、説明を差し上げます。

LLM の構築の主な要素は、通常は多少フィルタされた膨大な量のトレーニングデータ（テキスト）です。トレーニングの最初のフェーズは通常、そのトレーニングデータに対するなんらかの教師なし学習です。具体的には、モデルはマスクされた予測でトレーニングします。つまり、トレーニングデータ内の特定のトークンが意図的に隠されます。モデルは、欠落しているトークンを予測してトレーニングします。たとえば、次の文がトレーニングデータの一部であるとします。

The residents of the sleepy town weren't prepared for what came next.

ランダムなトークンが削除されます。例:

The ___ of the sleepy town weren't prepared for ___ came next.

LLM は単なるニューラルネットであるため、損失（モデルが正しく考慮したマスクされたトークンの数）に基づいて、バックプロパゲーションによってパラメータ値が更新される程度が決まります。

欠落データを予測するようにトレーニングされた Transformer ベースのモデルは、データ内のパターンと高次構造を検出して欠落トークンの手がかりを得ることを徐々に学習します。次に、マスクされたインスタンスの例を示します。

Oranges are traditionally ___ by hand. Once clipped from a tree, __ don't ripen.

大量のマスクされた例で広範なトレーニングを行うと、LLM は「収穫」または「摘み取る」が最初のトークンとの一致確率が高いこと、「オレンジ」または「それら」が 2 番目のトークンに適していることを学習できます。

命令チューニングと呼ばれるオプションの追加トレーニングステップでは、LLM の命令実行能力を向上させることができます。

Transformer が非常に大きいのはなぜですか？

Transformer には、数百億から数兆ものパラメータが含まれています。このコースでは、一般に、パラメータ数の少ないモデルをパラメータ数の多いモデルよりも構築することを推奨してきました。結局のところ、パラメータ数が少ないモデルは、パラメータ数が多いモデルよりも予測を行うリソースが少なくて済みます。ただし、パラメータが多い Transformer の方が、パラメータが少ない Transformer よりも一貫してパフォーマンスが高いことが研究により明らかになっています。

LLM はどのようにテキストを生成するのでしょうか。

研究者が LLM をトレーニングして単語の欠落を予測する方法を見てきましたが、おそらく感心しないかもしれません。結局のところ、1、2 語の予測は、さまざまなテキスト、メール、作成ソフトウェアに組み込まれている自動入力機能に他なりません。LLM がアービトラージに関する文章や段落、俳句を生成する仕組みについて疑問に思われるかもしれません。

実際、LLM は基本的に、数千のトークンを自動的に予測（補完）できる自動入力メカニズムです。たとえば、次の文に後にマスクされた文が続く場合を考えてみましょう。

My dog, Max, knows how to perform many traditional dog tricks.
___ (masked sentence)

LLM は、次のようなマスクされた文の確率を生成できます。

確率	単語
3.1%	たとえば、座る、待つ、転がるなどのコマンドに反応します。
2.9%	たとえば、彼は座る、とどまる、寝転がるなどの操作を知っています。

十分に大きな LLM は、段落やエッセイ全体の確率を生成できます。LLM に対するユーザーからの質問は、「与えられた」文の後に架空のマスクが続きます。例:

User's question: What is the easiest trick to teach a dog?
LLM's response:  ___

LLM は、さまざまな可能性のある回答の確率を生成します。

別の例として、大量の数学の「単語の問題」でトレーニングされた LLM は、高度な数学的推論を行っているように見えます。ただし、これらの LLM は基本的に、数式の問題の入力を自動的に補完するだけです。

LLM のメリット

LLM は、さまざまな対象ユーザー向けに、明確でわかりやすいテキストを生成できます。LLM は、明示的にトレーニングされたタスクについて予測を行うことができます。LLM は、明示的にトレーニングされていない入力に対しても予測できると主張する研究者もいれば、この主張を反論する研究者もいます。

LLM に関する問題

LLM のトレーニングには、次のような多くの問題が伴います。

膨大なトレーニングセットを収集する。
数か月、膨大な計算リソースと電力を消費する。
並列処理の課題を解決。

LLM を使用して予測を推測すると、次のような問題が発生します。

LLM は幻覚を起こすため、予測に誤りが含まれることがよくあります。
LLM は、膨大な量の計算リソースと電力を消費します。通常、大規模なデータセットで LLM をトレーニングすると、推論に必要なリソースの量が削減されますが、大規模なトレーニングセットではトレーニングリソースが増えます。
他の ML モデルと同様に、LLM にはさまざまなバイアスが存在する可能性があります。

演習: 理解度を確認する

Transformer が 10 億個のドキュメントでトレーニングされているとします。このドキュメントには、「elephant」という単語が 1 つ以上含まれているドキュメントが数千個含まれています。次の記述のうち、おそらく正しいものはどれですか。

ゾウの食生活の重要な要素であるアカシアの木は、「ゾウ」という言葉とともに、徐々に高い自己注意スコアを獲得します。

はい。これにより、Transformer は象の食事に関する質問に回答できるようになります。

Transformer は、elephant という単語を含むさまざまなイディオムに、elephant という単語を関連付けます。

はい。システムは、elephant という単語と象に関する慣用句の他の単語の間に高いセルフアテンションスコアを付け始めます。

Transformer は、トレーニングデータでゾウという単語が皮肉的または皮肉的で使用されていることを徐々に無視することを学習していきます。

十分に広範なトレーニングセットでトレーニングされた十分に大きな Transformer は、皮肉、ユーモア、皮肉を認識するのが非常に得意になります。したがって、Transformer は皮肉や皮肉を無視するのではなく、そこから学習します。

はじめに: 言語モデルとは何か（10 分）

ファインチューニング、抽出、プロンプトエンジニアリング（10 分）