LLM: 大規模言語モデルとは何でしょうか。

新しいテクノロジーによって、 大規模言語モデルLLM トークンまたは一連のトークン、場合によっては多数の段落に相当し、 提供します。トークンは、単語、サブワード(サブワード、 1 文字でもかまいません。LLM のほうがはるかに優れた予測を行える N グラム言語モデルや回帰型ニューラル ネットワークよりも優れている理由は、次のうちどれですか。

  • LLM に含まれるパラメータははるかに多い 再帰モデルよりもはるかに効率的です
  • LLM ははるかに多くのコンテキストを収集しています。

このセクションでは、最も成功し、広く使用されているアーキテクチャを紹介します。 Transformer を紹介します。

Transformer とは

Transformer は、さまざまなシステム向けの最先端のアーキテクチャで、 サポートしています。

図 1. 入力は「私は良い犬です。Transformer ベースの
            その入力を「Je suis un bon」という出力に変換します。
            「chien」はフランス語に翻訳した同じ文です
図 1. Transformer ベースのアプリケーションで、 英語からフランス語。

 

Full Transformer は、エンコーダとデコーダで構成されます。

たとえば、トランスレータでは次のようになります。

  • エンコーダは、入力テキスト(たとえば、英語のセンテンス)を 中間表現を生成します。
  • デコーダはその中間表現を出力テキストに変換します。 (フランス語の同等の文章になります)。
図 2. Transformer ベースのトランスレータは、エンコーダから始まり、
            これは、英語の翻訳文の中間表現を
            あります。デコーダはこの中間表現を
            フランス語の出力文を生成します。
図 2.Full Transformer には、エンコーダとデコーダの両方が含まれます。

 

セルフ アテンションとは?

コンテキストを強化するため、Transformer は セルフ アテンション。 実質的には、各入力トークンの代わりとして、セルフ アテンションが 質問です。

「他の入力トークンは、この解釈の解釈にどの程度影響するか」 ありますか?

「自分自身」「セルフアテンション」に入力シーケンスを指します。ある程度注意を払っている メカニズムによって、入力トークンと出力シーケンスのトークンの関係が トークンに変換できます。ただし、セルフ アテンションのみ 入力シーケンス内のトークン間の関係の重要度を重み付けします。

問題を単純化するために、各トークンは単語であり、 context は 1 文だけです。次の文を考えてみましょう。

The animal didn't cross the street because it was too tired.

前の文には 11 語が含まれています。11 の単語のそれぞれが、 残りの 10 個の単語に注目し、それぞれの 10 個の単語がそれぞれどれくらいの確率で 重要ですたとえば、この文には代名詞が含まれています。 it を使用します。代名詞はあいまいなことが多い。代名詞it は通常、指名する代名詞を指します。 最近の名詞または名詞のフレーズ。ただし、例文では、 動物と道路のどちらを指していますか?

セルフ アテンション機構は、近くにある単語と 代名詞 it です。図 3 に結果を示します。線が青くなればなるほど、 単語を代名詞に結び付けることが重要になります。つまり、animal は 代名詞それまでストリートより重要です。

図 3. 文中の 11 の単語それぞれの関連性:
            「この動物は疲れすぎて通りを渡らなかった」
            単語を「it」にします。「動物」という言葉最も関連性が高いのは
            生成します。
図 3. 代名詞 it の自己注意力。最低料金 <ph type="x-smartling-placeholder"></ph> Transformer: A Novel Neural Network Architecture for Google 言語の理解

 

逆に、文の最後の単語が次のように変わったとします。

The animal didn't cross the street because it was too wide.

この修正された文章では、セルフ アテンションによってストリートは次のように評価されることが望まれます。 代名詞 it に対する関連性が「動物」よりも高くなります。

一部のセルフ アテンション機構は双方向です。 単語の前後に出現するトークンの関連性スコアを計算する 評価しますたとえば、図 3 では、単語の両側に単語が 確認されるつまり、双方向のセルフアテンション機構により、 文脈を理解することが助けとなります。一方、 一方向のセルフ アテンション機構は、単語からしかコンテキストを収集できない 単語の片側に現れます双方向のセルフアテンションは、 シーケンス全体の表現を生成するのに特に便利ですが、 トークンごとにシーケンスを生成するアプリケーションでは、一方向の 心がけましょう。そのため、エンコーダでは双方向の自己注意、 デコーダは単方向を使用します。

マルチヘッド セルフ アテンションとは

通常、各セルフ アテンション レイヤは、 セルフ アテンション ヘッド。レイヤの出力は数学演算である 出力の加重平均やドット積など)を 表します

各セルフ アテンション レイヤはランダムな値に初期化されているため、 注意すべき個々の単語と、関連する単語の 単語の候補を表示します。たとえば、前述した自己注意レイヤは、 その代名詞が参照する名詞を特定することに焦点を当てたセクションです。 ただし、他のセルフ アテンション レイヤは、単語の文法的な関連性を 他の単語との相互作用を学習します。

Transformer が非常に大きい理由

変圧器には、数千億から数兆個のデバイスが構成されています。 パラメータ。 このコースでは一般に、より小規模なモデルの構築を パラメータの数が多いほど、パラメータの数が多くなります。 結局のところ、パラメータの数が少ないモデルほど使用するリソースも少ない パラメータ数が多いモデルよりも予測が 適切に行われるようになります しかし Transformer に多くのパラメータがあり、 Transformer よりもパラメータが少なく、一貫して Transformer よりも優れたパフォーマンスを発揮しています。

では、LLM はどのようにテキストを生成するのでしょうか。

研究者が LLM をトレーニングして、欠けている単語を予測する方法を見たことがあります。それから、 あまり印象に残らないかもしれません結局のところ、1 つか 2 つの単語を予測することが、 さまざまなテキスト、メール、オーサリング ソフトウェアに組み込まれている予測入力機能。 LLM はどのように文や段落を生成したり、 アービトラージに関する俳句です

実際、LLM は基本的に、予測入力メカニズムであり、 予測(完了)します。たとえば、ある単語に その後にマスクされた文が続きます。

My dog, Max, knows how to perform many traditional dog tricks.
___ (masked sentence)

LLM は、マスクされた文に対して次のような確率を生成できます。

確率 単語
3.1% たとえば、彼は座って、とどまり、 ロールオーバーします
2.9% たとえば、彼は座る、とうとう、 ロールオーバーします

LLM のサイズが大きければ、段落や全体の確率を生成できる エッセイ。ユーザーの質問を LLM に与える質問は、文 その後に架空のマスクが続きます。例:

User's question: What is the easiest trick to teach a dog?
LLM's response:  ___

LLM は、可能性のあるさまざまなレスポンスの確率を生成します。

別の例として、大量の数学的「単語」でトレーニングされた LLM があるとします。 "高度な数学的推論をしているように見えます。 しかし、これらの LLM は基本的には、単語問題のプロンプトを予測入力するだけで済みます。

LLM のメリット

LLM は、さまざまなコンテンツに対して明確でわかりやすいテキストを生成できる 多様なターゲット オーディエンスです。LLM は、実行されているタスクについて予測を行える モデルを定義します。一部の研究者は、LLM はさまざまな 明示的にトレーニングされていないが、それ以外の入力に対する予測 研究者がこの主張に反論しています。

LLM に関する問題

LLM のトレーニングには、次のような多くの問題が伴います。

  • 膨大なトレーニング セットを収集しています。
  • 数か月、膨大なコンピューティング リソースと 電気。
  • 並列処理の問題を解決する。

LLM を使用して予測を推測すると、次のような問題が発生します。

  • LLM はハルシネーションを起こす 予測に誤りが含まれることが多いです
  • LLM は膨大な量の計算リソースと電力を消費します。 通常、大規模なデータセットで LLM をトレーニングすると、 推論に必要なリソースの量は異なりますが、 トレーニング リソースが増えます。
  • 他の ML モデルと同様に、LLM にもあらゆる種類のバイアスが及ぶ可能性があります。

演習:理解度をチェックする

Transformer が 10 億のドキュメントでトレーニングされているとします。 同じ単語が少なくとも 1 つ含まれる数千ものドキュメント ゾウ:次の説明のうち、正しいと思われるものはどれですか。
ゾウの食生活にとって重要なアカシアの木は、 自己注意のスコアが上がっていきます。 ゾウ:
はい。これにより、Transformer は 考えてみましょう
Transformer は、単語 elephant をさまざまな単語と 単語 elephant を含むイディオム。
はい。システムは高いセルフ アテンション スコアを付けます。 単語「elephant」と他の単語の区別 サポートしています。
Transformer は、徐々に トレーニング データでのゾウという言葉の皮肉な使用。
十分に広範な Transformer でトレーニングされている十分な大きさの Transformer トレーニングセットは、皮肉、ユーモア、 皮肉なことに皮肉や皮肉を無視するのではなく Transformer はそこから学習します。