大規模言語モデルの概要

言語モデルや大規模言語モデルを初めて使用する場合は、以下のリソースをご覧ください。

言語モデルは何ですか?

言語モデルは、信頼できる言語を予測して生成することを目的とした ML モデルです。たとえば、予測入力は言語モデルです。

これらのモデルは、予測された確率を token または 生成されるトークンのシーケンス。次の文について考えてみましょう。

When I hear rain on my roof, I _______ in my kitchen.

トークンが単語であると仮定した場合、言語モデルは 別の単語または単語シーケンスの確率で置き換えられ、 使用します。たとえば、言語モデルでは 確率:

cook soup 9.4%
warm up a kettle 5.2%
cower 3.6%
nap 2.5%
relax 2.2%
...

「一連のトークン」文全体または一連の文になります。 つまり、ある言語モデルは、ある言語から生成された別のテキスト全体の単語の テキスト ブロックです。

シーケンス内の次の単語の確率を推定することは、テキストの生成、言語の翻訳、質問への回答など、さまざまな場面で役立ちます。

大規模言語モデルとは何ですか?

大規模に人間の言語をモデル化することは非常に複雑でリソースを大量に消費する あります。言語モデルと大規模言語モデルの現在の機能に到達するまでの道のりは、数十年にわたっています。

モデルの規模が大きくなると、複雑さと有効性が高まります。初期の言語モデルでは、1 つの単語の確率を予測できました。モダン LLM では、文、段落、入力文の確率が予測され、 ドキュメント全体などです

この年、言語モデルのサイズと機能は爆発的に拡大しました。 コンピュータ メモリ、データセット サイズ、処理能力が増加し、 長いテキスト シーケンスをモデリングするためのより効果的な手法が開発されました。

大きいサイズ

定義は曖昧ですが、「大規模」は BERT(1 億 1,000 万パラメータ)や PaLM 2(最大 3400 億パラメータ)の説明に使用されています。

パラメータは、トレーニング中にモデルが学習した重みで、シーケンス内の次のトークンを予測するために使用されます。「大規模」とは、モデルのパラメータ数を指す場合もあれば、データセット内の単語数を指す場合もあります。

Transformer

言語モデリングの重要な発展は、2017 年に導入された Transformer という概念に基づいて設計された 注意を向けるようにします。 これにより、入力の最も重要な部分に焦点を当てて長いシーケンスを処理できるようになり、以前のモデルで発生したメモリの問題を解決しました。

Transformer は、さまざまなシステム向けの最先端のアーキテクチャで、 言語モデル アプリケーションを開発できます。

入力が「I am a good dog」の場合、Transformer ベースの翻訳ツールは、その入力を「Je suis un bon chien」という出力に変換します。これは、同じ文をフランス語に翻訳したものです。

完全な Transformer は、エンコーダデコーダで構成されます。「 Encoder は、入力テキストを中間表現に変換します。デコーダは、 は、その中間表現を有用なテキストに変換します。

セルフ アテンション

Transformer は、セルフアテンションと呼ばれるコンセプトに大きく依存しています。この部分は、 自己注意とは、「自己中心」のトークンのフォーカスがあります。 実質的には、入力トークンの代わりに、セルフ アテンションが「他のすべての入力トークンがにとってどの程度重要か」を尋ねます。問題をわかりやすくするために、 各トークンが単語であり、完全なコンテキストが単一の あります。次の文を考えてみましょう。

動物は疲れすぎていたため、通りを渡らなかった。

前の文には 11 個の単語があるので、11 個の単語のそれぞれが支払いとなります この 10 個の単語がそれぞれどれほど重要なのか疑問に思っています。 できます。たとえば、この文には代名詞 it が含まれています。代名詞はしばしばあいまいです。代名詞it は、常に最新の名詞を指します。 例文では、動物 それとも道路ですか?

セルフ アテンション機構は、近くにある各単語の関連性を判断し、 代名詞 it

LLM のユースケースにはどのようなものがありますか。

LLM は、構築されたタスク(入力に応じて最も妥当なテキストを生成する)で非常に効果的です。読者が購読者に 他のタスクで優れたパフォーマンスを発揮する。たとえば、要約、質問、 テキスト分類に使用されます。これらは 創発的機能。LLM は、一部の計算問題を解いたり、コードを記述したりすることもできます(ただし、その結果は確認することをおすすめします)。

LLM は人間の発話パターンを模倣する能力に優れています。特に、 さまざまなスタイルやトーンで情報を組み合わせるのが得意です。

ただし、LLM は、テキストの生成以上のことができるモデルのコンポーネントにすることができます。最近の LLM は感情検出機能の構築に使用され、 画像キャプションを生成します。

LLM に関する考慮事項

これほど大きなモデルに欠点がないわけではありません。

最大規模の LLM は費用がかかる。トレーニングに数か月かかることがあり、その結果、 大量のリソースを消費します

通常、他のタスクに再利用することもできます。

1 兆個のパラメータを使用したモデルのトレーニング エンジニアリング上の課題が生じますチップへのフローやチップからのフローを調整するには、特別なインフラストラクチャとプログラミング手法が必要です。

こうした大規模モデルの費用を軽減する方法はいくつかあります。2 つのアプローチがあります。 オフライン推論 および 精製

バイアスは非常に大規模なモデルで問題になる可能性があるため、トレーニングとデプロイで考慮する必要があります。

これらのモデルは人間の言語でトレーニングされるため、言語の誤用や、人種、性別、宗教などの偏見など、多くの倫理的な問題が生じる可能性があります。

これらのモデルはますます大きくなり、パフォーマンスが向上するにつれて、その欠点を理解し、軽減するために継続的に注意を払う必要があることは明らかです。責任ある AI に対する Google のアプローチについて確認。

LLM の詳細

大規模言語モデルの詳細について詳しくは、確認 新しい大規模言語モデル モジュール ML 集中講座