LLM: ファインチューニング、抽出、プロンプト エンジニアリング

前のユニットでは、汎用 LLM についてさまざまな形で説明しました。 別名:

  • 基盤 LLM
  • ベース LLM
  • 事前トレーニング済み LLM

基盤 LLM は「知る」のに十分な自然言語でトレーニングされるすばらしい 理解を深めていただくことを目的としています。基盤言語モデルは、 トレーニングされたトピックに関する有用な文章を生成します。 さらに、基盤 LLM は、従来から呼ばれていた特定のタスクを実行できます。 「クリエイティブ」考えることができます。しかし、基盤 LLM の生成テキストは、 出力は他の種類の一般的な ML 問題の解決策にはなりません。たとえば、 回帰または分類ですこれらのユースケースでは、基盤 LLM が ソリューションではなくプラットフォームとして考える必要があります。

基礎となる LLM を、アプリケーションの要件を満たすソリューションに ファインチューニングと呼ばれるプロセスが必要です。この 2 つ目のプロセスは、 抽出では、ファインチューニングされた モデルです。

ファインチューニング

研究によると基盤のパターン認識能力は 言語モデルは非常にパワフルであり、場合によっては比較的 特定のタスクを学習するための追加のトレーニングがほとんど必要ありません。 追加のトレーニングにより、モデルの予測精度が向上します。 学習します。この追加のトレーニング ファインチューニング、 LLM の実用性を引き出します

アプリケーションのタスクに固有のサンプルでトレーニングを微調整 確認します。エンジニアが基礎となる LLM を、ごく少数の 100 ~数千個のトレーニング用サンプルがあります

トレーニング サンプルの数は比較的少ないものの、標準的なファインチューニングでは、 多くの場合、コンピューティング コストが高くなります。これは、標準的なファインチューニングでは 各パラメータのすべてのパラメータの重みとバイアスを 誤差逆伝播の反復処理です。 幸いなことに、 調整 各パラメータのサブセットのみを調整することで LLM をファインチューニングできる 誤差逆伝播法を繰り返します。

通常、ファインチューニングされたモデルの予測は、基盤 LLM の予測よりも優れている 説明します。ただし、ファインチューニングされたモデルには、 ハイパーパラメータを定義します。したがって、基盤 LLM に 100 億 ファインチューニングされたバージョンにも 100 億個のパラメータが含まれ、 あります。

蒸留

ほとんどのファインチューニングされた LLM には膨大な数のパラメータが含まれています。その結果 基盤 LLM には膨大なコンピューティング リソースと環境リソースが必要 予測を生成します。これらのパラメータのほとんどは、 特定のアプリケーションには関係ありません

抽出 LLM の小さいバージョンを作成します。抽出された LLM が予測を生成する はるかに高速になり、必要なコンピューティング リソースや環境リソースを 生成します。ただし、抽出されたモデルの予測は通常、 元の LLM の予測と同等です。LLM よりも多くの情報が ほぼ常に、LLM よりも少ないパラメータでより良い予測が あります。

プロンプト エンジニアリング

プロンプト エンジニアリング を使用すると、LLM のエンドユーザーがモデルの出力をカスタマイズできます。 つまり、エンドユーザーは LLM がどのようにプロンプトに応答すべきかを明確にします。

人間はサンプルからよく学ぶ。LLM についても同様です。LLM に 1 つの例を示す 呼ばれるのは ワンショット プロンプト。 たとえば、モデルで次の形式を使用して出力するとします。 果物の家族:

ユーザーが果物の名前を入力すると、LLM がその果物のクラスを出力します。

ワンショット プロンプトは、LLM に前述の形式の例を 1 つ示します。 その例に基づくクエリを完成させるよう LLM に要求します。次に例を示します。

peach: drupe
apple: ______

1 つの例で十分な場合もあります。存在する場合、LLM は有用な できます。次に例を示します。

apple: pome

それ以外の状況では、1 つの例では不十分です。つまり、ユーザーは LLM の複数の例を示します。たとえば、次のプロンプトには 例を 2 つ紹介します。

plum: drupe
pear: pome
lemon: ____

複数の例を指定することを、 少数ショット プロンプト。 前のプロンプトの最初の 2 行は、トレーニング用と考えることができます。 説明します。

LLM は例なしで有用な予測を提供できるか(ゼロショット プロンプト)?たまにですが、 LLM はコンテキストを好みます。コンテキストがない場合、次のゼロショット プロンプトは フルーツではなくテクノロジー企業に関する情報を返すとします。

apple: _______

オフライン推論

LLM のパラメータ数はそれほど多くない オンライン推論で 回帰のような現実世界のタスクには遅すぎるため、 あります。そのため、多くのエンジニアリング チームが オフライン推論( (一括推論静的推論)と呼ばれることもあります。 つまり、サービング時にクエリに応答するのではなく、 事前に予測を行ってから、その予測をキャッシュに保存する

LLM がタスクを完了するまでに時間がかかる場合でも、 LLM がタスクを週に 1 回または月に 1 回実行すればよいだけです。

たとえば、Google 検索 LLM を使用した 800 を超える類義語のリストをキャッシュに保存するために、オフライン推論を実行する 50 以上の言語に対応しましたその後 Google 検索は キャッシュに保存されたリストを使用して、ライブ トラフィックでワクチンに関するクエリを特定できます。

責任を持って LLM を使用する

あらゆる形式の ML と同様に、LLM は通常、次のようなバイアスを共有します。

  • トレーニングに使用されたデータ。
  • 抽出されたデータ

提示された教訓に従って、公正かつ責任を持って LLM を使用する このコースの前半で説明します。

演習:理解度をチェックする

LLM の説明として正しいものは次のうちどれですか。
抽出された LLM に含まれるパラメータは基盤よりも少ない 必要があります。
はい。抽出によりパラメータの数が減ります。
ファインチューニングされた LLM に含まれるパラメータは基盤より少ない トレーニングした言語モデルです。
ファインチューニングされたモデルに含まれるパラメータは同じ 元の基盤言語モデルと同じ結果になります。
ユーザーがプロンプト エンジニアリングを実行するにつれて、 変化します
プロンプト エンジニアリングは LLM を追加(または削除、変更)しない あります。