このページでは、生成 AI の用語集の用語について説明します。用語集のすべての用語については、こちらをクリックしてください。
A
自動評価
ソフトウェアを使用してモデルの出力の品質を判断する。
モデルの出力が比較的単純な場合は、スクリプトまたはプログラムでモデルの出力をゴールド レスポンスと比較できます。このタイプの自動評価は、プログラムによる評価とも呼ばれます。ROUGE や BLEU などの指標は、プログラムによる評価に役立ちます。
モデルの出力が複雑であるか、正解が 1 つではない場合は、自動採点ツールと呼ばれる別の ML プログラムが自動評価を実行することがあります。
人間による評価とは対照的です。
自動評価
生成 AI モデルの出力の品質を判断するためのハイブリッド メカニズム。人間による評価と自動評価を組み合わせています。自動評価ツールは、人間による評価によって作成されたデータでトレーニングされた ML モデルです。理想的には、自動評価ツールは人間の評価者を模倣するように学習します。事前構築された自動評価ツールを使用できますが、最適な自動評価ツールは、評価するタスクに固有にファインチューニングされています。
自己回帰モデル
独自の過去の予測に基づいて予測を推定するモデル。たとえば、自己回帰言語モデルは、以前に予測されたトークンに基づいて次のトークンを予測します。Transformer ベースの大規模言語モデルはすべて自動回帰型です。
一方、GAN ベースの画像モデルは、ステップで反復処理せずに 1 回の順方向パスで画像を生成するため、通常は自己回帰的ではありません。ただし、特定の画像生成モデルは、画像を段階的に生成するため、自己回帰的です。
C
Chain-of-Thought プロンプト
大規模言語モデル(LLM)が推論を段階的に説明するように促すプロンプト エンジニアリング手法。たとえば、次のプロンプトについて考えてみましょう。特に 2 番目の文に注意してください。
時速 0 マイルから時速 60 マイルに 7 秒で加速する自動車に乗っている場合、ドライバーはどのくらいの G 力を体験するでしょうか。回答に、関連するすべての計算を示します。
LLM のレスポンスは次のようになります。
- 0、60、7 の値を適切な場所に挿入して、一連の物理学式を表示します。
- これらの数式が選択された理由と、さまざまな変数の意味を説明します。
思考プロセス プロンプトを使用すると、LLM はすべての計算を実行するため、より正確な回答が得られる可能性があります。また、思考の流れプロンプトを使用すると、ユーザーは LLM のステップを調べて、回答が妥当かどうかを判断できます。
チャット
ML システム(通常は大規模言語モデル)とのやり取りの内容。チャットでの以前のやり取り(入力内容と大規模言語モデルの応答方法)が、チャットの後続部分のコンテキストになります。
chatbot は、大規模言語モデルのアプリケーションです。
コンテキストに応じた言語エンベディング
ネイティブの人間の話者のように単語やフレーズを「理解」することに近いエンベディング。コンテキスト化された言語エンベディングは、複雑な構文、セマンティクス、コンテキストを理解できます。
たとえば、英語の単語「cow」のエンベディングについて考えてみましょう。word2vec などの古いエンベディングでは、エンベディング空間における cow から bull までの距離が、ewe(メスの羊)から ram(オスの羊)までの距離や、female から male までの距離と類似するように、英語の単語を表現できます。コンテキストに応じた言語エンベディングでは、英語話者が牛または雄牛のいずれかを指すために「cow」という単語を日常的に使用していることを認識することで、さらに一歩進んだことができます。
コンテキスト ウィンドウ
特定のプロンプトでモデルが処理できるトークンの数。コンテキスト ウィンドウが大きいほど、モデルはより多くの情報を使用して、プロンプトに一貫性のある回答を提供できます。
D
直接プロンプト
ゼロショット プロンプトと同義。
での精製
1 つのモデル(教師モデル)のサイズを、元のモデルの予測を可能な限り忠実にエミュレートする小規模なモデル(生徒モデル)に縮小するプロセス。蒸留は、小規模なモデルには大規模なモデル(教師)にはない 2 つの重要な利点があるため、有用です。
- 推論時間の短縮
- メモリとエネルギーの使用量の削減
ただし、通常、生徒の予測は教師の予測ほど正確ではありません。
抽出では、生徒モデルと教師モデルの予測の出力の差に基づいて損失関数を最小化するように生徒モデルをトレーニングします。
蒸留と次の用語を比較対照します。
詳細については、機械学習集中講座の LLM: ファインチューニング、蒸留、プロンプト エンジニアリングをご覧ください。
E
evals
主に LLM 評価の略語として使用されます。より広い意味で、evals はあらゆる形式の評価の略語です。
評価
モデルの品質を測定したり、異なるモデルを比較したりするプロセス。
教師あり機械学習モデルを評価するには、通常、検証セットとテストセットと比較して判断します。LLM の評価には通常、幅広い品質と安全性の評価が含まれます。
F
事実性
ML の世界では、出力が現実に基づくモデルを記述するプロパティ。事実性は指標ではなくコンセプトです。たとえば、次のようなプロンプトを大規模言語モデルに送信するとします。
食塩の化学式は何ですか。
事実性を最適化するモデルは、次のように返信します。
NaCl
すべてのモデルが事実に基づいていると仮定するのは魅力的です。ただし、次のようなプロンプトでは、生成 AI モデルは事実性ではなく創造性を最適化する必要があります。
宇宙飛行士と毛虫に関するライムリークを教えて。
作成されたライムリックが現実に基づいている可能性は低いです。
接地とは対照的です。
少数ショット プロンプト
大規模言語モデルがどのように応答すべきかを示す複数の(「少数」の)例を含むプロンプト。たとえば、次の長いプロンプトには、大規模言語モデルにクエリに回答する方法を示す 2 つの例が含まれています。
1 つのプロンプトの一部 | メモ |
---|---|
指定した国の公式通貨は何ですか? | LLM に回答を求める質問。 |
フランス: EUR | 1 つの例を挙げましょう。 |
英国: GBP | 別の例をご紹介します。 |
インド: | 実際のクエリ。 |
一般的に、少数ショット プロンプトを使用すると、ゼロショット プロンプトやワンショット プロンプトよりも望ましい結果が得られます。ただし、少数ショット プロンプトでは長いプロンプトが必要になります。
少数ショット プロンプトは、プロンプトベースの学習に適用される少数ショット学習の一種です。
詳細については、機械学習集中講座のプロンプト エンジニアリングをご覧ください。
ファインチューニング
2 つ目のタスク固有のトレーニング パスは、事前トレーニング済みモデルで実行され、特定のユースケースに合わせてパラメータを調整します。たとえば、一部の大規模言語モデルの完全なトレーニング シーケンスは次のとおりです。
- 事前トレーニング: すべての英語の Wikipedia ページなど、膨大な一般的なデータセットで大規模言語モデルをトレーニングします。
- ファインチューニング: 医療に関するクエリへの回答など、特定のタスクを実行するように事前トレーニング済みモデルをトレーニングします。通常、ファインチューニングでは、特定のタスクに焦点を当てた数百または数千のサンプルが使用されます。
別の例として、大規模な画像モデルの完全なトレーニング シーケンスは次のとおりです。
- 事前トレーニング: 膨大な一般的な画像データセット(ウィキメディア コモンズ内のすべての画像など)で大規模な画像モデルをトレーニングします。
- ファインチューニング: オルカの画像の生成など、特定のタスクを実行するように事前トレーニング済みモデルをトレーニングします。
ファインチューニングでは、次の戦略を組み合わせて使用できます。
- 事前トレーニング済みモデルの既存のパラメータをすべて変更する。これは「完全なファインチューニング」と呼ばれることもあります。
- 事前トレーニング済みモデルの既存のパラメータの一部のみを変更し(通常は出力レイヤに最も近いレイヤ)、他の既存のパラメータは変更しない(通常は入力レイヤに最も近いレイヤ)。パラメータ効率チューニングをご覧ください。
- レイヤを追加します。通常は、出力レイヤに最も近い既存のレイヤの上に追加します。
ファインチューニングは転移学習の一種です。そのため、ファインチューニングでは、トレーニング済みモデルのトレーニングに使用したものとは異なる損失関数やモデルタイプを使用する場合があります。たとえば、事前トレーニング済みの大規模画像モデルをファインチューニングして、入力画像の鳥の数を返す回帰モデルを生成できます。
ファインチューニングと次の用語を比較します。
詳細については、機械学習集中講座のファインチューニングをご覧ください。
成功率
ML モデルの生成テキストを評価するための指標。成功率は、生成された「成功した」テキスト出力の数を生成されたテキスト出力の合計数で割った値です。たとえば、大規模言語モデルが 10 個のコードブロックを生成し、そのうち 5 個が成功した場合、成功率は 50% になります。
成功率は統計学全体で広く役立ちますが、ML 内では、この指標は主にコード生成や数学の問題など、検証可能なタスクの測定に役立ちます。
G
Gemini
Google の最先端の AI を構成するエコシステム。このエコシステムの要素には次のようなものがあります。
- さまざまな Gemini モデル。
- Gemini モデルへのインタラクティブな会話型インターフェース。ユーザーがプロンプトを入力すると、Gemini がそのプロンプトに応答します。
- 各種 Gemini API。
- Gemini モデルに基づくさまざまなビジネス プロダクト(Gemini for Google Cloud など)。
Gemini モデル
Google の最先端の Transformer ベースのマルチモーダル モデル。Gemini モデルは、エージェントと統合するように特別に設計されています。
ユーザーは、インタラクティブなダイアログ インターフェースや SDK など、さまざまな方法で Gemini モデルを操作できます。
生成されたテキスト
通常、ML モデルが出力するテキストです。大規模言語モデルを評価する場合、一部の指標では、生成されたテキストを参照テキストと比較します。たとえば、ML モデルがフランス語からオランダ語に翻訳する際の有効性を判断するとします。次のような場合があります。
- 生成されたテキストは、ML モデルが出力するオランダ語の翻訳です。
- 参照テキストは、人間の翻訳者(またはソフトウェア)が作成したオランダ語の翻訳です。
評価戦略によっては、参照テキストが使用されない場合があります。
生成 AI
正式な定義のない新しい変革分野。ただし、ほとんどの専門家は、生成 AI モデルが次のすべてのコンテンツを作成(「生成」)できると考えています。
- 複雑
- 一貫性
- オリジナル
たとえば、生成 AI モデルは高度なエッセイや画像を作成できます。
LSTM や RNN などの以前のテクノロジーでも、独自の整合性のあるコンテンツを生成できます。一部の専門家は、これらの初期のテクノロジーを生成 AI と見なしていますが、真の生成 AI には、それらの初期のテクノロジーが生成できるよりも複雑な出力が必要だと考える専門家もいます。
予測 ML とは対照的です。
ゴールデン レスポンス
正しいと知られている回答。たとえば、次のようなプロンプトがあるとします。
2 + 2
理想的な回答は次のとおりです。
4
H
人間による評価
人間が ML モデルの出力の品質を判断するプロセス。たとえば、バイリンガルの人間に ML 翻訳モデルの品質を判断してもらうなどです。人間による評価は、正解が一つではないモデルの評価に特に役立ちます。
自動評価や自動評価ツールによる評価とは対照的です。
人間参加型(HITL)
次のいずれかを意味する、ゆるく定義されたイディオム。
- 生成 AI の出力を批判的または懐疑的に見るポリシー。たとえば、この ML 用語集を作成した人間は、大規模言語モデルができることには驚いていますが、大規模言語モデルが犯す間違いには注意しています。
- 人間がモデルの動作の形成、評価、改良に貢献できるようにするための戦略またはシステム。人間をループに維持することで、AI はマシン インテリジェンスと人間の知能の両方からメリットを得ることができます。たとえば、AI がコードを生成し、ソフトウェア エンジニアがレビューするシステムは、人間がループ内にあるシステムです。
I
コンテキスト内学習
少数ショット プロンプトと同義。
指示チューニング
生成 AI モデルが指示に従う能力を向上させるファインチューニングの一種。命令のチューニングでは、通常はさまざまなタスクを網羅する一連の命令プロンプトでモデルをトレーニングします。生成された命令チューニング済みモデルは、さまざまなタスクでゼロショット プロンプトに対する有用なレスポンスを生成する傾向があります。
比較対照:
L
LLM
大規模言語モデルの略語。
LLM の評価(evals)
大規模言語モデル(LLM)のパフォーマンスを評価するための一連の指標とベンチマーク。LLM 評価の概要は次のとおりです。
- 研究者が LLM の改善が必要な領域を特定できるようにします。
- さまざまな LLM を比較し、特定のタスクに最適な LLM を特定する場合に役立ちます。
- LLM を安全かつ倫理的に使用できるようにします。
LoRA
低ランク適応性の略。
低ランク適応(LoRA)
ファイン チューニングのためのパラメータ効率的な手法。モデルの事前トレーニング済み重みを「凍結」(変更できなくする)し、トレーニング可能な重みの小さなセットをモデルに挿入します。このトレーニング可能な重みセット(更新行列とも呼ばれます)はベースモデルよりもかなり小さいため、トレーニングが大幅に高速化されます。
LoRA には次の利点があります。
- ファインチューニングが適用されるドメインのモデルの予測の品質が向上します。
- モデルのすべてのパラメータをファインチューニングする手法よりも高速にファインチューニングできます。
- 同じベースモデルを共有する複数の特殊化モデルの同時提供を可能にすることで、推論の計算コストを削減します。
M
機械翻訳
ソフトウェア(通常は ML モデル)を使用して、テキストを 1 つの人間の言語から別の人間の言語に変換します(例: 英語から日本語)。
K での平均適合率(mAP@k)
検証データセット全体のすべての 平均適合率(k で)スコアの統計的平均。k での平均適合率の 1 つの用途は、おすすめシステムによって生成されたおすすめの品質を判断することです。
「平均平均」というフレーズは冗長に聞こえますが、指標の名前としては適切です。この指標は、複数の k での平均適合率の平均値を求めます。
専門家集団
パラメータのサブセット(エキスパート)のみを使用して特定の入力トークンまたは例を処理することで、ニューラル ネットワークの効率を高めるスキーム。ゲーティング ネットワークは、各入力トークンまたは例を適切なエキスパートに転送します。
詳しくは、次のいずれかの論文をご覧ください。
MMIT
モデル カスケード
特定の推論クエリに最適なモデルを選択するシステム。
非常に大きいモデル(パラメータが多い)から非常に小さいモデル(パラメータが非常に少ない)まで、さまざまなモデルのグループを想像してみてください。非常に大きなモデルは、小さなモデルよりも推論時に多くの計算リソースを消費します。ただし、非常に大きなモデルは通常、小規模なモデルよりも複雑なリクエストを推測できます。モデル カスケードでは、推論クエリの複雑さを判断し、推論を実行する適切なモデルを選択します。モデル カスケードの主な目的は、通常は小規模なモデルを選択し、複雑なクエリに対してのみ大規模なモデルを選択することで、推論コストを削減することです。
小型モデルがスマートフォンで実行され、そのモデルの大型バージョンがリモート サーバーで実行されているとします。適切なモデル カスケードを使用すると、小規模なモデルで単純なリクエストを処理し、複雑なリクエストを処理するためにリモート モデルを呼び出すだけで、費用とレイテンシを削減できます。
モデルルーターもご覧ください。
モデル ルーター
モデル カスケードで推論に最適なモデルを決定するアルゴリズム。モデル ルータ自体は通常、特定の入力に最適なモデルを選択する方法を徐々に学習する ML モデルです。ただし、モデル ルータは、機械学習以外の単純なアルゴリズムである場合があります。
MOE
MT
機械翻訳の略。
N
正解なし(NORA)
複数の適切な回答があるプロンプト。たとえば、次のプロンプトには正解がありません。
ゾウに関するジョークを教えて。
正解のないプロンプトの評価は難しい場合があります。
NORA
正解は 1 つではないの略語。
O
ワンショット プロンプト
大規模言語モデルがどのように応答すべきかを示す1 つの例を含むプロンプト。たとえば、次のプロンプトには、クエリにどのように回答するかを大規模言語モデルに示す例が 1 つ含まれています。
1 つのプロンプトの一部 | メモ |
---|---|
指定した国の公式通貨は何ですか? | LLM に回答を求める質問。 |
フランス: EUR | 1 つの例を挙げましょう。 |
インド: | 実際のクエリ。 |
ワンショット プロンプトと次の用語を比較します。
P
パラメータ効率チューニング
大規模な事前トレーニング済み言語モデル(PLM)を完全なファインチューニングよりも効率的にファインチューニングするための一連の手法。パラメータ効率チューニングでは、通常、完全なファインチューニングよりもはるかに少ないパラメータをファインチューニングしますが、通常、完全なファインチューニングから構築された大規模言語モデルと同等(またはほぼ同等)のパフォーマンスを示す大規模言語モデルが生成されます。
パラメータ効率チューニングと次の方法を比較します。
パラメータ効率チューニングは、パラメータ エフィシエント ファインチューニングとも呼ばれます。
PLM
事前トレーニング済み言語モデルの略称。
トレーニング後のモデル
厳密に定義されていない用語で、通常は、次のような 1 つ以上の後処理を行った事前トレーニング済みモデルを指します。
事前トレーニング済みモデル
通常は、すでにトレーニングされているモデルです。この用語は、以前にトレーニングされたエンベディング ベクトルを意味する場合もあります。
事前トレーニング済み言語モデルという用語は、通常、すでにトレーニングされている大規模言語モデルを指します。
事前トレーニング
大規模なデータセットでのモデルの初期トレーニング。一部の事前トレーニング済みモデルは巨大で扱いづらく、通常は追加のトレーニングで精度を高める必要があります。たとえば、ML の専門家は、Wikipedia のすべての英語ページなど、膨大なテキスト データセットで大規模言語モデルを事前トレーニングする場合があります。事前トレーニングの後、得られたモデルは、次のいずれかの手法でさらに精緻化できます。
プロンプト
大規模言語モデルへの入力として入力されるテキスト。これにより、モデルが特定の動作をするように条件付けられます。プロンプトは、フレーズのように短くすることも、小説のテキスト全体のように任意の長さにすることもできます。プロンプトは、次の表に示すような複数のカテゴリに分類されます。
プロンプト カテゴリ | 例 | メモ |
---|---|---|
質問 | ハトはどのくらいの速さで飛ぶことができますか? | |
手順 | アービトラージに関する面白い詩を書いてください。 | 大規模言語モデルに何かを実行するよう求めるプロンプト。 |
例 | Markdown コードを HTML に変換します。例:
マークダウン: * リストアイテム HTML: <ul> <li>リストアイテム</li> </ul> |
このサンプル プロンプトの最初の文は指示です。 プロンプトの残りの部分が例です。 |
ロール | 機械学習のトレーニングで勾配降下法が使用される理由を、物理学の博士号取得者に説明します。 | 文の最初の部分は指示であり、「物理学博士号」というフレーズは役割の部分です。 |
モデルが完了する部分入力 | 英国の首相は | 部分入力プロンプトは、この例のように突然終了することも、アンダースコアで終了することもできます。 |
生成 AI モデルは、テキスト、コード、画像、エンベディング、動画など、ほぼすべてのプロンプトに応答できます。
プロンプトベースの学習
特定のモデルの機能。任意のテキスト入力(プロンプト)に応じて動作を適応させることができます。一般的なプロンプトベースの学習パラダイムでは、大規模言語モデルがプロンプトに応答してテキストを生成します。たとえば、ユーザーが次のプロンプトを入力したとします。
ニュートンの運動の第 3 法則を要約します。
プロンプトベースの学習が可能なモデルは、前のメッセージに回答するように特別にトレーニングされていません。むしろ、モデルは物理学に関する多くの事実、一般的な言語ルール、一般的に有用な回答を構成する要素を「知っています」。この知識があれば、(うまくいけば)有用な回答を提供できます。人間からの追加のフィードバック(「その回答は複雑すぎる」や「反応はどうだった?」など)により、一部のプロンプトベースの学習システムでは、回答の有用性を徐々に改善できます。
プロンプト設計
プロンプト エンジニアリングと同義。
プロンプト エンジニアリング
大規模言語モデルから望ましい回答を引き出すプロンプトを作成する技術。プロンプトのエンジニアリングは人間が行います。適切に構造化されたプロンプトを作成することは、大規模言語モデルから有用なレスポンスを得るために不可欠な要素です。プロンプト エンジニアリングは、次のような多くの要因によって異なります。
- 大規模言語モデルの事前トレーニングと、必要に応じてファイン チューニングに使用されるデータセット。
- モデルがレスポンスの生成に使用する温度などのデコード パラメータ。
役立つプロンプトの作成について詳しくは、プロンプト設計の概要をご覧ください。
プロンプト設計はプロンプト エンジニアリングと同義です。
プロンプト調整
システムが実際のプロンプトの前に追加する「接頭辞」を学習するパラメータ効率チューニング メカニズム。
プロンプト チューニングの一種(接頭辞チューニングとも呼ばれる)は、すべてのレイヤに接頭辞を追加することです。一方、ほとんどのプロンプト チューニングでは、入力レイヤに接頭辞のみが追加されます。
R
参照テキスト
プロンプトに対するエキスパートの回答。たとえば、次のプロンプトがあるとします。
「名前を教えて」という質問を英語からフランス語に翻訳してください。
エキスパートの回答は次のようになります。
Comment vous appelez-vous?
さまざまな指標(ROUGE など)は、参照テキストが ML モデルの生成テキストと一致する度合いを測定します。
人間からのフィードバックを用いた強化学習(RLHF)
人間のレーティング エージェントからのフィードバックを使用して、モデルの回答の品質を向上させる。たとえば、RLHF メカニズムでは、モデルのレスポンスの品質を 👍? または 👎? の絵文字で評価するようユーザーに求める場合があります。システムは、そのフィードバックに基づいて今後のレスポンスを調整できます。
ロール プロンプト
生成 AI モデルのレスポンスのターゲット オーディエンスを識別するプロンプトのオプション パート。ロール プロンプトがない場合、大規模言語モデルは、質問したユーザーにとって有用な回答とそうでない回答の両方を返します。ロール プロンプトを使用すると、大規模言語モデルは、特定のターゲット ユーザーにとってより適切で有用な方法で回答できます。たとえば、次のプロンプトのロール プロンプト部分は太字になっています。
- 経済学博士号取得者向けに、この記事を要約してください。
- 潮汐の仕組みを10 歳の子どもに説明してください。
- 2008 年の金融危機について説明します。幼児やゴールデン レトリバーに話しかけるように話す。
S
ソフト プロンプトのチューニング
リソースを大量に消費するファインチューニングを行わずに、特定のタスク用に大規模言語モデルをチューニングする手法。ソフト プロンプト チューニングでは、モデル内のすべての重みを再トレーニングするのではなく、同じ目標を達成するためにプロンプトを自動的に調整します。
テキスト プロンプトがある場合、通常、ソフト プロンプト チューニングでは、プロンプトに追加のトークン エンベディングを追加し、バックプロパゲーションを使用して入力を最適化します。
「ハード」なプロンプトには、トークン エンベディングではなく実際のトークンが含まれます。
T
温度
モデルの出力のランダム性の度合いを制御するハイパーパラメータ。温度が高いほど、出力のランダム性が高まり、温度が低いほど、出力のランダム性が低くなります。
最適な温度の選択は、特定のアプリケーションとモデルの出力の優先プロパティによって異なります。たとえば、クリエイティブな出力を生成するアプリを作成する場合は、温度を上げます。逆に、画像やテキストを分類するモデルを作成する場合は、モデルの精度と一貫性を高めるために温度を下げる必要があります。
Temperature は、softmax と併用されることがよくあります。
Z
ゼロショット プロンプト
大規模言語モデルにどのように回答してほしいかを示しているプロンプトではありません。次に例を示します。
1 つのプロンプトの一部 | メモ |
---|---|
指定した国の公式通貨は何ですか? | LLM に回答を求める質問。 |
インド: | 実際のクエリ。 |
大規模言語モデルは、次のいずれかのレスポンスを返す場合があります。
- ルピー
- INR
- ₹
- ルピー(インド)
- ルピー
- インドルピー
上記の選択肢はすべて正しいが、特定の形式が好ましい場合もある。
ゼロショット プロンプトと次の用語を比較します。