此页面由 Cloud Translation API 翻译。

机器学习术语表：生成式 AI

本页面包含生成式 AI 术语表中的术语。如需查看所有术语，请点击此处。

A

改编

#generativeAI

与调优或微调的含义相同。

代理

#generativeAI

能够对多模态用户输入进行推理，以便代表用户规划和执行操作的软件。

在强化学习中，智能体是使用策略来最大限度提高从环境的状态转换中获得的预期回报的实体。

代理型

#generativeAI

agent 的形容词形式。智能体是指智能体所具备的特质（例如自主性）。

智能体工作流

#generativeAI

一种动态过程，其中智能体自主规划和执行行动以实现目标。该过程可能涉及推理、调用外部工具和自行纠正方案。

AI 垃圾内容

#generativeAI

生成式 AI 系统生成的输出，侧重于数量而非质量。例如，包含 AI 垃圾内容的网页充斥着低成本制作的 AI 生成的低质量内容。

自动评估

#generativeAI

使用软件来判断模型输出的质量。

如果模型输出相对简单，脚本或程序可以将模型输出与标准回答进行比较。这种类型的自动评估有时称为程序化评估。ROUGE 或 BLEU 等指标通常有助于进行程序化评估。

如果模型输出复杂或没有唯一正确的答案，则有时会由一个名为自动评分器的单独机器学习程序执行自动评估。

与人工评估相对。

自动评估器评估

#generativeAI

一种用于评判生成式 AI 模型输出质量的混合机制，它将人工评估与自动评估相结合。自动评估器是一种基于人工评估生成的数据训练的机器学习模型。理想情况下，自动评估器应学会模仿人类评估者。

虽然有预建的自动评分器，但最好是专门针对您要评估的任务进行微调的自动评分器。

自回归模型

#generativeAI

一种模型，可根据其自身的先前预测推断预测结果。例如，自回归语言模型会根据之前预测的 token 来预测下一个 token。所有基于 Transformer 的大语言模型都是自回归模型。

相比之下，基于 GAN 的图像模型通常不是自回归模型，因为它们通过一次前向传递生成图像，而不是以迭代方式逐步生成图像。不过，某些图片生成模型是自回归模型，因为它们会分步生成图片。

B

基础模型

#generativeAI

一种预训练模型，可作为微调的起点，以解决特定任务或应用。

另请参阅预训练模型和基础模型。

C

思维链提示

#generativeAI

一种提示工程技术，可鼓励大语言模型 (LLM) 逐步说明其推理过程。例如，请考虑以下提示，并特别注意第二句话：

如果一辆汽车在 7 秒内从 0 加速到 60 英里/小时，驾驶员会感受到多少 g 的重力？在回答中，显示所有相关计算。

LLM 的回答可能会：

显示一系列物理公式，并在适当的位置代入值 0、60 和 7。
说明系统为何选择这些公式以及各种变量的含义。

思维链提示会强制 LLM 执行所有计算，这可能会得出更正确的答案。此外，通过思维链提示，用户可以检查 LLM 的步骤，以确定回答是否合理。

聊天

#generativeAI

与机器学习系统（通常是大语言模型）进行来回对话的内容。聊天中的上一次互动（您输入的内容以及大语言模型的回答）会成为聊天后续部分的上下文。

聊天机器人是大语言模型的一种应用。

情境化语言嵌入

#generativeAI

一种嵌入，能够以流利的人类说话者的方式“理解”字词和短语。情境化语言嵌入可以理解复杂的语法、语义和上下文。

例如，考虑英文单词 cow 的嵌入。word2vec 等旧版嵌入可以表示英语单词，使得嵌入空间中从 cow 到 bull 的距离与从 ewe（母羊）到 ram（公羊）或从 female 到 male 的距离相似。情境化语言嵌入可以更进一步，识别出英语使用者有时会随意使用 cow 一词来表示母牛或公牛。

上下文窗口

#generativeAI

模型可在给定提示中处理的 token 数量。上下文窗口越大，模型可用于提供连贯一致的回答的信息就越多。

对话式编码

#generativeAI

您与生成式 AI 模型之间为创建软件而进行的迭代对话。您发出一个描述某软件的提示。然后，模型会使用该说明生成代码。然后，您发出新的提示，以解决之前提示或生成的代码中的缺陷，模型会生成更新后的代码。您和 AI 会不断来回沟通，直到生成的软件足够好为止。

对话编码本质上是氛围编码的原始含义。

与规范化编码相对。

D

直接提示

#generativeAI

与零样本提示的含义相同。

蒸馏

#generativeAI

将一个模型（称为教师）的大小缩减为较小的模型（称为学生），并尽可能忠实地模拟原始模型的预测结果。知识蒸馏之所以有用，是因为较小的模型（学生）与较大的模型（教师）相比，具有以下两个主要优势：

推理时间更短
减少了内存和能耗用量

不过，学生的预测结果通常不如教师的预测结果。

蒸馏训练学生模型，以最大限度地减少基于学生模型和教师模型预测输出之间差异的损失函数。

比较和对比蒸馏与以下术语：

微调
基于提示的学习

如需了解详情，请参阅机器学习速成课程中的 LLM：微调、蒸馏和提示工程。

E

evals

#generativeAI

#Metric

主要用作 LLM 评估的缩写。更广泛地说，evals 是任何形式的评估的缩写。

评估

#generativeAI

#Metric

衡量模型质量或比较不同模型的过程。

若要评估监督式机器学习模型，您通常需要根据验证集和测试集来判断模型的效果。评估 LLM 通常涉及更广泛的质量和安全性评估。

F

真实性

#generativeAI

在机器学习领域中，一种描述模型（其输出基于现实）的属性。事实性是一个概念，而不是一个指标。例如，假设您向大型语言模型发送以下提示：

食盐的化学式是什么？

如果模型侧重于事实性，则会回答：

NaCl

人们很容易认为所有模型都应基于事实。不过，某些提示（例如以下提示）应促使生成式 AI 模型优化创意性，而不是事实性。

给我讲一个关于宇航员和毛毛虫的五行打油诗。

这样创作出的五行打油诗不太可能基于现实。

与事实依据相对。

快速衰减

#generativeAI

一种用于提升 LLM 性能的训练技术。快速衰减是指在训练期间快速降低学习速率。此策略有助于防止模型对训练数据出现过拟合，并提高泛化能力。

少样本提示

#generativeAI

包含多个（“少量”）示例的提示，用于演示大语言模型应如何回答。例如，以下冗长的问题包含两个示例，向大型语言模型展示了如何回答查询。

一个提示的组成部分	备注
`指定国家/地区的官方货币是什么？`	您希望 LLM 回答的问题。
`法国：欧元`	举个例子。
`英国：英镑`	再举一个例子。
`印度`：	实际查询。

与零样本提示和单样本提示相比，少样本提示通常会产生更理想的结果。不过，少样本提示需要更长的提示。

少样本提示是一种应用于基于提示的学习的少量样本学习。

如需了解详情，请参阅机器学习速成课程中的提示工程。

微调

#generativeAI

对预训练模型执行的第二次特定任务训练，以针对特定应用场景优化其参数。例如，某些大型语言模型的完整训练序列如下所示：

预训练：在海量通用数据集（例如所有英文版维基百科页面）上训练大语言模型。
微调：训练预训练模型以执行特定任务，例如回答医疗查询。微调通常涉及数百或数千个专注于特定任务的示例。

再举一例，大型图片模型的完整训练序列如下所示：

预训练：在庞大的通用图片数据集（例如 Wikimedia Commons 中的所有图片）上训练大型图片模型。
微调：训练预训练模型以执行特定任务，例如生成虎鲸图片。

微调可能需要采用以下策略的任意组合：

修改预训练模型的所有现有参数。这有时称为“完全微调”。
仅修改预训练模型的部分现有参数（通常是离输出层最近的层），同时保持其他现有参数不变（通常是离输入层最近的层）。请参阅参数高效微调。
添加更多层，通常是在最接近输出层的现有层之上添加。

微调是一种迁移学习。因此，微调可能会使用与训练预训练模型时不同的损失函数或模型类型。例如，您可以对预训练的大型图像模型进行微调，以生成一个回归模型，该模型可返回输入图像中鸟的数量。

比较和对比微调与以下术语：

蒸馏
基于提示的学习

如需了解详情，请参阅机器学习速成课程中的微调。

Flash 模型

#generativeAI

一系列相对较小的 Gemini 模型，经过优化，可实现快速响应和低延迟。Flash 模型专为需要快速响应和高吞吐量的各种应用而设计。

基础模型

#generativeAI

#Metric

一种非常大的预训练模型，使用庞大而多样的训练集进行训练。基础模型可以执行以下两项操作：

能够很好地响应各种请求。
作为基础模型，用于进一步微调或其他自定义。

换句话说，基础模型在一般意义上已经非常强大，但可以进一步自定义，以便在特定任务中发挥更大的作用。

成功次数所占的比例

#generativeAI

#Metric

用于评估机器学习模型生成的文本的指标。成功率是指“成功”生成的文本输出数量除以生成的文本输出总数量。例如，如果某个大型语言模型生成了 10 个代码块，其中 5 个成功生成，那么成功率就是 50%。

虽然成功率在整个统计学中都非常有用，但在机器学习中，此指标主要用于衡量可验证的任务，例如代码生成或数学问题。

G

Gemini

#generativeAI

由 Google 最先进的 AI 组成的生态系统。此生态系统的要素包括：

各种 Gemini 模型。
与 Gemini 模型进行交互的对话式界面。用户输入提示，Gemini 会针对这些提示给出回答。
各种 Gemini API。
基于 Gemini 模型的各种商业产品；例如 Gemini for Google Cloud。

Gemini 模型

#generativeAI

Google 基于先进的 Transformer 的多模态模型。Gemini 模型专为与智能体集成而设计。

用户可以通过多种方式与 Gemini 模型互动，包括通过交互式对话界面和 SDK。

Gemma

#generativeAI

一系列轻量级开放模型，采用与 Gemini 模型相同的研究成果和技术构建而成。有多种不同的 Gemma 模型可供选择，每种模型都提供不同的功能，例如视觉、代码和指令遵循。如需了解详情，请参阅 Gemma。

GenAI 或 genAI

#generativeAI

生成式 AI 的缩写。

生成的文本

#generativeAI

一般来说，指机器学习模型输出的文本。在评估大型语言模型时，某些指标会将生成的文本与参考文本进行比较。例如，假设您要确定某个机器学习模型从法语翻译为荷兰语的有效性。在此示例中：

生成的文本是机器学习模型输出的荷兰语翻译。
参考文本是人工翻译人员（或软件）创建的荷兰语译文。

请注意，某些评估策略不涉及参考文本。

生成式 AI

#generativeAI

一个新兴的变革性领域，没有正式定义。不过，大多数专家都认为，生成式 AI 模型可以创建（“生成”）以下类型的内容：

复杂
连贯
原图

生成式 AI 的示例包括：

大语言模型，可生成复杂的原创文本并回答问题。
图片生成模型，可生成独一无二的图片。
音频和音乐生成模型，可以创作原创音乐或生成逼真的语音。
视频生成模型，可生成原创视频。

一些较早的技术（包括 LSTM 和 RNN）也可以生成原创且连贯的内容。一些专家认为这些早期技术属于生成式 AI，而另一些专家则认为，真正的生成式 AI 需要能够生成比这些早期技术更复杂的输出。

与预测性机器学习相对。

黄金回答

#generativeAI

已知为良好的响应。例如，假设存在以下提示：

2 + 2

黄金响应应为：

4

点击此处可查看有关黄金回答和参考文本的注释。

某些评估指标（例如 ROUGE）会将参考文本与模型的生成文本进行比较。如果提示只有一个正确答案，则黄金回答通常用作参考文本。

有些提示没有唯一正确的答案。例如，提示“总结此文档”可能有许多正确答案。对于此类提示，参考文本通常不切实际，因为模型可以生成非常广泛的可能摘要。不过，在这种情况下，黄金回答可能会很有用。例如，包含优质文档摘要的黄金回答有助于训练自动评分器，以发现优质文档摘要的模式。

GPT（生成式预训练转换器）

#generativeAI

由 OpenAI 开发的一系列基于 Transformer 的大语言模型。

GPT 变体可应用于多种模态，包括：

图片生成（例如 ImageGPT）
文本到图像生成（例如 DALL-E）。

H

幻觉

#generativeAI

生成式 AI 模型生成看似合理但实际上不正确的输出，并声称自己正在对现实世界做出断言。例如，如果生成式 AI 模型声称巴拉克·奥巴马于 1865 年去世，则表示该模型出现了幻觉。

人工评估

#generativeAI

一种由人来评判机器学习模型输出质量的过程；例如，让双语人士评判机器学习翻译模型的质量。人工评估对于评判没有唯一正确答案的模型特别有用。

与自动评估和自动评分器评估相对。

人机协同 (HITL)

#generativeAI

一种定义宽泛的表达方式，可能表示以下任一含义：

以批判性或怀疑性态度看待生成式 AI 输出的政策。
一种策略或系统，用于确保人们帮助塑造、评估和改进模型的行为。通过人机协同，AI 可以同时受益于机器智能和人类智能。例如，在某个系统中，AI 生成代码，然后由软件工程师审核，该系统就是人机循环系统。

I

上下文学习

#generativeAI

与少样本提示的含义相同。

推理

#fundamentals

#generativeAI

在传统机器学习中，推断是指以下过程：通过将训练过的模型应用于无标签样本做出预测。如需了解详情，请参阅“机器学习简介”课程中的监督式学习。

在大语言模型中，推理是指使用训练好的模型针对输入提示生成回答的过程。

推理在统计学中具有略有不同的含义。如需了解详情，请参阅维基百科中有关统计学推断的文章。

指令调优

#generativeAI

一种微调形式，可提高生成式 AI 模型遵循指令的能力。指令调优是指使用一系列指令提示训练模型，这些指令提示通常涵盖各种各样的任务。经过指令调优的模型往往能够针对各种任务的零样本提示生成实用的回答。

比较和对比：

参数高效调优
提示调优

L

大语言模型

#generativeAI

至少是一个具有极高数量参数的语言模型。更通俗地说，任何基于 Transformer 的语言模型，例如 Gemini 或 GPT。

如需了解详情，请参阅机器学习速成课程中的大语言模型 (LLM)。

延迟时间

#generativeAI

模型处理输入并生成回答所需的时间。高延迟响应的生成时间比低延迟响应的生成时间长。

影响大语言模型延迟时间的因素包括：

输入和输出 token 长度
模型的复杂程度
模型运行的基础设施

优化延迟时间对于打造响应迅速且人性化的应用至关重要。

LLM

#generativeAI

大语言模型的缩写。

大语言模型评估

#generativeAI

#Metric

用于评估大型语言模型 (LLM) 性能的一组指标和基准。概括来讲，大语言模型评估：

帮助研究人员确定 LLM 需要改进的方面。
有助于比较不同的 LLM，并确定最适合特定任务的 LLM。
帮助确保 LLM 的使用安全且合乎道德。

如需了解详情，请参阅机器学习速成课程中的大型语言模型 (LLM)。

LoRA

#generativeAI

低秩自适应性的缩写。

低秩自适应 (LoRA)

#generativeAI

一种参数高效的微调技术，用于“冻结”模型的预训练权重（使其无法再被修改），然后在模型中插入一小部分可训练的权重。这组可训练的权重（也称为“更新矩阵”）比基础模型小得多，因此训练速度也快得多。

LoRA 具有以下优势：

提高模型在应用微调的网域中的预测质量。
比需要微调模型所有参数的技术更快。
通过支持同时部署多个共享同一基础模型的专业模型，降低推理的计算成本。

点击相应图标，详细了解 LoRA 中的更新矩阵。

LoRA 中使用的更新矩阵由秩分解矩阵组成，这些矩阵是从基础模型派生出来的，有助于滤除噪声并将训练重点放在模型最重要的特征上。

M

机器翻译

#generativeAI

使用软件（通常是机器学习模型）将文本从一种人类语言转换为另一种人类语言，例如从英语转换为日语。

前 k 名的平均精确率均值 (mAP@k)

#generativeAI

#Metric

验证数据集中所有 k 处的平均精确率得分的统计平均值。平均精确率（取前 k 个结果）的一个用途是判断推荐系统生成的推荐的质量。

虽然“平均平均值”一词听起来有些冗余，但该指标的名称是合适的。毕竟，此指标会计算多个 k 值处的平均精确率的平均值。

点击相应图标即可查看示例。

假设您构建了一个推荐系统，用于为每位用户生成个性化的推荐小说列表。根据所选用户的反馈，您计算出以下 5 个平均精确率（每个用户一个分数）：

0.73
0.77
0.67
0.82
0.76

因此，前 K 名的平均精确率均值为：

$$\text{mean } = \frac{\text{0.73 + 0.77 + 0.67 + 0.82 + 0.76}} {\text{5}} = \text{0.75}$$

混合专家

#generativeAI

一种通过仅使用一部分参数（称为“专家”）来处理给定输入令牌或示例来提高神经网络效率的方案。门控网络会将每个输入 token 或示例路由到合适的专家。

如需了解详情，请参阅以下任一论文：

MMIT

#generativeAI

多模态指令调优的缩写。

模型级联

#generativeAI

一种可为特定推理查询选择理想模型的系统。

假设有一组模型，从非常大（大量形参）到小得多（形参少得多）。与较小的模型相比，超大型模型在推理时会消耗更多计算资源。不过，与较小的模型相比，非常大的模型通常可以推理出更复杂的请求。模型级联会确定推理查询的复杂程度，然后选择合适的模型来执行推理。模型级联的主要目的是通过通常选择较小的模型来降低推理成本，并且仅针对更复杂的查询选择较大的模型。

假设有一个小型模型在手机上运行，而该模型的较大版本在远程服务器上运行。良好的模型级联可让较小的模型处理简单请求，仅在处理复杂请求时调用远程模型，从而降低成本和延迟时间。

另请参阅模型路由器。

模型路由器

#generativeAI

用于确定模型级联中推理的理想模型的算法。模型路由器本身通常是一个机器学习模型，它会逐渐学习如何为给定的输入选择最佳模型。不过，模型路由器有时可能是一种更简单的非机器学习算法。

MOE

#generativeAI

专家混合的缩写。

MT

#generativeAI

机器翻译的缩写。

否

Nano

#generativeAI

一款相对较小的 Gemini 模型，专为在设备上使用而设计。如需了解详情，请参阅 Gemini Nano。

另请参阅 Pro 和 Ultra。

没有唯一正确答案 (NORA)

#generativeAI

具有多个正确回答的提示。例如，以下提示没有唯一正确的答案：

给我讲个关于大象的有趣笑话。

评估“没有唯一正确答案”的提示的回答通常比评估有唯一正确答案的提示的回答更具主观性。例如，评估一个大象笑话需要一种系统性的方法来确定该笑话有多好笑。

NORA

#generativeAI

没有唯一正确答案的缩写。

笔记本 LM

#generativeAI

一款基于 Gemini 的工具，可让用户上传文档，然后使用提示来提问、总结或整理这些文档。例如，作者可以上传几篇短篇小说，然后让 NotebookLM 找出它们的共同主题，或者确定哪篇小说最适合改编成电影。

O

一个正确答案 (ORA)

#generativeAI

具有单个正确回答的提示。例如，请看以下提示：

判断正误：土星比火星大。

唯一正确的回答是正确。

与没有唯一正确答案相对。

单样本提示

#generativeAI

包含一个示例的提示，用于演示大型语言模型应如何回答。例如，以下提示包含一个示例，用于向大语言模型展示应如何回答查询。

一个提示的组成部分	备注
`指定国家/地区的官方货币是什么？`	您希望 LLM 回答的问题。
`法国：欧元`	举个例子。
`印度`：	实际查询。

比较并对比一次性提示与以下术语：

零样本提示
少样本提示

ORA

#generativeAI

一个正确答案的缩写。

P

参数高效调优

#generativeAI

一组用于比完全微调更高效地微调大型预训练语言模型 (PLM)的技术。与完全微调相比，参数高效调优通常会微调少得多的参数，但通常会生成一个大语言模型，其性能与通过完全微调构建的大语言模型相当（或几乎相当）。

比较参数高效调优与以下方法的异同：

指令调优
提示调优

参数高效调优也称为参数高效微调。

Pax

#generativeAI

一种编程框架，旨在训练大规模神经网络 模型，这些模型非常庞大，以至于需要跨多个 TPU 加速器芯片 切片或 Pod。

Pax 基于 Flax 构建，而 Flax 基于 JAX 构建。

图表，显示了 Pax 在软件堆栈中的位置。
Pax 基于 JAX 构建。Pax 本身由三层组成。底层包含 TensorStore 和 Flax。
中间层包含 Optax 和 Flaxformer。顶层包含 Praxis Modeling Library。Fiddle 基于 Pax 构建。

PLM

#generativeAI

预训练语言模型的缩写。

经过后训练的模型

#generativeAI

一个宽泛定义的术语，通常是指经过一些后处理的预训练模型，例如经过以下一项或多项处理：

蒸馏
微调
指令调优

预训练模型

#generativeAI

虽然此术语可以指任何经过训练的模型或经过训练的嵌入向量，但预训练模型现在通常是指经过训练的大语言模型或其他形式的经过训练的生成式 AI 模型。

另请参阅基础模型和基础模型。

预训练

#generativeAI

在大型数据集上对模型进行初始训练。有些预训练模型是笨拙的巨人，通常必须通过额外的训练来改进。例如，机器学习专家可能会使用庞大的文本数据集（例如维基百科中的所有英文网页）预训练大语言模型。预训练完成后，可以通过以下任一技术进一步优化生成的模型：

蒸馏
微调
指令调优
参数高效调优
提示调优

专业版

#generativeAI

一种 Gemini 模型，其形参数量少于 Ultra，但多于 Nano。如需了解详情，请参阅 Gemini Pro。

提示

#generativeAI

作为输入内容输入到大语言模型中的任何文本，用于让模型以某种特定方式运作。提示可以短至一个短语，也可以任意长（例如，整部小说的文本）。提示可分为多种类别，包括下表所示的类别：

提示类别	示例	备注
问题	`鸽子能飞多快？`
指令	`写一首关于套利的趣味小诗。`	要求大语言模型执行某种操作的提示。
示例	`将 Markdown 代码转换为 HTML。例如： Markdown：* 列表项 HTML：<ul> <li>列表项</li> </ul>`	此示例提示中的第一句话是一条指令。提示的其余部分是示例。
角色	`向物理学博士解释为什么在机器学习训练中使用梯度下降法。`	句子的第一部分是指令；“物理学博士”一词是角色部分。
供模型补全的部分输入	`英国首相居住在`	部分输入提示可以突然结束（如本例所示），也可以以下划线结尾。

生成式 AI 模型可以根据提示生成文本、代码、图片、嵌入、视频…几乎任何内容。

基于提示的学习

#generativeAI

某些模型的一项功能，可让它们根据任意文本输入（提示）调整行为。在典型的基于提示的学习范式中，大语言模型通过生成文本来响应提示。例如，假设用户输入了以下提示：

总结牛顿第三运动定律。

能够基于提示进行学习的模型并非专门训练来回答之前的提示。相反，模型“知道”很多关于物理学的事实、很多关于一般语言规则的知识，以及很多关于哪些答案通常有用的知识。这些知识足以提供（希望）有用的答案。其他人类反馈（例如“这个回答太复杂了”或“什么是反应？”）使一些基于提示的学习系统能够逐步提高回答的实用性。

提示设计

#generativeAI

与提示工程的含义相同。

提示工程

#generativeAI

创建提示的艺术，这些提示可从大语言模型中引出所需的回答。人类执行提示工程。编写结构化良好的提示是确保从大语言模型获得有用回答的重要环节。提示工程取决于多种因素，包括：

用于预训练并可能微调大语言模型的数据集。
模型用于生成回答的温度和其他解码参数。

提示设计是提示工程的同义词。

如需详细了解如何撰写有用的提示，请参阅提示设计简介。

提示集

#generativeAI

用于评估大语言模型的一组提示。例如，下图显示了一个包含三个提示的提示集：

向 LLM 发出三个提示，会生成三个回答。这三个提示就是提示集。这三个响应就是响应集。

良好的提示集包含足够“广泛”的提示，可用于全面评估大语言模型的安全性和实用性。

另请参阅回答集。

提示调优

#generativeAI

一种参数高效调优机制，用于学习系统预先添加到实际提示中的“前缀”。

提示调优的一种变体（有时称为“前缀调优”）是在每个层前面添加前缀。相比之下，大多数提示调优仅向输入层添加前缀。

点击相应图标可详细了解前缀。

对于提示调优，“前缀”（也称为“软提示”）是一小部分学习到的特定于任务的向量，这些向量会添加到实际提示的文本令牌嵌入之前。系统通过冻结所有其他模型参数并针对特定任务进行微调来学习软提示。

R

参考文本

#generativeAI

专家对提示的回答。例如，假设有以下提示：

将问题“What is your name?”从英语翻译成法语。

专家的回答可能是：

Comment vous appelez-vous?

各种指标（例如 ROUGE）用于衡量参考文本与机器学习模型生成的文本的匹配程度。

反思

#generativeAI

一种策略，通过在将某一步骤的输出传递给下一步骤之前检查（反思）该输出，来提高智能体工作流的质量。

检查者通常是生成回答的同一 LLM（不过也可能是其他 LLM）。生成回答的 LLM 如何才能公平地评判自己的回答？“诀窍”是让 LLM 处于批判性（反思性）思维模式。这个过程类似于作家先以创意的心态撰写初稿，然后切换到批判性思维模式进行编辑。

例如，假设有一个智能体工作流程，其第一步是为咖啡杯创建文字。此步骤的提示可能如下所示：

您是创作者。生成幽默风趣且不超过 50 个字符的原创文字，适合印在咖啡杯上。

现在，假设有以下反思性提示：

您是咖啡饮用者。您会觉得上述回答幽默吗？

然后，工作流可能只会将获得高反思得分的文本传递到下一阶段。

基于人类反馈的强化学习 (RLHF)

#generativeAI

使用人工评估者的反馈来提高模型回答的质量。例如，RLHF 机制可以要求用户使用 👍 或 👎 表情符号对模型回答的质量进行评分。然后，系统可以根据该反馈调整其未来的回答。

Response

#generativeAI

生成式 AI 模型推理出的文字、图片、音频或视频。换句话说，提示是生成式 AI 模型的输入，而回答是输出。

回答集

#generativeAI

大语言模型针对输入提示集返回的回答集合。

角色提示

#generativeAI

一种提示，通常以代词“你”开头，用于告知生成式 AI 模型在生成回答时假装成特定的人或扮演特定的角色。 角色提示可帮助生成式 AI 模型进入正确的“思维模式”，从而生成更有用的回答。例如，根据您希望获得的回答类型，以下任何角色提示都可能适用：

您拥有计算机科学博士学位。

您是一名软件工程师，喜欢向新学编程的学生耐心讲解 Python。

你是一位身怀绝技的动作英雄。向我保证，您会在 Python 列表中找到特定项。

S

软提示调优

#generativeAI

一种用于针对特定任务调整大语言模型的技术，无需资源密集型微调。与重新训练模型中的所有权重不同，软提示调优会自动调整提示，以实现相同的目标。

在给定文本提示的情况下，软提示调整通常会将额外的令牌嵌入附加到提示中，并使用反向传播来优化输入。

“硬”提示包含实际的令牌，而不是令牌嵌入。

规范编码

#generativeAI

以人类语言（例如英语）编写和维护描述软件的文件的过程。然后，您可以让生成式 AI 模型或其他软件工程师创建符合该说明的软件。

自动生成的代码通常需要迭代。在规范化编码中，您需要迭代说明文件。相比之下，在对话式编码中，您可以在提示框内进行迭代。在实践中，自动代码生成有时会涉及规范化编码和对话式编码的组合。

T

温度

#generativeAI

一种超参数，用于控制模型输出的随机程度。温度越高，输出就越随机；温度越低，输出就越不随机。

选择最佳温度取决于具体的应用和/或字符串值。

U

Ultra

#generativeAI

具有最多形参的 Gemini 模型。如需了解详情，请参阅 Gemini Ultra。

另请参阅 Pro 和 Nano。

V

Vertex

#GoogleCloud

#generativeAI

Google Cloud 的 AI 和机器学习平台。Vertex 提供用于构建、部署和管理 AI 应用的工具和基础设施，包括使用 Gemini 模型。

氛围编程 (vibe coding)

#generativeAI

提示生成式 AI 模型创建软件。也就是说，您的提示会描述软件的用途和功能，然后生成式 AI 模型会将这些描述转换为源代码。生成的代码并不总是符合您的意图，因此振动编码通常需要迭代。

Andrej Karpathy 在这篇 X 帖子中创造了“vibe coding”一词。在 X 帖子中，Karpathy 将其描述为“一种新型编码...完全沉浸在氛围中...”。因此，该术语最初是指一种有意宽松的软件创建方法，您甚至可能不会检查生成的代码。不过，在许多圈子里，该术语的含义已迅速演变为指任何形式的 AI 生成的编码。

如需详细了解氛围编码，请参阅什么是氛围编程 (vibe coding)？。

此外，将氛围编程与以下内容进行比较和对比：

规范化编码
对话式编码

Z

零样本提示

#generativeAI

提示未提供示例来展示您希望大语言模型如何回答。例如：

一个提示的组成部分	备注
`指定国家/地区的官方货币是什么？`	您希望 LLM 回答的问题。
`印度`：	实际查询。

大语言模型可能会提供以下任一回答：

卢比符号
印度卢比
₹
印度卢比
卢比
印度卢比

所有答案都是正确的，不过您可能更喜欢某种特定格式。

比较和对比零样本提示与以下术语：

单样本提示
少样本提示

机器学习术语表：生成式 AI 使用集合让一切井井有条 根据您的偏好保存内容并对其进行分类。

A

改编

代理

代理型

智能体工作流

AI 垃圾内容

自动评估

自动评估器评估

自回归模型

B

基础模型

C

思维链提示

聊天

情境化语言嵌入

上下文窗口

对话式编码

D

直接提示

蒸馏

E

evals

评估

F

真实性

快速衰减

少样本提示

微调

Flash 模型

基础模型

成功次数所占的比例

G

Gemini

Gemini 模型

Gemma

GenAI 或 genAI

生成的文本

生成式 AI

黄金回答

点击此处可查看有关黄金回答和参考文本的注释。

GPT（生成式预训练转换器）

H

幻觉

人工评估

人机协同 (HITL)

I

上下文学习

推理

指令调优

L

大语言模型

延迟时间

LLM

大语言模型评估

LoRA

低秩自适应 (LoRA)

点击相应图标，详细了解 LoRA 中的更新矩阵。

M

机器翻译

前 k 名的平均精确率均值 (mAP@k)

点击相应图标即可查看示例。

混合专家

MMIT

模型级联

模型路由器

MOE

MT

否

Nano

没有唯一正确答案 (NORA)

NORA

笔记本 LM

O

一个正确答案 (ORA)

单样本提示

ORA

P

参数高效调优

Pax

机器学习术语表：生成式 AI