本页面包含生成式 AI 术语表中的术语。如需查看所有术语表术语,请点击此处。
A
自动评估
使用软件来判断模型输出的质量。
当模型输出相对简单时,脚本或程序可以将模型的输出与标准答案进行比较。这种类型的自动评估有时称为程序化评估。ROUGE 或 BLEU 等指标通常对程序化评估很有用。
当模型输出复杂或没有唯一正确答案时,有时会由一个名为自动评分器的单独机器学习程序执行自动评估。
与人工评估相对。
自动评估器评估
一种混合机制,用于评判生成式 AI 模型输出的质量,它将人工评估与自动评估相结合。自动评估器是一种机器学习模型,基于人工评估生成的数据进行训练。理想情况下,自动评估器会学习模仿人类评估者。您可以使用预构建的自动评分器,但效果最佳的自动评分器是专门针对您要评估的任务进行微调的。
自回归模型
一种模型,可根据其之前的预测推断出预测结果。例如,自回归语言模型可根据之前预测的令牌预测下一个令牌。所有基于 Transformer 的大语言模型都是自动回归模型。
相比之下,基于 GAN 的图像模型通常不是自回归模型,因为它们在单次前向传递中生成图像,而不是分步迭代生成。不过,某些图片生成模型是自回归模型,因为它们会分步生成图片。
C
思维链提示
一种提示工程技术,可鼓励大语言模型 (LLM) 逐步解释其推理过程。例如,请考虑以下问题,并特别注意第二句话:
如果一辆汽车在 7 秒内从 0 加速到每小时 60 英里,驾驶员会感受到多少 g 力?在回答中,请显示所有相关计算。
LLM 的回答可能:
- 显示一系列物理公式,并在适当的位置插入值 0、60 和 7。
- 说明系统为何选择这些公式,以及各种变量的含义。
思维链提示会强制 LLM 执行所有计算,这可能会导致更准确的回答。此外,借助思维链提示,用户可以检查 LLM 的步骤,以确定回答是否合理。
聊天
与机器学习系统(通常是大语言模型)进行的来回对话内容。对话中的前一次互动(您输入的内容以及大语言模型的回复方式)会成为对话后续部分的上下文。
聊天机器人是大语言模型的一种应用。
上下文语言嵌入
嵌入,可像母语为该语言的人类一样“理解”字词和短语。基于上下文的语言嵌入可以理解复杂的语法、语义和上下文。
例如,考虑英语单词 cow 的嵌入。较早的嵌入(例如 word2vec)可以表示英语单词,使得嵌入空间中 cow 到 bull 的距离与 ewe(母羊)到 ram(公羊)或 female 到 male 的距离相似。情境化语言嵌入可以更进一步,因为它能识别出英语使用者有时会随意使用“cow”一词来表示母牛或公牛。
上下文窗口
模型在给定提示中可以处理的令牌数量。上下文窗口越大,模型可以使用的信息就越多,从而对问题提供连贯一致的回答。
D
直接提示
与零样本提示的含义相同。
蒸馏
将一个模型(称为“教师”)缩减为一个较小的模型(称为“学生”)的过程,该模型尽可能忠实地模拟原始模型的预测。提炼之所以有用,是因为较小的模型比较大的模型(教师模型)具有以下两个主要优势:
- 推理时间更短
- 降低了内存和能耗
不过,学生的预测结果通常不如教师的预测结果。
蒸馏会根据学生模型和教师模型预测输出的差异,训练学生模型以最小化损失函数。
比较和对比蒸馏与以下术语:
如需了解详情,请参阅机器学习速成课程中的 LLM:微调、提炼和问题工程。
E
evals
主要用作 LLM 评估的缩写。更广泛地说,evals 是任何形式的评估的缩写。
evaluation
衡量模型质量或比较不同模型的过程。
如需评估监督式机器学习模型,您通常需要根据验证集和测试集对其进行评判。评估 LLM 通常涉及更广泛的质量和安全评估。
F
真实性
在机器学习领域,一个属性,用于描述输出基于现实的模型。事实性是一种概念,而非指标。例如,假设您向大型语言模型发送以下问题:
食盐的化学式是什么?
优化事实性准确性的模型会回答:
NaCl
我们很容易假设所有模型都应基于事实。不过,某些提示(例如以下提示)应该会促使生成式 AI 模型优化创造力,而不是真实性。
给我讲一个关于宇航员和毛毛虫的诗歌。
生成的回旋诗不太可能基于现实。
与着陆相对。
少样本提示
包含多个(“少量”)示例的问题,用于演示大语言模型应如何回答。例如,以下长篇幅问题包含两个示例,展示了大型语言模型如何回答查询。
一个问题的各个部分 | 备注 |
---|---|
指定国家/地区的官方货币是什么? | 您希望 LLM 回答的问题。 |
法国:欧元 | 示例。 |
英国:英镑 | 再举一个例子。 |
印度: | 实际查询。 |
与零样本提示和单样本提示相比,少样本提示通常能产生更理想的结果。不过,少样本提示需要更长的提示。
如需了解详情,请参阅机器学习速成课程中的问题工程。
微调
对预训练模型执行的第二次特定于任务的训练传递,以针对特定用例优化其参数。例如,某些大型语言模型的完整训练序列如下所示:
- 预训练:使用庞大的一般数据集(例如所有英语版维基百科页面)训练大语言模型。
- 微调:训练预训练模型以执行特定任务,例如回答医学查询。微调通常涉及数百或数千个专注于特定任务的示例。
再举一个例子,大型图片模型的完整训练序列如下所示:
- 预训练:在庞大的一般图片数据集(例如 Wikimedia Commons 中的所有图片)上训练大型图片模型。
- 微调:训练预训练模型以执行特定任务,例如生成虎鲸的图片。
微调可以包含以下策略的任意组合:
- 修改预训练模型的所有现有参数。这有时称为完整微调。
- 仅修改预训练模型的部分现有参数(通常是距离输出层最近的层),同时保持其他现有参数不变(通常是距离输入层最近的层)。请参阅参数高效微调。
- 添加更多图层,通常在最靠近输出图层的现有图层之上。
微调是一种迁移学习。因此,与训练预训练模型时使用的损失函数或模型类型相比,微调可能会使用不同的损失函数或模型类型。例如,您可以微调预训练的大型图像模型,以生成一个回归模型,用于返回输入图片中的鸟类数量。
比较和对比微调与以下术语:
如需了解详情,请参阅机器学习速成课程中的微调。
成功比例
用于评估机器学习模型的生成的文本的指标。 成功率是“成功”的生成文本输出数除以生成文本输出总数。例如,如果大语言模型生成了 10 个代码块,其中 5 个成功,则成功率为 50%。
虽然成功率在统计学中广泛适用,但在机器学习中,此指标主要用于衡量可验证的任务(例如代码生成或数学问题)。
G
Gemini
该生态系统由 Google 最先进的 AI 技术组成。此生态系统的元素包括:
- 各种 Gemini 模型。
- Gemini 模型的交互式对话式界面。 用户输入提示,Gemini 对这些提示做出回应。
- 各种 Gemini API。
- 基于 Gemini 模型的各种商务产品;例如,适用于 Google Cloud 的 Gemini。
Gemini 模型
Google 基于 Transformer 的先进多模态模型。Gemini 模型专为与代理集成而设计。
用户可以通过多种方式与 Gemini 模型互动,包括通过交互式对话框界面和 SDK。
生成的文本
一般来说,机器学习模型输出的文本。评估大语言模型时,某些指标会将生成的文本与参考文本进行比较。例如,假设您正在尝试确定机器学习模型从法语翻译成荷兰语的效果如何。在此示例中:
- 生成的文本是机器学习模型输出的荷兰语翻译。
- 参考文本是人工译者(或软件)创建的荷兰语译文。
请注意,某些评估策略不涉及参考文本。
生成式 AI
尚无正式定义的全新变革领域。 尽管如此,大多数专家都认为,生成式 AI 模型可以创作(“生成”)符合以下所有条件的内容:
- 复杂
- 连贯
- 原图
例如,生成式 AI 模型可以创作复杂的散文或图片。
一些早期技术(包括 LSTM 和 RNN)也可以生成原创且连贯的内容。一些专家认为这些早期技术属于生成式 AI,而另一些人则认为,真正的生成式 AI 需要生成比这些早期技术能生成的更复杂的输出。
与预测性机器学习相对。
黄金回复
已知正确的答案。例如,假设存在以下提示:
2 + 2
理想的回答应该是:
4
H
人工评估
由人来判断机器学习模型输出质量的过程;例如,让双语人士来判断机器学习翻译模型的质量。人工评估对于评判没有唯一正确答案的模型特别有用。
人机协同 (HITL)
一个定义较为宽泛的惯用语,可以理解为下列两种含义之一:
- 一种政策,旨在以批判或怀疑的态度看待生成式 AI 的输出。 例如,撰写这本机器学习术语表的人类对大语言模型的功能感到惊叹,但也注意到大语言模型会犯错。
- 一种策略或系统,用于确保用户帮助塑造、评估和优化模型的行为。通过人机协同,AI 可以同时受益于机器智能和人类智能。例如,在某个系统中,AI 生成代码,然后软件工程师进行审核,这是一个人参与的循环系统。
I
情境学习
与少样本提示的含义相同。
指令调优
一种微调形式,可提高生成式 AI 模型遵循指令的能力。指令调优涉及对一系列指令提示训练模型,通常涵盖各种任务。然后,经过指令调整的模型往往会针对各种任务生成对零次学习提示的实用回答。
与以下内容进行比较和对比:
L
LLM
大语言模型的缩写。
LLM 评估 (eval)
一组用于评估大语言模型 (LLM) 性能的指标和基准。概括来讲,大语言模型评估:
- 帮助研究人员确定 LLM 需要改进的方面。
- 对比不同 LLM 并确定特定任务的最佳 LLM 非常有用。
- 帮助确保 LLM 的使用安全且合乎道德。
LoRA
低秩自适应的缩写。
低秩自适应 (LoRA)
一种参数高效的微调方法,它会“冻结”模型的预训练权重(使其无法再修改),然后在模型中插入一小组可训练权重。这组可训练的权重(也称为“更新矩阵”)比基准模型小得多,因此训练速度要快得多。
LoRA 具有以下优势:
- 提高模型针对应用了微调的领域的预测质量。
- 与需要微调模型所有参数的技术相比,微调速度更快。
- 通过支持同时提供共享相同基础模型的多个专用模型,降低推理的计算成本。
M
机器翻译
使用软件(通常是机器学习模型)将文本从一种人类语言转换为另一种人类语言,例如从英语转换为日语。
在 k 个预测结果时的平均精确率均值 (mAP@k)
验证数据集中所有k 个预测结果的平均精确率得分的统计平均值。在 k 处的平均平均精确率的一个用途是评判推荐系统生成的推荐的质量。
虽然“平均平均值”这个词组听起来很冗余,但指标的名称是恰当的。毕竟,此指标会计算多个k 个预测结果的平均精确率值的平均值。
专家组合
一种方法,通过仅使用神经网络的一部分参数(称为专家)来处理给定的输入令牌或示例,从而提高效率。决策网络会将每个输入令牌或示例路由到适当的专家。
如需了解详情,请参阅以下任一论文:
MMIT
多模态指令调优的缩写。
模型级联
一种系统,用于为特定推理查询选择理想的模型。
假设有一组模型,从非常大(参数很多)到更小(参数少得多)不等。与较小的模型相比,非常大的模型在推理时会消耗更多计算资源。不过,与较小的模型相比,非常大的模型通常可以推理出更复杂的请求。模型级联会确定推理查询的复杂性,然后选择合适的模型来执行推理。采用模型级联的主要动机是,通常选择较小的模型,仅在处理更复杂的查询时选择较大的模型,从而降低推理费用。
假设一个小型模型在手机上运行,而该模型的较大版本在远程服务器上运行。良好的模型级联可让较小的模型处理简单请求,仅调用远程模型来处理复杂请求,从而降低费用并缩短延迟时间。
另请参阅模型路由器。
模型路由器
用于确定模型级联中推理的理想模型的算法。模型路由器本身通常也是一个机器学习模型,它会逐渐学习如何为给定输入选择最佳模型。不过,模型路由器有时可以是更简单的非机器学习算法。
MOE
专家组合的缩写。
MT
机器翻译的缩写。
否
没有唯一正确答案 (NORA)
具有多个适当回答的提示。 例如,以下问题没有唯一正确答案:
给我讲个关于大象的笑话。
评估没有标准答案的问题可能很有挑战性。
NORA
O
单样本提示
问题,其中包含一个示例,演示大语言模型应如何回答。例如,以下问题包含一个示例,展示了大型语言模型应如何回答查询。
一个问题的各个部分 | 备注 |
---|---|
指定国家/地区的官方货币是什么? | 您希望 LLM 回答的问题。 |
法国:欧元 | 示例。 |
印度: | 实际查询。 |
将一次性提示与以下术语进行比较和对比:
P
参数高效微调
一系列技术,可比完整微调更高效地微调大型预训练语言模型 (PLM)。与完全微调相比,参数高效调优通常微调的参数要少得多,但通常会生成与通过完全微调构建的大型语言模型一样出色(或几乎一样出色)的大型语言模型。
比较参数高效微调与以下方法:
参数高效调优也称为参数高效微调。
PLM
预训练语言模型的缩写。
后期训练的模型
这个术语的定义比较宽泛,通常是指经过一些后处理(例如以下一项或多项)的预训练模型:
预训练模型
通常是指已经训练好的模型。该术语还可以指之前训练的嵌入向量。
预训练语言模型一词通常是指已训练的大型语言模型。
预训练
在大型数据集上对模型进行初始训练。有些预训练模型是笨拙的巨人,通常需要通过额外训练进行优化。例如,机器学习专家可能会使用庞大的文本数据集(例如维基百科中的所有英语页面)预训练大语言模型。预训练后,可以通过以下任一技术进一步优化生成的模型:
提示符
输入到大语言模型的任何文本,用于让模型以特定方式运作。提示可以短至一个短语,也可以任意长(例如,一部小说的完整文本)。提示分为多个类别,包括下表中所示的类别:
提示类别 | 示例 | 备注 |
---|---|---|
问题 | 鸽子能飞多快? | |
指令 | 写一首关于套利的幽默诗。 | 提示,用于指示大语言模型执行某项操作。 |
示例 | 将 Markdown 代码转换为 HTML。例如:
Markdown:* 列表项 HTML:<ul> <li>列表项</li> </ul> |
此示例提示中的第一句话是一条指令。 提示的其余部分是示例。 |
角色 | 向物理学博士解释为什么在机器学习训练中使用梯度下降法。 | 该句子的第一个部分是一条指令;“物理学博士”是角色部分。 |
供模型补全的部分输入 | 英国首相的住址是 | 不完整输入提示可以突然结束(如本示例所示),也可以以下划线结尾。 |
生成式 AI 模型可以使用文本、代码、图片、嵌入、视频等几乎任何内容来回答问题。
基于提示的学习
某些模型的一种能力,可让它们根据任意文本输入(提示)调整行为。在典型的基于提示的学习范式中,大语言模型通过生成文本来回答提示。例如,假设用户输入以下提示:
总结牛顿第三运动定律。
能够根据提示进行学习的模型并未经过专门训练来回答上一条提示。相反,该模型“知道”很多关于物理学的事实、很多关于一般语言规则的知识,以及很多关于什么构成一般实用回答的知识。这些知识足以提供(希望是)有用的答案。通过额外的人类反馈(例如“这个答案太复杂了”或“有什么反应?”),一些基于提示的学习系统可以逐渐改进其回答的实用性。
提示设计
与提示工程的含义相同。
提示工程
创建提示的艺术,以从大语言模型中引出所需回答。人工执行问题设计。编写结构化良好的提示是确保从大语言模型获得有用回答的重要环节。提示工程取决于许多因素,包括:
如需详细了解如何撰写有用的提示,请参阅提示设计简介。
提示设计与提示工程同义。
提示调优
提示调整的一种变体(有时称为前缀调整)是,在每个层前面附加前缀。与之相反,大多数问题优化只会向输入层添加前缀。
R
参考文本
专家对问题的回答。例如,假设存在以下提示:
将问题“What is your name?”从英语翻译成法语。
专家的回答可能如下:
Comment vous appelez-vous?
各种指标(例如 ROUGE)可衡量参考文本与机器学习模型的生成文本之间的匹配程度。
基于人类反馈的强化学习 (RLHF)
使用人工评分员的反馈来提高模型回答的质量。 例如,RLHF 机制可以要求用户使用 👍? 或 👎? 表情符号对模型回答的质量进行评分。然后,系统可以根据这些反馈调整日后的回答。
角色提示
提示的可选部分,用于为生成式 AI 模型的回答确定目标受众群体。如果没有角色提示,大语言模型提供的答案对提问者来说可能有用,也可能没有用。借助角色提示,大型语言模型可以以更适合特定目标受众群体且更有帮助的方式进行回答。例如,以下提示的角色提示部分采用了粗体显示:
- 针对经济学博士总结这篇文章。
- 向 10 岁的孩子描述潮汐的运作方式。
- 解释 2008 年金融危机。像对小孩子或金毛寻回犬说话一样说话。
S
软提示调优
一种用于针对特定任务调整大型语言模型的技术,无需进行耗费大量资源的微调。软提示调优不会重新训练模型中的所有权重,而是会自动调整提示以实现相同的目标。
给定文本提示时,软提示调优通常会将其他令牌嵌入附加到提示中,并使用反向传播来优化输入。
“硬”提示包含实际令牌,而不是令牌嵌入。
T
温度
一种超参数,用于控制模型输出的随机程度。温度越高,输出内容的随机性就越大;温度越低,输出内容的随机性就越小。
选择最佳温度取决于具体应用以及模型输出的首选属性。例如,在创建用于生成富有创意输出的应用时,您可能会提高温度。相反,在构建用于分类图片或文本的模型时,您可能需要降低温度,以提高模型的准确性和一致性。
温度通常与softmax 一起使用。
Z
零样本提示
一个问题的各个部分 | 备注 |
---|---|
指定国家/地区的官方货币是什么? | 您希望 LLM 回答的问题。 |
印度: | 实际查询。 |
大语言模型可能会做出以下任一回答:
- 卢比符号
- INR
- ₹
- 印度卢比
- 卢比
- 印度卢比
所有答案都是正确的,但您可能更喜欢特定格式。
比较和对比零次提示与以下术语: