本页面包含生成式 AI 术语表中的术语。如需查看所有术语,请点击此处。
A
改编
与调优或微调的含义相同。
自动评估
使用软件来判断模型输出的质量。
如果模型输出相对简单,脚本或程序可以将模型输出与标准回答进行比较。这种类型的自动评估有时称为程序化评估。ROUGE 或 BLEU 等指标通常有助于进行程序化评估。
如果模型输出复杂或没有唯一正确答案,有时会由一个名为自动评分器的单独机器学习程序执行自动评估。
与人工评估相对。
自动评估器评估
一种用于评判生成式 AI 模型输出质量的混合机制,它将人工评估与自动评估相结合。自动评估器是一种基于人工评估生成的数据训练的机器学习模型。理想情况下,自动评估器会学习模仿人类评估者。虽然有预建的自动评分器,但最好是专门针对您要评估的任务进行微调的自动评分器。
自回归模型
一种模型,可根据其自身的先前预测推断预测结果。例如,自回归语言模型会根据之前预测的 token 来预测下一个 token。所有基于 Transformer 的大语言模型都是自回归模型。
相比之下,基于 GAN 的图像模型通常不是自回归的,因为它们通过一次前向传递生成图像,而不是以迭代方式逐步生成图像。不过,某些图片生成模型是自回归模型,因为它们会分步生成图片。
B
基础模型
一种预训练模型,可作为微调的起点,以解决特定任务或应用问题。
C
思维链提示
一种提示工程技术,可鼓励大语言模型 (LLM) 逐步说明其推理过程。例如,请考虑以下提示,并特别注意第二句话:
如果一辆汽车在 7 秒内从 0 加速到 60 英里/小时,驾驶员会感受到多少 g 的重力?在回答中,显示所有相关计算。
LLM 的回答可能会:
- 显示一系列物理公式,并在适当的位置代入值 0、60 和 7。
- 说明选择这些公式的原因以及各种变量的含义。
思维链提示会强制 LLM 执行所有计算,这可能会得出更正确的答案。此外,通过思维链提示,用户可以检查 LLM 的步骤,以确定答案是否合理。
聊天
与机器学习系统(通常是大语言模型)进行来回对话的内容。 聊天中的上一次互动(您输入的内容以及大语言模型的回答)会成为聊天后续部分的上下文。
聊天机器人是大语言模型的一种应用。
情境化语言嵌入
一种嵌入,能够以流利的人类说话者的方式“理解”字词和短语。情境化语言嵌入可以理解复杂的语法、语义和上下文。
例如,假设英文单词 cow 的嵌入。word2vec 等旧版嵌入可以表示英语单词,使得嵌入空间中从 cow 到 bull 的距离与从 ewe(母羊)到 ram(公羊)或从 female 到 male 的距离相似。情境化语言嵌入可以更进一步,识别出英语使用者有时会随意使用 cow 一词来表示母牛或公牛。
上下文窗口
模型可在给定提示中处理的 token 数量。上下文窗口越大,模型可用于提供连贯一致的回答的信息就越多。
D
直接提示
与零样本提示的含义相同。
蒸馏
将一个模型(称为教师)的大小缩减为较小的模型(称为学生),并尽可能忠实地模拟原始模型的预测结果。知识蒸馏之所以有用,是因为较小的模型与较大的模型(教师)相比,具有以下两个主要优势:
- 推理时间更短
- 减少了内存和能耗用量
不过,学生的预测结果通常不如教师的预测结果。
蒸馏训练学生模型,以最大限度地减少基于学生模型和教师模型预测输出之间差异的损失函数。
比较和对比蒸馏与以下术语:
如需了解详情,请参阅机器学习速成课程中的 LLM:微调、蒸馏和提示工程。
E
evals
主要用作 LLM 评估的缩写。 更广泛地说,evals 是任何形式的评估的缩写。
评估
衡量模型质量或比较不同模型的过程。
若要评估监督式机器学习模型,您通常需要根据验证集和测试集来判断模型的效果。评估 LLM 通常涉及更广泛的质量和安全性评估。
F
真实性
在机器学习领域中,一种描述模型(其输出基于现实)的属性。事实性是一个概念,而不是一个指标。 例如,假设您向大型语言模型发送以下提示:
食盐的化学式是什么?
如果模型侧重于事实性,则会回答:
NaCl
人们很容易认为所有模型都应基于事实。不过,某些提示(例如以下提示)应促使生成式 AI 模型优化创意性,而不是事实性。
给我讲一个关于宇航员和毛毛虫的五行打油诗。
这样创作出的五行打油诗不太可能基于现实。
与事实依据相对。
快速衰减
一种用于提升 LLM 性能的训练技术。快速衰减是指在训练期间快速降低学习速率。此策略有助于防止模型对训练数据出现过拟合,并提高泛化能力。
少样本提示
包含多个(“少量”)示例的提示,用于演示大语言模型应如何回答。例如,以下冗长的问题包含两个示例,向大型语言模型展示了如何回答查询。
一个提示的组成部分 | 备注 |
---|---|
指定国家/地区的官方货币是什么? | 您希望 LLM 回答的问题。 |
法国:欧元 | 举个例子。 |
英国:英镑 | 再举一个例子。 |
印度: | 实际查询。 |
与零样本提示和单样本提示相比,少样本提示通常会产生更理想的结果。不过,少样本提示需要更长的提示。
如需了解详情,请参阅机器学习速成课程中的提示工程。
微调
对预训练模型执行的第二次特定任务训练,以针对特定应用场景优化其参数。例如,某些大型语言模型的完整训练序列如下所示:
- 预训练:在庞大的通用数据集(例如所有英文版维基百科页面)上训练大语言模型。
- 微调:训练预训练模型以执行特定任务,例如回答医疗查询。微调通常涉及数百或数千个专注于特定任务的示例。
再举一例,大型图片模型的完整训练序列如下所示:
- 预训练:在庞大的通用图片数据集(例如 Wikimedia Commons 中的所有图片)上训练大型图片模型。
- 微调:训练预训练模型以执行特定任务,例如生成虎鲸图片。
微调可能需要采用以下策略的任意组合:
- 修改预训练模型的所有现有参数。这有时称为“完全精细调整”。
- 仅修改预训练模型的部分现有参数(通常是离输出层最近的层),同时保持其他现有参数不变(通常是离输入层最近的层)。请参阅参数高效调优。
- 添加更多层,通常是在最接近输出层的现有层之上添加。
微调是一种迁移学习。因此,微调可能会使用与训练预训练模型时不同的损失函数或模型类型。例如,您可以对预训练的大型图像模型进行微调,以生成一个回归模型,该模型可返回输入图像中鸟的数量。
比较和对比微调与以下术语:
如需了解详情,请参阅机器学习速成课程中的微调。
Flash 模型
一系列相对较小的 Gemini 模型,经过优化,可实现快速响应和低延迟。Flash 模型专为需要快速响应和高吞吐量的各种应用而设计。
基础模型
一种非常大的预训练模型,使用庞大而多样的训练集进行训练。基础模型可以执行以下两项操作:
换句话说,基础模型在一般意义上已经非常强大,但可以进一步自定义,以便在特定任务中发挥更大的作用。
成功次数所占的比例
用于评估机器学习模型生成的文本的指标。 成功率是指“成功”生成的文本输出数量除以生成的文本输出总数量。例如,如果某个大型语言模型生成了 10 个代码块,其中 5 个成功生成,那么成功率就是 50%。
虽然成功率在整个统计学中都非常有用,但在机器学习中,此指标主要用于衡量可验证的任务,例如代码生成或数学问题。
G
Gemini
由 Google 最先进的 AI 组成的生态系统。此生态系统的要素包括:
- 各种 Gemini 模型。
- 与 Gemini 模型进行交互的对话式界面。 用户输入提示,Gemini 会针对这些提示给出回答。
- 各种 Gemini API。
- 基于 Gemini 模型的各种商业产品;例如 Gemini for Google Cloud。
Gemini 模型
Google 基于先进的 Transformer 的多模态模型。Gemini 模型专门设计用于与 代理集成。
用户可以通过多种方式与 Gemini 模型互动,包括通过交互式对话界面和 SDK。
Gemma
一系列轻量级开放模型,采用与 Gemini 模型相同的研究成果和技术构建而成。有多种不同的 Gemma 模型可供选择,每种模型都提供不同的功能,例如视觉、代码和指令遵循。如需了解详情,请参阅 Gemma。
GenAI 或 genAI
生成式 AI 的缩写。
生成的文本
一般来说,指机器学习模型输出的文本。在评估大语言模型时,某些指标会将生成的文本与参考文本进行比较。例如,假设您要确定某个机器学习模型从法语到荷兰语的翻译效果。在此示例中:
- 生成的文本是机器学习模型输出的荷兰语翻译。
- 参考文本是人工翻译人员(或软件)创建的荷兰语译文。
请注意,某些评估策略不涉及参考文本。
生成式 AI
一个新兴的变革性领域,没有正式定义。 不过,大多数专家都认为,生成式 AI 模型可以创建(“生成”)以下类型的内容:
- 复杂
- 连贯
- 原图
生成式 AI 的示例包括:
- 大语言模型,可生成复杂的原创文本并回答问题。
- 图片生成模型,可生成独一无二的图片。
- 音频和音乐生成模型,可以创作原创音乐或生成逼真的语音。
- 视频生成模型,可生成原创视频。
包括 LSTM 和 RNN 在内的一些早期技术也可以生成原创且连贯的内容。一些专家认为这些早期技术属于生成式 AI,而另一些专家则认为,真正的生成式 AI 需要能够生成比这些早期技术更复杂的输出。
与预测性机器学习相对。
黄金回答
2 + 2
理想的回答是:
4
H
人工评估
一种由人来评判机器学习模型输出质量的过程;例如,让双语人士评判机器学习翻译模型的质量。对于没有唯一正确答案的模型,人工评估尤其有用。
人机协同 (HITL)
一种定义宽泛的成语,可能表示以下任一含义:
- 一种以批判性或怀疑性态度看待生成式 AI 输出的政策。
- 一种策略或系统,用于确保人们帮助塑造、评估和改进模型的行为。让人参与到 AI 流程中,可使 AI 同时受益于机器智能和人类智能。例如,在一种系统中,AI 生成代码,然后由软件工程师进行审核,这种系统就是人机循环系统。
I
上下文学习
与少样本提示的含义相同。
推理
在传统机器学习中,推断是指以下过程:通过将训练过的模型应用于无标签样本做出预测。如需了解详情,请参阅“机器学习简介”课程中的监督式学习。
在大语言模型中,推理是指使用训练好的模型针对输入提示生成回答的过程。
推理在统计学中具有略有不同的含义。如需了解详情,请参阅 维基百科中有关统计学推断的文章。
指令调优
一种微调形式,可提高生成式 AI 模型遵循指令的能力。指令调优是指使用一系列指令提示训练模型,这些指令提示通常涵盖各种各样的任务。经过指令调优的模型往往能够针对各种任务的零样本提示生成实用的回答。
比较和对比:
L
latency
模型处理输入并生成回答所需的时间。 高延迟响应的生成时间比低延迟响应的生成时间长。
影响大语言模型延迟时间的因素包括:
- 输入和输出 [token] 长度
- 模型的复杂程度
- 模型运行的基础设施
优化延迟时间对于打造响应迅速且用户友好的应用至关重要。
LLM
大语言模型的缩写。
LLM 评估
用于评估大型语言模型 (LLM) 性能的一组指标和基准。概括来讲,大语言模型评估:
- 帮助研究人员确定 LLM 需要改进的方面。
- 有助于比较不同的 LLM,并确定最适合特定任务的 LLM。
- 帮助确保 LLM 的使用安全且合乎道德。
如需了解详情,请参阅机器学习速成课程中的大型语言模型 (LLM)。
LoRA
低秩自适应性的缩写。
低秩自适应 (LoRA)
一种参数高效的微调技术,用于“冻结”模型的预训练权重(使其无法再被修改),然后在模型中插入一小部分可训练的权重。这组可训练的权重(也称为“更新矩阵”)比基础模型小得多,因此训练速度也快得多。
LoRA 具有以下优势:
- 提高模型在应用微调的网域中的预测质量。
- 与需要微调模型所有参数的技术相比,微调速度更快。
- 通过支持同时部署共享同一基础模型的多个专业模型,降低推理的计算成本。
M
机器翻译
使用软件(通常是机器学习模型)将文本从一种人类语言转换为另一种人类语言,例如从英语转换为日语。
前 k 名的平均精确率均值 (mAP@k)
验证数据集中所有“平均精确率(k)”得分的统计平均值。平均精确率(取前 k 个结果)的一个用途是判断推荐系统生成的推荐的质量。
虽然“平均平均值”一词听起来有些冗余,但该指标的名称是合适的。毕竟,此指标会计算多个 k 值处的平均精确率的平均值。
混合专家
一种通过仅使用一部分参数(称为“专家”)来处理给定输入令牌或示例来提高神经网络效率的方案。门控网络会将每个输入 token 或示例路由到合适的专家。
如需了解详情,请参阅以下任一论文:
MMIT
多模态指令调优的缩写。
模型级联
一种可为特定推理查询选择理想模型的系统。
假设有一组模型,从非常大(大量形参)到小得多(形参少得多)。与较小的模型相比,超大型模型在推理时会消耗更多计算资源。不过,与较小的模型相比,非常大的模型通常可以推理出更复杂的请求。模型级联会确定推理查询的复杂程度,然后选择合适的模型来执行推理。 模型级联的主要目的是通过选择较小的模型来降低推理成本,只有在处理更复杂的查询时才选择较大的模型。
假设一个小型模型在手机上运行,而该模型的较大版本在远程服务器上运行。良好的模型级联可让较小的模型处理简单请求,仅在处理复杂请求时调用远程模型,从而降低成本和延迟时间。
另请参阅模型路由器。
模型路由器
用于确定模型级联中推理的理想模型的算法。 模型路由器本身通常是一个机器学习模型,它会逐渐学习如何为给定的输入选择最佳模型。不过,模型路由器有时可能是一种更简单的非机器学习算法。
MOE
专家混合的缩写。
MT
机器翻译的缩写。
否
Nano
一款相对较小的 Gemini 模型,专为在设备上使用而设计。如需了解详情,请参阅 Gemini Nano。
正确答案并非只有一个 (NORA)
具有多个正确回答的提示。 例如,以下提示没有唯一正确的答案:
给我讲个关于大象的搞笑笑话。
评估没有唯一正确答案的提示的回答通常比评估只有一个正确答案的提示的回答更具主观性。例如,评估一个大象笑话需要一种系统性的方法来确定该笑话有多好笑。
NORA
没有正确答案的缩写。
笔记本 LM
一款基于 Gemini 的工具,可让用户上传文档,然后使用提示来提问、总结或整理这些文档。例如,作者可以上传几篇短篇小说,让 NotebookLM 找出它们的共同主题,或确定哪篇最适合改编成电影。
O
一个正确答案 (ORA)
判断对错:土星比火星大。
唯一正确的回答是正确。
与没有正确答案形成对比。
单样本提示
包含一个示例的提示,用于演示大型语言模型应如何回答。例如,以下提示包含一个示例,向大语言模型展示了它应如何回答查询。
一个提示的组成部分 | 备注 |
---|---|
指定国家/地区的官方货币是什么? | 您希望 LLM 回答的问题。 |
法国:欧元 | 举个例子。 |
印度: | 实际查询。 |
比较并对比一次性提示与以下术语:
ORA
一个正确答案的缩写。
P
参数高效调优
一组用于比完全微调更高效地微调大型预训练语言模型 (PLM)的技术。与完全微调相比,参数高效调优通常会微调少得多的参数,但通常会生成一个大语言模型,其性能与通过完全微调构建的大语言模型相当(或几乎相当)。
比较参数高效调优与以下方法的异同:
参数高效调优也称为参数高效微调。
Pax
一种编程框架,旨在训练大规模神经网络 模型,这些模型非常庞大,以至于需要跨多个 TPU 加速器芯片 切片或 Pod。
Pax 基于 Flax 构建,而 Flax 基于 JAX 构建。
PLM
预训练语言模型的缩写。
后训练模型
一个宽泛定义的术语,通常是指经过一些后处理(例如以下一项或多项)的预训练模型:
预训练模型
虽然此术语可以指任何经过训练的模型或经过训练的嵌入向量,但预训练模型现在通常是指经过训练的大语言模型或其他形式的经过训练的生成式 AI 模型。
预训练
在大型数据集上对模型进行初始训练。有些预训练模型是笨拙的巨人,通常必须通过额外的训练来改进。 例如,机器学习专家可能会使用庞大的文本数据集(例如维基百科中的所有英文网页)预训练大语言模型。预训练完成后,可以通过以下任一技术进一步优化生成的模型:
专业版
一种 Gemini 模型,其形参数量少于 Ultra,但多于 Nano。如需了解详情,请参阅 Gemini Pro。
提示
作为输入内容输入到大语言模型中的任何文本,用于让模型以某种特定方式运作。提示可以短至一个短语,也可以任意长(例如,整部小说的文本)。提示可分为多种类别,包括下表所示的类别:
提示类别 | 示例 | 备注 |
---|---|---|
问题 | 鸽子能飞多快? | |
指令 | 写一首关于套利的趣味小诗。 | 要求大语言模型执行某种操作的提示。 |
示例 | 将 Markdown 代码转换为 HTML。例如:
Markdown:* 列表项 HTML:<ul> <li>列表项</li> </ul> |
此示例提示中的第一句话是一条指令。 提示的其余部分是示例。 |
角色 | 向物理学博士解释为什么在机器学习训练中使用梯度下降法。 | 句子的第一部分是指令;“物理学博士”一词是角色部分。 |
供模型补全的部分输入 | 英国首相居住在 | 部分输入提示可以突然结束(如本例所示),也可以以下划线结尾。 |
生成式 AI 模型可以根据提示生成文本、代码、图片、嵌入、视频…几乎任何内容。
基于提示的学习
某些模型的一项功能,可让模型根据任意文本输入(提示)调整其行为。在典型的基于提示的学习范式中,大语言模型通过生成文本来响应提示。例如,假设用户输入了以下提示:
总结牛顿第三运动定律。
能够基于提示进行学习的模型并非专门训练来回答之前的提示。相反,模型“知道”很多关于物理学的事实、很多关于一般语言规则的知识,以及很多关于哪些答案通常有用的知识。这些知识足以提供(希望)有用的答案。其他人类反馈(例如“这个回答太复杂了”或“什么是反应?”)使一些基于提示的学习系统能够逐步提高回答的实用性。
提示设计
与提示工程的含义相同。
提示工程
创建提示的艺术,这些提示可从大语言模型中引出所需的回答。人类执行提示工程。编写结构化良好的提示是确保从大语言模型获得有用回答的重要环节。提示工程取决于多种因素,包括:
提示设计是提示工程的同义词。
如需详细了解如何撰写有用的提示,请参阅提示设计简介。
提示集
用于评估大语言模型的一组提示。例如,下图显示了一个包含三条提示的提示集:
良好的提示集包含足够“广泛”的提示,可用于全面评估大语言模型的安全性和实用性。
另请参阅回答集。
提示调优
一种参数高效调优机制,用于学习系统预先添加到实际提示中的“前缀”。
提示调优的一种变体(有时称为“前缀调优”)是在每个层前面添加前缀。相比之下,大多数提示调整仅向输入层添加前缀。
R
参考文本
专家对提示的回答。例如,假设有以下提示:
将问题“What is your name?”从英语翻译成法语。
专家的回答可能是:
Comment vous appelez-vous?
各种指标(例如 ROUGE)用于衡量参考文本与机器学习模型生成的文本的匹配程度。
基于人类反馈的强化学习 (RLHF)
使用人工评估者的反馈来提高模型回答的质量。例如,RLHF 机制可以要求用户使用 👍 或 👎 表情符号对模型回答的质量进行评分。然后,系统可以根据该反馈调整其未来的回答。
Response
生成式 AI 模型推理出的文字、图片、音频或视频。换句话说,提示是生成式 AI 模型的输入,而回答是输出。
回答集
角色提示
一种提示,通常以代词“你”开头,用于告知生成式 AI 模型在生成回答时假装成特定的人或扮演特定的角色。角色提示可帮助生成式 AI 模型进入正确的“思维模式”,从而生成更有用的回答。例如,根据您希望获得的回答类型,以下任何角色提示都可能适用:
您拥有计算机科学博士学位。
您是一名软件工程师,喜欢耐心地向新学编程的学生讲解 Python。
您是一位身怀绝技的行动英雄。 向我保证,您会在 Python 列表中找到特定项。
S
软提示调优
一种用于针对特定任务调整大型语言模型的技术,无需进行资源密集型微调。与重新训练模型中的所有权重不同,软提示调优会自动调整提示,以实现相同的目标。
在给定文本提示的情况下,软提示调整通常会将额外的令牌嵌入附加到提示中,并使用反向传播来优化输入。
“硬”提示包含实际的令牌,而不是令牌嵌入。
T
温度
一种超参数,用于控制模型输出的随机程度。温度越高,输出就越随机;温度越低,输出就越不随机。
选择最佳温度取决于具体应用和/或字符串值。
U
Ultra
参数数量最多的 Gemini 模型。 如需了解详情,请参阅 Gemini Ultra。
V
Vertex
Google Cloud 的 AI 和机器学习平台。Vertex 提供用于构建、部署和管理 AI 应用的工具和基础设施,包括对 Gemini 模型的访问权限。Z
零样本提示
一个提示的组成部分 | 备注 |
---|---|
指定国家/地区的官方货币是什么? | 您希望 LLM 回答的问题。 |
印度: | 实际查询。 |
大语言模型可能会提供以下任一回答:
- 卢比符号
- INR
- ₹
- 印度卢比
- 卢比
- 印度卢比
所有答案都是正确的,不过您可能更喜欢某种特定格式。
比较和对比零样本提示与以下术语: