本页面包含语言评估术语表术语。如需查看所有术语表术语,请点击此处。
A
注意力层、
神经网络中使用的一种机制,用于指示特定字词或字词中某一部分的重要性。注意力机制压缩模型预测下一个词元/词语所需的信息量。典型的注意力机制可能由一组输入上的加权和组成,其中每个输入的权重由神经网络的另一部分计算。
另请参阅自注意力和多头自注意力,它们是 Transformer 的组成要素。
自动编码器
一种学习从输入中提取最重要的信息的系统。自编码器是编码器和解码器的组合。自动编码器依赖于以下两步式过程:
- 编码器将输入映射到(通常)有损低维(中间)格式。
- 解码器通过将低维格式映射到原始高维输入格式来构建原始输入的有损版本。
端到端训练的方法是让解码器尝试尽可能接近地根据编码器的中间格式重建原始输入。由于中间格式比原始格式小(维度较低),因此自动编码器会被迫了解输入中的哪些信息是必要的,因此输出不会与输入完全相同。
例如:
- 如果输入数据是图形,那么非精确副本将与原始图形类似,但稍微做了一些修改。也许非精确复制会移除原始图形中的噪声或填充一些缺失的像素。
- 如果输入数据是文本,则自动编码器会生成模仿(但并不等同于)原始文本的新文本。
另请参阅变分自编码器。
自回归模型
一种模型,会根据自身之前的预测推断出相应的预测model。例如,自动回归语言模型会根据先前预测的词元预测下一个词元。所有基于 Transformer 的大语言模型都是自动回归模型。
相比之下,基于 GAN 的图像模型通常不是自动回归模型,因为它们在单次正向传播中生成图像,而不是逐步生成图像。但是,某些图片生成模型会自动回归,因为它们是按步骤生成图片。
B
词袋
短语或段落中字词的表示,不考虑顺序。例如,以下三个短语完全相同:
- 小狗跳跃
- 跳狗
- 小狗跳
每个字词都会映射到稀疏向量中的一个索引,在该向量中,词汇表中的每个字词都有一个索引。例如,短语 the dog jumps 会映射到一个特征向量,该特征向量在与字词 the、dog 和 jumps 对应的三个索引处具有非零值。非零值可以是下列任一值:
- 1 表示某个字词存在。
- 某个字词在词袋中出现的次数。例如,如果词组为“the maroon dog is a dog with maroon fur”,则“maroon”和“dog”都将表示为 2,其他字词将表示为 1。
- 其他一些值,例如某个单词出现在词袋中的次数的对数。
BERT(基于 Transformer 的双向编码器表示法)
用于文本表示的模型架构。经过训练的 BERT 模型可以用作大型模型的一部分,用于文本分类或其他机器学习任务。
BERT 具有以下特征:
- 使用 Transformer 架构,因此依赖于自注意力功能。
- 使用 Transformer 的编码器部分。编码器的工作是生成良好的文本表示,而不是执行分类等特定任务。
- 双向。
- 对非监督式训练使用遮盖。
BERT 的变体包括:
如需简要了解 BERT,请参阅开源 BERT:一流的自然语言处理预训练。
双向
用于描述系统评估文本目标部分之前和之后的文本的术语。相比之下,单向系统仅评估文本目标部分之前的文本。
例如,假设有一个遮盖语言模型,该模型必须确定以下问题中表示下划线的字词的概率:
_____与您有关吗?
单向语言模型只能基于由单词“What”“is”和“the”提供的上下文来预测其概率。相比之下,双向语言模型还可以从“with”和“you”获取上下文,这可能有助于模型更好地进行预测。
双向语言模型
一种语言模型,用于根据上一段和后面的文本确定指定词元出现在一段文本的指定位置的可能性。
二元语法
一种 N 元语法,其中 N=2。
BLEU(双语评估研究)
介于 0.0 和 1.0 之间的得分(含 0.0 和 1.0),表示两种人类语言(例如英语和俄语之间的翻译)之间的翻译质量。BLEU 得分为 1.0 表示翻译完美,而 BLEU 得分为 0.0 表示翻译质量很差。
C
因果语言模型
与单向语言模型的同义词。
如需对比语言建模中的不同定向方法,请参阅双向语言模型。
思维链提示
一种提示工程技术,可鼓励大语言模型 (LLM) 逐步解释其原因。以下面的提示为例,请特别注意第二句:
在 7 秒内从每小时 0 加速到每小时 60 英里的汽车中,驾驶员会体验多少克力?在答案中,显示所有相关的计算结果。
LLM 的回答可能会:
- 显示一系列物理公式,并在适当的位置插入值 0、60 和 7。
- 解释为什么它选择这些公式以及各种变量的含义。
思维链提示会强制 LLM 执行所有计算,这可能会得出更正确的答案。此外,思维链提示可让用户检查 LLM 的步骤,以确定答案是否合理。
聊天
与机器学习系统(通常是大语言模型)的来回对话内容。聊天中的上一次互动(您输入的内容以及大语言模型的响应方式)将成为聊天后续部分的上下文。
聊天机器人是大语言模型的应用。
混淆
是幻觉的同义词。
从技术角度来说,“确信”可能比“幻觉”更准确。后来,幻觉开始流行起来。
选区解析
将句子划分为较小的语法结构(“组成部分”)。 机器学习系统的后续部分(例如自然语言理解模型)可以比原始句子更容易解析组成部分。以下面的句子为例:
我的朋友领养了两只猫。
选区解析器可以将这个句子分为以下两个组成部分:
- Myfriend 是一个名词短语。
- adopted two cats 是一个动词短语。
这些组成部分可进一步细分为更小的组成部分。 例如,动词短语
领养了两只猫
可以进一步细分为:
- adopted 为动词。
- two cats 则是另一个名词短语。
语境化语言嵌入
一种嵌入,能够以人类母语人士可以理解的方式近乎“理解”字词和短语。上下文化语言嵌入可以理解复杂的语法、语义和上下文。
以英语单词 cow 的嵌入为例。较旧的嵌入(例如 word2vec)可以表示英语单词,因此嵌入空间中从牛到公牛的距离类似于从母羊(母羊)到 ram(雄羊)或从女性到男性的距离。语境化语言嵌入可以在此基础上更进一步,它认识到说英语的人有时会偶尔使用“cow”一词来指代牛或公。
上下文窗口
模型可以在给定提示中处理的令牌数量。上下文时段越大,模型可用于为提示提供连贯一致的响应的信息就越多。
崩溃花
含义不明确的句子或短语。歧义是自然语言理解的一个重大问题。例如,标题“Red Tape Holds Up Skyscraper”存在歧义,因为 NLU 模型可能会从字面解读该标题,也可能会从象征角度解读标题。
D
解码器
一般来说,从经过处理的密集表示法或内部表示法转换为更原始、稀疏或外部表示法的任何机器学习系统。
解码器通常是大型模型的一个组件,经常需要与编码器搭配使用。
在序列到序列任务中,解码器从编码器生成的内部状态开始,以预测下一个序列。
如需了解 Transformer 架构中解码器的定义,请参阅Transformer。
去噪
一种常见的自监督学习方法,该方法:
去噪功能支持从无标签样本中学习。原始数据集用作目标或标签,噪声数据作为输入。
一些遮盖语言模型使用去噪功能,如下所示:
- 噪声是通过遮盖部分词元来人为地添加到未加标签的句子中。
- 模型尝试预测原始词元。
直接提示
与零样本提示的含义相同。
E
修改距离
用于衡量两个文本字符串之间的相似度的测量值。 在机器学习中,修改距离很有用,因为它易于计算,也可以有效比较两个已知相似的字符串,或查找与给定字符串相似的字符串。
修改距离有多种定义,每种定义使用不同的字符串操作。例如, Levenshtein 距离考虑的删除、插入和替换操作最少。
例如,单词“heart”和“darts”之间的 Levenshtein 距离为 3,因为以下 3 次编辑是将一个单词转换为另一个单词的最少更改:
- 心 → deart(将“h”替换为“d”)
- deart → dart(删除“e”)
- dart → dart(插入“s”)
嵌入层
一个特殊的隐藏层,基于高维分类特征进行训练,以逐步学习低维度嵌入向量。与单纯地训练高维分类特征相比,嵌入层可让神经网络进行更有效的训练。
例如,Google 地球目前支持约 73,000 种树木。假设树种是模型中的一个特征,因此模型的输入层包含一个长度为 73,000 个元素的独热矢量。例如,baobab
可能会按如下方式表示:
一个包含 73,000 个元素的数组非常长。如果您不向模型添加嵌入层,由于需要乘以 72,999 个零,训练将会非常耗时。或许,您选择嵌入层由 12 个维度组成。因此,嵌入层会针对每个树种逐步学习一个新的嵌入向量。
在某些情况下,哈希是嵌入层的合理替代方案。
嵌入空间
较高维向量空间中的特征映射到的 d 维向量空间。理想情况下,嵌入空间包含一个可产生有意义的数学结果的结构;例如,在理想的嵌入空间中,对嵌入进行加减运算可以解决字词类比任务。
两个嵌入的点积可用于衡量两者之间的相似性。
嵌入向量
从广义上讲,取自任何隐藏层的浮点数数组,用于描述该隐藏层的输入。通常,嵌入向量是在嵌入层中训练的浮点数数组。例如,假设嵌入层必须针对地球上 73,000 种树种中的每一种学习一个嵌入向量。也许以下数组是猴面包树的嵌入向量:
嵌入向量不是一组随机数字。嵌入层通过训练确定这些值,类似于神经网络在训练期间学习其他权重的方式。该数组的每个元素都是根据某个树种某些特征的评分。哪个元素代表哪个树种的特征?这对人类来说非常难以确定
在数学上,嵌入向量值得注意的部分是,相似的项具有类似的浮点数集。例如,类似的树种具有比不同的树种更相似的浮点数集。红杉和红杉是相关的树种,因此与红杉和椰子树相比,它们具有一组更相似的浮点数。每次重新训练模型时,即使使用相同的输入重新训练模型,嵌入矢量中的数字也会发生变化。
编码器
一般来说,任何可以从原始、稀疏或外部表示形式转换为处理程度更高、更密集或更内部的表示形式的机器学习系统。
编码器通常是较大模型的组成部分,经常需要与解码器搭配使用。一些 Transformer 将编码器和解码器配对,但其他 Transformer 仅使用编码器或仅使用解码器。
有些系统将编码器的输出用作分类或回归网络的输入。
在序列到序列任务中,编码器会接受一个输入序列并返回内部状态(向量)。然后,解码器利用该内部状态预测下一个序列。
如需了解 Transformer 架构中编码器的定义,请参阅 Transformer。
F
少样本提示
包含多个(“几个”)示例的提示,演示大语言模型应如何响应。例如,下面这个很长的提示包含两个示例,它们展示了一个大语言模型如何回答查询。
一个提示的组成部分 | 备注 |
---|---|
指定国家/地区的官方货币是什么? | 你希望 LLM 回答的问题。 |
法国:EUR | 举个例子。 |
英国:GBP | 再举一个例子。 |
印度: | 实际查询。 |
与零样本提示和单样本提示相比,少样本提示通常会产生更理想的结果。不过,少样本提示需要较长的提示。
小提琴
Python 优先的配置库,可在不具有侵入性代码或基础架构的情况下设置函数和类的值。对于 Pax 和其他机器学习代码库,这些函数和类代表模型和训练 超参数。
Fiddle 假设机器学习代码库通常分为:
- 库代码,用于定义层和优化器。
- 数据集“粘合”代码,它会调用库并将所有内容连接在一起。
Fiddle 以未评估且可变的形式捕获粘合代码的调用结构。
微调
在预训练模型上执行的第二轮特定任务的训练,以针对特定使用场景优化其参数。例如,一些大型语言模型的完整训练序列如下所示:
- 预训练:使用大量通用数据集(例如所有英语维基百科页面)训练大型语言模型。
- 微调:训练预训练模型,以执行特定任务,例如响应医疗查询。微调通常涉及成百上千个侧重于特定任务的样本。
再举一个例子,大型图片模型的完整训练序列如下所示:
- 预训练:基于一个大型通用图片数据集(例如维基媒体共享资源中的所有图片)训练大型图片模型。
- 微调:训练预训练模型以执行特定任务,例如生成虎鲸的图片。
微调可以采用以下策略的任意组合:
- 修改预训练模型的所有现有参数。这有时称为“完全微调”。
- 仅修改预训练模型的部分现有参数(通常是最靠近输出层的层),同时保持其他现有参数不变(通常是最靠近输入层的层)。请参阅参数高效调优。
- 添加更多层,通常在最接近输出层的现有层之上。
微调是一种迁移学习。因此,微调可能会使用与训练预训练模型不同的损失函数或模型类型。例如,您可以微调预训练的大型图片模型,以生成可返回输入图片中鸟类数量的回归模型。
使用以下术语来比较和对比微调:
亚麻
基于 JAX 构建的高性能开源 库,用于深度学习。Flax 提供了用于训练神经网络的函数,以及评估其性能的方法。
亚麻
一个基于 Flax 构建的开源 Transformer 库,主要用于自然语言处理和多模态研究。
G
生成式 AI
一个新兴的变革性领域,但没有正式定义。 也就是说,大多数专家认为,生成式 AI 模型可以创建(“生成”)以下各项:
- 复杂
- 连贯
- 原图
例如,生成式 AI 模型可以创建复杂的论文或图片。
一些早期技术(包括 LSTM 和 RNN)也可以生成连贯的原创内容。一些专家将这些早期技术视为生成式 AI,而另一些专家则认为,真正的生成式 AI 需要的输出比这些早期技术能够产生的更复杂的输出。
与预测性机器学习相对。
GPT(生成式预训练 Transformer)
OpenAI 开发的一系列基于 Transformer 的大语言模型。
GPT 变体可应用于多种模式,包括:
- 生成图片(例如 ImageGPT)
- 文本到图像生成(例如 DALL-E)。
H
幻觉
声称是对现实世界的断言的生成式 AI 模型生成的看似合理但事实不正确的输出。例如,声称 Barack Obama 于 1865 年去世的生成式 AI 模型产生幻觉。
I
情境学习
与小样本提示的含义相同。
L
LaMDA(对话应用语言模型)
由 Google 开发的基于 Transformer 的大语言模型,利用可生成真实的对话响应的大型对话数据集进行训练。
LaMDA:我们极具突破性的对话技术简要介绍了我们推出的产品。
语言模型
一种model模型,用于估算令牌model或令牌序列出现在较长令牌序列中的概率。
大语言模型
不具有严格定义的非正式术语,通常表示具有大量参数的语言模型。 某些大语言模型包含超过 1000 亿个参数。
隐空间
嵌入空间的同义词。
LLM
大语言模型的缩写。
LoRA
低排名自适应的缩写。
低秩自适应 (LoRA)
一种算法,用于执行参数高效调优,且仅对大语言模型的一部分参数进行微调。LoRA 具有以下优势:
- 相较于需要微调模型所有参数的技术,这种技术的微调速度更快。
- 降低经过微调的模型推断的计算开销。
使用 LoRA 调优的模型可以保持或提高其预测质量。
LoRA 支持一个模型的多个专用版本。
M
遮盖语言模型
一种语言模型,用于预测候选词元填充序列中空白的概率。例如,遮盖语言模型可以计算以下句子中候选字词替换下划线的概率:
帽子里的____回来了。
文献通常使用字符串“MASK”,而不是下划线。例如:
帽子里的“面具”回来了。
大多数现代遮盖语言模型都是双向的。
元学习
机器学习的一部分,用于发现或改进学习算法。元学习系统还可以旨在训练模型,以便从少量数据或从先前任务中获得的经验快速学习新任务。元学习算法通常尝试实现以下目标:
- 改进或了解人工设计的功能(例如初始化程序或优化器)。
- 提高数据效率和计算效率。
- 改进泛化。
元学习与少样本学习有关。
modality
一种概要数据类别。例如,数字、文本、图片、视频和音频是五种不同的模态。
模型并行处理
一种扩缩训练或推理的方式,将一个模型model的不同部分放置在不同的设备上。model模型并行处理支持因太大而无法适应单个设备的模型。
为了实现模型并行处理,系统通常会执行以下操作:
- 将模型分片(拆分)为更小的部分。
- 将这些较小部分的训练分布在多个处理器中。 每个处理器都会训练自己的模型部分。
- 合并结果以创建单个模型。
模型并行处理会减慢训练速度。
另请参阅数据并行。
多头自注意力
自注意力机制的扩展,针对输入序列中的每个位置多次应用自注意力机制。
Transformer 引入了多头自注意力机制。
多模态模型
一种模型的输入和/或输出包含多个模态。例如,假设某个模型将图片和文本说明(两种模态)作为特征,并输出一个得分,表示文本说明对图片的合适程度。因此,该模型的输入是多模态的,而输出是单模态的。
北
自然语言理解
根据用户输入或说出的内容确定用户的意图。例如,搜索引擎会使用自然语言理解根据用户输入或说出的内容来确定用户正在搜索的内容。
N 元语法
N 个单词的有序序列。例如,“truly madly”属于二元语法。由于顺序具有相关性,因此“madly 真正的”是与“truly madly”不同的二元语法。
北 | 此类 N 元语法的名称 | 示例 |
---|---|---|
2 | 二元语法 | 去, 去, 吃午餐, 吃晚饭 |
3 | 三元语法 | ate 过多, 三位盲人老鼠, bell tolls |
4 | 四元语法 | 漫步在公园, 尘埃风中, 小男孩 ate lentils |
许多自然语言理解 模型依赖 N 元语法来预测用户将输入或说出的下一个字词。例如,假设用户输入了“three blind”。基于三元语法的 NLU 模型可能会预测用户接下来将输入“mice”。
将 N 元语法与字词袋进行对比,后者是无序的字词集。
NLU
自然语言理解的缩写。
O
单样本提示
一条提示,其中包含一个示例,演示大语言模型应如何响应。例如,以下提示包含一个示例,其中显示了一个大型语言模型应如何回答查询。
一个提示的组成部分 | 备注 |
---|---|
指定国家/地区的官方货币是什么? | 你希望 LLM 回答的问题。 |
法国:EUR | 举个例子。 |
印度: | 实际查询。 |
不妨使用以下术语来比较和对比“单样本提示”:
P
参数高效微调
一组技术,可比完全微调更有效微调大型语言模型 (PLM)。参数高效调优在微调参数时通常要比完全微调少得多,但通常会生成一个大语言模型,其性能与基于完全微调构建的大型语言模型一样(或几乎相同)。
比较和对比参数高效微调与以下工具:
参数高效微调也称为“参数高效微调”。
流水线
一种模型并行形式,其中模型的处理分为连续的阶段,每个阶段在不同的设备上执行。在一个阶段处理一个批次时,前面的阶段可以处理下一个批次。
另请参阅预演培训。
PLM
预训练语言模型的缩写。
位置编码
一种将序列中词元位置的相关信息添加到词元嵌入的方法。Transformer 模型使用位置编码来更好地了解序列不同部分之间的关系。
位置编码的常见实现使用正弦函数。(具体而言,正弦函数的频率和幅度取决于词元在序列中的位置。)此方法可让 Transformer 模型根据位置学习处理序列的不同部分。
预训练模型
已经过训练的模型或模型组件(例如嵌入向量)。有时,您需要将预训练的嵌入向量馈送到神经网络中。而在其他时候,您的模型将自行训练嵌入向量,而不依赖于预训练的嵌入。
预训练
使用大型数据集对模型进行的初始训练。一些预训练模型是笨拙的巨型模型,通常必须通过额外的训练进行优化。例如,机器学习专家可能会基于大型文本数据集(例如维基百科中的所有英语页面)预训练大型语言模型。在预训练之后,可以通过以下任何方法进一步优化生成的模型:
提示
输入的任何文本作为大型语言模型的输入,以便调整模型以使其按某种方式运作。提示可以短至一句话,也可以任意长(例如,一本小说的全文)。提示分为多个类别,如下表所示:
提示类别 | 示例 | 备注 |
---|---|---|
问题 | 鸽子可以飞多快? | |
指令 | 写一首关于套利的趣味诗词。 | 一条提示,要求大语言模型执行某项操作。 |
示例 | 将 Markdown 代码翻译为 HTML。例如:
Markdown: * 列表项 HTML: <ul> <li>列表项</li> </ul> |
此示例提示中的第一句话是指令。提示的其余部分是示例。 |
角色 | 解释为什么物理学博士会在机器学习训练中使用梯度下降法。 | 句子的第一部分是指示;短语“要获得物理学博士学位”则是角色部分。 |
需要模型完成的部分输入 | 英国首相居住在 | 部分输入提示可以突然结束(如此示例所示)或以下划线结尾。 |
生成式 AI 模型可以使用文本、代码、图片、嵌入、视频等几乎任何内容来响应提示。
提示式学习
某些模型的功能,使它们能够根据任意文本输入调整自身行为(提示)。在基于提示的典型学习范例中,大语言模型通过生成文本来响应提示。例如,假设用户输入以下提示:
总结牛顿第三运动定律。
能够基于提示的学习的模型未经过专门训练,可回答上一条提示。相反,该模型“了解”许多关于物理学的知识、很多关于一般语言规则的知识,以及很多关于构成一般有用答案的内容的知识。这些知识足以提供(希望)有用的答案。通过额外的人类反馈(“回答太复杂了。”或“什么是反应?”),一些基于提示的学习系统可以逐步提高答案的实用性。
提示设计
与提示工程的含义相同。
提示工程
创建提示,这些提示从大语言模型中引发所需回复的艺术。人类会执行提示工程。编写结构合理的提示是确保大型语言模型给出有用响应的重要部分。提示工程取决于许多因素,包括:
- 用于预训练和可能对大语言模型进行微调的数据集。
- 模型用于生成响应的 temperature 和其他解码参数。
如需详细了解如何编写实用的提示,请参阅提示设计简介。
提示设计是提示工程的同义词。
提示调优
一种参数高效微调机制,该机制会学习系统附加到实际提示符的“前缀”。
提示调整的一种变体(有时称为前缀调整)是在每层前添加前缀。相比之下,大多数提示调整仅会向输入层添加一个前缀。
R
角色提示
提示的可选部分,用于标识生成式 AI 模型回复的目标受众群体。在没有角色提示的情况下,大语言模型提供的答案对提问的人员可能有用,也可能无用。借助角色提示,大型语言模型能够以更适合特定目标受众群体且更有帮助的方式回答问题。例如,以下提示的角色提示部分以粗体显示:
- 总结这篇文章,获取经济学博士学位。
- 描述十岁孩子的潮汐是如何运作的。
- 解释 2008 年金融危机。像对小孩子或金毛寻回犬那样说话。
南
自注意力层(也称为自注意力层)
将一系列嵌入(例如令牌嵌入)转换为其他嵌入序列的神经网络层。输出序列中的每个嵌入都是通过注意力机制集成输入序列元素的信息构建的。
自注意力的“self”部分指的是涉及它自身而不是其他一些上下文的过程。自注意力是 Transformer 的主要构建块之一,使用字典查询术语,例如“query”“key”和“value”。
自注意力层从一系列输入表示开始,每个字词对应一个表示形式。字词的输入表示法可以是简单的嵌入。对于输入序列中的每个字词,网络都会对该字词与整个字词序列中的每个元素的相关性进行评分。相关性分数决定了字词的最终表示程度与其他字词的表示组合程度。
例如,请参考以下句子:
动物太累了,所以没过街。
下图(选自 Transformer:一种新的语言理解神经网络架构)显示了代词“it”的自注意力层的注意力模式,其中每行的黑暗部分表示每个单词对表示的影响程度:
自注意力层会突出显示与“它”相关的字词。在本例中,注意力层学习了突出显示它可能指代的字词,为动物分配最高权重。
对于 n 个词元序列,自注意力会分别在 n 次单独转换一系列嵌入,并在序列中的每个位置各进行一次。nnn
情感分析
使用统计算法或机器学习算法来确定某个群体对某项服务、产品、组织或主题的总体态度(积极或消极)。例如,利用自然语言理解,算法可以对大学课程的文本反馈进行情感分析,以确定学生总体上喜欢或不喜欢课程的程度。
序列到序列任务
一项任务,可将令牌的输入序列转换为令牌输出序列。例如,下面两种常见的“序列到序列”任务是:
- 译者:
- 示例输入序列:“我爱你”。
- 示例输出序列:“Je t'aime”。
- 问答:
- 示例输入序列:“Do I need my car in New York City?”(我在纽约市需要我的汽车吗?)
- 输出序列示例:“No. Please keep your car do you’ve.”(不行。请将车放在家里。)
Skip-gram
一种 n 元语法,可以省略(或“跳过”)原始上下文中的字词,表示这 N 个字词本来可能不相邻。更确切地说,“k-skip-n-gram”是指最多可能跳过 k 个单词的 n-gram。
例如,“the quick brown fox”有如下可能的 2-gram:
- “快速”
- "快速棕色"
- "棕色狐狸"
“1-skip-2-gram”是指一对单词之间最多包含 1 个单词的单词。 因此,“the quick brown fox”具有以下 1 次跳过 2-gram:
- "棕色"
- “Quick fox”
此外,所有 2-gram 也是 1-skip-2-gram,因为跳过的单词可能少于一个。
跳过语法 (Skip-gram) 有助于更深入地了解某个字词的上下文。在该示例中,“fox”在 1-skip-2-grams 集中与“quick”直接关联,但在 2-gram 的集合中则没有。
Skip-gram,有助于训练字词嵌入模型。
软提示调整
一种针对特定任务调参大语言模型(无需进行资源密集型微调)的技术。软提示调整会自动调整提示来实现相同的目标,而不是重新训练模型中的所有权重。
给定文本提示时,软提示调整通常会将额外的词元嵌入附加到提示上,并使用反向传播算法优化输入。
“硬”提示包含实际令牌,而不是令牌嵌入。
稀疏特征
一种特征,其值主要为零或空。例如,如果某个特征包含 1 个值和 100 万个值,则属于稀疏特征。相反,密集特征的值主要不为零或为空。
在机器学习中,大量的特征都是稀疏特征。分类特征通常是稀疏特征。例如,在森林中有 300 种可能的树种中,一个样本可能只会识别一棵“枫树”。或者,在视频库的数百万个视频中,只有一个样本可以识别“卡萨布兰卡”。
在模型中,您通常使用独热编码表示稀疏特征。如果独热编码很大,可以在独热编码之上放置一个嵌入层,以提高效率。
稀疏表示法
仅存储非零元素的位置。
例如,假设名为 species
的分类特征识别特定森林中的 36 种树种。并进一步假设每个示例仅标识一个物种。
您可以使用独热矢量来表示每个样本中的树种。独热矢量将包含单个 1
(用于表示该示例中的特定树种)和 35 个 0
(代表该示例中未包含的 35 个树种)。因此,maple
的独热表示法可能如下所示:
或者,稀疏表示法将仅确定特定物种的位置。如果 maple
在位置 24,则 maple
的稀疏表示法为:
24
请注意,稀疏表示法比独热表示法更紧凑。
预演训练
一种在一系列离散阶段训练模型的策略。目标可以是加快训练过程,也可以是更好的模型质量。
渐进式堆叠方法的示意图如下所示:
- 阶段 1 包含 3 个隐藏层,阶段 2 包含 6 个隐藏层,阶段 3 包含 12 个隐藏层。
- 第 2 阶段使用在第 1 阶段的 3 个隐藏层中学到的权重开始训练。第 3 阶段使用在第 2 阶段的 6 个隐藏层中学到的权重开始训练。
另请参阅流水线。
子词标记
在语言模型中,一个令牌,它是单词的子字符串,可以是整个单词。
例如,像“itemize”这样的单词可以分成“item”(根词)和“ize”(后缀),每个部分都用自己的词法单元表示。通过将不常见的字词拆分为多个片段(称为子字词),语言模型可以对该字词较为常见的组成部分(例如前缀和后缀)执行操作。
相反,像“参加”这样的常用词可能不会分解,并且可能由单个词元表示。
T
T5
Google AI 于 2020 年引入的文本到文本迁移学习 模型。T5 是一种基于 Transformer 架构的编码器-解码器模型,使用超大数据集进行训练。它在各种自然语言处理任务中都很有效,如生成文本、翻译语言和以对话方式回答问题。
T5 这一名称取自“Text-to-Text Transfer Transformer”中的五个 T。
T5X
一个开源机器学习框架,旨在构建和训练大规模自然语言处理 (NLP) 模型。T5 在 T5X 代码库(基于 JAX 和 Flax 构建)上实现。
温度
一种超参数,用于控制模型输出的随机性。温度越高,输出的随机程度越高,而温度越低,输出的随机性越小。
选择最佳温度取决于具体应用和模型输出的首选属性。例如,在创建可生成广告素材输出的应用时,您可能会提高温度。相反,为了提高模型的准确性和一致性,在构建对图片或文本进行分类的模型时,您可能需要降低温度。
温度通常与 softmax 一起使用。
文本 span
与文本字符串的特定子部分关联的数组索引 span。
例如,Python 字符串 s="Be good now"
中的单词 good
占据从 3 到 6 的文本 span。
token
在语言模型中,训练模型并进行预测的原子单元。令牌通常是以下项之一:
- 单词。例如,短语“dogs like cats”由三个单词令牌组成:“dogs”“like”和“cats”。
- 字符。例如,短语“bike fish”由 9 个字符标记组成。(请注意,空格会计为一个词元。)
- 子词 - 单个单词可以是单个词元,也可以是多个词元。子词由根词、前缀或后缀组成。例如,使用子词作为词元的语言模型可能会将“dogs”一词视为两个词法单元(根词“dog”和复数后缀“s”)。同一语言模型可能会将单个单词“taller”视为两个子词(根词“tall”和后缀“er”)。
在语言模型之外的领域中,词元可以表示其他类型的原子单元。例如,在计算机视觉中,令牌可能是图片的子集。
Transformer
Google 开发的神经网络架构,依靠自注意力机制将一系列输入嵌入转换为一系列输出嵌入,而无需依赖卷积或循环神经网络。Transformer 可以看作是一组自注意力层。
Transformer 可以包含以下任意内容:
编码器将一系列嵌入转换为长度相同的新序列。编码器包含 N 个完全相同的层,每个层包含两个子层。这两个子层应用于输入嵌入序列的每个位置,将序列中的每个元素转换为新的嵌入。第一个编码器子层聚合来自整个输入序列的信息。第二个编码器子层将聚合信息转换为输出嵌入。
解码器将输入嵌入序列转换为长度可能不同的输出嵌入序列。解码器还包含 N 个完全相同的层,其中包含三个子层,其中两个类似于编码器子层。第三个解码器子层会获取编码器的输出,并应用自注意力机制从中收集信息。
博文 Transformer:一种新的语言理解神经网络架构对 Transformer 进行了很好的介绍。
三元语法
一种 N 元语法,其中 N=3。
U
单向
一种系统,只评估文本目标部分前面的文本。相比之下,双向系统会同时评估文本目标部分之前和之后的文本。如需了解详情,请参阅双向。
单向语言模型
一种语言模型,其概率仅基于在目标词法单元之前(而不是之后)显示的词法单元。与双向语言模型相对。
V
变分自编码器 (VAE)
一种自动编码器,可利用输入和输出之间的差异来生成经过修改的输入版本。变分自动编码器对于生成式 AI 非常有用。
VAE 基于变分推断,这是一种估算概率模型参数的方法。
西
词嵌入
在嵌入向量内表示字词集中的每个字词;也就是说,将每个字词表示为一个介于 0.0 到 1.0 之间的浮点值的向量。含义相似的字词比含义不同的字词具有更多类似的表示法。例如,carrots、celery 和 cucumbers 的表示法都相对相似,而 airplane、sunglasses 和 toothpaste 的表示法截然不同。
Z
零样本提示
一个提示的组成部分 | 备注 |
---|---|
指定国家/地区的官方货币是什么? | 你希望 LLM 回答的问题。 |
印度: | 实际查询。 |
大型语言模型可能会提供以下任何响应:
- 卢比符号
- INR
- ₹
- 印度卢比
- 卢比
- 印度卢比
以上答案都正确,不过您可能更希望使用某种格式。
使用以下术语来比较和对比零样本提示: