本页面包含语言评估术语表。如需了解所有术语表术语,请点击此处。
应用
注意力层、
神经网络中使用的一种机制,用于指示特定字词或字词某个部分的重要性。注意力会压缩模型预测下一个令牌/字词所需的信息量。典型的关注机制可能包含一组输入的加权总和,其中每个输入的权重由神经网络的另一部分计算。
自动编码器
这个系统学习如何从输入中提取最重要的信息。自动编码器是编码器和解码器的组合。自动编码器依赖于以下两个步骤:
- 编码器将输入映射到(通常)有损低维度(中间)格式。
- 解码器通过将较低维度的格式映射到原始的高维度输入格式来构建有损版本。
我们对编码器进行端到端训练,方法是让解码器尽可能从编码器的中间格式重建原始输入。由于中间格式比原始格式要小(维度更低),因此自动编码器必须了解输入中的哪些信息是重要信息,且输出与输入并不完全相同。
例如:
- 如果输入数据是图形,则非精确副本将与原始图形类似,但略有改动。例如,非完全匹配的副本可能会移除原始图形中的噪声或填充某些缺失的像素。
- 如果输入数据是文本,则自动编码器将生成模仿原始文本(但并不完全相同)的新文本。
另请参阅变体自编码器。
自动回归模型
一种模型,用于根据其自身的预测结果来推断预测结果。例如,自动回归语言模型会根据先前预测的令牌来预测下一个令牌。所有基于转换器的大型语言模型都是自动回归的。
相比之下,基于 GAN 的图片模型通常不是自动回归的,因为它们在单次前向传递中不会重复生成图片。但是,某些图片生成模型会自动回归,因为它们会逐步生成图片。
B
一袋字词
短语或段落中的字词的表示法,不考虑顺序。例如,三个字词包的含义相同:
- 小狗跳跃
- 跳跃狗狗
- 狗狗跳跃
每个字词都映射到稀疏向量中的索引,其中该向量为词汇表中的每个字词的索引。例如,词组“狗狗跳跃”会映射到特征向量,该字词在与字词“the”“dog”和“jumps”对应的三个索引处包含非零值。非零值可以是以下任一值:
- 1,表示某个字词存在。
- 某个字词出现的次数。例如,如果该词组是“肱狗”是一条长毛毛狗的狗,则“maroon”和“dog”都将表示为 2,其他单词则表示为 1。
- 一些其他值,例如某个字词在字词包中重复的次数。
BERT(双向编码器 变压器表示)
文本表示法的模型架构。经过训练的 BERT 模型可以充当文本分类或其他机器学习任务的较大模型的一部分。
BERT 具有以下特征:
BERT 包括以下变体:
- ALBERT 是 A BERT 的首字母缩写词。
- LaBSE。
如需简要了解 BERT,请参阅开源 BERT:先进的自然语言处理预训练。
BigRAM
一种 N-gram,其中 N=2。
双向
该术语用于描述系统的评估文本,该文本先于文本,并且紧随目标文本部分。相比之下,单向系统仅会评估在文本目标文本之前的文本。
例如,请考虑掩盖语言模型,它必须确定以下网址中代表下划线的字词的概率:
您有哪些____?
单向语言模型只需根据“内容”、“是”和“the”等字词提供的上下文来表示其概率。相反,双向语言模型也可以从“with”和“you”获取上下文,这有助于模型生成更好的预测结果。
双向语言模型
语言模型,根据前面和后面的文本确定给定片段在文本摘录中的给定位置是否存在的概率。
BLEU(双语评估研究)
介于 0.0(含)到 1.0(含)之间的分数,表示两种人类语言(例如英语和俄语)之间的翻译质量。BLEU 评分 1.0 表示翻译质量很棒;BLEU 分数 0.0 表示翻译质量很差。
C
因果语言模型
与单向语言模型的含义相同。
如需对比语言建模中的不同方向方法,请参阅双向语言模型。
思维链提示
一种提示工程技术,用于鼓励大型语言模型 (LLM) 逐步解释其中的原因。以下面的提示为例,请特别注意第二句:
驾驶汽车在 7 秒内从每小时 0 英里到 60 英里的行驶里程中,驾驶者的驾驶力是多少?在答案中,显示所有相关计算。
LLM 的响应可能会:
- 显示物理公式序列,在适当的位置插入值 0、60 和 7。
- 说明为什么选择这些公式以及各个变量的含义。
链式提示会强制 LLM 执行所有计算,这可能会找到更正确的答案。此外,借助提示链提示,用户可以检查 LLM 的步骤以确定答案是否合理。
成交解析
将一个句子划分为较小的语法结构(“组成部分”)。机器学习系统的后期部分(例如自然语言理解模型)可以比原始句子更轻松地解析组成部分。以下面的句子为例:
我的朋友收养了两只猫。
组成部分解析器可以将此句子划分为以下两个组成部分:
- “我的朋友”是名词短语。
- “领养两只猫”是一个动词短语。
这些组成要素可进一步细分为更小的组成部分。 例如,动词短语
领养两只猫
可进一步细分为:
- adopted 是动词。
- “两只猫”是另一个名词短语。
开花
含义不明的句子或短语。开花会带来自然语言理解方面的重大问题。例如,标题 Red Tape Holds Up Skyscraper 就是一片碎片,因为 NLU 模型可能会从字面上或根据数字对标题进行解读。
D
解码器
通常,任何机器学习系统都会从经过处理、密集或内部表示法转换为更原始、稀疏或外部的表示法。
解码器通常是一个较大模型的一个组件,通常与编码器搭配使用。
在序列序列任务中,解码器从编码器生成的内部状态开始,以预测下一个序列。
如需了解解码器在解码器架构中的定义,请参阅转换器。
去噪
一种常见的自监督学习方法,其中:
去噪有助于学习无标签示例。 原始数据集用作目标或标签,噪声数据作为输入。
某些遮盖语言模型使用降噪方法,如下所示:
- 通过遮盖一些令牌,人为地将未加标签的句子添加到噪声中。
- 模型会尝试预测原始令牌。
直接提示
与零镜头提示的含义相同。
E
修改距离
用于衡量两个文本字符串之间的相似度。 在机器学习中,修改距离非常有用,因为它易于计算,并且能够有效地比较两个已知已知的字符串,或查找与给定字符串类似的字符串。
编辑距离有几个定义,每个定义使用不同的字符串运算。例如, Levenshtein 距离会考虑最少的删除、插入和替换操作。
例如,“heve”和“darts”这两个词之间的 Levenshtein 距离为 3,这是因为进行以下 3 次修改是将一个字词变成另一个字词所需的最少更改:
- 心形 → 心形(将“h”替换为“d”)
- deart → dart(删除“e”)
- dart → dart(插入“s”)
嵌入层
一个特殊的隐藏层,它基于高维度分类特征进行训练,以逐步学习较低维度的嵌入矢量。与仅针对高维度分类特征进行训练相比,嵌入层可让神经网络更高效地进行训练。
例如,地球目前支持大约 73,000 种树种。假设树的种类是模型中的特征,因此模型的输入层包含一个独热矢量 73000 个元素。例如,可以按如下方式表示 baobab
:
一个由 73,000 个元素组成的数组很长。如果没有向模型添加嵌入层,则由于需要将 72,999 个零相乘,因此训练将会非常耗时。也许由您选择嵌入层来组成 12 个维度。因此,嵌入层将逐渐为每个树种学习新的嵌入矢量。
在某些情况下,哈希是嵌入层的合理替代方案。
嵌入空间
由较高维度矢量空间组成的特征的 d 维矢量空间将被映射到。理想情况下,嵌入空间包含可产生有意义的数学结果的结构;例如,在理想的嵌入空间中,对嵌入执行加减法就可以处理字词类比任务。
两个嵌入的点积可衡量其相似度。
嵌入矢量
从广义上来说,一个从任意 隐藏层获取的浮点值数组,用于描述该隐藏层的输入。 通常,嵌入矢量是在嵌入层中训练的浮点数数组。例如,假设嵌入图层必须学习地球上 73000 种树种的嵌入矢量。以下数组或许是猴面包树的嵌入矢量:
嵌入向量并不是一堆随机数字。嵌入层通过训练来确定这些值,类似于神经网络在训练期间学习其他权重的方式。数组的每个元素都是某个树种特征的评分。哪个元素代表哪种树种的特征?人类非常难以确定
从数学上来说,嵌入矢量的值得注意的部分是,相似项拥有一组类似的浮点数。例如,类似的树种与不同的树种相比,具有更类似的一组浮点数。红杉和红杉是相关的树种,因此与红木和椰子树相比,它们更有一组相似的浮点数。每次重新训练模型时,即使您使用相同输入重新训练模型,嵌入矢量中的数字也会改变。
编码器
通常,任何机器学习系统从原始、稀疏或外部表示法转换为经过更多处理、更密集或更多的内部表示法。
编码器通常是较大模型的一个组件,在编码器中,编码器经常与解码器配对。某些转换器将编码器与解码器配对,但其他转换器仅使用编码器或解码器。
某些系统会将编码器的输出作为分类或回归网络的输入。
在序列序列任务中,编码器会接受输入序列并返回内部状态(矢量)。然后,解码器会使用该内部状态来预测下一个序列。
如需了解编码器架构中编码器的定义,请参阅转换器。
F
几个镜头提示
提示,包含多个(几个)示例,演示了大型语言模型应如何响应。例如,以下冗长的提示包含两个示例,显示了如何回答查询的一个大型语言模型。
一个提示的组成部分 | 备注 |
---|---|
指定国家/地区的官方货币是什么? | 您希望 LLM 回答的问题。 |
法国:欧元 | 举个例子。 |
英国:英镑 | 再举一个例子。 |
印度: | 实际的查询内容。 |
很少的提示提示通常会产生比零次提示和一次性提示更理想的结果。但是,少数镜头提示需要较长的提示。
小提琴
Python 优先的配置库,用于设置函数和类的值,而不含侵扰性代码或基础架构。对于 Pax(和其他机器学习代码库),这些函数和类表示模型和训练训练超参数。
Fiddle 假设机器学习代码库通常分为:
- 库代码,用于定义图层和优化器。
- 数据集“粘合”代码,用于调用库并将所有内容连接在一起。
Fiddle 以未评估且可变的形式捕获粘合代码的调用结构。
微调
针对预训练模型执行第二项任务特定训练传递,以针对特定用例优化其参数。例如,某些大型语言模型的完整训练序列如下所示:
- 预训练:在庞大的常规数据集(例如所有英语版维基百科页面)上训练一个大型语言模型。
- 微调:训练预训练模型以执行特定的任务,例如响应医疗查询。微调通常需要涉及特定任务的数百或数千个示例。
再举一个例子,大型图片模型的完整训练序列如下所示:
- 预训练:在庞大的通用图片数据集(例如 Wikimedia Commons 中的所有图片)上训练大型图片模型。
- 微调:训练预训练模型以执行特定任务,例如生成虎鲸图片。
微调可能涉及以下策略的任意组合:
- 修改所有预训练模型的现有参数。这有时称为完全微调。
- 仅修改部分预训练模型的现有参数(通常是最接近输出层的层),而保持其他现有参数保持不变(通常最接近输入层的层)。
- 添加更多层(通常位于最靠近输出层的现有层之上)。
微调是一种迁移学习形式。因此,微调可能会使用不同于训练预训练模型的损失函数或模型类型。例如,您可以微调预训练的大型图片模型,以生成回归模型,以返回输入图片中的鸟类数量。
使用下列术语比较和微调微调:
亚麻
用于构建深度学习的高性能开源 库,以 JAX 为基础。Flax 提供用于训练 神经网络的函数,以及用于评估其性能的方法。
Flaxformer
一个基于 Flax 构建的开源 Transform 库,主要用于自然语言处理和多模态研究。
G
生成式 AI
没有正式定义的新兴转换字段。也就是说,大多数专家都同意生成 AI 模型可以创建(“生成”)以下全部内容:
- 复杂
- 连贯
- 原图
例如,生成 AI 模型可以创建复杂的论文或图片。
一些早期技术(包括 LSTM 和 RNN)也可以生成原创内容并且具有一致性。一些专家认为这些早期的技术属于生成式 AI,而另一些专家则认为真正的生成式 AI 需要比这些早期技术能够生成的更复杂的输出。
与预测性机器学习相对。
GPT(生成式预训练转换器)
GPT 变体可以应用于多个模态,包括:
- 生成图片(例如 ImageGPT)
- 生成文字转图片(例如 DALL-E)。
H
幻觉
通过生成式 AI 模型生成看似合理但实际上不正确的输出,该模型声称对现实世界做出断言。例如,声称 Barack Obama 于 1865 年去世的生成式 AI 模型就在令人震惊。
I
上下文学习
与少数镜头提示的含义相同。
L
LaMDA(对话应用的语言模型)
由 Google 开发的基于转换器的大型语言模型,它使用大型对话数据集进行训练,该数据集可以生成逼真的对话响应。
LaMDA:我们的突破性对话技术提供了概览。
语言模型
一个模型,用于估算令牌或令牌序列发生时间较长的令牌序列中的概率。
大型语言模型
没有严格定义的非正式术语,通常指具有大量参数的语言模型。某些大型语言模型包含超过 1000 亿个参数。
M
掩盖语言模型
一种语言模型,用于预测候选令牌填充序列中的空白的概率。例如,遮盖语言模型可以计算候选字词替换下方句子中下划线的概率:
帽子里的____回来了。
文学通常使用字符串“MASK”而不是下划线。例如:
帽子里的“戴面巾”回来了。
大多数现代遮盖语言模型都是双向的。
元学习
机器学习的子集,用于发现或改进学习算法。 元学习系统还可以尝试训练模型,根据少量数据从之前的任务中积累经验,快速学习新任务。元学习算法通常尝试实现以下目的:
- 改进/学习手动工程的功能(如初始化程序或优化器)。
- 提高数据效率和计算效率。
- 改进泛化。
元学习与少数样本学习相关。
modality
概括性的数据类别。例如,数字、文本、图片、视频和音频是五种不同的模式。
模型并行处理
一种扩缩训练或推断的方法,可将一个模型的不同部分放在不同的设备上。模型并行处理使模型过大,不适合放在单个设备上。
为了实现模型并行处理,系统通常执行以下操作:
- 将模型分片(划分)为较小的部分。
- 将这些较小的部分分配到多个处理器上的训练。 每个处理器都会训练模型自己的部分。
- 合并结果以创建单个模型。
模型并行处理会减慢训练速度。
另请参阅数据并行处理。
多头自我注意
自注意力的扩展,可针对输入序列中的每个位置多次应用自我注意机制。
转换器引入了多头自我注意功能。
多模态模型
其输入和/或输出包含多个模态的模型。例如,假设某个模型将图片和文本说明(两种模态)作为特征,然后输出一个评分,指示文本字幕是否适合图片。因此,此模型的输入为多模态,输出为单模态。
否
自然语言理解
根据用户输入或说出的内容确定用户的意图。 例如,搜索引擎会根据用户输入或说出的内容,利用自然语言理解技术确定用户要搜索的内容。
N 克
N 个字词按顺序排列。例如,“真正疯狂”是 2-gram。由于顺序很重要,因此“疯狂”与“真正疯狂”是不同的 2-gram。
否 | 此类 N-gram 的名称 | 示例 |
---|---|---|
2 | Bigram 或 2-gram | 外带、前往、吃午餐、吃晚餐 |
3 | 三元语法(3-gram 或 3-gram) | 吃太多了、三位盲人,响铃通知 |
4 | 4 克 | 公园里散步、风中的灰尘、男孩吃扁豆 |
许多自然语言理解模型依靠 N-gram 来预测用户将输入或说出的下一个字词。例如,假设用户输入了三个盲人。基于三元语法的 NLU 模型可能会预测用户接下来将输入“鼠标”。
将 N-gram 与字词包进行对比,这些字词是无序的词集。
NLU
自然语言理解的缩写。
O
单次提示
一个提示,包含一个示例,演示了大型语言模型应如何响应。例如,以下提示包含一个示例,展示了大型语言模型应如何回答查询。
一个提示的组成部分 | 备注 |
---|---|
指定国家/地区的官方货币是什么? | 您希望 LLM 回答的问题。 |
法国:欧元 | 举个例子。 |
印度: | 实际的查询内容。 |
将一次性提示与以下术语进行比较和对比:
P
参数效率高低调整
一组技术,可用于比大型微调更高效地微调大型预训练语言模型 (PLM)。参数优化的调节通常比微调所需的参数要少得多,但通常生成的大型语言模型的效果与(通过几乎完全优化)构建的大型语言模型的效果相同(或几乎相同)。
比较和比较参数化调节与:
参数效率调节也称为参数效率优化。
流水线
一种模型并行处理,其中模型处理被划分为多个连续阶段,并且每个阶段都在不同的设备上执行。当某个阶段处理一个批次时,上一个阶段可以处理下一个批次。
另请参阅预演培训。
波兰兹罗提
预训练语言模型的缩写。
位置编码
一种技术,用于向令牌嵌入添加序列中令牌的位置相关信息。转换器模型使用位置编码来更好地了解序列的不同部分之间的关系。
位置编码的常见实现使用正弦函数。(具体来说,正弦函数的频率和振幅取决于令牌在序列中的位置。)此技术可让转换器模型学习根据序列的位置参与序列的不同部分。
预训练模型
已经过训练的模型或模型组件(例如嵌入向量)。有时,您需要将预训练的嵌入向量馈送到神经网络中。有时,模型会自行训练嵌入向量,而不是依赖预训练的嵌入。
预训练
基于大型数据集对模型的初始训练。一些预训练模型是笨拙的巨型模型,通常必须通过额外的训练加以优化。例如,机器学习专家可以在庞大的文本数据集(例如维基百科中的所有英语页面)上预训练大型语言模型。预训练后,您可以通过以下任一方法进一步优化生成的模型:
提示符
作为大型语言模型的输入而输入的任何文本,用于调整模型的行为。提示可以短,可以是短语,也可以是任意长度(例如,小说的整个文本)。提示分为多个类别,包括下表所示:
提示类别 | 示例 | 备注 |
---|---|---|
问题 | 鸽子的飞行速度有多快? | |
教学 | 写一篇有关套利的搞笑歌曲。 | 提示大型语言模型执行某项操作的提示。 |
示例 | 将 Markdown 代码翻译成 HTML。例如:
Markdown:* list item HTML: <ul> <li>list item</li> </ul> |
此示例提示中的第一句话是指令。下面给出了提示。 |
角色 | 解释在机器学习中,向物理学博士学位使用渐变下降的原因。 | 句子的第一部分是指令;短语“物理学博士”是角色部分。 |
需要完成的部分模型输入 | 英国总理生活在 | 部分输入提示可能以突然结束(如此示例所示)或以下划线结尾。 |
生成式 AI 模型可以用文本、代码、图片、嵌入、视频等几乎任何方式回应提示。
基于提示的学习
某些模型能够让他们根据任何文本输入来调整自身行为(提示)。在典型基于提示的学习范式中,大型语言模型通过生成文本来响应提示。例如,假设用户输入以下提示:
总结牛顿第三运动定律。
我们并未专门训练可基于提示的学习的模型来回答先前的提示。相反,该模型“了解”很多有关物理学的知识、很多关于一般语言规则的知识,以及很多关于一般实用答案的定义。这些知识足以提供(希望)成为有用的答案。通过额外的人工反馈(“该答案太复杂了”或“什么是反应?”),一些基于提示的学习系统能够逐渐提高其答案的实用性。
提示设计
与提示工程的含义相同。
及时工程
创建提示的技巧,用于从大型语言模型中发出所需的响应。人会进行及时的工程撰写结构合理的提示是确保来自大型语言模型的实用响应的重要组成部分。提示工程技术取决于多种因素,包括:
如需详细了解如何编写有用的提示,请参阅提示设计简介。
提示设计是提示工程的同义词。
提示调整
一种参数高效调整机制,用于了解系统向实际提示添加的“前缀”。
提示调整的一个变体(有时称为“前缀调整”)是在每个层前面加上前缀。大多数提示调整都只会向输入层添加前缀。
(右)
角色提示
提示的可选部分,用于识别生成式 AI 模型响应的目标受众群体。如果没有角色提示,大型语言模型所提供的答案对想要提出问题的人来说可能没有用。借助角色提示,大型语言模型能够以对特定目标受众群体更合适且更有帮助的方式回答问题。例如,以下提示的角色提示部分以粗体显示:
- 总结经济学博士学位的这篇文章。
- 描述潮流对十年发展趋势的影响。
- 说明 2008 年金融危机。您可以像对待幼童或黄金寻回者一样说话。
S
自我注意(也称为自我注意层)
将一系列嵌入(例如令牌嵌入)转换为另一个嵌套序列的神经网络层。输出序列中的每个嵌入都是通过注意机制整合输入序列元素中的信息来构建的。
自我关注部分是指自身参与的序列,而不是其他背景信息。自注意力是转换器的主要构建块之一,并使用字典查询术语,例如“查询”“键”和“值”。
一个自我注意力层以一系列输入表示法开头,每个字词对应一个表示法。字词的输入表示法可以是简单的嵌入。对于输入序列中的每个字词,网络在整个字词序列中对这些字词与每个元素的相关性进行评分。相关性得分用于确定某个字词的最终表示形式与包含其他字词表示法的比例。
以下面的句子为例:
因为动物太累了,所以那条动物没有过马路。
以下插图(来自转换器:一种新的语言理解神经网络架构)展示了代称的自觉层注意力模式,每行的深色指示每个字词对表示法的贡献程度:
自我关注层会突出显示与“它”相关的字词。在本例中,注意层已经学会突出显示它可能引用的字词,从而为动物分配最高的权重。
对于 n 个令牌,自注意机制会独立嵌入嵌入序列 n 次,一次即到达序列中的每个位置。
情感分析
使用统计或机器学习算法确定群体对服务、产品、组织或主题的整体态度(积极或消极)。例如,利用自然语言理解,算法可以对大学课程的文字反馈进行情感分析,以确定学生通常喜欢或不喜欢该课程的程度。
序列到序列任务
用于将 令牌 的输入序列转换为令牌的输出序列的任务。例如,两种常见的“序列到序列”任务如下所示:
- 译者:
- 输入序列示例:“I love you”。
- 输出序列示例:“Je t'aime”。
- 问答:
- 示例输入序列:“我需要我在纽约的车吗?”
- 示例输出序列:“否。请勿将汽车留在家中。”
稀疏特征
一种特征,其值主要为零或为空。例如,包含 1 个值和 100 万个值的特征会稀疏。相比之下,密集特征的主要值不是 0 或为空。
在机器学习中,稀疏特征有很多。分类特征通常是稀疏特征。例如,在一个森林有 300 种可能的树种中,单个样本可能只能识别树树。或者,视频库中数百万个视频都可能只有一个“Casablanca”样本。
在模型中,您通常使用独热编码来表示稀疏特征。如果独热编码很大,您可以在独热编码的基础上添加一个嵌入层,以提高效率。
稀疏表示法
在稀疏特征中仅存储非零元素的位置。
例如,假设名为 species
的分类特征可标识特定森林中的 36 种树种。进一步假设每个示例仅标识单个物种。
您可以使用独热矢量来表示每个示例中的树种。一个热向量将包含一个 1
(用于表示该示例中的特定树)和 35 个 0
(表示该示例中并非的 35 个树种)。因此,maple
的独热表示法可能如下所示:
或者,稀疏表示法只会识别特定物种的位置。如果 maple
是位置 24,则 maple
的稀疏表示法将如下所示:
24
请注意,稀疏表示法比独热表示法更紧凑。
分阶段发布培训
在一系列离散阶段训练模型的策略。目标是加快训练过程或提高模型质量。
渐进式堆叠方法图如下所示:
- 第 1 阶段包含 3 个隐藏层,第 2 阶段包含 6 个隐藏层,第 3 阶段包含 12 个隐藏层。
- 第 2 阶段使用在第 1 阶段的 3 个隐藏层中学习的权重进行训练。第 3 阶段使用第 2 阶段的 6 个隐藏层中学习的权重开始训练。
另请参阅流水线。
T
T5
由 Google AI 在 2020 年引入的“文本到文本”迁移学习 模型。T5 是基于转换器架构的编码器 - 解码器模型,基于超大型数据集进行训练。该库对于各种自然语言处理任务(例如生成文本、翻译语言以及以对话方式回答问题)非常有效。
T5 通过“Text-to-Text Transfer Transform”中的五个 T 获取其名称。
T5X
一个开源机器学习框架,旨在构建和训练大型自然语言处理 (NLP) 模型。T5 在 T5X 代码库(基于 JAX 和 Flax 上构建)上实现。
温度
一个超参数,用于控制模型输出的随机性程度。温度越高,输出越随机,而温度越低,输出越随机。
选择最佳温度取决于特定应用以及模型输出的所需属性。例如,在创建创建广告素材输出的应用时,您可能需要调高温度。相反,在构建用于对图片或文本进行分类的模型时,您可能需要降低温度,以提高模型的准确性和一致性。
温度通常与 softmax 一起使用。
文本跨度
与文本字符串的特定子部分相关联的数组索引 span。例如,Python 字符串 s="Be good now"
中的单词 good
表示文本跨度介于 3 到 6 之间。
token
在语言模型中,模型是在训练时使用的逻辑单元,用于进行预测。令牌通常是下列格式之一:
- 一个字词(例如,短语“dogs like cats”)由三个字词令牌组成:“dogs”、“like”和“cats”。
- 一个字符,例如,短语“自行车自行车”由 9 个字符组成。(请注意,空白会计为其中一个令牌。)
- 子字词 - 一个词可以是一个或多个词元。 子字词由根字词、前缀或后缀组成。例如,使用子字词作为令牌的语言模型可以将“狗”一词视为两个令牌(根字词“狗”和复数后缀“s”)。同一语言模型可以将单个字词“taller”视为两个子字词(根字词“tall”和后缀“er”)。
在语言模型之外的网域中,令牌可以代表其他类型的原子单位。例如,在计算机视觉中,令牌可能是图片的子集。
Transformer
Google 开发的神经网络架构依赖于自注意力机制,将输入嵌入序列转换为一系列输出嵌入,而无需依赖于卷积或循环神经网络。转换器可以视为一堆用户注意力图层。
转换器可包含以下任意内容:
编码器将嵌入序列转换为相同长度的新序列。编码器包含 N 个完全相同的层,其中每个层都包含两个子层。这两个子层应用于输入嵌入序列的每个位置,从而将序列的每个元素转换为新的嵌入。第一个编码器子层用于汇总整个输入序列的信息。第二个编码器子层将汇总信息转换为输出嵌入。
解码器将一系列输入嵌入转换为可能长度不同的输出嵌入序列。解码器还包含 N 个完全相同的层,其中包含三个子层,其中两个子层与编码器子层类似。第三个解码器子层采用编码器的输出,并应用自注意力机制从其收集信息。
《变形金刚:新型语言理解神经网络架构》一书详细介绍了转换器。
Trigram
一种 N-gram,其中 N=3。
U
单向
一种系统,仅评估在文本目标文本之前的文本。相反,双向系统会评估之前和之后的文本部分。如需了解详情,请参阅双向。
单向语言模型
一个语言模型,其概率仅基于目标令牌之前(而非之后)显示的令牌。与双向语言模型形成对比。
V
变分自编码器 (VAE)
一种自动编码器,可利用输入和输出之间的差异来生成输入的修改版本。变分自动编码器有助于生成 AI。
VAE 基于变分推断,即用于估算概率模型参数的技术。
W
字词嵌入
表示在嵌入向量中的字词集内的每个字词;也就是说,将每个字词表示为 0.0 到 1.0 之间的浮点值的矢量。具有不同含义的字词的表示法与具有不同含义的字词的表示法类似。例如,胡萝卜、甜菜和黄瓜具有不同的表示法,这与“飞机”、“太阳镜”和“牙膏”的表示截然不同。
Z
零次提示
一个提示的组成部分 | 备注 |
---|---|
指定国家/地区的官方货币是什么? | 您希望 LLM 回答的问题。 |
印度: | 实际的查询内容。 |
大型语言模型可能会以以下任一项作为响应:
- 卢比符号
- INR
- ₹
- 印度卢比
- 卢比
- 印度卢比
虽然所有答案都正确,但您可能更倾向于使用特定格式。
比较以下术语,并将零镜头提示进行比较和对比: