机器学习术语表:语言评估

本页包含语言评估术语表。如需了解所有术语表,请点击此处

A

注意力

#language

众多神经网络架构机制中的一种,这些机制以依赖于数据的方式从一组输入中聚合信息。典型的注意机制可能包括对一组输入的加权和,其中每个输入的权重由神经网络的其他部分计算。

另请参阅自注意力多头自注意力,它们是转换器的构建块。

B

词袋

#language

短语或段落中字词的表示形式,无论顺序如何。例如,词袋代表相同的三个短语:

  • 小狗跳跃
  • 跳狗
  • 小狗跳跃

每个字词都会映射到稀疏矢量中的索引,在该字词中,该矢量会为词汇表中的每个字词创建一个索引。例如,短语“dog jumps”会映射到一个特征向量,该特征向量在字词“the”、“dog”和“jumps”对应的三个索引处包含非零值。非零值可以是以下任何一项:

  • 1,用于指示是否存在某个字词。
  • 某个字词在字词包中的出现次数。例如,如果词组为“the maroon dog is a dog with maroon fur”,那么“maroon”和“dog”都会表示为 2,其他字词则表示为 1。
  • 某个其他值,例如某个字词在字词包中的出现次数的对数。

BERT(来自编码器的双向编码器表示法)

#language

文本表示法的模型架构。经过训练的 BERT 模型可以作为文本分类或其他机器学习任务的较大模型的一部分。

BERT 具有以下特征:

BERT 的变体包括:

  • ALBERT,是 ALightBERT 的首字母缩写。
  • LaBSE

如需简要了解 BERT,请参阅开源 BERT:先进的自然语言处理预训练

Bigram

#seq
#language

一种 N 元语法,其中 N=2。

双向

#language

此术语用于描述一个系统,该系统评估在文本的目标文本之前和之后文本的文本。相比之下,单向系统会仅评估在目标文本之前的文本。

例如,假设某个遮盖的语言模型必须确定以下问题中带下划线的字词的概率:

您和_____有什么关系?

单向语言模型只能基于字词“What”、“What”、“is”和“the”提供的上下文来确定其概率。相反,双向语言模型还可以通过“with”和“you”获取上下文,这可能有助于模型生成更好的预测结果。

双向语言模型

#language

一种语言模型,可根据前文以下文本确定给定令牌在给定位置存在于给定位置的概率。

BLEU(双语评估研究)

#language

0.0 到 1.0(含 0.0 和 1.0)之间的分数,表示两种人类语言(例如英语和俄语)之间的翻译质量。BLEU 得分为 1.0 表示完美翻译;BLEU 得分为 0.0 表示糟糕翻译。

C

因果关系模型

#language

单向语言模型的含义相同。

如需对比语言建模中的不同方向方法,请参阅双向语言模型

崩溃的樱花

#language

含义不明确的句子或短语。 开花形成了自然语言理解中的一个重大问题。例如,标题“Red Tape Holds Up Skyscraper”存在歧义,因为 NLU 模型可能会从字面解读该标题,也可能会从象征角度进行解读。

D

解码器

#language

通常,任何机器学习系统都是从经过处理、密集或内部表示法转换为更原始、更稀疏或外部的表示法。

解码器通常是较大模型的组成部分,经常与编码器搭配使用。

序列序列任务中,解码器从编码器生成的内部状态开始,以预测下一个序列。

如需了解转换器架构中解码器的定义,请参阅转换器

降噪

#language

一种自监督学习的常见方法,其中:

  1. 噪声是人为添加的。
  2. 模型会尝试消除噪声。

通过去噪可以学习无标签样本。原始数据集用作目标或标签,噪声数据作为输入。

某些遮盖的语言模型使用降噪功能,如下所示:

  1. 通过遮盖部分词汇,人为地添加了一个无标签的句子。
  2. 模型会尝试预测原始令牌。

E

嵌入

#language

表示为连续值特征的分类特征。 通常,嵌套是指将高维度向量转换为低维空间。例如,您可以通过以下两种方法之一用英语表示英语句子:

  • 表示成包含百万个元素(高维度)的稀疏向量,其中所有元素都是整数。向量中的每个单元格都表示一个单独的英文单词;单元格中的值表示相应单词在句子中出现的次数。由于单个英文句子包含的单词不太可能超过 50 个,因此向量中几乎每个单元格都包含 0。少数不属于 0 的单元格将包含较小的整数(通常为 1),表示相应单词在句子中出现的次数。
  • 表示数百个元素(低维度)密集向量,其中每个元素都存储一个介于 0 到 1 之间的浮点值。这是嵌入。

在 TensorFlow 中,嵌入是通过反向传播损失训练的,就像神经网络中的任何其他参数一样。

嵌入空间

#language

来自更高维矢量空间的特征的 d 维矢量空间被映射到。理想情况下,嵌入空间包含可生成有意义的数学结果的结构;例如,在理想的嵌入空间中,添加和减去嵌入就可以解决字词类比任务。

两个嵌入的点积用于衡量两者之间的相似性。

编码器

#language

一般来说,任何机器学习系统都是从原始、稀疏或外部表示法转换为经过处理、更密集或更内部的表示法。

编码器通常是较大模型的组成部分,通常与解码器搭配使用。某些转换器可将编码器与解码器配对,但也有一些转换器仅使用编码器或仅使用解码器。

某些系统将编码器的输出作为分类或回归网络的输入。

序列序列任务中,编码器接受输入序列并返回内部状态(向量)。然后,解码器使用该内部状态来预测下一个序列。

如需了解编码器在编码器架构中的定义,请参阅转换器

绿

GPT(生成预训练的转换器)

#language

OpenAI 开发的基于 Transformer大型语言模型系列。

GPT 变体可以应用于多种模式,包括:

  • 图片生成(例如 ImageGPT)
  • 文字到图片生成(例如 DALL-E)。

LaMDA(对话应用的语言模型)

#language

由 Google 开发的基于 Transformer大语言模型,基于可生成逼真的对话响应的大型对话数据集进行训练。

LaMDA:我们的突破性对话技术提供了概览。

语言模型

#language

一种模型,用于估算令牌或以较长序列序列出现的令牌序列的概率。

大型语言模型

#language

没有严格定义的非正式术语,通常是指具有大量参数语言模型某些大型语言模型包含超过 1000 亿个参数。

M

遮盖的语言模型

#language

一种语言模型,用于预测候选令牌填充序列中的空白内容的概率。例如,遮盖语言模型可以计算候选字词替换以下句子中下划线的概率:

帽子里的____又回来了。

文学通常使用字符串“MASK”而不是下划线。例如:

帽子中的“MASK”又回来了。

大多数现代遮盖式语言模型都是双向的。

元学习

#language

用于发现或改进学习算法的机器学习子集。 元学习系统还可以用来训练模型,以利用少量数据或从之前任务中积累的经验快速学习新任务。元学习算法通常尝试实现以下目标:

  • 改进/学习手动设计的功能(例如初始化程序或优化器)。
  • 提高数据效率和计算效率。
  • 改进泛化。

元学习与少量样本学习相关。

modality

#language

简要数据类别。例如,数字、文字、图片、视频和音频是五个不同的模式。

模型并行处理

#language

一种扩缩训练或推断的方式,可将一个模型的不同部分放置在不同的设备上。模型并行处理使得模型过大,无法在单个设备上存储。

另请参阅数据并行

多头自行注意

#language

自注意力的扩展,用于针对输入序列中的每个位置多次应用自注意力机制。

转换器引入了多头自注意力。

多模态模型

#language

其输入和/或输出包含多个模态的模型。例如,假设某个模型将图片和文本字幕(两种模态)作为特征,并输出一个得分来说明该文本字幕是否适合该图片。因此,此模型的输入为多模态,输出为单模态。

自然语言理解

#language

根据用户输入或说出的内容来确定用户的意图。 例如,搜索引擎会根据用户输入或说出的内容,使用自然语言理解来确定用户正在搜索的内容。

N-gram

#seq
#language

N 个单词的有序序列。例如,“truly madly”属于二元语法。由于顺序很重要,因此“madly true”与“truly madly”是不同的二元语法。

此类 N 元语法的名称 示例
2 Bigram 或 2-gram 去、去、吃午餐、吃晚餐
3 三元语法或三元语法 吃了太多东西、三个盲老鼠、铃铛铃声
4 4 克 去公园散步、风去灰尘、男孩吃扁豆

许多自然语言理解模型依赖 N 元语法来预测用户会输入或说出的下一个字词。例如,假设用户输入了“三个盲人”。 基于三元语法的 NLU 模型可能会预测用户接下来会输入“鼠标”。

将 N-gram 与词袋进行比较,这些词袋是无序的字词集。

NLU

#language

自然语言理解的缩写。

P

流水线

#language

一种模型并行处理形式,其中会将模型的处理过程拆分为多个连续阶段,并且每个阶段都在不同的设备上执行。当一个阶段正在处理一个批次时,前一阶段可以处理下一批次。

另请参阅分阶段发布培训

S

自注意力(也称为自我注意层)

#language

将一系列嵌入(例如令牌嵌入)转换为另一个嵌入序列的神经网络层。输出序列中的每个嵌入都是通过注意机制集成来自输入序列元素的信息构建的。

自我注意部分的自我部分是指自我进入序列,而非其他某个情境。自注意力是 Transformer 的主要构建块之一,它使用字典查询术语(例如“query”、“key”和“value”)。

自注意力层从一系列输入表示法开始,每个表示法对应一个字词。字词的输入表示法可以是简单的嵌入。对于输入序列中的每个字词,网络会对该字词与整个字词序列中的每个元素的相关性进行评分。相关性得分决定了某个字词的最终表示法在多大程度上纳入了其他字词的表示法。

例如,请考虑以下语句:

这条动物太累了,所以它没有过马路。

以下图示(选自《转换器:一种新的语言理解神经网络架构》)展示了代词“注意力”机制的注意力模式,每行的黑暗程度表示每个字词对表征的贡献程度:

下面这句话出现了两次:动物没有过马路,因为它太累了。代码行将一个句子中的单词“'it'”与另一个句子中的五个令牌(“', 'animal', 'street', 'it', and the 句点”)连接起来。'it'和动物之间的界限最强。

自注意力图层会突出显示与“它”相关的字词。在本例中,注意力层学会了突出显示它可能引用的字词,为动物分配最高权重。

对于 n令牌,自注意力转换会将嵌入序列独立转换一次,在序列中的每个位置上分别进行一次。

另请参阅注意多头自注意

情感分析

#language

使用统计或机器学习算法确定群体对某个服务、产品、组织或主题的整体态度(积极或消极)。例如,使用自然语言理解,算法可以对某大学课程的文本反馈进行情感分析,以确定学生对课程的一般喜爱程度或不喜欢程度。

序列到序列任务

#language

一个将 tokens 输入序列的令牌输出序列的任务。例如,两种常见的序列到序列任务如下所示:

  • 译者:
    • 输入序列示例:“我爱你”。
    • 输出序列示例:“Je t&a33;aime”。
  • 问答:
    • 示例输入序列:“我需要在纽约市买车吗?”
    • 输出序列示例:“不,请把汽车留在家里。”

分阶段训练

#language

在一系列离散阶段中训练模型的策略。目标是加快训练过程或提高模型质量。

渐进式堆叠方法图示如下:

  • 第 1 阶段包含 3 个隐藏层,第 2 阶段包含 6 个隐藏层,第 3 阶段包含 12 个隐藏层。
  • 第二阶段使用第一阶段的 3 个隐藏层中学到的权重进行训练。第 3 阶段使用第 2 阶段的 6 个隐藏层中学到的权重进行训练。

三个阶段,分别标记为“第 1 阶段”、“第 2 阶段”和“第 39 阶段”。
          每个阶段包含不同数量的图层:第 1 阶段包含 3 个图层,第 2 阶段包含 6 个图层,第 3 阶段包含 12 个图层。
第 1 阶段的 3 层成为第 2 阶段的前 3 层。同样,第 2 阶段的 6 层将成为第 3 阶段的前 6 层。

另请参阅流水线

T

token

#language

语言模型中,表示模型进行训练时使用的进行预测的单元。令牌通常是以下之一:

  • 字词(例如,“猫和狗”等短语由三个词法单元组成:“狗”、“喜欢”和“猫”)。
  • 字符,例如短语“bike fish”由 9 个字符组成。(请注意,空白计为一个令牌。)
  • 子字词 - 单个字词可以是单个令牌,也可以是多个令牌。 子字词由根词、前缀或后缀组成。例如,如果某个语言模型使用子字词作为词法单元,则可能会将单词“dogs”视为两个词元(根词“dog”和复数后缀“sot”);该语言模型可能会将单个单词“taller”视为两个子单词(根单词“tall”和后缀“er”)。

在语言模型以外的网域中,令牌可以表示其他类型的原子单位。例如,在计算机视觉中,令牌可能是图像的子集。

Transformer

#language

Google 开发的神经网络架构依赖于自我注意机制将一系列输入嵌入转换为一系列输出嵌入,而无需依赖卷积循环神经网络。转换器可视为一系列自注意力层。

转换器可以包含以下任一项:

编码器将嵌入序列转换为长度相同的新序列。编码器包含 N 个完全相同的层,每个层包含两个子层。这两个子层会在输入嵌入序列的每个位置应用,从而将序列的每个元素转换为新的嵌入。第一个编码器子层汇总来自整个输入序列的信息。第二个编码器子层将聚合信息转换为输出嵌入。

解码器将一系列输入嵌入转换为一组输出嵌入(可能具有不同的长度)。解码器还包含 N 个完全相同的层,其中包含三个子层,其中两个层类似于编码器子层。第三个解码器子层会获取编码器的输出内容,并应用自注意力机制从编码器收集信息。

这篇有关《变形金刚:一种新的语言理解神经网络架构》(Transformer: A Nove Neural Network Architecture for Language Learning) 的博文很好地介绍了变形金刚。

三元语法

#seq
#language

一种 N 元语法,其中 N=3。

U

单向

#language

仅评估在目标文本部分之前的文本的系统。相反,双向系统会评估在文本的前面和后面文本的文本。如需了解详情,请参阅双向

单向语言模型

#language

语言模型:其概率仅基于在目标令牌之前(而不是之后)显示的令牌。双向语言模型相对。

W

字词嵌入

#language

表示将字词嵌入的 0 与 0 之间的值分别为 0 和 0.含义不同的字词与具有不同含义的字词的表示法更相似。例如,胡萝卜芹菜黄瓜的表示法都非常相似,这与飞机太阳镜牙膏的表示法截然不同。