机器学习术语表:序列模型

本页包含序列模型术语表中的术语。如需查看所有术语表术语,请点击此处

B

二元语法

#seq
#language

一种 N 元语法,其中 N=2。

E

梯度爆炸问题

#seq

深度神经网络(尤其是循环神经网络)中的梯度趋于变得出奇地陡峭(高)。陡峭的梯度通常会导致深度神经网络中每个节点权重发生非常大的更新。

存在梯度爆炸问题的模型很难或根本无法训练。梯度剪裁可以缓解此问题。

梯度消失问题相对。

F

forget 门

#seq

长期短期记忆细胞中用于调节信息在细胞中流动的那部分。忘记门通过决定要从单元格状态中舍弃哪些信息来维护上下文。

G

梯度裁剪

#seq

一种常用的机制,用于在使用梯度下降训练模型时人为限制(剪裁)梯度的最大值,以缓解梯度爆炸问题

L

长短期记忆 (LSTM)

#seq

循环神经网络中的一种单元,用于处理手写识别、机器翻译和图片说明等应用中的数据序列。LSTM 通过根据 RNN 中先前单元的新输入和上下文,在内部存储状态中保留历史记录,从而解决因数据序列较长而导致的训练 RNN 时出现的梯度消失问题

LSTM

#seq

长短期记忆的缩写。

N 元语法

#seq
#language

N 个字词的有序序列。例如,“truly madly”属于二元语法。由于顺序很重要,因此“madly truly”和“truly madly”是不同的二元语法。

此类 N 元语法的名称 示例
2 二元语法 to go、go to、eat lunch、eat dinner
3 三元语法 ate too much、three blind mice、the bell tolls
4 四元语法 walk in the park, dust in the wind, the boy ate lentils

很多自然语言理解模型依赖 N 元语法来预测用户将输入或说出的下一个字词。例如,假设用户输入了“three blind”。基于三元语法的 NLU 模型可能会预测该用户接下来将输入“mice”。

N 元语法与词袋(无序字词集)相对。

R

循环神经网络

#seq

特意运行多次的神经网络,其中每次运行的部分结果会馈送到下一次运行。具体来说,上一次运行时隐藏层中的结果会作为下一次运行时相同隐藏层的部分输入。循环神经网络在评估序列时尤其有用,因此隐藏层可以根据神经网络在序列的前几部分上的前几次运行进行学习。

例如,下图显示了运行四次的循环神经网络。请注意,第一次运行时在隐藏层中学习的值将成为第二次运行时相同隐藏层的部分输入。同样,第二次运行时在隐藏层中学习的值将成为第三次运行时相同隐藏层的部分输入。通过这种方式,循环神经网络逐步训练和预测整个序列的含义,而不只是各个字词的含义。

运行四次以处理四个输入字词的 RNN。

RNN

#seq

循环神经网络的缩写。

S

序列模型

#seq

输入具有序列依赖性的模型。例如,根据之前观看过的一系列视频对观看的下一个视频进行预测。

T

时间步

#seq

循环神经网络中的“展开”单元格。例如,下图显示了三个时间步(用下标 t-1、t 和 t+1 标记):

循环神经网络中的三个时间步。第一个时间步的输出将成为第二个时间步的输入。第二个时间步的输出将成为第三个时间步的输入。

三元语法

#seq
#language

一种 N 元语法,其中 N=3。

V

梯度消失问题

#seq

某些深度神经网络的早期隐藏层的梯度往往会出乎意料地变得平坦(低)。梯度越来越小会导致深度神经网络中节点的权重变化越来越小,从而导致学习效果不佳或根本无法学习。存在梯度消失问题的模型很难或无法训练。长短期记忆单元格可解决此问题。

梯度爆炸问题相对。