机器学习术语表:序列模型

本页面包含序列模型术语表。如需查看所有术语表术语,请点击此处

B

二元语法

#seq
#language

一种 N 元语法,其中 N=2。

E

梯度爆炸问题

#seq

深度神经网络(尤其是循环神经网络)中的梯度趋势变得异常急剧(较高)。陡峭的梯度往往会导致深度神经网络中每个节点权重大幅更新。

遇到梯度爆炸问题的模型很难或无法训练。渐变裁剪可以缓解此问题。

梯度消失问题相对。

F

忘记门

#seq

长/短期记忆单元格中,用于控制通过单元格的信息流的部分。忘记关口通过决定从单元状态中舍弃哪些信息来维护上下文。

G

梯度裁剪

#seq

一种常用的机制,在使用梯度下降法训练模型时,人为限制(裁剪)梯度的最大值,缓解梯度爆炸问题

L

长/短期记忆 (LSTM)

#seq

递归神经网络中的一种单元,用于在手写识别、机器翻译和图片标注等应用中处理数据序列。LSTM 解决了因数据序列较长而训练 RNN 时发生的梯度消失问题问题,它根据 RNN 中先前单元格的新输入和上下文将历史记录保留在内部内存状态中。

LSTM

#seq

Long Short-Term Memory 的缩写。

N 元语法

#seq
#language

N 个单词的有序序列。例如,“truly madly”属于二元语法。由于顺序具有相关性,因此“madly 真正的”是与“truly madly”不同的二元语法。

此类 N 元语法的名称 示例
2 二元语法 去, 去, 吃午餐, 吃晚饭
3 三元语法 ate 过多, 三位盲人老鼠, bell tolls
4 四元语法 漫步在公园, 尘埃风中, 小男孩 ate lentils

许多自然语言理解 模型依赖 N 元语法来预测用户将输入或说出的下一个字词。例如,假设用户输入了“three blind”。基于三元语法的 NLU 模型可能会预测用户接下来将输入“mice”。

将 N 元语法与字词袋进行对比,后者是无序的字词集。

R

循环神经网络

#seq

特意运行多次的神经网络,其中每次运行的部分都会馈送到下一次运行。具体而言,上一次运行中的隐藏层会在下一次运行时为同一隐藏层提供部分输入。循环神经网络在评估序列时特别有用,因此隐藏层可以从神经网络在序列的前几部分上的先前运行中学习。

例如,下图显示了一个运行四次的循环神经网络。请注意,第一次运行时在隐藏层中学习的值将成为第二次运行时相同隐藏层的输入的一部分。同样,第二次运行时在隐藏层中学习的值将成为第三次运行时相同隐藏层的输入的一部分。通过这种方式,循环神经网络会逐步训练和预测整个序列的含义,而不仅仅是单个字词的含义。

运行四次以处理四个输入字词的 RNN。

循环神经网络

#seq

循环神经网络的缩写。

序列模型

#seq

一种模型,其输入具有顺序依赖关系。例如,根据之前观看过的一系列视频预测观看的下一个视频。

T

时间步

#seq

循环神经网络中的一个“展开”单元。例如,下图显示了三个时间步(标记为 t-1、t 和 t+1):

循环神经网络中的三个时间步。第一个时间步的输出将成为第二个时间步的输入。第二个时间步的输出将成为第三个时间步的输入。

三元语法

#seq
#language

一种 N 元语法,其中 N=3。

V

梯度消失问题

#seq

某些深度神经网络的早期隐藏层的梯度趋势变得非常平坦(低)。逐渐降低的梯度会导致深度神经网络中节点上的权重变化越来越小,从而导致学习很少或根本没有学习。遇到梯度消失问题的模型难以训练或无法训练。Long Short-Term Memory 单元格可解决此问题。

梯度爆炸问题相对。