本页包含序列模型术语表中的术语。如需查看所有术语表术语,请点击此处。
B
二元语法
一种 N 元语法,其中 N=2。
E
梯度爆炸问题
深度神经网络(尤其是循环神经网络)中的梯度趋于变得出奇地陡峭(高)。陡峭的梯度通常会导致深度神经网络中每个节点的权重发生非常大的更新。
存在梯度爆炸问题的模型很难或根本无法训练。梯度剪裁可以缓解此问题。
与梯度消失问题相对。
F
forget 门
长期短期记忆细胞中用于调节信息在细胞中流动的那部分。忘记门通过决定要从单元格状态中舍弃哪些信息来维护上下文。
G
梯度裁剪
一种常用的机制,用于在使用梯度下降方法训练模型时人为限制(剪裁)梯度的最大值,以缓解梯度爆炸问题。
L
长短期记忆 (LSTM)
循环神经网络中的一种单元,用于处理手写识别、机器翻译和图片说明等应用中的数据序列。LSTM 通过根据 RNN 中先前单元的新输入和上下文,在内部存储状态中保留历史记录,从而解决因数据序列较长而导致的训练 RNN 时出现的梯度消失问题。
LSTM
长短期记忆的缩写。
否
N 元语法
N 个字词的有序序列。例如,“truly madly”属于二元语法。由于顺序很重要,因此“madly truly”和“truly madly”是不同的二元语法。
否 | 此类 N 元语法的名称 | 示例 |
---|---|---|
2 | 二元语法 | to go、go to、eat lunch、eat dinner |
3 | 三元语法 | ate too much、happily ever after、the bell tolls |
4 | 四元语法 | walk in the park, dust in the wind, the boy ate lentils |
很多自然语言理解模型依赖 N 元语法来预测用户将输入或说出的下一个字词。例如,假设用户输入了“happily ever”。 基于三元语法的 NLU 模型可能会预测该用户接下来将输入“after”一词。
N 元语法与词袋(无序字词集)相对。
如需了解详情,请参阅机器学习速成课程中的大型语言模型。
R
循环神经网络
特意运行多次的神经网络,其中每次运行的部分结果会馈送到下一次运行。具体来说,上一次运行时隐藏层中的结果会作为下一次运行时相同隐藏层的部分输入。循环神经网络在评估序列时尤其有用,因此隐藏层可以根据神经网络在序列的前几部分上的前几次运行进行学习。
例如,下图显示了运行四次的循环神经网络。请注意,第一次运行时在隐藏层中学习的值将成为第二次运行时相同隐藏层的部分输入。同样,第二次运行时在隐藏层中学习的值将成为第三次运行时相同隐藏层的部分输入。通过这种方式,循环神经网络逐步训练和预测整个序列的含义,而不只是各个字词的含义。
RNN
循环神经网络的缩写。
S
序列模型
输入具有序列依赖性的模型。例如,根据之前观看过的一系列视频对观看的下一个视频进行预测。
T
时间步
循环神经网络中的“展开”单元格。例如,下图显示了三个时间步(用下标 t-1、t 和 t+1 标记):
三元语法
一种 N 元语法,其中 N=3。
V
梯度消失问题
某些深度神经网络的早期隐藏层的梯度往往会出乎意料地变得平坦(低)。梯度越来越小会导致深度神经网络中节点的权重变化越来越小,从而导致学习效果不佳或根本无法学习。存在梯度消失问题的模型很难或无法训练。长短期记忆单元格可解决此问题。
与梯度爆炸问题相对。