机器学习术语表:序列模型

本页面包含序列模型术语表。如需了解所有术语表术语,请点击此处

B

BigRAM

#seq
#language

一种 N-gram,其中 N=2。

E

爆炸渐变问题

#seq

深度神经网络(尤其是循环神经网络)中的梯度往往非常惊人。急剧的梯度通常会导致深度神经网络中每个节点权重大幅更新。

遇到爆炸渐变问题的模型会变得难以训练或无法训练。渐变裁剪可以缓解此问题。

消失梯度问题进行比较。

F

忘记登机口

#seq

长期短期内存单元的一部分,用于管理通过该单元的信息流。 忘记关口可以决定从单元格状态舍弃哪些信息。

G

渐变裁剪

#seq

一种常用机制,旨在通过在使用梯度下降法训练模型时人为限制(裁剪)梯度的最大值,来缓解爆炸渐变问题

L

长期短期内存 (LSTM)

#seq

循环神经网络中的一种单元格,用于处理手写数据、机器翻译和图像说明等应用中的数据序列。LSTM 根据 RNN 中之前单元格内的新输入和上下文来维护内部内存状态中的历史记录,从而解决在因数据序列过长而训练 RNN 时发生的消失梯度问题

LSTM

#seq

长期短期内存的缩写。

N 克

#seq
#language

N 个字词按顺序排列。例如,“真正疯狂”是 2-gram。由于顺序很重要,因此“疯狂”与“真正疯狂”是不同的 2-gram。

此类 N-gram 的名称 示例
2 Bigram 或 2-gram 外带、前往、吃午餐、吃晚餐
3 三元语法(3-gram 或 3-gram) 吃太多了、三位盲人,响铃通知
4 4 克 公园里散步、风中的灰尘、男孩吃扁豆

许多自然语言理解模型依靠 N-gram 来预测用户将输入或说出的下一个字词。例如,假设用户输入了三个盲人。基于三元语法的 NLU 模型可能会预测用户接下来将输入“鼠标”。

将 N-gram 与字词包进行对比,这些字词是无序的词集。

(右)

循环神经网络

#seq

有意运行多次的神经网络,其中每次运行的部分内容会在下一次运行时运行。具体而言,上一次运行的隐藏层会在下一次运行时向同一隐藏层提供部分输入。循环神经网络对评估序列特别有用,因此隐藏层可以从序列之前部分运行的神经网络中学习。

例如,下图显示了运行四次的循环神经网络。请注意,第一次运行时在隐藏层中学习的值将成为第二次运行时相同隐藏层的输入的一部分。同样,第二次运行时在隐藏层中学习的值将成为第三次运行时同一隐藏层的输入的一部分。通过这种方式,循环神经网络逐步训练和预测整个序列的含义,而不仅仅是各个字词的含义。

运行四次以处理四个输入字词的 RNN。

RNN

#seq

循环神经网络的缩写。

S

序列模型

#seq

输入具有依序依赖关系的模型。例如,从之前观看的一系列视频中预测下一个视频。

T

计时

#seq

循环神经网络中的一个“展开”单元。例如,下图显示了三个时间步(带有下标 t-1、t 和 t+1 标签):

循环神经网络中的三个时间步骤。第一个时间步的输出会成为第二个时间步的输入。第二个时序的输出将成为第三个时序的输入。

Trigram

#seq
#language

一种 N-gram,其中 N=3。

V

渐变问题

#seq

一些深度神经网络的早期隐藏层的渐变趋势往往会变得异常明显(低)。梯度越低,深度神经网络中节点的权重变化越小,导致几乎没有学习。遇到渐变问题消失的模型很难或无法训练。长期短期内存单元格可以解决此问题。

爆炸渐变问题进行比较。