Глоссарий машинного обучения: модели последовательностей

На этой странице содержатся термины глоссария моделей последовательностей. Чтобы просмотреть все термины глоссария, нажмите здесь .

Б

биграмма

#seq
#язык

N-грамма , в которой N=2.

Э

проблема взрывающегося градиента

#seq

Тенденция градиентов в глубоких нейронных сетях (особенно в рекуррентных нейронных сетях ) становиться удивительно крутыми (высокими). Крутые градиенты часто вызывают очень большие обновления весов каждого узла в глубокой нейронной сети.

Модели, страдающие от проблемы взрывного градиента, становится трудно или невозможно обучать. Градиентное отсечение может решить эту проблему.

Сравните с проблемой исчезающего градиента .

Ф

забыть ворота

#seq

Часть ячейки долговременной краткосрочной памяти , регулирующая поток информации через клетку. Ворота забывания поддерживают контекст, решая, какую информацию следует исключить из состояния ячейки.

г

градиентная обрезка

#seq

Часто используемый механизм для смягчения проблемы взрывающегося градиента путем искусственного ограничения (обрезания) максимального значения градиентов при использовании градиентного спуска для обучения модели.

л

Длинная краткосрочная память (LSTM)

#seq

Тип ячейки в рекуррентной нейронной сети, используемый для обработки последовательностей данных в таких приложениях, как распознавание рукописного текста, машинный перевод и создание титров к изображениям. LSTM решают проблему исчезновения градиента , которая возникает при обучении RNN из-за длинных последовательностей данных, путем сохранения истории в состоянии внутренней памяти на основе новых входных данных и контекста из предыдущих ячеек в RNN.

ЛСТМ

#seq

Аббревиатура для долговременной кратковременной памяти .

Н

N-грамм

#seq
#язык

Упорядоченная последовательность из N слов. Например, по-настоящему безумно — это 2-граммовые. Поскольку порядок важен, «безумно по-настоящему» — это разные 2 грамма, чем «по-настоящему безумно» .

Н Имена для этого типа N-граммы Примеры
2 биграмм или 2-грамма пойти, пойти, пообедать, поужинать
3 триграмма или 3-грамма слишком много съел, три слепые мыши, звонит колокол
4 4-граммовый прогулка в парке, пыль на ветру, мальчик съел чечевицу

Многие модели понимания естественного языка полагаются на N-граммы, чтобы предсказать следующее слово, которое пользователь напечатает или скажет. Например, предположим, что пользователь набрал три слепых . Модель NLU, основанная на триграммах, скорее всего, предскажет, что следующим пользователем будут мыши .

Сравните N-граммы с мешком слов , которые представляют собой неупорядоченные наборы слов.

р

рекуррентная нейронная сеть

#seq

Нейронная сеть , которая намеренно запускается несколько раз, где части каждого запуска передаются в следующий запуск. В частности, скрытые слои из предыдущего запуска предоставляют часть входных данных для того же скрытого слоя в следующем запуске. Рекуррентные нейронные сети особенно полезны для оценки последовательностей, так что скрытые слои могут учиться на предыдущих запусках нейронной сети на более ранних частях последовательности.

Например, на следующем рисунке показана рекуррентная нейронная сеть, которая запускается четыре раза. Обратите внимание, что значения, полученные в скрытых слоях при первом запуске, становятся частью входных данных для тех же скрытых слоев при втором запуске. Аналогично, значения, полученные в скрытом слое при втором прогоне, становятся частью входных данных для того же скрытого слоя при третьем прогоне. Таким образом, рекуррентная нейронная сеть постепенно обучается и предсказывает значение всей последовательности, а не только значения отдельных слов.

RNN, которая запускается четыре раза для обработки четырех входных слов.

РНН

#seq

Аббревиатура для рекуррентных нейронных сетей .

С

модель последовательности

#seq

Модель, входные данные которой имеют последовательную зависимость. Например, прогнозирование следующего просмотренного видео на основе последовательности ранее просмотренных видеороликов.

Т

шаг времени

#seq

Одна «развернутая» ячейка в рекуррентной нейронной сети . Например, на следующем рисунке показаны три временных шага (отмечены индексами t-1, t и t+1):

Три временных шага в рекуррентной нейронной сети. Выходные данные первого временного шага становятся входными данными для второго временного шага. Выходные данные второго временного шага становятся входными данными для третьего временного шага.

триграмма

#seq
#язык

N-грамма , в которой N=3.

В

проблема исчезающего градиента

#seq

Тенденция градиентов ранних скрытых слоев некоторых глубоких нейронных сетей становиться на удивление плоскими (низкими). Все более низкие градиенты приводят к все меньшим изменениям весов узлов в глубокой нейронной сети, что приводит к незначительному обучению или его отсутствию. Модели, страдающие от проблемы исчезающего градиента, становится трудно или невозможно обучать. Ячейки долговременной памяти решают эту проблему.

Сравните с проблемой взрывающегося градиента .