На этой странице содержатся термины глоссария моделей последовательностей. Чтобы просмотреть все термины глоссария, нажмите здесь .
Б
биграмма
N-грамма , в которой N=2.
Э
проблема взрывающегося градиента
Тенденция градиентов в глубоких нейронных сетях (особенно в рекуррентных нейронных сетях ) становиться удивительно крутыми (высокими). Крутые градиенты часто вызывают очень большие обновления весов каждого узла в глубокой нейронной сети.
Модели, страдающие от проблемы взрывного градиента, становится трудно или невозможно обучать. Градиентное отсечение может решить эту проблему.
Сравните с проблемой исчезающего градиента .
Ф
забыть ворота
Часть ячейки долговременной краткосрочной памяти , регулирующая поток информации через клетку. Ворота забывания поддерживают контекст, решая, какую информацию следует исключить из состояния ячейки.
г
градиентная обрезка
Часто используемый механизм для смягчения проблемы взрывающегося градиента путем искусственного ограничения (обрезания) максимального значения градиентов при использовании градиентного спуска для обучения модели.
л
Длинная краткосрочная память (LSTM)
Тип ячейки в рекуррентной нейронной сети, используемый для обработки последовательностей данных в таких приложениях, как распознавание рукописного текста, машинный перевод и создание титров к изображениям. LSTM решают проблему исчезновения градиента , которая возникает при обучении RNN из-за длинных последовательностей данных, путем сохранения истории в состоянии внутренней памяти на основе новых входных данных и контекста из предыдущих ячеек в RNN.
ЛСТМ
Аббревиатура для долговременной кратковременной памяти .
Н
N-грамм
Упорядоченная последовательность из N слов. Например, по-настоящему безумно — это 2-граммовые. Поскольку порядок важен, «безумно по-настоящему» — это разные 2 грамма, чем «по-настоящему безумно» .
Н | Имена для этого типа N-граммы | Примеры |
---|---|---|
2 | биграмм или 2-грамма | пойти, пойти, пообедать, поужинать |
3 | триграмма или 3-грамма | слишком много съел, три слепые мыши, звонит колокол |
4 | 4-граммовый | прогулка в парке, пыль на ветру, мальчик съел чечевицу |
Многие модели понимания естественного языка полагаются на N-граммы, чтобы предсказать следующее слово, которое пользователь напечатает или скажет. Например, предположим, что пользователь набрал три слепых . Модель NLU, основанная на триграммах, скорее всего, предскажет, что следующим пользователем будут мыши .
Сравните N-граммы с мешком слов , которые представляют собой неупорядоченные наборы слов.
р
рекуррентная нейронная сеть
Нейронная сеть , которая намеренно запускается несколько раз, где части каждого запуска передаются в следующий запуск. В частности, скрытые слои из предыдущего запуска предоставляют часть входных данных для того же скрытого слоя в следующем запуске. Рекуррентные нейронные сети особенно полезны для оценки последовательностей, так что скрытые слои могут учиться на предыдущих запусках нейронной сети на более ранних частях последовательности.
Например, на следующем рисунке показана рекуррентная нейронная сеть, которая запускается четыре раза. Обратите внимание, что значения, полученные в скрытых слоях при первом запуске, становятся частью входных данных для тех же скрытых слоев при втором запуске. Аналогично, значения, полученные в скрытом слое при втором прогоне, становятся частью входных данных для того же скрытого слоя при третьем прогоне. Таким образом, рекуррентная нейронная сеть постепенно обучается и предсказывает значение всей последовательности, а не только значения отдельных слов.
РНН
Аббревиатура для рекуррентных нейронных сетей .
С
модель последовательности
Модель, входные данные которой имеют последовательную зависимость. Например, прогнозирование следующего просмотренного видео на основе последовательности ранее просмотренных видеороликов.
Т
шаг времени
Одна «развернутая» ячейка в рекуррентной нейронной сети . Например, на следующем рисунке показаны три временных шага (отмечены индексами t-1, t и t+1):
триграмма
N-грамма , в которой N=3.
В
проблема исчезающего градиента
Тенденция градиентов ранних скрытых слоев некоторых глубоких нейронных сетей становиться на удивление плоскими (низкими). Все более низкие градиенты приводят к все меньшим изменениям весов узлов в глубокой нейронной сети, что приводит к незначительному обучению или его отсутствию. Модели, страдающие от проблемы исчезающего градиента, становится трудно или невозможно обучать. Ячейки долговременной памяти решают эту проблему.
Сравните с проблемой взрывающегося градиента .