Glossário de machine learning: modelos de sequência

Esta página contém os termos do glossário de modelos de sequência. Para conferir todos os termos do glossário, clique aqui.

B

bigram

#seq
#language

Um n-grama em que N=2.

E

Problema de gradiente em explosão

#seq

A tendência de gradientes em redes neurais profundas (especialmente redes neurais recorrentes) se tornar surpreendentemente íngremes (altos). Gradientes íngremes geralmente causam atualizações muito grandes nos pesos de cada em uma rede neural profunda.

Os modelos que sofrem com o problema de gradiente explosivo ficam difíceis ou impossíveis de treinar. O clipping de gradiente pode reduzir esse problema.

Compare com o problema de gradiente de desaparecimento.

F

esquecer a porta

#seq

A parte de uma célula de memória de curto prazo que regula o fluxo de informações pela célula. As portas de esquecimento mantêm o contexto decidindo quais informações descartar do estado da célula.

G

truncamento de gradiente

#seq

Um mecanismo usado com frequência para atenuar o problema de gradiente explosivo limitando artificialmente o valor máximo de gradientes ao usar o gradiente descendente para treinar um modelo.

L

Memória de longo e curto prazo (LSTM)

#seq

Um tipo de célula em uma rede neural recorrente usada para processar sequências de dados em aplicativos como reconhecimento de escrita à mão, tradução automática e legenda de imagens. As LSTMs resolvem o problema de gradiente de desaparecimento que ocorre ao treinar RNNs devido a longas sequências de dados, mantendo o histórico em um estado de memória interna com base em novas entradas e no contexto de células anteriores na RNN.

LSTM

#seq

Abreviação de memória de curto prazo longa.

N

N-gram

#seq
#language

Uma sequência ordenada de N palavras. Por exemplo, truly madly é um bigrama. Como a ordem é relevante, madly truly é um bigrama diferente de truly madly.

N Nome(s) para esse tipo de n-grama Exemplos
2 bigram ou bigrama to go, go to, eat lunch, eat dinner
3 trigrama ou trigrama comeu demais, três ratinhos cegos, a campainha toca
4 4 gramas walk in the park, dust in the wind, the boy ate lentils

Muitos modelos de processamento de linguagem natural dependem de N-gramas para prever a próxima palavra que o usuário vai digitar ou dizer. Por exemplo, suponha que um usuário digitou three blind. Um modelo PLN baseado em trigramas provavelmente vai prever que o usuário vai digitar mice em seguida.

Compare os n-gramas com a bolsa de palavras, que são conjuntos não ordenados de palavras.

R

rede neural recorrente

#seq

Uma rede neural que é executada intencionalmente várias vezes, em que partes de cada execução alimentam a próxima. Especificamente, as camadas ocultas da execução anterior fornecem parte da entrada para a mesma camada oculta na próxima execução. As redes neurais recorrentes são particularmente úteis para avaliar sequências, para que as camadas ocultas possam aprender com execuções anteriores da rede neural em partes anteriores da sequência.

Por exemplo, a figura a seguir mostra uma rede neural recorrente que é executada quatro vezes. Os valores aprendidos nas camadas ocultas da primeira execução se tornam parte da entrada para as mesmas camadas ocultas na segunda execução. Da mesma forma, os valores aprendidos na camada oculta na segunda execução passam a fazer parte da entrada para a mesma camada oculta na terceira execução. Dessa forma, a rede neural recorrente treina e prevê gradualmente o significado de toda a sequência, em vez de apenas o significado de palavras individuais.

Uma RNN que é executada quatro vezes para processar quatro palavras de entrada.

RNN

#seq

Abreviação de redes neurais recorrentes.

S

modelo sequencial

#seq

Um modelo em que as entradas têm uma dependência sequencial. Por exemplo, prever o próximo vídeo assistido em uma sequência de vídeos assistidos anteriormente.

T

timestep

#seq

Uma célula "desdobrada" em uma rede neural recorrente. Por exemplo, a figura a seguir mostra três etapas de tempo (rotuladas com os índices t-1, t e t+1):

Três intervalos de tempo em uma rede neural recorrente. A saída do primeiro intervalo de tempo se torna a entrada do segundo. A saída
          do segundo intervalo de tempo se torna a entrada do terceiro.

trigrama

#seq
#language

Um n-grama em que N=3.

V

problema de gradiente evanescente

#seq

A tendência de os gradientes das primeiras camadas ocultas de algumas redes neurais profundas se tornarem surpreendentemente planos (baixos). Gradientes cada vez menores resultam em mudanças cada vez menores nos pesos dos nós em uma rede neural profunda, levando a pouco ou nenhum aprendizado. Os modelos que sofrem com o problema de gradiente de dissipação se tornam difíceis ou impossíveis de treinar. As células Memória de curto prazo longa resolvem esse problema.

Compare com o problema de gradiente de explosão.