Glossário de machine learning: modelos de sequência

Nesta página, você encontra os termos do glossário sobre modelos de sequência. Para ver todos os termos do glossário, clique aqui.

B

bigrama

#seq
#language

Um N-grama em que N=2.

E

problema de gradientes explosivos

#seq

A tendência de gradientes em redes neurais profundas (especialmente redes neurais recorrentes) de se tornar surpreendentemente íngreme (alta). Gradientes íngremes geralmente causam atualizações muito grandes nos pesos de cada em uma rede neural profunda.

Modelos que sofrem com o problema do gradiente em explosão tornam-se difíceis ou impossíveis de treinar. O recorte de gradiente pode reduzir esse problema.

Compare com o problema do gradiente desaparecido.

F

esquecer a porta

#seq

A parte de uma célula de memória de curto prazo que regula o fluxo de informações pela célula. As portas de esquecimento mantêm o contexto decidindo quais informações descartar do estado da célula.

G

truncamento de gradiente

#seq

Um mecanismo usado com frequência para atenuar o problema do gradiente explosivo por meio da limitação artificial (recorte) do valor máximo dos gradientes ao usar o gradiente descendente para treinar um modelo.

L

Memória de longo e curto prazo (LSTM, na sigla em inglês)

#seq

Um tipo de célula em uma rede neural recorrente usada para processar sequências de dados em aplicativos como reconhecimento de escrita manual, tradução automática e legendagem de imagens. Os LSTMs resolvem o problema do gradiente desaparecido que ocorre ao treinar RNNs devido a longas sequências de dados, mantendo o histórico em um estado de memória interna com base na nova entrada e no contexto de células anteriores na RNN.

LSTM

#seq

Abreviação de Memória de longo e curto prazo.

N

N-grama

#seq
#language

Uma sequência ordenada de N palavras. Por exemplo, verdadeiramente maluco é um grama de 2 gramas. Como a ordem é relevante, de verdade é um 2 grama diferente do que realmente loucamente.

N Nomes para este tipo de n-grama Exemplos
2 bigrama ou 2-grama ir, almoçar, jantar
3 trigrama ou 3-gramas comeu demais, três ratos cegos, o sino gira
4 4 gramas caminhar no parque, poeira ao vento, o menino comeu lentilhas

Muitos modelos de compreensão de linguagem natural dependem de N-gramas para prever a próxima palavra que o usuário digitará ou dirá. Por exemplo, suponha que um usuário digite três cegos. Um modelo PLN baseado em trigramas provavelmente prevê que o usuário digitará ratos em seguida.

Compare N-gramas com bag of words, que são conjuntos de palavras não ordenados.

R

rede neural recorrente

#seq

Uma rede neural que é executada intencionalmente várias vezes, em que partes de cada execução alimentam a próxima execução. Especificamente, camadas escondidas da execução anterior fornecem parte da entrada para a mesma camada escondida na próxima execução. As redes neurais recorrentes são particularmente úteis na avaliação de sequências, para que as camadas escondidas possam aprender com execuções anteriores da rede neural em partes anteriores da sequência.

Por exemplo, a figura a seguir mostra uma rede neural recorrente que é executada quatro vezes. Os valores aprendidos nas camadas escondidas da primeira execução se tornam parte da entrada para as mesmas camadas escondidas na segunda execução. Da mesma forma, os valores aprendidos na camada escondida na segunda execução se tornam parte da entrada para a mesma camada escondida na terceira execução. Dessa forma, a rede neural recorrente treina gradualmente e prevê o significado de toda a sequência, em vez de apenas o de palavras individuais.

Uma RNN executada quatro vezes para processar quatro palavras de entrada.

RNN

#seq

Abreviação de redes neurais recorrentes (link em inglês).

S

modelo sequencial

#seq

Um modelo com entradas que têm uma dependência sequencial. Por exemplo, prever o próximo vídeo assistido em uma sequência de vídeos assistidos anteriormente.

T

intervalo de tempo

#seq

Uma célula "desenrolada" dentro de uma rede neural recorrente. Por exemplo, a figura a seguir mostra três etapas de tempo (rotuladas com os subscritos t-1, t e t+1):

Três etapas de tempo em uma rede neural recorrente. A saída da primeira etapa de tempo se torna a entrada para a segunda etapa. A saída da segunda etapa de tempo se torna a entrada para a terceira.

trigrama

#seq
#language

Um N-grama em que N=3.

V

problema de gradiente de fuga

#seq

A tendência dos gradientes das primeiras camadas escondidas de algumas redes neurais profundas de se tornarem surpreendentemente planos (baixas). Gradientes cada vez menores resultam em mudanças cada vez menores nos pesos dos nós em uma rede neural profunda, levando a pouco ou nenhum aprendizado. Os modelos que sofrem com o problema do gradiente que desaparecem se tornam difíceis ou impossíveis de treinar. As células de memória de curto prazo de longo prazo resolvem esse problema.

Compare com o problema do gradiente em explosão.