Glosario sobre aprendizaje automático: modelos de secuencia

Esta página contiene los términos del glosario de los modelos de secuencia. Para ver todos los términos del glosario, haz clic aquí.

B

bigrama

#seq
#language

N-grama en el que N=2.

E

problema con gradiente con alto crecimiento

#seq

La tendencia de los gradientes en las redes neuronales profundas (en especial, las redes neuronales recurrentes) a fin de ser sorprendentemente empinadas (altas) Los gradientes empinados suelen generar actualizaciones muy grandes en los pesos de cada nodo en una red neuronal profunda.

Los modelos que sufren el problema del gradiente con alto crecimiento se vuelven difíciles o imposibles de entrenar. El recorte de gradientes puede mitigar este problema.

Compara esto con el problema de desvanecimiento del gradiente.

V

olvidar puerta

#seq

Porción de una celda de memoria a largo plazo que regula el flujo de información a través de la celda. Olvídate de las puertas para mantener el contexto. Para ello, decide qué información descartar del estado de celda.

G

recorte de gradientes

#seq

Es un mecanismo de uso general para mitigar el problema de gradiente con alto crecimiento mediante la limitación (recortada) artificial del valor máximo de las gradientes cuando se usa el descenso de gradientes para entrenar un modelo.

L

Memoria a corto plazo (LSTM)

#seq

Tipo de celda en una red neuronal recurrente que se usa para procesar secuencias de datos en aplicaciones como reconocimiento de escritura a mano, traducción automática y subtitulado de imágenes. Los LSTM abordan el problema de desvanecimiento del gradiente que se produce cuando se entrenan las RNN debido a secuencias de datos largas manteniendo el historial en un estado de memoria interna basado en la entrada y el contexto nuevos de las celdas anteriores en la RNN.

LSTM

#seq

Abreviatura de memoria a largo plazo.

N

N-grama

#seq
#language

Secuencia ordenada de N palabras. Por ejemplo, realmente loco es un 2-grama. Ya que el orden es relevante, loco realmente es un 2-grama diferente a realmente loco.

N Nombres para este tipo de n-grama Ejemplos
2 bigrama o 2-grama para llevar, ir a comer, a comer, a cenar
3 trigrama o 3-grama comemos demasiado, tres ratones ciegos, el peaje de la campana
4 4-grama caminar en el parque, limpiar el viento, el niño comió lentejas

Muchos modelos de comprensión del lenguaje natural se basan en n.-gramas para predecir la siguiente palabra que el usuario escribirá o dirá. Por ejemplo, supongamos que un usuario escribió tres tristes. Un modelo CLN basado en trigramas probablemente predeciría que el usuario escribirá a continuación tigres.

Compara los n-gramas con la bolsa de palabras, que son conjuntos de palabras sin ordenar.

(der.)

red neuronal recurrente (recurrent neural network)

#seq

Red neuronal que se ejecuta intencionalmente varias veces, donde partes de cada ejecución se incorporan a la siguiente ejecución. Específicamente, las capas ocultas de la ejecución anterior proporcionan parte de la entrada a la misma capa oculta en la siguiente ejecución. Las redes neuronales recurrentes son particularmente útiles para evaluar secuencias, de modo que las capas ocultas puedan aprender de las ejecuciones anteriores de la red neuronal en partes anteriores de la secuencia.

Por ejemplo, en la siguiente figura, se muestra una red neuronal recurrente que se ejecuta cuatro veces. Ten en cuenta que los valores aprendidos en las capas ocultas de la primera ejecución se convierten en parte de la entrada para las mismas capas ocultas en la segunda ejecución. De manera similar, los valores aprendidos en la capa oculta en la segunda ejecución se convierten en parte de la entrada para la misma capa oculta en la tercera ejecución. De esta manera, la red neuronal recurrente entrena y predice gradualmente el significado de toda la secuencia en lugar de solo el significado de palabras individuales.

Una RNN que se ejecuta cuatro veces para procesar cuatro palabras de entrada.

RNN

#seq

Abreviatura de redes neuronales recurrentes.

S

modelo de secuencia

#seq

Un modelo cuyas entradas tienen una dependencia secuencial. Por ejemplo, predecir el próximo video que miraste a partir de una secuencia de videos que ya miraste.

T

paso de tiempo

#seq

Una celda "desenrollada" dentro de una red neuronal recurrente Por ejemplo, la siguiente figura muestra tres pasos temporales (etiquetados con los subíndices t-1, t y t+1):

Tres pasos en una red neuronal recurrente. La salida del primer paso se convierte en el segundo. La salida del segundo paso de tiempo se convierte en el tercer paso de tiempo.

trigrama (trigram)

#seq
#language

N-grama en el que n=3.

V

problema de desvanecimiento del gradiente

#seq

Tendencia de los gradientes de las capas ocultas tempranas de algunas redes neuronales profundas para volverse sorprendentemente planas (bajas) Los gradientes cada vez más bajos dan como resultado cambios cada vez más pequeños en los pesos de los nodos en una red neuronal profunda, lo que genera poco o ningún aprendizaje. Los modelos que sufren el problema de desvanecimiento del gradiente se vuelven difíciles o imposibles de entrenar. Las celdas de memoria a corto plazo abordan este problema.

Compara esto con el problema de gradiente con alto crecimiento.