Esta página contiene los términos del glosario de modelos de secuencias. Para ver todos los términos del glosario, haz clic aquí.
B
bigrama
Un n-grama en el que n=2.
E
problema de gradiente explosivo
La tendencia de los gradientes en las redes neuronales profundas (en especial, las redes neuronales recurrentes) a volverse sorprendentemente empinados (altos). Los gradientes pronunciados suelen causar actualizaciones muy grandes de los pesos de cada nodo en una red neuronal profunda.
Los modelos que sufren del problema del gradiente explosivo se vuelven difíciles o imposibles de entrenar. El recorte de gradientes puede mitigar este problema.
Compara con el problema de gradiente que desaparece.
F
puerta de olvido
Es la parte de una célula de memoria a largo plazo que regula el flujo de información a través de ella. Las puertas de olvido mantienen el contexto decidiendo qué información descartar del estado de la celda.
G
recorte de gradientes
Es un mecanismo de uso general para mitigar el problema del gradiente explosivo limitando artificialmente (recortando) el valor máximo de los gradientes cuando se usa el descenso de gradientes para entrenar un modelo.
L
Memoria a corto plazo de larga duración (LSTM)
Es un tipo de célula en una red neuronal recurrente que se usa para procesar secuencias de datos en aplicaciones como el reconocimiento de escritura a mano, la traducción automática y la generación de leyendas de imágenes. Las LSTM abordan el problema del gradiente que desaparece que se produce cuando se entrenan RNN debido a secuencias de datos largas, ya que mantienen el historial en un estado de memoria interna basado en la entrada y el contexto nuevos de las celdas anteriores en la RNN.
LSTM
Abreviatura de memoria a corto plazo de larga duración.
N
N-grama
Es una secuencia ordenada de n palabras. Por ejemplo, realmente loco es un 2-grama. Ya que el orden es relevante, loco realmente es un 2-grama diferente a realmente loco.
N | Nombres para este tipo de n-grama | Ejemplos |
---|---|---|
2 | bigrama o 2-grama | ir por, por ir, asar carne, asar verduras |
3 | trigrama o 3-grama | ate too much, three blind mice, the bell tolls |
4 | 4-grama | walk in the park, dust in the wind, the boy ate lentils |
Muchos modelos de comprensión del lenguaje natural se basan en n-gramas para predecir la siguiente palabra que el usuario escribirá o dirá. Por ejemplo, que un usuario escribió tres tristes. Un modelo de CLN basado en trigramas probablemente predeciría que el usuario escribirá a continuación tigres.
Compara los n-gramas con la bolsa de palabras, que son conjuntos desordenados de palabras.
R
red neuronal recurrente
Una red neuronal que se ejecuta intencionalmente varias veces, donde partes de cada ejecución se incorporan a la siguiente ejecución. Específicamente, las capas ocultas de la ejecución anterior proporcionan parte de la entrada a la misma capa oculta en la siguiente ejecución. Las redes neuronales recurrentes son particularmente útiles para evaluar secuencias, de modo que las capas ocultas puedan aprender de las ejecuciones anteriores de la red neuronal sobre partes anteriores de la secuencia.
Por ejemplo, en la siguiente figura se muestra una red neuronal recurrente que se ejecuta cuatro veces. Observa que los valores aprendidos en las capas ocultas de la primera ejecución se convierten en parte de la entrada para las mismas capas ocultas en la segunda ejecución. De manera similar, los valores aprendidos en la capa oculta en la segunda ejecución se convierten en parte de la entrada para la misma capa oculta en la tercera ejecución. De esta manera, la red neuronal recurrente entrena y predice gradualmente el significado de toda la secuencia en lugar de solo el significado de palabras individuales.
RNN
Abreviatura de redes neuronales recurrentes.
S
modelo de secuencia
Un modelo cuyas entradas tienen una dependencia secuencial. Por ejemplo, la predicción del siguiente video mirado desde una secuencia de videos mirados anteriormente.
T
paso de tiempo
Una celda “desenrollada” dentro de una red neuronal recurrente. Por ejemplo, en la siguiente figura, se muestran tres pasos de tiempo (etiquetados con los subíndices t-1, t y t+1):
trigrama
Un n-grama en el que n=3.
V
problema de gradiente que desaparece
La tendencia de los gradientes de las primeras capas ocultas de algunas redes neuronales profundas a volverse sorprendentemente planos (bajos). Los gradientes cada vez más bajos generan cambios cada vez más pequeños en los pesos de los nodos de una red neuronal profunda, lo que genera poco o ningún aprendizaje. Los modelos que sufren del problema del gradiente que desaparece se vuelven difíciles o imposibles de entrenar. Las celdas de memoria a corto plazo de larga duración abordan este problema.
Compara con el problema de gradiente explosivo.