Se usó la API de Cloud Translation para traducir esta página.

Modelos de lenguaje grandes

¿Qué es un modelo de lenguaje?

Un modelo de lenguaje estima la probabilidad de que un token o una secuencia de tokens ocurra dentro de una secuencia más larga de tokens. Un token puede ser una palabra, una subpalabra (un subconjunto de una palabra) o incluso un solo carácter.

Haz clic en el ícono para obtener más información sobre los tokens.

La mayoría de los modelos de lenguaje modernos tokenizan por subpalabras, es decir, por fragmentos de texto que contienen significado semántico. Los fragmentos pueden variar en longitud desde caracteres únicos, como la puntuación o las s posesivas a palabras completas. Los prefijos y sufijos pueden representarse como subpalabras separadas. Por ejemplo, la palabra no mirado podría representarse de la siguiente manera: tres subpalabras:

un (el prefijo)
watch (la raíz)
ed (el sufijo)

La palabra gatos podría representarse con las siguientes dos subpalabras:

cat (la raíz)
s (el sufijo)

Una palabra más compleja, como “antidisestablishmentarianism”, podría representarse como seis subpalabras:

anti
dis
establecer
mención
arian
Ismos

La tokenización es específica de cada idioma, por lo que la cantidad de caracteres por token difiere entre los idiomas. En el caso del inglés, un token corresponde a alrededor de 4 caracteres o 3/4 de una palabra, por lo que 400 tokens ~= 300 palabras en inglés.

Los tokens son la unidad atómica o la unidad más pequeña del modelado de lenguaje.

Los tokens también se aplican correctamente a la visión artificial y a la generación de audio.

Considera la siguiente oración y los tokens que podrían completarla:

When I hear rain on my roof, I _______ in my kitchen.

Un modelo de lenguaje determina las probabilidades de diferentes tokens o secuencias de tokens para completar ese espacio en blanco. Por ejemplo, los siguientes de probabilidad identifica algunos tokens posibles y sus probabilidades:

Probabilidad	Tokens
9.4%	cocinar sopa
5.2%	calentar una tetera
3.6%	acobardarse
2.5%	siesta
2.2%	relajarse

En algunos casos, la secuencia de tokens podría ser una oración completa, un párrafo o, incluso, un ensayo completo.

Una aplicación puede usar la tabla de probabilidades para hacer predicciones. La predicción puede ser la probabilidad más alta (por ejemplo, "cocinar sopa") o una selección aleatoria de tokens que tengan una probabilidad superior a un umbral determinado.

La estimación de la probabilidad de lo que completa el espacio en blanco en una secuencia de texto se puede extender a tareas más complejas, como las siguientes:

Generando texto.
Traducir texto de un idioma a otro
Resumir documentos

A través del modelado de los patrones estadísticos de los tokens, los modelos de lenguaje modernos desarrollan representaciones internas del lenguaje extremadamente poderosas y pueden generar lenguaje creíble.

Modelos de lenguaje de n-gramas

Los n-gramas son secuencias ordenadas de palabras que se usan para crear modelos de lenguaje, donde N es la cantidad de palabras de la secuencia. Por ejemplo, cuando N es 2, el n-grama se denomina 2-grama (o un bigram); cuando N es 5, el n-grama es llamado 5-grama. Dada la siguiente frase en un documento de capacitación:

you are very nice

Los 2-gramas resultantes son los siguientes:

eres
son muy
muy bien

Cuando N es 3, el n-grama se denomina 3-grama (o trigrama). Dado esa misma frase, el los 3 gramos resultantes son:

eres muy
son muy amables

Dado dos palabras como entrada, un modelo de lenguaje basado en 3-gramas puede predecir la probabilidad de la tercera palabra. Por ejemplo, dadas las siguientes dos palabras:

orange is

Un modelo de lenguaje examina todos los diferentes 3-gramas derivados de su entrenamiento corpus que comienzan con orange is para determinar la tercera palabra más probable. Cientos de 3-gramas podrían comenzar con las dos palabras orange is, pero puedes enfocarte solo en las siguientes dos posibilidades:

orange is ripe
orange is cheerful

La primera posibilidad (orange is ripe) se refiere a la fruta de la naranja, mientras que la segunda posibilidad (orange is cheerful) se trata del color de color naranja.

Contexto

Los humanos pueden retener contextos relativamente largos. Mientras miras el tercer acto de una obra, retiene el conocimiento de los caracteres introducidos en el acto 1. Del mismo modo, el remate de un chiste largo te hace reír porque puedes recordar el contexto de la introducción.

En los modelos de lenguaje, el contexto es información útil antes o después del token de destino. El contexto puede ayudar a un modelo de lenguaje a determinar si el color “naranja” se refiere a una fruta cítrica o a un color.

El contexto puede ayudar a un modelo de lenguaje a hacer mejores predicciones, pero ¿Los 3-gramas proporcionan suficiente contexto? Por desgracia, el único contexto es un 3-grama proporciona son las primeras dos palabras. Por ejemplo, las dos palabras orange is no proporcionan suficiente contexto para que el modelo de lenguaje prediga la tercera palabra. Debido a la falta de contexto, los modelos de lenguaje basados en 3-gramas cometen muchos errores.

Sin duda, los n-gramas más largos proporcionarían más contexto que los más cortos. Sin embargo, a medida que N aumenta, la ocurrencia relativa de cada instancia disminuye. Cuando N se vuelve muy grande, el modelo de lenguaje suele tener solo una instancia de cada ocurrencia de N tokens, lo que no es muy útil para predecir el token objetivo.

Redes neuronales recurrentes

Neuros recurrentes redes proporcionan más contexto que los n-gramas. Una red neuronal recurrente es un tipo de red neuronal que se entrena en una secuencia de tokens. Por ejemplo, una red neuronal recurrente puede aprender gradualmente (y aprender a ignorar) el contexto seleccionado de cada palabra. en una oración, como si escucharas hablar a alguien. Una gran red neuronal recurrente puede obtener contexto de un pasaje de varios frases.

Aunque las redes neuronales recurrentes aprenden más contexto que los n-gramas, la cantidad de contexto útil que pueden intuir las redes neuronales recurrentes sigue siendo relativamente limitada. Las redes neuronales recurrentes evalúan la información "token por token". En cambio, los modelos de lenguaje extensos, el tema de la próxima pueden evaluar todo el contexto de una sola vez.

Ten en cuenta que entrenar redes neuronales recurrentes para contextos largos se ve limitada por el gradiente desaparecido problema.

Ejercicio: Comprueba tus conocimientos

¿Qué modelo de lenguaje realiza mejores predicciones para el texto en inglés?

Un modelo de lenguaje basado en 6 gramos
Un modelo de lenguaje basado en 5-gramas

La respuesta depende del tamaño y la diversidad de la capacitación. automático.

Si el conjunto de entrenamiento abarca millones de documentos diversos, es probable que el modelo basado en 6-gramas tenga un mejor rendimiento que el modelo basado en 5-gramas.

El modelo de lenguaje basado en 6 gramos.

Este modelo de lenguaje tiene más contexto, pero, a menos que se haya entrenado con muchos documentos, la mayoría de los 6-gramas serán poco frecuentes.

El modelo de lenguaje basado en 5-gramas.

Este modelo de lenguaje tiene menos contexto, por lo que es poco probable que superan al modelo de lenguaje basado en 6 gramos.

Pon a prueba tus conocimientos (10 min)

¿Qué es un modelo de lenguaje extenso? (15 min)