Introducción a los modelos de lenguaje extensos

¿Es la primera vez que usas modelos de idiomas o modelos de idiomas grandes? Consulta los siguientes recursos.

¿Qué es un modelo de lenguaje?

Un modelo de lenguaje es un modelo de aprendizaje automático que tiene como objetivo predecir y generar el lenguaje posible. El autocompletado es un modelo de lenguaje, por ejemplo.

Estos modelos estiman la probabilidad de que se genere un token o una secuencia de tokens dentro de una secuencia más larga de tokens. Considera la siguiente oración:

When I hear rain on my roof, I _______ in my kitchen.

Si supones que un token es una palabra, un modelo de lenguaje determina las probabilidades de usar diferentes palabras o secuencias de palabras para reemplazar ese guion bajo. Por ejemplo, un modelo de lenguaje puede determinar las siguientes probabilidades:

cook soup 9.4%
warm up a kettle 5.2%
cower 3.6%
nap 2.5%
relax 2.2%
...

Una “secuencia de tokens” puede ser una oración completa o una serie de oraciones. Es decir, un modelo de lenguaje podría calcular la probabilidad de diferentes oraciones completas o bloques de texto.

Estimar la probabilidad de lo que sigue en una secuencia es útil para todo tipo de cosas: generar texto, traducir idiomas y responder preguntas, entre otras.

¿Qué es un modelo de lenguaje grande?

Modelar lenguaje humano a gran escala es un esfuerzo muy complejo que consume muchos recursos. La ruta para alcanzar las capacidades actuales de los modelos de lenguaje y los modelos de lenguaje grandes ha abarcado varias décadas.

A medida que aumenta la escala de los modelos, aumentan su complejidad y eficacia. Los primeros modelos de lenguaje podrían predecir la probabilidad de una sola palabra; los modernos modelos de lenguaje grande pueden predecir la probabilidad de oraciones, párrafos o, incluso, documentos completos.

El tamaño y la capacidad de los modelos de lenguaje explotaron en los últimos años a medida que aumenta la memoria de la computadora, el tamaño del conjunto de datos y la potencia de procesamiento, y se desarrollan técnicas más eficaces para modelar secuencias de texto más largas.

¿De qué tamaño es grande?

La definición es confusa, pero se usó "large" para describir BERT (parámetros de 110 millones) y PaLM 2 (hasta 340,000 millones de parámetros).

Los parámetros son los pesos que aprendió el modelo durante el entrenamiento y se usaron para predecir el siguiente token en la secuencia. “Grande” puede referirse a la cantidad de parámetros del modelo o, a veces, a la cantidad de palabras en el conjunto de datos.

Transformer

Un desarrollo clave en el modelado del lenguaje fue la introducción en 2017 de los transformadores, una arquitectura diseñada en torno a la idea de atención. Esto permitió procesar secuencias más largas enfocándote en la parte más importante de la entrada y solucionando los problemas de memoria que se encontraron en los modelos anteriores.

Los transformadores son la arquitectura de vanguardia para una amplia variedad de aplicaciones de modelos de lenguaje, como traductores.

Si la entrada es "Soy un buen perro", un traductor basado en transformaciones transforma esa entrada en el resultado "Je suis un bon chien.", que es la misma oración traducida al francés.

Los Transformers completos consisten en un codificador y un codificador. Un codificador convierte el texto de entrada en una representación intermedia, y un decodificador convierte esa representación intermedia en texto útil.

Autoatención

Los transformadores dependen en gran medida de un concepto llamado autoatención. La parte propia de la atención es la concentración “egocéntrica” de cada token en un corpus. De hecho, en nombre de cada token de entrada, la autoatención se pregunta: "¿Cuánto vale cada uno de estos tokens de entrada para me?" Para simplificar el asunto, supongamos que cada token es una palabra y el contexto completo es una sola oración. Considera la siguiente oración:

El animal no cruzó la calle porque estaba muy cansado.

En la oración anterior, hay 11 palabras, por lo que cada una de ellas le presta atención a las otras diez y se pregunta cuál es la importancia de cada una de ellas. Por ejemplo, observe que la oración contiene el pronombre it. Los pronombres suelen ser ambiguos. El pronombre it siempre se refiere a un sustantivo reciente, pero en la oración de ejemplo, ¿a qué sustantivo reciente se refiere a el animal o a la calle?

El mecanismo de autoatención determina la relevancia de cada palabra cercana para el pronombre it.

¿Cuáles son algunos casos de uso de los LLM?

Los LLM son muy eficaces en la tarea para la que se crearon, lo que genera el texto más razonable en respuesta a una entrada. Además, están comenzando a mostrar un rendimiento sólido en otras tareas, por ejemplo, resumen, respuesta de preguntas y clasificación de texto. que se denominan habilidades emergentes. Los LLM incluso pueden resolver algunos problemas matemáticos y escribir código (aunque se recomienda verificar su trabajo).

Los LLM son excelentes para imitar patrones del habla humanos. Entre otras cosas, son excelentes para combinar información con diferentes estilos y tonos.

Sin embargo, los LLM pueden ser componentes de modelos que hacen más que solo generar texto. Se usaron LLM recientes para compilar detectores de opiniones, clasificadores de toxicidad y subtítulos de imágenes.

Consideraciones de LLM

Los modelos de este tamaño no tienen sus desventajas.

Los LLM más grandes son costosos. Pueden tardar meses en entrenarse y, como resultado, consumen muchos recursos.

También pueden reutilizarse para otras tareas, un valioso aspecto positivo.

Los modelos de entrenamiento con más de un billón de parámetros crean desafíos de ingeniería. Se requieren técnicas especiales de infraestructura y programación para coordinar el flujo de chips y regresar.

Existen formas de mitigar los costos de estos modelos grandes. Dos enfoques son la inferencia sin conexión y la destilación.

El sesgo puede ser un problema en modelos muy grandes y debe considerarse en el entrenamiento y la implementación.

Como estos modelos se entrenan con lenguaje humano, pueden presentarse varios problemas éticos potenciales, incluido el uso inadecuado del lenguaje y el sesgo racial, de género y religión, entre otros.

Debe quedar claro que, a medida que estos modelos se vuelven más grandes y funcionan mejor, es necesario ser diligente para comprender y mitigar sus desventajas. Obtén más información sobre el enfoque de Google para la IA responsable.