Glosario de aprendizaje automático: IA generativa

Esta página contiene los términos del glosario de IA generativa. Para ver todos los términos del glosario, haz clic aquí.

A

modelo de regresión automático

#language
#image
#IAgenerativa

model que infiere una predicción a partir de sus propias predicciones anteriores. Por ejemplo, los modelos de lenguaje de regresión automática predicen el siguiente token según los tokens que se predijeron con anterioridad. Todos los modelos grandes de lenguaje basados en Transformer son de regresión automática.

Por el contrario, los modelos de imagen basados en GAN no suelen ser autorregresivos, ya que generan una imagen en un solo pase hacia delante y no de manera iterativa en pasos. Sin embargo, algunos modelos de generación de imágenes son de regresión automáticos porque generan una imagen en pasos.

C

cadena de pensamientos

#language
#IAgenerativa

Es una técnica de ingeniería de instrucciones que fomenta que un modelo grande de lenguaje (LLM) explique su razonamiento, paso a paso. Por ejemplo, considera la siguiente instrucción y presta especial atención a la segunda oración:

¿Cuántas fuerzas g experimentaría un conductor en un automóvil que va de 0 a 96 kilómetros por hora en 7 segundos? En la respuesta, muestra todos los cálculos relevantes.

Es probable que la respuesta del LLM tenga las siguientes características:

  • Muestra una secuencia de fórmulas físicas, ingresando los valores 0, 60 y 7 en los lugares adecuados.
  • Explica por qué eligió esas fórmulas y qué significan las distintas variables.

La indicación de cadena de pensamiento fuerza al LLM a realizar todos los cálculos, lo que podría conducir a una respuesta más correcta. Además, las indicaciones de cadena de pensamientos permiten al usuario examinar los pasos del LLM para determinar si la respuesta tiene sentido o no.

chatear

#language
#IAgenerativa

El contenido de un diálogo de ida y vuelta con un sistema de AA, por lo general, un modelo grande de lenguaje. La interacción anterior en un chat (lo que escribiste y cómo respondió el modelo de lenguaje extenso) se convierte en el contexto para las partes posteriores del chat.

Un chatbot es una aplicación de un modelo grande de lenguaje.

incorporación de lenguaje contextualizada

#language
#IAgenerativa

Una incorporación que se acerca a la "comprensión" de palabras y frases en formas en que los hablantes humanos nativos pueden hacerlo. Las incorporaciones de lenguaje contextualizado pueden comprender sintaxis, semántica y contexto complejos.

Por ejemplo, considera la incorporación de la palabra en inglés cow. Las incorporaciones más antiguas, como word2vec, pueden representar palabras en inglés, de modo que la distancia en el espacio de incorporación de vaca a toro sea similar a la distancia entre ewe (oveja hembra) y carnero (oveja macho) o de female a male. Las incorporaciones de lenguaje contextualizado pueden ir un paso más allá, ya que pueden reconocer que los angloparlantes a veces usan de manera casual la palabra vaca para referirse a la vaca o el toro.

ventana de contexto

#language
#IAgenerativa

La cantidad de tokens que un modelo puede procesar en una instrucción determinada. Cuanto más grande sea la ventana de contexto, más información podrá usar el modelo para proporcionar respuestas coherentes a la instrucción.

D

mensajes directos

#language
#IAgenerativa

Sinónimo de instrucción sin ejemplos.

síntesis

#IAgenerativa

Es el proceso de reducir el tamaño de un model (conocido como model) a un modelo más pequeño (conocido como model) que emula las predicciones del modelo original con la mayor fidelidad posible. La síntesis es útil porque el modelo más pequeño tiene dos beneficios clave en comparación con el modelo más grande (el profesor):

  • Tiempo de inferencia más rápido
  • Memoria y uso de energía reducidos

Sin embargo, las predicciones del estudiante generalmente no son tan buenas como las del profesor.

La síntesis entrena al modelo estudiante para minimizar una función de pérdida basada en la diferencia entre los resultados de las predicciones de los modelos estudiante y profesor.

Compara y contrasta la síntesis con los siguientes términos:

F

instrucciones con ejemplos limitados

#language
#IAgenerativa

Una instrucción que contiene más de un ejemplo (unos “pocos”) ejemplos que demuestran cómo debe responder el modelo grande de lenguaje. Por ejemplo, la siguiente instrucción larga contiene dos ejemplos que muestran un modelo de lenguaje extenso cómo responder a una consulta.

Partes de un mensaje Notas
¿Cuál es la moneda oficial del país especificado? La pregunta que quieres que responda el LLM.
Francia: EUR Un ejemplo:
Reino Unido: GBP Otro ejemplo.
India: Es la consulta real.

Las instrucciones con ejemplos limitados suelen producir más resultados deseables que las instrucciones sin ejemplos y las instrucciones con un solo ejemplo. Sin embargo, las instrucciones con ejemplos limitados requieren una instrucción más larga.

Las instrucciones con ejemplos limitados son una forma de aprendizaje con ejemplos limitados que se aplica al aprendizaje basado en instrucciones.

ajuste

#language
#image
#IAgenerativa

Un segundo pase de entrenamiento específico para una tarea que se realiza en un modelo previamente entrenado a fin de definir mejor sus parámetros para un caso de uso específico. Por ejemplo, la secuencia de entrenamiento completa para algunos modelos grandes de lenguaje es la siguiente:

  1. Entrenamiento previo: Entrena un modelo grande de lenguaje con un amplio conjunto de datos general, como todas las páginas de Wikipedia en inglés.
  2. Ajuste: Entrena el modelo previamente entrenado para que realice una tarea específica, como responder consultas médicas. Por lo general, el ajuste implica cientos o miles de ejemplos centrados en la tarea específica.

Como otro ejemplo, la secuencia de entrenamiento completa para un modelo de imagen grande es la siguiente:

  1. Entrenamiento previo: Entrena un modelo grande de imágenes con un amplio conjunto de datos general de imágenes, como todas las imágenes de Wikimedia Commons.
  2. Ajuste: Entrena el modelo previamente entrenado para que realice una tarea específica, como generar imágenes de orcas.

La optimización puede implicar cualquier combinación de las siguientes estrategias:

  • Modificar todos los parámetros existentes del modelo previamente entrenado A veces, esto se denomina ajuste completo.
  • Modificar solo algunos de los parámetros existentes del modelo previamente entrenado (por lo general, las capas más cercanas a la capa de salida) y mantener otros parámetros existentes sin cambios (por lo general, las capas más cercanas a la capa de entrada) Consulta Ajuste eficiente de parámetros.
  • Agregar más capas, por lo general, sobre las capas existentes más cercanas a la capa de salida

El ajuste es una forma de aprendizaje por transferencia. Por lo tanto, el ajuste podría usar una función de pérdida diferente o un tipo de modelo diferente a los que se usan para entrenar el modelo previamente entrenado. Por ejemplo, puedes ajustar un modelo de imagen grande previamente entrenado para producir un modelo de regresión que devuelva la cantidad de aves en una imagen de entrada.

Compara y contrasta el ajuste con los siguientes términos:

G

IA generativa

#language
#image
#IAgenerativa

Un campo transformador emergente sin definición formal. Dicho esto, la mayoría de los expertos coinciden en que los modelos de IA generativa pueden crear ("generar") contenido que acoge lo siguiente:

  • complejo
  • coherente
  • original

Por ejemplo, un modelo de IA generativa puede crear imágenes o ensayos sofisticados.

Algunas tecnologías anteriores, como las LSTM y las RNN, también pueden generar contenido original y coherente. Algunos expertos consideran estas tecnologías anteriores como IA generativa, mientras que otros consideran que la IA generativa real requiere resultados más complejos de los que pueden producir esas tecnologías anteriores.

Compara esto con el AA predictivo.

I

aprendizaje en contexto

#language
#IAgenerativa

Sinónimo de instrucciones con ejemplos limitados.

ajuste de instrucciones

#IAgenerativa

Una forma de ajuste que mejora la capacidad de un modelo de IA generativa para seguir las instrucciones. El ajuste de instrucciones implica entrenar un modelo en una serie de instrucciones que, por lo general, cubren una amplia variedad de tareas. El modelo ajustado con instrucciones resultante tiende a generar respuestas útiles a las instrucciones sin ejemplos en una variedad de tareas.

Comparar y contrastar con:

L

LoRA

#language
#IAgenerativa

Abreviatura de adaptabilidad de bajo rango.

Adaptabilidad de bajo rango (LoRA)

#language
#IAgenerativa

Algoritmo para realizar un ajuste eficiente de los parámetros que ajusta solo un subconjunto de los parámetros de un modelo grande de lenguaje. LoRA proporciona los siguientes beneficios:

  • Se ajusta más rápido que las técnicas que requieren el ajuste de todos los parámetros de un modelo.
  • Se reduce el costo de procesamiento de la inferencia en el modelo ajustado.

Un modelo ajustado con LoRA mantiene o mejora la calidad de sus predicciones.

LoRA habilita múltiples versiones especializadas de un modelo.

M

transmisión en cascada del modelo

#IAgenerativa

Es un sistema que elige el model ideal para una consulta de inferencia específica.

Imagina un grupo de modelos, que va desde muy grandes (muchos parámetros) hasta muchos más pequeños (muchos menos parámetros). Los modelos muy grandes consumen más recursos de procesamiento en el momento de la inferencia que los modelos más pequeños. Sin embargo, los modelos muy grandes suelen inferir solicitudes más complejas que los modelos más pequeños. La cascada del modelo determina la complejidad de la consulta de inferencia y, luego, elige el modelo apropiado para realizar la inferencia. La motivación principal para usar modelos en cascada es reducir los costos de inferencia, ya que, por lo general, se seleccionan modelos más pequeños y se selecciona solo un modelo más grande para consultas más complejas.

Imagina que un modelo pequeño se ejecuta en un teléfono y una versión más grande de ese modelo se ejecuta en un servidor remoto. La cascada de un buen modelo reduce el costo y la latencia, ya que permite que el modelo más pequeño maneje solicitudes simples y solo llame al modelo remoto para manejar solicitudes complejas.

Consulta también routers de modelos.

router modelo

#IAgenerativa

El algoritmo que determina el model ideal para la model en model. Por lo general, un router de modelo es un modelo de aprendizaje automático que aprende gradualmente a elegir el mejor modelo para una entrada determinada. Sin embargo, a veces un router de modelo podría ser un algoritmo más simple que no sea de aprendizaje automático.

O

instrucciones con un solo ejemplo

#language
#IAgenerativa

Una instrucción que contiene un ejemplo que demuestra cómo debería responder el modelo grande de lenguaje. Por ejemplo, el siguiente mensaje contiene un ejemplo que muestra un modelo grande de lenguaje cómo debería responder una consulta.

Partes de un mensaje Notas
¿Cuál es la moneda oficial del país especificado? La pregunta que quieres que responda el LLM.
Francia: EUR Un ejemplo:
India: Es la consulta real.

Compara y contrasta las instrucciones de un solo ejemplo con los siguientes términos:

P

ajuste eficiente de parámetros

#language
#IAgenerativa

Es un conjunto de técnicas para ajustar un modelo de lenguaje previamente entrenado (PLM) grande de forma más eficiente que el ajuste completo. Por lo general, el ajuste eficiente de parámetros ajusta muchos menos parámetros que el ajuste completa y, por lo general, produce un modelo grande de lenguaje que funciona tan bien (o casi igual) que un modelo de lenguaje extenso compilado a partir de un ajuste completa.

Comparar y contrastar el ajuste eficiente de parámetros con lo siguiente:

El ajuste eficiente de parámetros también se conoce como ajuste eficiente de parámetros.

PLM

#language
#IAgenerativa

Abreviatura de modelo de lenguaje previamente entrenado.

modelo previamente entrenado

#language
#image
#IAgenerativa

Modelos o componentes del modelo (como un vector de incorporación) que ya se entrenaron. En algunas ocasiones, proporcionarás vectores de incorporación previamente entrenados en una red neuronal. En otras ocasiones, el modelo entrenará los vectores de incorporación en lugar de basarse en las incorporaciones previamente entrenadas.

El término modelo de lenguaje previamente entrenado hace referencia a un modelo grande de lenguaje que pasó por un entrenamiento previo.

entrenamiento previo

#language
#image
#IAgenerativa

Es el entrenamiento inicial de un modelo en un conjunto de datos grande. Algunos modelos previamente entrenados son gigantes torpes y, por lo general, deben definirse mejor con un entrenamiento adicional. Por ejemplo, los expertos en AA podrían entrenar previamente un modelo grande de lenguaje con un conjunto de datos de texto extenso, como todas las páginas en inglés de Wikipedia. Después del entrenamiento previo, el modelo resultante puede definirse aún más con cualquiera de las siguientes técnicas:

mensaje

#language
#IAgenerativa

Cualquier texto que se ingrese como entrada en un modelo grande de lenguaje para condicionar que el modelo se comporte de cierta manera. Las instrucciones pueden ser tan breves como una frase o arbitrariamente largas (por ejemplo, todo el texto de una novela). Los mensajes se dividen en varias categorías, incluidas las que se muestran en la siguiente tabla:

Categoría del mensaje Ejemplo Notas
Pregunta ¿Qué tan rápido puede volar una paloma?
Instrucción Escribir un poema divertido sobre el arbitraje Un mensaje que le solicita al modelo grande de lenguaje que realice una acción.
Ejemplo Traducir código de Markdown al formato HTML. Por ejemplo:
Markdown: * elemento de la lista
HTML: <ul> <li>elemento de la lista</li> </ul>
La primera oración de esta instrucción de ejemplo es una instrucción. El resto de la instrucción es el ejemplo.
Rol Explica por qué se usa el descenso de gradientes en el entrenamiento de aprendizaje automático a un doctorado en Física. La primera parte de la oración es una instrucción; la frase “para un doctorado en Física” es la parte del rol.
Entrada parcial para que el modelo se complete El primer ministro del Reino Unido vive en Una instrucción de entrada parcial puede terminar de manera abrupta (como en este ejemplo) o con un guion bajo.

Un modelo de IA generativa puede responder a una instrucción con texto, código, imágenes, incorporaciones, videos y casi cualquier cosa.

aprendizaje basado en instrucciones

#language
#IAgenerativa

Es una función de ciertos modelos que les permite adaptar su comportamiento en respuesta a entradas de texto arbitrarias (mensajes). En un paradigma típico de aprendizaje basado en instrucciones, un modelo grande de lenguaje responde a un mensaje generando texto. Por ejemplo, supongamos que un usuario ingresa el siguiente mensaje:

Resumir la tercera ley del movimiento de Newton

Un modelo capaz de aprendizaje basado en instrucciones no está entrenado de forma específica para responder a la instrucción anterior. En cambio, el modelo "sabe" muchos hechos sobre física, reglas generales del lenguaje y mucho sobre lo que constituye respuestas que suelen ser útiles. Ese conocimiento es suficiente para proporcionar una respuesta útil. Los comentarios humanos adicionales ("Esa respuesta fue demasiado complicada" o "¿Qué es una reacción?") permiten que algunos sistemas de aprendizaje basados en instrucciones mejoren gradualmente la utilidad de sus respuestas.

diseño de mensajes

#language
#IAgenerativa

Sinónimo de ingeniería de instrucciones.

ingeniería de instrucciones

#language
#IAgenerativa

El arte de crear instrucciones que generan las respuestas deseadas de un modelo grande de lenguaje. Los seres humanos realizan ingeniería de instrucciones. Escribir instrucciones bien estructuradas es una parte esencial para garantizar respuestas útiles de un modelo grande de lenguaje. La ingeniería de instrucciones depende de muchos factores, entre los que se incluyen los siguientes:

  • El conjunto de datos que se usa para entrenar previamente y, posiblemente, ajustar el modelo grande de lenguaje.
  • La temperatura y otros parámetros de decodificación que usa el modelo para generar respuestas.

Consulta Introducción al diseño de instrucciones para obtener más detalles sobre cómo escribir instrucciones útiles.

Diseño de instrucciones es sinónimo de ingeniería de instrucciones.

ajuste de mensajes

#language
#IAgenerativa

Un mecanismo de ajuste eficiente de parámetros que aprende un "prefijo" que el sistema antepone al mensaje real.

Una variación del ajuste de los mensajes, a veces llamado ajuste de prefijo, es anteponer el prefijo en todas las capas. Por el contrario, la mayoría de los ajustes de mensajes solo agregan un prefijo a la capa de entrada.

R

Aprendizaje por refuerzo con retroalimentación humana (RLHF)

#IAgenerativa
#rl

Usa comentarios de evaluadores humanos para mejorar la calidad de las respuestas de un modelo. Por ejemplo, un mecanismo de RLHF puede pedirles a los usuarios que califiquen la calidad de la respuesta de un modelo con un emoji 👍 o 👎. Luego, el sistema puede ajustar sus respuestas futuras en función de esos comentarios.

solicitud de roles

#language
#IAgenerativa

Una parte opcional de una instrucción que identifica un público objetivo para la respuesta de un modelo de IA generativa. Sin una indicación de rol, un modelo grande de lenguaje proporciona una respuesta que puede o no ser útil para la persona que hace las preguntas. Con una instrucción de función, un modelo grande de lenguaje puede responder de una manera que sea más apropiada y útil para un público objetivo específico. Por ejemplo, la parte de la solicitud de función de las siguientes instrucciones está en negrita:

  • Resume este artículo para obtener un doctorado en economía.
  • Describir cómo funcionan las mareas para un niño de diez años
  • Explicar la crisis financiera de 2008 Habla como lo harías con un niño pequeño o con un golden retriever.

S

ajuste de mensajes breves

#language
#IAgenerativa

Técnica para ajustar un modelo grande de lenguaje para una tarea en particular, sin ajustes que hacen un uso intensivo de los recursos. En lugar de volver a entrenar todos los ponderaciones del modelo, el ajuste de los mensajes de texto ajusta automáticamente una instrucción para lograr el mismo objetivo.

Cuando se le proporciona una instrucción textual, el ajuste de mensajes secundarios suele agregar incorporaciones de token adicionales a la instrucción y usar propagación inversa para optimizar la entrada.

Un mensaje “hard” contiene tokens reales en lugar de incorporaciones de tokens.

T

temperatura

#language
#image
#IAgenerativa

Es un hiperparámetro que controla el grado de aleatorización de la salida de un modelo. Las temperaturas más altas generan resultados más aleatorios, mientras que las temperaturas más bajas generan resultados menos aleatorios.

La elección de la mejor temperatura depende de la aplicación específica y de las propiedades preferidas de la salida del modelo. Por ejemplo, es probable que aumentes la temperatura cuando crees una aplicación que genere resultados de creatividades. Por el contrario, probablemente bajarías la temperatura cuando compiles un modelo que clasifique imágenes o texto para mejorar la precisión y coherencia del modelo.

La temperatura suele usarse con softmax.

Z

instrucciones sin ejemplos

#language
#IAgenerativa

Una instrucción que no proporciona un ejemplo de cómo quieres que responda el modelo grande de lenguaje. Por ejemplo:

Partes de un mensaje Notas
¿Cuál es la moneda oficial del país especificado? La pregunta que quieres que responda el LLM.
India: Es la consulta real.

El modelo grande de lenguaje podría responder con cualquiera de las siguientes opciones:

  • Rupia
  • INR
  • Rupia hindú
  • La rupia
  • La rupia india

Todas las respuestas son correctas, aunque es posible que prefieras un formato en particular.

Compara y contrasta la instrucción sin ejemplos con los siguientes términos: