Esta página contiene términos del glosario Language Evaluation. Para todos los términos del glosario, haz clic aquí.
A
Attention,
Es un mecanismo utilizado en una red neuronal que indica la importancia de una palabra o parte de una palabra en particular. La atención comprime la cantidad de información que un modelo necesita para predecir el siguiente token o palabra. Un mecanismo de atención típico puede consistir en un suma ponderada sobre un conjunto de entradas, en las que peso para cada entrada se calcula mediante otra parte de la de una red neuronal prealimentada.
Consulta también la autoatención y la autoatención de varios cabezales, que son las componentes básicos de Transformers.
codificador automático
Un sistema que aprende a extraer la información más importante del entrada. Los codificadores automáticos son una combinación de un codificador y decodificador. Los codificadores automáticos se basan en el siguiente proceso de dos pasos:
- El codificador asigna la entrada a una imagen de baja dimensión (intermedio).
- El decodificador compila una versión con pérdida de la entrada original asignando el formato de menor dimensión al formato de mayor dimensión original formato de entrada de texto.
Los codificadores automáticos se entrenan de extremo a extremo haciendo que el decodificador intente reconstruir la entrada original del formato intermedio del codificador de la mejor manera posible. Debido a que el formato intermedio es más pequeño (menor dimensión) que el formato original, el codificador automático se fuerza saber qué información de la entrada es esencial y la salida sean perfectamente idénticos a la entrada.
Por ejemplo:
- Si los datos de entrada son un gráfico, la copia no exacta sería similar a el gráfico original, pero un poco modificado. Quizás el la copia no exacta elimina el ruido del gráfico original o rellena faltan algunos píxeles.
- Si los datos de entrada son texto, un codificador automático generaría texto nuevo que imita (pero no es igual) al texto original
Consulta también los codificadores automáticos variacionales.
modelo de regresión automático
Un modelo que infiere una predicción en función de sus propias predicciones anteriores predicciones. Por ejemplo, los modelos de lenguaje autorregresivos predicen la siguiente token basado en los tokens predichos anteriormente. Todos los modelos basados en Transformer Los modelos grandes de lenguaje son autorregresivos.
En cambio, los modelos de imagen basados en GAN no suelen ser autoregresivos. ya que generan una imagen en una sola pasada y no iterativamente pasos. Sin embargo, ciertos modelos de generación de imágenes son autorregresivos porque generan una imagen en pasos.
B
bolsa de palabras
Una representación de las palabras de una frase o pasaje independientemente del orden. Por ejemplo, una bolsa de palabras representa la después de tres frases de manera idéntica:
- el perro salta
- salta el perro
- perro salta el
Cada palabra se asigna a un índice en un vector disperso, donde tiene un índice para cada palabra del vocabulario. Por ejemplo: la frase el perro salta se asigna a un vector de atributos con un valor distinto de cero en los tres índices correspondientes a las palabras the, dog y saltos. El valor distinto de cero puede ser cualquiera de los siguientes:
- Un 1 para indicar la presencia de una palabra.
- Un recuento de la cantidad de veces que una palabra aparece en la bolsa. Por ejemplo: si la frase fuera el perro granate es un perro con pelaje granate, ambas maroon y perro se representarían con un 2, mientras que las otras palabras se represente con 1.
- Algún otro valor, como el logaritmo de la cantidad de veces que una palabra aparece en la bolsa.
BERT (codificador bidireccional Representaciones de transformadores)
Una arquitectura de modelo para la representación de texto. Un profesional El modelo BERT puede actuar como parte de un modelo más grande para la clasificación de texto o otras tareas de AA.
BERT tiene las siguientes características:
- Usa la arquitectura Transformer y, por lo tanto, depende sobre la autoatención.
- Usa la parte del codificador del transformador. Trabajo del codificador es producir buenas representaciones de texto, en lugar de realizar un tarea como la clasificación.
- Es bidireccional.
- Usa el enmascaramiento para entrenamiento no supervisado.
Entre las variantes de BERT, se incluyen las siguientes:
Consulta Código abierto de BERT: Entrenamiento previo de vanguardia para Natural Language Procesando para obtener una descripción general de BERT.
bidireccional
Término usado para describir un sistema que evalúa el texto que antecede y sigue una sección objetivo del texto. Por el contrario, un Solo para el sistema unidireccional Evalúa el texto que antecede a una sección objetivo del texto.
Por ejemplo, considera un modelo de lenguaje enmascarado que debes determinar las probabilidades de la palabra o las palabras que representan el subrayado en la siguiente pregunta:
¿Qué es _____ con usted?
Un modelo unidireccional de lenguaje tendría que basar solo sus probabilidades. según el contexto proporcionado por las palabras “qué”, “es” y “el”. En cambio, un modelo bidireccional de lenguaje también podría adquirir contexto a partir de "with" y "ustedes", lo que podría ayudar al modelo a generar mejores predicciones.
modelo bidireccional de lenguaje
Un modelo de lenguaje que determina la probabilidad de que un token determinado está presente en una ubicación determinada en un extracto de texto basado en al texto anterior y siguiente.
bigrama
n-grama en el cual n=2.
BLEU (Bilingual Evaluation Understudy)
Una puntuación entre 0.0 y 1.0 inclusive, que indica la calidad de una traducción entre dos idiomas humanos (por ejemplo, entre inglés y ruso). Un BLEU una puntuación de 1.0 indica una traducción perfecta; una puntuación BLEU de 0.0 indica una Pésima traducción.
C
modelo de lenguaje causal
Sinónimo de modelo de lenguaje unidireccional.
Consulta el modelo de lenguaje bidireccional para contrastar diferentes enfoques direccionales en el modelado de lenguaje.
cadena de pensamientos
Una técnica de ingeniería de instrucciones que fomenta un modelo de lenguaje grande (LLM) para explicar su el razonamiento, paso a paso. Por ejemplo, considera el siguiente mensaje, pagar atención especial a la segunda oración:
¿Cuántas fuerzas g experimentaría un conductor en un automóvil que va de 0 a 60? millas por hora en 7 segundos? En la respuesta, muestra todos los cálculos relevantes.
La respuesta del LLM probablemente:
- Muestra una secuencia de fórmulas físicas, ingresando los valores 0, 60 y 7 en los lugares apropiados.
- Explica por qué eligió esas fórmulas y qué significan las distintas variables.
La instrucción de cadena de pensamiento obliga al LLM a realizar todos los cálculos, lo que podría llevar a una respuesta más correcta. Además, la cadena de pensamiento de instrucciones permite al usuario examinar los pasos del LLM para determinar si o no, la respuesta tiene sentido.
chatear
El contenido de un diálogo de ida y vuelta con un sistema de AA, por lo general, un modelo grande de lenguaje. La interacción anterior en un chat (lo que escribiste y cómo respondió el modelo de lenguaje extenso) se convierte en contextual para las siguientes partes del chat.
Un chatbot es una aplicación de un modelo grande de lenguaje.
confabulación
Sinónimo de alucinación.
Confabulación es probablemente un término más preciso desde el punto de vista técnico que alucinación. Sin embargo, la alucinación se volvió popular primero.
análisis de distrito electoral
Dividir una oración en estructuras gramaticales más pequeñas ("componentes"). Una parte posterior del sistema de AA, como de comprensión del lenguaje natural puede analizar a los constituyentes con mayor facilidad que la oración original. Por ejemplo: considera la siguiente oración:
Mi amigo adoptó dos gatos.
Un analizador de distrito puede dividir esta oración en los siguientes elementos: dos integrantes:
- Mi amigo es una frase nominal.
- adopted two cats es una frase verbal.
Estos componentes se pueden subdividir aún más en componentes más pequeños. Por ejemplo, la frase verbal
adoptó dos gatos
podría subdividirse aún más en:
- adopted es un verbo.
- two cats es otra frase nominal.
incorporación de lenguaje contextualizada
Una incorporación que está cerca de “comprender” palabras y frases de una manera que los hablantes humanos nativos pueden hacerlo. Lenguaje contextualizado pueden comprender sintaxis, semántica y contexto complejos.
Por ejemplo, considera las incorporaciones de la palabra inglesa cow. Incorporaciones más antiguas como word2vec puede representar el inglés palabras para que la distancia en el espacio de incorporación de vaca a toro es similar a la distancia de oveja (oveja hembra) a ram (oveja macho) o hembra a macho. Lenguaje contextualizado las incorporaciones pueden ir un paso más allá reconociendo que los hablantes de inglés a veces usa informalmente la palabra cow para referirse a "cow" o "toro".
ventana de contexto
La cantidad de tokens que un modelo puede procesar en un instrucción. Mientras más grande es la ventana de contexto, más información que el modelo puede usar para brindar respuestas coherentes al mensaje.
floración
Oración o frase con un significado ambiguo. Las flores de choque presentan un problema importante en la naturaleza comprensión del lenguaje. Por ejemplo, el titular La cinta roja que sostiene un rascacielos es una Crash blossom porque un modelo de CLN podría interpretar el titular literalmente o en sentido figurado.
D
decodificador
En general, cualquier sistema de AA que convierta una representación interna a una más sin procesar, dispersa o externa.
Los decodificadores suelen ser un componente de un modelo más grande y, por lo general, en sincronización con un codificador.
En las tareas de secuencia a secuencia, el decodificador comienza con el estado interno que genera el codificador para predecir la siguiente secuencia.
Consulta Transformer para conocer la definición de un decodificador. la arquitectura de transformadores.
reducir el ruido
Un enfoque común para el aprendizaje autosupervisado en la que:
La anulación de ruido permite aprender a partir de ejemplos sin etiqueta. El conjunto de datos original funciona como destino o label y los datos ruidosos como entrada.
Algunos modelos de lenguaje enmascarado usan la reducción de ruido. de la siguiente manera:
- El ruido se agrega artificialmente a una oración sin etiqueta mediante el enmascaramiento de algunos de los tokens.
- El modelo intenta predecir los tokens originales.
instrucción directa
Sinónimo de instrucción sin ejemplos.
E
editar distancia
Es una medida de lo semejantes que son dos cadenas de texto entre sí. En el aprendizaje automático, editar la distancia es útil porque es fácil y una forma eficaz de comparar dos cadenas conocidas similares o para encontrar cadenas que sean similares a una cadena determinada.
Hay varias definiciones de distancia de edición, cada una con una cadena diferente las operaciones. Por ejemplo, el Distancia a Levenshtein considera la menor cantidad de operaciones de eliminación, inserción y sustitución.
Por ejemplo, la distancia Levenshtein entre las palabras "corazón" y "darts" es 3 porque las siguientes 3 ediciones son la menor cantidad de cambios para convertir una palabra en la otra:
- corazón → deart (sustituye “h” por “d”)
- deart → dart (borrar "e")
- dart → dardos (insert “s”)
capa de incorporación
Una capa oculta especial que se entrena en una atributo categórico de alta dimensión para aprender un vector de incorporación de menor dimensión. Los capa de incorporación permite que una red neuronal entrene mucho más de forma eficiente que entrenar solo con el atributo categórico de alta dimensión.
Por ejemplo, en la actualidad, la Tierra es compatible con unas 73,000 especies arbóreas. Supongamos
especie de árbol es un atributo en tu modelo, por lo tanto, la
capa de entrada incluye un vector one-hot 73,000
elementos largos.
Por ejemplo, es posible que baobab
se represente de la siguiente manera:
Un array de 73,000 elementos es muy largo. Si no agregas una capa de incorporación el entrenamiento le llevará mucho tiempo, ya que multiplicando 72,999 ceros. Quizás eliges la capa de incorporación para que consiste de 12 dimensiones. En consecuencia, la capa de incorporación aprenderá gradualmente un nuevo vector de incorporación para cada especie arbórea.
En algunos casos, la generación de hash es una alternativa razonable en una capa de incorporación.
espacio de incorporaciones
El espacio vectorial de d-dimensional que se muestra desde una superficie de espacio de vector están asignados. Lo ideal es que el espacio de incorporaciones contenga una una estructura que produzca resultados matemáticos significativos por ejemplo, en un espacio de incorporaciones ideal, agregar y quitar incorporaciones resolver tareas de analogía de palabras.
El producto escalar de dos incorporaciones es la medida de su similitud.
vector de incorporación
En términos generales, un array de números de punto flotante tomado de cualquier capa oculta que describe las entradas a esa capa oculta. A menudo, un vector de incorporación es el array de números de punto flotante entrenados una capa de incorporación. Por ejemplo, imagina que una capa de incorporación debe aprender un vector de incorporación para cada una de las 73,000 especies arbóreas de la Tierra. Quizás el El siguiente array es el vector de incorporación de un árbol baobab:
Un vector de incorporación no es un montón de números aleatorios. Una capa de incorporación determina estos valores por medio del entrenamiento, similar a como mientras que una red neuronal aprende otros pesos durante el entrenamiento. Cada elemento del array es una calificación de alguna característica de una especie arbórea. Cuál representa qué especies de árboles característica? Es muy difícil que los humanos determinarán.
La parte matemáticamente destacada de un vector de incorporación es que una representación similar los elementos tienen conjuntos similares de números de punto flotante. Por ejemplo, algo similar las especies arbóreas tienen un conjunto de números de punto flotante más parecido que especies arbóreas diferentes. Las secuoyas y las secuoyas son especies arbóreas relacionadas, por lo que tendrán un conjunto más similar de números de punto flotante secuoyas y cocoteros. Los números en el vector de incorporación cambiar cada vez que se vuelva a entrenar el modelo, incluso si se vuelve a entrenar con entradas idénticas.
codificador
En general, cualquier sistema de AA que realice conversiones desde un sistema sin procesar, disperso o externo en una representación más procesada, densa o interna.
Los codificadores suelen ser un componente de un modelo más grande y, por lo general, sincronizada con un decodificador. Algunos Transformers vincular codificadores con decodificadores, aunque otros transformadores usan solo el o solo el decodificador.
Algunos sistemas usan la salida del codificador como la entrada para un modelo de regresión global.
En las tareas de secuencia a secuencia, un codificador toma una secuencia de entrada y devuelve un estado interno (un vector). Luego, la decoder utiliza ese estado interno para predecir la siguiente secuencia.
Consulta Transformer para conocer la definición de un codificador en la arquitectura de transformadores.
F
instrucciones con ejemplos limitados
Una instrucción que contiene más de un ejemplo (un "poco") Demostrar cómo el modelo de lenguaje grande debería responder. Por ejemplo, la siguiente instrucción larga contiene dos ejemplos en los que se muestra cómo responder una consulta a un modelo grande de lenguaje.
Partes de una instrucción | Notas |
---|---|
¿Cuál es la moneda oficial del país especificado? | La pregunta que quieres que el LLM responda. |
Francia: EUR | Un ejemplo. |
Reino Unido: GBP | Otro ejemplo. |
India: | Es la consulta real. |
Las instrucciones con ejemplos limitados suelen producir resultados más deseables que los la instrucción sin ejemplos y las instrucciones con un solo ejemplo. Sin embargo, las instrucciones con ejemplos limitados requiere una instrucción más larga.
La instrucción con ejemplos limitados es una forma de aprendizaje en pocos ejemplos se aplican al aprendizaje basado en instrucciones.
Violín tradicional
Una biblioteca de configuration centrada en Python que establece de funciones y clases sin infraestructura ni código invasivos. En el caso de Pax y otras bases de código de AA, estas funciones y Las clases representan modelos y entrenamiento. hiperparámetros.
Violín Se supone que las bases de código de aprendizaje automático suelen dividirse en los siguientes aspectos:
- Código de biblioteca, que define las capas y los optimizadores.
- Conjunto de datos “glue” código, que llama a las bibliotecas y conecta todo.
Fiddle captura la estructura de llamada del código glue en un formato forma mutable.
ajuste
Es un segundo pase de entrenamiento específico para una tarea que se realiza en un modelo previamente entrenado para definir mejor sus parámetros y caso de uso específico. Por ejemplo, la secuencia de entrenamiento completa de algunos modelos grandes de lenguaje funciona de la siguiente manera:
- Entrenamiento previo: Entrena un modelo grande de lenguaje en un conjunto de datos general amplio. como todas las páginas de Wikipedia en inglés.
- Ajuste: Entrenar el modelo previamente entrenado para que realice una tarea específica como responder consultas médicas. Por lo general, el ajuste implica cientos o miles de ejemplos enfocados en la tarea específica.
Otro ejemplo es la secuencia de entrenamiento completa de un modelo de imagen grande sigue:
- Entrenamiento previo: Entrena un modelo de imagen grande en una imagen general amplia. como todas las imágenes de Wikimedia Commons.
- Ajuste: Entrenar el modelo previamente entrenado para que realice una tarea específica como generar imágenes de orcas.
El ajuste puede implicar cualquier combinación de las siguientes estrategias:
- Modificar todos los modelos existentes del modelo previamente entrenado parámetros. A veces, esto se denomina ajuste completo.
- Modificar solo algunos de los parámetros existentes del modelo previamente entrenado (por lo general, las capas más cercanas a la capa de salida) sin modificar los demás parámetros existentes (por lo general, las capas más cercana a la capa de entrada). Consulta ajuste eficiente de parámetros.
- Agregar más capas, generalmente sobre las capas existentes más cercanas a la capa de salida.
El ajuste es una forma de aprendizaje por transferencia. Por lo tanto, el ajuste podría usar una función de pérdida diferente o un modelo diferente. que los que se usan para entrenar el modelo previamente entrenado. Por ejemplo, podrías ajustar un modelo de imagen grande previamente entrenado para producir un modelo de regresión que muestra la cantidad de aves en una imagen de entrada.
Compara y contrasta el ajuste con los siguientes términos:
Lino
Una plataforma de código abierto biblioteca para aprendizaje profundo basado en JAX. Flax proporciona funciones para entrenar redes neuronales, así como como métodos para evaluar su rendimiento.
Flaxformer
Un Transformer de código abierto biblioteca, Creado en Flax, diseñado principalmente para procesamiento de lenguaje natural y la investigación multimodal.
G
IA generativa
Un campo transformador emergente sin definición formal. Dicho esto, la mayoría de los expertos están de acuerdo en que los modelos de IA generativa crear (generar) contenido que tenga las siguientes características:
- complejo
- coherente
- original
Por ejemplo, un modelo de IA generativa puede crear modelos ensayos o imágenes.
Algunas tecnologías anteriores, incluidas las LSTMs y las RNN pueden generar imágenes originales y contenido coherente. Algunos expertos consideran estas tecnologías anteriores como la IA generativa, mientras que otros creen que la verdadera IA generativa requiere que esas tecnologías anteriores pueden producir.
Compara esto con el AA predictivo.
GPT (transformador generativo previamente entrenado)
Una familia de modelos basados en Transformer modelos grandes de lenguaje desarrollados por OpenAI.
Las variantes de GPT pueden aplicarse a varias modalidades, incluidas las siguientes:
- generación de imágenes (por ejemplo, ImageGPT)
- generación de texto a imagen (por ejemplo, DALL-E)
H
alucinación
La producción de un resultado aparentemente creíble, pero incorrecto, según un de IA generativa que pretende realizar una afirmación sobre el mundo real. Por ejemplo, un modelo de IA generativa que afirma que Barack Obama murió en 1865. es alucinante.
I
aprendizaje en contexto
Sinónimo de instrucción con ejemplos limitados.
L
LaMDA (modelo de lenguaje para aplicaciones de diálogo)
Un modelo basado en Transformer modelo grande de lenguaje desarrollado por Google entrenado un gran conjunto de datos de diálogo que puede generar respuestas conversacionales realistas.
LaMDA: nuestra gran conversación tecnología proporciona una descripción general.
modelo de lenguaje
Un modelo que estima la probabilidad de un token o una secuencia de tokens que ocurra en una secuencia más larga de tokens.
modelo de lenguaje extenso
Término informal sin definición estricta que generalmente significa un modelo de lenguaje que tiene una gran cantidad de parámetros. Algunos modelos grandes de lenguaje contienen más de 100,000 millones de parámetros.
espacio latente
Sinónimo de espacio de incorporación.
LLM
Abreviatura de modelo de lenguaje grande.
Laura
Abreviatura de Adaptabilidad de clasificación baja.
Adaptabilidad de clasificación baja (LoRA)
Un algoritmo para realizar ajuste eficiente de parámetros ajusta solo un subconjunto de un parámetros de un modelo grande de lenguaje LoRA proporciona los siguientes beneficios:
- Se ajusta más rápido que las técnicas que requieren un ajuste de todos los modelos parámetros.
- Se reduce el costo de procesamiento de la inferencia en la más ajustado.
Un modelo ajustado con LoRA mantiene o mejora la calidad de sus predicciones.
LoRA habilita múltiples versiones especializadas de un modelo.
M
modelo de lenguaje enmascarado
Un modelo de lenguaje que predice la probabilidad de tokens candidatos para completar espacios en blanco en una secuencia. Por ejemplo, un el modelo de lenguaje enmascarado puede calcular las probabilidades de las palabras candidatas. para reemplazar el subrayado en la siguiente oración:
Regresó el ____ del sombrero.
Por lo general, se usa la cadena "MASK" en lugar de un subrayado. Por ejemplo:
La MASK regresó.
La mayoría de los modelos modernos de lenguaje enmascarado son bidireccionales.
metaaprendizaje
Subconjunto del aprendizaje automático que descubre o mejora un algoritmo de aprendizaje. Un sistema de metaaprendizaje también busca entrenar un modelo para aprender rápido un nuevo a partir de una pequeña cantidad de datos o de la experiencia adquirida en tareas anteriores. Por lo general, los algoritmos de metaaprendizaje intentan lograr lo siguiente:
- Mejorar o aprender funciones diseñadas a mano (como un inicializador o un optimizador).
- Ser más eficientes en términos de datos y de procesamiento
- Mejorar la generalización
El metaaprendizaje se relaciona con el aprendizaje en pocos ejemplos.
modality
Es una categoría de datos de alto nivel. Por ejemplo, números, texto, imágenes, video y el audio son cinco modalidades diferentes.
paralelismo de modelos
Forma de escalar el entrenamiento o la inferencia que coloca diferentes partes de uno model en diferentes dispositivos. Paralelismo de modelos permite modelos que son demasiado grandes para caber en un solo dispositivo.
Para implementar el paralelismo de modelos, por lo general, un sistema hace lo siguiente:
- Fragmenta (divide) el modelo en partes más pequeñas.
- Distribuye el entrenamiento de esas partes más pequeñas a través de múltiples procesadores. Cada procesador entrena su propia parte del modelo.
- Combina los resultados para crear un solo modelo.
El paralelismo de modelos ralentiza el entrenamiento.
Consulta también el paralelismo de datos.
autoatención de varios cabezales
Es una extensión de la autoatención que aplica la mecanismo de autoatención varias veces para cada posición en la secuencia de entrada.
Transformers introdujo la autoatención de varias cabezas.
modelo multimodal
Es un modelo cuyas entradas o salidas incluyen más de una. modalidad. Por ejemplo, considera un modelo que toma y una leyenda de texto (dos modalidades) como atributos, y genera una puntuación que indica cuán apropiada es la leyenda de texto para la imagen. Por lo tanto, las entradas de este modelo son multimodales y la salida es unimodal.
N
comprensión del lenguaje natural
Determinar las intenciones de un usuario en función de lo que este escribió o dijo. Por ejemplo, un motor de búsqueda utiliza la comprensión del lenguaje natural para para determinar qué busca el usuario según lo que escribió o dijo.
n-grama
Secuencia ordenada de n palabras. Por ejemplo, realmente loco es un 2-grama. Porque orden es relevante, loco realmente es un 2-grama diferente a realmente loco.
N | Nombres para este tipo de n-grama | Ejemplos |
---|---|---|
2 | bigrama o 2-grama | para ir a, almorzar o cenar |
3 | trigrama o 3-grama | comí demasiado, tres ratones ciegos, las campanas |
4 | 4-grama | el chico comía lentejas... |
Muchos comprender el lenguaje natural los modelos se basan en n-gramas para predecir la siguiente palabra que el usuario escribirá ni decir. Por ejemplo, supongamos que un usuario escribió tres tristes. Un modelo CLN basado en trigramas probablemente predeciría que la El usuario escribirá a continuación mouse.
Comparar los n-gramas con la bolsa de palabras, que es conjuntos de palabras desordenados.
CLN
Abreviatura de lenguaje natural comprensión.
O
instrucciones con un solo ejemplo
Una instrucción que contiene un ejemplo que demuestra cómo se Debería responder el modelo grande de lenguaje. Por ejemplo: la siguiente instrucción contiene un ejemplo en el que se muestra a un modelo de lenguaje extenso cómo debería responder una consulta.
Partes de una instrucción | Notas |
---|---|
¿Cuál es la moneda oficial del país especificado? | La pregunta que quieres que el LLM responda. |
Francia: EUR | Un ejemplo. |
India: | Es la consulta real. |
Compara y contrasta la instrucción con un solo ejemplo con los siguientes términos:
P
ajuste eficiente de parámetros
Un conjunto de técnicas para ajustar una gran modelo de lenguaje previamente entrenado (PLM) de forma más eficiente que el ajuste completo. Eficaz en parámetros pero el ajuste suele ajustar muchos menos parámetros que los pero, por lo general, produce un un modelo grande de lenguaje que realice (o casi igual) como un modelo grande de lenguaje construido a partir de ajustes.
Compara y contrasta el ajuste eficiente de parámetros con lo siguiente:
El ajuste eficiente en cuanto a parámetros también se conoce como ajuste eficiente de parámetros.
canalización
Una forma de paralelismo de modelos en la que la latencia el procesamiento se divide en etapas consecutivas y cada una se ejecuta en otro dispositivo. Mientras una etapa procesa un lote, la anterior puede funcionar en el siguiente lote.
Consulta también el entrenamiento en etapas.
PLM
Abreviatura de modelo de lenguaje previamente entrenado.
codificación posicional
Técnica para agregar información sobre la posición de un token en una secuencia a la incorporación del token. Los modelos Transformer usan codificación para comprender mejor la relación entre las diferentes partes del secuencia.
Una implementación común de codificación posicional usa una función sinusoidal. (Específicamente, la frecuencia y la amplitud de la función sinusoidal se determinadas por la posición del token en la secuencia). Esta técnica permite que un modelo Transformer aprenda a atender las diferentes partes del ordenada en función de su posición.
modelo previamente entrenado
Los modelos o componentes de modelos (como un vector de incorporación) que ya se entrenaron. A veces, ingresarás vectores de incorporación previamente entrenados en un red neuronal. Otras veces, el modelo entrenará el vectores de incorporación en lugar de depender de las incorporaciones previamente entrenadas.
El término modelo de lenguaje previamente entrenado hace referencia a un modelo grande de lenguaje que se sometió entrenamiento previo.
entrenamiento previo
Entrenamiento inicial de un modelo en un conjunto de datos grande. Algunos modelos previamente entrenados son gigantes y torpes y, por lo general, deben perfeccionarse mediante capacitación adicional. Por ejemplo, los expertos en AA pueden capacitar previamente a un un modelo grande de lenguaje en un conjunto de datos de texto amplio, como todas las páginas en inglés de Wikipedia. Después del entrenamiento previo, modelo resultante podría refinarse aún más a través de cualquiera de los siguientes técnicas:
mensaje
Cualquier texto ingresado como entrada en un modelo de idioma grande para condicionar el modelo para que se comporte de cierta manera. Las instrucciones pueden ser tan cortas frase o arbitrariamente larga (por ejemplo, todo el texto de una novela). Mensajes se dividen en varias categorías, incluidas las que se muestran en la siguiente tabla:
Categoría de instrucción | Ejemplo | Notas |
---|---|---|
Pregunta | ¿Qué tan rápido puede volar una paloma? | |
Instrucción | Escribe un poema divertido sobre el arbitraje. | Un mensaje en el que se le pide al modelo de lenguaje extenso que haga algo. |
Ejemplo | Traduce código de Markdown a HTML. Por ejemplo:
Markdown: * elemento de lista HTML: <ul> <li>elemento de la lista</li> </ul> |
La primera oración de esta instrucción de ejemplo es una instrucción. El resto de la instrucción es el ejemplo. |
Rol | Explicar por qué se usa el descenso de gradientes en el entrenamiento del aprendizaje automático para un doctorado en Física. | La primera parte de la oración es una instrucción; la frase "hasta un doctorado en física" es la parte del rol. |
Entrada parcial para que se complete el modelo | El primer ministro del Reino Unido vive en | Una instrucción de entrada parcial puede terminar de manera abrupta (como sucede en este ejemplo). o terminar con un guion bajo. |
Un modelo de IA generativa puede responder a una instrucción con texto, código, imágenes, incorporaciones, videos...casi nada.
aprendizaje basado en instrucciones
Capacidad de ciertos modelos que les permite adaptarse su comportamiento en respuesta a una entrada de texto arbitraria (mensajes). En un paradigma típico de aprendizaje basado en instrucciones, un modelo de lenguaje grande responde a un mensaje que generan texto. Por ejemplo, supongamos que un usuario ingresa el siguiente mensaje:
Resumir la tercera ley del movimiento de Newton
Un modelo capaz de aprender basado en instrucciones no está entrenado específicamente para responder la instrucción anterior. Más bien, el modelo “sabe” muchos datos sobre física, mucho sobre las reglas del lenguaje generales y mucho sobre lo que constituye respuestas útiles. Ese conocimiento es suficiente para proporcionar (con suerte) un recurso útil una respuesta en particular. Comentarios de personas adicionales (“Esa respuesta fue demasiado complicada” o “¿Cuál es una reacción?””) permite que algunos sistemas de aprendizaje basado en instrucciones mejorar la utilidad de sus respuestas.
diseño de mensajes
Sinónimo de ingeniería de instrucciones.
ingeniería de instrucciones
El arte de crear mensajes que generen las respuestas deseadas a partir de un modelo de lenguaje grande. Una persona realiza una instrucción con ingeniería de atributos. Escribir instrucciones bien estructuradas es esencial para garantizar respuestas útiles de un modelo de lenguaje extenso. La ingeniería de instrucciones depende de muchos factores, entre ellos:
- Es el conjunto de datos que se usó para el entrenamiento previo y, posiblemente, ajustar el modelo grande de lenguaje.
- La temperature y otros parámetros de decodificación que la que el modelo usa para generar respuestas.
Consulta Introducción al diseño de instrucciones para obtener más detalles sobre cómo escribir instrucciones útiles.
Diseño de instrucciones es un sinónimo de ingeniería de instrucciones.
ajuste de mensajes
Un mecanismo de ajuste eficiente de parámetros que aprende un “prefijo” que el sistema antepone al instrucción real.
Una variación del ajuste de instrucciones, a veces llamada ajuste de prefijo, es antepón el prefijo en cada capa. En cambio, la mayoría del ajuste de instrucciones solo Agrega un prefijo a la capa de entrada.
R
solicitud de función
Parte opcional de una instrucción que identifica un público objetivo para la respuesta de un modelo de IA generativa. Sin un rol un mensaje de texto, un modelo grande de lenguaje brinda una respuesta que puede ser útil o no para la persona que hace las preguntas. Con una instrucción de rol, se puede usar modelo puede responder de una manera que sea más apropiada y útil para un un público objetivo específico. Por ejemplo, la parte de la instrucción de rol de Los mensajes están en negrita:
- Resume este artículo para obtener un doctorado en economía.
- Describir cómo funcionan las mareas para un niño de diez años.
- Explica la crisis financiera de 2008. Habla como lo harías con un niño pequeño: o un golden retriever.
S
autoatención (también llamada capa de autoatención)
Capa de red neuronal que transforma una secuencia de incorporaciones (por ejemplo, incorporaciones de token) en otra secuencia de incorporaciones. Cada incorporación en la secuencia de salida Se construye integrando información de los elementos de la secuencia de entrada a través de un mecanismo de atención.
La parte self de autoatención se refiere a la secuencia que asiste a en lugar de a algún otro contexto. La autoatención es una de las principales componentes básicos para Transformers y usa la búsqueda en el diccionario y la terminología, como “consulta”, “clave” y “valor”.
Una capa de autoatención comienza con una secuencia de representaciones de entrada, una para cada palabra. La representación de entrada para una palabra puede ser una simple a través de la incorporación de texto. Para cada palabra en una secuencia de entrada, la red califica la relevancia de la palabra para cada elemento de toda la secuencia de palabras. Las puntuaciones de relevancia determinan en qué medida la representación final de la palabra Incorpora las representaciones de otras palabras.
Por ejemplo, considera la siguiente oración:
El animal no cruzó la calle porque estaba demasiado cansado.
La siguiente ilustración (de Transformer: Una novedosa arquitectura de redes neuronales para el lenguaje Comprensión) muestra el patrón de atención de una capa de autoatención para el pronombre it, con la oscuridad de cada línea que indica cuánto contribuye cada palabra a la siguiente:
La capa de autoatención destaca las palabras que son relevantes para "ella". En este En este caso, la capa de atención aprendió a destacar palabras que podría referirnos a esto asignando el peso más alto a animal.
Para una secuencia de n tokens, la autoatención transforma una secuencia de incorporaciones n veces por separado, una vez en cada posición de la secuencia.
Consulta también la sección de atención y autoatención de varios cabezales.
análisis de opiniones
Usar algoritmos estadísticos o de aprendizaje automático para determinar la actitud general, positiva o negativa, hacia un servicio, producto, organización o tema. Por ejemplo, comprensión del lenguaje natural, un algoritmo podría realizar un análisis de opiniones sobre la retroalimentación textual de un curso universitario para determinar el título de los estudiantes les gustó o disgustó el curso.
tarea de secuencia por secuencia
Una tarea que convierte una secuencia de entrada de tokens en una salida secuencia de tokens. Por ejemplo, hay dos tipos populares de modelos tareas son:
- Traductores:
- Secuencia de entrada de muestra: "Te quiero".
- Secuencia de salida de muestra: "Je t'aime".
- Búsqueda de respuestas:
- Secuencia de entrada de muestra: "¿Necesito mi auto en Nueva York?".
- Secuencia de salida de muestra: "No. Mantén el vehículo en casa".
skip-gram
Un n-grama que puede omitir (o, también, "omitir") palabras del original contextual, lo que significa que las palabras N podrían no haber sido originalmente adyacentes. Más precisamente, un "k-skip-n-gram" es un n-grama para el que pueden tener hasta k palabras se omitió.
Por ejemplo, "el ratón zorro" tiene los siguientes 2-gramas posibles:
- "rápido"
- “marrón rápido”
- "fox marrón"
Un "1-omitir-2-grama" es un par de palabras que tienen 1 palabra como máximo entre ellas. Por lo tanto, "el rápido zorro marrón" tiene los siguientes 1-omiten 2-gramas:
- "el marrón"
- “rápido zorro”
Además, todos los 2-gramas también son 1-omiten-2-gramas, ya que menos se podrá omitir más de una palabra.
Los Omitir gramas son útiles para entender mejor el contexto circundante de una palabra. En el ejemplo, "fox" se asoció directamente con la palabra "rápido" en el conjunto de 1-skip-2-gramas, pero no en el conjunto de 2-gramos.
Los saltos gramaticales ayudan a entrenar modelos de word embedding.
ajuste de instrucciones discretas
Técnica para ajustar un modelo de lenguaje grande para una tarea concreta, sin que se requiera una gran cantidad de recursos ajuste. En lugar de volver a entrenar pesos en el modelo, ajuste de mensajes suaves Ajusta automáticamente una instrucción para lograr el mismo objetivo.
Dada una instrucción textual, se puede ajustar normalmente agrega incorporaciones de token adicionales al mensaje y usa propagación inversa para optimizar la entrada.
La fase "difícil" contiene tokens reales en lugar de incorporaciones de token.
atributo disperso
atributo cuyos valores son predominantemente cero o están vacíos. Por ejemplo, un atributo que contiene un solo valor 1 y un millón de valores 0 se dispersas. Por el contrario, un atributo denso tiene valores que no estén vacíos ni estén vacíos.
En el aprendizaje automático, un número sorprendente de atributos son atributos dispersos. Los atributos categóricos suelen ser atributos dispersos. Por ejemplo, de las 300 posibles especies de árboles en un bosque, un único ejemplo podría identificar solo un árbol de arce. O de los millones de videos posibles en una biblioteca de videos, un solo ejemplo podría identificar solo "Casablanca".
En un modelo, normalmente representas atributos dispersos con codificación one-hot. Si la codificación one-hot es grande, puedes colocar una capa de incorporación sobre el la codificación one-hot para una mayor eficiencia.
representación dispersa
Almacenar solo las posiciones de elementos distintos de cero en un atributo disperso
Por ejemplo, supongamos que un atributo categórico llamado species
identifica las 36
las especies arbóreas de un bosque en particular. Supón además que cada
example identifica solo una especie.
Podrías usar un vector one-hot para representar las especies arbóreas en cada ejemplo.
Un vector one-hot contendría un único 1
(para representar
la especie de árbol particular en ese ejemplo) y 35 0
(para representar la
35 especies de árboles no en ese ejemplo). La representación one-hot
de maple
podría verse de la siguiente manera:
Por otro lado, la representación dispersa simplemente identificaría la posición de la
a una especie particular. Si maple
está en la posición 24, entonces la representación dispersa
de maple
sería la siguiente:
24
Ten en cuenta que la representación dispersa es mucho más compacta que la one-hot para la representación de los datos.
entrenamiento por etapas
Es una táctica de entrenar un modelo en una secuencia de etapas discretas. El objetivo puede ser ya sea para acelerar el proceso de entrenamiento o lograr una mejor calidad del modelo.
A continuación, se muestra una ilustración del enfoque de apilado progresivo:
- La etapa 1 contiene 3 capas ocultas, la etapa 2 contiene 6 capas ocultas y la etapa 3 contiene 12 capas ocultas.
- La etapa 2 comienza el entrenamiento con los pesos aprendidos en las 3 capas ocultas. de la Etapa 1. En la etapa 3, se comienza el entrenamiento con los pesos que se aprendieron en los 6. capas ocultas de la etapa 2.
Consulta también la canalización.
token de subpalabra
En los modelos de lenguaje, un token que es un o la subcadena de una palabra, que puede ser la palabra completa.
Por ejemplo, una palabra como "itemizar" podría dividirse en las partes “elemento” (una palabra raíz) y "ize" (un sufijo), cada uno de los cuales está representado por su propio token. Dividir palabras poco comunes en esas partes, llamadas subpalabras, permite de lenguaje extensos para operar en las partes constituyentes más comunes de la palabra, como prefijos y sufijos.
Por el contrario, las palabras comunes como "ir" pueden no estar divididas y representados por un solo token.
T
T5
Un modelo de aprendizaje por transferencia de texto a texto introducido por La IA de Google en 2020. T5 es un modelo de codificador-decodificador que se basa en el una arquitectura de Transformer, entrenada con un modelo de tu conjunto de datos. Es eficaz en una variedad de tareas de procesamiento de lenguaje natural, como generar texto, traducir idiomas y responder preguntas en de una manera coloquial.
El T5 recibe su nombre de las cinco T de “Transformador de transferencia de texto a texto”.
T5X
Un framework de aprendizaje automático de código abierto diseñado para compilar y entrenar procesamiento de lenguaje natural a gran escala (PLN). T5 se implementa en la base de código T5X (que es compilada en JAX y Flax).
temperatura
Un hiperparámetro que controla el grado de aleatorización de la salida de un modelo. Las temperaturas más altas generan resultados más aleatorios, mientras que las temperaturas más bajas generan resultados menos aleatorios.
La elección de la mejor temperatura depende de la aplicación específica y las propiedades preferidas del resultado del modelo. Por ejemplo, probablemente aumente la temperatura cuando crees una aplicación que genera resultados creativos. Por el contrario, probablemente bajarías la temperatura cuando compilas un modelo que clasifica imágenes o texto para mejorar el la exactitud y coherencia del modelo.
La temperatura suele usarse con softmax.
intervalo de texto
El intervalo del índice del array asociado con una subsección específica de una cadena de texto.
Por ejemplo, la palabra good
en la cadena s="Be good now"
de Python ocupa
el texto abarcan de 3 a 6.
token
En un modelo de lenguaje, la unidad atómica a la que se dedica para entrenar y hacer predicciones. Por lo general, un token es uno de los lo siguiente:
- una palabra, por ejemplo, la frase "perros como gatos" consta de tres palabras tokens: “dogs”, “like” y “cats”.
- un carácter, por ejemplo, la frase "pez bicicleta" consta de nueve tokens de caracteres. (Ten en cuenta que el espacio en blanco cuenta como uno de los tokens).
- subpalabras, en las que una sola palabra puede ser uno o varios tokens. Una subpalabra consta de una palabra raíz, un prefijo o un sufijo. Por ejemplo: un modelo de lenguaje que usa subpalabras como tokens podría ver la palabra “dogs” como dos tokens (la palabra raíz "dog" y el sufijo plural "s"). Lo mismo de lenguaje natural podrían ver la sola palabra “más alta” en dos subpalabras (el palabra raíz “tall” y el sufijo “er”).
En dominios fuera de los modelos de lenguaje, los tokens pueden representar otros tipos de unidades atómicas. Por ejemplo, en visión artificial, un token puede ser un subconjunto de una imagen.
Transformador
Es una arquitectura de red neuronal desarrollada en Google que se basa en mecanismos de autoatención para transformar una de incorporaciones de entrada en una secuencia de salida de las incorporaciones sin depender de las convoluciones redes neuronales recurrentes. Un transformador puede ser como una pila de capas de autoatención.
Un Transformer puede incluir cualquiera de los siguientes elementos:
- un codificador
- un decodificador
- un codificador y un decodificador,
Un codificador transforma una secuencia de incorporaciones en una secuencia nueva del la misma duración. Un codificador incluye N capas idénticas, cada una de las cuales contiene dos subcapas. Estas dos subcapas se aplican en cada posición de la entrada secuencia de incorporación, transformando cada elemento de la secuencia en un nuevo a través de la incorporación de texto. La primera subcapa del codificador agrega información de todo secuencia de entrada. La segunda subcapa del codificador transforma la información en una incorporación de salida.
Un decodificador transforma una secuencia de incorporaciones de entrada en una secuencia de de salida, posiblemente con una longitud diferente. Un decodificador también incluye N capas idénticas con tres subcapas, dos de las cuales son similares a la subcapas del codificador. La tercera subcapa del decodificador toma la salida de la y aplica el mecanismo de autoatención para recopilar información a partir de ellos.
La entrada de blog Transformer: A Novel Neural Network Architecture for Language Comprensión proporciona una buena introducción a Transformers.
trigrama
n-grama en el cual n=3.
U
unidireccional
Es un sistema que solo evalúa el texto que antecede a una sección objetivo del texto. Por el contrario, un sistema bidireccional evalúa tanto el texto que antecede y sigue una sección objetivo del texto. Consulta bidireccional para obtener más detalles.
modelo unidireccional de lenguaje
Es un modelo de lenguaje que basa sus probabilidades solo en la Los tokens que aparecen antes, no después de los tokens de destino. Compara esto con el modelo bidireccional de lenguaje.
V
codificador automático variacional (VAE)
Un tipo de codificador automático que aprovecha la discrepancia entre las entradas y las salidas para generar versiones modificadas de las entradas. Los codificadores automáticos variacionales son útiles para la IA generativa.
Los VAE se basan en la inferencia variacional, una técnica para estimar el parámetros de un modelo de probabilidad.
W
incorporación de palabras
Representación de cada palabra en un conjunto de palabras dentro de vector de incorporación es decir, representar cada palabra como un vector de valores de punto flotante entre 0.0 y 1.0. Palabras con similares significan representaciones más similares que las palabras con significados diferentes. Por ejemplo, zanahorias, apio y pepinos tendrían una cantidad relativamente similares, que serían muy diferentes de aquellas para avión, anteojos de sol y pasta dental.
Z
instrucciones sin ejemplos
Una instrucción que no proporcione un ejemplo de cómo quieres el modelo grande de lenguaje para que responda. Por ejemplo:
Partes de una instrucción | Notas |
---|---|
¿Cuál es la moneda oficial del país especificado? | La pregunta que quieres que el LLM responda. |
India: | Es la consulta real. |
El modelo de lenguaje extenso puede responder con cualquiera de las siguientes opciones:
- Rupia
- INR
- ₹
- Rupia hindú
- La rupia
- La rupia india
Todas las respuestas son correctas, aunque puede que prefieras un formato en particular.
Compara y contrasta la instrucción sin ejemplos con los siguientes términos: