Glossário de machine learning: IA generativa

Nesta página, você encontra os termos do glossário da IA generativa. Para ver todos os termos do glossário, clique aqui.

A

modelo autoregressivo

#language
#image
IA generativa

Um model que infere uma previsão com base nas próprias previsões anteriores. Por exemplo, os modelos de linguagem autorregressivos preveem o próximo token com base nos tokens previstos anteriormente. Todos os modelos de linguagem grandes baseados em Transformer são autorregressivos.

Por outro lado, os modelos de imagem baseados em GAN geralmente não são autorregressivos, porque geram uma imagem em uma única passagem direta e não de maneira iterativa em etapas. No entanto, alguns modelos de geração de imagens são autorregressivos porque geram uma imagem em etapas.

C

comandos de cadeia de pensamento

#language
IA generativa

Uma técnica de engenharia de comando que incentiva um modelo de linguagem grande (LLM) para explicar o raciocínio passo a passo. Por exemplo, considere o comando a seguir, prestando atenção especial à segunda frase:

Quantas forças g um motorista experimentaria em um carro que vai de 0 a 90 milhas por hora em 7 segundos? Na resposta, mostre todos os cálculos relevantes.

A resposta do LLM provavelmente:

  • Mostre uma sequência de fórmulas físicas, inserindo os valores 0, 60 e 7 nos locais adequados.
  • Explique por que escolheu essas fórmulas e o que as diversas variáveis significam.

A solicitação de cadeia de pensamento força o LLM a realizar todos os cálculos, o que pode levar a uma resposta mais correta. Além disso, a solicitação de cadeia de pensamento permite que o usuário examine as etapas do LLM para determinar se a resposta faz sentido ou não.

D

solicitações diretas

#language
IA generativa

Sinônimo de zero-shot prompting.

destilação

IA generativa

O processo de reduzir o tamanho de um model (conhecido como model) em um modelo menor (conhecido como model) que emula as previsões do modelo original da maneira mais fiel possível. A destilação é útil porque o modelo menor tem dois benefícios principais sobre o modelo maior (o professor):

  • Tempo de inferência mais rápido
  • Redução do uso de memória e energia

No entanto, as previsões do estudante normalmente não são tão boas quanto as do professor.

A destilação treina o modelo do estudante para minimizar uma função de perda com base na diferença entre os resultados das previsões dos modelos de estudante e professor.

Compare e contraste a destilação com os seguintes termos:

F)

comando few shot

#language
IA generativa

Uma solicitação que contém mais de um (alguns) exemplo que demonstram como o modelo de linguagem grande precisa responder. O prompt longo a seguir contém dois exemplos que mostram um modelo de linguagem grande como responder a uma consulta.

Partes de um comando Observações
Qual é a moeda oficial do país especificado? A pergunta que você quer que o LLM responda.
França: EUR Um exemplo.
Reino Unido: GBP Outro exemplo.
Índia: A consulta real.

A solicitação de poucas fotos geralmente produz resultados mais desejáveis do que a solicitação zero-shot e a solicitação única. No entanto, os prompts de few shot requerem um prompt mais longo.

A criação de prompts de few shot é uma forma de aprendizado de poucas imagens aplicada ao aprendizado baseado em comandos.

ajuste

#language
#image
IA generativa

Um segundo passe de treinamento específico para a tarefa realizado em um modelo pré-treinado para refinar os parâmetros dele para um caso de uso específico. Por exemplo, a sequência de treinamento completa para alguns modelos de linguagem grandes é a seguinte:

  1. Pré-treinamento:treine um modelo de linguagem grande em um conjunto de dados geral vasto, como todas as páginas da Wikipédia em inglês.
  2. Ajuste:treine o modelo pré-treinado para executar uma tarefa específica, como responder a consultas médicas. Normalmente, o ajuste envolve centenas ou milhares de exemplos focados na tarefa específica.

Como outro exemplo, a sequência de treinamento completa para um modelo de imagem grande é a seguinte:

  1. Pré-treinamento:treine um modelo de imagem grande em um conjunto de dados geral vasto, como todas as imagens no Wikimedia commons.
  2. Ajuste:treine o modelo pré-treinado para executar uma tarefa específica, como gerar imagens de orcas.

O ajuste pode envolver qualquer combinação das seguintes estratégias:

  • Modificar todos os parâmetros existentes do modelo pré-treinado. Às vezes, isso é chamado de ajuste completo.
  • Modificar apenas alguns dos parâmetros atuais do modelo pré-treinado (geralmente as camadas mais próximas da camada de saída), mantendo outros parâmetros inalterados (normalmente, as camadas mais próximas à camada de entrada). Consulte ajuste da eficiência de parâmetros.
  • Adição de mais camadas, normalmente sobre as camadas existentes mais próximas da camada de saída.

O ajuste é uma forma de aprendizado por transferência. Assim, o ajuste pode usar uma função de perda ou um tipo de modelo diferentes dos usados para treinar o modelo pré-treinado. Por exemplo, é possível ajustar um modelo de imagem grande pré-treinado para produzir um modelo de regressão que retorne o número de pássaros em uma imagem de entrada.

Compare e contraste o ajuste com os seguintes termos:

G

a IA generativa

#language
#image
IA generativa

Um campo transformador emergente sem definição formal. Dito isso, a maioria dos especialistas concorda que os modelos de IA generativa podem criar ("gerar") conteúdo que seja:

  • complexo
  • coerentes
  • original

Por exemplo, um modelo de IA generativa pode criar ensaios ou imagens sofisticadas.

Algumas tecnologias anteriores, incluindo LSTMs e RNNs, também podem gerar conteúdo original e coerente. Alguns especialistas veem essas tecnologias anteriores como IA generativa, enquanto outros acreditam que a verdadeira IA generativa exige um resultado mais complexo do que as tecnologias anteriores podem produzir.

Contraste com o ML preditivo.

I

aprendizado em contexto

#language
IA generativa

Sinônimo de few-shot prompting.

ajuste de instruções

IA generativa

Uma forma de ajuste que melhora a capacidade de um modelo de IA generativa seguir as instruções. O ajuste de instruções envolve o treinamento de um modelo em uma série de prompts de instrução, normalmente abrangendo uma ampla variedade de tarefas. O modelo ajustado por instruções resultante tende a gerar respostas úteis a solicitações zero-shot em várias tarefas.

Comparar e contrastar com:

O

criação de comando one-shot

#language
IA generativa

Um prompt com um exemplo que demonstra como o modelo de linguagem grande deve responder. Na solicitação a seguir, há um exemplo que mostra um modelo de linguagem grande para responder a uma consulta.

Partes de um comando Observações
Qual é a moeda oficial do país especificado? A pergunta que você quer que o LLM responda.
França: EUR Um exemplo.
Índia: A consulta real.

Compare e contraste a solicitação de comando único com os seguintes termos:

P

ajuste de eficiência de parâmetros

#language
IA generativa

Um conjunto de técnicas para ajustar um grande modelo de linguagem pré-treinado com mais eficiência do que o ajuste completo. O ajuste da eficiência de parâmetros normalmente ajusta muito menos parâmetros do que o ajuste completo. No entanto, geralmente produz um modelo de linguagem grande que tem um desempenho tão bom (ou quase tão bom) quanto um modelo de linguagem grande criado com base em um ajuste completo.

Compare e contraste o ajuste da eficiência de parâmetros com:

O ajuste da eficiência de parâmetros também é conhecido como ajuste da eficiência de parâmetros.

PLM

#language
IA generativa

Abreviação de modelo de idioma pré-treinado (em inglês).

pré-treinado

#language
#image
IA generativa

Modelos ou componentes do modelo (como um vetor de incorporação) que já foram treinados. Às vezes, você alimentará vetores de embedding pré-treinados em uma rede neural (link em inglês). Outras vezes, o modelo treinará os próprios vetores de embedding, em vez de depender de embeddings pré-treinados.

O termo modelo de linguagem pré-treinado se refere a um modelo de linguagem grande que passou por pré-treinamento.

pré-treinamento

#language
#image
IA generativa

Treinamento inicial de um modelo em um grande conjunto de dados. Alguns modelos pré-treinados são gigantes desajeitados e normalmente precisam ser refinados com outros treinamentos. Por exemplo, os especialistas em ML podem pré-treinar um modelo de linguagem grande em um vasto conjunto de dados de texto, como todas as páginas em inglês na Wikipédia. Após o pré-treinamento, o modelo resultante pode ser refinado ainda mais com qualquer uma destas técnicas:

prompt

#language
IA generativa

Qualquer texto inserido como entrada em um modelo de linguagem grande para condicionar o modelo a se comportar de uma determinada maneira. As instruções podem ser curtas, como uma frase, ou arbitrariamente longas (por exemplo, o texto inteiro de um romance). As solicitações se enquadram em várias categorias, incluindo as mostradas na tabela abaixo:

Categoria da solicitação Exemplo Observações
Pergunta Qual é a velocidade de um pombo?
Instrução Escreva um poema engraçado sobre arbitragem. Um prompt que pede ao modelo de linguagem grande para fazer algo.
Exemplo Traduza o código Markdown para HTML. Por exemplo:
Markdown: * item de lista
HTML: <ul> <li>item de lista</li> </ul>
A primeira frase do prompt de exemplo é uma instrução. O restante do comando é o exemplo.
Papel Explicar por que o gradiente descendente é usado no treinamento de machine learning até um PhD em física. A primeira parte da frase é uma instrução. A frase "a um PhD em física" é a parte do papel.
Entrada parcial para o modelo concluir O primeiro-ministro do Reino Unido mora em Um prompt de entrada parcial pode terminar abruptamente (como no exemplo) ou com um sublinhado.

Um modelo de IA generativa pode responder a um prompt com texto, código, imagens, embeddings, vídeos... quase qualquer coisa.

aprendizado baseado em comandos

#language
IA generativa

Um recurso de determinados modelos que permite adaptar o comportamento em resposta a entradas arbitrárias de texto (solicitações). Em um paradigma típico de aprendizado baseado em prompt, um modelo de linguagem grande responde a um comando gerando texto. Por exemplo, suponha que um usuário insira o seguinte comando:

Resumir a terceira lei do movimento de Newton.

Um modelo capaz de aprendizado baseado em comandos não é treinado especificamente para responder à instrução anterior. Em vez disso, o modelo "sabe" muitos fatos sobre física, muitos sobre regras gerais de linguagem e muito sobre o que constitui respostas geralmente úteis. Esse conhecimento é suficiente para fornecer uma resposta (esperamos) útil. O feedback humano extra ("Essa resposta foi muito complicada" ou "O que é uma reação?") permite que alguns sistemas de aprendizado baseados em comandos melhorem gradualmente a utilidade das respostas.

design de comandos

#language
IA generativa

Sinônimo de prompt Engineering (engenharia de comando).

engenharia de prompts

#language
IA generativa

A arte de criar solicitações que recebem as respostas desejadas de um modelo de linguagem grande. Os humanos realizam a engenharia de prompts. Escrever prompts bem estruturados é uma parte essencial para garantir respostas úteis de um modelo de linguagem grande. A engenharia de prompts depende de muitos fatores, incluindo:

  • O conjunto de dados usado para pré-treinar e possivelmente ajustar o modelo de linguagem grande.
  • A temperatura e outros parâmetros de decodificação que o modelo usa para gerar respostas.

Consulte Introdução ao design de comandos para saber mais sobre como criar comandos úteis.

Design de prompts é um sinônimo de engenharia de prompts.

ajuste de prompts

#language
IA generativa

Um mecanismo de ajuste de parâmetro eficiente que aprende um "prefixo" anexado pelo sistema ao prompt real.

Uma variação do ajuste de prompts, às vezes chamado de ajuste de prefixo, é inserir o prefixo em todas as camadas. Por outro lado, a maioria do ajuste de prompts só adiciona um prefixo à camada de entrada.

R

Aprendizado por reforço com base no feedback humano (RLHF, na sigla em inglês)

IA generativa
#rl

Como usar o feedback de avaliadores humanos para melhorar a qualidade das respostas de um modelo. Por exemplo, um mecanismo de RLHF pode pedir que os usuários avaliem a qualidade da resposta de um modelo com um emoji 👍 ou 👎. O sistema pode ajustar as respostas futuras com base nesse feedback.

solicitação de papéis

#language
IA generativa

Uma parte opcional de uma solicitação que identifica um público-alvo para a resposta de um modelo de IA generativa. Sem um prompt de papel, um modelo de linguagem grande fornece uma resposta que pode ou não ser útil para a pessoa que faz as perguntas. Com um prompt de papel, um modelo de linguagem grande pode responder de uma maneira mais adequada e mais útil para um público-alvo específico. Por exemplo, a parte do prompt de papel das seguintes solicitações está em negrito:

  • Resuma este artigo sobre um PhD em economia.
  • Descreva como as marés funcionam para uma criança de 10 anos.
  • Explicar a crise financeira de 2008. Fale como você fala com uma criança ou um golden retriever.

T

temperatura

#language
#image
IA generativa

Um hiperparâmetro que controla o grau de aleatoriedade da saída de um modelo. Temperaturas mais altas resultam em uma saída mais aleatória, enquanto temperaturas mais baixas resultam em menos saídas aleatórias.

A escolha da melhor temperatura depende do aplicativo específico e das propriedades desejadas da saída do modelo. Por exemplo, você provavelmente aumentaria a temperatura ao criar um aplicativo que gera resultados criativos. Por outro lado, você provavelmente diminuiria a temperatura ao criar um modelo que classifica imagens ou texto para melhorar a precisão e consistência do modelo.

A temperatura geralmente é usada com o softmax (em inglês).

Z

comando "zero-shot"

#language
IA generativa

Uma solicitação que não forneça um exemplo de como você quer que o modelo de linguagem grande responda. Exemplo:

Partes de um comando Observações
Qual é a moeda oficial do país especificado? A pergunta que você quer que o LLM responda.
Índia: A consulta real.

O modelo de linguagem grande pode responder com qualquer uma das seguintes opções:

  • Rúpia
  • INR
  • Rúpias indianas
  • A rúpia
  • A rúpia indiana

Todas as respostas estão corretas, embora você possa preferir um formato específico.

Compare e contraste a solicitação "zero-shot" com os seguintes termos: