Esta página contém os termos do glossário da IA generativa. Para conferir todos os termos do glossário, clique aqui.
A
avaliação automática
Usar software para avaliar a qualidade da saída de um modelo.
Quando a saída do modelo é relativamente simples, um script ou programa pode comparar a saída do modelo com uma resposta ideal. Esse tipo de avaliação automática às vezes é chamado de avaliação programática. Métricas como ROUGE ou BLEU geralmente são úteis para avaliação programática.
Quando a saída do modelo é complexa ou não tem uma única resposta correta, um programa de ML separado chamado de autoavaliador às vezes realiza a avaliação automática.
Compare com a avaliação humana.
avaliação do autor automático
Um mecanismo híbrido para avaliar a qualidade da saída de um modelo de IA generativa que combina avaliação humana com avaliação automática. Um autor é um modelo de ML treinado com dados criados por avaliação humana. O ideal é que um autor aprenda a imitar um avaliador humano.Há autores automáticos pré-criados disponíveis, mas os melhores são ajustados especificamente para a tarefa que você está avaliando.
modelo autorregressivo
Um modelo que infere uma previsão com base nas próprias previsões anteriores. Por exemplo, os modelos de linguagem auto-regressivos preveem o próximo token com base nos tokens previstos anteriormente. Todos os modelos de linguagem grandes baseados no Transformer são autoregressivos.
Por outro lado, os modelos de imagem baseados em GAN geralmente não são autorregressivos, porque geram uma imagem em uma única passagem para frente e não iterativamente em etapas. No entanto, alguns modelos de geração de imagens são autorregressivos porque geram uma imagem em etapas.
C
comandos de fluxo de consciência
Uma técnica de engenharia de comandos que incentiva um modelo de linguagem grande (LLM) a explicar o raciocínio, passo a passo. Por exemplo, considere o seguinte comando, prestando atenção especial à segunda frase:
Quantas forças g um motorista sentiria em um carro que vai de 0 a 100 km/h em 7 segundos? Na resposta, mostre todos os cálculos relevantes.
A resposta do LLM provavelmente:
- Mostre uma sequência de fórmulas de física, inserindo os valores 0, 60 e 7 nos lugares apropriados.
- Explique por que escolheu essas fórmulas e o significado das várias variáveis.
O comando de fluxo de pensamento força o LLM a realizar todos os cálculos, o que pode levar a uma resposta mais correta. Além disso, a solicitação de cadeia de pensamento permite que o usuário examine as etapas do LLM para determinar se a resposta faz sentido ou não.
chat
O conteúdo de uma conversa com um sistema de ML, geralmente um modelo de linguagem grande. A interação anterior em um chat (o que você digitou e como o modelo de linguagem grande respondeu) se torna o contexto para as partes subsequentes do chat.
Um chatbot é uma aplicação de um modelo de linguagem grande.
Incorporação de linguagem contextualizada
Um embedding que se aproxima de "entender" palavras e frases da mesma forma que falantes nativos. Os embeddings de linguagem contextualizados podem entender sintaxe, semântica e contexto complexos.
Por exemplo, considere as inclusões da palavra em inglês cow. Incorporações mais antigas, como o word2vec, podem representar palavras em inglês de modo que a distância no espaço de incorporação de cow (vaca) a bull (boi) seja semelhante à distância de ewe (ovelha) a ram (bode) ou de female (fêmea) a male (macho). As representações de linguagem contextualizadas podem ir além, reconhecendo que os falantes de inglês às vezes usam casualmente a palavra cow para se referir a vaca ou touro.
janela de contexto
O número de tokens que um modelo pode processar em um determinado comando. Quanto maior a janela de contexto, mais informações o modelo pode usar para fornecer respostas coerentes e consistentes ao comando.
D
comando direto
Sinônimo de comando zero-shot.
destilação
O processo de redução do tamanho de um modelo (conhecido como professor) em um modelo menor (conhecido como aluno) que emula as previsões do modelo original da maneira mais fiel possível. A destilação é útil porque o modelo menor tem dois benefícios importantes em relação ao modelo maior (o professor):
- Tempo de inferência mais rápido
- Uso reduzido de memória e energia
No entanto, as previsões do aluno geralmente não são tão boas quanto as do professor.
A destilação treina o modelo estudante para minimizar uma função de perda com base na diferença entre as saídas das previsões dos modelos de estudante e professor.
Compare e contraste a destilação com os seguintes termos:
Consulte LLMs: Fine-tuning, distillation, and prompt engineering no Curso intensivo de machine learning para mais informações.
E
evals
É usado principalmente como uma abreviação para avaliações de LLM. De forma mais ampla, avaliações é uma abreviação para qualquer forma de avaliação.
Avaliação
O processo de medir a qualidade de um modelo ou comparar modelos diferentes.
Para avaliar um modelo de aprendizado de máquina supervisionado, normalmente você o compara a um conjunto de validação e um conjunto de teste. A avaliação de um LLM normalmente envolve avaliações mais amplas de qualidade e segurança.
F
veracidade
No mundo do ML, uma propriedade que descreve um modelo com saída baseada na realidade. A factualidade é um conceito, não uma métrica. Por exemplo, suponha que você envie o seguinte comando para um modelo de linguagem grande:
Qual é a fórmula química do sal de cozinha?
Um modelo que otimiza a factualidade responderia:
NaCl
É tentador presumir que todos os modelos precisam ser baseados em fatos. No entanto, alguns comandos, como o seguinte, fazem com que um modelo de IA generativa otimize a criatividade em vez da realidade.
Conte uma paródia sobre um astronauta e uma lagarta.
É improvável que a rima resultante seja baseada na realidade.
Contraste com a base.
comando de poucos disparos
Um comando que contém mais de um (um "pouco") exemplo demonstrando como o modelo de linguagem grande precisa responder. Por exemplo, o comando longo a seguir contém dois exemplos que mostram a um modelo de linguagem grande como responder a uma consulta.
Partes de uma instrução | Observações |
---|---|
Qual é a moeda oficial do país especificado? | A pergunta que você quer que o LLM responda. |
França: EUR | Um exemplo. |
Reino Unido: GBP | Outro exemplo. |
Índia: | A consulta real. |
Os comandos de poucos disparos geralmente produzem resultados mais desejáveis do que comandos sem disparos e comandos de um disparo. No entanto, o comando de poucos disparos exige uma solicitação mais longa.
Comandos de poucos disparos (few-shot) são uma forma de aprendizado de poucos disparos aplicada à aprendizagem baseada em comandos.
Consulte Engenharia de comandos no Curso intensivo de machine learning para mais informações.
ajuste fino
Uma segunda passagem de treinamento específica para a tarefa realizada em um modelo pré-treinado para refinar os parâmetros de um caso de uso específico. Por exemplo, a sequência de treinamento completa para alguns modelos de linguagem grandes é a seguinte:
- Pré-treinamento:treine um modelo de linguagem grande em um vasto conjunto de dados geral, como todas as páginas da Wikipedia em inglês.
- Ajuste fino:treine o modelo pré-treinado para realizar uma tarefa específica, como responder a consultas médicas. O ajuste fino normalmente envolve centenas ou milhares de exemplos focados na tarefa específica.
Como outro exemplo, a sequência de treinamento completa para um modelo de imagem grande é esta:
- Pré-treinamento:treine um modelo de imagem grande em um vasto conjunto de imagens geral, como todas as imagens no Wikimedia Commons.
- Ajuste fino:treine o modelo pré-treinado para realizar uma tarefa específica, como gerar imagens de orcas.
O ajuste fino pode envolver qualquer combinação das seguintes estratégias:
- Modificar todos os parâmetros do modelo pré-treinado. Às vezes, isso é chamado de ajuste fino completo.
- Modificar apenas alguns dos parâmetros do modelo pré-treinado (normalmente, as camadas mais próximas da camada de saída), mantendo os outros parâmetros inalterados (normalmente, as camadas mais próximas da camada de entrada). Consulte ajustes de eficiência de parâmetros.
- Adicionar mais camadas, normalmente sobre as camadas existentes mais próximas da camada de saída.
O ajuste fino é uma forma de aprendizado por transferência. Assim, o ajuste fino pode usar uma função de perda ou um tipo de modelo diferente daqueles usados para treinar o modelo pré-treinado. Por exemplo, você pode ajustar um modelo de imagem grande pré-treinado para produzir um modelo de regressão que retorna o número de pássaros em uma imagem de entrada.
Compare e contraste o ajuste fino com os seguintes termos:
Consulte Ajuste fino no Curso intensivo de machine learning para mais informações.
fração de sucessos
Uma métrica para avaliar o texto gerado de um modelo de ML. A fração de sucessos é o número de saídas de texto geradas dividido pelo número total de saídas de texto geradas. Por exemplo, se um modelo de linguagem grande gerar 10 blocos de código, sendo que cinco deles tiveram sucesso, a fração de sucessos será de 50%.
Embora a fração de sucessos seja amplamente útil em estatísticas, no ML, essa métrica é útil principalmente para medir tarefas verificáveis, como a geração de código ou problemas matemáticos.
G
Gemini
O ecossistema que inclui a IA mais avançada do Google. Os elementos desse ecossistema incluem:
- Vários modelos Gemini.
- A interface de conversação interativa de um modelo Gemini. Os usuários digitam comandos, e o Gemini responde a eles.
- Várias APIs Gemini.
- Vários produtos empresariais com base nos modelos Gemini, por exemplo, o Gemini para Google Cloud.
Modelos do Gemini
Modelos multimodais baseados em Transformer de última geração do Google. Os modelos do Gemini foram criados especificamente para serem integrados a agentes.
Os usuários podem interagir com os modelos do Gemini de várias maneiras, incluindo uma interface de diálogo interativa e SDKs.
texto gerado
Em geral, o texto que um modelo de ML gera. Ao avaliar modelos de linguagem grandes, algumas métricas comparam o texto gerado com o texto de referência. Por exemplo, suponha que você esteja tentando determinar a eficácia da tradução de um modelo de ML do francês para o holandês. Nesse caso:
- O texto gerado é a tradução em holandês que o modelo de ML gera.
- O texto de referência é a tradução para o holandês que um tradutor humano (ou software) cria.
Algumas estratégias de avaliação não envolvem texto de referência.
IA generativa
Um campo transformador emergente sem definição formal. A maioria dos especialistas concorda que os modelos de IA generativa podem criar ("gerar") conteúdo que seja:
- complexo
- coerente
- original
Por exemplo, um modelo de IA generativa pode criar textos ou imagens sofisticados.
Algumas tecnologias anteriores, incluindo LSTMs e RNNs, também podem gerar conteúdo original e coerente. Alguns especialistas consideram essas tecnologias anteriores como IA generativa, enquanto outros acreditam que a verdadeira IA generativa exige uma saída mais complexa do que essas tecnologias anteriores.
Compare com o ML preditivo.
resposta dourada
Uma resposta conhecida por ser boa. Por exemplo, considerando o seguinte prompt:
2 + 2
A resposta ideal é:
4
H
avaliação humana
Um processo em que pessoas avaliam a qualidade da saída de um modelo de ML. Por exemplo, pessoas bilíngues podem avaliar a qualidade de um modelo de tradução de ML. A avaliação humana é particularmente útil para avaliar modelos que não têm uma resposta certa.
Compare com a avaliação automática e a avaliação do autoavaliador.
human in the loop (HITL)
Um idioma vagamente definido que pode significar uma das seguintes opções:
- Uma política de visualização crítica ou cética da saída da IA generativa. Por exemplo, as pessoas que escrevem este glossário de ML ficam maravilhadas com o que os modelos de linguagem grandes podem fazer, mas conhecem os erros que eles cometem.
- Uma estratégia ou sistema para garantir que as pessoas ajudem a moldar, avaliar e refinar o comportamento de um modelo. Manter um humano no processo permite que a IA se beneficie da inteligência da máquina e da humana. Por exemplo, um sistema em que uma IA gera código que os engenheiros de software analisam é um sistema humano no processo.
I
aprendizado contextual
Sinônimo de comando de poucos disparos (few-shot).
ajuste de instruções
Uma forma de ajuste fino que melhora a capacidade de um modelo de IA generativa de seguir instruções. O ajuste de instruções envolve o treinamento de um modelo em uma série de comandos de instrução, geralmente cobrindo uma ampla variação de tarefas. O modelo ajustado à instrução resultante tende a gerar respostas úteis para comandos zero-shot em várias tarefas.
Compare e contraste com:
L
LLM
Abreviação de modelo de linguagem grande.
Avaliações de LLM (avaliações)
Um conjunto de métricas e comparativos de mercado para avaliar o desempenho de modelos de linguagem grandes (LLMs). De modo geral, as avaliações de LLMs:
- Ajude os pesquisadores a identificar áreas em que os LLMs precisam de melhorias.
- São úteis para comparar diferentes LLMs e identificar o melhor LLM para uma tarefa específica.
- Ajudar a garantir que os LLMs sejam seguros e éticos.
LoRA
Abreviação de adaptabilidade de baixa classificação.
Adaptabilidade de baixa classificação (LoRA)
Uma técnica eficiente em termos de parâmetros para ajuste fino que "congela" os pesos pré-treinados do modelo para que não possam mais ser modificados e, em seguida, insere um pequeno conjunto de pesos treináveis no modelo. Esse conjunto de pesos treináveis (também conhecido como "matrizes de atualização") é consideravelmente menor do que o modelo base e, portanto, é muito mais rápido de treinar.
O LoRA oferece os seguintes benefícios:
- Melhora a qualidade das previsões de um modelo para o domínio em que o ajuste fino é aplicado.
- Faz ajustes mais rápidos do que técnicas que exigem ajustes em todos os parâmetros de um modelo.
- Reduz o custo computacional da inferência ao permitir a veiculação simultânea de vários modelos especializados que compartilham o mesmo modelo de base.
M
tradução automática
Usar um software (geralmente, um modelo de machine learning) para converter texto de um idioma para outro, por exemplo, do inglês para o japonês.
Precisão média em k (mAP@k)
A média estatística de todas as pontuações de precisão média em k em um conjunto de dados de validação. Um uso da precisão média em k é para julgar a qualidade das recomendações geradas por um sistema de recomendação.
Embora a frase "média da média" pareça redundante, o nome da métrica é apropriado. Afinal, essa métrica encontra a média de vários valores de precisão média em k.
mistura de especialistas
Um esquema para aumentar a eficiência da rede neural usando apenas um subconjunto de parâmetros (conhecido como expert) para processar um determinado token de entrada ou exemplo. Uma rede de restrição encaminha cada token de entrada ou exemplo para o especialista adequado.
Para mais detalhes, consulte um dos seguintes documentos:
- Redes neurais escandalosamente grandes: a camada de mistura de especialistas com portão pouco aberto
- Mixture-of-Experts com roteamento de escolha de especialista
MMIT
Abreviação de multimodal instruction-tuned.
modelo em cascata
Um sistema que escolhe o modelo ideal para uma consulta de inferência específica.
Imagine um grupo de modelos, variando de muito grandes (muitos parâmetros) a muito menores (muito menos parâmetros). Modelos muito grandes consomem mais recursos computacionais no momento da inferência do que modelos menores. No entanto, modelos muito grandes geralmente podem inferir solicitações mais complexas do que modelos menores. A cascata de modelos determina a complexidade da consulta de inferência e, em seguida, escolhe o modelo apropriado para realizar a inferência. A principal motivação para a cascata de modelos é reduzir os custos de inferência, geralmente selecionando modelos menores e apenas selecionando um modelo maior para consultas mais complexas.
Imagine que um modelo pequeno seja executado em um smartphone e uma versão maior dele seja executada em um servidor remoto. Uma boa cascata de modelos reduz o custo e a latência, permitindo que o modelo menor processe solicitações simples e chamando apenas o modelo remoto para processar solicitações complexas.
Consulte também model router.
roteador de modelo
O algoritmo que determina o modelo ideal para inferência na cascata de modelos. Um roteador de modelo é geralmente um modelo de aprendizado de máquina que aprende gradualmente a escolher o melhor modelo para uma determinada entrada. No entanto, um roteador de modelo às vezes pode ser um algoritmo mais simples, sem machine learning.
MOE
Abreviação de mistura de especialistas.
MT
Abreviação de tradução automática.
N
nenhuma resposta certa (NORA)
Um comando com várias respostas adequadas. Por exemplo, o comando a seguir não tem uma resposta certa:
Conte uma piada sobre elefantes.
Avaliar comandos sem uma resposta certa pode ser um desafio.
NORA
Abreviação de não há uma resposta certa.
O
comando one-shot
Um comando que contém um exemplo demonstrando como o modelo de linguagem grande deve responder. Por exemplo, o comando a seguir contém um exemplo que mostra a um modelo de linguagem grande como responder a uma consulta.
Partes de uma instrução | Observações |
---|---|
Qual é a moeda oficial do país especificado? | A pergunta que você quer que o LLM responda. |
França: EUR | Um exemplo. |
Índia: | A consulta real. |
Compare e contraste a solicitação única com os seguintes termos:
P
ajuste da eficiência dos parâmetros
Um conjunto de técnicas para ajustar um modelo de linguagem grande pré-treinado (PLM) de maneira mais eficiente do que o ajuste completo. O ajuste com eficiência de parâmetros normalmente ajusta com eficiência muito menos parâmetros do que o ajuste fino completo, mas geralmente produz um modelo de linguagem grande que tem o mesmo desempenho (ou quase o mesmo) de um modelo de linguagem grande criado com o ajuste fino completo.
Compare o ajuste da eficiência dos parâmetros com:
O ajuste com eficiência de parâmetros também é conhecido como ajuste fino com eficiência de parâmetros.
PLM
Abreviação de modelo de linguagem pré-treinado.
modelo pós-treinamento
Termo vagamente definido que geralmente se refere a um modelo pré-treinado que passou por algum pós-processamento, como um ou mais dos seguintes:
modelo pré-treinado
Normalmente, um modelo que já foi treinado. O termo também pode significar um vetor de embeddings treinado anteriormente.
O termo modelo de linguagem pré-treinado geralmente se refere a um modelo de linguagem grande já treinado.
pré-treinamento
O treinamento inicial de um modelo em um grande conjunto de dados. Alguns modelos pré-treinados são gigantes desajeitados e geralmente precisam ser refinados com mais treinamento. Por exemplo, especialistas em ML podem pré-treinar um modelo de linguagem grande em um grande conjunto de dados de texto, como todas as páginas em inglês da Wikipédia. Após o pré-treinamento, o modelo resultante pode ser refinado com qualquer uma das seguintes técnicas:
prompt
Qualquer texto inserido como entrada em um modelo de linguagem grande para condicionar o modelo a se comportar de uma determinada maneira. As solicitações podem ser tão curtas quanto uma frase ou arbitrariamente longas (por exemplo, o texto inteiro de um romance). As instruções se dividem em várias categorias, incluindo as mostradas na tabela a seguir:
Categoria de comando | Exemplo | Observações |
---|---|---|
Pergunta | A que velocidade um pombo pode voar? | |
Instrução | Escreva um poema engraçado sobre arbitragem. | Um comando que pede ao modelo de linguagem grande para fazer algo. |
Exemplo | Traduzir o código Markdown para HTML. Por exemplo:
Markdown: * item da lista HTML: <ul> <li>item da lista</li> </ul> |
A primeira frase neste exemplo de comando é uma instrução. O restante da instrução é o exemplo. |
Papel | Explique por que a descida do gradiente é usada no treinamento de machine learning para um PhD em Física. | A primeira parte da frase é uma instrução. A frase "a um PhD em física" é a parte do papel. |
Entrada parcial para o modelo concluir | O primeiro-ministro do Reino Unido mora em | Um comando de entrada parcial pode terminar abruptamente (como neste exemplo) ou com um sublinhado. |
Um modelo de IA generativa pode responder a um comando com texto, código, imagens, embeddings, vídeos... quase tudo.
aprendizagem baseada em instruções
Um recurso de determinados modelos que permite que eles adaptem o comportamento em resposta a entradas de texto arbitrárias (comandos). Em um paradigma de aprendizado típico baseado em comandos, um modelo de linguagem grande responde a um comando gerando texto. Por exemplo, suponha que um usuário insira o seguinte comando:
Resuma a terceira lei do movimento de Newton.
Um modelo capaz de aprendizado com base em comandos não é treinado especificamente para responder ao comando anterior. Em vez disso, o modelo "sabe" muitos fatos sobre física, muitas regras gerais de linguagem e muito sobre o que constitui respostas geralmente úteis. Esse conhecimento é suficiente para fornecer uma resposta útil. Outros feedbacks humanos ("Essa resposta foi muito complicada" ou "O que é uma reação?") permitem que alguns sistemas de aprendizagem baseados em comandos melhorem gradualmente a utilidade das respostas.
design de comandos
Sinônimo de engenharia de comando.
engenharia de comando
A arte de criar comandos que extraem as respostas desejadas de um modelo de linguagem grande. Os humanos fazem a engenharia de comandos. Escrever comandos bem estruturados é uma parte essencial para garantir respostas úteis de um modelo de linguagem grande. A engenharia de prompts depende de muitos fatores, incluindo:
- O conjunto de dados usado para pré-treinar e, possivelmente, ajustar o modelo de linguagem grande.
- A temperatura e outros parâmetros de decodificação que o modelo usa para gerar respostas.
Consulte Introdução à criação de comandos para mais detalhes sobre como escrever comandos úteis.
Design de comandos é sinônimo de engenharia de comandos.
ajuste de comando
Um mecanismo de ajuste eficiente de parâmetros que aprende um "prefixo" que o sistema adiciona ao comando.
Uma variação do ajuste de comando, às vezes chamada de ajuste de prefixo, é adicionar o prefixo em cada camada. Em contraste, a maioria dos ajustes de comando só adiciona um prefixo à camada de entrada.
R
texto de referência
A resposta de um especialista a um comando. Por exemplo, considerando o seguinte comando:
Traduzir a pergunta "What is your name?" (Qual é seu nome?) do inglês para o francês.
A resposta de um especialista pode ser:
Comment vous appelez-vous?
Várias métricas (como ROUGE) medem o grau em que o texto de referência corresponde ao texto gerado de um modelo de ML.
Aprendizado por reforço com feedback humano (RLHF)
Usar o feedback de avaliadores humanos para melhorar a qualidade das respostas de um modelo. Por exemplo, um mecanismo de RLHF pode pedir que os usuários avaliem a qualidade da resposta de um modelo com um emoji 👍 ou 👎. O sistema pode ajustar as respostas futuras com base nesse feedback.
comando de função
Uma parte opcional de um comando que identifica um público-alvo para a resposta de um modelo de IA generativa. Sem um comando de função, um modelo de linguagem grande fornece uma resposta que pode ou não ser útil para a pessoa que faz as perguntas. Com um comando de função, um modelo de linguagem grande pode responder de uma maneira mais adequada e útil para um público-alvo específico. Por exemplo, a parte do comando de função dos comandos a seguir está em negrito:
- Resuma este artigo para um PhD em economia.
- Descrever como as marés funcionam para uma criança de 10 anos.
- Explique a crise financeira de 2008. Fale como se estivesse falando com uma criança ou um golden retriever.
S
ajuste de comando suave
Uma técnica para ajustar um modelo de linguagem grande para uma tarefa específica, sem recursos intensivos de ajuste fino. Em vez de treinar novamente todos os pesos no modelo, o ajuste suave do comando ajusta automaticamente um comando para alcançar o mesmo objetivo.
Dado um comando textual, o ajuste de comando suave normalmente anexa outras embeddings de token ao comando e usa a propagação de volta para otimizar a entrada.
Um comando "difícil" contém tokens reais, em vez de incorporações de token.
T
temperatura
Um hiperparâmetro que controla o grau de aleatoriedade da saída de um modelo. Temperaturas mais altas resultam em saídas mais aleatórias, enquanto temperaturas mais baixas resultam em saídas menos aleatórias.
A escolha da melhor temperatura depende da aplicação específica e das propriedades preferidas da saída do modelo. Por exemplo, você provavelmente aumentaria a temperatura ao criar um aplicativo que gera saídas criativas. Por outro lado, você provavelmente diminuiria a temperatura ao criar um modelo que classifica imagens ou texto para melhorar a precisão e a consistência do modelo.
A temperatura é frequentemente usada com softmax.
Z
comando zero-shot
Um comando que não fornece um exemplo de como você quer que o modelo de linguagem grande responda. Exemplo:
Partes de uma instrução | Observações |
---|---|
Qual é a moeda oficial do país especificado? | A pergunta que você quer que o LLM responda. |
Índia: | A consulta real. |
O modelo de linguagem grande pode responder com qualquer uma das seguintes opções:
- Rúpia
- INR
- ₹
- Rúpias indianas
- A rúpia
- A rupia indiana
Todas as respostas estão corretas, mas você pode preferir um formato específico.
Compare e contraste a ativação de zero-shot com os seguintes termos: