Esta página foi traduzida pela API Cloud Translation.

LLMs: o que é um modelo de linguagem grande?

Uma tecnologia mais nova, modelos de linguagem grandes (LLMs) prever um token ou sequência de tokens, às vezes muitos parágrafos tokens previstos. Lembre-se de que um token pode ser uma palavra, uma subpalavra (um subconjunto uma palavra) ou até mesmo um único caractere. LLMs fazem previsões muito melhores do que os modelos de linguagem N-gram ou redes neurais recorrentes porque:

Os LLMs contêm muito mais parâmetros do que os recorrentes.
Os LLMs coletam muito mais contexto.

Esta seção apresenta a arquitetura mais bem-sucedida e amplamente utilizada para criar LLMs: o transformador.

O que é um transformador?

Os transformadores são a arquitetura de última geração para uma ampla variedade aplicativos de modelo de linguagem, como tradução:

Figura 1. A informação é: eu sou um bom cachorro. Um modelo baseado em transformador
tradutor transforma essa entrada em saída: Je suis un bon
chien, que é a mesma frase traduzida para o francês. — **Figura 1.** um aplicativo baseado em Transformer que traduz do inglês para o francês.

Os transformadores completos consistem em um codificador e um decodificador:

Um codificador converte inserir texto em uma representação intermediária. Um codificador é um modelo rede neural.
Um decodificador converte essa representação intermediária em um texto útil. Um decodificador também é uma rede neural imensa.

Por exemplo, em um tradutor:

O codificador processa o texto de entrada (por exemplo, uma frase em inglês) em alguma representação intermediária.
O decodificador converte essa representação intermediária em texto de saída (por exemplo, a frase em francês equivalente).

Figura 2. O conversor baseado em Transformer começa com um codificador,
que gera uma representação intermediária de um idioma
frase. O decodificador converte essa representação intermediária em
uma frase de saída em francês. — **Figura 2.** Um transformador completo contém um codificador e um decodificador.

Clique no ícone para saber mais sobre transformadores parciais.

O foco deste módulo são transformadores completos, que contêm e um decodificador, No entanto, as arquiteturas somente de codificador e de decodificador também existente:

As arquiteturas somente de codificador mapeiam o texto de entrada em um representação visual (muitas vezes, uma camada de incorporação). Os casos de uso para arquiteturas somente de codificador incluem:
- A previsão de qualquer token na sequência de entrada (que é o método convencional e a função dos modelos de linguagem).
- Criar um embedding sofisticado, que pode servir como entrada para outro sistema, como um classificador.
As arquiteturas somente decodificadores geram novos tokens a partir do texto gerada. Os modelos somente decodificador costumam se destacar na geração de sequências. os modelos modernos somente de decodificador podem usar o poder de geração continuações de históricos de diálogos e outros comandos.

O que é autoatenção?

Para contextualizar, os transformadores dependem muito de um conceito chamado autoatenção. Efetivamente, em nome de cada token de entrada, a autoatenção pede a seguinte pergunta:

"Quanto cada token de entrada afeta a interpretação token?"

O "eu" na "autoatenção" refere-se à sequência de entrada. Atenção Os mecanismos ponderam as relações entre os tokens de entrada e os tokens em uma sequência de saída, como uma tradução ou para tokens em alguma outra sequência. Mas apenas autoatenção pondera a importância das relações entre tokens na sequência de entrada.

Para simplificar, suponha que cada token seja uma palavra e o o contexto é de apenas uma frase. Considere a seguinte frase:

The animal didn't cross the street because it was too tired.

A frase anterior contém onze palavras. Cada uma das onze palavras é prestando atenção nas outras dez, imaginando quanto cada uma dessas dez palavras é importante para si. Por exemplo, observe que a sentença contém o pronome ele. Os pronomes geralmente são ambíguos. O pronome it normalmente se refere a uma substantivo ou sintagma nominal recente, mas, na sentença de exemplo, qual substantivo recente ele se refere: ao animal ou à rua?

O mecanismo de autoatenção determina a relevância de cada palavra próxima para o pronome it. A Figura 3 mostra os resultados; quanto mais azul a linha, mais importante que a palavra seja para o pronome ele. Ou seja, animal é mais importante que street ao pronome it.

Figura 3. A relevância de cada uma das onze palavras da frase:
"O animal não atravessou a rua porque estava cansado demais"
ao pronome "it". A palavra "animal" é o mais relevante para
o pronome "it". — **Figura 3**. Autoatenção no pronome it. De Transformer: uma nova arquitetura de rede neural para Compreensão da linguagem.

Por outro lado, suponha que a última palavra da frase mude da seguinte maneira:

The animal didn't cross the street because it was too wide.

Nesta frase revisada, espera-se que a autoatenção classifique street como é mais relevante que animal no pronome it.

Alguns mecanismos de autoatenção são bidirecionais, o que significa que calcular pontuações de relevância para tokens antes e após a palavra que está sendo que nunca frequentou. Por exemplo, na Figura 3, observe que palavras em ambos os lados ele são examinados. Assim, um mecanismo de autoatenção bidirecional pode reunir contexto de palavras em ambos os lados da palavra que está sendo assistida. Por outro lado, o mecanismo de autoatenção unidirecional só pode coletar contexto de palavras em um lado da palavra que está sendo assistida. A autoatenção bidirecional é especialmente útil para gerar representações de sequências inteiras, enquanto os aplicativos que geram sequências token por token exigem autoatenção. Por isso, os codificadores usam autoatenção bidirecional, enquanto os decodificadores usam unidirecional.

O que é a autoatenção de várias cabeças?

Cada camada de autoatenção é normalmente composta por várias cabeças de autoatenção. O resultado de uma camada é uma operação matemática (por exemplo, média ponderada ou produto escalar) da saída do cabeças diferentes.

Como cada camada de autoatenção é inicializada com valores aleatórios, os cabeçalhos diferentes possam aprender diferentes relações entre cada palavra assistida e a palavras próximas. Por exemplo, a camada de autoatenção descrita no foco em determinar a qual substantivo o pronome ele se refere. No entanto, outras camadas de autoatenção podem aprender a relevância gramatical de cada palavra com cada palavra ou aprender outras interações.

Clique no ícone e saiba mais sobre o Big O para LLMs.

A autoatenção força cada palavra no contexto a a relevância de todas as outras palavras no contexto. Então, é tentador para declarar isso um problema O(N²), em que:

N é o número de tokens no contexto.

Como se o Big O anterior não fosse suficientemente perturbador, os Transformers várias camadas de autoatenção e várias cabeças de autoatenção por de autoatenção. Portanto, o Big O terá:

O(N² · S · D)

em que:

S é o número de camadas de autoatenção.
D é o número de cabeçalhos por camada.

Clique no ícone para saber mais sobre como os LLMs são treinados.

É provável que você nunca treine um LLM do zero. Treinar um LLMs de força industrial exigem muito conhecimento sobre ML, recursos computacionais e tempo. Independentemente disso, você clicou no ícone saber mais, por isso, devemos a você uma explicação.

O principal ingrediente na criação de um LLM é uma quantidade fenomenal de dados de treinamento (texto), geralmente um pouco filtrados. A primeira fase do treinamento geralmente é alguma forma não supervisionado com base nos dados de treinamento. Especificamente, o modelo é treinado com previsões mascaradas, o que significa que certos tokens nos dados de treinamento são intencionalmente ocultos. O modelo treina tentando prever esses tokens ausentes. Por exemplo, suponha que: ou frase faz parte dos dados de treinamento:

The residents of the sleepy town weren't prepared for what came next.

Os tokens aleatórios são removidos, por exemplo:

The ___ of the sleepy town weren't prepared for ___ came next.

Um LLM é apenas uma rede neural, portanto a perda (o número de tokens mascarados considerado corretamente) orienta o grau em que a retropropagação atualiza valores de parâmetros.

Um modelo baseado em transformador treinado para prever dados ausentes gradualmente aprende a detectar padrões e estruturas de ordem superior nos dados para conseguir pistas sobre o token ausente. Considere o seguinte exemplo de instância mascarada:

Oranges are traditionally ___ by hand. Once clipped from a tree, __ don't ripen.

O treinamento extensivo com o uso de muitos exemplos mascarados possibilita um LLM para aprender que “colhidos” ou "escolhidos" são correspondências de alta probabilidade para o primeiro token e "laranjas" ou "eles" são boas opções para o segundo token.

Uma etapa adicional de treinamento opcional chamada instrução pode melhorar a capacidade do LLM de seguir instruções.

Por que os transformadores são tão grandes?

os transformadores contêm centenas de bilhões ou até trilhões de parameters. Este curso geralmente recomenda a criação de modelos com menor número de parâmetros em relação àqueles com um número maior de parâmetros. Afinal, um modelo com um número menor de parâmetros usa menos recursos para fazer previsões do que um modelo com um número maior de parâmetros. No entanto, as pesquisas mostram que transformadores com mais parâmetros supere consistentemente transformadores com menos parâmetros.

Mas como um LLM gera texto?

Você já viu como os pesquisadores treinam LLMs para prever uma ou duas palavras que faltam pode não se impressionar. Afinal, prever uma ou duas palavras é essencialmente recurso de preenchimento automático integrado a vários softwares de texto, e-mail e autoria. Talvez você esteja se perguntando como os LLMs podem gerar frases, parágrafos ou haicais sobre arbitragem.

Na verdade, os LLMs são mecanismos de preenchimento automático que prever (completar) milhares de tokens. Por exemplo, considere uma frase seguida por uma frase mascarada:

My dog, Max, knows how to perform many traditional dog tricks.
___ (masked sentence)

Um LLM pode gerar probabilidades para a frase mascarada, incluindo:

Probabilidade	Palavras
3,1%	Por exemplo, ele pode sentar, ficar e rolarão.
2,9%	Por exemplo, ele sabe como sentar, ficar e rolarão.

Um LLM grande o suficiente pode gerar probabilidades para parágrafos e parágrafos inteiros redações. Pense nas perguntas de um usuário para um LLM como o frase seguida por uma máscara imaginária. Exemplo:

User's question: What is the easiest trick to teach a dog?
LLM's response:  ___

O LLM gera probabilidades para várias respostas possíveis.

Como outro exemplo, um LLM treinado com um grande número de "palavras matemáticas" problemas" pode dar a aparência de um raciocínio matemático sofisticado. No entanto, esses LLMs apenas preenchem automaticamente um comando de problema de palavra.

Benefícios dos LLMs

LLMs podem gerar textos claros e fáceis de entender para uma vários públicos-alvo. LLMs podem fazer previsões sobre tarefas explicitamente treinados. Alguns pesquisadores afirmam que os LLMs também podem previsões para entradas com as quais não foram treinadas explicitamente, mas outras os pesquisadores refutaram essa afirmação.

Problemas com LLMs

O treinamento de um LLM envolve muitos problemas, incluindo:

Reunir um conjunto de treinamento enorme.
Consumo de vários meses e enormes recursos computacionais e eletricidade.
Como resolver desafios de paralelismo

O uso de LLMs para inferir previsões causa os seguintes problemas:

Os LLMs alucinam, ou seja, as previsões costumam conter erros.
Os LLMs consomem uma enorme quantidade de recursos computacionais e eletricidade. Treinar LLMs em conjuntos de dados maiores costuma reduzir a quantidade de recursos necessários para inferência, embora o modelo de geram mais recursos de treinamento.
Como todos os modelos de ML, os LLMs podem apresentar todos os tipos de vieses.

Exercício: testar seu conhecimento

Suponha que um transformador seja treinado com um bilhão de documentos, incluindo milhares de documentos contendo pelo menos uma ocorrência da palavra elefante. Quais das afirmações a seguir provavelmente são verdadeiras?

Árvores acácias, uma parte importante da dieta dos elefantes, ganhar gradualmente uma alta pontuação de autoatenção com a palavra elefante.

Sim, e isso permitirá que o Transformer responda perguntas sobre a dieta de um elefante.

O transformador associará a palavra elephant a várias expressões que contenham a palavra elephant (elefante).

Sim, o sistema vai começar a anexar altas pontuações de autoatenção entre a palavra elephant e outras palavras em expressões idiomáticas de elefantes.

Aos poucos, o Transformer aprenderá a ignorar qualquer usos irônicos da palavra elefante em dados de treinamento.

Transformadores grandes o suficiente treinados em uma de treinamento a reconhecer sarcasmo, humor, e ironia. Então, em vez de ignorar o sarcasmo e a ironia, o transformador aprende com ele.

Introdução: o que é um modelo de linguagem? (10 min)

ajuste fino, destilação e engenharia de comando (10 min)