Introdução aos modelos de linguagem grandes

Ainda não conhece modelos de linguagem ou modelos de linguagem grandes? Confira os recursos abaixo.

O que é um modelo de linguagem?

Um modelo de linguagem é uma ferramenta de machine learning modelo que visa prever e gerar linguagem plausível. O preenchimento automático é uma de linguagem grande, por exemplo.

Esses modelos estimam a probabilidade token ou sequência de tokens que ocorrem dentro de uma sequência mais longa. Considere o seguinte frase:

When I hear rain on my roof, I _______ in my kitchen.

Se você presumir que um token é uma palavra, o modelo de linguagem determinará probabilidades de diferentes palavras ou sequências de palavras para substituir essa sublinhado. Por exemplo, um modelo de linguagem pode determinar probabilidades:

cook soup 9.4%
warm up a kettle 5.2%
cower 3.6%
nap 2.5%
relax 2.2%
...

Uma "sequência de tokens" pode ser uma frase inteira ou uma série de frases. Ou seja, um modelo de linguagem poderia calcular a probabilidade de diferentes frases ou blocos de texto.

Estimar a probabilidade do que vem a seguir em uma sequência é útil para todos tipos de coisas: gerar texto, traduzir idiomas e responder perguntas, para citar algumas.

O que é um modelo de linguagem grande?

Modelar a linguagem humana em escala é uma tarefa muito complexa e que exige muitos recursos empreendimento. O caminho para alcançar as capacidades atuais dos modelos de linguagem e modelos de linguagem grandes já já se estendeu por várias décadas.

À medida que os modelos são construídos cada vez mais, sua complexidade e eficácia aumenta. Os modelos de linguagem inicial podiam prever a probabilidade de uma única palavra. moderna modelos de linguagem grandes podem prever a probabilidade de frases, parágrafos ou ou até mesmo documentos inteiros.

O tamanho e a capacidade dos modelos de linguagem aumentaram muito nos últimos alguns anos à medida que a memória do computador, o tamanho do conjunto de dados e a capacidade de processamento aumentam, e foram desenvolvidas técnicas mais eficazes para modelar sequências de texto mais longas.

Qual é o tamanho?

A definição é confusa, mas "grande" foi usado para descrever o BERT (110 mi parâmetros), bem como o PaLM 2 (até 340 bilhões de parâmetros).

Parâmetros estão pesos o modelo aprendido durante o treinamento, usado para prever o próximo token na sequência. "Grande" pode se referir ao número de parâmetros no modelo ou e às vezes o número de palavras no conjunto de dados.

Transformadores

Um desenvolvimento importante na modelagem de linguagem foi a introdução, em 2017, do Transformadores, uma arquitetura projetada em torno da ideia de atenção. Isso possibilitou o processamento de sequências mais longas, concentrando-se nos importante da entrada, o que resolve problemas de memória de modelos de machine learning.

Os transformadores são a arquitetura de última geração para uma ampla variedade aplicativos de modelos de linguagem, como tradutores.

Se a entrada for "I am a good dog.", um tradutor baseado em transformador transforma essa entrada na saída "Je suis un bon chien.", que é a mesma frase traduzida para o francês.

Transformadores completos consistem em uma codificador e um decodificador. Um o codificador converte o texto de entrada em uma representação intermediária, e um decodificador converte essa representação intermediária em um texto útil.

Autoatenção

os transformadores se baseiam muito em um conceito chamado autoatenção. A parte pessoal de autoatenção se refere ao "egocêntrico" de cada token em um corpus. Efetivamente, em nome de cada token de entrada, a autoatenção pergunta: "Quanto tempo Todos os outros tokens de entrada são importantes para mim?". Para simplificar, vamos presuma que cada token é uma palavra e que o contexto completo é um único frase. Considere a seguinte frase:

O animal não atravessou a rua porque estava muito cansado.

Há 11 palavras na frase anterior, portanto, cada uma delas prestar atenção nas outras dez, imaginando o quanto cada uma dessas dez palavras importa a eles. Por exemplo, observe que a sentença contém o pronome it. Os pronomes geralmente são ambíguos. O pronome ele sempre se refere a um substantivo recente, Mas, na frase de exemplo, a que substantivo recente ele se refere: o animal ou na rua?

O mecanismo de autoatenção determina a relevância de cada palavra próxima para o pronome it.

Quais são alguns casos de uso dos LLMs?

LLMs são muito eficazes na tarefa para a qual foram criados, o que gera o texto mais plausível em resposta a uma entrada. Eles estão até começando a mostrar um bom desempenho em outras tarefas; por exemplo, resumo, perguntas respostas e classificação de texto. Eles são chamados habilidades emergentes. LLMs podem até resolver alguns problemas matemáticos e escrever código (embora seja aconselhável verificar o funcionam.

Os LLMs são excelentes para imitar padrões de fala humana. Entre outras coisas, elas são ótimas para combinar informações com diferentes estilos e tons.

No entanto, os LLMs podem ser componentes de modelos que fazem mais do que apenas gerar texto. LLMs recentes têm sido usados para criar detectores de sentimento, classificadores de toxicidade e gerar legendas de imagens.

Considerações sobre LLM

Modelos tão grandes têm desvantagens.

Os LLMs maiores são caros. Eles podem levar meses para treinar e, como resultado, consomem muitos recursos.

Eles também podem ser reaproveitados para outras tarefas, um lado bom.

Treinar modelos com mais de um trilhão de parâmetros cria desafios de engenharia. Infraestrutura e programação especiais são necessárias para coordenar o fluxo entre os chips e vice-versa.

Há maneiras de reduzir os custos desses modelos grandes. Duas abordagens são inferência off-line e destilação.

O viés pode ser um problema em modelos muito grandes e deve ser considerado no treinamento e implantação.

Como esses modelos são treinados com linguagem humana, isso pode introduzir vários possíveis problemas éticos, incluindo o uso indevido de linguagem e preconceito na raça, gênero, religião e muito mais.

Deve ficar claro que, à medida que esses modelos continuam a crescer e ter um desempenho melhor, é preciso ser diligente na compreensão e atenuar suas desvantagens. Saiba mais sobre a abordagem do Google IA responsável.