Introdução aos modelos de linguagem grandes

Você não conhece os modelos de linguagem ou os modelos de linguagem grandes? Confira os recursos abaixo.

O que é um modelo de linguagem?

Um modelo de linguagem é uma ferramenta de machine learning modelo que visa prever e gerar linguagem plausível. O preenchimento automático é uma de linguagem grande, por exemplo.

Esses modelos funcionam estimando a probabilidade de um token ou uma sequência de tokens ocorrer em uma sequência mais longa de tokens. Considere o seguinte frase:

When I hear rain on my roof, I _______ in my kitchen.

Se você presumir que um token é uma palavra, o modelo de linguagem determinará a probabilidades de diferentes palavras ou sequências de palavras para substituir essa sublinhado. Por exemplo, um modelo de linguagem pode determinar as seguintes probabilidades:

cook soup 9.4%
warm up a kettle 5.2%
cower 3.6%
nap 2.5%
relax 2.2%
...

Uma "sequência de tokens" pode ser uma frase inteira ou uma série de frases. Ou seja, um modelo de linguagem pode calcular a probabilidade de diferentes frases inteiras ou blocos de texto.

Estimar a probabilidade do que vem a seguir em uma sequência é útil para todos tipos de coisas: gerar texto, traduzir idiomas e responder perguntas, para citar algumas.

O que é um modelo de linguagem grande?

Modelar a linguagem humana em escala é uma tarefa muito complexa e que exige muitos recursos empreendimento. O caminho para alcançar os recursos atuais dos modelos de linguagem e modelos de linguagem grandes já já se estendeu por várias décadas.

À medida que os modelos são criados cada vez maiores, a complexidade e a eficácia deles aumentam. Os modelos de linguagem inicial podiam prever a probabilidade de uma única palavra. moderno modelos de linguagem grandes podem prever a probabilidade de frases, parágrafos ou ou até mesmo documentos inteiros.

O tamanho e a capacidade dos modelos de linguagem aumentaram muito nos últimos alguns anos à medida que a memória do computador, o tamanho do conjunto de dados e a capacidade de processamento aumentam, e foram desenvolvidas técnicas mais eficazes para modelar sequências de texto mais longas.

Qual é o tamanho?

A definição é vaga, mas "grande" foi usada para descrever o BERT (110 milhões de parâmetros) e a PaLM 2 (até 340 bilhões de parâmetros).

Os parâmetros são os pesos que o modelo aprendeu durante o treinamento e que são usados para prever o próximo token na sequência. "Grande" podem se referir ao número de parâmetros no modelo ou e às vezes o número de palavras no conjunto de dados.

Transformadores

Um importante desenvolvimento na modelagem de linguagem foi a introdução, em 2017, do Transformer, uma arquitetura projetada com base na ideia de atenção. Isso possibilitou o processamento de sequências mais longas, concentrando-se nos importante da entrada, o que resolve problemas de memória de modelos de machine learning.

Os transformadores são a arquitetura de última geração para uma ampla variedade aplicativos de modelos de linguagem, como tradutores.

Se a entrada for "I am a good dog"., um tradutor baseado em transformador transforma essa entrada na saída "Je suis un bon chien"., que é a mesma frase traduzida para o francês.

Os transformadores completos consistem em um codificador e um decodificador. Um codificador converte o texto de entrada em uma representação intermediária, e um decodificador converte essa representação intermediária em texto útil.

Autoatenção

os transformadores se baseiam muito em um conceito chamado autoatenção. A parte pessoal de autoatenção se refere ao "egocêntrico" de cada token em um corpus. Efetivamente, em nome de cada token de entrada, a autoatenção pergunta: "Quanto tempo todos os outros tokens de entrada são importantes para mim?". Para simplificar, vamos supor que cada token seja uma palavra e que o contexto completo seja uma única frase. Considere a seguinte frase:

O animal não atravessou a rua porque estava muito cansado.

Há 11 palavras na frase anterior, então cada uma das 11 palavras está prestando atenção às outras dez, se perguntando o quanto cada uma dessas dez palavras é importante para elas. Por exemplo, observe que a sentença contém o pronome it. Os pronomes costumam ser ambíguos. O pronome it sempre se refere a um substantivo recente, mas na frase de exemplo, a qual substantivo recente it se refere: o animal ou a rua?

O mecanismo de auto-atenção determina a relevância de cada palavra próxima ao pronome it.

Quais são alguns casos de uso de LLMs?

LLMs são muito eficazes na tarefa para a qual foram criados, o que gera o texto mais plausível em resposta a uma entrada. Eles estão até começando a mostrar um bom desempenho em outras tarefas; por exemplo, resumo, perguntas respostas e classificação de texto. Elas são chamadas de habilidades emergentes. Os LLMs podem até resolver alguns problemas matemáticos e escrever código, embora seja recomendável verificar o trabalho deles.

Os LLMs são excelentes em imitar padrões de fala humana. Entre outras coisas, elas são ótimas para combinar informações com diferentes estilos e tons.

No entanto, os LLMs podem ser componentes de modelos que fazem mais do que apenas gerar texto. LLMs recentes têm sido usados para criar detectores de sentimento, classificadores de toxicidade e gerar legendas de imagens.

Considerações sobre LLM

Modelos tão grandes têm desvantagens.

Os LLMs maiores são caros. Eles podem levar meses para serem treinados e, como resultado, consomem muitos recursos.

Eles também podem ser reaproveitados para outras tarefas, um lado bom.

O treinamento de modelos com mais de um trilhão de parâmetros cria desafios de engenharia. Técnicas especiais de programação e infraestrutura são necessárias para coordenar o fluxo para os chips e vice-versa.

Há maneiras de reduzir os custos desses modelos grandes. Duas abordagens são a inferência off-line e a destilação.

O viés pode ser um problema em modelos muito grandes e deve ser considerado no treinamento e implantação.

Como esses modelos são treinados em linguagem humana, isso pode introduzir vários possíveis problemas éticos, incluindo o uso indevido da linguagem e o viés em raça, gênero, religião e muito mais.

Deve ficar claro que, à medida que esses modelos continuam a crescer e ter um desempenho melhor, é preciso ser diligente na compreensão e atenuar suas desvantagens. Saiba mais sobre a abordagem do Google IA responsável.

Saiba mais sobre LLMs

Interessado em uma introdução mais detalhada aos modelos de linguagem grandes? Confira o novo módulo Modelos de linguagem grandes no Curso intensivo de aprendizado de máquina.