此页面由 Cloud Translation API 翻译。

大型语言模型简介

刚开始接触语言模型或大语言模型？请查看以下资源。

什么是语言模型？

语言模型是一种机器学习，模型旨在预测和生成合理语言的模型。自动补全是语言模型。

这些模型的工作原理是 token 或词元序列。考虑使用之后的句子：

When I hear rain on my roof, I _______ in my kitchen.

如果假设词元是一个单词，则语言模型会确定替换该字词或字词序列的概率，下划线。例如，语言模型可能会确定概率：

cook soup 9.4%
warm up a kettle 5.2%
cower 3.6%
nap 2.5%
relax 2.2%
...

“令牌序列”可以是整个句子，也可以是一系列句子。也就是说，语言模型可以计算不同语言模型文本块或句子块。

估算序列中下一个文本的概率适用于所有生成文本、翻译语言和回答问题等等。

大规模模拟人类语言是一项高度复杂且资源密集型工作努力。充分运用语言模型和跨越了几十年的大语言模型。

随着模型越来越大，其复杂性和有效性也会提高。早期语言模型可以预测单个字词的概率；现代大型语言模型可以预测句子、段落或文本的甚至是整个文档

在过去，语言模型的大小和功能呈爆炸式增长随着计算机内存、数据集大小和处理能力的增加，我们开发了更有效的方法来对较长的文本序列进行建模。

定义不清楚，但“庞大”来描述 BERT（全球 1.1 亿和 PaLM 2（高达 3400 亿个参数）。

参数是权重训练期间学到的模型，用于预测序列。“L”可以指模型中的参数数量，有时指数据集中的字数。

语言建模的一个重要发展，是在 2017 年引入 Transformer 的架构，注意力。这使得处理较长的序列成为可能，因为作为输入的重要部分，解决之前的模型。

Transformer 是适用于各种模型语言模型应用，例如翻译人员。

如果输入是 “I am a good dog.”，则基于 Transformer 的翻译器将该输入转换为输出 "Je suis un bon chien."，也就是这个句子已翻译成法语。

完整的 Transformer 包含一个 encoder 和解码器。一个编码器将输入文本转换为中间表示法，而解码器将中间表示法转换为有用的文本。

Transformer 在很大程度上依赖于一种称为自注意力的概念。自我部分自注意力是指“以自我为中心”的每个词元的焦点。自注意力层代表输入的每个词元，自注意力层实际上会询问“ 输入的所有其他令牌对我都很重要吗？”为了简单起见，我们假设每个词元是一个单词，并且完整上下文是一个句子。请思考以下句子：

动物没有过马路，因为它太累了。

前一句话中有 11 个单词，因此想了解这 10 个字词中每个字词的重要性，。例如，请注意句子中包含代词“it”。人称代词往往模棱两可。代词 it 始终是指最近的名词，但在例句中，近期的名词是指动物还是在街道上？

自注意力机制确定附近每个字词与代词 it。

LLM 能非常有效地完成它们所要完成的任务，给出最合理的回答。他们甚至开始展示在其他任务中表现出色；例如摘要、问题和文本分类。这些称为新兴能力。LLM 甚至可以解决一些数学问题并编写代码（不过，最好还是工作）。

LLM 在模仿人类语音模式方面非常出色。除此之外，它们擅长将信息与不同的风格和语气结合在一起。

然而，LLM 也可以用作模型的组成部分，其用途不仅仅是生成文本。最近的 LLM 被用于构建情感检测器，以及生成图片说明。

如此大的模型并非没有缺点。

体积最大的 LLM 的成本很高。他们可能需要数月的训练时间会消耗大量资源

这些任务通常也可以改用于其他任务，这会带来宝贵的一线希望。

可使用超过 1 万亿个参数训练模型会带来工程方面的挑战特殊基础设施和编程来协调流向芯片的流动，然后再传回芯片。

有一些方法可以降低这些大型模型的费用。您可以采用两种方法离线推理和蒸馏。

在超大型模型中，偏差可能是个问题，在训练过程中应考虑部署。

由于这些模型是基于人类语言进行训练的，因此可能会导致潜在的道德问题，包括滥用语言、种族偏见，性别、宗教等

需要明确指出的是，随着这些模型的规模不断扩大，需要继续努力了解并从而减轻其缺点详细了解 Google 的 Responsible AI。