刚开始接触语言模型或大语言模型?请查看以下资源。
什么是语言模型?
语言模型是一种机器学习模型,旨在预测和生成合理的语言。例如,自动补全就是一种语言模型。
这些模型的工作原理是估算某个令牌或令牌序列在较长的令牌序列中出现的概率。考虑使用 之后的句子:
When I hear rain on my roof, I _______ in my kitchen.
如果您假定某个令牌是字词,则语言模型会确定不同字词或字词序列替换该下划线的概率。例如,语言模型可能会确定 概率:
cook soup 9.4%
warm up a kettle 5.2%
cower 3.6%
nap 2.5%
relax 2.2%
...
“词元序列”可以是整个句子或一系列句子。 也就是说,语言模型可以计算不同完整句子或文本块的可能性。
估算序列中下一个内容出现的概率对各种任务都很有用,例如生成文本、翻译语言和回答问题。
什么是大语言模型?
大规模建模人类语言是一项极其复杂且耗费资源的任务。语言模型和大语言模型要达到目前的能力,历经了几十年的发展。
随着模型越来越大,其复杂性和有效性也会提高。 早期的语言模型可以预测单个字词的概率;现代大型语言模型可以预测句子、段落甚至整个文档的概率。
在过去,语言模型的大小和功能呈爆炸式增长 随着计算机内存、数据集大小和处理能力的增加, 我们开发了更有效的方法来对较长的文本序列进行建模。
“大”的大小是多少?
这个定义很模糊,但“大型”一词已用于描述 BERT(1.1 亿个参数)和 PaLM 2(最多 3400 亿个参数)。
参数是模型在训练期间学到的权重,用于预测序列中的下一个令牌。“大型”可以指模型中的参数数量,有时也指数据集中的字词数量。
Transformer
2017 年,Transformer 的引入是语言建模领域的一个重要进展。这种架构以注意力理念为基础而设计。这使得处理较长的序列成为可能,因为 作为输入的重要部分,解决之前 模型。
Transformer 是各种语言模型应用(例如翻译器)的最新架构。
如果输入为 “I am a good dog.”,则基于 Transformer 的翻译器会将该输入转换为输出 “Je suis un bon chien.”,即将同一句子翻译成法语。
完整的 Transformer 包含一个 encoder 和 解码器。编码器会将输入文本转换为中间表示法,解码器会将该中间表示法转换为有用文本。
自注意
Transformer 在很大程度上依赖于一个称为自注意力的概念。自注意力的“自我”部分是指语料库中每个令牌的“自我中心”焦点。自注意力层代表输入的每个词元,自注意力层实际上会询问“ 输入的所有其他令牌对我都很重要吗?”为简单起见,假设每个令牌都是一个字词,并且完整上下文是一个句子。请考虑以下句子:
动物太累了,没能过马路。
上文中有 11 个字词,因此这 11 个字词中的每一个都会关注其他 10 个字词,想知道这 10 个字词对它们来说有多重要。例如,请注意句子中包含代词“it”。 人称代词通常含糊不清。代词 it 始终是指最近的名词, 但在例句中,近期的名词是指动物 还是在街道上?
自注意机制会确定每个附近字词与人称代词 it 的相关性。
LLM 有哪些应用场景?
LLM 能非常有效地完成它们所要完成的任务, 给出最合理的回答。他们甚至开始展示 在其他任务中表现出色;例如摘要、问题 和文本分类。这些能力称为“新兴能力”。LLM 甚至可以 解决一些数学问题并编写代码(不过,最好还是 工作)。
LLM 在模仿人类语音模式方面非常出色。除此之外, 它们擅长将信息与不同风格和语气结合在一起。
然而,LLM 也可以用作模型的组成部分,其用途不仅仅是 生成文本。最近的 LLM 被用于构建情感检测器, 以及生成图片说明。
LLM 注意事项
如此大的模型并非没有缺点。
最大的 LLM 的费用很高。它们的训练可能需要数月时间,因此会消耗大量资源。
这些任务通常也可以改用于其他任务,这会带来宝贵的一线希望。
可使用超过 1 万亿个参数训练模型 会带来工程方面的挑战需要使用特殊的基础架构和编程技术来协调数据流向芯片和返回。
有一些方法可以降低这些大型模型的费用。您可以采用两种方法 离线推理 和 蒸馏。
偏差可能会成为大型模型中的一个问题,因此在训练和部署时应予以考虑。
由于这些模型是根据人类语言进行训练的,因此可能会引入许多潜在的伦理问题,包括语言滥用以及种族、性别、宗教等方面的偏见。
需要明确指出的是,随着这些模型的规模不断扩大, 需要继续努力了解并 从而减轻其缺点详细了解 Google 的 Responsible AI。