大型语言模型简介

刚开始接触语言模型或大语言模型?请查看以下资源。

什么是语言模型?

语言模型是一种机器学习, 模型 旨在预测和生成合理语言的模型。自动补全是 语言模型。

这些模型的工作原理是 token 或 词元序列。考虑使用 之后的句子:

When I hear rain on my roof, I _______ in my kitchen.

如果假设词元是一个单词,则语言模型会确定 替换该字词或字词序列的概率, 下划线。例如,语言模型可能会确定 概率:

cook soup 9.4%
warm up a kettle 5.2%
cower 3.6%
nap 2.5%
relax 2.2%
...

“令牌序列”可以是整个句子,也可以是一系列句子。 也就是说,语言模型可以计算不同语言模型 文本块或句子块。

估算序列中下一个文本的概率适用于所有 生成文本、翻译语言和回答 问题等等。

什么是大语言模型?

大规模模拟人类语言是一项高度复杂且资源密集型工作 努力。充分运用语言模型和 跨越了几十年的大语言模型。

随着模型越来越大,其复杂性和有效性也会提高。 早期语言模型可以预测单个字词的概率;现代 大型语言模型可以预测句子、段落或文本的 甚至是整个文档

在过去,语言模型的大小和功能呈爆炸式增长 随着计算机内存、数据集大小和处理能力的增加, 我们开发了更有效的方法来对较长的文本序列进行建模。

多大?

定义不清楚,但“庞大”来描述 BERT(全球 1.1 亿 和 PaLM 2(高达 3400 亿个参数)。

参数权重 训练期间学到的模型,用于预测 序列。“L”可以指模型中的参数数量, 有时指数据集中的字数。

Transformer

语言建模的一个重要发展,是在 2017 年引入 Transformer 的架构, 注意力。 这使得处理较长的序列成为可能,因为 作为输入的重要部分,解决之前的 模型。

Transformer 是适用于各种模型 语言模型应用,例如翻译人员。

如果输入是 “I am a good dog.”,则基于 Transformer 的翻译器 将该输入转换为输出 "Je suis un bon chien.",也就是 这个句子已翻译成法语。

完整的 Transformer 包含一个 encoder解码器。一个 编码器将输入文本转换为中间表示法,而解码器 将中间表示法转换为有用的文本。

自注意力

Transformer 在很大程度上依赖于一种称为自注意力的概念。自我部分 自注意力是指“以自我为中心”的每个词元的焦点。 自注意力层代表输入的每个词元,自注意力层实际上会询问“ 输入的所有其他令牌对都很重要吗?”为了简单起见,我们 假设每个词元是一个单词,并且完整上下文是一个 句子。请思考以下句子:

动物没有过马路,因为它太累了。

前一句话中有 11 个单词, 因此想了解这 10 个字词中每个字词的重要性, 。例如,请注意句子中包含代词“it”。 人称代词往往模棱两可。代词 it 始终是指最近的名词, 但在例句中,近期的名词是指动物 还是在街道上?

自注意力机制确定附近每个字词与 代词 it

LLM 有哪些应用场景?

LLM 能非常有效地完成它们所要完成的任务, 给出最合理的回答。他们甚至开始展示 在其他任务中表现出色;例如摘要、问题 和文本分类。这些称为 新兴能力。LLM 甚至可以 解决一些数学问题并编写代码(不过,最好还是 工作)。

LLM 在模仿人类语音模式方面非常出色。除此之外, 它们擅长将信息与不同的风格和语气结合在一起。

然而,LLM 也可以用作模型的组成部分,其用途不仅仅是 生成文本。最近的 LLM 被用于构建情感检测器, 以及生成图片说明。

LLM 注意事项

如此大的模型并非没有缺点。

体积最大的 LLM 的成本很高。他们可能需要数月的训练时间 会消耗大量资源

这些任务通常也可以改用于其他任务,这会带来宝贵的一线希望。

可使用超过 1 万亿个参数训练模型 会带来工程方面的挑战特殊基础设施和编程 来协调流向芯片的流动,然后再传回芯片。

有一些方法可以降低这些大型模型的费用。您可以采用两种方法 离线推理蒸馏

在超大型模型中,偏差可能是个问题,在训练过程中应考虑 部署。

由于这些模型是基于人类语言进行训练的,因此可能会导致 潜在的道德问题,包括滥用语言、种族偏见, 性别、宗教等

需要明确指出的是,随着这些模型的规模不断扩大, 需要继续努力了解并 从而减轻其缺点详细了解 Google 的 Responsible AI