大型语言模型未来发展趋势瞻望

什么是大型语言模型及其未来趋势

对大型语言模型（LLMs）的兴趣正在上升，特别是在2022年11月ChatGPT发布之后（见图1）。近年来，LLMs已经改变了各个行业，产生了类似人类的文本，解决了广泛的应用。然而，围绕偏见、不准确和毒性的担忧阻碍了它们的有效性，这限制了它们更广泛的应用，并引起了道德问题。

大型语言模型最近一年的谷歌搜索趋势

图1. 大型语言模型最近一年的谷歌搜索趋势（Source: Google Trends）

本文探讨了大型语言模型的未来，深入研究了一些有前景的方法，如自我训练、事实核查和稀疏的专业知识，以缓解这些问题并释放这些模型的全部潜力。

什么是大型语言模型？

大型语言模型是一种人工智能模型，旨在通过分析大量的数据来生成和理解类似人类的文本。这些基础模型以深度学习技术为基础，通常涉及具有许多层和大量参数的神经网络，使它们能够捕捉它们所训练的数据中的复杂模式。

大型语言模型的主要目标是理解自然语言的结构、语法、语义和语境，因此它可以生成连贯的、符合语境的反应，或用相关信息完成给定的文本输入。

这些模型在不同的文本数据来源上进行训练，包括书籍、文章、网站和其他文本内容，这使它们能够产生对广泛主题的回应。

流行的大型语言模型有哪些？

BERT (Google)

BERT是Bidirectional Encoder Representations from Transformers的首字母缩写，是谷歌在2018年开发的一个基础性模型。基于谷歌在2017年推出的Transformer神经网络架构，BERT标志着与普遍的自然语言处理（NLP）方法不同，该方法依赖于递归神经网络（RNN）。

在BERT之前，RNN通常以从左到右的方式处理文本，或结合从左到右和从右到左的分析。相比之下，BERT是双向训练的，与单向的前辈相比，它能够更全面地了解语言的背景和流程。

GPT-3 & GPT-4 (OpenAI)

GPT-3

OpenAI的GPT-3，即Generative Pre-trained Transformer 3，是一个大型语言模型，因其在自然语言理解和生成方面的卓越能力而获得了极大的关注。GPT-3于2020年6月发布，是GPT系列的第三次迭代，建立在其前辈GPT和GPT-2的成功之上。

GPT-3在发展为GPT-3.5时已被公开使用，用于创建2022年11月发布的对话式人工智能工具ChatGPT。

GPT-3使用了数十亿的参数，相比之下，它的竞争对手就相形见绌了（图2）。这使得它成为其继任者GPT-4之前最复杂的大型语言模型。

GPT-3与其他巨型NLP模型相比具有更大的参数分析能力

图2. 图片显示了GPT-3与其他巨型NLP模型相比具有更大的参数分析能力

GPT-4

现在最大的语言模型是OpenAI的GPT-4，于2023年3月发布。虽然该模型在规模上比其他模型更复杂，但OpenAI没有分享该模型的技术细节。

GPT-4是一个具有相当规模的多模态大型语言模型，可以处理图像和文本的输入，并提供文本的输出。尽管它在许多现实世界的情况下可能不如人类表现得好，但这个新模型在一些专业和学术基准上表现出的性能水平与人类相当。

与其他LLM相比，该模型具有各种独特的功能，包括

视觉输入选项
更高的字数限制
高级推理能力
可引导性，等等。

关于GPT-4的这些能力的更详细说明，请查看我们的深度指南。

BLOOM (BigScience)

BLOOM是一个自回归大型语言模型，使用海量的文本数据和大量的计算资源进行训练，以扩展文本提示。2022年7月发布，作为GPT-3的竞争者，它建立在176个参数上。因此，它可以在46种语言和13种编程语言中产生连贯的文本。

关于目前LLM的比较分析，请查看我们的大型语言模型实例文章。

大型语言模型处于什么阶段？

现阶段的大型语言模型的特点是它们在广泛的主题和应用中理解和生成类似人类的文本的能力令人印象深刻。这些模型使用先进的深度学习技术构建，并在大量的数据上进行训练，如OpenAI的GPT-3和谷歌的BERT，已经对自然语言处理领域产生了重大影响。

目前的LLM已经在各种任务上取得了最先进的性能，如：

尽管取得了这些成就，语言模型仍然有各种限制，需要在未来的模型中加以解决和修正。

1- 准确性

大型语言模型采用机器学习来推断信息，这引起了人们对潜在不准确的关注。此外，预先训练好的大型语言模型很难动态地适应新的信息，导致潜在的错误反应，需要在未来的发展中进一步审查和改进。图3显示了一些LLMs的准确性比较。

各种语言模型的5-shot HELM基准测试-准确性结果

图3. 各种语言模型在5-shot HELM基准上的准确性结果（来源： “BLOOM：一个176B参数的开放性多语种语言模型”）

2- 偏见

大型语言模型有助于通过语音和文字进行类似人类的交流。然而，最近的研究结果表明，更先进和规模更大的系统倾向于吸收其训练数据中存在的社会偏见，导致在线社区内出现性别歧视、种族主义或能力歧视的倾向（图4）。

大型语言模型的毒性指数

图4. 大型语言模型的毒性指数（来源：斯坦福大学2022年人工智能指数报告）

例如，与2018年的1.17亿个参数的模型相比，最近的2800亿个参数的模型的毒性水平大幅增加了29%。随着这些系统的不断进步，成为人工智能研究和开发的更强大的工具，偏见风险升级的可能性也在增加。图5比较了一些LLM的偏差潜力。

各种语言模型5-shot HELM基准测试-偏差结果

图5. 各种语言模型在5-shot HELM基准上的偏差结果（来源： “BLOOM：一个176B参数的开放性多语种语言模型”）

3- 毒性

大型语言模型的毒性问题指的是这些模型在回复中无意中产生有害的、攻击性的或不恰当的内容的问题。这个问题的出现是因为这些模型是在互联网的大量文本数据上训练出来的，这些数据可能包含偏见、攻击性语言或有争议的观点。

各种语言模型5-shot HELM基准测试-毒性测试结果

图6. 各种语言模型在5-shot HELM基准上对毒性的测试结果（来源： “BLOOM：一个176B参数的开放性多语种语言模型”）

在未来的大型语言模型中解决毒性问题需要一个涉及研究、合作和持续改进的多方面的方法。在未来的模型中减轻毒性的一些潜在策略可以包括：

策划和改进训练数据
开发更好的微调技术
纳入用户反馈
内容调控策略

4- 容量限制

每个大型语言模型都有一个特定的内存容量，这限制了它可以处理的输入令牌的数量。例如，ChatGPT有2048个令牌的限制（大约1500个单词），使它无法理解和产生超过这个令牌阈值的输入的输出。

GPT-4将容量扩展到25000字，远远超过了取决于GPT-3.5的ChatGPT模型（图7）。

ChatGPT和GPT-4的字数限制比较

图7. ChatGPT和GPT-4的字数限制比较（来源: OpenAI）

5- 预训练的知识集

语言模型是在一组固定的数据上训练的，这些数据代表了某一时间点上的知识快照。一旦训练完成，模型的知识就会被冻结，无法获取最新的信息。这意味着训练数据收集后发生的任何信息或变化都不会反映在大型语言模型的反应中。

这就导致了几个有关的问题，如：

过时或不正确的信息
无法处理最近的事件
在技术、金融或医学等动态领域的相关性较低

大型语言模型的未来是什么？

我们不可能预见到未来的语言模型将如何发展。然而，关于LLM的研究是很有希望的，重点是我们上面解释的常见问题。我们可以为未来的语言模型指出3个根本性的、实质性的变化。

1- 事实自检

一系列有希望的进展旨在缓解大型语言模型的事实不可靠和静态知识限制。这些新技术对于准备LLM在现实世界的广泛实施至关重要。做到这一点需要两种能力：

访问外部资源的能力
为答案提供引证和参考的能力

这一领域的重要初步研究以谷歌的REALM和Facebook的RAG等模型为特色，两者都是在2020年推出的。

2022年6月，OpenAI推出了其GPT模型的微调版本，称为WebGPT，它利用微软必应浏览互联网并对提示产生更精确和全面的答案。WebGPT的操作与人类用户类似：

向必应提交搜索查询
点击链接
滚动网页
使用Ctrl+F等功能来定位术语

当该模型将互联网上的相关信息纳入其输出时，它包括引文，允许用户验证信息的来源。研究结果表明，所有的WebGPT模型在准确回答的比例和提供真实和有信息的答案的比例方面都超过了每个GPT-3模型。

比较GPT-3和WebGPT模型的TruthfulQA结果

图8. 比较GPT-3和WebGPT模型的TruthfulQA结果（来源: “WebGPT：有人类反馈的浏览器辅助问题回答”）

DeepMind正在积极探索类似的研究途径。几个月前，他们推出了一个名为Sparrow的新模型。与ChatGPT一样，Sparrow以一种基于对话的方式运作，与WebGPT类似，它可以在互联网上搜索新的信息，并提供引文来支持其主张。

Sparrow为事实主张提供最新的答案和证据

图9. Sparrow为事实主张提供最新的答案和证据（来源: “通过有针对性的人类判断改善对话代理的一致性”）

尽管现在得出结论说准确性、事实核查和静态知识库问题可以在不久的将来的模型中被克服还为时过早，但目前的研究成果对未来充满希望。这可能会减少使用提示工程来交叉检查模型输出的需要，因为模型将已经交叉检查了它的结果。

2- 合成训练数据

为了解决我们上面提到的一些限制，比如训练数据造成的限制，研究人员正在研究能够生成自己的训练数据集（即生成合成训练数据集）的大型语言模型。

在最近的一项研究中，谷歌的研究人员开发了一个大型的语言模型，能够创建问题，产生全面的答案，过滤其回答以获得最高质量的输出，并使用策划的答案对自己进行微调。令人印象深刻的是，这在多个语言任务中产生了新的最先进的性能。

谷歌的自我改进模型概览

图10. 谷歌的自我改进模型概览（来源: “大型语言模型可以自我改进”）

例如，该模型在GSM8K上的性能从74.2%提高到82.1%，在DROP上从78.2%提高到83.0%，这是两个广泛用于评估LLM性能的基准。

最近的一项研究着重于加强一种被称为 “指令微调 “的关键LLM技术，它构成了ChatGPT等产品的基础。虽然ChatGPT和类似的指令微调模型依赖于人类起草的指令，但研究小组开发了一个能够生成自己的自然语言指令并随后使用这些指令进行自我微调的模型。

性能的提高是巨大的，因为这种方法将基础GPT-3模型的性能提高了33%，几乎等同于OpenAI自己的指令调整模型的性能（图11）。

由人类专家评估的GPT3模型及其指令调优变体的性能

图11. 由人类专家评估的GPT3模型及其指令调优变体的性能（来源: “自我指导：将语言模型与自我生成的指令对齐”）

未来有了这样的模型，就有可能减少模型输出的偏差和毒性，并提高用所需数据集进行微调的效率，也就是说，模型要学会自我优化。

3- 稀少的专业知识

虽然每个模型的参数、训练数据、算法等都会造成性能上的差异，但今天所有被广泛认可的语言模型–如OpenAI的GPT-3、Nvidia/微软的Megatron-Turing、谷歌的BERT–最终都有一个基本的设计。它们是

自回归
自监督
预先训练
采用密集激活的基于transformer的架构

密集的语言模型意味着这些模型中的每一个都使用其所有的参数来创建对提示的响应。正如你可能猜到的，这不是很有效，而且很麻烦。

稀疏的专家模型是指一个模型能够只激活其相关的参数集来回答一个给定的提示。目前开发的具有超过1万亿个参数的LLM被认为是稀疏模型。2 这些模型的一个例子是谷歌的GLam，具有1.2万亿个参数。

据《福布斯》报道，谷歌的GLaM比GPT-3大七倍，但训练时消耗的能量却少三分之二。它只需要一半的计算资源用于推理，并在众多自然语言任务上超过了GPT-3的性能。

稀疏专家模型意味着以这种方式开发未来的语言模型，效率更高，对环境的破坏也更小。

“GPT-4.” OpenAI, 14 March 2023, https://openai.com/research/gpt-4. Accessed 10 April 2023.
“The Next Generation Of Large Language Models.” Forbes, https://www.forbes.com/sites/robtoews/2023/02/07/the-next-generation-of-large-language-models/?sh=48c2008218db. Accessed 10 April 2023.