如果要讨论 2023 年的技术,就不能忽视生成式人工智能(Generative AI)和为人工智能聊天机器人提供动力的大型语言模型(LLM)等热门话题。在 OpenAI 发布 ChatGPT 之后,建立最佳 LLM 的竞赛成倍增长。大型企业、小型初创公司和开源社区都在努力开发最先进的大型语言模型。迄今为止,已经有超过数百种 LLM 发布,但哪些是能力最强的呢?要想知道答案,请关注我们的 2023 年最佳大型语言模型(专有和开源)列表。
- GPT-4
- GPT-3.5
- PaLM 2 (Bison-001)
- Claude v1
- Cohere
- Falcon
- LLaMA
- Guanaco-65B
- Vicuna 33B
- MPT-30B
- 30B-Lazarus
- WizardLM
- GPT4All
1. GPT-4
OpenAI 的 GPT-4 模型是 2023 年最好的人工智能大型语言模型(LLM)。GPT-4 模型于 2023 年 3 月发布,展示了复杂推理理解、高级编码能力、精通多种学术考试、展现人类水平的技能等巨大能力。
事实上,它是第一个可以接受文本和图像输入的多模态模型。虽然 ChatGPT 还没有加入多模态能力,但一些用户已经通过由 GPT-4 模型支持的必应聊天工具获得了这种能力。
除此以外,GPT-4 还是为数不多的能解决幻觉问题的 LLM 之一,并在事实性方面取得了长足进步。与 ChatGPT-3.5 相比,GPT-4 模型在多个类别的事实评估中得分接近 80%。为了使 GPT-4 模型更符合人类价值观,OpenAI 还付出了巨大努力,使用了人类反馈强化学习(RLHF)和通过领域专家进行的对抗测试。
GPT-4 模型已在超过 1 万亿个庞大参数的基础上进行了训练,并支持 32,768 个标记的最大上下文长度。到目前为止,我们对 GPT-4 的内部架构了解不多,但最近 The Tiny Corp 的 George Hotz 透露,GPT-4 是一个混合模型,有 8 个不同的模型,每个模型有 2200 亿个参数。基本上,它不是一个大的密集模型,正如之前所理解的那样。
GPT-4
最后,您可以使用 ChatGPT 插件,并使用 GPT-4 模型通过必应浏览网页。唯一的缺点是响应速度较慢,推理时间较长,这迫使开发人员不得不使用较早的 GPT-3.5 模型。总的来说,OpenAI GPT-4 模型是迄今为止你能在 2023 年使用的最好的 LLM,如果你打算用它来做严肃的工作,我强烈建议你订阅 ChatGPT Plus。它的价格为 20 美元,但如果你不想付费,可以从第三方门户网站免费使用 ChatGPT 4。
2. GPT-3.5
继 GPT 4 之后,OpenAI 凭借 GPT-3.5 再次跃居第二。这是一款通用型 LLM,与 GPT-4 类似,但在特定领域缺乏专长。先说优点,它是一个速度惊人的模型,能在几秒钟内生成完整的响应。
无论是用 ChatGPT 完成写论文等创造性任务,还是用 ChatGPT 提出赚钱的商业计划,GPT-3.5 模型都能出色地完成。此外,该公司最近还为 GPT-3.5 涡轮增压型号发布了更大的 16K 上下文长度。别忘了,它还可以免费使用,而且没有小时或日限制。
GPT-3.5
尽管如此,GPT-3.5 最大的缺点是经常产生幻觉,并经常提供虚假信息。因此,对于严肃的研究工作,我不建议使用它。不过,对于基本的编码问题、翻译、理解科学概念和创造性任务来说,GPT-3.5 已经足够优秀了。
在 HumanEval 基准测试中,GPT-3.5 模型的得分率为 48.1%,而 GPT-4 的得分率为 67%,是所有通用大型语言模型中最高的。请记住,GPT-3.5 是在 1750 亿个参数上训练出来的,而 GPT-4 是在超过 1 万亿个参数上训练出来的。
3. PaLM 2 (Bison-001)
接下来是来自谷歌的 PaLM 2 人工智能模型,它被评为 2023 年最佳大型语言模型之一。在 PaLM 2 模型中,谷歌重点研究了常识推理、形式逻辑、数学和 20 多种语言的高级编码。据悉,最大的 PaLM 2 模型已经过 5400 亿个参数的训练,最大上下文长度为 4096 个词组。
谷歌已经发布了基于 PaLM 2 的四种不同大小的模型(Gecko、Otter、Bison 和 Unicorn)。其中,Bison 目前已经上市,它在 MT-Bench 测试中的得分是 6.40 分,而 GPT-4 则高达 8.99 分。
Google Bard running on PaLM 2
尽管如此,在 WinoGrande、StrategyQA、XCOPA 等推理评估和其他测试中,PaLM 2 表现出色,超过了 GPT-4。它还是一个多语言模型,可以理解成语、谜语和不同语言的细微文本。这是其他 LLM 难以企及的。
PaLM 2 还有一个优点,那就是它的反应速度非常快,能同时提供三种反应。您可以根据我们的文章,在谷歌的顶点人工智能平台上测试 PaLM 2 (Bison-001) 模型。至于消费者,可以使用在 PaLM 2 上运行的 Google Bard。
4. Claude v1
如果您不知道,Claude 是 Anthropic 开发的一款功能强大的 LLM,并得到了谷歌的支持。它由 OpenAI 的前员工共同创立,其目标是打造乐于助人、诚实无害的人工智能助手。在多项基准测试中,Anthropic 的 Claude v1 和 Claude Instant 模型都表现出了很好的前景。事实上,在 MMLU 和 MT-Bench 测试中,Claude v1 的表现优于 PaLM 2。
Claude via Slack
在 MT-Bench 测试中,它的得分接近 GPT-4,为 7.94 分,而 GPT-4 为 8.99 分。在 MMLU 基准测试中,Claude v1 也获得了 75.6 分,而 GPT-4 获得了 86.4 分。Anthropic 还是首家在其 Claude-instant-100k 模型中提供 100k 代币作为最大上下文窗口的公司。您基本上可以在一个窗口中加载近 75,000 个单词。这绝对太疯狂了,对吧?如果您有兴趣,可以立即查看我们关于如何使用 Anthropic Claude 的教程。
5. Cohere
Cohere 是一家人工智能初创公司,由曾在谷歌大脑团队工作的前谷歌员工创立。公司联合创始人之一艾丹-戈麦斯(Aidan Gomez)曾参与撰写 “注意力就是你所需要的一切”(Attention is all you Need)论文,该论文介绍了 Transformer 架构。与其他人工智能公司不同,Cohere 是为企业而来,为企业解决生成式人工智能用例。Cohere 有许多从小到大的模型–从只有 6B 参数的模型到 52B 参数训练的大型模型。
最近推出的 Cohere Command 模型因其准确性和稳健性赢得了赞誉。根据 Standford HELM 的数据,Cohere Command 模型的准确性在同行中得分最高。除此之外,Spotify、Jasper、HyperWrite 等公司都在使用 Cohere 的模型来提供人工智能体验。
在定价方面,Cohere 生成 100 万个代币收费 15 美元,而 OpenAI 的涡轮模型生成相同数量的代币收费 4 美元。尽管如此,就准确性而言,它还是优于其他 LLM。因此,如果你正在经营一家企业,并在寻找最好的 LLM 以融入你的产品,你可以看看 Cohere 的模型。
6. Falcon
Falcon 是本榜单中第一个开源大型语言模型,它的排名超过了迄今为止发布的所有开源模型,包括 LLaMA、StableLM、MPT 等。它由阿联酋技术创新研究所(TII)开发。Falcon 的最大优点是采用 Apache 2.0 许可开源,这意味着您可以将该模型用于商业目的。也没有版税或限制。
到目前为止,TII 已经发布了两个 Falcon 模型,分别基于 40B 和 7B 参数进行训练。开发人员建议,这些都是原始模型,但如果您想用它们来聊天,就应该选择经过微调的 Falcon-40B-Instruct 模型,以适应大多数使用情况。
Falcon 模型主要使用英语、德语、西班牙语和法语进行训练,但也可以使用意大利语、葡萄牙语、波兰语、荷兰语、罗马尼亚语、捷克语和瑞典语。因此,如果您对开源人工智能模型感兴趣,不妨先看看 Falcon。
7. LLaMA
自从 LLaMA 模型在网上泄露后,Meta 公司就开始了开源之路。它正式发布了从 70 亿参数到 650 亿参数的各种规模的 LLaMA 模型。据 Meta 称,其 LLaMA-13B 模型优于 OpenAI 的 GPT-3 模型,后者是在 1750 亿个参数上训练出来的。许多开发人员正在使用 LLaMA 微调和创建一些最好的开源模型。尽管如此,请记住,LLaMA 仅用于研究,与 TII 的猎鹰模型不同,不能用于商业用途。
说到 LLaMA 65B 型号,它在大多数使用情况下都表现出了惊人的能力。在 “拥抱脸 “的开放式 LLM 排行榜上,它跻身前 10 名。Meta 公司表示,它没有使用任何专有材料来训练该模型。相反,该公司使用了来自 CommonCrawl、C4、GitHub、ArXiv、维基百科、StackExchange 等的公开数据。
简而言之,在 Meta 发布 LLaMA 模型之后,开源社区出现了快速的创新,并提出了新的技术来制作更小、更高效的模型。
8. Guanaco-65B
在几个 LLaMA 衍生模型中,Guanaco-65B 被证明是最好的开源 LLM,仅次于 Falcon 模型。在 MMLU 测试中,它的得分是 52.7,而 Falcon 模型的得分是 54.1。同样,在 TruthfulQA 评估中,Guanaco 得分为 51.3,而 Falcon 则高出一筹,为 52.5。Guanaco 共有四种型号:7B、13B、33B 和 65B。所有模型都由 Tim Dettmers 和其他研究人员在 OASST1 数据集上进行了微调。
至于如何对 Guanaco 进行微调,研究人员提出了一种名为 QLoRA 的新技术,它能有效减少内存使用量,同时保持完整的 16 位任务性能。在 Vicuna 基准测试中,Guanaco-65B 模型的性能甚至超过了参数更小的 ChatGPT(GPT-3.5 模型)。
最棒的是,65B 模型在拥有 48GB VRAM 的单 GPU 上进行训练仅用了 24 小时。这表明开源模型在降低成本和保持质量方面取得了很大进展。总之,如果你想尝试离线本地 LLM,你一定可以试试 Guanaco 模型。
9. Vicuna 33B
Vicuna 是 LMSYS 开发的另一个功能强大的开源 LLM。与其他许多开源模型一样,它也是从 LLaMA 衍生而来。它通过监督指导进行了微调,训练数据收集自 sharegpt.com,这是一个用户分享其精彩 ChatGPT 对话的门户网站。它是一个自动回归的大型语言模型,经过 330 亿个参数的训练。
在 LMSYS 自己的 MT-Bench 测试中,它获得了 7.12 分,而最好的专利模型 GPT-4 则获得了 8.99 分。在 MMLU 测试中,Vicuna 也获得了 59.2 分,而 GPT-4 获得了 86.4 分。尽管 Vicuna 是一款小巧得多的机型,但它的表现却非常出色。您可以点击下面的链接查看演示并与聊天机器人互动。
10. MPT-30B
MPT-30B 是另一个与 LLaMA 衍生模型竞争的开源 LLM。它由 Mosaic ML 开发,并在不同来源的大量数据语料库上进行了微调。它使用了 ShareGPT-Vicuna、Camel-AI、GPTeacher、Guanaco、Baize 和其他来源的数据集。这个开源模型最棒的地方在于它的上下文长度为 8K tokens。
此外,它还优于 OpenAI 的 GPT-3 型号,并在 LMSYS 的 MT-Bench 测试中获得了 6.39 分。如果您想在本地运行一个小型 LLM,MPT-30B 型号是一个不错的选择。
11. 30B-Lazarus
30B-Lazarus 模型由 CalderaAI 开发,它使用 LLaMA 作为基础模型。开发人员使用了多个模型的 LoRA 调整数据集,包括 Manticore、SuperCOT-LoRA、SuperHOT、GPT-4 Alpaca-LoRA 等。因此,该模型在许多 LLM 基准测试中的表现要好得多。它在 HellaSwag 中的得分是 81.7,在 MMLU 中的得分是 45.2,仅次于 Falcon 和 Guanaco。如果您的使用情况主要是文本生成,而不是对话聊天,那么 30B Lazarus 模型可能是一个不错的选择。
12. WizardLM
WizardLM 是我们的下一个开源大型语言模型,它是为遵循复杂指令而构建的。一个人工智能研究团队提出了一种 Evol-instruct 方法,将初始指令集改写为更复杂的指令。生成的指令数据用于微调 LLaMA 模型。
由于采用了这种方法,WizardLM 模型在基准测试中的表现要好得多,用户更喜欢 WizardLM 的输出,而不是 ChatGPT 的回复。在 MT-Bench 测试中,WizardLM 得分为 6.35 分,在 MMLU 测试中得分为 52.3 分。总体而言,对于仅有 13B 的参数,WizardLM 做得相当不错,为更小的模型打开了大门。
13. GPT4All
GPT4ALL 是 Nomic AI 的一个项目。我推荐它不仅是因为它的内部模型,还因为它能让你在没有专用 GPU 或互联网连接的情况下在电脑上运行本地 LLM。它开发了一个 13B Snoozy 模型,效果相当不错。我在自己的电脑上测试过多次,鉴于我使用的是入门级电脑,它生成响应的速度相当快。我还在 GPT4All 上使用过 PrivateGPT,它确实能从自定义数据集中生成答案。
除此之外,它还收录了来自不同组织的 12 款开源机型。它们大多基于 7B 和 13B 参数构建,重量在 3 GB 至 8 GB 之间。最重要的是,你可以获得一个图形用户界面安装程序,选择一个模型并立即开始使用。无需在终端进行任何操作。简而言之,如果您想以用户友好的方式在电脑上运行本地 LLM,GPT4All 就是最好的选择。
评论留言