Groq:比ChatGPT和Gemini更快的人工智能加速器

Groq:比ChatGPT和Gemini更快的人工智能加速器

在使用 ChatGPT(尤其是 GPT-4 模型)时,您一定注意到了该模型响应查询的速度有多慢。更不用说,基于大型语言模型的语音助手,如 ChatGPT 的语音聊天功能或最近发布的 Gemini AI(取代了安卓手机上的谷歌助手),由于 LLM 的高延迟,速度会更慢。但由于 Groq 强大的新型 LPU(语言处理单元)推理引擎,这一切可能很快就会改变。

Groq 让世界大吃一惊。请注意,这不是埃隆-马斯克的 Grok,后者是 X(前 Twitter)上的一个人工智能模型。当运行一个 7B 的模型时,Groq 的 LPU 推理引擎每秒可以生成 500 个 token。在运行 70B 模型时,每秒可生成约 250 个 token。这与 OpenAI 的 ChatGPT 相差甚远,后者运行在 GPU 驱动的 Nvidia 芯片上,每秒可生成约 30 到 60 个 token。

Groq 由前谷歌 TPU 工程师打造

Groq 不是人工智能聊天机器人,而是人工智能推理芯片,它正在人工智能硬件领域与 Nvidia 等行业巨头展开竞争。该公司由乔纳森-罗斯(Jonathan Ross)于2016年联合创立,他在谷歌工作期间,曾与他人共同组建团队,打造了谷歌第一款用于机器学习的TPU(张量处理单元)芯片。

后来,许多员工离开了谷歌的 TPU 团队,创建了 Groq,为下一代计算打造硬件。

什么是 Groq 的 LPU?

与 Nvidia 等老牌厂商相比,Groq 的 LPU 引擎之所以如此之快,是因为它完全采用了另一种方法。

据首席执行官乔纳森-罗斯(Jonathan Ross)介绍,Groq首先创建了软件栈和编译器,然后设计芯片。它采用软件优先的思维方式,使性能具有 “确定性”–这是人工智能推理中获得快速、准确和可预测结果的一个关键概念。

至于 Groq 的 LPU 架构,它类似于 ASIC 芯片(专用集成电路)的工作原理,是在 14 纳米节点上开发的。它不是一种通用芯片,不能用于各种复杂任务,而是为特定任务定制设计的,在本例中,就是处理大型语言模型中的数据序列。另一方面,CPU 和 GPU 可以完成更多任务,但也会导致性能延迟和延迟增加。

groq 是一种完全不同的人工智能架构在新一批人工智能芯片初创公司中,groq 以一种完全不同的方法脱颖而出,其核心是优化极简但高性能架构的编译器技术。groq 的秘诀是…… – carlos e. perez (@intuitmachine) 2024 年 2 月 20 日

量身定制的编译器对芯片中的指令周期了如指掌,大大减少了延迟。编译器会将指令分配到正确的位置,从而进一步减少延迟。更值得一提的是,每块 Groq LPU 芯片都配备了 230MB 的片上 SRAM,从而以更高的效率实现了高性能和低延迟。

至于 Groq 芯片能否用于训练人工智能模型的问题,如上所述,它是专门为人工智能推理而设计的。它不具备训练和微调模型所需的高带宽内存(HBM)。

Groq 还指出,HBM 内存会导致整个系统的非确定性,从而增加延迟。因此,您不能在 Groq LPU 上训练人工智能模型。

我们测试了 Groq 的 LPU 推断引擎

您可以前往 Groq 网站(访问)体验其超快的性能,无需账户或订阅。目前,它拥有两个人工智能模型,包括 Llama 70B 和 Mixtral-8x7B。为了检查 Groq 的 LPU 性能,我们在 Mixtral-8x7B-32K 模型上运行了一些提示,该模型是目前最好的开源模型之一。

Groq 的 LPU 生成速度

Groq 的 LPU 生成速度高达每秒 527 个 token,在 7B 机型上生成 868 个 token(3846 个字符)仅需 1.57 秒。在 70B 机型上,其速度降至每秒 275 个字符,但仍远高于竞争对手。

ChatGPT

为了比较 Groq 的人工智能加速器性能,我们在 ChatGPT(GPT-3.5,175B 模型)上进行了同样的测试,并手动计算了性能指标。ChatGPT 使用了 Nvidia 最先进的 Tensor-core GPU,以每秒 61 个 token 的速度生成输出,生成 557 个 token(3090 个字符)用时 9 秒。

Gemini

为了更好地进行比较,我们在免费版的 Gemini(由 Gemini Pro 提供支持)上进行了同样的测试,该版本在谷歌云 TPU v5e 加速器上运行。谷歌没有透露 Gemini Pro 的型号大小。其速度为每秒 56 个 token,生成 845 个 token(4428 个字符)需要 15 秒。

与其他服务提供商相比,ray-project 做了大量的 LLMPerf 测试,发现 Groq 的性能比其他提供商好得多。

Ray-project

图片来源:Ray-project / GitHub com

虽然我们还没有测试过,但 Groq LPU 还能与扩散模型协同工作,而不仅仅是语言模型。根据演示,它可以在一秒钟内生成 1024px 不同风格的图像。这是非常了不起的。

Groq 与 Nvidia:Groq 是怎么说的?

一份报告中,Groq 称其 LPU 具有可扩展性,可以通过光学互连将 264 个芯片连接在一起。它还可以通过交换机进一步扩展,但这会增加延迟。据公司首席执行官乔纳森-罗斯(Jonathan Ross)称,公司正在开发可扩展到 4128 个芯片的集群,将于 2025 年发布,它是在三星的 4 纳米工艺节点上开发的。

在Groq使用70B Llama 2模型上的576个LPU进行的基准测试中,它进行人工智能推理的时间只有Nvidia H100 GPU集群的十分之一。

不仅如此,Nvidia GPU 在一次响应中生成代币需要 10 焦耳到 30 焦耳的能量,而 Groq 只需要 1 焦耳到 3 焦耳。总而言之,该公司表示,Groq LPU 在执行人工智能推理任务时,速度提高了 10 倍,而成本仅为 Nvidia GPU 的 1/10。

这对终端用户意味着什么?

总的来说,这是人工智能领域一个令人兴奋的发展,随着 LPU 的推出,用户将体验到与人工智能系统的即时互动。推理时间的大幅缩短意味着用户可以在使用语音、输入图像或生成图像的同时与多模态系统即时互动。

Groq 已经向开发者提供了 API 访问权限,因此人工智能模型的性能有望很快得到大幅提升。那么,你如何看待 LPU 在人工智能硬件领域的发展呢?请在下面的评论区发表您的看法。

评论留言