Groq:比ChatGPT和Gemini更快的人工智慧加速器

Groq:比ChatGPT和Gemini更快的人工智慧加速器

在使用 ChatGPT(尤其是 GPT-4 模型)時,您一定注意到了該模型響應查詢的速度有多慢。更不用說,基於大型語言模型的語音助手,如 ChatGPT 的語音聊天功能或最近釋出的 Gemini AI(取代了安卓手機上的谷歌助手),由於 LLM 的高延遲,速度會更慢。但由於 Groq 強大的新型 LPU(語言處理單元)推理引擎,這一切可能很快就會改變。

Groq 讓世界大吃一驚。請注意,這不是埃隆-馬斯克的 Grok,後者是 X(前 Twitter)上的一個人工智慧模型。當執行一個 7B 的模型時,Groq 的 LPU 推理引擎每秒可以生成 500 個 token。在執行 70B 模型時,每秒可生成約 250 個 token。這與 OpenAI 的 ChatGPT 相差甚遠,後者執行在 GPU 驅動的 Nvidia 晶片上,每秒可生成約 30 到 60 個 token。

Groq 由前谷歌 TPU 工程師打造

Groq 不是人工智慧聊天機器人,而是人工智慧推理晶片,它正在人工智慧硬體領域與 Nvidia 等行業巨頭展開競爭。該公司由喬納森-羅斯(Jonathan Ross)於2016年聯合創立,他在谷歌工作期間,曾與他人共同組建團隊,打造了谷歌第一款用於機器學習的TPU(張量處理單元)晶片。

後來,許多員工離開了谷歌的 TPU 團隊,建立了 Groq,為下一代計算打造硬體。

什麼是 Groq 的 LPU?

與 Nvidia 等老牌廠商相比,Groq 的 LPU 引擎之所以如此之快,是因為它完全採用了另一種方法。

據執行長喬納森-羅斯(Jonathan Ross)介紹,Groq首先建立了軟體棧和編譯器,然後設計晶片。它採用軟體優先的思維方式,使效能具有 “確定性”–這是人工智慧推理中獲得快速、準確和可預測結果的一個關鍵概念。

至於 Groq 的 LPU 架構,它類似於 ASIC 晶片(專用積體電路)的工作原理,是在 14 奈米節點上開發的。它不是一種通用晶片,不能用於各種複雜任務,而是為特定任務定製設計的,在本例中,就是處理大型語言模型中的資料序列。另一方面,CPU 和 GPU 可以完成更多工,但也會導致效能延遲和延遲增加。

groq 是一種完全不同的人工智慧架構在新一批人工智慧晶片初創公司中,groq 以一種完全不同的方法脫穎而出,其核心是優化極簡但高效能架構的編譯器技術。groq 的祕訣是…… – carlos e. perez (@intuitmachine) 2024 年 2 月 20 日

量身定製的編譯器對晶片中的指令週期瞭如指掌,大大減少了延遲。編譯器會將指令分配到正確的位置,從而進一步減少延遲。更值得一提的是,每塊 Groq LPU 晶片都配備了 230MB 的片上 SRAM,從而以更高的效率實現了高效能和低延遲。

至於 Groq 晶片能否用於訓練人工智慧模型的問題,如上所述,它是專門為人工智慧推理而設計的。它不具備訓練和微調模型所需的高頻寬記憶體(HBM)。

Groq 還指出,HBM 記憶體會導致整個系統的非確定性,從而增加延遲。因此,您不能在 Groq LPU 上訓練人工智慧模型。

我們測試了 Groq 的 LPU 推斷引擎

您可以前往 Groq 網站(訪問)體驗其超快的效能,無需賬戶或訂閱。目前,它擁有兩個人工智慧模型,包括 Llama 70B 和 Mixtral-8x7B。為了檢查 Groq 的 LPU 效能,我們在 Mixtral-8x7B-32K 模型上執行了一些提示,該模型是目前最好的開源模型之一。

Groq 的 LPU 生成速度

Groq 的 LPU 生成速度高達每秒 527 個 token,在 7B 模型上生成 868 個 token(3846 個字元)僅需 1.57 秒。在 70B 模型上,其速度降至每秒 275 個字元,但仍遠高於競爭對手。

ChatGPT

為了比較 Groq 的人工智慧加速器效能,我們在 ChatGPT(GPT-3.5,175B 模型)上進行了同樣的測試,並手動計算了效能指標。ChatGPT 使用了 Nvidia 最先進的 Tensor-core GPU,以每秒 61 個 token 的速度生成輸出,生成 557 個 token(3090 個字元)用時 9 秒。

Gemini

為了更好地進行比較,我們在免費版的 Gemini(由 Gemini Pro 提供支援)上進行了同樣的測試,該版本在谷歌雲 TPU v5e 加速器上執行。谷歌沒有透露 Gemini Pro 的型號大小。其速度為每秒 56 個 token,生成 845 個 token(4428 個字元)需要 15 秒。

與其他服務提供商相比,ray-project 做了大量的 LLMPerf 測試,發現 Groq 的效能比其他提供商好得多。

Ray-project

圖片來源:Ray-project / GitHub com

雖然我們還沒有測試過,但 Groq LPU 還能與擴散模型協同工作,而不僅僅是語言模型。根據演示,它可以在一秒鐘內生成 1024px 不同風格的影象。這是非常了不起的。

Groq 與 Nvidia:Groq 是怎麼說的?

一份報告中,Groq 稱其 LPU 具有可擴充套件性,可以通過光學互連將 264 個晶片連線在一起。它還可以通過交換機進一步擴充套件,但這會增加延遲。據公司執行長喬納森-羅斯(Jonathan Ross)稱,公司正在開發可擴充套件到 4128 個晶片的叢集,將於 2025 年釋出,它是在三星的 4 奈米工藝節點上開發的。

在Groq使用70B Llama 2模型上的576個LPU進行的基準測試中,它進行人工智慧推理的時間只有Nvidia H100 GPU叢集的十分之一。

不僅如此,Nvidia GPU 在一次響應中生成代幣需要 10 焦耳到 30 焦耳的能量,而 Groq 只需要 1 焦耳到 3 焦耳。總而言之,該公司表示,Groq LPU 在執行人工智慧推理任務時,速度提高了 10 倍,而成本僅為 Nvidia GPU 的 1/10。

這對終端使用者意味著什麼?

總的來說,這是人工智慧領域一個令人興奮的發展,隨著 LPU 的推出,使用者將體驗到與人工智慧系統的即時互動。推理時間的大幅縮短意味著使用者可以在使用語音、輸入影象或生成影象的同時與多模態系統即時互動。

Groq 已經向開發者提供了 API 訪問許可權,因此人工智慧模型的效能有望很快得到大幅提升。那麼,你如何看待 LPU 在人工智慧硬體領域的發展呢?請在下面的評論區發表您的看法。

評論留言