如果要討論 2023 年的技術,就不能忽視生成式人工智慧(Generative AI)和為人工智慧聊天機器人提供動力的大型語言模型(LLM)等熱門話題。在 OpenAI 釋出 ChatGPT 之後,建立最佳 LLM 的競賽成倍增長。大型企業、小型初創公司和開源社羣都在努力開發最先進的大型語言模型。迄今為止,已經有超過數百種 LLM 釋出,但哪些是能力最強的呢?要想知道答案,請關注我們的 2023 年最佳大型語言模型(專有和開源)列表。
- GPT-4
- GPT-3.5
- PaLM 2 (Bison-001)
- Claude v1
- Cohere
- Falcon
- LLaMA
- Guanaco-65B
- Vicuna 33B
- MPT-30B
- 30B-Lazarus
- WizardLM
- GPT4All
1. GPT-4
OpenAI 的 GPT-4 模型是 2023 年最好的人工智慧大型語言模型(LLM)。GPT-4 模型於 2023 年 3 月釋出,展示了複雜推理理解、高階編碼能力、精通多種學術考試、展現人類水平的技能等巨大能力。
事實上,它是第一個可以接受文字和影象輸入的多模態模型。雖然 ChatGPT 還沒有加入多模態能力,但一些使用者已經通過由 GPT-4 模型支援的必應聊天工具獲得了這種能力。
除此以外,GPT-4 還是為數不多的能解決幻覺問題的 LLM 之一,並在事實性方面取得了長足進步。與 ChatGPT-3.5 相比,GPT-4 模型在多個類別的事實評估中得分接近 80%。為了使 GPT-4 模型更符合人類價值觀,OpenAI 還付出了巨大努力,使用了人類反饋強化學習(RLHF)和通過領域專家進行的對抗測試。
GPT-4 模型已在超過 1 萬億個龐大引數的基礎上進行了訓練,並支援 32,768 個標記的最大上下文長度。到目前為止,我們對 GPT-4 的內部架構瞭解不多,但最近 The Tiny Corp 的 George Hotz 透露,GPT-4 是一個混合模型,有 8 個不同的模型,每個模型有 2200 億個引數。基本上,它不是一個大的密集模型,正如之前所理解的那樣。
GPT-4
最後,您可以使用 ChatGPT 外掛,並使用 GPT-4 模型通過必應瀏覽網頁。唯一的缺點是響應速度較慢,推理時間較長,這迫使開發人員不得不使用較早的 GPT-3.5 模型。總的來說,OpenAI GPT-4 模型是迄今為止你能在 2023 年使用的最好的 LLM,如果你打算用它來做嚴肅的工作,我強烈建議你訂閱 ChatGPT Plus。它的價格為 20 美元,但如果你不想付費,可以從第三方入口網站免費使用 ChatGPT 4。
2. GPT-3.5
繼 GPT 4 之後,OpenAI 憑藉 GPT-3.5 再次躍居第二。這是一款通用型 LLM,與 GPT-4 類似,但在特定領域缺乏專長。先說優點,它是一個速度驚人的模型,能在幾秒鐘內生成完整的響應。
無論是用 ChatGPT 完成寫論文等創造性任務,還是用 ChatGPT 提出賺錢的商業計劃,GPT-3.5 模型都能出色地完成。此外,該公司最近還為 GPT-3.5 渦輪增壓型號釋出了更大的 16K 上下文長度。別忘了,它還可以免費使用,而且沒有小時或日限制。
GPT-3.5
儘管如此,GPT-3.5 最大的缺點是經常產生幻覺,並經常提供虛假資訊。因此,對於嚴肅的研究工作,我不建議使用它。不過,對於基本的編碼問題、翻譯、理解科學概念和創造性任務來說,GPT-3.5 已經足夠優秀了。
在 HumanEval 基準測試中,GPT-3.5 模型的得分率為 48.1%,而 GPT-4 的得分率為 67%,是所有通用大型語言模型中最高的。請記住,GPT-3.5 是在 1750 億個引數上訓練出來的,而 GPT-4 是在超過 1 萬億個引數上訓練出來的。
3. PaLM 2 (Bison-001)
接下來是來自谷歌的 PaLM 2 人工智慧模型,它被評為 2023 年最佳大型語言模型之一。在 PaLM 2 模型中,谷歌重點研究了常識推理、形式邏輯、數學和 20 多種語言的高階編碼。據悉,最大的 PaLM 2 模型已經過 5400 億個引數的訓練,最大上下文長度為 4096 個片語。
谷歌已經發布了基於 PaLM 2 的四種不同大小的模型(Gecko、Otter、Bison 和 Unicorn)。其中,Bison 目前已經上市,它在 MT-Bench 測試中的得分是 6.40 分,而 GPT-4 則高達 8.99 分。
Google Bard running on PaLM 2
儘管如此,在 WinoGrande、StrategyQA、XCOPA 等推理評估和其他測試中,PaLM 2 表現出色,超過了 GPT-4。它還是一個多語言模型,可以理解成語、謎語和不同語言的細微文字。這是其他 LLM 難以企及的。
PaLM 2 還有一個優點,那就是它的反應速度非常快,能同時提供三種反應。您可以根據我們的文章,在谷歌的頂點人工智慧平臺上測試 PaLM 2 (Bison-001) 模型。至於消費者,可以使用在 PaLM 2 上執行的 Google Bard。
4. Claude v1
如果您不知道,Claude 是 Anthropic 開發的一款功能強大的 LLM,並得到了谷歌的支援。它由 OpenAI 的前員工共同創立,其目標是打造樂於助人、誠實無害的人工智慧助手。在多項基準測試中,Anthropic 的 Claude v1 和 Claude Instant 模型都表現出了很好的前景。事實上,在 MMLU 和 MT-Bench 測試中,Claude v1 的表現優於 PaLM 2。
Claude via Slack
在 MT-Bench 測試中,它的得分接近 GPT-4,為 7.94 分,而 GPT-4 為 8.99 分。在 MMLU 基準測試中,Claude v1 也獲得了 75.6 分,而 GPT-4 獲得了 86.4 分。Anthropic 還是首家在其 Claude-instant-100k 模型中提供 100k 代幣作為最大上下文視窗的公司。您基本上可以在一個視窗中載入近 75,000 個單詞。這絕對太瘋狂了,對吧?如果您有興趣,可以立即檢視我們關於如何使用 Anthropic Claude 的教程。
5. Cohere
Cohere 是一家人工智慧初創公司,由曾在谷歌大腦團隊工作的前谷歌員工創立。公司聯合創始人之一艾丹-戈麥斯(Aidan Gomez)曾參與撰寫 “注意力就是你所需要的一切”(Attention is all you Need)論文,該論文介紹了 Transformer 架構。與其他人工智慧公司不同,Cohere 是為企業而來,為企業解決生成式人工智慧用例。Cohere 有許多從小到大的模型–從只有 6B 引數的模型到 52B 引數訓練的大型模型。
最近推出的 Cohere Command 模型因其準確性和穩健性贏得了讚譽。根據 Standford HELM 的資料,Cohere Command 模型的準確性在同行中得分最高。除此之外,Spotify、Jasper、HyperWrite 等公司都在使用 Cohere 的模型來提供人工智慧體驗。
在定價方面,Cohere 生成 100 萬個代幣收費 15 美元,而 OpenAI 的渦輪模型生成相同數量的代幣收費 4 美元。儘管如此,就準確性而言,它還是優於其他 LLM。因此,如果你正在經營一家企業,並在尋找最好的 LLM 以融入你的產品,你可以看看 Cohere 的模型。
6. Falcon
Falcon 是本榜單中第一個開源大型語言模型,它的排名超過了迄今為止釋出的所有開源模型,包括 LLaMA、StableLM、MPT 等。它由阿聯酋技術創新研究所(TII)開發。Falcon 的最大優點是採用 Apache 2.0 許可開源,這意味著您可以將該模型用於商業目的。也沒有版稅或限制。
到目前為止,TII 已經發布了兩個 Falcon 模型,分別基於 40B 和 7B 引數進行訓練。開發人員建議,這些都是原始模型,但如果您想用它們來聊天,就應該選擇經過微調的 Falcon-40B-Instruct 模型,以適應大多數使用情況。
Falcon 模型主要使用英語、德語、西班牙語和法語進行訓練,但也可以使用義大利語、葡萄牙語、波蘭語、荷蘭語、羅馬尼亞語、捷克語和瑞典語。因此,如果您對開源人工智慧模型感興趣,不妨先看看 Falcon。
7. LLaMA
自從 LLaMA 模型在網上洩露後,Meta 公司就開始了開源之路。它正式釋出了從 70 億引數到 650 億引數的各種規模的 LLaMA 模型。據 Meta 稱,其 LLaMA-13B 模型優於 OpenAI 的 GPT-3 模型,後者是在 1750 億個引數上訓練出來的。許多開發人員正在使用 LLaMA 微調和建立一些最好的開源模型。儘管如此,請記住,LLaMA 僅用於研究,與 TII 的獵鷹模型不同,不能用於商業用途。
說到 LLaMA 65B 型號,它在大多數使用情況下都表現出了驚人的能力。在 “擁抱臉 “的開放式 LLM 排行榜上,它躋身前 10 名。Meta 公司表示,它沒有使用任何專有材料來訓練該模型。相反,該公司使用了來自 CommonCrawl、C4、GitHub、ArXiv、維基百科、StackExchange 等的公開資料。
簡而言之,在 Meta 釋出 LLaMA 模型之後,開源社羣出現了快速的創新,並提出了新的技術來製作更小、更高效的模型。
8. Guanaco-65B
在幾個 LLaMA 衍生模型中,Guanaco-65B 被證明是最好的開源 LLM,僅次於 Falcon 模型。在 MMLU 測試中,它的得分是 52.7,而 Falcon 模型的得分是 54.1。同樣,在 TruthfulQA 評估中,Guanaco 得分為 51.3,而 Falcon 則高出一籌,為 52.5。Guanaco 共有四種型號:7B、13B、33B 和 65B。所有模型都由 Tim Dettmers 和其他研究人員在 OASST1 資料集上進行了微調。
至於如何對 Guanaco 進行微調,研究人員提出了一種名為 QLoRA 的新技術,它能有效減少記憶體使用量,同時保持完整的 16 位任務效能。在 Vicuna 基準測試中,Guanaco-65B 模型的效能甚至超過了引數更小的 ChatGPT(GPT-3.5 模型)。
最棒的是,65B 模型在擁有 48GB VRAM 的單 GPU 上進行訓練僅用了 24 小時。這表明開源模型在降低成本和保持質量方面取得了很大進展。總之,如果你想嘗試離線本地 LLM,你一定可以試試 Guanaco 模型。
9. Vicuna 33B
Vicuna 是 LMSYS 開發的另一個功能強大的開源 LLM。與其他許多開源模型一樣,它也是從 LLaMA 衍生而來。它通過監督指導進行了微調,訓練資料收集自 sharegpt.com,這是一個使用者分享其精彩 ChatGPT 對話的入口網站。它是一個自動迴歸的大型語言模型,經過 330 億個引數的訓練。
在 LMSYS 自己的 MT-Bench 測試中,它獲得了 7.12 分,而最好的專利模型 GPT-4 則獲得了 8.99 分。在 MMLU 測試中,Vicuna 也獲得了 59.2 分,而 GPT-4 獲得了 86.4 分。儘管 Vicuna 是一款小巧得多的模型,但它的表現卻非常出色。您可以點選下面的連結檢視演示並與聊天機器人互動。
10. MPT-30B
MPT-30B 是另一個與 LLaMA 衍生模型競爭的開源 LLM。它由 Mosaic ML 開發,並在不同來源的大量資料語料庫上進行了微調。它使用了 ShareGPT-Vicuna、Camel-AI、GPTeacher、Guanaco、Baize 和其他來源的資料集。這個開源模型最棒的地方在於它的上下文長度為 8K tokens。
此外,它還優於 OpenAI 的 GPT-3 型號,並在 LMSYS 的 MT-Bench 測試中獲得了 6.39 分。如果您想在本地執行一個小型 LLM,MPT-30B 型號是一個不錯的選擇。
11. 30B-Lazarus
30B-Lazarus 模型由 CalderaAI 開發,它使用 LLaMA 作為基礎模型。開發人員使用了多個模型的 LoRA 調整資料集,包括 Manticore、SuperCOT-LoRA、SuperHOT、GPT-4 Alpaca-LoRA 等。因此,該模型在許多 LLM 基準測試中的表現要好得多。它在 HellaSwag 中的得分是 81.7,在 MMLU 中的得分是 45.2,僅次於 Falcon 和 Guanaco。如果您的使用情況主要是文字生成,而不是對話聊天,那麼 30B Lazarus 模型可能是一個不錯的選擇。
12. WizardLM
WizardLM 是我們的下一個開源大型語言模型,它是為遵循複雜指令而構建的。一個人工智慧研究團隊提出了一種 Evol-instruct 方法,將初始指令集改寫為更復雜的指令。生成的指令資料用於微調 LLaMA 模型。
由於採用了這種方法,WizardLM 模型在基準測試中的表現要好得多,使用者更喜歡 WizardLM 的輸出,而不是 ChatGPT 的回覆。在 MT-Bench 測試中,WizardLM 得分為 6.35 分,在 MMLU 測試中得分為 52.3 分。總體而言,對於僅有 13B 的引數,WizardLM 做得相當不錯,為更小的模型開啟了大門。
13. GPT4All
GPT4ALL 是 Nomic AI 的一個專案。我推薦它不僅是因為它的內部模型,還因為它能讓你在沒有專用 GPU 或網際網路連線的情況下在電腦上執行本地 LLM。它開發了一個 13B Snoozy 模型,效果相當不錯。我在自己的電腦上測試過多次,鑑於我使用的是入門級電腦,它生成響應的速度相當快。我還在 GPT4All 上使用過 PrivateGPT,它確實能從自定義資料集中生成答案。
除此之外,它還收錄了來自不同組織的 12 款開源模型。它們大多基於 7B 和 13B 引數構建,重量在 3 GB 至 8 GB 之間。最重要的是,你可以獲得一個圖形使用者介面安裝程式,選擇一個模型並立即開始使用。無需在終端進行任何操作。簡而言之,如果您想以使用者友好的方式在電腦上執行本地 LLM,GPT4All 就是最好的選擇。
評論留言