對大型語言模型(LLMs)的興趣正在上升,特別是在2022年11月ChatGPT釋出之後(見圖1)。近年來,LLMs已經改變了各個行業,產生了類似人類的文字,解決了廣泛的應用。然而,圍繞偏見、不準確和毒性的擔憂阻礙了它們的有效性,這限制了它們更廣泛的應用,並引起了道德問題。
圖1. 大型語言模型最近一年的谷歌搜尋趨勢(Source: Google Trends)
本文探討了大型語言模型的未來,深入研究了一些有前景的方法,如自我訓練、事實核查和稀疏的專業知識,以緩解這些問題並釋放這些模型的全部潛力。
什麼是大型語言模型?
大型語言模型是一種人工智慧模型,旨在通過分析大量的資料來生成和理解類似人類的文字。這些基礎模型以深度學習技術為基礎,通常涉及具有許多層和大量引數的神經網路,使它們能夠捕捉它們所訓練的資料中的複雜模式。
大型語言模型的主要目標是理解自然語言的結構、語法、語義和語境,因此它可以生成連貫的、符合語境的反應,或用相關資訊完成給定的文字輸入。
這些模型在不同的文字資料來源上進行訓練,包括書籍、文章、網站和其他文字內容,這使它們能夠產生對廣泛主題的迴應。
流行的大型語言模型有哪些?
BERT (Google)
BERT是Bidirectional Encoder Representations from Transformers的首字母縮寫,是谷歌在2018年開發的一個基礎性模型。基於谷歌在2017年推出的Transformer神經網路架構,BERT標誌著與普遍的自然語言處理(NLP)方法不同,該方法依賴於遞迴神經網路(RNN)。
在BERT之前,RNN通常以從左到右的方式處理文字,或結合從左到右和從右到左的分析。相比之下,BERT是雙向訓練的,與單向的前輩相比,它能夠更全面地瞭解語言的背景和流程。
GPT-3 & GPT-4 (OpenAI)
GPT-3
OpenAI的GPT-3,即Generative Pre-trained Transformer 3,是一個大型語言模型,因其在自然語言理解和生成方面的卓越能力而獲得了極大的關注。GPT-3於2020年6月釋出,是GPT系列的第三次迭代,建立在其前輩GPT和GPT-2的成功之上。
GPT-3在發展為GPT-3.5時已被公開使用,用於建立2022年11月釋出的對話式人工智慧工具ChatGPT。
GPT-3使用了數十億的引數,相比之下,它的競爭對手就相形見絀了(圖2)。這使得它成為其繼任者GPT-4之前最複雜的大型語言模型。
圖2. 圖片顯示了GPT-3與其他巨型NLP模型相比具有更大的引數分析能力
GPT-4
現在最大的語言模型是OpenAI的GPT-4,於2023年3月釋出。雖然該模型在規模上比其他模型更復雜,但OpenAI沒有分享該模型的技術細節。
GPT-4是一個具有相當規模的多模態大型語言模型,可以處理影象和文字的輸入,並提供文字的輸出。儘管它在許多現實世界的情況下可能不如人類表現得好,但這個新模型在一些專業和學術基準上表現出的效能水平與人類相當。
與其他LLM相比,該模型具有各種獨特的功能,包括
- 視覺輸入選項
- 更高的字數限制
- 高階推理能力
- 可引導性,等等。
關於GPT-4的這些能力的更詳細說明,請檢視我們的深度指南。
BLOOM (BigScience)
BLOOM是一個自迴歸大型語言模型,使用海量的文字資料和大量的計算資源進行訓練,以擴充套件文字提示。2022年7月釋出,作為GPT-3的競爭者,它建立在176個引數上。因此,它可以在46種語言和13種程式語言中產生連貫的文字。
關於目前LLM的比較分析,請檢視我們的大型語言模型例項文章。
大型語言模型處於什麼階段?
現階段的大型語言模型的特點是它們在廣泛的主題和應用中理解和生成類似人類的文字的能力令人印象深刻。這些模型使用先進的深度學習技術構建,並在大量的資料上進行訓練,如OpenAI的GPT-3和谷歌的BERT,已經對自然語言處理領域產生了重大影響。
目前的LLM已經在各種任務上取得了最先進的效能,如:
儘管取得了這些成就,語言模型仍然有各種限制,需要在未來的模型中加以解決和修正。
1- 準確性
大型語言模型採用機器學習來推斷資訊,這引起了人們對潛在不準確的關注。此外,預先訓練好的大型語言模型很難動態地適應新的資訊,導致潛在的錯誤反應,需要在未來的發展中進一步審查和改進。圖3顯示了一些LLMs的準確性比較。
圖3. 各種語言模型在5-shot HELM基準上的準確性結果(來源: “BLOOM:一個176B引數的開放性多語種語言模型”)
2- 偏見
大型語言模型有助於通過語音和文字進行類似人類的交流。然而,最近的研究結果表明,更先進和規模更大的系統傾向於吸收其訓練資料中存在的社會偏見,導致線上社羣內出現性別歧視、種族主義或能力歧視的傾向(圖4)。
圖4. 大型語言模型的毒性指數(來源: 斯坦福大學2022年人工智慧指數報告)
例如,與2018年的1.17億個引數的模型相比,最近的2800億個引數的模型的毒性水平大幅增加了29%。隨著這些系統的不斷進步,成為人工智慧研究和開發的更強大的工具,偏見風險升級的可能性也在增加。圖5比較了一些LLM的偏差潛力。
圖5. 各種語言模型在5-shot HELM基準上的偏差結果(來源: “BLOOM:一個176B引數的開放性多語種語言模型”)
3- 毒性
大型語言模型的毒性問題指的是這些模型在回覆中無意中產生有害的、攻擊性的或不恰當的內容的問題。這個問題的出現是因為這些模型是在網際網路的大量文字資料上訓練出來的,這些資料可能包含偏見、攻擊性語言或有爭議的觀點。
圖6. 各種語言模型在5-shot HELM基準上對毒性的測試結果(來源: “BLOOM:一個176B引數的開放性多語種語言模型”)
在未來的大型語言模型中解決毒性問題需要一個涉及研究、合作和持續改進的多方面的方法。在未來的模型中減輕毒性的一些潛在策略可以包括:
- 策劃和改進訓練資料
- 開發更好的微調技術
- 納入使用者反饋
- 內容調控策略
4- 容量限制
每個大型語言模型都有一個特定的記憶體容量,這限制了它可以處理的輸入令牌的數量。例如,ChatGPT有2048個令牌的限制(大約1500個單詞),使它無法理解和產生超過這個令牌閾值的輸入的輸出。
GPT-4將容量擴充套件到25000字,遠遠超過了取決於GPT-3.5的ChatGPT模型(圖7)。
圖7. ChatGPT和GPT-4的字數限制比較(來源: OpenAI)
5- 預訓練的知識集
語言模型是在一組固定的資料上訓練的,這些資料代表了某一時間點上的知識快照。一旦訓練完成,模型的知識就會被凍結,無法獲取最新的資訊。這意味著訓練資料收集後發生的任何資訊或變化都不會反映在大型語言模型的反應中。
這就導致了幾個有關的問題,如:
- 過時或不正確的資訊
- 無法處理最近的事件
- 在技術、金融或醫學等動態領域的相關性較低
大型語言模型的未來是什麼?
我們不可能預見到未來的語言模型將如何發展。然而,關於LLM的研究是很有希望的,重點是我們上面解釋的常見問題。我們可以為未來的語言模型指出3個根本性的、實質性的變化。
1- 事實自檢
一系列有希望的進展旨在緩解大型語言模型的事實不可靠和靜態知識限制。這些新技術對於準備LLM在現實世界的廣泛實施至關重要。做到這一點需要兩種能力:
- 訪問外部資源的能力
- 為答案提供引證和參考的能力
這一領域的重要初步研究以谷歌的REALM和Facebook的RAG等模型為特色,兩者都是在2020年推出的。
2022年6月,OpenAI推出了其GPT模型的微調版本,稱為WebGPT,它利用微軟必應瀏覽網際網路並對提示產生更精確和全面的答案。WebGPT的操作與人類使用者類似:
- 向必應提交搜尋查詢
- 點選連結
- 滾動網頁
- 使用Ctrl+F等功能來定位術語
當該模型將網際網路上的相關資訊納入其輸出時,它包括引文,允許使用者驗證資訊的來源。研究結果表明,所有的WebGPT模型在準確回答的比例和提供真實和有資訊的答案的比例方面都超過了每個GPT-3模型。
圖8. 比較GPT-3和WebGPT模型的TruthfulQA結果(來源: “WebGPT:有人類反饋的瀏覽器輔助問題回答”)
DeepMind正在積極探索類似的研究途徑。幾個月前,他們推出了一個名為Sparrow的新模型。與ChatGPT一樣,Sparrow以一種基於對話的方式運作,與WebGPT類似,它可以在網際網路上搜尋新的資訊,並提供引文來支援其主張。
圖9. Sparrow為事實主張提供最新的答案和證據(來源: “通過有針對性的人類判斷改善對話代理的一致性”)
儘管現在得出結論說準確性、事實核查和靜態知識庫問題可以在不久的將來的模型中被克服還為時過早,但目前的研究成果對未來充滿希望。這可能會減少使用提示工程來交叉檢查模型輸出的需要,因為模型將已經交叉檢查了它的結果。
2- 合成訓練資料
為了解決我們上面提到的一些限制,比如訓練資料造成的限制,研究人員正在研究能夠生成自己的訓練資料集(即生成合成訓練資料集)的大型語言模型。
在最近的一項研究中,谷歌的研究人員開發了一個大型的語言模型,能夠建立問題,產生全面的答案,過濾其回答以獲得最高質量的輸出,並使用策劃的答案對自己進行微調。令人印象深刻的是,這在多個語言任務中產生了新的最先進的效能。
圖10. 谷歌的自我改進模型概覽(來源: “大型語言模型可以自我改進”)
例如,該模型在GSM8K上的效能從74.2%提高到82.1%,在DROP上從78.2%提高到83.0%,這是兩個廣泛用於評估LLM效能的基準。
最近的一項研究著重於加強一種被稱為 “指令微調 “的關鍵LLM技術,它構成了ChatGPT等產品的基礎。雖然ChatGPT和類似的指令微調模型依賴於人類起草的指令,但研究小組開發了一個能夠生成自己的自然語言指令並隨後使用這些指令進行自我微調的模型。
效能的提高是巨大的,因為這種方法將基礎GPT-3模型的效能提高了33%,幾乎等同於OpenAI自己的指令調整模型的效能(圖11)。
圖11. 由人類專家評估的GPT3模型及其指令調優變體的效能(來源: “自我指導: 將語言模型與自我生成的指令對齊”)
未來有了這樣的模型,就有可能減少模型輸出的偏差和毒性,並提高用所需資料集進行微調的效率,也就是說,模型要學會自我優化。
3- 稀少的專業知識
雖然每個模型的引數、訓練資料、演算法等都會造成效能上的差異,但今天所有被廣泛認可的語言模型–如OpenAI的GPT-3、Nvidia/微軟的Megatron-Turing、谷歌的BERT–最終都有一個基本的設計。它們是
- 自迴歸
- 自監督
- 預先訓練
- 採用密集啟用的基於transformer的架構
密集的語言模型意味著這些模型中的每一個都使用其所有的引數來建立對提示的響應。正如你可能猜到的,這不是很有效,而且很麻煩。
稀疏的專家模型是指一個模型能夠只啟用其相關的引數集來回答一個給定的提示。目前開發的具有超過1萬億個引數的LLM被認為是稀疏模型。2 這些模型的一個例子是谷歌的GLam,具有1.2萬億個引數。
據《福布斯》報道,谷歌的GLaM比GPT-3大七倍,但訓練時消耗的能量卻少三分之二。它只需要一半的計算資源用於推理,並在眾多自然語言任務上超過了GPT-3的效能。
稀疏專家模型意味著以這種方式開發未來的語言模型,效率更高,對環境的破壞也更小。
- “GPT-4.” OpenAI, 14 March 2023, https://openai.com/research/gpt-4. Accessed 10 April 2023.
- “The Next Generation Of Large Language Models.” Forbes, https://www.forbes.com/sites/robtoews/2023/02/07/the-next-generation-of-large-language-models/?sh=48c2008218db. Accessed 10 April 2023.
評論留言