2023年最流行的大型語言模型例項有哪些

2023年最流行的大型語言模型例項有哪些

大型語言模型(LLMs)已經佔領了網際網路。2023年1月,OpenAI的ChatGPT擁有1億月活躍使用者,創造了有史以來使用者群增長最快的記錄。對LLM的需求很高,因為有很多用例,例如:

通過對更多的資料進行訓練,以及對使其能夠理解語言的深度學習神經網路的改進,大型語言模型正在不斷改進。

作為一項新技術,大型語言模型仍處於被應用於商業的早期階段。可能不知道領先的大型語言模型例子的朋友可以閱讀這篇文章來了解大型語言模型。

什麼是大型語言模型,它們是如何工作的?

大型語言模型是深度學習神經網路,通過對大量文字的訓練,可以理解、處理和產生人類語言。大型語言模型可以歸類於自然語言處理(NLP),這是一個旨在理解、解釋和生成自然語言的人工智慧領域。

在訓練過程中,LLM被輸入資料(數十億字)以學習語言中的模式和關係。語言模型的目的是根據前面的詞來計算出下一個詞的可能性。該模型接受一個提示,並使用它在訓練期間學到的概率(引數)來產生一個反應。

如果你是大型語言模型的新手,請檢視我們的《大型語言模型: 2023年的完整指南》一文。

大型語言模型是如何訓練的?

像ChatGPT這樣的大型語言模型是通過一個叫做監督學習的過程進行訓練的。在訓練過程中:

  • 首先,向模型提供一大組文字輸入及其相應的輸出,以預測新輸入的輸出。
  • 該模型使用優化演算法來調整其引數,使其預測和實際輸出之間的差異最小。
  • 然後,訓練資料被分批交給模型。
  • 該模型對每個批次進行預測,並根據它看到的誤差改變其引數。
  • 這個過程要重複幾次,讓模型逐漸學習資料中的關係和模式。

檢視我們關於大型語言模型訓練的文章,瞭解更多關於這個問題的資訊。

大型語言模型例項

我們在下表中介紹了領先的大型語言模型,其引數適合於企業採用。我們提供了一些關於最具影響力的模型的額外資訊。

模型 開發商 始於 引數數量 涵蓋的語言數量 是否開源 是否企業內部/私有云 研究/論文
GPT-3 OpenAI 2020 175 billion 95種自然語言和12種程式語言 No No,僅通過Microsoft Azure https://proceedings.neurips.cc/
BERT Google 2018 340 million 104種多模態語言 Yes Yes https://arxiv.org/abs/1810.04805
BLOOM BigScience 2022 176 billion 46種自然語言+13種程式語言 Yes Yes https://huggingface.co/
NeMo LLM NVIDIA 2022 530 billion 僅英語 Yes Yes https://www.nvidia.com/
Turing NLG Microsoft 2020 17 billion 僅英語 Yes No https://www.microsoft.com/
XLM-RoBERTa Meta 2020 354 million 100種自然語言 Yes Yes https://arxiv.org/abs/1911.02116
XLNet Zhilin Yang, Zihang Dai, Yiming Yang, Jaime Carbonell, Ruslan Salakhutdinov, Quoc V. Le 2020 340 million 僅英語 Yes Yes https://arxiv.org/abs/1906.08237
OPT Meta 2022 175 billion 僅英語 Yes Yes https://arxiv.org/abs/2205.01068
LaMDA Google 2021 137 billion 僅英語 Yes No https://blog.google/technology/ai/lamda/
Classify, Generate, Embed Cohere 2021 NA +100 自然語言 Yes Yes https://docs.cohere.ai/
Luminous Aleph Alpha 2022 NA 英語, 德語, 法語, 義大利語和 西班牙語 No Yes https://www.aleph-alpha.com/luminous
GLM-130B Tsinghua University 2022 130 billion 英語 & 中文 Yes Yes https://keg.cs.tsinghua.edu.cn/
CPM-2 Beijing Academy of Artificial Intelligence &Tsinghua University 2021 11 billion 英語 & 中文 Yes Yes https://arxiv.org/pdf/2106.10715.pdf
ERNIE 3.0 Baidu 2021 10 billion 英語 & 中文 Yes Yes https://arxiv.org/abs/2107.02137

注意:引數數量和支援的語言等功能會根據語言模型的版本而改變。

1- BERT

來自Transformers的Bidirectional Encoder Representations,簡稱BERT,是谷歌在2018年釋出的一個大型語言模型。BERT利用了谷歌在2017年推出的Transformer神經網路架構。

在引入BERT之前,NLP最常見的應用是遞迴神經網路(RNNs),它將輸入文字看成是從左到右或從左到右和從右到左的組合。與舊的單向模型不同,BERT是雙向訓練的,這使它能夠對語言的背景和流程有更深的認識。

2- GPT-3

GPT-3是Open AI最新的生成式預訓練(GPT)模型,於2020年釋出。GPT-3也是基於Transformer架構,它以無監督的方式進行預訓練,通過零次、一次或幾次的學習技術進行微調,使其適用於許多用例。

3- BLOOM

BLOOM是由BigScience發起的,是最大的開源模型中的一個多語言模型。BLOOM也有一個基於Transformer的架構,這是現代語言模型中最流行的選擇。

評論留言