2023年最流行的大型語言模型例項有哪些

大型語言模型（LLMs）已經佔領了網際網路。2023年1月，OpenAI的ChatGPT擁有1億月活躍使用者，創造了有史以來使用者群增長最快的記錄。對LLM的需求很高，因為有很多用例，例如：

通過對更多的資料進行訓練，以及對使其能夠理解語言的深度學習神經網路的改進，大型語言模型正在不斷改進。

作為一項新技術，大型語言模型仍處於被應用於商業的早期階段。可能不知道領先的大型語言模型例子的朋友可以閱讀這篇文章來了解大型語言模型。

什麼是大型語言模型，它們是如何工作的？

大型語言模型是深度學習神經網路，通過對大量文字的訓練，可以理解、處理和產生人類語言。大型語言模型可以歸類於自然語言處理（NLP），這是一個旨在理解、解釋和生成自然語言的人工智慧領域。

在訓練過程中，LLM被輸入資料（數十億字）以學習語言中的模式和關係。語言模型的目的是根據前面的詞來計算出下一個詞的可能性。該模型接受一個提示，並使用它在訓練期間學到的概率（引數）來產生一個反應。

如果你是大型語言模型的新手，請檢視我們的《大型語言模型： 2023年的完整指南》一文。

像ChatGPT這樣的大型語言模型是通過一個叫做監督學習的過程進行訓練的。在訓練過程中：

檢視我們關於大型語言模型訓練的文章，瞭解更多關於這個問題的資訊。

我們在下表中介紹了領先的大型語言模型，其引數適合於企業採用。我們提供了一些關於最具影響力的模型的額外資訊。

模型	開發商	始於	引數數量	涵蓋的語言數量	是否開源	是否企業內部/私有云	研究/論文
GPT-3	OpenAI	2020	175 billion	95種自然語言和12種程式語言	No	No，僅通過Microsoft Azure	https://proceedings.neurips.cc/
BERT	Google	2018	340 million	104種多模態語言	Yes	Yes	https://arxiv.org/abs/1810.04805
BLOOM	BigScience	2022	176 billion	46種自然語言+13種程式語言	Yes	Yes	https://huggingface.co/
NeMo LLM	NVIDIA	2022	530 billion	僅英語	Yes	Yes	https://www.nvidia.com/
Turing NLG	Microsoft	2020	17 billion	僅英語	Yes	No	https://www.microsoft.com/
XLM-RoBERTa	Meta	2020	354 million	100種自然語言	Yes	Yes	https://arxiv.org/abs/1911.02116
XLNet	Zhilin Yang, Zihang Dai, Yiming Yang, Jaime Carbonell, Ruslan Salakhutdinov, Quoc V. Le	2020	340 million	僅英語	Yes	Yes	https://arxiv.org/abs/1906.08237
OPT	Meta	2022	175 billion	僅英語	Yes	Yes	https://arxiv.org/abs/2205.01068
LaMDA	Google	2021	137 billion	僅英語	Yes	No	https://blog.google/technology/ai/lamda/
Classify, Generate, Embed	Cohere	2021	NA	+100 自然語言	Yes	Yes	https://docs.cohere.ai/
Luminous	Aleph Alpha	2022	NA	英語, 德語, 法語, 義大利語和西班牙語	No	Yes	https://www.aleph-alpha.com/luminous
GLM-130B	Tsinghua University	2022	130 billion	英語 & 中文	Yes	Yes	https://keg.cs.tsinghua.edu.cn/
CPM-2	Beijing Academy of Artificial Intelligence &Tsinghua University	2021	11 billion	英語 & 中文	Yes	Yes	https://arxiv.org/pdf/2106.10715.pdf
ERNIE 3.0	Baidu	2021	10 billion	英語 & 中文	Yes	Yes	https://arxiv.org/abs/2107.02137

注意：引數數量和支援的語言等功能會根據語言模型的版本而改變。

來自Transformers的Bidirectional Encoder Representations，簡稱BERT，是谷歌在2018年釋出的一個大型語言模型。BERT利用了谷歌在2017年推出的Transformer神經網路架構。

在引入BERT之前，NLP最常見的應用是遞迴神經網路（RNNs），它將輸入文字看成是從左到右或從左到右和從右到左的組合。與舊的單向模型不同，BERT是雙向訓練的，這使它能夠對語言的背景和流程有更深的認識。

GPT-3是Open AI最新的生成式預訓練（GPT）模型，於2020年釋出。GPT-3也是基於Transformer架構，它以無監督的方式進行預訓練，通過零次、一次或幾次的學習技術進行微調，使其適用於許多用例。

BLOOM是由BigScience發起的，是最大的開源模型中的一個多語言模型。BLOOM也有一個基於Transformer的架構，這是現代語言模型中最流行的選擇。

大型語言模型語言訓練