大型語言模型(LLMs)已經佔領了網際網路。2023年1月,OpenAI的ChatGPT擁有1億月活躍使用者,創造了有史以來使用者群增長最快的記錄。對LLM的需求很高,因為有很多用例,例如:
通過對更多的資料進行訓練,以及對使其能夠理解語言的深度學習神經網路的改進,大型語言模型正在不斷改進。
作為一項新技術,大型語言模型仍處於被應用於商業的早期階段。可能不知道領先的大型語言模型例子的朋友可以閱讀這篇文章來了解大型語言模型。
什麼是大型語言模型,它們是如何工作的?
大型語言模型是深度學習神經網路,通過對大量文字的訓練,可以理解、處理和產生人類語言。大型語言模型可以歸類於自然語言處理(NLP),這是一個旨在理解、解釋和生成自然語言的人工智慧領域。
在訓練過程中,LLM被輸入資料(數十億字)以學習語言中的模式和關係。語言模型的目的是根據前面的詞來計算出下一個詞的可能性。該模型接受一個提示,並使用它在訓練期間學到的概率(引數)來產生一個反應。
如果你是大型語言模型的新手,請檢視我們的《大型語言模型: 2023年的完整指南》一文。
大型語言模型是如何訓練的?
像ChatGPT這樣的大型語言模型是通過一個叫做監督學習的過程進行訓練的。在訓練過程中:
- 首先,向模型提供一大組文字輸入及其相應的輸出,以預測新輸入的輸出。
- 該模型使用優化演算法來調整其引數,使其預測和實際輸出之間的差異最小。
- 然後,訓練資料被分批交給模型。
- 該模型對每個批次進行預測,並根據它看到的誤差改變其引數。
- 這個過程要重複幾次,讓模型逐漸學習資料中的關係和模式。
檢視我們關於大型語言模型訓練的文章,瞭解更多關於這個問題的資訊。
大型語言模型例項
我們在下表中介紹了領先的大型語言模型,其引數適合於企業採用。我們提供了一些關於最具影響力的模型的額外資訊。
模型 | 開發商 | 始於 | 引數數量 | 涵蓋的語言數量 | 是否開源 | 是否企業內部/私有云 | 研究/論文 |
---|---|---|---|---|---|---|---|
GPT-3 | OpenAI | 2020 | 175 billion | 95種自然語言和12種程式語言 | No | No,僅通過Microsoft Azure | https://proceedings.neurips.cc/ |
BERT | 2018 | 340 million | 104種多模態語言 | Yes | Yes | https://arxiv.org/abs/1810.04805 | |
BLOOM | BigScience | 2022 | 176 billion | 46種自然語言+13種程式語言 | Yes | Yes | https://huggingface.co/ |
NeMo LLM | NVIDIA | 2022 | 530 billion | 僅英語 | Yes | Yes | https://www.nvidia.com/ |
Turing NLG | Microsoft | 2020 | 17 billion | 僅英語 | Yes | No | https://www.microsoft.com/ |
XLM-RoBERTa | Meta | 2020 | 354 million | 100種自然語言 | Yes | Yes | https://arxiv.org/abs/1911.02116 |
XLNet | Zhilin Yang, Zihang Dai, Yiming Yang, Jaime Carbonell, Ruslan Salakhutdinov, Quoc V. Le | 2020 | 340 million | 僅英語 | Yes | Yes | https://arxiv.org/abs/1906.08237 |
OPT | Meta | 2022 | 175 billion | 僅英語 | Yes | Yes | https://arxiv.org/abs/2205.01068 |
LaMDA | 2021 | 137 billion | 僅英語 | Yes | No | https://blog.google/technology/ai/lamda/ | |
Classify, Generate, Embed | Cohere | 2021 | NA | +100 自然語言 | Yes | Yes | https://docs.cohere.ai/ |
Luminous | Aleph Alpha | 2022 | NA | 英語, 德語, 法語, 義大利語和 西班牙語 | No | Yes | https://www.aleph-alpha.com/luminous |
GLM-130B | Tsinghua University | 2022 | 130 billion | 英語 & 中文 | Yes | Yes | https://keg.cs.tsinghua.edu.cn/ |
CPM-2 | Beijing Academy of Artificial Intelligence &Tsinghua University | 2021 | 11 billion | 英語 & 中文 | Yes | Yes | https://arxiv.org/pdf/2106.10715.pdf |
ERNIE 3.0 | Baidu | 2021 | 10 billion | 英語 & 中文 | Yes | Yes | https://arxiv.org/abs/2107.02137 |
注意:引數數量和支援的語言等功能會根據語言模型的版本而改變。
1- BERT
來自Transformers的Bidirectional Encoder Representations,簡稱BERT,是谷歌在2018年釋出的一個大型語言模型。BERT利用了谷歌在2017年推出的Transformer神經網路架構。
在引入BERT之前,NLP最常見的應用是遞迴神經網路(RNNs),它將輸入文字看成是從左到右或從左到右和從右到左的組合。與舊的單向模型不同,BERT是雙向訓練的,這使它能夠對語言的背景和流程有更深的認識。
2- GPT-3
GPT-3是Open AI最新的生成式預訓練(GPT)模型,於2020年釋出。GPT-3也是基於Transformer架構,它以無監督的方式進行預訓練,通過零次、一次或幾次的學習技術進行微調,使其適用於許多用例。
3- BLOOM
BLOOM是由BigScience發起的,是最大的開源模型中的一個多語言模型。BLOOM也有一個基於Transformer的架構,這是現代語言模型中最流行的選擇。
評論留言