週三(4月26),Databricks釋出了Dolly 2.0,據說這是第一個開源的、遵循指令的大型語言模型(LLM),用於商業用途,在人類生成的資料集上進行了微調。它可以作為自制ChatGPT競爭對手的一個引人注目的起點。
Databricks是一家美國企業軟體公司,由Apache Spark的建立者於2013年創立。他們提供了一個基於網路的平臺,用於大資料和機器學習的Spark工作。根據Dolly釋出的博文,Databricks希望允許企業建立和定製LLM,”無需為API訪問付費或與第三方共享資料”。
Dolly 2.0是其新的120億個引數的模型,基於EleutherAI的pythia模型系列,並完全根據Databricks員工眾包的訓練資料(稱為 “databricks-dolly-15k”)進行微調。這種校準使它的能力更符合OpenAI的ChatGPT,它在回答問題和作為聊天機器人蔘與對話方面比沒有經過微調的原始LLM更好。
3月釋出的Dolly 1.0在商業使用方面面臨著限制,原因是訓練資料包含ChatGPT的輸出(感謝Alpaca),並受制於OpenAI的服務條款。為了解決這個問題,Databricks的團隊試圖建立一個新的資料集,允許商業使用。
為此,Databricks在2023年3月至4月期間,從其5000多名員工那裡眾包了13000個遵循指令的行為演示。為了激勵參與,他們設立了一個競賽,並概述了資料生成的七個具體任務,包括開放式問答、封閉式問答、從維基百科中提取和總結資訊、頭腦風暴、分類和創意寫作。
由此產生的資料集,以及Dolly的模型權重和訓練程式碼,已經在知識共享協議下被完全開源釋出,使任何人都可以為任何目的使用、修改或擴充套件資料集,包括商業應用。
相比之下,OpenAI的ChatGPT是一個專有模式,要求使用者為API訪問付費並遵守特定的服務條款,可能會限制企業和組織的靈活性和定製選項。Meta的LLaMA是一個部分開源的模型(有限制性的權重),最近在其權重在BitTorrent上洩露後催生了一波衍生品,不允許商業使用。
在Mastodon上,人工智慧研究員Simon Willison稱Dolly 2.0是 “a really big deal“。威裡森經常用開源的語言模型進行實驗,包括Dolly。”Dolly 2.0最令人激動的事情之一是微調指令集,它是由5000名Databricks員工手工打造的,並在CC許可下發布,”Willison在Mastodon的帖子中寫道。
如果對Meta的部分開放的LaMA模型的熱烈反應是任何跡象的話,Dolly 2.0有可能引發新一輪開源語言模型的浪潮,這些模型不會受到專利限制或商業使用限制的阻礙。雖然關於Dolly的實際效能還沒有定論,但進一步的改進可能允許在本地消費級機器上執行相當強大的LLMs。
“即使Dolly 2不是很好,我預計我們很快就會看到一堆使用該訓練資料的新專案,”Willison告訴Ars。”其中一些可能會產生一些真正有用的東西。”
目前,Dolly的權重可以在Hugging Face獲得,而databricks-dolly-15k資料集可以在GitHub上找到。
評論留言