20個用於生成式AI和AI代理的開源資料集

用於生成式AI和AI代理的開源資料集

生成式人工智慧(GenAI)和代理式人工智慧領域正在改變從創意內容生成到自主決策的一切。這些創新的核心是龐大的開源資料集,它們為模型的訓練、測試和部署提供了動力。在本文中,我們列出了生成式 AI 和 AI 代理的頂級開源資料集,您可以用它們來訓練您的模型。這些資料集涵蓋多種模式–從廣泛的文字和註釋豐富的影象集合,到用於構建智慧代理和解決複雜推理任務的專門資源。

1. The Pile

The Pile 是一個廣泛、多樣的資料集,包含約 800GB 的文字,其來源包括 ArXiv、GitHub、維基百科等。該資料集經過精心編譯,提供了廣泛的寫作風格和主題,是訓練大規模語言模型的理想之選。研究人員和開發人員可以利用 The Pile 將模型暴露在廣泛的上下文環境中,從而提高自然語言理解和生成能力。

適用於:

  • 訓練大規模語言模型。
  • 開發複雜的自然語言理解系統。
  • 微調特定領域文字生成模型。

連結:EleutherAI – The Pile

2. Common Crawl

Common Crawl 每月彙總數十億個網頁,提供真正的網路規模資料集。該資料集收集了網際網路上的各種內容,是訓練強大語言模型的基礎資源。由於其全面性和持續更新性,該資料集對於從語言建模到大規模資訊檢索等任務都非常寶貴。

適用於:

  • 建立網路規模的語言模型。
  • 增強資訊檢索和搜尋引擎功能。
  • 分析線上內容趨勢和使用者行為。

連結:Common Crawl

3. WikiText

WikiText 是一個開源的語言建模資料集,源自高質量的維基百科文章。它保留了編輯內容中豐富的結構和語言的複雜性,為模型學習長距離依賴關係提供了一個具有挑戰性的環境。它的詞彙量也大得多,並保留了原始大小寫、標點符號和數字。WikiText-2 資料集是第一個資料集的 2 倍多,而 WikiText-103 資料集是第一個資料集的 110 多倍。

適用於:

  • 以長距離語境為重點訓練語言模型。
  • 對下一單詞預測和文字生成任務進行基準測試。
  • 為摘要和翻譯應用微調模型。

連結:WikiText on Hugging Face

4. OpenWebText

OpenWebText 是一項開源工作,旨在重新建立最初由 OpenAI 用於語言建模的 WebText 資料集。該資料集由 Reddit 上鍊接的網頁編譯而成,提供了高質量網際網路文字的各種集合。該資料集對於訓練需要廣泛語言風格和當代網路話語的模型特別有價值,因此是大規模文字生成研究的理想之選。

適用於:

  • 使用多樣化的線上文字訓練網路語言模型。
  • 為文字生成和摘要任務微調模型。
  • 利用最新網路資料研究自然語言理解。

連結:OpenWebText on GitHub

5. LAION-5B

LAION-5B 是一個巨大的資料集,包含 58.5 億個影象-文字對,為多模態人工智慧提供了前所未有的資源。它的規模和多樣性為穩定擴散和 DALL-E 等尖端文字到影象模型的訓練提供了支援。視覺資料和文字資料的整合使研究人員能夠構建有效地將語言轉化為視覺內容的系統。

適用於:

  • 訓練文字到影象的生成模型。
  • 開發多模態內容合成系統。
  • 建立高階影象字幕和視覺故事應用程式。

連結:LAION-5B

Also Read: 20 Most Liked Datasets on HuggingFace

6. MS COCO

MS COCO 提供了豐富的影象集合,並附有用於物體檢測、分割和字幕的詳細註釋。該資料集的複雜性對理解和生成視覺場景綜合描述的模型提出了挑戰。它廣泛應用於學術和工業領域,推動影象理解和生成方面的進步。

適用於:

  • 開發穩健的物件檢測和分割模型。
  • 為影象字幕和視覺描述訓練模型。
  • 建立上下文感知影象合成系統。

連結:MS COCO

7. Open Images資料集

Open Images Dataset 是一個由社羣驅動的大規模影象集合,其中標註了標籤、邊界框和分割掩碼。該資料集覆蓋面廣、內容多樣,是訓練通用影象生成和識別模型的理想工具。該資料集通過提供眾多物件類別的詳細視覺背景,支援計算機視覺領域的創新應用。該資料集的 V7 版本擁有超過 190 萬張影象的密集註釋和超過 900 萬張影象的標籤。

適用於:

  • 訓練通用影象生成系統。
  • 增強物體檢測和分割模型。
  • 建立穩健的影象識別框架

連結:Open Images Dataset

8. RedPajama‑1T

RedPajama-1T 是 LLaMA 預訓練資料集的開源複製品,由來自 CommonCrawl、Wikipedia、Books、GitHub、arXiv、C4 和 StackExchange 的 1.2 萬億個 token 組成。它採用了過濾技術(如用於網路資料的 CCNet)來提高質量。該資料集是完全透明的,所有預處理指令碼均可重複使用。

適用於:

  • 複製 LLaMA 的訓練資料
  • 開源 LLM 預訓練
  • 多領域資料集整理

連結:RedPajama-1T

9. RedPajama‑V2

RedPajama-V2 對 1T 資料集進行了改進,重點關注來自 84 個 CommonCrawl 快照的網路資料,總計超過 1 億個文字文件。該資料集包括英語、法語、德語、西班牙語和義大利語,有 40 多個用於過濾和優化的高質量註釋。這樣就能對資料集進行動態策劃,從而進行量身定製的預訓練。

適用於:

  • 高質量資料集過濾
  • 多語言 LLM 開發
  • 建立自定義預訓練資料集

連結:RedPajama‑V2

10. OpenAI WebGPT資料集

OpenAI WebGPT 資料集是專為訓練與網路動態互動的人工智慧代理而定製的。它包含人類註釋的資料,捕捉真實世界的網路瀏覽互動,這對於開發檢索增強生成系統至關重要。該資源使人工智慧模型能夠理解、瀏覽和生成基於實時網路資料的上下文感知響應。

適用於:

  • 訓練網路瀏覽和資訊檢索代理。
  • 開發檢索增強型自然語言處理系統。
  • 增強人工智慧與網路內容互動並理解網路內容的能力。

連結:OpenAI WebGPT Dataset

11. Obsidian Agent資料集

Obsidian Agent Dataset 是一個合成集合,旨在模擬自主決策環境。它側重於基於代理的推理,併為模型配備了測試複雜規劃和決策技能的場景。對於開發必須在不可預測的環境中自主執行的人工智慧代理的研究人員來說,這個資料集至關重要。

適用於:

  • 訓練自主決策模型。
  • 在受控環境中模擬基於代理的推理。
  • 為複雜的人工智慧規劃任務試驗合成資料。

連結:Obsidian Agent Dataset

12. WebShop資料集

WebShop Dataset 是專為電子商務領域的人工智慧代理設計的。它具有詳細的產品描述、使用者互動日誌和瀏覽模式,可模模擬實世界的線上購物行為。該資料集是開發能夠進行產品研究、推薦和自動購買決策的智慧代理的理想選擇。

適用於:

  • 為電子商務導航和產品研究建立人工智慧代理。
  • 為網上購物者開發推薦系統。
  • 實現產品比較和購買決策流程自動化。

連結:WebShop Dataset

13. Meta EAI資料集(Embodied AI)

Meta EAI Dataset 是為訓練與虛擬和現實環境互動的人工智慧代理而策劃的。該資料集提供了詳細的模擬場景,可為人工智慧的發展提供支援,特別是在機器人和家庭任務規劃方面。通過結合現實的互動挑戰,該資料集有助於模型在動態環境中學習有效的規劃和執行。

適用於:

  • 訓練互動式機器人代理執行真實世界的任務。
  • 模擬家庭任務規劃和執行。
  • 開發虛擬環境中的人工智慧應用。

連結:Meta EAI Dataset

14. MuJoCo

MuJoCo 是一個物理引擎,以建立高度逼真的物理互動模擬而聞名,尤其是在機器人領域。它提供了詳細的基於物理的環境,使人工智慧模型能夠學習複雜的運動和控制任務。該資料集對於專注於開發需要準確呈現真實世界動態的模型的研究人員來說至關重要。

適用於:

  • 用於現實機器人模擬的訓練模型。
  • 在模擬環境中開發先進的控制系統。
  • 基於物理任務的人工智慧演算法基準測試。

連結:MuJoCo

15. Robotics資料集

Robotics Datasets 能捕捉真實世界的感測器資料和機器人互動,是人工智慧研究不可或缺的工具。這些資料集提供了從工業自動化到服務機器人等各種機器人應用的豐富的上下文資訊。有了這些資料集,就能訓練出能以高可靠性導航複雜物理環境的模型。

適用於:

  • 為真實世界的機器人互動訓練人工智慧。
  • 開發基於感測器的決策系統
  • 為動態環境中的人工智慧效能設定基準。

連結:Robotics Datasets

16. Atari Games

Atari Games 是一個經典資料集,被用作強化學習演算法的基準。它提供了一套遊戲環境,讓人工智慧模型面臨連續決策任務的挑戰。該資料集仍然是在各種動態場景中測試和提高人工智慧效能的常用工具。

適用於:

  • 強化學習策略基準測試。
  • 測試人工智慧在不同遊戲環境中的表現。
  • 開發順序決策演算法。

連結:Atari Games

17. Web-crawled Interactions

Web-crawled interactions 包括從各種線上平臺中提取的大規模使用者行為資料。它們捕捉了真實的人類互動模式和參與度指標,為培訓互動代理提供了寶貴的見解。該資料集對於開發能夠理解和預測真實世界使用者網路行為的人工智慧特別有用。

適用於:

  • 根據真實使用者行為訓練互動式代理。
  • 利用動態互動資料增強推薦系統。
  • 分析對話式人工智慧的參與趨勢。

連結:Web-crawled Interactions

18. AI2 ARC資料集

AI2 ARC 資料集是一系列具有挑戰性的選擇題,旨在評估人工智慧的常識推理和解決問題的能力。它的問題涵蓋各種主題和難度級別,是推理模型的嚴格基準。研究人員利用這個資料集來推動邏輯推理的發展,並評估生成式人工智慧系統的理解深度。

適用於:

  • 常識推理能力基準。
  • 訓練處理標準化測試問題的模型。
  • 增強人工智慧系統中的問題解決和邏輯推理能力。

連結:AI2 ARC Dataset

19. MS MARCO

MS MARCO 是一個大型資料集,用於完成段落排序、問題解答和資訊檢索等任務。它彙編了真實世界的搜尋查詢和相關段落,用於訓練和測試檢索增強生成系統。該資料集有助於彌合資訊檢索與生成模型之間的差距,從而實現更具語境感知能力的搜尋和答案生成。

適用於:

  • 訓練檢索增強生成(RAG)模型。
  • 開發先進的段落排序和問題解答系統。
  • 利用真實世界資料增強資訊檢索管道。

連結:MS MARCO

20. OpenAI Gym

OpenAI Gym 是一個標準化的工具包,提供各種模擬環境,用於開發和測試強化學習演算法。它提供了一系列場景–從簡單的控制任務到更復雜的模擬–是訓練代理行為的理想工具。它的易用性和廣泛的社羣支援使其成為強化學習研究的主要工具。

適用於:

  • 強化學習演算法基準測試。
  • 為代理開發模擬訓練環境。
  • 在受控場景中快速建立代理行為原型。

連結:OpenAI Gym

彙總表

以下是上述討論的生成式人工智慧和代理式人工智慧開源資料集彙總表。我提到了每個資料集的樣本數量、檔案大小和開發者,以及它們的下載連結。

#No. 資料集 樣本數 檔案大小 開發者 最佳用途
1 The Pile 數百萬文件(由 22 個子資料集彙總而成) ~825 GB EleutherAI 訓練大型語言模型。
2 Common Crawl ~25 億網頁 ~60 TB (原始資料) Common Crawl Foundation 網路規模語言模型和內容分析。
3 WikiText ~28,475 篇文章 ~500 MB Salesforce Research 長距離上下文建模和文字預測。
4 OpenWebText ~8 百萬文件 ~38 GB Open-source community 基於網路的文字生成和摘要。
5 LAION-5B 58.5 億影象-文字對 ~5 TB LAION 訓練多模態人工智慧和文生圖模型。
6 MS COCO ~330,000 幅影象 ~25 GB Microsoft 微軟物件檢測和影象標題。
7 Open Images ~9 百萬張影象 ~600 GB Google 影象識別和分割研究。
8 RedPajama‑1T 1.2 萬億個標記(從不同來源彙總) ~1 TB Together (RedPajama) 大規模 LLM 預訓練和資料集整理。
9 RedPajama‑V2 超過 1,000 億個片語 ~200 GB Together (RedPajama) 多語種 LLM 開發和資料集過濾。
10 OpenAI WebGPT Dataset ~10,000 個帶註釋的網頁瀏覽會話 ~10 GB OpenAI 訓練人工智慧進行網頁瀏覽和檢索。
11 Obsidian Agent Dataset 100,000 個模擬場景 ~5 GB Obsidian Labs 人工智慧決策和規劃模擬。
12 WebShop Dataset 100 萬次產品互動 ~20 GB WebShop Open-Source 開源電子商務人工智慧和產品搜尋優化。
13 Meta EAI Dataset 10,000 個模擬場景 ~50 GB Meta 用於真實世界機器人技術的人工智慧訓練。
14 MuJoCo 數以千計的模擬情節 ~1 GB Roboti LLC / DeepMind 模擬機器人控制和基於物理的人工智慧。
15 Robotics Datasets 從各種來源彙總(數千個感測器記錄) ~100 GB (彙總) 各研究小組 用於機器人互動和控制的人工智慧。
16 Atari Games ~1 千萬遊戲幀 ~10 GB 各種學術資源 遊戲中的強化學習基準。
17 Web-crawled Interactions 數以億計的使用者互動日誌 ~500 GB 各種研究機構 訓練互動代理和推薦人工智慧。
18 AI2 ARC 7,787 道選擇題 ~100 MB Allen Institute for AI 常識推理和邏輯推理。
19 MS MARCO 超過 100 萬個段落 ~100 GB Microsoft 資訊檢索和問題解答。
20 OpenAI Gym 70 多個模擬環境 N/A OpenAI 強化學習和AI代理培訓。

注:樣本數量和資料集大小可能因版本和應用的預處理而異。請通過提供的下載連結參閱官方文件,以獲取最新、最準確的資訊。

小結

以上重點介紹的開源資料集為開發尖端的生成式和代理式人工智慧系統奠定了堅實的基礎。無論您是在研究自然語言處理、計算機視覺、自主決策還是高階推理,這些資源都能提供推動創新所需的深度和多樣性。通過利用這些資料集,研究人員和開發人員可以加速突破、完善模型效能並探索人工智慧的新領域。

 

評論留言