中國在人工智慧模型方面又一次取得了成功,而且這次的打擊更大、更好!百度最近釋出了兩個大型語言模型(LLM)–文心一言 ERNIE 4.5 和 X1。這些模型聲稱比 OpenAI 迄今為止最新、最偉大的模型 GPT-4.5 效能更好,比 DeepSeek-R1 更划算!這些模型似乎好得不像真的–以極低的價格提供高品質。在本文中,我們將探討 ERNIE 4.5 和 X1 型號,評估它們的基準測試結果,並瞭解它們在實際應用中的表現。
什麼是ERNIE 4.5和X1?
ERNIE 4.5 和 X1 是兩款最新的多模態 LLM,由中國領先的科技公司百度開發,百度專注於網際網路服務、人工智慧和自動駕駛。百度因其在中國佔據主導地位的搜尋引擎和人工智慧驅動的創新而聞名。早在 2021 年 12 月,百度就推出了第一款 LLM,即 ERNIE 3.0 Titan。之後,百度又釋出了幾個模型,同時致力於構建更強大的 LLM。ERNIE4.5和X1就是所有研究和持續努力的成果。
ERNIE 4.5
ERNIE 4.5 是一個多模式基礎模型,能夠理解和整合各種資料型別,包括文字、影像、音訊和影片。這種多樣化的建模方法增強了它理解和生成不同型別內容的能力。
以下是ERNIE 4.5的一些主要特點:
- ERNIE4.5在理解、生成、推理和記憶方面比上一代ERNIE4.0有了全面的改進。
- 它在防止幻覺、邏輯推理和編碼方面顯示出強大的能力,使其能夠以更高的準確性處理複雜的任務。
- 該模型在多個基準測試中的表現甚至優於 OpenAI 的 GPT-4.5,而其成本僅為 GPT-4.5 的 1%!
ERNIE X1
ERNIE X1 被設計為具有多模態能力的深度思維推理模型。它是百度釋出的首個深度思維模型。以下是它的一些主要特點:
- ERNIE X1 在理解上下文、規劃思維過程、反思反應和隨時間演變方面表現出色。
- 它能夠自主利用各種工具完成高階搜尋、影像理解和複雜計算等任務。
- 該模型的效能與 DeepSeek-R1 不相上下,但價格僅為後者的一半,為尋求高階人工智慧功能的企業提供了一種經濟高效的解決方案。
如何訪問ERNIE 4.5和X1?
您可以透過人工智慧聊天機器人(ERNIE Bot)或API訪問ERNIE 4.5和X1。
透過機器人訪問:
- 訪問 https://yiyan.baidu.com 。
- 新增詳細資訊,建立賬戶,開始使用。
在百度的 ERNIE Bot 平臺上,個人使用者可以自由訪問這兩種模型。不過,ERNIE Bot 目前僅限中國公民註冊。
透過 API 訪問:
- 前往百度 AI 雲的 MaaS 平臺千帆
- 在平臺上建立賬戶,即可開始使用。
目前,所有使用者都無法訪問該平臺。此外,只有 ERNIE 4.5 可以透過 API 訪問,而 ERNIE X1 將很快在平臺上推出。
ERNIE 4.5 和 X1 效能檢測
在本節中,我們將瞭解這些模型在多媒體、推理、文件分析等任務中的表現。由於模型介面僅支援中文,且賬戶建立僅限於中國公民,我們將透過一些例項來了解人們是如何使用這兩個模型的,以及他們所獲得的輸出結果。我們將介紹一些我們在網上發現的 ERNIE 4.5 和 X1 最常見的使用案例,包括
- 影像分析推理
- 文件分析與總結
- 音訊分析
- 創意和影像生成
任務 1:推理 + 影像分析
在這項任務中,要求模型解決以影像形式給出的數學問題。
使用的模型:ERNIE 4.5
輸出:
與其他大多數多模態 LLM 一樣,ERNIE 4.5 可快速分析影片並解決影像中的問題。它對影像中的所有問題逐一進行分析,最後將所有問題彙總。ERNIE4.5的速度和準確性使其成為學生、教育工作者、研究人員和需要快速準確解決問題的專業人員的有用工具。
任務 2:文件分析與總結
在這項任務中,該模型得到了一份文件,它必須總結出該文件中關於特定主題的資訊。
使用的模型:ERNIE 4.5
輸出:
該模型允許您同時上傳多個不同型別的檔案。它能夠處理不同型別的檔案,包括文件、PDF、PPT、Excel 表等。您可以從上傳的檔案中選擇一個(或多個)要詢問聊天機器人的檔案,然後聊天機器人會快速總結主題。它能快速處理多個檔案,對研究分析、法律檔案審查、財務資料提取和公司報告等任務非常有用。
任務 3:音訊分析
在這項任務中,模型必須分析給定的音訊並找到其來源。
使用的模型:ERNIE 4.5
輸出:
音訊分析功能是所有流行的人工智慧聊天機器人都沒有在其介面中加入的功能,ERNIE 4.5 是第一個。該模型能快速分析片段,確定其來源,甚至還能繼續描述片段的意義。它的快速分析和詳細描述,使其成為媒體、客戶服務、教育和執法部門進行即時轉錄、語音搜尋、深度偽造檢測和情感分析等任務的重要工具。
任務 4:創意+影像生成
在這項任務中,模型必須對房間進行分析,並提出可能的裝飾建議,以增強房間的整體吸引力。然後,它還必須生成房間的最新影像。
使用的模型:ERNIE X1
輸出:
模型快速處理影像。然後,它對房間的裝飾提出可能的改進建議,以增強整體吸引力。最後,它會生成包含所有改進建議的房間影像。這項功能是室內設計、房屋裝修規劃、房地產分期和虛擬裝飾視覺化等任務的重要補充。
百度ERNIE 4.5和X1:價格
與 OpenAI、DeepSeek、Grok、Claude 等公司的頂級模型相比,ERNIE 4.5 和 X1 擁有所有甚至更多功能。以下是兩種模型的價格明細:
模型 | 輸入價格(每百tokens) | 輸出價格(每百tokens) | 可用性 |
ERNIE 4.5 | $0.55 | $2.20 | 可用 |
ERNIE X1 | $0.28 | $1.10 | 暫未 |
與其他頂級模型相比,ERNIE 4.5 和 X1 的價格要低得多,這使它們成為促進生成式人工智慧發展的寶貴資產。
ERNIE 4.5 & x1:標準基準測試結果
我們已經瞭解了 ERNIE 最新模型的特性、功能和價格。現在讓我們看看這些型號與 GPT-4.5、GPT-4o、DeepSeek-R1 等頂級型號的效能對比。
下圖比較了 ERNIE 4.5 和 GPT-4o 在多個測試多模態 AI 效能的基準測試中的表現。
圖表顯示:
- 在大多數多模式任務中,ERNIE 4.5 的表現都優於 GPT-4o。
- ERNIE 4.5 的平均得分是 77.77,高於 GPT-4o 的 73.92。
- ERNIE 4.5 在 MathVista 和 DocVQA 中優勢明顯,顯示出更好的數學推理和基於文件的問題解答能力。
- 兩個模型在OCRBench和MMMU中的表現相似,但ERNIE 4.5仍略勝一籌。
下圖比較了 ERNIE 4.5、DeepSeek V3 – Chat、GPT-4o 和 GPT-4.5 在基於文字的推理和問題解決的多個基準測試中的表現。
以下是從圖表中得出的一些主要結論:
- ERNIE 4.5 以 79.6 的平均分遙遙領先,以 79.14 的微弱優勢超過 DeepSeek V3 – Chat。
- 它在常識、推理和程式設計基準測試(如 MMLU-Pro、GSM8K 和 HumanEval+)中表現出色。
- GPT-4o 和 DeepSeek V3 也取得了優異成績,DeepSeek V3 在 CMMLU 等中文基準測試中表現出色。
- ERNIE 4.5在GSM8K(數學)和C-Eval(一般推理)中表現出色,儘管DeepSeek V3的效能非常接近。
未來影響
頂級 LLM 的競爭日趨白熱化,百度的 ERNIE 4.5 和 X1 為 OpenAI、DeepSeek、Anthropic 和 Meta 帶來了激烈的競爭。隨著中國人工樂虎國際手機版下載實驗室以極低的成本提供可與西方人工樂虎國際手機版下載相媲美甚至超越西方人工樂虎國際手機版下載的模型,企業將被迫加快創新,降低成本,以保持競爭力。
所有這些進步最終將導致
- 所有主要人工智慧研究中心的人工智慧進步更快。
- 為企業和開發人員提供更實惠的人工智慧。
- 多模態人工智慧應用的新時代,超越傳統的基於文字的人工智慧。
小結
百度的 ERNIE 4.5 和 X1 模型不僅僅是另一套人工智慧模型,它們還是行業的顛覆者。它們卓越的多模態和推理能力、低廉的價格以及與中國數字生態系統的深度融合,預示著全球人工智慧市場的力量轉移。
如果這一趨勢繼續下去,我們將看到更大規模的人工智慧民主化和在各行各業的推廣。這也將推動許多西方公司推出更便宜的模型。這不僅會增加市場競爭力,還能確保使用者獲得最高價效比。
評論留言