OpenAI釋出其最新最先進的推理模型o3和o4-mini

OpenAI

就在 GPT 4.1 系列釋出幾天後,OpenAI 再次釋出了 o3 和 o4-mini 推理模型,向 AGI(人工通用智慧)邁出了一大步。o3 和 o4-mini 不僅僅是人工智慧模型,它們還是具有高階智慧、自主性、工具呼叫功能和實際軟體工程技能的人工智慧系統。這些新模型不會等著你去做工作;它們會自己去使用工具,自動完成任務!因此,讓我們深入探討新的 o 系列模型 o3 和 o4-mini 的功能、基準效能和應用。

什麼是o3和o4-mini?

o3 和 o4-mini 是 OpenAI 最新的推理模型,它們繼承並取代了 o 系列中以前的模型,如 o1 和 o3-mini。與主要關注模式識別和文字生成的標準 LLM 不同,這些推理模型採用了更長的內部“思維鏈”流程。

這使它們能夠分解複雜的問題,評估不同的步驟,並得出更準確、更周到的解決方案。因此,它們在 STEM、編碼和邏輯推導等領域尤其出色。此外,這些模型是 o 系列中第一個能夠代理使用和結合 ChatGPT 中的全套工具的模型。

o3 是 OpenAI 迄今為止最先進的推理模型,在需要跨領域深度分析思考的任務中表現出色。該模型的計算能力是 o1 的 10 倍,具有 “影像思維 ”能力。這使它能夠在認知過程中直接處理視覺輸入並進行推理,這是非常了不起的。

o4-mini 是 o3 的緊湊、高效和高價效比的對應產品。雖然體積較小,但它的效能卻令人印象深刻,尤其是在數學、編碼和視覺任務等領域。它的最佳化設計確保了更快的響應速度和更高的吞吐量,使其適用於對速度和效率要求極高的應用。

o4-mini 成本效益

其他模型:OpenAI 還發布了 o4-mini-high 變體,它耗時更長,但答案可能更可靠。

未來版本:計劃在不久的將來向專業版訂閱者釋出功能更強大的 o3-pro 版本,該版本將利用更多的計算資源。

推薦閱讀:Llama 4模型:Meta AI正在開源最好的模型

o3和o4-mini的主要特點

以下是這些先進而強大的推理模型的一些主要特點:

  • 代理行為:它們具有主動解決問題的能力,能自主確定複雜任務的最佳方法,並高效執行多步驟解決方案。
  • 先進的工具整合:這些模型可無縫利用網頁瀏覽、程式碼執行和影像生成等工具來增強其響應能力,並有效處理複雜的查詢。
  • 多模態推理:他們可以處理視覺資訊並將其直接整合到推理鏈中,從而能夠在解釋和分析文字資料的同時解釋和分析影像。
  • 高階視覺推理(“影像思維”):這些模型可以解讀複雜的視覺輸入,如圖表、白板草圖,甚至是模糊/低質量的照片。作為推理過程的一部分,他們甚至可以處理這些影像(縮放、裁剪、旋轉、增強),以提取相關資訊。

o3和o4-mini是否Reflect AGI?

這兩個“o 系列”模型都是專門設計來進行更深入的思考,並在做出反應之前進行復雜、多步驟的推理。

當需要解決一個問題時,o3 會首先使用蠻力找出一個解決方案。然後,模型會找到一種更聰明的計算方法,並以更簡潔的格式呈現出來。它還會進一步重新檢查答案,並將其簡化,為使用者提供非常簡單易懂的回覆。

模型如何思考

現在,雖然這一思考過程的一部分是基於計算和訓練,但這些模型並沒有被明確教導如何簡化答案或重新檢查答案。這使得它們成為自我進化和自我學習的模型,讓我們更接近 AGI。

此外,o3 還能自主決定何時以及如何使用 ChatGPT 中的各種工具(網路搜尋、Python 資料分析、DALL-E 影像生成和視覺)來解決複雜的多方面查詢。它可以連鎖呼叫多個工具,反覆搜尋網路,分析結果,並綜合各種模式的資訊。

o3和o4-mini的可用性

兩種模型均可透過 OpenAI 的 ChatGPT 平臺和 API 服務訪問。

ChatGPT Access:訂閱 ChatGPT Plus、Pro 和 Team 計劃的使用者可直接在聊天介面上使用 o3、o4-mini 和 o4-mini-high 模型。企業和教育使用者將在一週內獲得訪問許可權。免費使用者可在提交查詢前選擇 “Think ”選項,體驗 o4-mini。

API 訪問:開發人員可以透過 OpenAI 的聊天完成 API 和 Responses API 將 o3 和 o4-mini 整合到他們的應用程式中,從而在各種平臺上實現定製的人工智慧解決方案。

o3和o4-mini:基準效能

在一系列標準基準測試中,o3 和 o4-mini 模型都表現出了卓越的效能。

O3 和 O4-mini 基準測試-1

  • SWE-Lancer:這兩種模型的高變體在這一編碼基準測試中表現優異,令其祖先汗顏。
  • SWE-Bench Verified(軟體工程):o3 獲得 69.1%,o4-mini 緊隨其後,獲得 68.1%。這兩個模型的表現都明顯優於以前的模型,如 o3-mini(49.3%)和競爭對手 Claude 3.7 Sonnet(63.7%)。
  • Aider Polyglot(程式碼編輯):在程式碼編輯基準方面,這兩個模型都被證明是 OpenAI 的佼佼者,創造了新的記錄。

O3 和 O4-mini 基準測試-2

  • AIME 2025(數學):o4-mini 在配備 Python 直譯器的情況下得分 99.5%,樹立了新的標杆,而 o3 緊隨其後,得分 98.4%。
  • Codeforces(競技程式設計):o4-mini 的 Elo 評分為 2719,反映了其在競技程式設計場景中解決問題的高階技能。與此同時,o3 獲得了 2706 分,表現仍比其他模型高出數倍。
  • GPQA Diamond(博士級科學):o3 在不使用任何工具的情況下,在這一基準測試中取得了 87.7% 的準確率,展示了先進的科學推理能力,o4-mini 緊隨其後,取得了 81.4% 的準確率。

O3 和 O4-mini 基準測試-3:多模態

  • MMMU(大規模多模態多工理解):o3 在這項基準測試中表現出色,展示了其處理涉及文字和視覺資料的各種複雜任務的能力。

O3 和 O4-mini 基準測試-4

  • Humanity’s Last Exam:在這個評估不同領域的專家級推理的基準測試中,o3 的準確率達到 26.6%,超過了所有其他 OpenAI 模型。同時,o4-mini 的表現明顯優於其前身 o3-mini。

想更好地瞭解這些基準的含義?請閱讀我們的 LLM 基準綜合指南

o3和o4-mini的應用

o3 和 o4-mini 的推理能力、工具使用和視覺化功能得到了增強,從而開啟了廣泛的潛在應用領域,包括

  • 複雜資料分析和報告:透過編寫和執行 Python 程式碼、從網上獲取補充資訊以及生成摘要或視覺化效果來分析資料集。
  • 高階科學研究:透過解釋複雜圖表、分析實驗資料、搜尋文獻以及提出新的研究方向,為研究人員提供協助。
  • 複雜編碼與軟體工程:除錯複雜的程式碼,根據視覺化模型或圖表生成程式碼,理解資源庫結構,執行多步驟軟體開發任務。
  • 教育與輔導:利用循序漸進的推理解釋複雜的 STEM 概念,解釋教科書上的圖表或手寫筆記,並提供互動式問題解決幫助。
  • 多模態內容建立與理解:生成詳細描述或影像分析,建立需要整合文字和視覺元素的內容,以及根據視覺證據回答問題。
  • 商業智慧與戰略:利用即時網路資料分析市場趨勢,進行預測,並根據綜合資訊來源制定戰略計劃。
  • 創造性地解決問題:應對開放式挑戰,需要結合不同型別的資訊和推理步驟。

小結

OpenAI 的 o3 和 o4-mini 模型代表了人工智慧能力的重大進步,尤其是在推理和多模態理解方面。透過將深度推理與多功能代理工具使用以及“用影像思考”的新能力相結合,這些模型為人工智慧的智慧性和實用性設定了新標準。這些模型在各種基準測試中的出色表現,彰顯了它們在軟體工程和科學研究等領域處理複雜現實任務的潛力。

o3 可為要求最苛刻的任務提供峰值效能,而 o4-mini 則是能力、速度和成本效益的完美結合。不過,這兩種模型都具有相同的代理和自主能力,展示了人工智慧的先進性。隨著人工智慧的不斷發展,這種創新模型將為更復雜、更多用途的應用鋪平道路,使我們更接近實現 AGI。

評論留言