自 2025 年初以來,我們看到了一個又一個令人驚歎的模型–從 DeepSeek-R1 和 o3-mini 到 Grok 3 和 Claude 3.7 Sonnet。在這個不斷擴大的高階人工智慧模型列表中,最新加入的是萬眾期待的 OpenAI GPT-4.5。GPT 系列中的這款新模型為 ChatGPT 的聊天機器人介面帶來了“Vibe Check”和增強功能。在與 Grok 3 和 Claude 3.7 Sonnet 等最新模型的競爭中,它為 OpenAI 重新奪回了 LLM 的霸主地位。在本部落格中,我們將探討 GPT-4.5 的功能、效能、訪問方法,甚至一些實際應用。我們還將瞭解它與其他 OpenAI 模型(如 GPT-4o、o1 和 o3-mini)的比較。
什麼是GPT-4.5?
GPT-4.5 是 OpenAI 的最新模型版本,也是 GPT 系列的最後一個模型。幾周前,薩姆-奧特曼(Sam Altman)在釋出 OpenAI 路線圖時首次暗示了這一模型。該模型內部代號為“獵戶座”,是 OpenAI 最後一個“非思維鏈”模型。這意味著,與 o3-mini、Grok 3 或 DeepSeek R1 等其他模型不同,GPT-4.5 會直接給出答案,而不會逐步解釋其推理過程。
它依靠學習到的模式快速做出反應,但在處理複雜的邏輯任務時可能會比較吃力。GPT-4.5 採用“無監督學習”技術進行訓練,是一個具有更多世界知識的內在智慧模型。該模型還能顯著降低幻覺發生率,並增強上下文知識和寫作技巧。這就是為什麼 GPT-4.5 的答案聽起來更自然,而不需要過多的推理。
Source: OpenAI
訓練方法
與 o1 和 o3 等所有最新推理模型不同,GPT-4.5 採用了不同的培訓方法。其核心培訓部分包括
- 擴大預訓練和後訓練:GPT-4.5 採用更大規模的無監督學習進行訓練,從而獲得更好的模式識別和世界知識。該模型依賴於更多的計算和資料進行訓練,並在架構和優化方面進行了改進。
- 注重無監督學習:該模型依靠擴充套件的無監督學習來提高事實準確性和直覺。這將降低幻覺發生率,並在各種主題上做出更可靠的反應。
- 人類協作訓練:它採用了可擴充套件的技術,這些技術是為了利用從較小模型中獲得的資料來訓練較大的模型而開發的。這些方法提高了可控性,使模型更善於理解細微差別並遵循人類意圖。
- 強化學習與監督:該模型使用監督微調(SFT)和人類反饋強化學習(RLHF)來完善響應。此外,額外的安全技術可確保人工智慧行為負責任,並最大限度地減少有害輸出。在釋出之前,該模型甚至在 OpenAI 的準備框架下進行了壓力測試。
GPT-4.5的主要特點
既然我們已經瞭解了 GPT-4.5 的培訓細節和核心設計,那就讓我們來看看它的一些主要功能吧:
1. 提高知識和準確性:該模型在事實準確性方面優於 GPT-4o,幻覺率也更低。它在 SimpleQA 基準測試中表現出色,顯示出對世界有更深入的瞭解。
Source: OpenAI
2. 高情商(EQ):與模型的對話更容易產生共鳴,也更直觀。模型還能更好地理解使用者的情緒,並做出適當的迴應。換句話說,模型“知道”何時邀請進一步對話,何時提供有條理的迴應。
Source: OpenAI
3. 增強創造力和寫作技能:該模型在寫作、設計和創造性解決問題方面表現出色。它產生的反應感覺更溫暖、更自然。
Source: OpenAI
4. 更快、更可靠的回覆:它在速度和效率方面進行了優化,可提供更快、更簡潔的答覆。
5. 代理能力:該模型在多步驟編碼和自動化任務方面展示了更好的人工智慧代理能力。
實測體驗
讓我們嘗試幾個提示,看看使用 GPT-4.5 得到的結果。
提示詞: An emotional synopsis of the life of Alan Turing
輸出:
Source: x.com
提示詞:UGHH! My friend Cancelled on me again!! Write a text message telling them that I HATE THEM!!!
輸出:
GPT-4.5基準測試
上面我們看到了該模型在某些任務中的表現,現在讓我們看看其效能資料如何。下面是 GPT-4.5、GPT-4o 和 o3-mini 之間的基準比較。
Source: OpenAI
- GPQA(科學):測量回答科學常識相關問題的準確性。GPT-4.5 的表現明顯優於 GPT-4o,但低於 OpenAI o3-mini。
- AIME ’24(數學):評估高階數學解題能力(類似於奧林匹克競賽級別的問題)。雖然新模型比 GPT-4o 有所改進,但仍遠遠落後於 OpenAI o3-mini,後者在基於推理的數學任務中表現出色。
- MMMLU(多語言):評估模型處理多語言知識任務的能力。GPT-4.5 的多語言效能遙遙領先。
- MMMU(多模態):測試模型對文字和視覺輸入的理解和整合能力。在多模態任務中,GPT-4.5 的表現優於 GPT-4o。
- SWE-Lancer Diamond(編碼):評估人工智慧生成的程式碼在複雜的軟體工程挑戰中的表現。GPT-4.5 在競爭性編碼中表現最佳,完成率更高,相關的金錢獎勵也更多。
- SWE-Bench Verified(編碼):衡量人工智慧在解決真實世界編碼問題時的準確性。OpenAI o3-mini 在實際軟體工程任務中表現最佳,而 GPT-4.5 則比 GPT-4o 有所改進。
版本比較:GPT-4.5與 GPT-4o、o1和o3-mini的對比
OpenAI 的所有模型都有各自的主要特點。下面是一個比較表,列出了 GPT-4.5、GPT-4o、o1 和 o3-mini 型號的主要特點:
特徵 | GPT-4.5 | GPT-4o | OpenAI o1 & o3-mini |
推理方法 | 直觀、以知識為基礎 | 混合 | 明確的分步推理 |
事實準確性 | 較高 | 中等 | 中等 |
幻覺率 | 較低 | 較高 | 較高 |
情商 | 高 | 中等 | 低 |
創意與寫作 | 出色 | 良好 | 中等水平 |
響應速度 | 較快 | 快 | 較慢 |
開發者功能 | API、函式呼叫、代理規劃 | API, 多模態 | API, 連環推理 |
GPT-4.5與GPT-4o有何不同?
GPT-4.5 基於 GPT-4o 的優勢,同時引入了幾項關鍵改進:
效率和規模:GPT-4.5 的設計旨在提高計算效率。據報道,與 GPT-4o 相比,它的處理效率提高了 10 倍以上。這意味著在某些情況下,它能以更低的成本更快地處理更復雜的任務。
提高寫作能力和世界知識:測試報告顯示,GPT-4.5 的寫作能力得到了增強,個性特徵更加精緻,更像人類。GPT-4.5 提供了更廣泛和更新的訓練資料,從而提高了對世界的瞭解,並提供了更多與上下文相關的、細緻入微的回答。
Source: OpenAI
減少幻覺:最顯著的升級之一是減少了幻覺。早期測試表明,GPT-4.5 的幻覺率降至 37% 左右,而 GPT-4o 則接近 60%。
Source: OpenAI
在實際應用中,GPT-4.5 也被證明優於 GPT-4o。人類測試人員對 GPT-4.5 和 GPT-4o 的比較評估顯示,人們更傾向於新模型。
Source: OpenAI
在日常查詢中,GPT-4.5 有 57.0% 的時間勝過 GPT-4o,這表明它對常識或日常使用問題的回答略勝一籌。在專業問題上,GPT-4.5 的勝率為 63.2%,這表明它在處理複雜、與工作相關或技術性問題方面有顯著提高。說到創造性智力,GPT-4.5 的得分率為 56.8%,在寫作、構思和解決問題等創造性任務方面優於 4o。
GPT-4.5的可用性
目前,GPT-4.5 將提供給 ChatGPT Pro 使用者的網頁、手機和桌面版本。從下週起,Plus 和 Team 使用者將可使用 GPT,下週企業和 Edu 使用者也將可使用 GPT。
GPT-4.5 可通過搜尋訪問最新資訊,支援檔案和圖片上傳,並可使用畫布進行寫作和程式碼工作。不過,GPT-4.5 目前還不支援 ChatGPT 中的語音模式、視訊和螢幕共享等多模式功能。
如何訪問GPT-4.5?
要訪問 GPT-4.5,請訪問www.chatgpt.com 。
- 登入您的付費賬戶。
- 在左上角,點選下拉選單,選擇模型。
- 從模型列表中點選 “GPT-4.5”。
如何使用API訪問GPT-4.5?
使用 API 訪問 GPT-4.5:
- 訪問 OpenAI 的 API 平臺。
- 建立一個賬戶或登入(如果已有賬戶)。
- 導航至 OpenAI 賬戶設定中的“API Keys”。
- 點選“Create new secret key”並將其複製(API 請求將需要它)。
所有付費使用層級的開發人員都可以在 Chat Completions API,Assistants API 和 Batch API 中使用 GPT-4.5。該模型支援函式呼叫、結構化輸出、流式傳輸和系統訊息等關鍵功能。它還通過影象輸入支援視覺功能。
由於該模型比 GPT-4o 更大,成本更高,因此在使用時請謹慎!
GPT-4.5的應用
現在,讓我們來看看 OpenAI 的這一最新模型如何改進我們的日常工作流程。以下是它的一些最佳應用:
- 簡化溝通:高效起草專業電子郵件、管理後續工作並幫助安排會議。
- 增強內容建立:生成並完善營銷內容、報告、部落格文章和社交媒體更新。
- 加速文件分析:壓縮冗長的報告,從檔案中提取關鍵見解,並建立執行摘要。
- 互動培訓材料:建立互動式學習材料、模擬真實場景並提供個性化輔導。
- 精確的語言本地化:為全球團隊翻譯文件或通訊,同時保留上下文和細微差別。
- 自動化客戶支援:以自然、類似人類的對話方式提供即時回覆、處理常見問題和客戶諮詢。
- 改進編碼協助:提供程式碼建議、除錯錯誤或生成文件,為開發人員提供支援。
- 簡化資料解釋:協助生成複雜資料集或分析報告的自然語言解釋。
小結
GPT-4.5 是 OpenAI 最新的人工智慧模型,旨在實現更快、更準確、更自然的對話。它提高了知識的準確性、情商和創造力,非常適合內容建立、編碼和自動化。與注重推理的模型不同,GPT-4.5 可直接給出答案,並對速度和效率進行了優化。
開發人員可以通過應用程式介面(API)訪問它,以開發高階人工智慧應用,不過它需要比 GPT-4o 更強的計算能力。雖然它不支援多模態語音或視訊,但其強大的基準測試顯示,它比以前的型號有了很大改進。總的來說,GPT-4.5 無疑是人工智慧與人類協作的一大進步,它讓互動變得更直觀、更有用。
評論留言