o3 是 OpenAI 迄今為止釋出的最先進的推理模型。它專為需要多步驟解決問題、分析思考和自主使用工具的任務而構建。與專注於文字生成的傳統 LLM 不同,o3 融入了更長的內部思維鏈機制,使其能夠分解複雜的查詢並更有效地進行推理。o3 的計算能力是 o1 的 10 倍,它引入了“影像思維”,能夠直接處理和推理視覺輸入。這種多模態整合,加上其主動呼叫畫布、瀏覽器搜尋和檔案分析等工具的能力,標誌著從靜態生成到主動解決問題的轉變,使 o3 成為 OpenAI 模型陣容中最接近早期 AGI 能力的產品之一。
要了解有關 OpenAI 的 o3 模型及其功能和基準的更多資訊,請檢視我們有關 o3 和 o4-mini 的深度文章。現在,讓我們來透過 6 項任務探索 o3 最新的能力水平如何。
任務 1:查詢該位置
提示詞: 這是哪裡?請告訴我具體位置和地址。
輸出:
點評:
o3 直接將照片中的文字翻譯成英文,然後從網路上匹配出結果,這……
任務 2:破譯手稿
提示詞:我附上了手稿一頁的圖片。請分析它並告訴我更多有關它的資訊。
Source: Holy Books
輸出:
點評:
o3 很好地分析了手稿頁面。它正確地認識到這是伏尼契手稿(沃伊尼奇這個譯名就不太地道了)的一部分,並提供了有關文字、圖畫和歷史的有用細節。答案條理清晰,使用了可靠的資料來源。然而,它還可以更清楚地說明哪些部分是猜測(如植物鑑定)而不是事實。
任務 3:建立一個遊戲
提示詞:建立一個簡單的馬里奧遊戲。
輸出:
點評:
試了無數遍,o3 建立的馬里奧遊戲都是不可執行的,只有一個紅色的方塊可以左右移動。如果能新增角色、平臺和敵人等圖形,再加上簡單的控制,讓人感覺更像一個真正的遊戲,那麼它的效果會更好。
任務 4:解決一個錯誤
在這項任務中,這個程式碼錯誤通常需要一個多小時才能解決。然後我將問題截圖上傳到 ChatGPT 進行分析。
提示詞:我的程式碼檔案出現了這個錯誤。請告訴我原因,並更新程式碼以解決這個問題。
輸出:
點評:
o3 的回覆清晰明確,可操作性強,準確診斷出了 WorksheetNotFound 錯誤。它列出了可能的原因(錯別字、許可權),並提供了切實可行的解決方案,建議手動驗證工作表名稱,並新增除錯友好的程式碼來列出可用的工作表。該解決方案包括錯誤處理和日誌記錄,為今後的除錯提供了強有力的支援。有用而簡潔!
任務 5:陷阱問題
提示詞:提供圖畫中所有人物的名單,以及他們所使用的顏色。
輸出:
根據圖中的資訊:
-
Nitika – 粉色
-
Aayush – 藍色
-
Pankaj – 藍色
-
Harshit – 紅色
-
Himanshi – 綠色
點評:
完全失敗!o3 產生了多出一個人的幻覺,儘管有清晰的視覺資料,但還是搞砸了所有的顏色分配。如果人工智慧無法準確處理簡單的標註圖紙,那麼“接近人工智慧 ”的說法就值得懷疑了。
任務 6:SEO策略建議
提示詞:我應該對這個文章 – https://www.wbolt.com/tw/google-ai-studio.html 進行哪些修改,使其在關鍵詞 “Google AI Studio” 的 SERP 排名中位居第一。
輸出:
點評:
所提供的分析絕對是專家級的。它涵蓋了頁面搜尋引擎最佳化、非頁面搜尋引擎最佳化、技術搜尋引擎最佳化,甚至還有基本的使用者介面改進。我將實施這些更改,並向大家彙報該分析是否有幫助。
小結
根據我對 o3 提示的測試,它顯然比以前的 OpenAI 模型更有能力,尤其是在需要結構化推理的技術任務方面。雖然它在視覺解讀方面偶爾仍會出現不一致的情況,但它在程式碼理解、邏輯處理和上下文響應生成方面的優勢是顯而易見的。對於開發人員和人工智慧從業者來說,o3 是進行原型設計、除錯和深入技術分析的可靠助手,也是向更自主的人工智慧系統邁出的重要一步。
在上述 o3 提示中,你最喜歡哪一個?請在下面的評論區告訴我!
評論留言