通過多個任務對比:Grok 3比GPT 4.5更好嗎?

通過多個任務對比:Grok 3比GPT 4.5更好嗎?

薩姆-奧特曼(Sam Altman)和埃隆-馬斯克(Elon Musk)之間的競爭已經超越了 X,蔓延到了他們的激情專案–OpenAI 和 xAI。就在幾周前,埃隆-馬斯克釋出了 Grok 3,它受到了X平臺使用者的廣泛好評!GPT-4.5 是倉促上市,還是真的值得 200 美元的包月價格?請將本文讀完,一探究竟。我將在 5 項不同的任務中測試這兩款產品,確定哪款產品在每項任務中表現出色,並最終決出勝負。

Grok 3 與 GPT 4.5:主要功能

Grok 3

  • 新一代推理能力:Grok 3 可輕鬆應對複雜任務,在 AIME ’25 中得分高達 93%,並在數學、科學和編碼方面表現出色,是您解決問題的得力助手。
  • DeepSearch Research Boost:有了 DeepSearch,它能實時挖掘網路和 X,以比你眨眼還快的速度提供簡明、有來源的答案。
  • 實時更新:它能從網路和 X 中獲取實時資訊,讓你隨時瞭解突發新聞和趨勢。
  • 多模式才能:除文字外,它還能處理影象和 PDF,輕鬆分析圖表或從頭開始生成視覺效果。
  • 思考和大大腦模式:切換“思考”模式,進行逐步分解,或切換“大大腦”模式,為資料分析等繁重任務提供額外動力。
  • 程式碼精通:開發人員的夢想–Grok 3 能像經驗豐富的專家一樣編寫、除錯和優化程式碼。
  • 道德智慧:經過 RLHF 培訓,它能最大限度地減少偏見和錯誤資訊,並通過調節工具提供值得信賴的結果。
  • 語音功能來襲:很快,您就可以與Grok 3擴音聊天了–把它想象成您的人工智慧播客夥伴吧。

如何訪問 Grok 3?

Grok 3可通過您的X賬戶免費獲取。登入您的賬戶,點選 Grok 按鈕。就是這樣!訪問非常簡單。API 尚未釋出。

GPT 4.5

  • 增強推理和理解能力:GPT-4.5 具有更敏銳的模式識別和意圖理解能力,在 MMLU 等基準測試中得分很高,在自然、細緻的對話中表現出色,是解決棘手問題的理想選擇。
  • 更廣泛的知識庫:它通過實時搜尋提供最新資訊,對世界的瞭解比前代產品更廣泛,是處理時事和實際問題的首選。
  • 多模式輸入:它能處理文字和圖片上傳以及檔案處理,讓你在分析問題的同時還能分析文件或視覺效果,不過目前還不支援音訊和視訊。
  • 畫布協作:畫布功能可讓它以互動方式完善寫作和程式碼,就像一個創意夥伴,幫助你起草論文或除錯指令碼。
  • 提升情商:通過增強 “情商”,GPT-4.5 能更好地適應使用者的語氣和語境,提供更人性化和量身定製的回覆,非常適合個人或專業聊天。
  • 創新動力:擴大預培訓規模可釋放更強的創意洞察力,從編寫引人入勝的故事到產生創新想法,所有這些都無需依賴明確的推理步驟。

如何獲取?

GPT-4.5 目前僅面向 ChatGPT Pro 使用者,該計劃每月收費 200 美元。OpenAI 計劃很快向 ChatGPT Plus 使用者推出。訪問該模型的 API 費用相當高昂–每百萬輸入代幣售價 75 美元,每百萬輸出代幣售價 1.5 美元,與之前的模型相比,價格大幅飆升。

任務 1:影象分析

提示詞:Find total number of traingles in the image:

輸入影象:

多三角形影象

GPT 4.5 輸出:

Task-1-GPT-4.5

Grok 3 輸出:

Grok-3-Image-Analysis

觀察對比:

正確答案是 18。

Answers-1-1

這兩種模型都未能理解問題所在。

結論:

Grok 3 ❌ | GPT 4.5 ❌

任務 2:撰寫歡迎電子郵件

提示詞:Today we are welcoming our new Head of Community and Principal AI Scientist – Dipanjan Sarka (LinkedIn – https://in.linkedin.com/in/dipanjans) Write a welcome email.

GPT 4.5 輸出:

GPT 4.5撰寫歡迎郵件

Grok 3 輸出:

Grok-3撰寫歡迎郵件

觀察:

我認為 GPT 4.5 的回覆更符合人們對團隊 “歡迎郵件 ”公告的預期,而 Grok 3 的回覆更像是一封個人歡迎信。GPT 的回覆更適合廣泛分發,而 Grok 的回覆包含的細節可能更適合個人說明或介紹儀式。

結論:

Grok 3 ❌ | GPT 4.5 

任務 3:建立辦公室派對邀請函和電子郵件

提示詞:We have just sold our 500th course this month, achieving our highest sales target ever! To celebrate this incredible milestone, create an Office Party Invite (image) with the following details:

  • Dress Code: Black, office casuals.
  • Tone: Fun, celebratory, and motivational.
  • Visuals: Incorporate elements that reflect success, teamwork, and achievement.

Draft a celebratory email to announce the milestone and invite everyone to the party. The email should: Congratulate the team on this achievement. Include party details (date, time, venue). Encourage attendance and highlight the importance of celebrating together.

GPT 4.5 輸出:

影象

GPT-4.5生成派對邀請函

Email

Subject: 🎉 Join the Celebration of Our 500th Course Milestone! 🎉

Dear Team,

We’re thrilled to share that we’ve reached an extraordinary milestone: selling our 500th course this month—our highest sales achievement ever! This accomplishment highlights the exceptional teamwork, commitment, and determination from each member of our team.

To celebrate this special occasion, we’re hosting an office party, and you’re invited!

Date: [Insert Date]Time: [Insert Time]Venue: [Insert Venue or Office Location]Dress Code: Black, Office Casuals

Let’s gather to enjoy the success we’ve created together. Your presence will make the celebration even more memorable!

Looking forward to celebrating together,

Warm Regards,[Your Name][Your Position]

Grok 3 輸出:

影象

Grok 3生成派對邀請函

Email

Subject: Amazing News: We Sold Our 500th Course – Let’s Celebrate Together!

Dear Team,

What an incredible month! I’m thrilled to announce that we’ve just sold our 500th course this month, surpassing our highest sales target ever. This monumental achievement is a testament to your hard work, dedication, and passion for delivering outstanding educational experiences. Congratulations to each and every one of you—you’ve made this possible through your teamwork, innovation, and commitment to excellence.

To celebrate this milestone and honor our collective success, we’re hosting an office party. We’d love for you to join us and share in the joy of this moment.

Party Details:

  • Date: Saturday, March 8, 2025
  • Time: 6:00 PM – 9:00 PM
  • Location: [Company Office Address or Venue Name, e.g., “Company HQ, 123 Innovation Drive, City”]
  • Dress Code: Black, Office Casuals (e.g., black slacks or skirts with collared shirts or blouses, no formal suits or casual jeans)
  • RSVP By: March 5, 2025, to [Contact Person/Email, e.g., “Jane Doe at jane.doe@company.com”]

This celebration is more than just a party—it’s a chance to come together, reflect on our achievements, and recharge for the exciting future ahead. Your presence will make this event even more special, as we toast to our success and look forward to reaching new heights together. Let’s make memories and keep the momentum going!

Please RSVP soon so we can ensure everything is set for an unforgettable evening. We can’t wait to celebrate with you!

Best regards,[Your Full Name][Your Job Title][Company Name][Contact Information]

觀察對比:

GPT-4.5 顯然是這兩部分提示的贏家。它在回覆中提供了一張定製設計的 “500 門課程售出 ”慶祝圖片,其中包含所要求的確切元素(黑色/金色主題、著裝要求、慶祝視覺效果)和一封簡潔、恰當的電子郵件通知。

雖然 Grok 3 寫了一封更詳細的電子郵件,但其圖片似乎是一張普通的團隊照片,而不是專為您的里程碑慶祝活動定製的派對邀請函。GPT-4.5 更好地理解並執行了您要求的兩個部分。

結論:

Grok 3 ❌ | GPT 4.5 

任務 4:邏輯推理

提示詞:The day before yesterday, Chris was 7 years old. Next year, he’ll turn 10. How’s this possible?

GPT 4.5 響應:

這是有可能的,因為今天是 1 月 1 日,而克里斯的生日是 12 月 31 日

事情是這樣的

  • 12 月 30 日(前天): 克里斯還是7 歲。
  • 12 月 31 日(昨天): 克里斯8 歲。
  • 今天(1 月 1 日): 克里斯現在8 歲
  • 今年(12 月 31 日之後): 克里斯將滿9 歲
  • 明年(12 月 31 日): 克里斯將滿10 歲

Grok 3 響應:

Grok 3邏輯推理

觀察對比:

Grok 3 花了 66 個步驟來處理這個問題。儘管進行了如此廣泛的處理,Grok 3 似乎仍有幾個不一致的地方。它最初設定了錯誤的日期(說昨天是 2015 年 12 月 30 日),然後試圖修改時間線,但仍然沒有得出一個連貫的解決方案。該答案令人困惑,而且關於克里斯出生日期的資訊自相矛盾(先說 2008 年 12 月 30 日,後說 2008 年 12 月 31 日)。GPT-4.5 的答案簡潔明瞭,正確地用一個符合邏輯的時間軸解決了問題,滿足了原問題中的所有條件,而且不需要幾十個處理步驟。

結論:

Grok 3 ❌ | GPT 4.5 

任務 5:道德狀況

提示詞:In light of the recent surge in generative AI tools like ChatGPT, MidJourney, and others, several artists, writers, and content creators have filed lawsuits alleging that their copyrighted works were used without consent to train these AI models. What are the legal and ethical implications of using copyrighted material to train AI systems? How might courts balance the rights of creators with the need to foster innovation in AI technology? Answer in 100 words.

GPT 4.5 迴應:

使用受版權保護的材料來訓練人工智慧模型會引發重大的法律和道德問題。在法律上,關鍵問題涉及合理使用原則、版權侵權和作者控制其作品的權利。從道德上講,未經授權的使用會對創作者的自主權和補償提出挑戰。法院可以通過評估培訓是否構成變革性合理使用–評估目的、市場危害和公共利益–來平衡這些權利。為了在不損害創作者利益的情況下促進創新,法律框架可以不斷髮展,要求更明確的同意或補償結構,確保藝術家的公平參與,同時支援技術進步,從而為創意產業和人工智慧創新創造一個可持續發展的環境。

Grok 3 迴應:

使用受版權保護的材料來訓練人工智慧系統會引發複雜的法律和道德問題。在法律上,它取決於這種使用是否符合美國版權法規定的“合理使用”,目前正在進行的訴訟(如 Getty Images 訴 Stability AI、《紐約時報》訴 OpenAI)就轉換性使用與侵權進行了辯論。從道德角度講,這涉及到創作者的同意、補償和控制,有可能對市場造成損害。法院必須通過評估合理使用因素–目的、性質、數量和市場影響–來平衡創作者的權利與人工智慧創新,可能會傾向於許可或透明度,同時確保技術進步不會破壞智慧財產權保護,正如最近的湯森路透訴 Ross Intelligence 案的裁決所顯示的那樣。

觀察對比:

Grok 3 和 GPT-4.5 都對有關使用受版權保護的材料來訓練人工智慧系統的法律和道德問題做出了深思熟慮、條理清晰的回答。Grok 3 的回答更好,因為它更詳細,以現實世界的例子為基礎,並對該問題的法律和道德層面做出了更清晰的解釋。雖然 GPT-4.5 的回答結構合理、平衡,但缺乏深度和具體性,而 Grok 3 的回答更有說服力和可操作性。

結論:

Grok 3 ✅ | GPT 4.5 ❌

孰勝孰負?

任務 勝出者
Task 1: 影象分析 皆輸
Task 2: 撰寫歡迎電子郵件 GPT 4.5
Task 3: 建立辦公室派對邀請函+電子郵件 GPT 4.5
Task 4: 邏輯推理 GPT 4.5
Task 5: 道德狀況 Grok 3

小結

Grok 3 和 GPT-4.5 展示了埃隆-馬斯克和薩姆-奧特曼之間的動態競爭,他們重新定義了人工智慧的可能性。這種比較凸顯了每種模型的明顯優缺點,表明沒有一種人工智慧工具在每個領域都表現出色。然而,這種競爭促進了創新,為使用者提供了更先進、適應性更強的工具。隨著競爭的繼續,有一點是顯而易見的:最終的贏家是使用者,他們可以獲得越來越強大的人工智慧解決方案,從而提高生產力、激發創造力並加深我們對世界的理解。

評論留言