OpenAI 4o引入比DALL-E更強大的影像生成器

OpenAI 4o引入比DALL-E更強大的影像生成器

幾天前,Gemini 在 2.0 Flash 版本中推出了影像生成功能 ,網際網路上出現了許多令人驚歎的例子。現在,OpenAI 站了出來,在 ChatGPT 中引入了原生影像生成功能(由 GPT-4o 支援),從而進一步提高了標準。

Sam Altman 熱情洋溢地介紹了這項新功能,稱其為“我們推出過的最有趣、最酷的功能之一他強調說,雖然影像生成功能已經存在了一段時間(包括 OpenAI 最初的 DALL-E),但這項新功能的實現代表了實用性和質量方面的重大飛躍。

ChatGPT Plus 和 Pro 使用者現在可以使用原生影像生成功能,免費使用者也可以使用該功能。API 訪問即將推出。

主要特點和功能

  • 卓越的文字渲染能力:該模型展示了在影像中渲染完美文字的非凡能力,而這一能力對於以前的影像生成器來說具有挑戰性。
  • 多輪互動:使用者可以透過對話對影像進行迭代完善,並透過自然語言指令進行調整和編輯。
  • 輸入靈活性:系統可將現有影像、特定風格參考或設計調色盤作為生成新視覺效果的背景。
  • 跨模態理解:作為一個綜合模型,它能理解不同型別內容之間的關係,允許在不同模式之間進行復雜的轉換。

任務 1:生成故事卡

提示詞:Generate a 3-part story of a group of kids unboxing a treasure, inside which is a new red coloured chocloate bar, which they eat and go to the chocolate world. Images should be 3D and in comic style. Add speech bubbles:1 – What’s this?2 – WOW, a Chocloate Bar3 (Suprised reaction in image) – Are we in the chocolate world.

輸出結果:

故事卡

點評:

該回復完全符合提示–生動的 3D 漫畫風格框架和準確的語音氣泡。但是,當我要求 ChatGPT 調整第 1 幀以顯示完整影像時(影像被裁剪了),它很難準確地遵照我的指示。

任務 2:Meme

提示詞: Convert the given image into a meme – “Let the world burn”

輸出結果:

Meme

點評:

Meme製作得還不錯,但在製作過程中改變了原始圖片的面部特徵。沒有我希望的那麼精確。

任務 3:語音代理系統互動圖形

提示詞:The image is of working of a voice agent. It has 3 main partSpeech-to-text (STT): Captures and converts your spoken words into text.Agentic logic: This is your code (or your agent), which figures out the appropriate response.Text-to-speech (TTS): Converts the agent’s text reply back into audio that is spoken aloud.Convert this basic image into vibrant image.

語音代理系統互動圖形

輸出結果:

語音代理系統互動圖形

點評:

該模型抓住了這一概念,並在原有基礎上進行了生動的升級。總體而言,執行力很強。

任務 4:新增一個物件

提示詞:Add a money plant to the table

新增一個物件

輸出:

新增一個物件

點評:

GPT-4o 成功地在桌子上生成了一株金錢草的無縫影像,沒有任何突兀的修補。執行完美無瑕!當然,稍加觀察,陰影部分還是有問題的。

任務 5:漫畫封面

提示詞:Create a comic front page showing robots and Scientist

輸出結果:

漫畫封面

點評:

這是個贏家–大膽、細緻,完全符合提示。是一個傑出的成果。

任務 6:漫畫時間

提示詞:Create a 4-image story based on the following sequence:GPT-4o believes it’s the coolest model out there.GPT-4.5 arrives and surpasses GPT-4o in performance.GPT-4o puts in hard work to improve itself.GPT-4o becomes smarter by mastering image generation.

輸出結果:

漫畫時間

點評:

這是最具有挑戰性的任務。大多數時候,機器人的名稱都會混淆,但經過 10 次反覆之後,我終於找到了一個令人滿意的解決方案。

小結

OpenAI 強調,與之前的版本相比,該功能提供了更高程度的創作自由,旨在平衡創作表達與適當的保障措施。雖然目前生成影像的速度比以前的迭代版本慢,但團隊認為質量的顯著提高足以證明等待是值得的,並希望隨著時間的推移提高速度。

這一整合標誌著向真正的多模態人工智慧邁出了重要一步,它可以在不同型別的內容中無縫工作,為創意表達、教育、商業應用等開闢了新的可能性。

評論留言