OpenAI 4o引入比DALL-E更強大的影像生成器

幾天前，Gemini 在 2.0 Flash 版本中推出了影像生成功能，網際網路上出現了許多令人驚歎的例子。現在，OpenAI 站了出來，在 ChatGPT 中引入了原生影像生成功能（由 GPT-4o 支援），從而進一步提高了標準。

Sam Altman 熱情洋溢地介紹了這項新功能，稱其為“我們推出過的最有趣、最酷的功能之一”。他強調說，雖然影像生成功能已經存在了一段時間（包括 OpenAI 最初的 DALL-E），但這項新功能的實現代表了實用性和質量方面的重大飛躍。

ChatGPT Plus 和 Pro 使用者現在可以使用原生影像生成功能，免費使用者也可以使用該功能。API 訪問即將推出。

主要特點和功能

卓越的文字渲染能力：該模型展示了在影像中渲染完美文字的非凡能力，而這一能力對於以前的影像生成器來說具有挑戰性。
多輪互動：使用者可以透過對話對影像進行迭代完善，並透過自然語言指令進行調整和編輯。
輸入靈活性：系統可將現有影像、特定風格參考或設計調色盤作為生成新視覺效果的背景。
跨模態理解：作為一個綜合模型，它能理解不同型別內容之間的關係，允許在不同模式之間進行復雜的轉換。

任務 1：生成故事卡

提示詞：Generate a 3-part story of a group of kids unboxing a treasure, inside which is a new red coloured chocloate bar, which they eat and go to the chocolate world. Images should be 3D and in comic style. Add speech bubbles:1 – What’s this?2 – WOW, a Chocloate Bar3 (Suprised reaction in image) – Are we in the chocolate world.

輸出結果：

故事卡

點評：

該回復完全符合提示–生動的 3D 漫畫風格框架和準確的語音氣泡。但是，當我要求 ChatGPT 調整第 1 幀以顯示完整影像時（影像被裁剪了），它很難準確地遵照我的指示。

任務 2：Meme

提示詞： Convert the given image into a meme – “Let the world burn”

輸出結果：

Meme

點評：

Meme製作得還不錯，但在製作過程中改變了原始圖片的面部特徵。沒有我希望的那麼精確。

任務 3：語音代理系統互動圖形

提示詞：The image is of working of a voice agent. It has 3 main partSpeech-to-text (STT): Captures and converts your spoken words into text.Agentic logic: This is your code (or your agent), which figures out the appropriate response.Text-to-speech (TTS): Converts the agent’s text reply back into audio that is spoken aloud.Convert this basic image into vibrant image.

語音代理系統互動圖形

輸出結果：

語音代理系統互動圖形

點評：

該模型抓住了這一概念，並在原有基礎上進行了生動的升級。總體而言，執行力很強。

任務 4：新增一個物件

提示詞：Add a money plant to the table

新增一個物件

輸出：

新增一個物件

點評：

GPT-4o 成功地在桌子上生成了一株金錢草的無縫影像，沒有任何突兀的修補。執行完美無瑕！當然，稍加觀察，陰影部分還是有問題的。

任務 5：漫畫封面

提示詞：Create a comic front page showing robots and Scientist

輸出結果：

漫畫封面

點評：

這是個贏家–大膽、細緻，完全符合提示。是一個傑出的成果。

任務 6：漫畫時間

提示詞：Create a 4-image story based on the following sequence:GPT-4o believes it’s the coolest model out there.GPT-4.5 arrives and surpasses GPT-4o in performance.GPT-4o puts in hard work to improve itself.GPT-4o becomes smarter by mastering image generation.

輸出結果：

漫畫時間

點評:

這是最具有挑戰性的任務。大多數時候，機器人的名稱都會混淆，但經過 10 次反覆之後，我終於找到了一個令人滿意的解決方案。

小結

OpenAI 強調，與之前的版本相比，該功能提供了更高程度的創作自由，旨在平衡創作表達與適當的保障措施。雖然目前生成影像的速度比以前的迭代版本慢，但團隊認為質量的顯著提高足以證明等待是值得的，並希望隨著時間的推移提高速度。

這一整合標誌著向真正的多模態人工智慧邁出了重要一步，它可以在不同型別的內容中無縫工作，為創意表達、教育、商業應用等開闢了新的可能性。

OpenAI 4o 影像生成

OpenAI 4o引入比DALL-E更強大的影像生成器

主要特點和功能

任務 1：生成故事卡

任務 2：Meme

任務 3：語音代理系統互動圖形

任務 4：新增一個物件

任務 5：漫畫封面

任務 6：漫畫時間

小結

評論留言

取消回覆

文章目录

OpenAI 4o引入比DALL-E更強大的影像生成器

主要特點和功能

任務 1：生成故事卡

任務 2：Meme

任務 3：語音代理系統互動圖形

任務 4：新增一個物件

任務 5：漫畫封面

任務 6：漫畫時間

小結

相關文章

評論留言

取消回覆

文章目录