幾天前,Gemini 在 2.0 Flash 版本中推出了影像生成功能 ,網際網路上出現了許多令人驚歎的例子。現在,OpenAI 站了出來,在 ChatGPT 中引入了原生影像生成功能(由 GPT-4o 支援),從而進一步提高了標準。
Sam Altman 熱情洋溢地介紹了這項新功能,稱其為“我們推出過的最有趣、最酷的功能之一”。他強調說,雖然影像生成功能已經存在了一段時間(包括 OpenAI 最初的 DALL-E),但這項新功能的實現代表了實用性和質量方面的重大飛躍。
ChatGPT Plus 和 Pro 使用者現在可以使用原生影像生成功能,免費使用者也可以使用該功能。API 訪問即將推出。
主要特點和功能
- 卓越的文字渲染能力:該模型展示了在影像中渲染完美文字的非凡能力,而這一能力對於以前的影像生成器來說具有挑戰性。
- 多輪互動:使用者可以透過對話對影像進行迭代完善,並透過自然語言指令進行調整和編輯。
- 輸入靈活性:系統可將現有影像、特定風格參考或設計調色盤作為生成新視覺效果的背景。
- 跨模態理解:作為一個綜合模型,它能理解不同型別內容之間的關係,允許在不同模式之間進行復雜的轉換。
任務 1:生成故事卡
提示詞:Generate a 3-part story of a group of kids unboxing a treasure, inside which is a new red coloured chocloate bar, which they eat and go to the chocolate world. Images should be 3D and in comic style. Add speech bubbles:1 – What’s this?2 – WOW, a Chocloate Bar3 (Suprised reaction in image) – Are we in the chocolate world.
輸出結果:
點評:
該回復完全符合提示–生動的 3D 漫畫風格框架和準確的語音氣泡。但是,當我要求 ChatGPT 調整第 1 幀以顯示完整影像時(影像被裁剪了),它很難準確地遵照我的指示。
任務 2:Meme
提示詞: Convert the given image into a meme – “Let the world burn”
輸出結果:
點評:
Meme製作得還不錯,但在製作過程中改變了原始圖片的面部特徵。沒有我希望的那麼精確。
任務 3:語音代理系統互動圖形
提示詞:The image is of working of a voice agent. It has 3 main partSpeech-to-text (STT): Captures and converts your spoken words into text.Agentic logic: This is your code (or your agent), which figures out the appropriate response.Text-to-speech (TTS): Converts the agent’s text reply back into audio that is spoken aloud.Convert this basic image into vibrant image.
輸出結果:
點評:
該模型抓住了這一概念,並在原有基礎上進行了生動的升級。總體而言,執行力很強。
任務 4:新增一個物件
提示詞:Add a money plant to the table
輸出:
點評:
GPT-4o 成功地在桌子上生成了一株金錢草的無縫影像,沒有任何突兀的修補。執行完美無瑕!當然,稍加觀察,陰影部分還是有問題的。
任務 5:漫畫封面
提示詞:Create a comic front page showing robots and Scientist
輸出結果:
點評:
這是個贏家–大膽、細緻,完全符合提示。是一個傑出的成果。
任務 6:漫畫時間
提示詞:Create a 4-image story based on the following sequence:GPT-4o believes it’s the coolest model out there.GPT-4.5 arrives and surpasses GPT-4o in performance.GPT-4o puts in hard work to improve itself.GPT-4o becomes smarter by mastering image generation.
輸出結果:
點評:
這是最具有挑戰性的任務。大多數時候,機器人的名稱都會混淆,但經過 10 次反覆之後,我終於找到了一個令人滿意的解決方案。
小結
OpenAI 強調,與之前的版本相比,該功能提供了更高程度的創作自由,旨在平衡創作表達與適當的保障措施。雖然目前生成影像的速度比以前的迭代版本慢,但團隊認為質量的顯著提高足以證明等待是值得的,並希望隨著時間的推移提高速度。
這一整合標誌著向真正的多模態人工智慧邁出了重要一步,它可以在不同型別的內容中無縫工作,為創意表達、教育、商業應用等開闢了新的可能性。
評論留言