OpenAI 4o引入比DALL-E更强大的图像生成器

OpenAI 4o引入比DALL-E更强大的图像生成器

几天前,Gemini 在 2.0 Flash 版本中推出了图像生成功能 ,互联网上出现了许多令人惊叹的例子。现在,OpenAI 站了出来,在 ChatGPT 中引入了原生图像生成功能(由 GPT-4o 支持),从而进一步提高了标准。

Sam Altman 热情洋溢地介绍了这项新功能,称其为“我们推出过的最有趣、最酷的功能之一他强调说,虽然图像生成功能已经存在了一段时间(包括 OpenAI 最初的 DALL-E),但这项新功能的实现代表了实用性和质量方面的重大飞跃。

ChatGPT Plus 和 Pro 用户现在可以使用原生图像生成功能,免费用户也可以使用该功能。API 访问即将推出。

主要特点和功能

  • 卓越的文本渲染能力:该模型展示了在图像中渲染完美文本的非凡能力,而这一能力对于以前的图像生成器来说具有挑战性。
  • 多轮交互:用户可以通过对话对图像进行迭代完善,并通过自然语言指令进行调整和编辑。
  • 输入灵活性:系统可将现有图像、特定风格参考或设计调色板作为生成新视觉效果的背景。
  • 跨模态理解:作为一个综合模型,它能理解不同类型内容之间的关系,允许在不同模式之间进行复杂的转换。

任务 1:生成故事卡

提示词:Generate a 3-part story of a group of kids unboxing a treasure, inside which is a new red coloured chocloate bar, which they eat and go to the chocolate world. Images should be 3D and in comic style. Add speech bubbles:1 – What’s this?2 – WOW, a Chocloate Bar3 (Suprised reaction in image) – Are we in the chocolate world.

输出结果:

故事卡

点评:

该回复完全符合提示–生动的 3D 漫画风格框架和准确的语音气泡。但是,当我要求 ChatGPT 调整第 1 帧以显示完整图像时(图像被裁剪了),它很难准确地遵照我的指示。

任务 2:Meme

提示词: Convert the given image into a meme – “Let the world burn”

输出结果:

Meme

点评:

Meme制作得还不错,但在制作过程中改变了原始图片的面部特征。没有我希望的那么精确。

任务 3:语音代理系统交互图形

提示词:The image is of working of a voice agent. It has 3 main partSpeech-to-text (STT): Captures and converts your spoken words into text.Agentic logic: This is your code (or your agent), which figures out the appropriate response.Text-to-speech (TTS): Converts the agent’s text reply back into audio that is spoken aloud.Convert this basic image into vibrant image.

语音代理系统交互图形

输出结果:

语音代理系统交互图形

点评:

该模型抓住了这一概念,并在原有基础上进行了生动的升级。总体而言,执行力很强。

任务 4:添加一个对象

提示词:Add a money plant to the table

添加一个对象

输出:

添加一个对象

点评:

GPT-4o 成功地在桌子上生成了一株金钱草的无缝图像,没有任何突兀的修补。执行完美无瑕!当然,稍加观察,阴影部分还是有问题的。

任务 5:漫画封面

提示词:Create a comic front page showing robots and Scientist

输出结果:

漫画封面

点评:

这是个赢家–大胆、细致,完全符合提示。是一个杰出的成果。

任务 6:漫画时间

提示词:Create a 4-image story based on the following sequence:GPT-4o believes it’s the coolest model out there.GPT-4.5 arrives and surpasses GPT-4o in performance.GPT-4o puts in hard work to improve itself.GPT-4o becomes smarter by mastering image generation.

输出结果:

漫画时间

点评:

这是最具有挑战性的任务。大多数时候,机器人的名称都会混淆,但经过 10 次反复之后,我终于找到了一个令人满意的解决方案。

小结

OpenAI 强调,与之前的版本相比,该功能提供了更高程度的创作自由,旨在平衡创作表达与适当的保障措施。虽然目前生成图像的速度比以前的迭代版本慢,但团队认为质量的显著提高足以证明等待是值得的,并希望随着时间的推移提高速度。

这一整合标志着向真正的多模态人工智能迈出了重要一步,它可以在不同类型的内容中无缝工作,为创意表达、教育、商业应用等开辟了新的可能性。

评论留言