OpenAI 4o引入比DALL-E更强大的图像生成器

几天前，Gemini 在 2.0 Flash 版本中推出了图像生成功能，互联网上出现了许多令人惊叹的例子。现在，OpenAI 站了出来，在 ChatGPT 中引入了原生图像生成功能（由 GPT-4o 支持），从而进一步提高了标准。

Sam Altman 热情洋溢地介绍了这项新功能，称其为“我们推出过的最有趣、最酷的功能之一”。他强调说，虽然图像生成功能已经存在了一段时间（包括 OpenAI 最初的 DALL-E），但这项新功能的实现代表了实用性和质量方面的重大飞跃。

ChatGPT Plus 和 Pro 用户现在可以使用原生图像生成功能，免费用户也可以使用该功能。API 访问即将推出。

主要特点和功能

卓越的文本渲染能力：该模型展示了在图像中渲染完美文本的非凡能力，而这一能力对于以前的图像生成器来说具有挑战性。
多轮交互：用户可以通过对话对图像进行迭代完善，并通过自然语言指令进行调整和编辑。
输入灵活性：系统可将现有图像、特定风格参考或设计调色板作为生成新视觉效果的背景。
跨模态理解：作为一个综合模型，它能理解不同类型内容之间的关系，允许在不同模式之间进行复杂的转换。

任务 1：生成故事卡

提示词：Generate a 3-part story of a group of kids unboxing a treasure, inside which is a new red coloured chocloate bar, which they eat and go to the chocolate world. Images should be 3D and in comic style. Add speech bubbles:1 – What’s this?2 – WOW, a Chocloate Bar3 (Suprised reaction in image) – Are we in the chocolate world.

输出结果：

故事卡

点评：

该回复完全符合提示–生动的 3D 漫画风格框架和准确的语音气泡。但是，当我要求 ChatGPT 调整第 1 帧以显示完整图像时（图像被裁剪了），它很难准确地遵照我的指示。

任务 2：Meme

提示词： Convert the given image into a meme – “Let the world burn”

输出结果：

Meme

点评：

Meme制作得还不错，但在制作过程中改变了原始图片的面部特征。没有我希望的那么精确。

任务 3：语音代理系统交互图形

提示词：The image is of working of a voice agent. It has 3 main partSpeech-to-text (STT): Captures and converts your spoken words into text.Agentic logic: This is your code (or your agent), which figures out the appropriate response.Text-to-speech (TTS): Converts the agent’s text reply back into audio that is spoken aloud.Convert this basic image into vibrant image.

语音代理系统交互图形

输出结果：

语音代理系统交互图形

点评：

该模型抓住了这一概念，并在原有基础上进行了生动的升级。总体而言，执行力很强。

任务 4：添加一个对象

提示词：Add a money plant to the table

添加一个对象

输出：

添加一个对象

点评：

GPT-4o 成功地在桌子上生成了一株金钱草的无缝图像，没有任何突兀的修补。执行完美无瑕！当然，稍加观察，阴影部分还是有问题的。

任务 5：漫画封面

提示词：Create a comic front page showing robots and Scientist

输出结果：

漫画封面

点评：

这是个赢家–大胆、细致，完全符合提示。是一个杰出的成果。

任务 6：漫画时间

提示词：Create a 4-image story based on the following sequence:GPT-4o believes it’s the coolest model out there.GPT-4.5 arrives and surpasses GPT-4o in performance.GPT-4o puts in hard work to improve itself.GPT-4o becomes smarter by mastering image generation.

输出结果：

漫画时间

点评:

这是最具有挑战性的任务。大多数时候，机器人的名称都会混淆，但经过 10 次反复之后，我终于找到了一个令人满意的解决方案。

小结

OpenAI 强调，与之前的版本相比，该功能提供了更高程度的创作自由，旨在平衡创作表达与适当的保障措施。虽然目前生成图像的速度比以前的迭代版本慢，但团队认为质量的显著提高足以证明等待是值得的，并希望随着时间的推移提高速度。

这一整合标志着向真正的多模态人工智能迈出了重要一步，它可以在不同类型的内容中无缝工作，为创意表达、教育、商业应用等开辟了新的可能性。

OpenAI 4o 图像生成

OpenAI 4o引入比DALL-E更强大的图像生成器

主要特点和功能

任务 1：生成故事卡

任务 2：Meme

任务 3：语音代理系统交互图形

任务 4：添加一个对象

任务 5：漫画封面

任务 6：漫画时间

小结

评论留言

取消回复

文章目录

OpenAI 4o引入比DALL-E更强大的图像生成器

主要特点和功能

任务 1：生成故事卡

任务 2：Meme

任务 3：语音代理系统交互图形

任务 4：添加一个对象

任务 5：漫画封面

任务 6：漫画时间

小结

相关的

评论留言

取消回复

文章目录