几天前,Gemini 在 2.0 Flash 版本中推出了图像生成功能 ,互联网上出现了许多令人惊叹的例子。现在,OpenAI 站了出来,在 ChatGPT 中引入了原生图像生成功能(由 GPT-4o 支持),从而进一步提高了标准。
Sam Altman 热情洋溢地介绍了这项新功能,称其为“我们推出过的最有趣、最酷的功能之一”。他强调说,虽然图像生成功能已经存在了一段时间(包括 OpenAI 最初的 DALL-E),但这项新功能的实现代表了实用性和质量方面的重大飞跃。
ChatGPT Plus 和 Pro 用户现在可以使用原生图像生成功能,免费用户也可以使用该功能。API 访问即将推出。
主要特点和功能
- 卓越的文本渲染能力:该模型展示了在图像中渲染完美文本的非凡能力,而这一能力对于以前的图像生成器来说具有挑战性。
- 多轮交互:用户可以通过对话对图像进行迭代完善,并通过自然语言指令进行调整和编辑。
- 输入灵活性:系统可将现有图像、特定风格参考或设计调色板作为生成新视觉效果的背景。
- 跨模态理解:作为一个综合模型,它能理解不同类型内容之间的关系,允许在不同模式之间进行复杂的转换。
任务 1:生成故事卡
提示词:Generate a 3-part story of a group of kids unboxing a treasure, inside which is a new red coloured chocloate bar, which they eat and go to the chocolate world. Images should be 3D and in comic style. Add speech bubbles:1 – What’s this?2 – WOW, a Chocloate Bar3 (Suprised reaction in image) – Are we in the chocolate world.
输出结果:
点评:
该回复完全符合提示–生动的 3D 漫画风格框架和准确的语音气泡。但是,当我要求 ChatGPT 调整第 1 帧以显示完整图像时(图像被裁剪了),它很难准确地遵照我的指示。
任务 2:Meme
提示词: Convert the given image into a meme – “Let the world burn”
输出结果:
点评:
Meme制作得还不错,但在制作过程中改变了原始图片的面部特征。没有我希望的那么精确。
任务 3:语音代理系统交互图形
提示词:The image is of working of a voice agent. It has 3 main partSpeech-to-text (STT): Captures and converts your spoken words into text.Agentic logic: This is your code (or your agent), which figures out the appropriate response.Text-to-speech (TTS): Converts the agent’s text reply back into audio that is spoken aloud.Convert this basic image into vibrant image.
输出结果:
点评:
该模型抓住了这一概念,并在原有基础上进行了生动的升级。总体而言,执行力很强。
任务 4:添加一个对象
提示词:Add a money plant to the table
输出:
点评:
GPT-4o 成功地在桌子上生成了一株金钱草的无缝图像,没有任何突兀的修补。执行完美无瑕!当然,稍加观察,阴影部分还是有问题的。
任务 5:漫画封面
提示词:Create a comic front page showing robots and Scientist
输出结果:
点评:
这是个赢家–大胆、细致,完全符合提示。是一个杰出的成果。
任务 6:漫画时间
提示词:Create a 4-image story based on the following sequence:GPT-4o believes it’s the coolest model out there.GPT-4.5 arrives and surpasses GPT-4o in performance.GPT-4o puts in hard work to improve itself.GPT-4o becomes smarter by mastering image generation.
输出结果:
点评:
这是最具有挑战性的任务。大多数时候,机器人的名称都会混淆,但经过 10 次反复之后,我终于找到了一个令人满意的解决方案。
小结
OpenAI 强调,与之前的版本相比,该功能提供了更高程度的创作自由,旨在平衡创作表达与适当的保障措施。虽然目前生成图像的速度比以前的迭代版本慢,但团队认为质量的显著提高足以证明等待是值得的,并希望随着时间的推移提高速度。
这一整合标志着向真正的多模态人工智能迈出了重要一步,它可以在不同类型的内容中无缝工作,为创意表达、教育、商业应用等开辟了新的可能性。
评论留言