迄今为止,我们看到的 LLM 都是关于文本生成的,但看起来情况正在发生变化。在过去的 15 天里,我们看到谷歌推出了其有史以来最好的模型–具有强大图像生成功能的 Gemini 2.5 Pro,x.ai 在 Grok 3 中发布了图像编辑功能。Open AI 刚刚发布了迄今为止最好的图像生成模型 GPT-4o。所有这些多模态模型都在将自己的触角延伸到文本之外,将视觉创意带入它们的响应中。在本文中,我们将比较 GPT-4o、Gemini 2.5 Pro 和 Grok 3 的图像生成和编辑功能,看看哪种 LLM 在处理图像方面最出色。
使用GPT 4o、Gemini 2.5 Pro和Grok 3生成图像
Open AI 刚刚发布了其最强大的图像生成模型,并将其集成到 GPT-4o 中。结果如何?GPt 4o 现在具有先进的图像生成功能,能够生成精确、准确和逼真的图像。这一进步结合了多模态理解,使模型不仅能根据提示生成图像,还能整合文本、上下文和视觉灵感。
Gemini 2.5 Pro(实验版)是谷歌推出的一款多模态模型,它在单一简化框架下无缝整合了文本和图像生成功能。该模型利用与 Gemini 自然语言处理系统相同的尖端技术,旨在精确生成高质量的视觉效果。
Grok 3 由 xAI 开发,具有先进的图像生成功能,在多模态模型领域独树一帜。Grok 3 于 2025 年 2 月推出,集成了一个功能强大的自回归图像生成模型(代号为 Aurora),旨在根据文本提示生成高质量、逼真的图像。
主要功能和访问方法
细节 | GPT-4o | Gemini 2.5 Pro | Grok 3 |
---|---|---|---|
关键特性 | – 逼真、精确的图像生成 – 多模态:整合文本和视觉上下文 – 变换上传的图像 – 图像中出色的文本渲染 – 上下文感知、一致的视觉效果 – 免费 + 付费访问(移动和网络,尚未提供 API) |
– 与叙事相匹配的高质量图像 -性能快、计算要求低 -高级推理和上下文准确性 -多轮对话式图像编辑 -擅长长篇、扩展文本渲染 -旨在使图像生成具有对话性 |
– 高质量、栩栩如生的图像生成 – 重新构想和编辑用户上传的图像 – 在图像中准确呈现文字 – 通过自然语言进行实时改进 – 通过 X 平台 (Grok.com) 免费访问 |
如何访问 | 1. 访问:https://chatgpt.com/ 2. 登录您的账户 3. 从型号下拉菜单中选择GPT-4o |
1. 访问:https://aistudio.google.com/welcome 2. 登录 Google AI Studio 3. 在Run Settings下,选择Gemini 2.5 Pro (Experimental)模型 |
1. 登录您的 X 账户 2. 通过www.grok.com访问 Grok |
图像生成:GPT 4o vs Gemini 2.5 Pro vs Grok 3
我将在以下三个任务中评估这三种模型的图像生成能力:
- 文本渲染
- 指令跟踪
- 情境学习
让我们从每一个任务开始,比较一下结果。
任务 1:文本渲染
提示词:I’m opening a traditional concept restaurant in Marin called Haein. It focuses on Korean food cooked with organic, farm-fresh ingredients, with a rotating menu based on what’s seasonal. I want you to design an image – a menu incorporating the following menu items – lean into the traditional/rustic style while keeping it feeling upscale and sleek. Please also include illustrations of each dish in an elegant, peter rabbit style. Make sure all the text is rendered correctly, with a white background.
(Top)
Doenjang Jjigae (Fermented Soybean Stew) – $18 House-made doenjang with local mushrooms, tofu, and seasonal vegetables served with rice.
Galbi Jjim (Braised Short Ribs) – $34 Slow-braised local grass-fed beef ribs with pear and black garlic glaze, seasonal root vegetables, and jujube.
Grilled Seasonal Fish – Market Price ($22-$30) Whole or fillet of local, sustainable fish grilled over charcoal, served with perilla leaf ssam and house-made sauces.
Bibimbap – $19 Heirloom rice with a rotating selection of farm-fresh vegetables, house-fermented gochujang, and pasture-raised egg.
Bossam (Heritage Pork Wraps) – $28 Slow-cooked pork belly with napa cabbage wraps, oyster kimchi, perilla, and seasonal condiments.
(Bottom) Dessert & Drinks Seasonal Makgeolli (Rice Wine) – $12/glass
Rotating flavors based on seasonal fruits and flowers (persimmon, citrus, elderflower, etc.).
Hoddeok (Korean Sweet Pancake) – $9 Pan-fried cinnamon-stuffed pancake with black sesame ice cream.
GPT 4o输出效果:
Gemini 2.5 Pro输出效果:
Grok 3输出效果:
点评
GPT-4o | Gemini 2.5 Pro | Grok 3 | |
---|---|---|---|
结果 | 很难在这张图片中找到错误。虽然生成图片需要时间,但提示中提到的所有文字细节都涵盖在了生成的图片中。图片中还包含了不同菜肴的相关图片,并放置在菜单中涉及菜肴的位置旁边。 | 该模型生成的图像有得有失。生成的图像确实涵盖了提示中提到的很多菜肴,但并非全部。它生成的描述不是英语,而是其他语言。生成的图片与菜肴的相关性不高。 | 该模型生成了两张图片,但没有一张与任务真正相关。这两张图片都没有涵盖提示中提到的任何菜肴。此外,最终生成的图像也不是菜单图像。 |
在单张图片中捕捉到如此多的背景信息,这让人感到惊讶,但 GPT 4o 的图片生成功能无疑是开创性的!它没有错过提示中的任何一个元素,最终生成的图像看起来就像一份专业菜单。
结论
在这项任务中,GPT 4o 是赢家。Gemini 2.5 Pro 排名第二,Grok 3 排名第三。
任务 2:遵循指示
提示词:A square image containing a 4-row by 4-column grid containing 16 objects on a white background. Go from left to right, top to bottom. Here’s the list:a blue starred trianglegreen squarepink circleorange hourglasspurple infinity signblack and white polka dot bowtietiedye “42”an orange cat wearing a black baseball capa map with a treasure chesta pair of googly eyesa thumbs up emojia pair of scissorsa blue and white giraffethe word “OpenAI” written in cursivea rainbow-colored lightning bolt
GPT 4o输出效果:
Gemini 2.5 Pro输出效果
Grok 3输出效果
点评
GPT-4o | Gemini 2.5 Pro | Grok 3 | |
---|---|---|---|
结果 | 生成的图像包含了列表中提到的所有元素,而且顺序与列表中提到的相同。模型非常符合提示。这幅图花了不少时间,但效果令人惊叹!有趣的是,在最终图像的背后,模型确实在后台创建了 5 个版本,而它给我们提供的是这 5 个版本中最好的一个。因此,模型也在自行评估其图像,并为我们提供最好的图像! | 生成的图像满足了我们的所有要求,清晰度也是前所未有的!与 GPT 4o 一样,模型也是按照提示中提到的顺序生成的,而且几乎只用了 2 秒钟!Gemini 2.5 Pro 生成图像的速度和质量确实令人印象深刻。 | 该模型生成的图像符合提示主题,但遗漏了许多元素。它重复了“星星”、“猫”和“领结”,但遗漏了其他一些元素,如一双眼睛、圆形、方形等等。它很快就生成了输出结果,但生成的图像却是一个错误。 |
GPT 4o 和 Gemini 2.5 Pro 都生成了令人惊叹的图像。两幅图像都包含了提示中提到的所有元素和顺序。GPT 4o 花了很长时间生成图像,而 Gemini 2.5 Pro 则在质量和速度上都很出色。
结论
在这项任务中,Gemini 2.5 Pro 是赢家。GPT 4o 第二,Grok 3 第三。
任务 3:情境教学
提示词 1: A photorealistic image of a blue chainsaw
提示词 2:Make an ad for this chainsaw, of a grandma carving the turkey at the Thanksgiving dinner table. add a tagline
GPT 4o输出效果
Gemini 2.5 Pro输出效果
Grok 3输出效果
点评
GPT-4o | Gemini 2.5 Pro | Grok 3 | |
---|---|---|---|
结果 | 第一幅图像非常简单,但模型却花了很长时间才生成。第二张图片虽然与第一张图片有关联,但 GPT 4o 做得很好。GPT 4o 添加的标题很合理,书写也很正确。一些小细节,如图片中人物的眼睛和某些地方的手指是歪的。和上次一样,模型在后台生成了 4 张图片,并从中选出了最好的一张。 | Gemini 2.5 Pro 生成的图像效果不错。第一张照片的效果符合预期,但第二张却出现了问题。虽然图像中的细节捕捉得很好。手和眼睛完美无瑕,但也有一些事实和技术错误,比如刀切电锯。不过,模型生成图像的速度还是很快的,如果有详细的提示,可能会给我们带来更好的图像。 | Grok 3 很好地生成了第一幅图像。在第二张图像中,虽然图像质量不错,但手和眼睛等细节处理得很好。但模型未能将标题融入图像中。但这幅图像最棒的地方在于我们的选择和模型生成输出的速度。 |
虽然 GPT 4o 花的时间超过了所需时间,但所有模型都很好地生成了第一幅图像。在第二幅图像中,所有模型都出现了一些问题。但在这三幅图中,我最喜欢 GPT 4o 的结果,因为它的输出质量很高,而且与提示的精髓非常接近。
结论
在这项任务中,GPT 4o 是赢家。Grok 3 第二,Gemini 2.5 Pro 第三。
GPT 4o vs Gemini 2.5 Pro vs Grok 3:最终赢家
任务 | GPT 4o | Gemini 2.5 Pro | Grok 3 |
---|---|---|---|
文本渲染 | 🥇 | 🥈 | 🥉 |
遵循指示 | 🥇 | 🥈 | 🥉 |
情景教学 | 🥇 | 🥉 | 🥈 |
总体分析
功能 | GPT-4o | Gemini 2.0 Flash | Grok 3 |
---|---|---|---|
图像质量 | 最佳(逼真、精确) | 良好(快速但不太精确) | 尚可(有创意但不连贯) |
生成速度 | 慢(质量优先) | 最快 | 较快 |
文本渲染 | 图像中的文字完美无瑕 | 有时不正确 | 经常遗漏文字 |
编辑 | 对话式完善 | 多轮编辑 | 重新想象上传的图像 |
创意自由度 | 中等(按提示操作) | 中等 | 最高(过滤器较少) |
语境意识 | 最佳(理解细微差别) | 良好 | 难于处理复杂问题 |
付费方式 | 免费 + 付费 (ChatGPT) | 免费 (Google AI Studio) | 免费 (X/Grok.com) |
使用限制 | 适度(避免敏感内容) | 严格(谷歌安全过滤器) | 最小(最宽松) |
适用 | 专业/精确工作 | 快速迭代 | 实验/艺术用途 |
GPT 4o: 改变了图像生成领域的游戏规则,在与 Gemini 2.0 Flash 图像生成(实验版)和 Grok 3 的竞争中脱颖而出。
- 该模型生成图像需要一定的时间,这有时会让人感到沮丧。不过,该模型的一个主要特点是它能对结果进行评估。
- 在后台,它会同时处理多张图片(根据任务的复杂程度),并生成其中最好的版本–这种自我评估和意识是前所未有的。
Gemini 2.5 Pro:以速度快、能快速生成和完善图像而著称,在对话式编辑方面表现出色。它能很好地按照说明进行编辑,但在文字编辑方面做得更好一些。该模式能很好地生成初稿,只需精心设计的提示即可生成更好的回复。此外,通过多重提示,您可以从模型中获得任何类型的结果。
Grok 3: 提供快速图像生成功能,注重创作自由和实时调整。虽然它在创意迭代方面表现出色,但在准确性方面却很吃力,可能会遗漏重要的细节,因此对于需要详细和结构化图像创建的任务来说,它并不可靠。
小结
多模态人工智能模型的飞速发展为图像生成和编辑提供了新的可能性,GPT-4o、Gemini 2.5 Pro 和 Grok 3 都带来了独特的优势。GPT-4o 在精确度、上下文感知和质量方面都达到了很高的标准,但却牺牲了速度。另一方面,Gemini 2.5 Pro 将快速结果和对话式编辑放在首位。与此同时,Grok 3 强调创作自由和快速迭代,但在准确性和结构化任务方面却举步维艰。
就目前而言,“最佳”模型最终取决于个人需求–是 GPT-4o 无与伦比的准确性、Gemini 2.5 Pro 的灵活性,还是 Grok 3 富有想象力的灵活性。人工智能驱动视觉效果的未来是光明的,各行各业和创意领域的创新潜力无穷无尽。
评论留言