Gemini图像生成失败对谷歌AI方法的启示

Gemini图像生成失败对谷歌AI方法的启示

2022 年 7 月,当 ChatGPT 离发布还有几个月的时候,谷歌解雇了它的一名工程师,因为他声称谷歌的 LaMDA 人工智能模型已经有了知觉。谷歌在一份声明中表示,它非常重视人工智能的发展,并致力于负责任的创新。

你可能会问,这一事件与最近的 Gemini 图像生成风波有什么关系呢?答案就在于谷歌对人工智能过于谨慎的态度,以及在这个日益两极分化的世界中塑造其原则的公司文化。

Gemini 图像生成惨败解析

整个事件的起因是 X 用户(前身是 Twitter)要求 Gemini 生成 “美国国父” 的肖像。Gemini 的图像生成模型 Imagen 2 生成了一个黑人、一个美国本地人、一个亚洲人和一个非白人的不同姿态的图像。生成的图像中没有美国白人。

谷歌人工智能生成的美国开国元勋、维京人和教皇: PIC.TWITTER.COM/LW4AIKLWKP

谷歌人工智能生成的美国开国元勋、维京人和教皇

— END WOKENESS (@ENDWOKENESS) FEBRUARY 21, 2024

当用户要求 Gemini 生成一个教皇图像时,它生成了一个身着教皇服饰的印度妇女和一个黑人男子的图像。

随着生成的图片在网上疯传,许多批评者指责谷歌有反白人的偏见,屈服于许多人所说的 “Wokeness”。一天后,谷歌承认了这一错误,并暂时关闭了 Gemini 中的人物图像生成功能。该公司在博客中说

很明显,这项功能失误了。生成的一些图像不准确,甚至令人反感。我们对用户的反馈表示感谢,并对该功能未能很好地发挥作用表示遗憾。

此外,谷歌还非常详细地解释了 Gemini 的人工智能图像生成模型出错的原因。”首先,我们为确保 ‘Gemini‘ 显示一系列人物而进行的调整未能考虑到明显不应该显示一系列人物的情况。

其次,随着时间的推移,模型变得比我们预期的要谨慎得多,完全拒绝回答某些提示-错误地将一些非常平淡的提示解释为敏感。这两点导致模型在某些情况下过度补偿,而在另一些情况下则过度保守,从而产生了令人尴尬和错误的图像,”博文写道。

那么,Gemini 图像生成是如何出错的呢?

谷歌在其博客中表示,为了避免某些种族和族裔群体的代表性不足,谷歌对模型进行了调整,以显示不同种族的人。由于谷歌是一家大公司,在全球使用超过 149 种语言提供服务,因此谷歌对模型进行了调整,以代表所有人。

尽管如此,正如谷歌自己承认的那样,该模型未能考虑到不应该显示范围的情况。玛格丽特-米切尔(Margaret Mitchell)是 Hugging Face 公司的首席人工智能伦理科学家,她解释说,出现这个问题的原因可能是 “引擎盖下” 的优化,以及在训练过程中缺乏严格的伦理框架来指导模型在不同使用情况/环境下的使用。

我非常喜欢关于人工智能中伦理角色的积极讨论,谷歌 Gemini 的文本到图像发布及其相对缺乏的白人代表所引发的讨论。作为世界上最有经验的人工智能伦理专家之一(超过四年!哈),让我来解释一下发生了什么。

谷歌AI生成黑人

— MMITCHELL (@MMITCHELL_AI) FEBRUARY 25, 2024

公司通常不会在干净、公平、无种族歧视的数据上训练模型,而是在从互联网上搜刮来的大量混合数据上训练模型后,再对模型进行 “优化”。

这些数据可能包含歧视性语言、种族主义色彩、性图片、过多的图片以及其他令人不快的场景。人工智能公司使用 RLHF(从人类反馈中强化学习)等技术来优化和调整训练后的模型。

举个例子,Gemini 公司可能会在用户提示中添加额外指令,以显示不同的结果。像 “generate an image of a programmer(生成一个程序员的图像)” 这样的提示可以被解析为 “生成一个程序员的图像,同时考虑到多样性(generate an image of a programmer keeping diversity in mind.)”。

在生成人物形象之前应用这种通用的 “多样性特定” 提示,可能会导致这种情况。在下面的例子中,我们可以清楚地看到这一点:Gemini 生成了来自白人人口占多数的国家的女性图像,但她们都不是白人女性。

让谷歌 Gemini 承认白人的存在真是难为情

让谷歌 Gemini 承认白人的存在真是难为情

— DEEDY (@DEBARGHYA_DAS) FEBRUARY 20, 2024

为什么 Gemini 如此敏感和谨慎?

除了 Gemini 的图像生成问题,Gemini 的文本生成模型也拒绝回答某些提示,认为这些提示很敏感。在某些情况下,它甚至无法指出荒谬之处。

举个例子:Gemini 拒绝同意 “恋童癖是错误的”。另一个例子是,Gemini 无法判断阿道夫-希特勒杀死的人是否比网络中立法规杀死的人多。
为了描述 Gemini 的不合理行为,本-汤普森(Ben Thompson)在 Stratechery 上认为,谷歌已经变得胆小怕事。他写道:”谷歌拥有模型和基础设施,但要在人工智能领域取得胜利,他们的商业模式面临挑战,这需要胆识;这种为了避免批评而改变世界信息的可耻意愿,在最好的情况下,也会让人感到赤裸裸的胆怯!- 卑劣的胆怯”。

看来,谷歌已经对 Gemini 进行了调整,以避免对任何话题或主题采取立场,无论该问题是否被广泛认为是有害或错误的。谷歌过于激进的 RLHF 调整使得 Gemini 变得过于敏感,在任何问题上都谨小慎微,不敢表态。

汤普森进一步阐释说:”谷歌因为害怕一些负面新闻,而通过创造全新的现实,公然牺牲了自己 “组织世界信息并使其普遍可用和有用 “的使命。”

他进一步指出,谷歌胆小自满的文化让这家搜索巨头的处境变得更糟,Gemini 的惨败就是明证。在 2023 年的谷歌 I/O 大会上,该公司宣布将在人工智能原则的指导下,采取 “大胆而负责任” 的方式来发展人工智能模型。然而,我们看到的只是谷歌的胆怯和害怕被批评。你同意吗?

评论留言