Gemini影象生成失敗對谷歌AI方法的啟示

2022 年 7 月，當 ChatGPT 離釋出還有幾個月的時候，谷歌解僱了它的一名工程師，因為他聲稱谷歌的 LaMDA 人工智慧模型已經有了知覺。谷歌在一份宣告中表示，它非常重視人工智慧的發展，並致力於負責任的創新。

你可能會問，這一事件與最近的 Gemini 影象生成風波有什麼關係呢？答案就在於谷歌對人工智慧過於謹慎的態度，以及在這個日益兩極分化的世界中塑造其原則的公司文化。

Gemini 影象生成慘敗解析

整個事件的起因是 X 使用者（前身是 Twitter）要求 Gemini 生成 “美國國父” 的肖像。Gemini 的影象生成模型 Imagen 2 生成了一個黑人、一個美國本地人、一個亞洲人和一個非白人的不同姿態的影象。生成的影象中沒有美國白人。

谷歌人工智慧生成的美國開國元勳、維京人和教皇： PIC.TWITTER.COM/LW4AIKLWKP

— END WOKENESS (@ENDWOKENESS) FEBRUARY 21, 2024

當使用者要求 Gemini 生成一個教皇影象時，它生成了一個身著教皇服飾的印度婦女和一個黑人男子的影象。

隨著生成的圖片在網上瘋傳，許多批評者指責谷歌有反白人的偏見，屈服於許多人所說的 “Wokeness”。一天後，谷歌承認了這一錯誤，並暫時關閉了 Gemini 中的人物影象生成功能。該公司在部落格中說：

很明顯，這項功能失誤了。生成的一些影象不準確，甚至令人反感。我們對使用者的反饋表示感謝，並對該功能未能很好地發揮作用表示遺憾。

此外，谷歌還非常詳細地解釋了 Gemini 的人工智慧影象生成模型出錯的原因。”首先，我們為確保 ‘Gemini‘ 顯示一系列人物而進行的調整未能考慮到明顯不應該顯示一系列人物的情況。

其次，隨著時間的推移，模型變得比我們預期的要謹慎得多，完全拒絕回答某些提示-錯誤地將一些非常平淡的提示解釋為敏感。這兩點導致模型在某些情況下過度補償，而在另一些情況下則過度保守，從而產生了令人尷尬和錯誤的影象，”博文寫道。

那麼，Gemini 影象生成是如何出錯的呢？

谷歌在其部落格中表示，為了避免某些種族和族裔群體的代表性不足，谷歌對模型進行了調整，以顯示不同種族的人。由於谷歌是一家大公司，在全球使用超過 149 種語言提供服務，因此谷歌對模型進行了調整，以代表所有人。

儘管如此，正如谷歌自己承認的那樣，該模型未能考慮到不應該顯示範圍的情況。瑪格麗特-米切爾（Margaret Mitchell）是 Hugging Face 公司的首席人工智慧倫理科學家，她解釋說，出現這個問題的原因可能是 “引擎蓋下” 的優化，以及在訓練過程中缺乏嚴格的倫理框架來指導模型在不同使用情況/環境下的使用。

我非常喜歡關於人工智慧中倫理角色的積極討論，谷歌 Gemini 的文字到影象釋出及其相對缺乏的白人代表所引發的討論。作為世界上最有經驗的人工智慧倫理專家之一（超過四年！哈），讓我來解釋一下發生了什麼。

— MMITCHELL (@MMITCHELL_AI) FEBRUARY 25, 2024

公司通常不會在乾淨、公平、無種族歧視的資料上訓練模型，而是在從網際網路上搜刮來的大量混合資料上訓練模型後，再對模型進行 “優化”。

這些資料可能包含歧視性語言、種族主義色彩、性圖片、過多的圖片以及其他令人不快的場景。人工智慧公司使用 RLHF（從人類反饋中強化學習）等技術來優化和調整訓練後的模型。

舉個例子，Gemini 公司可能會在使用者提示中新增額外指令，以顯示不同的結果。像 “generate an image of a programmer（生成一個程式設計師的影象）” 這樣的提示可以被解析為 “生成一個程式設計師的影象，同時考慮到多樣性（generate an image of a programmer keeping diversity in mind.）”。

在生成人物形象之前應用這種通用的 “多樣性特定” 提示，可能會導致這種情況。在下面的例子中，我們可以清楚地看到這一點：Gemini 生成了來自白人人口占多數的國家的女性影象，但她們都不是白人女性。

讓谷歌 Gemini 承認白人的存在真是難為情

— DEEDY (@DEBARGHYA_DAS) FEBRUARY 20, 2024

為什麼 Gemini 如此敏感和謹慎？

除了 Gemini 的影象生成問題，Gemini 的文字生成模型也拒絕回答某些提示，認為這些提示很敏感。在某些情況下，它甚至無法指出荒謬之處。

舉個例子：Gemini 拒絕同意 “戀童癖是錯誤的”。另一個例子是，Gemini 無法判斷阿道夫-希特勒殺死的人是否比網路中立法規殺死的人多。
為了描述 Gemini 的不合理行為，本-湯普森（Ben Thompson）在 Stratechery 上認為，谷歌已經變得膽小怕事。他寫道：”谷歌擁有模型和基礎設施，但要在人工智慧領域取得勝利，他們的商業模式面臨挑戰，這需要膽識；這種為了避免批評而改變世界資訊的可恥意願，在最好的情況下，也會讓人感到赤裸裸的膽怯！- 卑劣的膽怯”。

看來，谷歌已經對 Gemini 進行了調整，以避免對任何話題或主題採取立場，無論該問題是否被廣泛認為是有害或錯誤的。谷歌過於激進的 RLHF 調整使得 Gemini 變得過於敏感，在任何問題上都謹小慎微，不敢表態。

湯普森進一步闡釋說：”谷歌因為害怕一些負面新聞，而通過創造全新的現實，公然犧牲了自己 “組織世界資訊並使其普遍可用和有用 “的使命。”

他進一步指出，谷歌膽小自滿的文化讓這家搜尋巨頭的處境變得更糟，Gemini 的慘敗就是明證。在 2023 年的谷歌 I/O 大會上，該公司宣佈將在人工智慧原則的指導下，採取 “大膽而負責任” 的方式來發展人工智慧模型。然而，我們看到的只是谷歌的膽怯和害怕被批評。你同意嗎？

Gemini 谷歌

Gemini影象生成失敗對谷歌AI方法的啟示

Gemini 影象生成慘敗解析

那麼，Gemini 影象生成是如何出錯的呢？

為什麼 Gemini 如此敏感和謹慎？

評論留言

取消回覆

文章目錄

Gemini影象生成失敗對谷歌AI方法的啟示

Gemini 影象生成慘敗解析

那麼，Gemini 影象生成是如何出錯的呢？

為什麼 Gemini 如此敏感和謹慎？

相關的

評論留言

取消回覆

文章目錄