人工智慧偏見(AI Bias)是什麼及有哪些型別,例子和解決辦法

人工智慧偏見(AI Bias)

隨著越來越多的個人和企業看到人工智慧在各種使用案例中的好處,人們對人工智慧(AI)的興趣正在增加。然而,圍繞人工智慧技術也有一些合理的擔憂:

  • 人工智慧會不會對人類構成威脅?對於這一點,人工智慧首先需要超越人類的智慧。專家預計這不會在未來30-40年內發生。
  • 人工智慧會對我們的工作構成威脅嗎?是的,到2030年,44%的低學歷工人將面臨技術失業的風險。
  • 我們能相信人工智慧系統的判斷嗎?還不行,由於訓練資料的偏差,AI技術可能會繼承人類的偏見

在這篇文章中,我們專注於人工智慧偏見,並將回答有關人工智慧演算法中的偏見的所有重要問題,從人工智慧偏見的型別和例子到從人工智慧演算法中消除這些偏見。

ai bias谷歌搜尋趨勢

什麼是人工智慧偏見?

AI偏見是機器學習演算法輸出中的異常現象,是由於演算法開發過程中的偏見假設或訓練資料中的偏見造成的。

AI偏見的型別有哪些?

人工智慧系統包含偏見,原因有二:

  • 認知偏見: 這些是無意識的思維錯誤,會影響個人的判斷和決定。這些偏見產生於大腦試圖簡化處理關於世界的資訊。心理學家已經對180多個人類偏見進行了定義和分類。認知偏見可能通過以下兩種方式滲入機器學習演算法中:設計者在不知情的情況下將其引入模型中;訓練資料集包括這些偏見。
  • 缺少完整的資料: 如果資料不完整,它可能不具有代表性,因此它可能包括偏見。例如,大多數心理學研究包括本科生的結果,而本科生是一個特定的群體,並不代表整個人口。

人工智慧在醫療應用中的設計和使用中的不平等和歧視

圖1. 人工智慧在醫療應用中的設計和使用中的不平等和歧視(Source: British Medical Journal)

人工智慧是否會完全不偏不倚?

從技術上講,是的。一個人工智慧系統可以像其輸入資料的質量一樣好。如果你能把你的訓練資料集從關於種族、性別或其他意識形態概念的有意識和無意識的假設中清理出來,你就能建立一個人工智慧系統,做出無偏見的資料驅動的決定。

然而,在現實世界中,由於我們上面提供的相同論據,我們不期望人工智慧在短時間內完全不偏不倚。人工智慧可以像資料一樣好,而人是創造資料的人。人類有許多偏見,而且正在進行的對新偏見的識別正在不斷增加總數。因此,可能不可能有一個完全沒有偏見的人類頭腦,所以人工智慧系統也是如此。畢竟,人類正在創造有偏見的資料,而人類和人類製造的演算法正在檢查資料以識別和消除偏見。

對於人工智慧的偏見,我們能做的是通過測試資料和演算法,並以負責任的人工智慧原則開發人工智慧系統,將其降至最低。

如何修復人工智慧和機器學習演算法中的偏見?

首先,如果你的資料集是完整的,你應該承認,人工智慧的偏見只能是由於人類的偏見而發生的,你應該專注於從資料集中消除這些偏見。然而,這並不像聽起來那麼容易。

一個天真的方法是從資料中刪除受保護的類別(如性別或種族),並刪除使演算法產生偏見的標籤。然而,這種方法可能不起作用,因為刪除的標籤可能會影響對模型的理解,你的結果的準確性可能會變得更糟。

因此,沒有快速消除所有偏見的方法,但有像麥肯錫這樣的顧問提出的高水平建議,強調了人工智慧偏見最小化的最佳做法:

人工智慧偏見最小化的最佳做法

Source: McKinsey

修復人工智慧系統中的偏見的步驟:

1. 深入研究演算法和資料,評估哪裡的不公平風險高。比如說:

  • 檢查訓練資料集是否有代表性,是否足夠大,以防止常見的偏見,如抽樣偏見。
  • 進行子種群分析,包括計算資料集中特定群體的模型指標。這可以幫助確定模型的效能在不同的子群體中是否是相同的。
  • 隨著時間的推移監測模型的偏差。ML演算法的結果會隨著它們的學習或訓練資料的變化而改變。

2. 在你的整體人工智慧戰略中建立一個去偏策略,包含技術、操作和組織行動的組合:

  • 技術策略涉及的工具可以幫助你識別潛在的偏見來源,並揭示資料中影響模型準確性的特質
  • 運營策略包括利用內部 “紅隊 “和第三方審計師改善資料收集流程。你可以從谷歌AI關於公平性的研究中找到更多的做法
  • 組織策略包括建立一個透明地展示指標和流程的工作場所

3. 在你識別訓練資料中的偏見時,改善人類驅動的流程。模型的建立和評估可以突出那些已經被注意了很久的偏見。在建立人工智慧模型的過程中,公司可以識別這些偏見,並利用這些知識來了解偏見的原因。通過培訓、流程設計和文化變革,公司可以改善實際流程以減少偏見。

  • 決定在哪些用例中應優先考慮自動決策,哪些用例中應由人類參與。
  • 遵循一個多學科的方法。研究和開發是最大限度地減少資料集和演算法中的偏差的關鍵。消除偏見是一個多學科的戰略,由倫理學家、社會科學家和最瞭解每個應用領域細微差別的專家組成,在這個過程中。因此,公司應尋求在其人工智慧專案中納入此類專家。
  • 使你的組織多樣化。人工智慧社羣的多樣性使偏見的識別變得容易。首先注意到偏見問題的人,大多是來自該特定少數民族社羣的使用者。因此,保持一個多元化的人工智慧團隊可以幫助你減輕不必要的人工智慧偏見。

以資料為中心的人工智慧開發方法也可以幫助儘量減少人工智慧系統中的偏見。

減少偏見的工具

AI Fairness 360

IBM釋出了一個開源庫,用於檢測和減少無監督學習演算法中的偏見,目前在Github上有34個貢獻者(截至2020年9月)。該庫被稱為AI Fairness 360,它使AI程式設計師能夠

  • 用一套全面的指標測試模型和資料集的偏差。
  • 在12個打包演算法的幫助下,減輕偏見,如學習公平代表,拒絕選項分類,差異影響去除器。

然而,AI Fairness 360的偏見檢測和緩解演算法是為二進位制分類問題設計的,這就是為什麼如果你的問題更復雜,它需要擴充套件到多類和迴歸問題。

IBM Watson OpenScale

IBM的Watson OpenScale在人工智慧做出決定時實時進行偏見檢查和緩解。

Google’s What-If Tool

使用What-If工具,你可以在假設的情況下測試效能,分析不同資料特徵的重要性,並在多個模型和輸入資料的子集以及不同的ML公平性指標上視覺化模型行為。

有哪些人工智慧偏見的例子?

消除呼叫中心的選定口音

灣區初創公司Sanas開發了一個基於人工智慧的口音翻譯系統,使來自世界各地的呼叫中心工作人員聽起來對美國客戶更熟悉。該工具將說話者的口音實時轉化為 “中性 “美國口音。據SFGATE報道,Sanas公司總裁Marty Sarim說,口音是一個問題,因為 “它們會導致偏見,會造成誤解”。

種族偏見不可能通過讓每個人聽起來都是白人和美國人而消除。相反,這將加劇這些偏見,因為如果美國白人口音成為常態,不使用這種技術的非美國呼叫中心工作人員將面臨更嚴重的歧視。

亞馬遜帶偏見的招聘工具

懷著將招聘過程自動化的夢想,亞馬遜在2014年開始了一個人工智慧專案。他們的專案完全是基於審查求職者的簡歷,並通過使用人工智慧驅動的演算法對求職者進行評級,這樣招聘人員就不會在人工簡歷篩選任務上花費時間。然而,到了2015年,亞馬遜意識到他們的新人工智慧招聘系統沒有對候選人進行公平的評級,它顯示出對女性的偏見。

亞馬遜曾使用過去10年的歷史資料來訓練他們的人工智慧模型。歷史資料包含對女性的偏見,因為整個科技行業都是男性占主導地位,男性佔亞馬遜員工的60%。因此,亞馬遜的招聘系統錯誤地認為男性候選人更受歡迎。它懲罰了包含 “女性” 一詞的簡歷,如 “女子國際象棋俱樂部隊長” 的簡歷。因此,亞馬遜停止將該演算法用於招聘目的。

醫療保健風險演算法中的種族偏見

一種用於2億多美國公民的醫療保健風險預測演算法顯示出種族偏見,因為它依賴一個錯誤的指標來確定需求。

該演算法旨在預測哪些病人可能需要額外的醫療護理,然而,後來發現該演算法產生了錯誤的結果,有利於白人病人而不是黑人病人。

該演算法的設計者使用以前病人的醫療支出作為醫療需求的代表。這是對歷史資料的錯誤解釋,因為收入和種族是高度相關的指標,只根據相關指標中的一個變數進行假設,導致該演算法提供不準確的結果。

Facebook廣告中的偏見

人類偏見的例子很多,我們看到這種情況發生在科技平臺上。由於科技平臺上的資料後來被用來訓練機器學習模型,這些偏見導致了有偏見的機器學習模型。

2019年,Facebook在允許其廣告商根據性別、種族和宗教有意地鎖定廣告。例如,在護理或祕書工作的招聘廣告中,女性被優先考慮,而看門人和計程車司機的招聘廣告則主要展示給男性,特別是來自少數民族背景的男性。

因此,Facebook將不再允許僱主在其廣告中指定年齡、性別或種族目標

更多資源

Krita Sharma的Ted演講

Krita Sharma是一位人工智慧技術專家和企業高管,他正在解釋科技界缺乏多樣性是如何悄悄進入人工智慧的,並提供三種方法來製造更有道德的演算法:

Barak Turovsky在2020年Shelly Palmer創新系列峰會上發言

巴拉克-圖羅夫斯基是谷歌AI的產品總監,他正在解釋谷歌翻譯是如何處理AI偏見的:

希望這能澄清關於人工智慧偏見的一些主要觀點。關於人工智慧如何改變世界的更多資訊,你可以檢視關於人工智慧、人工智慧技術和人工智慧在市場營銷、銷售、客戶服務、IT、資料或分析中的應用的文章

評論留言