2 月 9 日,紐約時報英文網站發表一篇文章,指出如今非常熱門的 AI 應用人臉識別,針對不同種族的準確率差異巨大。其中,針對黑人女性的錯誤率高達 21%-35%,而針對白人男性的錯誤率則低於 1%。
文章引用了 MIT 媒體實驗室(MIT Media Lab)研究員 Joy Buolamwini 與來自微軟的科學家 Timnit Gebru 合作的一篇研究論文《性別圖譜:商用性別分類技術中的種族準確率差異》(Gender Shades: Intersectional Accuracy Disparities in Commercial Gender Classification)中的數據。
雷鋒網針對這篇論文向曠視尋求回應,對方給予了非常詳細的解答。回應中,曠視首先對論文的研究方法表示認可,但同時指出研究所用的線上 API 是較舊的版本,在商用的產品中不會出現這類問題;而且,此類問題也是業內普遍存在的,不僅限於測試的這三家。原因主要有兩點,一是深色人種數據集的缺乏,二是深色人種人臉特徵較難提取。
以下為回應全文:
我們相信文章(論文)立意不是針對哪一家的技術,基本是不吹不黑的中立態度,而且從文章的測試方法來看還是比較科學的,但是文章中所用的「PPB」( Pilot Parliaments Benchmark)數據集在 GitHub 的發布地址已經失效,所以我們目前無法自行檢測以驗證文章的結論。
在集成到 Face++ API 中的時候,曠視研究院有針對不同人種進行檢測、識別等測試。但是就目前國際範圍內的研究水平來說,不管是在學界還是產業界,對於膚色人種的識別表現都沒有對「膚色較淺(引用文章用詞)」人種優秀,從此文的測試結果中也可以看出,微軟、IBM 和 Face++ 在膚色較深人種識別的表現中(尤其是膚色較深女性)機器的誤實率會更高。
文章作者提出了一個很好的問題,但文章中測試的 API 線上版本和我們為用戶提供的商業版本無關,用戶在業務使用中不會有任何影響。
當然我們也相信行業內都在針對人種識別優化做著各種努力。而就 Face++ 來講,未來研究院會從幾個角度去改善目前的狀況,如增加訓練數據,針對不同人種進行專門訓練,另外是從演演算法層面優化現在的流程,提升對不同人種的識別性能,此外,曠視也在加大 3D 感知的研發力度,將三維特徵信息融合到應用中彌補二維信息的不足使模型更加魯棒。
AI 真的有歧視嗎?
根據時報的報道,論文的作者之一黑人女性 Buolamwini 做這項研究之前,曾遇到過人臉識別無法識別她的臉,只有在她戴上一張白色面具時才行,因而引發了她開啟這項研究。很明顯,這項研究試圖探討 AI 時代是否存在社會不公甚至種族歧視的問題。
種族歧視作為一個非常敏感的話題,許多事情只要有些微沾上點邊就會引發強烈反彈。在人臉識別這塊,無論是論文作者的研究,還是廠商的實驗都明確發現女性深色人種識別誤差率更高。但這就能代表 AI 存有歧視嗎?