电竞比分网-中国电竞赛事及体育赛事平台

分享

算法偏見就怪?jǐn)?shù)據(jù)集?MIT糾偏算法自動識別「弱勢群體」

 小天使_ag 2019-01-29

選自venturebeat

作者:KYLE WIGGERS

機(jī)器之心編譯

機(jī)器之心編輯部


長久以來,我們都將注意力放在了算法性能上,而對于算法偏見,我們并沒有很完善的研究。通常直觀的想法就是修正數(shù)據(jù)集,以構(gòu)建類別平衡的訓(xùn)練集,但是這又額外地引入了工作量。在 MIT 的 AAAI 2019 新研究中,作者借助 VAE 學(xué)習(xí)訓(xùn)練數(shù)據(jù)的潛在結(jié)構(gòu),并以學(xué)到的潛在分布給數(shù)據(jù)點(diǎn)加權(quán)從而解決算法偏見問題。


算法中的偏見可能比你想象得還要普遍。發(fā)表于 2012 年的《Face Recognition Performance: Role of Demographic Information》一文表明,Cognitec 的人臉識別系統(tǒng)對非裔美國人的識別準(zhǔn)確率比白人低 5 到 10 個百分點(diǎn),《An other-race effect for face recognition algorithms》一文發(fā)現(xiàn),中國、日本和韓國開發(fā)的模型不太容易區(qū)分白種人和東亞人。最近的一份研究表明,谷歌和亞馬遜的語音助手在理解非美國口音方面的準(zhǔn)確率要低 30%?!禡an is to Computer Programmer as Woman is to Homemaker? Debiasing Word Embeddings》一文發(fā)現(xiàn),Google News 文章中的詞嵌入存在對于男性和女性的刻板印象。


這是一個問題。但幸運(yùn)的是,MIT 的研究者已經(jīng)探索出了解決之道。


在論文《Uncovering and Mitigating Algorithmic Bias through Learned Latent Structure》中,MIT CSAIL 的科學(xué)家們展示了一種可以通過重新采樣來自動消除數(shù)據(jù)偏見的 AI 系統(tǒng)。他們表示,在專門測試計算機(jī)視覺系統(tǒng)中偏見的數(shù)據(jù)集上,該系統(tǒng)顯示出優(yōu)異的性能,分類偏見也得以降低。該論文將在本周舉辦的 AAAI 大會上作為 Poster 論文進(jìn)行展示。


「人臉識別通常被視為一個已經(jīng)得到解決的問題,盡管很明顯,人們使用的數(shù)據(jù)并未得到適當(dāng)審查,」上述論文一作之一 Alexander Amini 說道?!赋C正這些問題至關(guān)重要,因為這類算法已經(jīng)用在了安全、執(zhí)法及其他領(lǐng)域?!?/p>


這不是 MIT CSAIL 第一次解決該問題,在 2018 年的一篇論文里,David Sontag 教授及其同事描述了一種在不降低預(yù)測結(jié)果準(zhǔn)確性的前提下減少 AI 偏見的方法。但本文提出的方法是一種新穎的、半監(jiān)督的端到端深度學(xué)習(xí)算法,它同時學(xué)習(xí)所需任務(wù)和數(shù)據(jù)結(jié)構(gòu),如面部檢測任務(wù)和訓(xùn)練數(shù)據(jù)的潛在結(jié)構(gòu)。后者使其能夠揭開訓(xùn)練數(shù)據(jù)中隱藏或隱含的偏見,并能夠在訓(xùn)練期間自動去除這些偏見,而無需數(shù)據(jù)預(yù)處理或注釋。


去除偏見的原理


研究人員所設(shè)計的人工智能系統(tǒng)核心是一個變分自編碼器(VAE),這是一種常見的無監(jiān)督神經(jīng)網(wǎng)絡(luò),與 GAN 一樣經(jīng)常用于圖像生成任務(wù)。與自編碼器一樣,變分自編碼器主要包含編碼器和解碼器。其中編碼器將原始輸入映射到特征表示中,而解碼器將特征表示作為輸入,利用它們進(jìn)行預(yù)測并生成輸出。最后模型會對比編碼器的輸入與解碼器輸出之間的差別,并將它們作為損失函數(shù)而執(zhí)行訓(xùn)練。


在本文所提出的 VAE 下,即去偏見 VAE(DB-VAE),編碼器部分在給定數(shù)據(jù)點(diǎn)的情況下學(xué)習(xí)隱變量真實分布的近似值,而解碼器則期望基于潛在空間重構(gòu)輸入數(shù)據(jù)。解碼重構(gòu)使得在訓(xùn)練期間能夠以無監(jiān)督的方式學(xué)習(xí)隱變量。


為了驗證該去偏見算法在現(xiàn)實問題上具有「重要的社會影響」,研究人員在包含 40 萬張圖像的數(shù)據(jù)集上訓(xùn)練 DB-VAE 模型,分別將其中 80% 的圖像作為訓(xùn)練集,20% 的圖像作為驗證集。然后他們在 PPB 測試數(shù)據(jù)集上評估該模型,該數(shù)據(jù)集包含 1270 張來自非洲和歐洲不同國家國會議員的圖像。


結(jié)果很不錯,據(jù)研究人員表示 DB-VAE 不僅學(xué)習(xí)面部特征(如膚色、頭發(fā)),還學(xué)習(xí)諸如性別和年齡等其它特征。將在個體人口統(tǒng)計學(xué)(種族/性別)和整個 PPB 數(shù)據(jù)集上訓(xùn)練的去偏見模型與普通模型相比,去偏見模型的分類準(zhǔn)確率明顯增加,且針對種族和性別的分類偏見明顯下降。該研究團(tuán)隊表示,這是朝著公平和無偏見 AI 系統(tǒng)發(fā)展的重要一步。


「公平系統(tǒng)的開發(fā)和部署對于防止意外的歧視以及確保這些算法被長期接納至關(guān)重要。我們希望該算法能夠促進(jìn)現(xiàn)代人工智能系統(tǒng)算法的公平性?!购现弑硎?。


取得進(jìn)步


過去十多年有很多失誤都描述了 AI 潛在的偏見,但這并不意味著我們沒有在更準(zhǔn)確、偏見更少的系統(tǒng)方面取得進(jìn)展。


去年 6 月份,微軟與致力于人工智能公平性的專家通力合作,修正和擴(kuò)展了用于訓(xùn)練 Face API 的數(shù)據(jù)集。Face API 是微軟 Azure 中的一個 API,它提供預(yù)訓(xùn)練算法以檢測、識別和分析人臉圖像中的屬性。新數(shù)據(jù)通過調(diào)整膚色、性別和年齡等所占的比例,能夠?qū)⒛w色較深的男性和女性之間的識別錯誤率降低 20 倍,單單女性的識別誤差率就能降低 9 倍。


與此同時,一大類新興的算法糾偏工具有望實現(xiàn)更加公正的人工智能。


去年 5 月,F(xiàn)acebook 發(fā)布了 Fairness Flow。如果一個算法因為人類的種族、性別、和年齡等因素做出不公平的判斷,F(xiàn)airness Flow 會自動預(yù)警以提醒開發(fā)者。初創(chuàng)公司 Pymetrics 同樣開源了他們用于檢測偏見的工具 Audit AI;Accenture 發(fā)布了一個工具包以自動檢測 AI 算法中的偏見,并幫助數(shù)據(jù)科學(xué)家緩解這些偏見。此外在去年 9 月份,谷歌推出了新工具 What-If,這是 TensorBoard 中用于檢測偏見的工具,也表明機(jī)器學(xué)習(xí)框架 TensorFlow 開始關(guān)注這種算法的偏見。


論文:Uncovering and Mitigating Algorithmic Bias through Learned Latent Structure



論文鏈接:http://www./wp-content/papers/main/AIES-19_paper_220.pdf


摘要:最近的研究揭示了基于現(xiàn)代機(jī)器學(xué)習(xí)的系統(tǒng)容易產(chǎn)生偏見,尤其是對于訓(xùn)練數(shù)據(jù)中缺乏代表性的社會群體。在本文中,我們開發(fā)了一種新的、可調(diào)的算法來減少訓(xùn)練數(shù)據(jù)中隱藏的潛在偏見。我們的算法將原始的學(xué)習(xí)任務(wù)和變分自編碼器相融合,以學(xué)習(xí)訓(xùn)練數(shù)據(jù)中的潛在結(jié)構(gòu),然后在訓(xùn)練時自適應(yīng)地使用學(xué)到的潛在分布給特定數(shù)據(jù)點(diǎn)的重要性重新加權(quán)。雖然我們的方法可以泛化到不同的數(shù)據(jù)模式和學(xué)習(xí)任務(wù)上,但在本研究中我們主要用該算法來解決面部檢測系統(tǒng)中的種族和性別偏見問題。我們在 Pilot Parliaments Benchmark(PPB)數(shù)據(jù)集上評估了該算法,這是一個專為評估計算機(jī)視覺系統(tǒng)中的偏見而設(shè)計的數(shù)據(jù)集。評估結(jié)果表明,我們的去偏見方法提高了整體性能,降低了分類偏見。


原文鏈接:https:///2019/01/26/mit-csail-researchers-propose-automated-method-for-debiasing-ai-algorithms/



?------------------------------------------------

加入機(jī)器之心(全職記者 / 實習(xí)生):hr@jiqizhixin.com

投稿或?qū)で髨蟮溃篶ontent@jiqizhixin.com

廣告 & 商務(wù)合作:bd@jiqizhixin.com

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多