|
一個具有高爾夫球樣凹凸不平表面的茶壺。 人工智能中的深度學(xué)習(xí)計算機網(wǎng)絡(luò)到底有多智能?這些機器在多大程度上模仿了人類的大腦?針對以上問題,美國加州大學(xué)洛杉磯分校的一組認(rèn)知心理學(xué)家近日在《公共科學(xué)圖書館計算生物學(xué)》(PLOS computing Biology)雜志上發(fā)表報告稱,近年來,這方面的研究雖取得了很大進展,但仍有很長的路要走。 支持者們對利用人工智能完成許多傳統(tǒng)上由人類來完成的個人任務(wù),甚至是工作表現(xiàn)出了極大的熱情。然而,本研究的五個實驗結(jié)果表明,深度學(xué)習(xí)計算機網(wǎng)絡(luò)很容易被欺騙,它們所使用的計算機視覺與人類視覺有很大的不同。 “機器有嚴(yán)重局限性?!奔又荽髮W(xué)洛杉磯分校(UCLA)著名心理學(xué)教授、該研究的資深作者Philip Kellman說,“我們在說,‘等等,別那么快?!?/p> 機器視覺也有缺點。在第一個實驗中,心理學(xué)家向目前最優(yōu)秀的深度學(xué)習(xí)網(wǎng)絡(luò)之一——VGG-19展示了一些被修改了的動物和物體的彩色圖像。舉例來說,一個具有高爾夫球樣凹凸不平表面的茶壺;一匹具有斑馬一樣條紋的駱駝;一頭顏色像藍色和紅色菱形花紋襪子的大象。VGG-19識別圖片后給出了可能的答案選項,并對這些選項進行了排名,結(jié)果在40個對象中,只有5個的正確的答案被列為了第一選項?!捌垓_這些人工系統(tǒng)很容易。”加州大學(xué)洛杉磯分校心理學(xué)教授、合著者盧洪靜(音譯)說,“它們的學(xué)習(xí)機制遠不如人類的大腦復(fù)雜?!?/p> VGG-19認(rèn)為大象是大象的概率是0,茶壺是茶壺的概率只有0.41%。該研究的第一作者、加州大學(xué)洛杉磯分校(UCLA)心理學(xué)研究生Nicholas Baker說,VGG19認(rèn)為這款茶壺最可能是一個高爾夫球,這表明人工智能網(wǎng)絡(luò)更關(guān)注物體的質(zhì)地,而不是形狀。Kellman說:“高爾夫球出現(xiàn)在答案中是完全合理的,但令人擔(dān)憂的是,選項中沒有茶壺?!薄八鼪]有考慮到形狀。”而人類主要通過形狀來識別物體。研究人員懷疑計算機網(wǎng)絡(luò)使用了一種不同的方法。 在第二個實驗中,心理學(xué)家向VGG-19和另一個名為AlexNet的深度學(xué)習(xí)網(wǎng)絡(luò)展示了玻璃雕像的圖像。這兩個深度學(xué)習(xí)網(wǎng)絡(luò)都經(jīng)過訓(xùn)練,可以使用名為ImageNet的圖像數(shù)據(jù)庫識別對象。然而,兩者的表現(xiàn)都很差,都無法識別這些玻璃雕像。VGG-19和AlexNet都沒有正確地識別出這些雕像并將正確答案作為首選。在這兩個網(wǎng)絡(luò)中,一尊大象雕像被認(rèn)為是大象的幾率幾乎為0%。大多數(shù)排在前列的回答都讓研究人員感到困惑,比如VGG-19認(rèn)為“鵝”是“網(wǎng)站”,認(rèn)為“北極熊”是“開罐器”。平均而言,AlexNet在給出的1000個選項中把正確答案排在第328位?!皺C器犯的錯誤和人類非常不同?!北R說。 在第三個實驗中,研究人員向VGG-19和AlexNet展示了40幅線條為黑色,底色為白色的圖片。結(jié)果顯示,深度學(xué)習(xí)網(wǎng)絡(luò)在識別蝴蝶、飛機和香蕉等物品方面做得依舊很差。 在第四個實驗中,研究人員向這兩個深度學(xué)習(xí)網(wǎng)絡(luò)展示了40幅純黑色的圖像。此次,對于黑色圖像,深度學(xué)習(xí)網(wǎng)絡(luò)的表現(xiàn)有了進步,有大約20幅圖片的前五個選項中出現(xiàn)了正確答案。例如,VGG-19認(rèn)為算盤是算盤的幾率為99.99%,大炮是大炮的幾率為61%。相比之下,VGG-19和AlexNet都認(rèn)為白色錘子(用黑色標(biāo)出)是錘子的概率小于1%。 研究人員認(rèn)為,深度學(xué)習(xí)網(wǎng)絡(luò)對黑色物體的處理要好得多,因為這些物體缺少Kellman所說的“內(nèi)部輪廓”——使機器迷惑的邊緣。 在實驗五中,研究人員打亂了圖像,使其更難被識別,但他們保留了這些物體的碎片。對于人類來說,通過這些碎片識別出原始物體非常困難。研究人員選擇了VGG-19最初識別成功的6張圖像,結(jié)果這次VGG-19成功地識別出了6張圖片中的5張。 作為第五項實驗的一部分,研究人員還測試了加州大學(xué)洛杉磯分校的本科生,向這10名學(xué)生展示了黑色輪廓的物體——其中一些被打亂了,難以辨認(rèn);一些沒有被打亂。觀察時間也被區(qū)分為一秒鐘和想看多久就看多久。在只能看一秒鐘的情況下,學(xué)生們正確識別出了92%的未被打亂的物體和23%的被打亂的物體。當(dāng)學(xué)生們想看多久就看多久時,他們正確識別出未被打亂物體的幾率為97%,識別出被打亂物體的幾率則為37%。 由此,心理學(xué)家得出結(jié)論:人類關(guān)注于物體的整個輪廓,而人工智能網(wǎng)絡(luò)則可以識別物體的碎片。 Kellman 說:“這項研究表明,在不考慮形狀的情況下,深度學(xué)習(xí)網(wǎng)絡(luò)能夠從訓(xùn)練過的圖像中得到正確的答案。”“對人類來說,整體形狀是物體識別的首要條件,而通過整體形狀識別圖像似乎根本不在這些深度學(xué)習(xí)網(wǎng)絡(luò)的考慮之中?!?/p> 編譯:Max 審稿:alone 責(zé)編:張夢 |
|
|