电竞比分网-中国电竞赛事及体育赛事平台

分享

顛覆常識(shí)!深度神經(jīng)網(wǎng)絡(luò)并不是通過(guò)形狀來(lái)識(shí)別物體的

 taotao_2016 2019-05-27
作者:Robert Geirhos
編譯:ronghuaiyang

導(dǎo)讀

和人類(lèi)不同,AI物體識(shí)別靠的是小的細(xì)節(jié),而不是圖像的邊界,但是總是有辦法來(lái)彌補(bǔ)這個(gè)差別的!

看看下面的圖片,你看到了什么動(dòng)物?

顛覆常識(shí)!深度神經(jīng)網(wǎng)絡(luò)并不是通過(guò)形狀來(lái)識(shí)別物體的

在上面的圖片中,你可能很容易就能認(rèn)出一只貓。下面是一個(gè)頂尖的深度學(xué)習(xí)算法所看到的:一頭“大象”!

這個(gè)故事是關(guān)于為什么人工神經(jīng)網(wǎng)絡(luò)在人類(lèi)看到貓的地方看到大象。此外,這是關(guān)于我們?nèi)绾慰创疃壬窠?jīng)網(wǎng)絡(luò)中的物體識(shí)別的范式轉(zhuǎn)變——以及我們?nèi)绾卫眠@一視角來(lái)推進(jìn)神經(jīng)網(wǎng)絡(luò)。這是基于我們最近在ICLR 2019(一個(gè)重要的深度學(xué)習(xí)會(huì)議)上發(fā)表的論文。

神經(jīng)網(wǎng)絡(luò)如何識(shí)別貓?一個(gè)被廣泛接受的答案是:通過(guò)檢測(cè)它的形狀。這個(gè)假說(shuō)的證據(jù)來(lái)自可視化技術(shù)DeconvNet(下面的例子),這表明在不同的處理階段(稱(chēng)為層),網(wǎng)絡(luò)在一個(gè)圖像尋求識(shí)別越來(lái)越大的模式,從第一層簡(jiǎn)單的邊緣和輪廓到更復(fù)雜的形狀,如汽車(chē)輪子,直到整個(gè)物體,比如說(shuō)一輛車(chē),很容易被檢測(cè)到。

顛覆常識(shí)!深度神經(jīng)網(wǎng)絡(luò)并不是通過(guò)形狀來(lái)識(shí)別物體的

神經(jīng)網(wǎng)絡(luò)識(shí)別出的不同形狀:從前幾層的小模式到復(fù)雜的形狀(汽車(chē)輪子,第三層)最后到物體(汽車(chē)、第5層)

這種直觀的解釋已經(jīng)進(jìn)入了常識(shí)的狀態(tài)。現(xiàn)代深度學(xué)習(xí)經(jīng)典的教科書(shū)如Ian Goodfellow的“Deep Learning”(顯式引用shape-based可視化技術(shù))當(dāng)解釋深度學(xué)習(xí)是如何工作的:

“該網(wǎng)絡(luò)獲得與每個(gè)類(lèi)別相關(guān)的形狀類(lèi)型的復(fù)雜知識(shí)。[…]

高級(jí)單元似乎可以學(xué)習(xí)自然圖像中出現(xiàn)的形狀的表征,比如人臉、人體、動(dòng)物、自然場(chǎng)景、建筑和汽車(chē)?!?/p>

但是有一個(gè)問(wèn)題:一些最重要的和廣泛使用的可視化技術(shù),包括DeconvNet都被誤導(dǎo)了:他們不是揭示網(wǎng)絡(luò)在圖像中找什么,他們僅僅是對(duì)圖像的部分進(jìn)行重建,也就是說(shuō),那些很酷的人類(lèi)可解釋性可視化和網(wǎng)絡(luò)是如何做決定的其實(shí)沒(méi)什么關(guān)系。

這幾乎沒(méi)有為形狀假說(shuō)留下任何證據(jù)。我們是否需要修正我們對(duì)神經(jīng)網(wǎng)絡(luò)如何識(shí)別物體的看法呢?

如果形狀假說(shuō)不是唯一的解釋呢?除了“形狀”之外,物體通常還有或多或少與眾不同的“顏色”、“大小”和“紋理”。所有這些因素都可以利用神經(jīng)網(wǎng)絡(luò)來(lái)識(shí)別。雖然顏色和尺寸通常不是特定物體類(lèi)別所獨(dú)有的,但如果我們觀察小區(qū)域,幾乎所有物體都具有類(lèi)似的紋理元素——甚至汽車(chē),例如,輪胎輪廓或金屬涂層。

事實(shí)上,我們知道神經(jīng)網(wǎng)絡(luò)碰巧有非常好的紋理表示,不需要經(jīng)過(guò)訓(xùn)練就有了。例如,在做 style transfer時(shí),這一點(diǎn)就很明顯了。在這一個(gè)非常牛逼的圖像建模技術(shù)中,使用深度神經(jīng)網(wǎng)絡(luò)從一張圖像中提取紋理信息,例如繪畫(huà)風(fēng)格。然后將這種樣式應(yīng)用于第二幅圖像,使人們能夠以著名畫(huà)家的風(fēng)格“繪制”照片。

顛覆常識(shí)!深度神經(jīng)網(wǎng)絡(luò)并不是通過(guò)形狀來(lái)識(shí)別物體的

左:任意照片,中:style=紋理圖像(梵高的《星夜》),右:用當(dāng)前風(fēng)格繪制出來(lái)的照片

神經(jīng)網(wǎng)絡(luò)在只接受物體識(shí)別訓(xùn)練的情況下,仍能獲得如此強(qiáng)大的圖像紋理表示,這一事實(shí)表明,兩者之間有著更深層次的聯(lián)系。這是我們所說(shuō)的“紋理假說(shuō)”的第一個(gè)證據(jù):紋理,而不是物體的形狀,是人工智能物體識(shí)別中最重要的方面。

神經(jīng)網(wǎng)絡(luò)如何分類(lèi)圖像:基于形狀(通常假設(shè))或紋理?為了解決這個(gè)爭(zhēng)論,我想出了一個(gè)簡(jiǎn)單的實(shí)驗(yàn)來(lái)找出哪個(gè)解釋更可信。實(shí)驗(yàn)是基于如下圖所示的圖像,其中的形狀和紋理為截然不同的物體類(lèi)別提供了證據(jù):

顛覆常識(shí)!深度神經(jīng)網(wǎng)絡(luò)并不是通過(guò)形狀來(lái)識(shí)別物體的

大象紋理的貓|時(shí)鐘紋理的汽車(chē)|瓶子紋理的熊

在這三個(gè)示例圖像中,紋理和形狀不再屬于同一類(lèi)別。我們用風(fēng)格轉(zhuǎn)換來(lái)創(chuàng)造它們:如果輸入的是一張大象皮膚的照片,而不是一幅畫(huà),那么用梵高風(fēng)格的照片來(lái)“畫(huà)”一只貓也可以用大象的紋理來(lái)創(chuàng)造一只貓。

使用這樣的圖像,我們現(xiàn)在可以通過(guò)觀察來(lái)自深度神經(jīng)網(wǎng)絡(luò)的分類(lèi)決策來(lái)研究形狀或紋理偏差(以及人類(lèi)的比較)。考慮一下這個(gè)類(lèi)比:我們想知道某人是說(shuō)阿拉伯語(yǔ)還是漢語(yǔ),但我們不被允許和他們交談。我們能做什么?一種可能是拿一張紙,用阿拉伯語(yǔ)寫(xiě)“向左走”,在它旁邊用漢語(yǔ)寫(xiě)“向右走”,然后簡(jiǎn)單地觀察這個(gè)人會(huì)向右走還是向左走。類(lèi)似地,如果我們給深度神經(jīng)網(wǎng)絡(luò)輸入一張形狀和紋理沖突的圖像,我們可以通過(guò)觀察是神經(jīng)網(wǎng)絡(luò)是利用形狀還是紋理識(shí)別的物體(即,是否它認(rèn)為大象紋理的貓是一只貓還是一只大象),來(lái)找出神經(jīng)網(wǎng)絡(luò)說(shuō)的是哪種“語(yǔ)言”。

這正是我們所做的。我們進(jìn)行了一系列包括近100名人類(lèi)觀察者和許多廣泛使用的深度神經(jīng)網(wǎng)絡(luò)(AlexNet, VGG-16, GoogLeNet, ResNet-50, ResNet-152, DenseNet-121, SqueezeNet1_1)在內(nèi)的9個(gè)實(shí)驗(yàn),向他們展示了數(shù)百幅形狀和紋理沖突的圖像。結(jié)果不容置疑:我們發(fā)現(xiàn)了支持紋理解釋的驚人證據(jù)!帶象皮紋理的貓對(duì)DNN來(lái)說(shuō)是大象,對(duì)人類(lèi)來(lái)說(shuō)仍然是貓。一輛帶有時(shí)鐘紋理的汽車(chē)對(duì)DNN來(lái)說(shuō)就是時(shí)鐘,熊具有瓶子的表面特征就被識(shí)別為一個(gè)瓶子。目前用于物體識(shí)別的深度學(xué)習(xí)技術(shù)主要依賴(lài)于紋理,而不是物體的形狀。

下面是ResNet-50的一個(gè)結(jié)果,這是一個(gè)常用的深度神經(jīng)網(wǎng)絡(luò),顯示了它的前三個(gè)“猜測(cè)”(分類(lèi)決策)的百分比,如下圖所示:

顛覆常識(shí)!深度神經(jīng)網(wǎng)絡(luò)并不是通過(guò)形狀來(lái)識(shí)別物體的

正如你所看到的,有象皮的貓是根據(jù)紋理來(lái)分類(lèi)的,而不是根據(jù)它的形狀來(lái)分類(lèi)的。目前的人工智能物體識(shí)別似乎與我們之前設(shè)想的有很大不同,與人類(lèi)識(shí)別物體的方式也有根本不同。

我們能做些什么嗎?我們能讓人工智能物體識(shí)別更像人類(lèi)嗎?我們能教它使用形狀而不是紋理嗎?

答案是肯定的。深度神經(jīng)網(wǎng)絡(luò),當(dāng)學(xué)習(xí)分類(lèi)物體時(shí),利用任何有用的信息。在標(biāo)準(zhǔn)的圖像中,紋理揭示了很多關(guān)于物體身份的信息,因此可能根本不需要學(xué)習(xí)很多關(guān)于對(duì)物體形狀的知識(shí)。如果輪胎的輪廓和光滑的表面已經(jīng)暴露了物體的身份,為什么還要檢查形狀是否匹配呢?這就是為什么我們?cè)O(shè)計(jì)了一種新的方法來(lái)教神經(jīng)網(wǎng)絡(luò)專(zhuān)注于形狀而不是紋理,希望消除它們的紋理偏見(jiàn)。再次使用風(fēng)格遷移,可以將圖像的原始紋理替換為任意不同的紋理(參見(jiàn)下圖中的示例)。在生成的圖像中,紋理不再提供信息,因此物體的形狀是惟一有用的信息。如果一個(gè)深度神經(jīng)網(wǎng)絡(luò)想要從這個(gè)新的訓(xùn)練數(shù)據(jù)集中對(duì)物體進(jìn)行分類(lèi),它現(xiàn)在需要學(xué)習(xí)形狀。

顛覆常識(shí)!深度神經(jīng)網(wǎng)絡(luò)并不是通過(guò)形狀來(lái)識(shí)別物體的

左:同時(shí)具有紋理和形狀信息的普通圖像|右:十個(gè)不同的任意紋理示例,但物體形狀相同。

在對(duì)成千上萬(wàn)張具有任意紋理的圖像進(jìn)行深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練后,我們發(fā)現(xiàn)它實(shí)際上獲得了形狀偏好,而不是對(duì)紋理的偏好!一只有著大象皮的貓現(xiàn)在被這個(gè)基于形狀的新網(wǎng)絡(luò)視為一只貓。此外,還有一些意外的好處。在識(shí)別標(biāo)準(zhǔn)圖像和定位圖像中的目標(biāo)方面,該網(wǎng)絡(luò)突然變得比正常訓(xùn)練的同類(lèi)網(wǎng)絡(luò)更好。強(qiáng)調(diào)類(lèi)人的、基于形狀的表示是多么有用。然而,我們最令人驚訝的發(fā)現(xiàn)是,它學(xué)會(huì)了如何處理帶噪聲的圖像(在現(xiàn)實(shí)世界中,這可能是雨雪后面的物體)—而且是前從未見(jiàn)過(guò)任何這些噪音模式!通過(guò)簡(jiǎn)單地關(guān)注物體的形狀而不是容易扭曲的紋理,這個(gè)基于形狀的網(wǎng)絡(luò)是第一個(gè)接近一般的,人類(lèi)水平的噪聲魯棒性的深度神經(jīng)網(wǎng)絡(luò)。

在人類(lèi)視覺(jué)感知和人工智能的十字路口,靈感可以來(lái)自這兩個(gè)領(lǐng)域。我們利用人類(lèi)視覺(jué)系統(tǒng)的知識(shí)及其對(duì)形狀的偏好來(lái)更好地理解深度神經(jīng)網(wǎng)絡(luò),我們發(fā)現(xiàn)它們主要使用紋理來(lái)分類(lèi)物體。這使得網(wǎng)絡(luò)的創(chuàng)建在許多不同的任務(wù)上更接近健壯的、類(lèi)人的性能。展望未來(lái),如果這個(gè)網(wǎng)絡(luò)更準(zhǔn)確地預(yù)測(cè)當(dāng)我們觀察物體的時(shí)候,大腦中的神經(jīng)元是如何“fire”的,這對(duì)更好地理解人類(lèi)視覺(jué)感知是非常有用的,在這個(gè)真正激動(dòng)人心的時(shí)代,來(lái)自人類(lèi)的視覺(jué)的靈感有潛力改善當(dāng)今人工智能技術(shù),人工智能一樣有能力推動(dòng)今天的視覺(jué)科學(xué)!

英文原文:https://blog./why-deep-learning-works-differently-than-we-thought-ec28823bdbc

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶(hù)發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶(hù) 評(píng)論公約

    類(lèi)似文章 更多