电竞比分网-中国电竞赛事及体育赛事平台

分享

MIT科學(xué)家顛覆現(xiàn)有視覺訓(xùn)練模型:過去的模型訓(xùn)練順序反了

 dsye 2020-04-19

一睜開眼睛,我們立刻就能感知到周圍環(huán)境的各種細(xì)節(jié)。大腦是如何如此迅速地對(duì)周圍這些豐富而詳細(xì)世界進(jìn)行建構(gòu)的,這是機(jī)器視覺研究的終極問題之一。

已經(jīng)有不少科學(xué)家們?cè)噲D用計(jì)算機(jī)視覺模型來模擬這一現(xiàn)象,在此之前,最先進(jìn)的模型也只能執(zhí)行簡(jiǎn)單的任務(wù),比如在雜亂的背景下挑選出一個(gè)物體或一張臉。

MIT科學(xué)家顛覆現(xiàn)有視覺訓(xùn)練模型:過去的模型訓(xùn)練順序反了

不過,由麻省理工學(xué)院認(rèn)知科學(xué)家領(lǐng)導(dǎo)的一個(gè)科研團(tuán)隊(duì)已經(jīng)開發(fā)出了一種叫高效逆圖(EIG)的模型,采用和以往計(jì)算機(jī)圖形程序生成二維圖像相反的計(jì)算步驟。研究人員稱,這種模型與非人類靈長(zhǎng)類動(dòng)物大腦中人臉識(shí)別區(qū)域的電流運(yùn)動(dòng)記錄相似,表明它可能和靈長(zhǎng)類動(dòng)物的視覺系統(tǒng)大致相同。

這一模型背后的理念實(shí)際上并不新鮮。1個(gè)多世紀(jì)以前,物理學(xué)家、哲學(xué)家赫爾曼·馮·赫姆霍爾茲就提出過大腦通過逆轉(zhuǎn)圖像形成的過程來創(chuàng)造刻畫世界的想法。

他假設(shè)視覺系統(tǒng)中有一個(gè)圖像發(fā)生器,比如說可以用來產(chǎn)生我們?cè)趬?mèng)中看到的面孔。反向運(yùn)行這個(gè)信號(hào)發(fā)生器可以讓大腦從圖像中逆向工作,并推斷出什么樣的面孔或物體會(huì)產(chǎn)生這樣的圖像。

之前的問題在于,大腦是如何快速進(jìn)行這一過程的?

這一過程存在多個(gè)數(shù)據(jù)迭代周期,大腦只需100-200毫秒就能完成,而最先進(jìn)的視覺算法也需要比這長(zhǎng)得多的時(shí)間。

目前最可行的解釋是,大腦可能存在幾個(gè)神經(jīng)處理層,通過其層次有序的前饋實(shí)現(xiàn)的。

新的模型參照了這一點(diǎn)。其訓(xùn)練和傳統(tǒng)的深度學(xué)習(xí)算法訓(xùn)練——讓算法學(xué)習(xí)添加了各種數(shù)據(jù)標(biāo)簽的人臉——相反,新模型反映的是算法內(nèi)部對(duì)于這些人臉的看法,也就是算法給這些人臉打上了什么標(biāo)簽。

也就是說,和過去從3D轉(zhuǎn)2D的訓(xùn)練模型不同,新模型先給算法提供2D圖形數(shù)據(jù),再向其添加諸如紋理、曲率和光線等特征,構(gòu)成一種“2.5D”圖形。這種圖形首先會(huì)從某些特定的角度構(gòu)建面部數(shù)據(jù),隨著各角度的覆蓋,最終形成一個(gè)3D圖形。

研究人員現(xiàn)在計(jì)劃在其他圖像上繼續(xù)測(cè)試這種建模方法,包括那些不是人臉的物體,以研究逆圖形是否也可以解釋大腦如何感知其他類型的場(chǎng)景。此外,他們認(rèn)為,將這種方法應(yīng)用于計(jì)算機(jī)視覺,可能會(huì)帶來性能更好的AI系統(tǒng)。

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多