MIT科學(xué)家顛覆現(xiàn)有視覺訓(xùn)練模型：過去的模型訓(xùn)練順序反了

dsye 2020-04-19

展開全文

一睜開眼睛，我們立刻就能感知到周圍環(huán)境的各種細(xì)節(jié)。大腦是如何如此迅速地對(duì)周圍這些豐富而詳細(xì)世界進(jìn)行建構(gòu)的，這是機(jī)器視覺研究的終極問題之一。

已經(jīng)有不少科學(xué)家們?cè)噲D用計(jì)算機(jī)視覺模型來模擬這一現(xiàn)象，在此之前，最先進(jìn)的模型也只能執(zhí)行簡(jiǎn)單的任務(wù)，比如在雜亂的背景下挑選出一個(gè)物體或一張臉。

MIT科學(xué)家顛覆現(xiàn)有視覺訓(xùn)練模型：過去的模型訓(xùn)練順序反了

不過，由麻省理工學(xué)院認(rèn)知科學(xué)家領(lǐng)導(dǎo)的一個(gè)科研團(tuán)隊(duì)已經(jīng)開發(fā)出了一種叫高效逆圖(EIG)的模型，采用和以往計(jì)算機(jī)圖形程序生成二維圖像相反的計(jì)算步驟。研究人員稱，這種模型與非人類靈長(zhǎng)類動(dòng)物大腦中人臉識(shí)別區(qū)域的電流運(yùn)動(dòng)記錄相似，表明它可能和靈長(zhǎng)類動(dòng)物的視覺系統(tǒng)大致相同。

這一模型背后的理念實(shí)際上并不新鮮。1個(gè)多世紀(jì)以前，物理學(xué)家、哲學(xué)家赫爾曼·馮·赫姆霍爾茲就提出過大腦通過逆轉(zhuǎn)圖像形成的過程來創(chuàng)造刻畫世界的想法。

他假設(shè)視覺系統(tǒng)中有一個(gè)圖像發(fā)生器，比如說可以用來產(chǎn)生我們?cè)趬?mèng)中看到的面孔。反向運(yùn)行這個(gè)信號(hào)發(fā)生器可以讓大腦從圖像中逆向工作，并推斷出什么樣的面孔或物體會(huì)產(chǎn)生這樣的圖像。

之前的問題在于，大腦是如何快速進(jìn)行這一過程的?

這一過程存在多個(gè)數(shù)據(jù)迭代周期，大腦只需100-200毫秒就能完成，而最先進(jìn)的視覺算法也需要比這長(zhǎng)得多的時(shí)間。

目前最可行的解釋是，大腦可能存在幾個(gè)神經(jīng)處理層，通過其層次有序的前饋實(shí)現(xiàn)的。

新的模型參照了這一點(diǎn)。其訓(xùn)練和傳統(tǒng)的深度學(xué)習(xí)算法訓(xùn)練——讓算法學(xué)習(xí)添加了各種數(shù)據(jù)標(biāo)簽的人臉——相反，新模型反映的是算法內(nèi)部對(duì)于這些人臉的看法，也就是算法給這些人臉打上了什么標(biāo)簽。

也就是說，和過去從3D轉(zhuǎn)2D的訓(xùn)練模型不同，新模型先給算法提供2D圖形數(shù)據(jù)，再向其添加諸如紋理、曲率和光線等特征，構(gòu)成一種“2.5D”圖形。這種圖形首先會(huì)從某些特定的角度構(gòu)建面部數(shù)據(jù)，隨著各角度的覆蓋，最終形成一個(gè)3D圖形。

研究人員現(xiàn)在計(jì)劃在其他圖像上繼續(xù)測(cè)試這種建模方法，包括那些不是人臉的物體，以研究逆圖形是否也可以解釋大腦如何感知其他類型的場(chǎng)景。此外，他們認(rèn)為，將這種方法應(yīng)用于計(jì)算機(jī)視覺，可能會(huì)帶來性能更好的AI系統(tǒng)。

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自： dsye > 《待分類》

舉報(bào)/認(rèn)領(lǐng)