|
一睜開眼睛,我們立刻就能感知到周圍環(huán)境的各種細(xì)節(jié)。大腦是如何如此迅速地對(duì)周圍這些豐富而詳細(xì)世界進(jìn)行建構(gòu)的,這是機(jī)器視覺研究的終極問題之一。 已經(jīng)有不少科學(xué)家們?cè)噲D用計(jì)算機(jī)視覺模型來模擬這一現(xiàn)象,在此之前,最先進(jìn)的模型也只能執(zhí)行簡(jiǎn)單的任務(wù),比如在雜亂的背景下挑選出一個(gè)物體或一張臉。 不過,由麻省理工學(xué)院認(rèn)知科學(xué)家領(lǐng)導(dǎo)的一個(gè)科研團(tuán)隊(duì)已經(jīng)開發(fā)出了一種叫高效逆圖(EIG)的模型,采用和以往計(jì)算機(jī)圖形程序生成二維圖像相反的計(jì)算步驟。研究人員稱,這種模型與非人類靈長(zhǎng)類動(dòng)物大腦中人臉識(shí)別區(qū)域的電流運(yùn)動(dòng)記錄相似,表明它可能和靈長(zhǎng)類動(dòng)物的視覺系統(tǒng)大致相同。 這一模型背后的理念實(shí)際上并不新鮮。1個(gè)多世紀(jì)以前,物理學(xué)家、哲學(xué)家赫爾曼·馮·赫姆霍爾茲就提出過大腦通過逆轉(zhuǎn)圖像形成的過程來創(chuàng)造刻畫世界的想法。 他假設(shè)視覺系統(tǒng)中有一個(gè)圖像發(fā)生器,比如說可以用來產(chǎn)生我們?cè)趬?mèng)中看到的面孔。反向運(yùn)行這個(gè)信號(hào)發(fā)生器可以讓大腦從圖像中逆向工作,并推斷出什么樣的面孔或物體會(huì)產(chǎn)生這樣的圖像。 之前的問題在于,大腦是如何快速進(jìn)行這一過程的? 這一過程存在多個(gè)數(shù)據(jù)迭代周期,大腦只需100-200毫秒就能完成,而最先進(jìn)的視覺算法也需要比這長(zhǎng)得多的時(shí)間。 目前最可行的解釋是,大腦可能存在幾個(gè)神經(jīng)處理層,通過其層次有序的前饋實(shí)現(xiàn)的。 新的模型參照了這一點(diǎn)。其訓(xùn)練和傳統(tǒng)的深度學(xué)習(xí)算法訓(xùn)練——讓算法學(xué)習(xí)添加了各種數(shù)據(jù)標(biāo)簽的人臉——相反,新模型反映的是算法內(nèi)部對(duì)于這些人臉的看法,也就是算法給這些人臉打上了什么標(biāo)簽。 也就是說,和過去從3D轉(zhuǎn)2D的訓(xùn)練模型不同,新模型先給算法提供2D圖形數(shù)據(jù),再向其添加諸如紋理、曲率和光線等特征,構(gòu)成一種“2.5D”圖形。這種圖形首先會(huì)從某些特定的角度構(gòu)建面部數(shù)據(jù),隨著各角度的覆蓋,最終形成一個(gè)3D圖形。 研究人員現(xiàn)在計(jì)劃在其他圖像上繼續(xù)測(cè)試這種建模方法,包括那些不是人臉的物體,以研究逆圖形是否也可以解釋大腦如何感知其他類型的場(chǎng)景。此外,他們認(rèn)為,將這種方法應(yīng)用于計(jì)算機(jī)視覺,可能會(huì)帶來性能更好的AI系統(tǒng)。 |
|
|