|
第一次睜眼的時候,我還在娘胎,仿佛看到了一片紅色,然后我又繼續(xù)睡了;第二次睜眼時,已是出院的時候。我被母親抱著坐在三輪車上,我看到一位白大褂醫(yī)生站在一個拱形的門前向我們招手。 人的記憶是非常奇妙的??赡苡行r候記憶是先存儲,再被自己重新分析的。也可能完全是錯亂不可靠的,但通過不斷的心理暗示后,結(jié)果自己都信了,如同引文中的一樣。未出生的胎兒怎么會看到顏色,又知道顏色是哪種呢? 不過新生兒的視力剛開始時,確實能看到的也就是一片完全模糊不清的世界。原因有兩個,一是眼睛的發(fā)育雖然已經(jīng)基本完成,但眼球前后直徑仍較短,晶狀體的調(diào)節(jié)功能還沒達(dá)到最優(yōu),視力只有成人的三十分之一,視角只有45度。二是大腦在此時還處在一個剛買回來的電腦主機狀態(tài),除了安裝了后面會定期自動升級但幾乎不會藍(lán)屏的神奇操作系統(tǒng)外,應(yīng)用程序還很少,硬盤也幾乎是空的。因此,大腦還無法及時和準(zhǔn)確處理從視覺神經(jīng)元輸送過來的信息,也無法從模糊的視覺信息中生成更清晰的“圖像”。一切皆在學(xué)習(xí)的初級階段。另外,人類的新生兒剛出生時是沒有行動能力的。比如新生兒脖子的力量連頭都撐不起,更不用說轉(zhuǎn)動了。新生兒的四肢也根本不能支持其獨立行動。這些都使得新生兒在剛出生時,只能看到、聽到、學(xué)習(xí)到有限的信息。 發(fā)育到1個月左右時,聽覺基本就發(fā)育成熟了,但視力仍然處在近視階段。新生兒能看清物體的距離最多15到30厘米,而能集中注意力觀察的時間不超過5秒。3到4個月后,能看清的距離延長到75厘米,平均視力仍僅為0.1。新生兒也能控制自己的頭的轉(zhuǎn)動了,所以,可學(xué)習(xí)的信息量長了不少。據(jù)統(tǒng)計,一般到6-8個月后,新生兒的視力才會和大人一樣,能基本看清楚。但看到的內(nèi)容,從已知的文獻(xiàn)來看,會如同引子中看到的白大褂一樣,只是一些外在輪廓的印象。正常情況下,兒童的視力在5周歲時發(fā)育完全,視力達(dá)到1.0或以上。 從進(jìn)化角度來看,如果新生兒是獨立在野外成長,這么緩慢的視力發(fā)育似乎不符合優(yōu)勝劣汰原則的。作為對比,小鹿生下來幾小時內(nèi)就得睜開眼睛、學(xué)會走路。所幸地是,與小鹿不同,新生兒的父母庇護(hù)要強大得多,所以不會立刻走路、眼睛一片花白也沒關(guān)系。那么,這種拼爹式的視覺發(fā)育對人的智能有何益處呢? 當(dāng)新生兒最初的視力非常弱時,多數(shù)情況下能看到的只有物體的整體結(jié)構(gòu),對細(xì)節(jié)的抓取和記憶能力則還不具備。同時,大腦的視覺中樞系統(tǒng)在建構(gòu)的過程中,對相同目標(biāo)的反復(fù)學(xué)習(xí)和再認(rèn)識,應(yīng)該多會以最初模糊知覺形成的認(rèn)知原型為基礎(chǔ)來提升,而不應(yīng)建立在對先前的經(jīng)驗的全盤否定上。隨著視力的提高和大腦發(fā)育的繼續(xù)完善,大腦會逐漸豐富各個認(rèn)知原型的細(xì)節(jié),從而獲得對目標(biāo)粒度更豐富的認(rèn)識,直至穩(wěn)定。這一視覺發(fā)育過或多或少與認(rèn)知心理學(xué)中常被提及的大范圍優(yōu)先理論相關(guān),也與計算機視覺中常常用到的由粗到細(xì)(Coarse-to-fine)框架很相似。 一、異曲同工:由粗到細(xì)與大范圍優(yōu)先 與近代知覺研究中占統(tǒng)治地位、強調(diào)視知覺過程是從局部到整體的初期特征分析的理論不同,“大范圍優(yōu)先”假設(shè)強調(diào)全局特征的認(rèn)知要優(yōu)于局部特征,最早是Navon于1977年提出來的[1, 2] 。直觀來說,就是“先看到森林,再看到樹”。其觀點通過一組認(rèn)知實驗進(jìn)行了驗證。粗略來講,他將若干小的字母拼成一個大的字母,大小字母可以相同或不同,如圖1。通過測試者對大小字母辨別反應(yīng)時間的判斷,他發(fā)現(xiàn)在多數(shù)情況下,辨識大字母的反應(yīng)時(Response Time)要短于小字母。盡管在實驗細(xì)節(jié)上,后來的研究形成了諸多的變化和新的發(fā)現(xiàn), 但并沒有完全推翻Navon強調(diào)的“整體優(yōu)先”觀點。而對此現(xiàn)象的解釋,眾說紛紜。如有借鑒格式塔心理學(xué)的對稱性、平行性、封閉性來解釋整體認(rèn)知性質(zhì)的,而中科院院士、著名認(rèn)知科學(xué)家陳霖也提出了“大范圍優(yōu)先”的拓?fù)湫再|(zhì)初期知覺理論[3]。但因為某些情況下小范圍也具有這種性質(zhì),目前似乎還沒有令大家都滿意的答案。 圖1 Navon關(guān)于大范圍優(yōu)先假設(shè)使用的復(fù)合刺激圖形 [2] 不過,如果從視覺發(fā)育的角度來看,這種大范圍優(yōu)先的策略也許多少與人類的視覺發(fā)育機理有些關(guān)系。因為最初的弱視,人類只能看清楚目標(biāo)的大致結(jié)構(gòu)或輪廓,因此必須要根據(jù)這些結(jié)構(gòu)或輪廓來形成對目標(biāo)的辨識。試想當(dāng)人類看到捕食者如豹子的時候,只根據(jù)輪廓這一整體特征就能快速辨識豹子,顯然更便于人類避免危險。如果等他仔細(xì)把豹子的各項局部特征如紋理、臉部特征、毛發(fā)長短等分析完成,再決定是否為豹子和要逃跑時,可能已悔之晚矣。另外,如果一開始視力就是非常完善的,一來剛混沌初開的大腦可能會因接受的信息太多,無法處理,導(dǎo)致宕機;二來只看輪廓,大腦分析消耗的計算資源和能量都小,因此形成辨識的時間會短,更有利于生存。因此,大范圍優(yōu)先的策略能幫助形成對目標(biāo)的快速判斷,而不需要大腦進(jìn)行不必要的、深層次的分析。 無獨有偶,計算機視覺或人工智能領(lǐng)域也有著異曲同工之妙的策略。 一是由粗到細(xì)的策略。這一策略最早見于90年代初期的人臉檢測算法中。那時,CPU剛剛到486的水平,想玩游戲都得拿個容量1.2M的8寸軟盤去拷貝,和現(xiàn)在算力和容量都很強大的計算機相比簡直就弱爆了。如果人臉圖像分辨率稍微高點,就很難做到高效檢測。要解決這一問題,Yang和Huang提出了由粗到細(xì)的方案[4]。具體來說,就是先把人臉圖像大小縮小64倍(長寬各8倍,也稱為降采樣)??s小后的圖像直接放大回原圖大小的效果就是馬賽克了。雖然馬賽克的圖像,人看也不清楚內(nèi)容是什么,但從圖像像素光強的分布來看,可以考慮規(guī)則“人臉的中心部位有四個格子(Cell)具有基本一致的強度”。這一規(guī)則可以用于初篩潛在的人臉區(qū)域。再根據(jù)人臉上眼睛和嘴巴的固有關(guān)系,可以繼續(xù)做進(jìn)一步的篩查。完成候選區(qū)域篩查后,再回到原始圖像上,從選好的候選區(qū)域中根據(jù)原始像素來查找真正的人臉。由于降采樣這一步將人臉縮小了64倍,且規(guī)則的搜索不需要執(zhí)行復(fù)雜的浮點計算。于是,這一由粗到細(xì)的人臉檢測算法,在當(dāng)時算力很弱的環(huán)境下,也能非常高效地完成人臉檢測任務(wù)。如果不考慮人類視力發(fā)育需要的時間,由粗到細(xì)和人的視覺感知中的整體到局部的策略是類似的,也可以看成是一種結(jié)構(gòu)或大范圍優(yōu)先的策略。 圖2: 由粗到細(xì)的人臉檢測算法;左:子采樣效果;右:人臉灰度規(guī)則[4] 另一個相關(guān)的是金字塔策略。眾說周知,金字塔在能量收集上有著神奇的能量。所以,計算機視覺和圖像處理領(lǐng)域的科學(xué)家們也喜歡在處理計算機視覺任務(wù)時,用它能來收集比單幅圖像更多的能量信息。比如,在做圖像壓縮時,大家喜歡把圖像縮小一倍,然后再用原圖減去縮小后插值放大的圖,得到圖像的殘差信息。再把縮小的圖繼續(xù)縮小一倍,然后與之前縮小的圖相減,得到縮小圖像的殘差信息。迭代下去后,可以得到一組持續(xù)縮小的殘差圖像。因為每次圖像都縮小二倍,疊起來看的話,就像是一個金字塔。由于殘差的像素灰度或強度值往往比較集中,所以就比較容易找到短的編碼來刻畫這些頻繁出現(xiàn)的值,因而能幫助提高壓縮編碼的效率[5]。還有將金字塔策略用于高階特征抽取的,如深度學(xué)習(xí)之前流行的SIFT(Scale-Invariance Feature Transform)算子[6]和隨后改進(jìn)了速度的SURF(Speeded Up Robust Features)算子[7]。這兩種算子都采用不同尺度的高斯(Gaussian)核來模糊圖像,以提取不同尺度的特征。SIFT算子是在金字塔式的圖像上提取特征,而SURF則把特征提取算子本身做成了金字塔。盡管沒有涉及大范圍優(yōu)先的思想,但這兩種多尺度的特征提取技術(shù)或多或少體現(xiàn)了由粗到細(xì)的思想。 即使現(xiàn)在人工智能中很流行的生成式對抗深度網(wǎng)絡(luò),也不免俗套地將圖像金字塔技術(shù)嫁接在該網(wǎng)絡(luò)上,提出了金字塔生成對抗網(wǎng),以便能生成更為精細(xì)的圖像[8]。 這些都表明了由粗到細(xì)、整體與局部特征相結(jié)合、大范圍優(yōu)先的策略,在人工智能的多數(shù)相關(guān)應(yīng)用中是有實際意義的。 圖3:計算機視覺、圖像處理中的金字塔策略;(a):圖像壓縮[5];(b):SIFT算子[6];(c):SURF算子[7];(d):金字塔生成對抗網(wǎng)[8] 二、由細(xì)到粗和模糊的藝術(shù) 模糊到清晰是一種由粗到細(xì),體現(xiàn)了大范圍優(yōu)先的思想。但如果反過來,從清晰到模糊,有時候會帶來一些奇妙的錯覺。人視覺的模糊程度不僅會影響認(rèn)知,也會影響人對圖像內(nèi)容的評判,如圖4左。這張圖中有兩個人物,愛因斯坦和瑪麗蓮·夢露。不近視的能看到愛因斯坦,近視的戴眼鏡看到的是愛因斯坦,取下眼鏡看到的是夢露。而圖4右是一幅滿是馬賽克的圖片。近視眼的同學(xué)不妨把眼鏡取下來,仔細(xì)看看,是不是感覺圖像變清楚了? 圖4 左:愛因斯坦/瑪麗蓮·夢露;右:馬賽克圖像(網(wǎng)圖) 這都是因為取下眼鏡后,人的大腦會對視覺系統(tǒng)輸入的信息進(jìn)行自動平滑。平滑后的圖像就沒有原馬賽克圖像那么明顯的邊緣,結(jié)果視覺上反而會覺得更清楚了。 這種平滑不僅能讓人類視覺產(chǎn)生“清晰”的錯覺,有的時候它還能幫助提升目標(biāo)識別的性能。舉例來說,根據(jù)行人走路姿勢來識別行人身份的研究。我們曾經(jīng)發(fā)現(xiàn),當(dāng)把行人步態(tài)輪廓圖縮小4倍再放大時,其識別效果反而會比直接在原圖上好。后來我也和幾個朋友交流過,他們發(fā)現(xiàn)在人臉識別中也存在類似的現(xiàn)象。為什么把圖像縮小再放大后,會幫助提升性能呢?我們給出的一種解釋是,原始步態(tài)或人臉圖像包含的噪聲相對較多,縮小再放大需要經(jīng)過一個插值平滑過程。有可能這個平滑過程幫助去除了圖像中影響判別的噪聲,因此導(dǎo)致識別性能提升了。但我們也只是猜想,最終也沒有誰認(rèn)真從理論上去分析過真正的原因。 除此以外,模糊的視覺能讓人從不同的視角去看世界,它對藝術(shù)也是有重要貢獻(xiàn)。據(jù)說法國印象派開創(chuàng)先河的領(lǐng)袖式人物莫奈是近視眼,于是畫出來的油畫都比較模糊。雖然模糊,卻有不同的效果。如果摘下眼鏡看他們的畫,如印象派發(fā)展史上有領(lǐng)導(dǎo)地位的人物之一、法國畫家皮埃爾-奧古斯特·雷諾阿于1876年創(chuàng)作的《煎餅?zāi)シ坏奈钑?圖5),就能從平面圖像中感受到強烈的立體感。有人戲稱,印象派是專屬近視眼的獨特風(fēng)景。 圖5 《煎餅?zāi)シ坏奈钑?/span> 不難看出,視覺的發(fā)育是個有趣的過程。他影響了人的視知覺系統(tǒng),影響了人在不斷認(rèn)識、學(xué)習(xí)和記憶事物的策略,甚至于大腦視覺中樞對原型的存儲方式。他與認(rèn)知心理學(xué)關(guān)心的大范圍優(yōu)先性可能也存在某種關(guān)聯(lián)。理解視覺的發(fā)育,也許就能更好地理解人工智能了。 參考文獻(xiàn): 1. Navon D. Forest Before Trees: The Precedence of Global Features in Visual Perception. Cognitive Psychology, 1977, 9(3): 353-383. 2. 韓世輝, 陳霖. 整體性質(zhì)和局部性質(zhì)的關(guān)系 -- 大范圍優(yōu)先性. 心理學(xué)動態(tài), 1996, 4(1): 36-41. 3. Chen L. Topological Structure in Visual Perception. Science, 1982, 218(12):699-700. 4. Yang G., Huang T. Human face detection in a complex background. In Pattern Recognition, 27(1):53 – 63 (1994). 5. Gonzalez R. C., Woods E. R., Digital Image Processing (Third Edition). 2017. 電子工業(yè)出版社 6. Lowe D.G. Distinctive Image Features from Scale-Invariant Keypoints. International Journal of Computer Vision, 2004, 60(2): 91-110. 7. Bay H., Tuytelaars T., Van Gool L. SURF: Speeded Up Robust Features. ECCV 2006. 9. Zhang J., Pu J., Chen C., Fleischer R. Low-resolution Gait Recognition. IEEE Transactions on Systems, Man, and Cybernetics, Part B: Cybernetics, 40(4): 986-996, 2010. 張軍平 2018年9月30日星期日 文章來源:張軍平 |
|
|