|
tombone‘s blog 最近一直在update關于CVPR2013的感受,今天,他在博客中分享了 [CVPR 2013] Three Trending Computer Vision Research Areas。 我沒機會參加這樣的盛會,但是通過瀏覽今年CVPR錄用文章的列表,以及最近幾年頂級會議文章的趨勢,根據他總結的三個趨勢,我也談談我的看法。 1) RGB-D 數據的分析 幾年前的計算機視覺領域中,大部分關于目標檢測,識別的工作還都是基于2維圖像數據進行的,但是,人們越來越覺得,單純的顏色數據具有很大的歧義性,尤其是在目標的邊界附近,顏色相近的時候難以區(qū)分前景和背景。另外,遮擋對于目標跟蹤,識別也造成了很大的挑戰(zhàn),如果沒有深度信息,遮擋在很多時候是難以判斷的。然而,隨著Kinect的問世,低廉的售價讓獲取深度信息并與彩色圖像配準變得很容易。這樣,越來越多的研究就開始將中心放在具有深度信息的 2.5D數據上面。從2010年開始,美國的一些實驗室例如CMU的RI,到處都可以見到用Kinect做實驗的人,賓大的四旋翼飛行器也開始試著裝上kinect來進行輔助。這兩年,國內也有越來越多的人利用這一數據,進行重建,導航,識別等研究。 隨著新一代kinect的即將問世,加上Leap motion等類似產品的發(fā)展,相信RGB-D數據分析將會是以后室內場景中計算機視覺研究的重心。 H. Jiang and J. Xiao. A Linear Approach to Matching Cuboids in RGBD Images. In CVPR 2013. [pdf]
2) 中層patch的分析會是一個熱點 在局部特征很難具有足夠的描述力的情況下,中層特征的提取和分析就顯得更加重要。在ECCV 2012年 CMU的 Saurabh Singh 提出了中層patch的想法,提取的patch包含更加豐富的信息,至少是目標部件級別的,而不是沒有任何語義信息的局部描述。SIGGRAPH2012那篇注明的文章,“What makes Paris look like Paris?”。 Unsupervised Discovery of Mid-Level Discriminative PatchesSaurabh Singh, Abhinav Gupta, Alexei A. Efros. In ECCV, 2012. Carl Doersch, Saurabh Singh, Abhinav Gupta, Josef Sivic, and Alexei A. Efros. What Makes Paris Look like Paris? In SIGGRAPH 2012. [pdf] 在今年的CVPR中,也有不少關于從場景中學習mid-level parts的文章 Blocks that Shout: Distinctive Parts for Scene Classification. Mayank Juneja, Andrea Vedaldi, CV Jawahar, Andrew Zisserman. In CVPR, 2013. [pdf] Representing Videos using Mid-level Discriminative Patches. Arpit Jain, Abhinav Gupta, Mikel Rodriguez, Larry Davis. CVPR, 2013. [pdf] Part Discovery from Partial Correspondence. Subhransu Maji, Gregory Shakhnarovich. In CVPR, 2013. [pdf] 3) 深度學習以及特征學習也在蓬勃上升時期 tombone是這么說的。ms Google的每一個人現(xiàn)在都在做深度學習。這到底能解決所有的視覺問題嗎?很懷疑。但是,深度學習的興起讓每一個研究者都想參與其中。換句話說,如果你不知道 Geoff Hinton 是誰,你就out了。 對于這個問題,我覺得在慢慢具備海量數據處理能力的今天,深度學習確實是解決問題的一個很好的途徑。但是,另一方面,我們也不能寄希望于一個萬能的模型,如果有人想指望將訓練圖像扔進某個非常NB的分類器里面,就能得到自己想要的結果,那也是不現(xiàn)實的。計算機視覺中的很多困難我覺得不光是計算效能的問題,而且我們對其認識的還不夠。一個視覺算法的效果好不好,不光取決于模型,更重要的是前端的特征。 因此,深度學習必須結合好的特征學習,才是解決問題的王道。 |
|
|
來自: zzuliu360Lib > 《發(fā)展趨勢》