論文:<<Deep
Neural Networks for Object Detection>>
作者:Christian Szegedy Alexander Toshev Dumitru
Erhan
來源: Google
是否開放代碼: 否
主要思想:利用DNN來做目標(biāo)檢測(cè),因?yàn)楝F(xiàn)在的CNN等深度學(xué)習(xí)在識(shí)別上面做的還挺好,但是在目標(biāo)檢測(cè)上面,好像沒有特別突出的結(jié)果。目標(biāo)檢測(cè)
= 目標(biāo)識(shí)別 +目標(biāo)定位;
本文中作者把目標(biāo)檢測(cè)看做一個(gè)回歸問題,回歸目標(biāo)窗口(BoundingBox)的位置,
尋找一張圖片當(dāng)中目標(biāo)類別和目標(biāo)出現(xiàn)的位置。
當(dāng)前的目標(biāo)檢測(cè)方法效果比較好的是DPM(可變形部分模型)模型,建立在目標(biāo)表示和目標(biāo)可分解為由多個(gè)Part組成的模型,它是一種圖模型,利用判別性學(xué)習(xí)這種圖模型在目標(biāo)檢測(cè)中取得了不錯(cuò)的結(jié)果。
目標(biāo)檢測(cè)最重要的問題:1.大?。ǚ直媛剩?/span>
2.如何不滑動(dòng)窗口來做(滑動(dòng)窗口實(shí)在是太慢了)。
文章說明了:1. 基于DNN的回歸不但可以學(xué)習(xí)有利于分類的特征,同時(shí)它也能夠捕獲到目標(biāo)的幾何信息;
主要內(nèi)容:
通過設(shè)計(jì)基于DNN的回歸,它的輸出為二值化mask(掩碼?反正就是來表示目標(biāo)的位置信息),并且實(shí)現(xiàn)了從掩碼中提取檢測(cè)到的目標(biāo)窗口,利用DNN的掩碼回歸問題中,即考慮到了完整圖像的多尺度問題,同時(shí)也考慮到了一些小數(shù)量的圖像裁剪塊,然后以此精化;
在實(shí)現(xiàn)中,作者基于NIPS2012ImageNet那篇,直接把最后一層替換為回歸層。
其它的基于DNN的檢測(cè)方法或多或少是基于局部或者半局部分類器來做的,這這篇文章中采用的是利用整幅圖像作為輸入,然后通過位置回歸來做的,這樣的方法顯然比滑動(dòng)窗口的方法來說更加的高效;

對(duì)于存在的三個(gè)問題:1 .單個(gè)掩碼可能區(qū)分開那些相互靠近的目標(biāo),2.由于輸出大小的限制,產(chǎn)生的掩碼會(huì)比原始圖像小很多,所以這樣就不能夠精確的定位,3.因?yàn)檩斎胧钦麖垐D像,一些小的圖片能夠影響到的輸入神經(jīng)元很少,所以將導(dǎo)致不易識(shí)別;
1.為了解決第一個(gè)問題:目標(biāo)相互靠近的情況:
作者生成多個(gè)掩碼,每個(gè)掩碼表示著對(duì)應(yīng)的完整的目標(biāo)或者部分目標(biāo),他們使用一個(gè)網(wǎng)絡(luò)來預(yù)測(cè)目標(biāo)窗口掩碼,使用4個(gè)附加的網(wǎng)絡(luò)來檢測(cè)4個(gè)半部分窗口,上下左右。這5個(gè)預(yù)測(cè)的結(jié)果是過完全的,但是可以減少不確定性和一些掩碼錯(cuò)誤。這樣當(dāng)有兩個(gè)相同對(duì)象靠近出現(xiàn)在圖像中時(shí),產(chǎn)生的5個(gè)掩碼至少有兩個(gè)是不會(huì)合并在一起的,這樣就可以區(qū)分開不同的目標(biāo);