一種基于堆棧式去噪自編碼機(jī)的顯著性物體檢測(cè)方法
【專利摘要】本發(fā)明涉及一種基于堆棧式去噪自編碼機(jī)的顯著性物體檢測(cè)方法,首先利用去噪自編碼機(jī)對(duì)位于圖像周邊的圖塊進(jìn)行建模,然后將訓(xùn)練好的模型對(duì)整幅圖像中的圖塊進(jìn)行深度特征的提取及重建,并將深度重建殘余作為顯著性的計(jì)算手段。最終取得更具準(zhǔn)確性,魯棒性的顯著物體檢測(cè)結(jié)果。
【專利說明】一種基于堆棧式去噪自編碼機(jī)的顯著性物體檢測(cè)方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于計(jì)算機(jī)視覺算法研究領(lǐng)域,涉及一種基于堆棧式去噪自編碼機(jī)的顯著性物體檢測(cè)方法,可以在自然圖像數(shù)據(jù)庫(kù)中準(zhǔn)確、魯棒地計(jì)算出給定圖像的顯著物體。
【背景技術(shù)】
[0002]視覺顯著性是視覺注意的一項(xiàng)重要功能,它表現(xiàn)為觀察者從一個(gè)復(fù)雜的視覺場(chǎng)景中選擇一個(gè)重要的內(nèi)容進(jìn)行集中處理,而忽略其他不太重要的內(nèi)容。視覺場(chǎng)景中某些內(nèi)容比其他內(nèi)容更能獲得觀察者的注意,我們稱它們具有更高的視覺顯著性。視覺顯著性的思想被大量地應(yīng)用于視覺注意的計(jì)算模型中,ITTI在其經(jīng)典的視覺注意計(jì)算模型中采用的顯著性度量方法是基于像素與其周圍鄰域的局部視覺特征差異;Ma等人在2003年提出一種基于特征對(duì)比的顯著性度量方法,該方法只考慮顏色特征,將輸入圖像從RGB顏色空間轉(zhuǎn)換為L(zhǎng)UV空間,進(jìn)行顏色量化。為了處理簡(jiǎn)單,將輸入圖像調(diào)整到一個(gè)固定的尺寸。計(jì)算像素與其周圍鄰域的顏色特征對(duì)比度,得到該像素的顯著性值;Hou等人在2008年提出了一種基于譜殘差的顯著性度量方法,該方法在頻域上分析顯著區(qū)域的特征,在空間域上構(gòu)建顯著圖。FengLiu等人后來(lái)提出基于區(qū)域的顯著性度量,他們首先利用一定的方法得到圖像中不同的區(qū)域,然后根據(jù)每個(gè)區(qū)域的位置因素和特征對(duì)比等度量其顯著性。
[0003]上述方法都是根據(jù)假設(shè)“圖像中局部/全局對(duì)比度高的地方應(yīng)該擁有更高的顯著性”進(jìn)行模型的建立,然 而盡管他們能夠在某些情況下得出令人滿意的結(jié)果,但是這些模型所基于的假設(shè)在一些復(fù)雜的圖像中并不適用。事實(shí)上,在進(jìn)行顯著物體檢測(cè)時(shí),能夠反映顯著物體的對(duì)比性,不是基于像素或圖塊的局部/全局對(duì)比性,而是圖像前景區(qū)域與背景區(qū)域的對(duì)比性。基于此,本發(fā)明提出一種基于堆棧式去噪自編碼機(jī)的顯著性物體檢測(cè)方法,首先利用去噪自編碼機(jī)對(duì)位于圖像周邊的圖塊進(jìn)行建模,然后將訓(xùn)練好的模型對(duì)整幅圖像中的圖塊進(jìn)行深度特征的提取及重建,并將深度重建殘余作為顯著性的計(jì)算手段。最終取得更具準(zhǔn)確性,魯棒性的顯著物體檢測(cè)結(jié)果。
【發(fā)明內(nèi)容】
[0004]要解決的技術(shù)問題
[0005]為了避免現(xiàn)有技術(shù)的不足之處,本發(fā)明提出一種基于堆棧式去噪自編碼機(jī)的顯著性物體檢測(cè)方法。
[0006]技術(shù)方案
[0007]—種基于堆棧式去噪自編碼機(jī)的顯著性物體檢測(cè)方法,其特征在于步驟如下:
[0008]步驟I在圖像中提取邊界圖塊:首先將圖像下采樣為PXP個(gè)像素,然后利用大小為size e [5,20],步長(zhǎng)為stepe [I, size]的方形滑動(dòng)窗口在下采樣后的圖像的上、左、下、右四個(gè)邊界中提取圖塊,并將每個(gè)圖塊內(nèi)的像素值構(gòu)成的向量作為該圖塊的特征,生成四個(gè)訓(xùn)練集合Xtop, Xleft,Xdown,Xright ?
[0009]步驟2訓(xùn)練基于圖像邊界的堆棧式去噪自編碼機(jī);釆用節(jié)點(diǎn)數(shù)分別為H1 e [20,500],H2 e [20,500]的兩層結(jié)構(gòu)的堆棧式去噪自編碼機(jī)(SDAE),對(duì)四個(gè)集合Xleft, Xdown, Xright進(jìn)行訓(xùn)練,得到四個(gè)基于圖像邊界的堆棧式去噪自編碼機(jī)SDAEtop, SDAEleft, SDAEdown 和 SDAEright ;
[0010]步驟3計(jì)算深度殘余:采用大小為size e [5,20],步長(zhǎng)為step e [I, size]的方形滑動(dòng)窗口在下采樣后的圖像中提取圖塊,并將圖塊內(nèi)的像素值構(gòu)成的向量將作為該圖塊的特征,生成堆棧式去噪自編碼機(jī)的輸入集合X= {\},其中je [1,N],N為整幅圖像中提取的圖塊數(shù);
[0011 ] 將集合X = {Xj}中的每一個(gè)輸入樣本Xj輸入SDAEttjp中,計(jì)算輸入樣本Xj的上邊界深度殘爭(zhēng)'1 = WyZ,-Cj Ii ;其中為Xj在SDAEtop中第一隱層的激活向量,Cj為
Xj在SDAEttjp中第二重構(gòu)層的激活向量;
[0012]將集合X = {Xj}中的每一個(gè)輸入樣本Xj輸入SDAEleft中,計(jì)算輸入樣本Xj的左邊界深度殘余?4' = ll ~Ζ?φ, I〗;其中0.,.為在SDAElrft中第一隱層的激活向量,《7為Xj在SDAElrft中第二重構(gòu)層的激活向量;
[0013]將集合X = {xj}中的每一個(gè)輸入樣本Xj輸入SDAEd_中,計(jì)算輸入樣本Xj的下邊界深度殘余^_叫1-ZbIlomj Ik2 ;其中C為在SDAEd_中第一隱層的激活向
量,Clj為Xj在SDAEd_中第二重構(gòu)層的激活向量;
[0014]將集合X = {xj}中的每一個(gè)輸入樣本Xj輸入SDAEl4ght中,計(jì)算輸入樣本Xj的右邊界深度殘余‘" = - Z^lj IL2 ;其中為在SDAE_中第一隱層的激活向量,
Ahtj為Xj在SDAEright中第二重構(gòu)層的激活向量;
[0015]步驟4合并生成深度殘余圖:對(duì)步驟3中的每一個(gè)輸入樣本合并其基于四個(gè)邊
界的深度殘余:< 二^^ + ‘ +沁。,+ ^ );將合并后的深度殘余作為與其相對(duì)應(yīng)的輸
入樣本的灰度值生成與下采樣后圖像對(duì)應(yīng)的灰度圖,將這個(gè)灰度圖上采樣到原始圖片的大小即生成圖像的深度殘余圖;
[0016]步驟5基于超像素的區(qū)域平滑:根據(jù)超像素分割理論,可將原始圖像分割成互不重疊的超像素區(qū)域Rq,q e [1,Q],其中Q為超像素區(qū)域總數(shù);則每一個(gè)超像素區(qū)域Rq的顯著值為該超像素區(qū)域內(nèi)所有像素點(diǎn)上深度殘余的均值。將所有超像素區(qū)域的顯著值線性映射到[0,I]范圍內(nèi)就得到了最終的顯著物體檢測(cè)結(jié)果;
[0017]所述步驟2和3中的堆棧式去噪自編碼機(jī)釆用P.Vincent, H.Larochelle, 1.Lajoiej Y.Bengioj and P.-A.Manzagolj “Stacked denoising autoencoders: Learninguseful representations in a deep network with a local denoisingcriterion,,,Journal of Machine Learning Research, vol.9999, pp.3371-3408, 2010 ;
[0018]所述步驟5中的超像素分割方法釆用P.F.Felzenszwalb,and
D.P.Huttenlocherj “Efficient graph-based image segmentation, ”InternationalJournal of Computer Vision, vol.59, n0.2, pp.167-181,2004。
[0019]有益效果[0020]本發(fā)明提出一種基于堆棧式去噪自編碼機(jī)的顯著性物體檢測(cè)方法,首先利用去噪自編碼機(jī)對(duì)位于圖像周邊的圖塊進(jìn)行建模,然后將訓(xùn)練好的模型對(duì)整幅圖像中的圖塊進(jìn)行深度特征的提取及重建,并將深度重建殘余作為顯著性的計(jì)算手段。最終取得更具準(zhǔn)確性,魯棒性的顯著物體檢測(cè)結(jié)果。
[0021]【專利附圖】
【附圖說明】
[0022]圖1:本發(fā)明方法的基本流程圖
[0023]圖2:實(shí)驗(yàn)結(jié)果圖
[0024]圖3:R0C結(jié)果圖
【具體實(shí)施方式】
[0025]現(xiàn)結(jié)合實(shí)施例、附圖對(duì)本發(fā)明作進(jìn)一步描述:
[0026]用于實(shí)施的硬件環(huán)境是:Intel Pentium2.93GHz CPU計(jì)算機(jī)、2.0GB內(nèi)存,運(yùn)行的軟件環(huán)境是:Matlab R201 Ib和Windows XP。實(shí)驗(yàn)選取了 SOD庫(kù)中的所有圖像作為測(cè)試數(shù)據(jù),該數(shù)據(jù)庫(kù)中包含1000幅自然圖像,是國(guó)際公開的用于測(cè)試顯著物體計(jì)算模型的數(shù)據(jù)庫(kù)。
[0027]本發(fā)明具體實(shí)施如下:
[0028]1.在圖像中提取邊界圖塊:首先將圖像下采樣為PXP個(gè)像素,然后利用大小為size e [5,20],步長(zhǎng)為stepe [I, size]的方形滑動(dòng)窗口在下采樣后的圖像的上、左、下、右四個(gè)邊界中提取圖塊,并將每個(gè)圖塊內(nèi)的像素值構(gòu)成的向量作為該圖塊的特征,生成四個(gè)訓(xùn)練集合Xtop,
Xleft,Xdown,Xright0
[0029]2.訓(xùn)練基于圖像邊界的堆棧式去噪自編碼機(jī);采用“Stacked denoisingautoencoders: Learning useful representations in a deep network with a localdenoising criterion”中節(jié)點(diǎn)數(shù)分別為H1 e [20, 500] ,H2 e [20,500]的兩層結(jié)構(gòu)的堆棧式去噪自編碼機(jī)(SDAE),對(duì)四個(gè)集合X_,Xleft, Xdown, Xright進(jìn)行訓(xùn)練,得到四個(gè)基于圖像邊界的堆棧式去噪自編碼機(jī)SDAEt_ SDAEleft, SDAEdown和SDAEright。
[0030]3.計(jì)算深度殘余:采用大小為size e [5,20],步長(zhǎng)為step e [I, size]的方形滑動(dòng)窗口在下采樣后的圖像中提取圖塊,并將圖塊內(nèi)的像素值構(gòu)成的向量將作為該圖塊的特征,生成堆棧式去噪自編碼機(jī)的輸入集合X= {\},其中je [1,N],N為整幅圖像中提取的圖塊數(shù)。
[0031 ] 將集合X = {xj}中的每一個(gè)輸入樣本Xj輸入SDAEttjp中,計(jì)算輸入樣本Xj的上邊界深度殘余C = 11 yZ.j — CI〖;其中yZj為xJ在Sdaeiop中第一隱層的激活向量,C,為
Xj在SDAEttjp中第二重構(gòu)層的激活向量。
[0032]將集合X = {xj}中的每一個(gè)輸入樣本Xj輸入SDAEleft中,計(jì)算輸入樣本Xj的左邊界深度殘余4/ = llIL2;其中?.為\在SDAElrft中第一隱層的激活向量,Ζ:為Xj在SDAElrft中第二重構(gòu)層的激活向量。
[0033]將集合X = {xj}中的每一個(gè)輸入樣本Xj輸入SDAEd_中,計(jì)算輸入樣本Xj的下邊界深度殘余
I I bottom、j ^bottom,} Ik2;其中C,?。為Xj在SDAEd_中第一隱層的激活向量,i:Ln,j為Xj在SDAEd_中第二重構(gòu)層的激活向量。
[0034]將集合X = {xj}中的每一個(gè)輸入樣本Xj輸入SDAEl4ght中,計(jì)算輸入樣本Xj的右邊界深度殘余
【權(quán)利要求】
1.一種基于堆棧式去噪自編碼機(jī)的顯著性物體檢測(cè)方法,其特征在于步驟如下: 步驟I在圖像中提取邊界圖塊:首先將圖像下采樣為PXP個(gè)像素,然后利用大小為size e [5,20],步長(zhǎng)為stepe [I, size]的方形滑動(dòng)窗口在下采樣后的圖像的上、左、下、右四個(gè)邊界中提取圖塊,并將每個(gè)圖塊內(nèi)的像素值構(gòu)成的向量作為該圖塊的特征,生成四個(gè)訓(xùn)練集合Xtop,
Xleft,Xdown,^right ; 步驟2訓(xùn)練基于圖像邊界的堆棧式去噪自編碼機(jī);采用節(jié)點(diǎn)數(shù)分別為H1 e [20, 500],H2 e [20,500]的兩層結(jié)構(gòu)的堆棧式去噪自編碼機(jī)(SDAE),對(duì)四個(gè)集合Xt()p,Xleft, Xdown, Xright進(jìn)行訓(xùn)練,得到四個(gè)基于圖像邊界的堆棧式去噪自編碼機(jī)SDAE_,SDAEleft, SDAEdown和SDAEright ; 步驟3計(jì)算深度殘余:采用大小為size e [5,20],步長(zhǎng)為step e [I, size]的方形滑動(dòng)窗口在下采樣后的圖像中提取圖塊,并將圖塊內(nèi)的像素值構(gòu)成的向量將作為該圖塊的特征,生成堆棧式去噪自編碼機(jī)的輸入集合X= {\},其中je [1,N],N為整幅圖像中提取的圖塊數(shù); 將集合X = {xj}中的每一個(gè)輸入樣本輸入SDAEtop中,計(jì)算輸入樣本的上邊界深度殘余心)=11 y,oP.j -1 ;其中/二為Xj在SDAEtop中第一隱層的激活向量,z:。為Xj在SDAEtop中第二重構(gòu)層的激活向量; 將集合X = {xj}中的每一個(gè)輸入樣本Xj輸入SDAEleft中,計(jì)算輸入樣本Xj的左邊界深度殘余4ft,J = 11 y%, -zZlj I >2 ;其中為在SDAElrft中第一隱層的激活向量,Z1^J為Xj在SDAEleft中第二重構(gòu)層的激活向量; 將集合X = {xj}中的每一個(gè)輸入樣本&輸入SDAEd_中,計(jì)算輸入樣本&的下邊界深度殘余= 11 y(bl_mJ - Zbouom,, 11〗;其中yZ-.j為Xj在SDAEd_中第一隱層的激活向量,C.j為在SDAEd_中第二重構(gòu)層的激活向量; 將集合X = {xj}中的每一個(gè)輸入樣本Xj輸入SDAEl4ght中,計(jì)算輸入樣本Xj的右邊界深度殘余心Ll = 11 y(righ,,j - ^righLj IL2;其中yilu為Xj在SDAEl4ght中第一隱層的激活向量,z[fght.j為在SDAE^ght中第二重構(gòu)層的激活向量; 步驟4合并生成深度殘余圖:將步驟3中的每一個(gè)輸入樣本&合并得到四個(gè)邊界的深度殘余:rl = 士);將合并后的深度殘余作為與其相對(duì)應(yīng)的輸入樣本的灰度值生成與下采樣后圖像對(duì)應(yīng)的灰度圖,將這個(gè)灰度圖上采樣到原始圖片的大小生成圖像的深度殘余圖; 步驟5基于超像素的區(qū)域平滑:根據(jù)超像素分割理論,將原始圖像分割成互不重疊的超像素區(qū)域R,,q e [1,Q],其中Q為超像素區(qū)域總數(shù);則每一個(gè)超像素區(qū)域Rq的顯著值為該超像素區(qū)域內(nèi)所有像素點(diǎn)上深度殘余的均值;將所有超像素區(qū)域的顯著值線性映射到[O, I]范圍內(nèi)就得到了最終的顯著物體檢測(cè)結(jié)果。
2.根據(jù)權(quán)利要求1所述的基于堆棧式去噪自編碼機(jī)的顯著性物體檢測(cè)方法,其特征在于:所述步驟2和3中的堆棧式去噪自編碼機(jī)采用文獻(xiàn):P.Vincent, H.Larochelle, 1.Lajoie,Y.Bengio,and P.-A.Manzagolj “Stacked denoising autoencoders:Learninguseful representations in a deep network with a local denoisingcriterion,” Journal of Machine Learning Research,vol.9999,pp.3371-3408,2010 中的方法。
3.根據(jù)權(quán)利要求1所述的基于堆棧式去噪自編碼機(jī)的顯著性物體檢測(cè)方法,其特征在于:所述步 驟5中的超像素分割方法采用文獻(xiàn):P.F.Felzenszwalb, andD.P.Huttenlocherj “Efficient graph-based image segmentation, ”InternationalJournal of Computer Vision, vol.59, n0.2, pp.167-181,2004 中的方法。
【文檔編號(hào)】G06T7/00GK103955936SQ201410200352
【公開日】2014年7月30日 申請(qǐng)日期:2014年5月13日 優(yōu)先權(quán)日:2014年5月13日
【發(fā)明者】韓軍偉, 張鼎文, 郭雷 申請(qǐng)人:西北工業(yè)大學(xué)