本發(fā)明涉及一種基于深度卷積-反卷積神經(jīng)網(wǎng)絡(luò)的夜視圖像場景識別方法,屬于夜視圖像處理領(lǐng)域。
背景技術(shù):
:場景識別指的是按照場景圖像相近的內(nèi)容識別出圖片中的場景。場景識別是計算機(jī)視覺和機(jī)器人領(lǐng)域中一個基礎(chǔ)的預(yù)處理過程,它在圖像內(nèi)容檢索、模式識別和機(jī)器學(xué)習(xí)等計算機(jī)智能領(lǐng)域中擔(dān)任重要的角色。場景識別技術(shù)主要有基于物體識別的場景識別方法、基于圖像區(qū)域識別的場景識別方法、基于語境分析的場景識別方法和模仿生物視覺機(jī)制的場景識別方法。在可見光彩色圖像領(lǐng)域,場景識別的研究有較大的進(jìn)展,如程東生等人的基于單隱層神經(jīng)網(wǎng)絡(luò)的場景識別方法,提取局部梯度統(tǒng)計特征,將局部梯度統(tǒng)計特征以及對應(yīng)場景類別標(biāo)簽加入到單隱層神經(jīng)網(wǎng)絡(luò)分類器進(jìn)行層級式監(jiān)督學(xué)習(xí),得到多個不同的多類單隱層神經(jīng)網(wǎng)絡(luò)的最優(yōu)參數(shù),根據(jù)所述最優(yōu)參數(shù)構(gòu)建多層級場景分類器,能實現(xiàn)高精度場景識別。王慧燕等人的基于多特征融合與Boosting決策森林的街景圖像的語義分割方法,將2D特征和3D特征有效的融合在一起,顯著地提高了目標(biāo)的識別率。但上述兩種方法都需要人工選取特征,操作復(fù)雜,且無法挖掘圖像深層特征信息。近年來,夜視圖像的場景識別研究受到廣泛關(guān)注,通過提取出夜視圖像的特征信息,并識別圖像中的各像素點所屬類別,能夠擴(kuò)展夜間機(jī)器人的視覺感應(yīng)范圍和智能識別能力,對夜視圖像理解具有重大意義。夜視圖像場景識別的困難在于:夜視圖像完全不同于可見光圖像,它無色彩,只有單通道的灰度值,信噪比低且缺乏深度感,往往場景中物體的分辨度不高。因此夜視圖像場景識別難度極大。目前國內(nèi)外對于夜視圖像的場景識別研究還不夠深入,尚無成熟的解決方案。沈振一等采用隨機(jī)森林和超像素分割相結(jié)合的方法,首先提取Law’s掩膜多尺度特征,并對圖像各像素點進(jìn)行訓(xùn)練學(xué)習(xí)得到隨機(jī)森林分類模型,然后通過超像素分割優(yōu)化分類結(jié)果,除去被錯誤分類的像素點。該方法對非樣本庫內(nèi)的測試樣本識別誤差較大,且計算速度較慢。侯俊杰等提出基于標(biāo)簽轉(zhuǎn)移的場景特征識別算法,該算法需要提前構(gòu)建對應(yīng)場景的樣本庫和通用搜索樹,對待處理的圖像,先提取GIST特征,從樣本庫搜索樹中尋找最近鄰的樣本圖像,再使用SIFTFLOW方法對比待處理圖像和近鄰樣本圖像,得到各樣本圖像的候選權(quán)值,構(gòu)建馬爾可夫隨機(jī)場(MarkovRandomField),據(jù)此生成待處理圖像中對象的候選類別標(biāo)簽。但是該算法的缺點是對前期樣本庫的建立要求非常高,選取的GIST特征對圖像中對象的形狀、類別或具體位置并不敏感。技術(shù)實現(xiàn)要素:本發(fā)明的目的是實現(xiàn)夜視圖像的場景識別,增強(qiáng)夜視圖像的場景感知性、提高場景識別的效率。為了達(dá)到上述目的,本發(fā)明的技術(shù)方案提供了一種基于深度卷積-反卷積神經(jīng)網(wǎng)絡(luò)的夜視圖像場景識別方法,其特征在于,包括如下步驟:步驟1:構(gòu)建夜視圖像數(shù)據(jù)集,夜視圖像數(shù)據(jù)集中包括原始樣本圖像及對原始樣本圖像進(jìn)行人工標(biāo)注后的標(biāo)簽圖像,標(biāo)簽圖像中的標(biāo)記和原始樣本圖像的像素一一對應(yīng);步驟2:對原始樣本圖像進(jìn)行鏡面對稱處理,并調(diào)整對應(yīng)的標(biāo)簽圖像,從而增強(qiáng)夜視圖像數(shù)據(jù)集;步驟3:構(gòu)建深度卷積-反卷積神經(jīng)網(wǎng)絡(luò),利用步驟2得到的增強(qiáng)夜視圖像數(shù)據(jù)集訓(xùn)練該深度卷積-反卷積神經(jīng)網(wǎng)絡(luò),其中:深度卷積-反卷積神經(jīng)網(wǎng)絡(luò)包括深度卷積神經(jīng)網(wǎng)絡(luò)及反卷積網(wǎng)絡(luò),通過深度卷積神經(jīng)網(wǎng)絡(luò)提取輸入的原始圖像的特征,從而得到特征圖,再通過反卷積過程將特征圖映射到原始圖像的大??;步驟4:實時獲取待處理的大小為h×w的圖像,將圖像輸入深度卷積-反卷積神經(jīng)網(wǎng)絡(luò)后,得到大小為h×w的特征圖;步驟5:將夜視圖像中的物體分為k個不同類別,采用多分類算法確定步驟4得到的特征圖中每個像素點所屬類別,輸出大小為h×w×k的概率圖。優(yōu)選地,所述深度卷積神經(jīng)網(wǎng)絡(luò)為一系列的卷積、激勵和池化的過程,其中,采用去掉全連接層的VGG16作為卷積網(wǎng)絡(luò),加入對稱的反卷積網(wǎng)絡(luò),池化采用最大值-池化。優(yōu)選地,所述反卷積網(wǎng)絡(luò)具有13個反卷積層。優(yōu)選地,在所述步驟5中采用Softmax分類器確定步驟4得到的特征圖中每個像素點所屬類別。本發(fā)明可用于無人車、機(jī)器人和智能視頻監(jiān)控領(lǐng)域。本發(fā)明將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于圖像語義分割,無需手工選取特征,通過端到端,像素到像素的訓(xùn)練,直接預(yù)測像素所屬的語義類別,從而實現(xiàn)夜視場景識別,保證識別的正確性和實時性,增強(qiáng)場景理解、突出目標(biāo),從而更快更精確地探測和識別場景。本發(fā)明的優(yōu)點是通過使用深度學(xué)習(xí),無需手工選取特征,即可充分挖掘夜視圖像中蘊(yùn)含的豐富信息,提取出重要的場景類別信息,實現(xiàn)語義分割。該方法顯著增強(qiáng)了夜視圖像的場景感知性、提高了目標(biāo)識別的效率,降低了人工操作的復(fù)雜度。附圖說明附圖1為基于深度卷積-反卷積神經(jīng)網(wǎng)絡(luò)的夜視圖像場景識別流程圖。首先需要對夜視圖像進(jìn)行人工標(biāo)記,得到夜視圖像對應(yīng)的標(biāo)簽圖。然后構(gòu)建深度卷積-反卷積神經(jīng)網(wǎng)絡(luò),將訓(xùn)練圖像和對應(yīng)的標(biāo)簽圖放入構(gòu)建的網(wǎng)絡(luò)中進(jìn)行迭代學(xué)習(xí),得到網(wǎng)絡(luò)的模型參數(shù)。接著輸入測試圖像,深度卷積-反卷積神經(jīng)網(wǎng)絡(luò)會根據(jù)前面訓(xùn)練得到的模型參數(shù)對測試圖像進(jìn)行語義分割,最終得到夜視圖像中每個像素所屬的類別標(biāo)簽。附圖2為深度卷積-反卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖。主要包含兩個部分:卷積網(wǎng)絡(luò)和反卷積網(wǎng)絡(luò)。卷積網(wǎng)絡(luò)表示特征提取的過程,將輸入的夜視圖像轉(zhuǎn)換成多維特征表示,而反卷積網(wǎng)絡(luò)則表示形狀生成的過程,將卷積網(wǎng)絡(luò)中提取的特征生成原夜視圖像一樣大小的特征圖,網(wǎng)絡(luò)最后一層表示Softmax層,能夠輸出夜視圖像場景特征識別的概率圖。附圖3為本文的夜視場景識別實驗結(jié)果。第一行為測試圖像,第二行為人工標(biāo)記的圖像,第三行為本文的深度卷積-反卷積神經(jīng)網(wǎng)絡(luò)。在測試中發(fā)現(xiàn),本文構(gòu)建的深度卷積-反卷積神經(jīng)網(wǎng)絡(luò)對夜視圖像場景有非常好的識別效果。具體實施方式為使本發(fā)明更明顯易懂,茲以優(yōu)選實施例,并配合附圖作詳細(xì)說明如下。如附圖1所示,基于深度卷積-反卷積神經(jīng)網(wǎng)絡(luò)的夜視圖像場景識別的具體實施如下:步驟1:構(gòu)建夜視圖像數(shù)據(jù)集。采用實驗室通過紅外熱像儀自行采集的實驗數(shù)據(jù),通過在線類別標(biāo)記系統(tǒng)LabelMe對樣本圖像進(jìn)行人工標(biāo)注形成標(biāo)簽圖,標(biāo)簽圖的標(biāo)記和原圖的像素一一對應(yīng),一共有9類。數(shù)據(jù)集包含訓(xùn)練圖片312張,測試圖片78張,圖片尺寸為360×480,具體類別見表1。表1數(shù)據(jù)語義類別類別未標(biāo)記草地建筑車輛行人道路標(biāo)志天空樹木標(biāo)簽012345678步驟2:對圖像進(jìn)行鏡面對稱處理從而增強(qiáng)夜視圖像數(shù)據(jù)集。通過上下、左右對稱,樣本圖像數(shù)量增加兩倍,同時調(diào)整對應(yīng)的標(biāo)簽圖像,最終得到訓(xùn)練圖片936張,測試圖片234張。步驟3:構(gòu)建深度卷積-反卷積神經(jīng)網(wǎng)絡(luò),利用步驟2得到的增強(qiáng)夜視圖像數(shù)據(jù)集訓(xùn)練該深度卷積-反卷積神經(jīng)網(wǎng)絡(luò),其中:深度卷積-反卷積神經(jīng)網(wǎng)絡(luò)包括深度卷積神經(jīng)網(wǎng)絡(luò)及反卷積網(wǎng)絡(luò),通過深度卷積神經(jīng)網(wǎng)絡(luò)提取輸入的原始圖像的特征,從而得到特征圖,再通過反卷積過程將特征圖映射到原始圖像的大小。本發(fā)明的算法采用了卷積層和反卷積層相結(jié)合的深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu),是在16層VGG-net結(jié)構(gòu)的基礎(chǔ)上修改得到的深度網(wǎng)絡(luò)結(jié)構(gòu),圖片通過卷積過程提取特征,再通過反卷積過程將特征映射到原圖大小。深度卷積神經(jīng)網(wǎng)絡(luò)f都可以看作是一系列的卷積、激勵和池化的過程。采用去掉全連接層的VGG16作為卷積網(wǎng)絡(luò),因此,本發(fā)明的卷積網(wǎng)絡(luò)具有13個卷積層。假設(shè)深度卷積神經(jīng)網(wǎng)絡(luò)f,參數(shù)為θ,則f的數(shù)學(xué)表達(dá)式為:f(X;θ)=WLHL-1其中,Hl為l層隱層單元的輸出,bl為l層的偏差值,Wl為l層的權(quán)值,且bl和Wl組成可訓(xùn)練的參數(shù)θ,pool()表示池化操作,relu()表示激勵操作。池化操作將小鄰域內(nèi)的特征點整合得到新特征,使得特征減少,參數(shù)減少,且池化單元具有平移不變性。池化的方法主要包括平均-池化和最大值-池化,本發(fā)明主要采用最大值-池化操作。池化操作保留了上層特征圖中的最大值,同時丟失了感知域中的空間信息,然而像素級場景分割對位置的精確度要求極高,為了解決這個問題,本發(fā)明采用反卷積網(wǎng)絡(luò)進(jìn)行反池化和反卷積操作,能夠得到每個像素點特征描述子。本發(fā)明在反卷積網(wǎng)絡(luò)中加入反池化層,模擬池化的逆過程,在池化過程中將最大激勵值的坐標(biāo)位置記錄下來,在反池化時把池化過程中最大激勵值的坐標(biāo)位置的值(像素)還原,而其他位置則采用補(bǔ)0的方法。池化時記錄像素點坐標(biāo),反池化時還原像素的位置。經(jīng)過反池化操作的特征圖擴(kuò)大了2倍,但是得到的特征圖是稀疏的,需要對特征圖進(jìn)行加密,因此引入了反卷積層。本發(fā)明的反卷積網(wǎng)絡(luò)具有13個反卷積層。卷積操作將卷積核內(nèi)的多個激勵值連接得到一個激勵值,而反卷積則是將一個激勵值輸出為多個激勵值。同樣地,反卷積操作也使用多個可學(xué)習(xí)的卷積核,并且反卷積網(wǎng)絡(luò)和卷積網(wǎng)絡(luò)是對稱的結(jié)構(gòu),也能夠獲取不同層次的特征信息,較低的反卷積層能夠得到物體大致的形狀信息,較高的層能得到一些細(xì)節(jié)信息。本發(fā)明的深度卷積-反卷積神經(jīng)網(wǎng)絡(luò)的詳細(xì)配置如表2所示。表2步驟4:實時獲取待處理的大小為360×480×1的圖像,將圖像輸入深度卷積-反卷積神經(jīng)網(wǎng)絡(luò)后,得到大小為360×480×64的特征圖。(1)輸入一幅360×480×1的夜視圖像,通過卷積核大小為3×3的Conv1-1和Conv1-2卷積層,再經(jīng)過池化層pool1,輸出為180×240×64的特征圖;(2)將(1)中得到的特征圖通過卷積核大小為3×3的Conv2-1和Conv2-2卷積層,再經(jīng)過池化層pool2,輸出為90×120×128的特征圖;(3)將(2)中得到的特征圖通過卷積核大小為3×3的Conv3-1、Conv3-2和Conv3-3卷積層,再經(jīng)過池化層pool3,輸出為45×60×256的特征圖;(4)將(3)中得到的特征圖通過卷積核大小為3×3的Conv4-1、Conv4-2和Conv4-3卷積層,再經(jīng)過池化層pool4,輸出為23×30×512的特征圖;(5)將(4)中得到的特征圖通過卷積核大小為3×3的Conv5-1、Conv5-2和Conv5-3卷積層,再經(jīng)過池化層poo15,輸出為12×15×512的特征圖。完成卷積層的操作,實現(xiàn)特征提??;(6)將(5)中得到的特征圖經(jīng)過反池化層unpoo15,再通過卷積核大小為3×3的Deconv5-1、Deconv5-2和Deconv5-3反卷積層,輸出為23×30×512的特征圖;(7)將(6)中得到的特征圖經(jīng)過反池化層unpool4,再通過卷積核大小為3×3的Deconv4-1、Deconv4-2和Deconv4-3反卷積層,輸出為45×60×512的特征圖;(8)將(7)中得到的特征圖經(jīng)過反池化層unpool3,再通過卷積核大小為3×3的Deconv3-1、Deconv3-2和Deconv3-3反卷積層,輸出為90×120×256的特征圖;(9)將(8)中得到的特征圖經(jīng)過反池化層unpool2,再通過卷積核大小為3×3的Deconv2-1和Deconv2-2反卷積層,輸出為180×240×128的特征圖;(10)將(9)中得到的特征圖經(jīng)過反池化層unpool1,再通過卷積核大小為3×3的Deconv1-1和Deconv1-2反卷積層,輸出為360×480×64的特征圖。完成反卷積操作,得到和原圖尺寸一樣的特征圖;步驟5:確定像素點所屬類別。多分類問題主要采用Softmax函數(shù)確定像素點所屬類別。Softmax分類器是Logistic回歸模型在多分類問題上的推廣。詳細(xì)步驟如下:(1)假設(shè)現(xiàn)在有一個分k類的任務(wù),本發(fā)明主要涉及到9個不同類別的場景,即k=9,在一個m個樣本的訓(xùn)練集上進(jìn)行學(xué)習(xí),每個輸入是一個n維向量。訓(xùn)練集T表示為:T={(x(1),y(1)),K,(x(m),y(m))}其中,y(i)∈{1,2,K,k}是標(biāo)簽,x(i)∈Rn+1是樣本(有一個截距項1,所以維度是n+1)。Softmax分類器將計算每個樣本屬于k個類的概率:P(y=j(luò)|x),(j=1,2,K,k)(2)這樣對于每個樣本就形成一個k維的輸出,計算函數(shù)的形式如下式:其中,是模型參數(shù)。(3)利用訓(xùn)練集T來訓(xùn)練Softmax分類器的目標(biāo)就是找到適當(dāng)?shù)膮?shù),使得Softmax分類器的某種損失函數(shù)達(dá)到最小值,一般采用的損失函數(shù)如下式:其中,1{y(i)=j(luò)}表示如果y=j(luò),則為1,否則為0。損失函數(shù)越小意味著用Softmax來分類訓(xùn)練集的結(jié)果的越正確。(4)最后整個卷積網(wǎng)絡(luò)的輸出大小為h×w×k的概率圖,h×w為原圖像尺寸大小,k為類別數(shù)量,表示每個像素點屬于預(yù)定義類別的概率,本發(fā)明的輸出為360×480×9。從而確定每個像素點所屬類別,識別結(jié)果如附圖3所示。當(dāng)前第1頁1 2 3