本發(fā)明涉及計算圖像處理的模式識別技術(shù)領(lǐng)域,屬于機器學(xué)習(xí)中深度學(xué)習(xí)的范疇,尤其涉及一種基于高約束高分散主成分分析網(wǎng)絡(luò)的圖像分類方法。
背景技術(shù):
在計算機視覺和模式識別領(lǐng)域中,尋找到合適的特征來表達圖像在解決分類問題中是非常關(guān)鍵的。例如,最有名的局部或全局特征描述算子(尺度不變特征轉(zhuǎn)換SIFT以及方向梯度直方圖HOG)在目標識別和匹配方面取得了的巨大進展。有趣的是,許多成功的特征表達都很相似,實際上可以把它們看成是計算邊緣梯度的直方圖或者是再加上一些卷積操作。盡管這些描述算子在提取底層圖像特征時具有不錯的效果,但是它們很難以泛化的方式抓住圖像中的重要信息。在過去的幾年里,基于深度學(xué)習(xí)的特征提取方法在一系列視覺分類任務(wù)中(如手寫字體識別,人臉識別以及目標識別等)取得了重大的突破,其分類精度達到了很高的水平,甚至有時候能夠和人類相媲美。所以我們將視角從人工設(shè)計的特征提取轉(zhuǎn)移到深度學(xué)習(xí)的特征提取。
深度學(xué)習(xí)被視為以一種黑盒方式實現(xiàn)的特征提取算法,該算法可以彌補人工設(shè)計的特征提取方法帶來的缺陷,并且為我們提供了強大的特征框架,便于從數(shù)據(jù)中學(xué)習(xí)到相當復(fù)雜的特征表達。從1989年LeCun等在Neural Computation 1(4):541–551雜志上發(fā)表的“Backpropagation applied to handwritten zip code recognition”論文中引入卷積神經(jīng)網(wǎng)絡(luò)(convolutional networks,CNNs)概念開始,關(guān)于CNNs的研究引起了許多學(xué)者的關(guān)注。特別值得注意的是,Krizhevsky在“NIPS 2012”(“2012年第25界Advances in Neural Information Processing Systems會議”)上發(fā)表的“ImageNet Classification with Deep Convolutional Neural Networks”證明了在具有挑戰(zhàn)性的ImageNet標準數(shù)據(jù)庫上CNNs是一個非常有效的圖像分類算法。后續(xù)的關(guān)于CNNs的工作幫助我們理解和完善這類網(wǎng)絡(luò)結(jié)構(gòu)在不同方面的性質(zhì)。
然而,許多現(xiàn)存的深度神經(jīng)網(wǎng)絡(luò)很難使用,因其需要大量的參數(shù)調(diào)節(jié)過程和一些特殊的技巧。例如對于CNNs模型,它的學(xué)習(xí)過程實際上是優(yōu)化非凸集的目標函數(shù),因此即使是在同樣的數(shù)據(jù)集上進行訓(xùn)練,最終的參數(shù)結(jié)果可能變化萬千。Erhan等在“The Journal of Machine Learning Research”2010,11:625–660雜志發(fā)表的“Why does unsupervised pre-training help deep learning”,Hinton等在Neural Computation 18:1527–1554的“A fast learning algorithm for deep belief nets”,以及Bengio等在“NIPS 2012”153–160發(fā)表的“Greedy layer-wise training of deep networks”,這些文章傳達出這樣的信息:深度神經(jīng)網(wǎng)絡(luò)和逐層貪婪的預(yù)訓(xùn)練算法結(jié)合起來在模型泛化能力上可以提供令人吃驚的提高。深度神經(jīng)網(wǎng)絡(luò)的另一個問題是經(jīng)常會出現(xiàn)過擬合的現(xiàn)象,這是由于深度神經(jīng)網(wǎng)絡(luò)是一個極度復(fù)雜的模型,該模型包含著數(shù)以百萬記的冗余參數(shù)節(jié)點。關(guān)于過擬合,有很多學(xué)者嘗試不同方法試圖解決過擬合問題。在2012年,Hinton在“Improving neural networks by preventing co-adaptation of feature detectors”(arXiv:1207.0580)引入了“dropout”的策略,“dropout”是指對于每一個訓(xùn)練樣本,隨機地將每層中一半的特征檢測器置為非激活狀態(tài)。“dropout”技術(shù)的一個缺點是對于卷積層來說沒有明顯的優(yōu)勢。Zeiler在“ICLR 2013”(International Conference on Learning Representations)會議上的“Stochastic pooling for regularization of deep convolutional neural networks”文章中提出了無超參的隨機卷積策略來改進“dropout”的不足,隨機卷積策略的思想是用隨機化的操作來代替?zhèn)鹘y(tǒng)的固定卷積過程。Zeiler的工作可以看成是標準的最大池化的替代方法,不同的是對于每幅輸入圖像進行預(yù)處理,對于每張輸入圖像,經(jīng)過一些局部的微小形變形成了一批副本,這些副本作為Zei ler隨機卷積算法的輸入。除了Zeiler的工作,還有許多深度學(xué)習(xí)模型的變體,如Lin在“ICLR 2014”上發(fā)表的“Network in network”,Simonyan發(fā)表的“Very deep convolutional networks for large-scale image recognition”以及Szegedy在ILSVRC14上發(fā)表的“Going deeper with convolutions”等,這些變體到目前為止已被證明在圖像識別任務(wù)中是相當成功的。這些深度學(xué)習(xí)的模型都是先通過前向傳播的過程再重復(fù)地使用梯度下降算法來極小化損失函數(shù)。我們總結(jié)了一下,至少有以下兩點原因促成了深度學(xué)習(xí)模型框架的成功:1)擁有更大的數(shù)據(jù)集和快速的GPU運算性能;2)基于正則化過程的數(shù)學(xué)理論上的發(fā)展,如“dropout”和校正線性激活函數(shù)。
盡管深度神經(jīng)網(wǎng)絡(luò)框架已經(jīng)成功應(yīng)用在某些分問題上,我們?nèi)匀恍枰鎸σ恍┎豢杀苊獾膯栴}:計算復(fù)雜度和時間復(fù)雜度。順著這個思路,我們想要找到一個在復(fù)雜度和性能之間的折中網(wǎng)絡(luò)框架。機器學(xué)習(xí)方法性能的優(yōu)劣很大程度上取決于所選擇數(shù)據(jù)的表達方式(或者稱為“特征”)。因此,理解這些要提取的特征以及怎樣才能最大程度地利用它們,在我們建立分類器或者其他預(yù)測器的時候十分重要。本發(fā)明構(gòu)建的CHDNet框架受到Chan等Submitted to IEEE Trans.Image Processing 2014的論文“PCANet:A Simple Deep Learning Baseline for Image Classification”和Lei等在NIPS 2014會議上發(fā)表的“Do Deep Nets Really Need to be Deep?”的啟發(fā)。本發(fā)明和那些包含了數(shù)百萬參數(shù)的深度神經(jīng)網(wǎng)絡(luò)不同,同時,本發(fā)明另一個創(chuàng)新點在于我們是第一個將卷積層替換成多尺度特征分析層的。本說明書將從理論上詳述改進的深度卷積神經(jīng)網(wǎng)絡(luò)能夠達到和其他深度網(wǎng)絡(luò)相同甚至更優(yōu)的分類效果。為了克 服現(xiàn)有技術(shù)中的上述缺陷,提出了一種基于高約束高分散主成分分析網(wǎng)絡(luò)的圖像分類方法。
技術(shù)實現(xiàn)要素:
本發(fā)明提出了一種基于高約束高分散主成分分析網(wǎng)絡(luò)的圖像分類方法,輸入圖像經(jīng)過至少一組卷積層和非線性變換層,以及一個特征池化層,包括如下步驟:
卷積及非線性變化步驟:在所述卷積層中,采用PCA方式從訓(xùn)練集中學(xué)習(xí)到用于每個階段特征提取的多個卷積核;在所述非線性變換層中,利用所述卷積核對于輸入圖像進行非線性變換,經(jīng)過至少一次卷積層和所述非線性變換層的變換后得到特征圖;
特征池化步驟:在所述特征池化層中,引入多尺度特征分析公式,推導(dǎo)出滿足高分散性分布及其尺度縮放因子σ最優(yōu)的取值后,輸出特征;所述高分散性分布以如下式(1)所示,
式(1)中,F(xiàn)j(x,y)和Fj(p,q)分別表示第j張?zhí)卣鲌D在(x,y)和(p,q)處的激活度;r和c表示的是第j張?zhí)卣鲌D的長和寬;σ是尺度縮放因子;表示第j張?zhí)卣鲌D的高分散性特征圖;將高分散性和改進的局部響應(yīng)歸一化層結(jié)合,形成了在高約束高分散主成分分析網(wǎng)絡(luò)下學(xué)習(xí)到的特征;局部相應(yīng)歸一化方程如以下式(6)所示:
式(6)中,表示第k張?zhí)卣鲌D位于(x,y)處的特征值;表示局部響應(yīng)歸一化前第j張?zhí)卣鲌D位于(x,y)處的特征值;n表示在拓撲結(jié)構(gòu)中與第j張?zhí)卣鲌D相鄰的并處于和點(x,y)相同位置的特征圖個數(shù);Vs是第s階段的特征圖個數(shù);常數(shù)項γ,α和β的值是通過交叉驗證集決定的;
整合步驟:將所述特征展開為向量,并利用向量組成特征矩陣;
圖像分類步驟:所述特征輸入線性支持向量機中以完成圖像分類任務(wù)。
本發(fā)明基于高約束高分散主成分分析網(wǎng)絡(luò)的圖像分類方法中,在卷積及非線性變化步驟中,所述特征圖經(jīng)過軟絕對值函數(shù)得到非線性變換特征圖,作為特征池化層的輸入。
本發(fā)明基于高約束高分散主成分分析網(wǎng)絡(luò)的圖像分類方法中,所述輸入圖像經(jīng)過所述高約束高分散主成分分析網(wǎng)絡(luò)處理后,在所述非線性變換層經(jīng)過如下步驟后得到特征圖:
第一變換步驟:以所述輸入圖像作為輸入,利用V1個卷積核對所述輸入圖像進行卷積,得到V1張第一特征圖將所述第一特征圖利用軟絕對值函數(shù)做非線性的變換,得到V1張第一非線性變換圖
第二變換步驟:以所述第一非線性變換圖作為輸入,對所述第一非線性變換圖分別利用V2個卷積核進行卷積,得到V1組第二特征圖j=1,2,…,V1,k=1,2,…,V2,其中每組第二特征圖中包含V2張第二特征圖。將V1×V2張所述第二特征圖進行非線性變換,得到V1×V2張?zhí)卣鲌Dj=1,2,…,V1,k=1,2,…,V2。
本發(fā)明基于高約束高分散主成分分析網(wǎng)絡(luò)的圖像分類方法中,在特征池化步驟中,所述特征圖經(jīng)過以下步驟得到特征:
歸一化步驟:將所述特征圖中每個位置上的值映射到0或1,并對V1組中的每張第二特征圖賦予不同的權(quán)重,并求得每組第二特征圖的歸一化的直方圖其中歸一化的直方圖中的每個像素的范圍是[0,255]之間的整數(shù)在后續(xù)的處理中每個整數(shù)被視為單獨的詞;
多尺度特征分析步驟:構(gòu)建在不同尺度0,1,…,L下的一系列網(wǎng)格,總共構(gòu)建有個小塊;統(tǒng)計在尺度l下每個小塊中詞i出現(xiàn)的次數(shù);將串聯(lián)起來組成特征圖,所述特征圖如以下式(9)所示:
式(9)中,表示第j張歸一化特征圖在分辨率l下第i塊網(wǎng)格中[0,255]每個整數(shù)出現(xiàn)的次數(shù);
高約束高分散步驟:利用推導(dǎo)出滿足高分散性分布公式和局部響應(yīng)歸一化約束層對特征圖進行進一步的處理,其中r,c分別表示特征圖的長和寬,γ,α和β的值是通過交叉驗證集決定的。
本發(fā)明基于高約束高分散主成分分析網(wǎng)絡(luò)的圖像分類方法中,所述整合步驟中,將展開成向量,得到特征向量,特征向量如以下公式(10)所示:
式(10)中,是特征池化得到的第j張高約束高分散性特征圖;表示將第j張高約束高分散性特征圖展開成向量;表示第end-1階段的p張?zhí)卣鲌D。
本發(fā)明基于高約束高分散主成分分析網(wǎng)絡(luò)的圖像分類方法中,所述尺度縮放因子
本發(fā)明基于高約束高分散主成分分析網(wǎng)絡(luò)的圖像分類方法中,在圖像分類步驟中,所述輸入圖像經(jīng)過以下步驟得到分類結(jié)果:
輸入步驟:將特征向量輸入到SVM中,選擇線性核函數(shù);
訓(xùn)練步驟:將數(shù)據(jù)庫中的一部分劃分為訓(xùn)練集并給定對應(yīng)訓(xùn)練樣本的標簽,按照一對一法訓(xùn)練SVM模型;
測試步驟:將數(shù)據(jù)庫中除去訓(xùn)練集的部分作為測試集,利用訓(xùn)練集得到的SVM模型參數(shù),將特征向量F作為SVM的輸入特征向量,根據(jù)投票原則,得票最多的類別即為該未知測試樣本的類別。
本發(fā)明的有益效果在于:
本發(fā)明與現(xiàn)有技術(shù)相比,簡單高效,具有自適應(yīng)和擴展性,當需要處理新數(shù)據(jù)庫上的分類任務(wù)時,不需要特別地設(shè)計卷積核,只需要輸入網(wǎng)絡(luò)的結(jié)構(gòu)參數(shù)即可。
附圖說明
圖1為本發(fā)明基于高約束高分散主成分分析網(wǎng)絡(luò)的圖像分類方法的流程圖。
圖2為可視化的兩階段CHDNet網(wǎng)絡(luò)。
圖3為兩階段CHDNet網(wǎng)絡(luò)結(jié)構(gòu)圖。
具體實施方式
結(jié)合以下具體實施例和附圖,對本發(fā)明作進一步的詳細說明。實施本發(fā)明的過程、條件、實驗方法等,除以下專門提及的內(nèi)容之外,均為本領(lǐng)域的普遍知識和公知常識,本發(fā)明沒有特別限制內(nèi)容。
如圖1所示,本發(fā)明的基于高約束高分散主成分分析網(wǎng)絡(luò)的圖像分類方法,輸入圖像經(jīng)過至少一組卷積層和非線性變換層,以及一個特征池化層,具體包括如下步驟:
卷積及非線性變化步驟:在所述卷積層中,采用PCA方式從訓(xùn)練集中學(xué)習(xí)到用于每個階段特征提取的多個卷積核;在所述非線性變換層中,利用所述卷積核對于輸入圖像進行非線性變換,經(jīng)過至少一次卷積層和所述非線性變換層的變換后得到特征圖;
特征池化步驟:在所述特征池化層中,引入多尺度特征分析公式,推導(dǎo)出滿足高分散性分布及其尺度縮放因子σ最優(yōu)的取值后,輸出特征;所述高分散性分布以如下式(1)所示,
式(1)中,F(xiàn)j(x,y)和Fj(p,q)分別表示第j張?zhí)卣鲌D在(x,y)和(p,q)處的激活度;r和c表示的是第j張?zhí)卣鲌D的長和寬;σ是尺度縮放因子;表示第j張?zhí)卣鲌D的高分散性特征圖;將高分散性和改進的局部響應(yīng)歸一化層結(jié)合,形成了在高約束高分散主成分分析網(wǎng)絡(luò)下學(xué)習(xí)到的特征;局部相應(yīng)歸一化方程如以下式(6)所示:
式(6)中,表示第k張?zhí)卣鲌D位于(x,y)處的特征值;表示局部響應(yīng)歸一化前第j張?zhí)卣鲌D位于(x,y)處的特征值;n表示在拓撲結(jié)構(gòu)中與第j張?zhí)卣鲌D相鄰的并處于和點(x,y)相同位置的特征圖個數(shù);Vs是第s階段的特征圖個數(shù);常數(shù)項γ,α和β的值是通過交叉驗證集決定的;
整合步驟:將所述特征展開為向量,并利用向量組成特征矩陣;
圖像分類步驟:所述特征輸入線性支持向量機中以完成圖像分類任務(wù)。
一般認為,好的特征表達應(yīng)該是不變性和可分離性相結(jié)合的。本發(fā)明的目的在于發(fā)明一個簡單卻高效的特征學(xué)習(xí)算法,該算法可以在復(fù)雜性和性能之間找到平衡點。特征學(xué)習(xí)最魯棒的方法是盡可能多的分解特征因子,根據(jù)實際情況丟棄少量無用的數(shù)據(jù)信息。為此,本發(fā)明僅關(guān)注特征的某些關(guān)鍵性質(zhì)——高分散性和特征之間的競爭性。
為了表述清楚,以下具體實施例考慮在某個給定的有限數(shù)據(jù)集上的一個特征分布其中是第i個樣本的第j個特征圖在點(x,y)處的激活度。對于一個固定的輸入圖像i,其特征圖是由組成的一組特征圖,該組特征圖除了和圖像i有關(guān),和數(shù)據(jù)集上的其他圖像都是無關(guān)的。為了簡化表達,本具體實施例省去了上標i,因此在后續(xù)說明中我們用Fj(x,y)代替
(一)高分散性
本發(fā)明中的高分散性是指Nigam在“NIPS 2011”發(fā)表的“Sparse Filtering”中提到的統(tǒng)一激活度分布概念。因為本發(fā)明使用了主成分分析(principle component analysis,PCA)來學(xué)習(xí)濾波器,并且用學(xué)習(xí)到的PCA濾波器和圖像/特征圖進行卷積操作,得到的結(jié)果是不滿足高分散性要求的。以上操作得到的特征導(dǎo)致了特征分布的不均衡,其主要原因是濾波器是通過PCA學(xué)習(xí)到的,然而PCA相應(yīng)的是最大的那些特征值,這就表明PCA相應(yīng)的特征值總是處于激活狀態(tài)。對于一個特征圖來說,高分散性的定義是指:每個特征和該幅特征圖中的其他特征的統(tǒng)計分布是相似的;不應(yīng)該存在任何一個特征其激活度明顯高于特征圖中的其他特征。高分散在特征表達的的角度來說,可以理解為只有少量特征處于非激活的狀態(tài)。根據(jù)以 上描述已知高分散性的性質(zhì)是指在所有特征之間的分散性,而不能描述為某一特征的分散性。一個特征自身是不具有分散性的,相反,它只能是具有分散性特征圖中的一個成員,這和Willmore在Network 2001中發(fā)表的“Characterizing the sparseness of neural codes”文章中關(guān)于分散性的概念是吻合的。因此,對于大小為r×c的第j張?zhí)卣鱽碚f,本發(fā)明首先對每個特征進行歸一化,方法是對第j張?zhí)卣鲌D中的每個特征除以該特征圖中所有成員的l2范數(shù)。接著再乘以尺度縮放因子σ,這樣做的目的是為了防止Fj(x,y)變得太小。因此,為了彌補通過PCA方法學(xué)習(xí)到的濾波器引起的特征分布非均衡化,本發(fā)明給出第j張?zhí)卣鲌D的高分散性特征的計算公式:
式(1)中,F(xiàn)j(x,y)和Fj(p,q)分別表示第j張?zhí)卣鲌D在(x,y)和(p,q)處的激活度;r和c表示的是第j張?zhí)卣鲌D的長和寬;σ是尺度縮放因子;表示第j張?zhí)卣鲌D的高分散性特征圖。
上述公式和Willmore在Network 2001中發(fā)表的“Characterizing the sparseness of neural codes”文章中的Treves-Rolls公式非常相似。Treves-Rolls公式是用來衡量種群稀疏度的,也就是說每個特征圖只會產(chǎn)生一個值。
式(2)中,r×c表示第j張?zhí)卣鲌D的大?。籉j(p,q)表示第j張?zhí)卣鲌D在(p,q)處的激活度;Sj表示第j張?zhí)卣鲌D的種群稀疏度。
現(xiàn)有Teves-Rolls公式通常用來度量人腦中神神經(jīng)元激活度的稀疏程度,然而,在本發(fā)明主要關(guān)心的是分散性而不是稀疏性。所以必須對Treves-Rolls公式進行改進:將Treves-Rolls公式的算術(shù)平方根乘上一個尺度縮放因子;同時在分子部分,用的是第j張?zhí)卣鲌D中每個單獨的特征而不是第j張?zhí)卣鲌D中所有特征和?;赥reves-Rolls公式的變形依據(jù)在于:在Nigam的Sparse Filtering(NIPS 2011)文章中,Nigam建議將Treves-Rolls公式的算術(shù)平方根乘上一個尺度縮放因子來優(yōu)化高分散性,這證明了關(guān)于Treves-Rolls公式的第一部分變動是有意義的;其次,保證第j張?zhí)卣鲌D中的每一個成員都具有分散性的性質(zhì),本發(fā)明對Treves-Rolls公式進行上述的第二個改變。下面,給出公式(1)推導(dǎo)的詳細過程。
·第一步:對Treves-Rolls公式開方得到
式(3)中,F(xiàn)j(x,y)和Fj(p,q)分別表示第j張?zhí)卣鲌D在(x,y)和(p,q)處的激活度;r和c表示的是第j張?zhí)卣鲌D的長和寬;表示第j張?zhí)卣鲌D的種群稀疏度的算術(shù)平方根。
·第二步:給公式(3)乘以一個尺度縮放因子(經(jīng)過一系列的實驗發(fā)現(xiàn),尺度縮放因子時會取得最好的分類準確率)
式(4)中,r×c表示第j張?zhí)卣鲌D的大?。籉j(p,q)表示第j張?zhí)卣鲌D在(p,q)處的激活度;表示第j張?zhí)卣鲌D的種群稀疏度的算術(shù)平方根;σ是尺度縮放因子;表示第j張?zhí)卣鲌D的高分散性特征圖。
·第三部:在分子部分,本發(fā)明使用第k張?zhí)卣鲌D中每個單獨的特征而不是第j張?zhí)卣鲌D中所有特征和,如公式(1)所示,其中x∈[1,r],y∈[1,c]。
本發(fā)明中改進的公式和Nigam衡量特征稀疏度的公式相比,除了尺度縮放因子有明顯的不同外,另一個顯著的區(qū)別在于Nigam的公式是:Nigam將公式應(yīng)用在樣本大小為N的數(shù)據(jù)庫上,并且每個樣本只有一個特征圖。但是本發(fā)明中,根據(jù)最后一個階段濾波器數(shù),每個樣本有多個特征圖。然而,僅僅使用特征高分散性這一個性質(zhì)是不能提高分類效果的,因為在特征圖集合中的特征激活度是以一種冗余的方式分散開來的。這就是接下來在本發(fā)明中引入局部響應(yīng)歸一化的原因。
(二)局部響應(yīng)歸一化
通過前面的描述,已知好的特征表達具有高分散性、盡量少冗余的性質(zhì)。和Hinton在Improving neural networks by preventing co-adaptation of feature detectors文章中描述的關(guān)于局部相應(yīng)歸一化的方法類似,本發(fā)明提出的CHDNet網(wǎng)絡(luò)能夠達到理想的分類效果。Kevin在(ICCV 20092146–2153)的What is the best multi-stage architecture for object recognition論文中論證了在CNN網(wǎng)絡(luò)中使用局部除法歸一化層是進一步提高計算機視覺分類任務(wù)效果的方法,局部除法歸一化是受到計算神經(jīng)系統(tǒng)科學(xué)模型的啟發(fā)。局部除法的歸一化操作加強了在不同特征圖中處于相同空間位置上的特征間的局部競爭性。局部響應(yīng)歸一化方法用公式(5)計算第j張?zhí)卣鲌D位于(x,y)處的歸一化激活度aj(x,y)
式(5)中,ak(x,y)表示第k張?zhí)卣鲌D位于(x,y)處的激活度;aj(x,y)表示第j張?zhí)卣鲌D位于(x,y)處的歸一化激活度;n表示用于局部響應(yīng)歸一化處理的相鄰特征圖數(shù)量;α和β是調(diào)節(jié)局部響應(yīng)作用的因子。
其中,分子會計算在拓撲結(jié)構(gòu)中處于相同位置的n張相鄰特征圖中的特征平方和。局部 響應(yīng)歸一化起著在真實神經(jīng)元間側(cè)抑制的效果。本發(fā)明中,使用改進的局部響應(yīng)歸一化方程
式(6)中,表示第k張?zhí)卣鲌D位于(x,y)處的特征值(即激活度);表示局部響應(yīng)歸一化前第j張?zhí)卣鲌D位于(x,y)處的特征值(即激活度);n表示在拓撲結(jié)構(gòu)中與第j張?zhí)卣鲌D相鄰的并處于和點(x,y)相同位置的特征圖個數(shù);Vs是第s階段的特征圖個數(shù);常數(shù)項γ,α和β的值是通過交叉驗證集決定的。
在本發(fā)明的分類系統(tǒng)的結(jié)構(gòu)中,局部響應(yīng)歸一化起到的是約束的作用,這個約束是用來對來自不同特征圖中的特征進行歸一化處理,因為每一個學(xué)習(xí)到的PCA濾波器可以被視為尺度不同的特征檢測器。
本發(fā)明用最基本和簡單的操作來模擬傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)中的各層:每個階段特征提取層(FCSG)中的卷積核(濾波器)是直接從數(shù)據(jù)庫中用最基本的PCA操作學(xué)習(xí)得到的;非線性變化層是最簡單的軟絕對值層(Rsabs);在特征卷積層(PCHD),本發(fā)明僅用了多尺度歸一化直方圖分析的方法,特征池化層是整個網(wǎng)絡(luò)的輸出層,其后面直接連接著線性分類器(在本發(fā)明中用的是SVM分類器)。為了方便引用,將這個可以自適應(yīng)的網(wǎng)絡(luò)命名為高分散性PCA網(wǎng)絡(luò)(ConstrainedHigh Dispersal PCANet,CHDNet)。
(三)和類似方法的比較
顯然,CHDNet從整個網(wǎng)絡(luò)的體系結(jié)構(gòu)角度來說和CNN有著一些相似性,同時,CHDNet從濾波器學(xué)習(xí)方法上來說和PCANet也存在著一些共性。
本發(fā)明中的CHDNet是一個深度卷積神經(jīng)網(wǎng)絡(luò)的體系結(jié)構(gòu)。Jarrett在ICCV 2009pp.2146–2153的What is the best multi-stage architecture for object recognition?論文中指出在神經(jīng)網(wǎng)絡(luò)的深度體系結(jié)構(gòu)中,深度框架可以看作是采用不同的方式級聯(lián)濾波器層(FCSG),修正層(Rabs),局部相減歸一化層(N),平均池化及子采樣層(PA),最大池化及子采樣層(PM)。CHDNet由一個或多個階段的特征提取層,每層特征提取層是由級聯(lián)的濾波器層和修正層構(gòu)成的FCSG-Rsabs。特征提取層后面是多尺度分析特征卷積層PCHD。因此CHDNet-1是FCSG-Rsabs-PCHD這樣的體系結(jié)構(gòu),同理,CHDNet-2的體系結(jié)構(gòu)可以抽象成FCSG-Rsabs-FCSG-Rsabs-PCHD。通過以上的描述,可以得出以下結(jié)論:本發(fā)明中的CHDNet是一個深度框架,因為CHDNet和Jarrett提出的深度卷積神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu)的定義相符。
和本發(fā)明相近的是Chan在Submitted to IEEE Trans.Image Processing 2014中的A Simple Deep Learning Baseline for Image Classification論文中提出的PCANet網(wǎng)絡(luò)。本發(fā)明和PCANet網(wǎng)絡(luò)最顯著的區(qū)別在于PCANet沒有對特征進行多尺度分析的處理,其他的 區(qū)別包括:在輸出層之前PCANet沒有對特征表達進行高分散性以及局部歸一化處理,并且也沒有尺度縮放因子的處理。
以下結(jié)合如圖2及圖3所示的具體實施例對本發(fā)明技術(shù)方案做詳細說明。
一個卷積深度神經(jīng)網(wǎng)絡(luò)模型由多個可訓(xùn)練層以層層堆積的方式組成,在輸出層增加一個監(jiān)督的分類器以完成分類任務(wù)。通常每層都包含兩層:濾波器卷積層和特征池化層。本發(fā)明的CHDNet模型包含了多階段PCA卷積及非線性變換層,并且只包含一個特征池化層,該特征池化層只出現(xiàn)在最后的輸出層之前。接著,學(xué)習(xí)到的特征被送到線性SVM中來完成不同的分類任務(wù)。
以一張輸入圖像i=1為例,假設(shè)經(jīng)過了2階段的PCA來學(xué)習(xí)卷積核。
1)第一變換步驟,輸入圖像用PCA得到的V1個卷積核做卷積,得到V1張?zhí)卣鲌Dj=1,2,…,V1。將這V1張?zhí)卣鲌D分別用軟絕對值函數(shù)做非線性的變換,得到j(luò)=1,2,…,V1。
2)第二變換步驟,不同的是用第一變換步驟的輸出而不是原圖像作為輸入。在第二階段中,對張非線性變換的圖分別用V2個卷積核做卷積,得到V1組第二特征圖j=1,2,…,V1,k=1,2,…,V2,每組第二特征圖有V2張第二特征圖。接著,將V1×V2張第二特征圖進行非線性變換j=1,2,…,V1,k=1,2,…,V2。
3)歸一化步驟,將V1×V2張?zhí)卣鲌D每個位置上的值都映射到[0,1],并對V1組中的每張第二特征圖賦予不同的權(quán)重(如[2v2-1,2v2-2,2v2-3,……,20]),將特征圖和對應(yīng)的權(quán)重相乘并求和,每組第二特征圖中的V1張?zhí)卣鲌D就合并為一張?zhí)卣鲌D,本發(fā)明給出計算合并同組特征圖的公式:
式(7)中,表示在第end階段由在第end-1階段的第j張?zhí)卣鲌D和第end階段的第k個濾波器經(jīng)過卷積、非線性變換得到的非線性變換特征圖;表示第end-1階段的p張?zhí)卣鲌D;sigmoid函數(shù)是S型曲線函數(shù),取值范圍是[0,1]之間的數(shù)值,Hj是合并后的特征圖;在本具體實例中,取end=2,則有p=V1組非線性變化的特征圖,并且每組包括了k=Vend=V2張?zhí)卣鲌D。然后將特征圖中元素歸一化到[0,255]范圍內(nèi),得歸一化特征圖
式(8)中,Hj是合并后的特征圖,min(·)和max(·)分別是最小值、最大值函數(shù);
是向下取整函數(shù);是歸一化后的特征圖,取值范圍是[0,255]之間的整數(shù),在后續(xù)處理中,每個整數(shù)被作為單獨的“詞”來統(tǒng)計處理。
4)多尺度特征分析步驟,對歸一化后的V1張?zhí)卣鲌D做多尺度特征分析,即在不同分辨率L下,統(tǒng)計[0,255]每個整數(shù)出現(xiàn)的次數(shù),得到Fj,j∈1,2,…,V1。
式(9)中,表示第j張歸一化特征圖在分辨率l下第i塊網(wǎng)格中[0,255]每個整數(shù)出現(xiàn)的次數(shù);在尺度l有2l個“小塊”,則總共構(gòu)建有個小塊,通常取L=3。
5)高約束高分散步驟:利用推導(dǎo)出滿足高分散性分布公式(4)和局部響應(yīng)歸一化約束層(6)對特征圖進行進一步的處理;在本具體實例中,總共有2階段的PCA學(xué)習(xí)濾波器過程,因此公式(6)中end=2,
6)整合步驟:將展開成向量,得到特征向量:
公式(10)中,是特征池化得到的第j張高約束高分散性特征圖;表示將第j張高約束高分散性特征圖展開成向量;Vs表示第end-1階段的p張?zhí)卣鲌D;在本具體實例中,取end=2,則p=V1。
經(jīng)過一系列的實驗發(fā)現(xiàn),尺度縮放因子時會取得最好的分類準確率。
在特征池化步驟中,所述特征圖經(jīng)過以下步驟得到特征:
1)歸一化步驟,將V1×V2張?zhí)卣鲌D每個位置上的值都映射到[0,1],并對V2組中的每張?zhí)卣鲌D賦予不同的權(quán)重(如[2v2-1,2v2-2,2v2-3,……,20]),將特征圖和對應(yīng)的權(quán)重相乘并求和,每組特征圖中的V1張?zhí)卣鲌D就合并為一張?zhí)卣鲌D,用本發(fā)明給出的公式(7)計算合并同組特征圖Hj;然后用公式(8)將特征圖中元素歸一化到[0,255]范圍內(nèi),得歸一化特征圖在后續(xù)處理中,每個整數(shù)被作為單獨的“詞”來統(tǒng)計處理。
2)多尺度特征分析步驟,對歸一化后的V1張?zhí)卣鲌D做多尺度特征分析,即在不同分辨率L下,統(tǒng)計[0,255]每個整數(shù)出現(xiàn)的次數(shù),利用公式(9)得到
3)高約束高分散步驟:利用推導(dǎo)出滿足高分散性分布公式(4)和局部響應(yīng)歸一化約束層 (6)對特征圖進行進一步的處理。
圖像分類步驟中,所述輸入圖像經(jīng)過以下步驟得到分類結(jié)果:
輸入步驟:將特征向量輸入到SVM中,選擇線性核函數(shù);
訓(xùn)練步驟:將數(shù)據(jù)庫中的一部分劃分為訓(xùn)練集并給定對應(yīng)訓(xùn)練樣本的標簽,按照一對一法(one-versus-one,簡稱OVO SVMs)訓(xùn)練SVM模型;
測試步驟:將數(shù)據(jù)庫中除去訓(xùn)練集的部分作為測試集,利用訓(xùn)練集得到的SVM模型參數(shù),將特征向量F作為SVM的輸入特征向量,根據(jù)投票原則,得票最多的類別即為該未知測試樣本的類別。
本發(fā)明的保護內(nèi)容不局限于以上實施例。在不背離發(fā)明構(gòu)思的精神和范圍下,本領(lǐng)域技術(shù)人員能夠想到的變化和優(yōu)點都被包括在本發(fā)明中,并且以所附的權(quán)利要求書為保護范圍。