一種有效防止卷積神經(jīng)網(wǎng)絡過擬合的圖像分類方法
【專利摘要】本發(fā)明涉及一種有效防止卷積神經(jīng)網(wǎng)絡過擬合的圖像分類方法,包括:獲得圖像訓練集和圖像測試集;卷積神經(jīng)網(wǎng)絡模型的訓練;用訓練后的卷積神經(jīng)網(wǎng)絡模型對圖像測試集進行圖像分類。其中,卷積神經(jīng)網(wǎng)絡模型訓練的步驟為:對圖像訓練集中的圖像數(shù)據(jù)進行預處理和樣本擴增,形成訓練樣本;對訓練樣本進行前向傳播提取圖像特征;在Softmax分類器中計算各樣本的分類概率;根據(jù)概率yi計算得到訓練誤差;利用所述訓練誤差從卷積神經(jīng)網(wǎng)絡的最后一層依次往前反向傳播,同時利用隨機梯度下降法SGD修改網(wǎng)絡權值矩陣W。與現(xiàn)有技術相比,本發(fā)明具有分類精度高、收斂速度快、計算效率高等優(yōu)點。
【專利說明】一種有效防止卷積神經(jīng)網(wǎng)絡過擬合的圖像分類方法 【技術領域】
[〇〇〇1] 本發(fā)明涉及圖像處理領域,尤其是涉及一種有效防止卷積神經(jīng)網(wǎng)絡過擬合的圖像 分類方法。 【背景技術】
[0002] 隨著多媒體技術與計算機網(wǎng)絡的廣泛應用,網(wǎng)絡上出現(xiàn)大量圖像數(shù)據(jù)。為了能夠 有效的管理這些圖像文件,為用戶提供更好的體驗服務,自動識別這些圖像的內(nèi)容變的越 來越重要。
[0003] 隨機機器學習方法的不斷完善和發(fā)展,深度學習算法越來越受到重視,其中卷積 神經(jīng)網(wǎng)絡就是深度學習中一種重要的算法,目前已成為語音分析和圖像識別領域的研究熱 點。卷積神經(jīng)打破了傳統(tǒng)神經(jīng)網(wǎng)絡中層與層之間的神經(jīng)元全連接的方式,它的權值共享網(wǎng) 絡結構使之更類似于生物神經(jīng)網(wǎng)絡,降低了網(wǎng)絡模型的復雜度,減少了權值的數(shù)量。該優(yōu)點 在網(wǎng)絡的輸入是圖像是表現(xiàn)的更為明顯,使圖像可以直接作為網(wǎng)絡的輸入,避免了傳統(tǒng)識 別算法中復雜的特征提取和數(shù)據(jù)重建過程。卷積網(wǎng)絡是為識別二維形狀而特殊設計的一個 多層感知器,這種網(wǎng)絡結構對平移、比例縮放、傾斜或者其他形式的形變具有高度不變性。
[0004] 基于卷積神經(jīng)網(wǎng)絡的圖像分類技術能夠有效地自動的從圖像中提取特征信息,提 取的特征具有非常好的圖像表達能力,因此該技術在一些圖像分類問題中取得了令人滿意 的實驗結果。盡管如此,該技術目前還存在以下缺陷:
[0005] 第一,由于圖像數(shù)據(jù)庫中帶標簽的數(shù)據(jù)是有限的,隨著卷積神經(jīng)網(wǎng)絡的規(guī)模不斷 增大,需要訓練的權值也會不斷增加,這勢必使得神經(jīng)網(wǎng)絡出現(xiàn)過擬合現(xiàn)象,即訓練時的分 類精度遠遠好于測試時的分類精度。
[0006] 第二,為了獲取更好的特征表達能力以便取得更好的分類精度,某些研究人員采 用增加網(wǎng)絡深度、擴大網(wǎng)絡規(guī)模的方法。但是,這種方法將極大的增加計算復雜度,傳統(tǒng)的 CPU運算速度已經(jīng)不能滿足這樣的計算復雜度。
【發(fā)明內(nèi)容】
[0007] 本發(fā)明的目的就是為了克服上述現(xiàn)有技術存在的缺陷而提供一種分類精度高、收 斂速度快、計算效率高的有效防止卷積神經(jīng)網(wǎng)絡過擬合的圖像分類方法。
[0008] 本發(fā)明的目的可以通過以下技術方案來實現(xiàn):
[0009] 一種有效防止卷積神經(jīng)網(wǎng)絡過擬合的圖像分類方法,該方法運行在GPU中,包括:
[〇〇1〇] 步驟一,獲得圖像訓練集和圖像測試集;
[0011] 步驟二,卷積神經(jīng)網(wǎng)絡模型的訓練,具體包括以下步驟:
[0012] a)設定卷積神經(jīng)網(wǎng)絡的結構和訓練次數(shù)上限N,初始化神經(jīng)網(wǎng)絡權值矩陣W,所述 結構包括卷積神經(jīng)網(wǎng)絡的層數(shù)和每層中特征圖的數(shù)量;
[0013] b)從所述圖像訓練集中獲取圖像數(shù)據(jù)進行預處理,并進行樣本擴增,形成訓練樣 本;
[0014] c)對所述訓練樣本進行前向傳播提取圖像特征,所述前向傳播包括卷積層、非線 性歸一化層和混合pooling層的計算;
[0015] d)在Softmax分類器中計算各樣本的分類概率:
[0016]
【權利要求】
1. 一種有效防止卷積神經(jīng)網(wǎng)絡過擬合的圖像分類方法,其特征在于,該方法運行在 GPU中,包括: 步驟一,獲得圖像訓練集和圖像測試集; 步驟二,卷積神經(jīng)網(wǎng)絡模型的訓練,具體包括以下步驟: a) 設定卷積神經(jīng)網(wǎng)絡的結構和訓練次數(shù)上限N,初始化神經(jīng)網(wǎng)絡權值矩陣W,所述結構 包括卷積神經(jīng)網(wǎng)絡的層數(shù)和每層中特征圖的數(shù)量; b) 從所述圖像訓練集中獲取圖像數(shù)據(jù)進行預處理,并進行樣本擴增,形成訓練樣本; c) 對所述訓練樣本進行前向傳播提取圖像特征,所述前向傳播包括卷積層、非線性歸 一化層和混合pooling層的計算; d) 在Softmax分類器中計算各樣本的分類概率:
式中,Si表示Softmax分類器第i個神經(jīng)元的輸出值,Si = F · η,F(xiàn)為某個訓練樣本 的圖像特征向量,η為相應的權值,n為需要分類的類別數(shù)量: e) 根據(jù)概率yi計算得到訓練誤差
當i = k時,0ik=l,i表示第i個類別,當原始輸入屬于類別i莊
f) 利用所述訓練誤差從卷積神經(jīng)網(wǎng)絡的最后一層依次往前反向傳播,同時利用隨機梯 度下降法SGD修改網(wǎng)絡權值矩陣W ; g) 判斷模型訓練是否完成,若是,則保存卷積神經(jīng)網(wǎng)絡模型和Softmax分類器后執(zhí)行 步驟三,若否,則返回步驟b); 步驟三,利用訓練后的卷積神經(jīng)網(wǎng)絡模型對圖像測試集進行圖像分類。
2. 根據(jù)權利要求1所述的一種有效防止卷積神經(jīng)網(wǎng)絡過擬合的圖像分類方法,其特征 在于,所述步驟a)中,初始權值矩陣W的元素的取值范圍為[-0.01,0. 01]。
3. 根據(jù)權利要求1所述的一種有效防止卷積神經(jīng)網(wǎng)絡過擬合的圖像分類方法,其特征 在于,所述步驟b)具體為: bl)對于長寬相等的圖像,利用0PENCV中的cvResize函數(shù)進行縮放,縮放后的圖片大 小為NXN ; b2)對長寬不相等的圖像,固定短邊S不變,截取長邊中間的連續(xù)S個像素,形成SXS 大小的圖像,再重復步驟bl)最終形成NXN大小的圖像; b3)計算所有圖像的像素值之和,并除以圖像的數(shù)量得到一個均值圖像,在每一副圖像 中減去所述均值圖像得到輸入樣本; b4)對所述輸入樣本進行數(shù)據(jù)擴增,形成最終的訓練樣本。
4. 根據(jù)權利要求1所述的一種有效防止卷積神經(jīng)網(wǎng)絡過擬合的圖像分類方法,其特征 在于,步驟c)中,所述卷積層的計算具體為: yk = max{wk*x,0} 其中,X表示前一層的輸出,即當前層的輸入,yk表示第k個特征圖的輸出,wk代表與前 一層的輸出相連的第k個權值矩陣,表示二維的內(nèi)積運算; 所沭韭錢樺昀一仆層的i+笪旦蝕為,
其中,Xku為非線性歸一化層計算時前一層第k個特征圖的輸出,累加運算是在第k個 特征圖相鄰的N個特征圖的相同位置(i,j)上完成的,α和β為預設的歸一化參數(shù),ykij 為新生成的特征圖; 所述混合pooling層的計算具體為:
其中,λ是取值為0或者1的隨機參數(shù),XkM為混合pooling層計算時前一層第k個特 征圖的輸出,Ru為待降采樣的區(qū)域。
5.根據(jù)權利要求1所述的一種有效防止卷積神經(jīng)網(wǎng)絡過擬合的圖像分類方法,其特征 在于,所述步驟g)中,判斷模型訓練是否完成的準則是:達到訓練次數(shù)上限。
【文檔編號】G06K9/62GK104102919SQ201410333924
【公開日】2014年10月15日 申請日期:2014年7月14日 優(yōu)先權日:2014年7月14日
【發(fā)明者】王瀚漓, 俞定君 申請人:同濟大學