本發(fā)明涉及數(shù)字圖像處理技術(shù)領(lǐng)域,尤其涉及一種基于具有roi(regionofinterest,興趣區(qū))池化的雙cnn(convolutionneuralnetwork,卷積神經(jīng)網(wǎng)絡(luò))網(wǎng)絡(luò)的目標(biāo)識別方法。
背景技術(shù):
無人機、機器人等各種智能無人系統(tǒng)的應(yīng)用越來越廣泛,對視覺系統(tǒng)的目標(biāo)檢測與識別的速率和準(zhǔn)確率的要求也隨之越來越高。常用的目標(biāo)識別方法有基于模板匹配、基于語法結(jié)構(gòu)分析、基于神經(jīng)網(wǎng)絡(luò)以及單純的基于傳統(tǒng)統(tǒng)計方法等,圖像目標(biāo)識別中較為常用的則如基于卷積神經(jīng)網(wǎng)絡(luò)cnn的目標(biāo)識別方法。基于cnn的目標(biāo)識別方法是利用卷積神經(jīng)網(wǎng)絡(luò)的多層卷積層的卷積作用來獲得能夠代表數(shù)字圖像的特征矩陣,然后再將獲得的特征矩陣輸入分類器以實現(xiàn)分類、識別等。
目前基于cnn的目標(biāo)識別方法,通常都是先將原圖像劃分成若干個候選框,然后利用常規(guī)的cnn對候選框進行逐個提取特征,再對提取的特征進行分類,進行目標(biāo)檢測以便于目標(biāo)的識別,主要包括以下幾種方法,且均存在一定的缺陷;
(1)rcnn(richfeaturehierarchiesbasedcnn)方法,是采用selective-search技術(shù)獲取一系列窗口(通常為2000多個),包括目標(biāo)區(qū)域和背景區(qū)域,這些窗口會覆蓋輸入原始圖像,對每一個窗口先進行縮放處理以滿足一個固定大小的尺寸,然后利用cnn進行特征提取,再利用分類器(如svm/softmax等)進行分類、識別;但是rcnn算法由于需要逐個處理多達(dá)2000多個的區(qū)域窗口,所需處理的區(qū)域窗口數(shù)據(jù)眾多,使得所需消耗的時間長、識別速度慢,并且由于全連接層需要固定大小的維度矩陣,而rcnn結(jié)構(gòu)需要在輸入網(wǎng)絡(luò)之前對圖像進行剪切或縮放處理,造成圖像信息損失,使得無論在識別準(zhǔn)確度還是在識別速度上都比較差;
(2)spp-net(spatialpyramidpoolingbasedcnn)方法,是針對傳統(tǒng)的cnn用于目標(biāo)檢測、識別過程中都必須保證輸入的圖像大小維度相同這一缺陷所提出,通過引入spp池化避免圖像剪切、縮放的過程。由于傳統(tǒng)方法都是通過剪切或者縮放的方式將輸入圖像轉(zhuǎn)換成固定大小的圖像然后再進行后續(xù)的處理,這一處理過程會損失圖像信息,造成識別準(zhǔn)確度下降,通過spp池化避免了圖像剪切、縮放的過程,從而保證了識別的準(zhǔn)確率。但是spp-net結(jié)構(gòu)是將目標(biāo)和背景區(qū)域窗口混在一起處理,因而所需消耗時間仍然較長,而且spp的金字塔結(jié)構(gòu)也使得不便于調(diào)節(jié)參數(shù);
(3)fast-rcnn方法,是在rcnn和spp-net的基礎(chǔ)上進行的改進,采用單層池化即roi層,代替多層金字塔池化,使得可以同時對roi池化層兩邊的處理層(卷積層、全連接層)進行調(diào)參,達(dá)到優(yōu)化網(wǎng)絡(luò)的作用。但是fast-rcnn結(jié)構(gòu)僅是對spp-net的spp結(jié)構(gòu)進行改進,但是未區(qū)分目標(biāo)區(qū)域和背景區(qū)域,因而所需消耗時間仍然較長;
(4)double-cnn方法,是采用兩級cnn進行圖像目標(biāo)識別,其中第一級cnn只有5層卷積層,用于獲得目標(biāo)所在的區(qū)域窗口,排除背景區(qū)域減少窗口的總共數(shù)目,然后對這些目標(biāo)區(qū)域窗口進行縮放,達(dá)到一個固定大小的尺寸,再逐個利用第二級cnn提取特征,最后利用分類器進行分類、識別;double-cnn結(jié)構(gòu)雖然將目標(biāo)區(qū)域和背景區(qū)域的窗口分開,只保留目標(biāo)區(qū)域的窗口,可以減少處理時間,但是在提取特征時,是逐個窗口進行卷積提取特征,而且為了保證全連接值層的輸入具有固定的維度,還需要對每個目標(biāo)區(qū)域窗口進行一定的縮放處理,因此識別速度、準(zhǔn)確率仍然不高。
技術(shù)實現(xiàn)要素:
本發(fā)明要解決的技術(shù)問題就在于:針對現(xiàn)有技術(shù)存在的技術(shù)問題,本發(fā)明提供一種實現(xiàn)方法簡單、兼具目標(biāo)識別效率高以及識別精度高,且易于調(diào)節(jié)網(wǎng)絡(luò)參數(shù)的基于具有roi池化的雙cnn網(wǎng)絡(luò)的目標(biāo)識別方法。
為解決上述技術(shù)問題,本發(fā)明提出的技術(shù)方案為:
一種基于具有roi池化的雙cnn網(wǎng)絡(luò)的目標(biāo)識別方法,步驟包括:
s1.將待識別圖像通過第一級cnn網(wǎng)絡(luò)獲取目標(biāo)區(qū)域窗口,以及通過具有roi池化層的第二級cnn網(wǎng)絡(luò)獲取待識別圖像的全局特征圖;
s2.將獲取到的所述全局特征圖、目標(biāo)區(qū)域窗口輸入所述第二級cnn網(wǎng)絡(luò)的roi池化層中進行池化處理,提取出所述目標(biāo)區(qū)域窗口指定維數(shù)的特征向量;
s3.將所述步驟s2提取到的特征向量訓(xùn)練分類器,根據(jù)訓(xùn)練得到的分類器檢測待識別圖像中的目標(biāo),輸出識別結(jié)果。
作為本發(fā)明的進一步改進,所述步驟s1中獲取目標(biāo)區(qū)域窗口的具體步驟為:
s11.將待識別圖像通過所述第一級cnn網(wǎng)絡(luò)的多層卷積層進行卷積處理,分別獲得包含有目標(biāo)區(qū)域窗口、背景區(qū)域窗口的多個區(qū)域窗口;
s12.區(qū)分獲得的多個所述區(qū)域窗口中目標(biāo)區(qū)域窗口、背景區(qū)域窗口后,去除所述背景區(qū)域窗口、保留指定個數(shù)的所述目標(biāo)區(qū)域窗口,輸出對應(yīng)各個所述目標(biāo)區(qū)域窗口的roi元組。
作為本發(fā)明的進一步改進:所述步驟s12中具體分別對各個所述區(qū)域窗口的邊界計算iou值,根據(jù)計算得到的iou值區(qū)分目標(biāo)區(qū)域窗口、背景區(qū)域窗口。
作為本發(fā)明的進一步改進:所述步驟s11后、步驟s12前還包括確定各個所述區(qū)域窗口的邊界步驟。
作為本發(fā)明的進一步改進,所述步驟s1中全局特征圖的具體獲取步驟為:將待識別圖像通過所述第二級cnn網(wǎng)絡(luò)的多層卷積層進行卷積處理,輸出多個三維全局特征圖矩陣,獲取得到待識別圖像的全局特征圖。
作為本發(fā)明的進一步改進,所述步驟s2中roi池化層中進行池化處理的具體步驟為:
s21.獲取一個目標(biāo)區(qū)域窗口作為當(dāng)前目標(biāo)區(qū)域窗口,使用當(dāng)前目標(biāo)區(qū)域窗口所對應(yīng)的roi元組定位當(dāng)前目標(biāo)區(qū)域在所述全局特征圖中的位置;
s22.在所述全局特征圖中截取當(dāng)前目標(biāo)區(qū)域的特征矩陣,并使用roi池化層將所述特征矩陣劃分為指定大小的網(wǎng)格,根據(jù)每個所述網(wǎng)格中的最大值作為特征值,得到對應(yīng)當(dāng)前目標(biāo)區(qū)域窗口的特征值矩陣;
s23.重復(fù)執(zhí)行步驟s21、s23,得到對應(yīng)每一個所述目標(biāo)區(qū)域窗口的特征值矩陣。
作為本發(fā)明的進一步改進:所述步驟s2還包括將各個所述目標(biāo)區(qū)域窗口的特征值矩陣輸入全連接層進行非線性組合處理步驟,得到所述目標(biāo)區(qū)域窗口所需的特征向量。
作為本發(fā)明的進一步改進:所述進行全連接層的非線性組合處理時,具體采用svd(singularvaluedecomposition,奇異值分解)權(quán)值分解方法對原始權(quán)值矩陣進行分解。
作為本發(fā)明的進一步改進:所述步驟s3中具體將所述步驟s2提取到的特征向量訓(xùn)練softmax分類器,根據(jù)訓(xùn)練得到的所述softmax分類器檢測待識別圖像中的目標(biāo)。
作為本發(fā)明的進一步改進:所述步驟s3后還包括窗口調(diào)整步驟,所述窗口調(diào)整步驟對窗口大小進行調(diào)整,返回執(zhí)行步驟s2以重新訓(xùn)練分類器,直至達(dá)到預(yù)設(shè)識別效果。
與現(xiàn)有技術(shù)相比,本發(fā)明的優(yōu)點在于:
1)本發(fā)明基于具有roi池化的雙cnn網(wǎng)絡(luò)的目標(biāo)識別方法,綜合考慮目標(biāo)識別的準(zhǔn)確率及識別速度,采用兩級cnn網(wǎng)絡(luò)處理實現(xiàn)雙cnn網(wǎng)絡(luò)架構(gòu)的圖像目標(biāo)識別,通過第一級cnn網(wǎng)絡(luò)排除背景區(qū)域窗口獲取到目標(biāo)區(qū)域窗口信息,對目標(biāo)區(qū)域和背景區(qū)域進行了區(qū)分處理,同時結(jié)合roi池化技術(shù),通過具有roi池化層的第二級cnn網(wǎng)絡(luò)獲取全局特征圖,并將全局特征圖和目標(biāo)區(qū)域窗口一起輸入到roi池化層進行池化處理,能夠大大減少所需數(shù)據(jù)處理量,同時提高識別精度,從而能夠同時滿足目標(biāo)識別速度高以及目標(biāo)識別精度高的需求,尤其適用于實時性要求較高的應(yīng)用場合中,且基于雙cnn網(wǎng)絡(luò)結(jié)構(gòu)便于實現(xiàn)參數(shù)調(diào)節(jié);
2)本發(fā)明基于具有roi池化的雙cnn網(wǎng)絡(luò)的目標(biāo)識別方法,通過第一級cnn網(wǎng)絡(luò)排除背景區(qū)域窗口得到目標(biāo)區(qū)域窗口,避免了如傳統(tǒng)方法中需要對背景區(qū)域進行卷積處理,大大減少了數(shù)據(jù)處理量及所需處理時間;通過具有roi池化層的第二級cnn網(wǎng)絡(luò)將全局特征圖和目標(biāo)區(qū)域窗口進行池化處理,能夠獲得固定尺寸的目標(biāo)窗口特征,使得僅需對整幅圖像做一次卷積操作,無需對目標(biāo)區(qū)域窗口逐個進行卷積提取特征,相比于傳統(tǒng)方法中耗時較大的對大量目標(biāo)區(qū)域窗口逐個進行卷積提取特征,能夠大大減少識別計算量、提高識別效率,同時避免了如傳統(tǒng)方法中需要剪切、縮放處理而導(dǎo)致圖像信息損失,有效提高了識別精度;
3)本發(fā)明基于具有roi池化的雙cnn網(wǎng)絡(luò)的目標(biāo)識別方法,進一步將全連接層的權(quán)值矩陣采用svd分解技術(shù),可以減少全連接層的參數(shù),進而減少參數(shù)訓(xùn)練學(xué)習(xí)的時間,從而進一步減少識別所需的時間、提高識別效率。
附圖說明
圖1是本實施例基于具有roi池化的雙cnn網(wǎng)絡(luò)的目標(biāo)識別方法的實現(xiàn)原理示意圖。
圖2是本實施例雙cnn網(wǎng)絡(luò)的目標(biāo)識別方法的具體實現(xiàn)流程示意圖。
圖3本發(fā)明具體實施例中雙cnn網(wǎng)絡(luò)的目標(biāo)識別方法的具體實現(xiàn)流程示意圖。
圖4是本實施例中所采用的cnn網(wǎng)絡(luò)中卷積層處理的實現(xiàn)原理示意圖。
圖5是本實施例roi池化層進行池化處理的實現(xiàn)原理示意圖。
圖6是本實施例全連接層進行非線性組合處理的實現(xiàn)原理示意圖。
具體實施方式
以下結(jié)合說明書附圖和具體優(yōu)選的實施例對本發(fā)明作進一步描述,但并不因此而限制本發(fā)明的保護范圍。
如圖1、2所示,本實施例基于具有roi池化的雙cnn網(wǎng)絡(luò)的目標(biāo)識別方法,步驟包括:
s1.圖像數(shù)據(jù)獲取:將待識別圖像通過第一級cnn網(wǎng)絡(luò)獲取目標(biāo)區(qū)域窗口,以及通過具有roi池化層的第二級cnn網(wǎng)絡(luò)獲取待識別圖像的全局特征圖;
s2.roi池化:將獲取到的全局特征圖、目標(biāo)區(qū)域窗口輸入第二級cnn網(wǎng)絡(luò)的roi池化層中進行池化處理,提取出目標(biāo)區(qū)域窗口指定維數(shù)的特征向量;
s3.目標(biāo)檢測識別:將步驟s2提取到的特征向量訓(xùn)練分類器,根據(jù)訓(xùn)練得到的分類器檢測待識別圖像中的目標(biāo),輸出識別結(jié)果。
本實施例綜合考慮目標(biāo)識別的準(zhǔn)確率及識別速度,采用兩級cnn網(wǎng)絡(luò)處理實現(xiàn)雙cnn網(wǎng)絡(luò)架構(gòu)的圖像目標(biāo)識別,通過第一級cnn網(wǎng)絡(luò)排除背景區(qū)域窗口獲取到目標(biāo)區(qū)域窗口信息,對目標(biāo)區(qū)域和背景區(qū)域進行了區(qū)分處理,同時結(jié)合roi池化技術(shù),通過具有roi池化層的第二級cnn網(wǎng)絡(luò)獲取全局特征圖,并將全局特征圖和目標(biāo)區(qū)域窗口一起輸入到roi池化層進行池化處理,能夠大大減少所需數(shù)據(jù)處理量,同時提高識別精度,從而能夠同時滿足目標(biāo)識別速度高以及目標(biāo)識別精度高的需求,尤其適用于實時性要求較高的應(yīng)用場合中,且基于雙cnn網(wǎng)絡(luò)結(jié)構(gòu)便于實現(xiàn)參數(shù)調(diào)節(jié)。
本實施例中,步驟s1中獲取目標(biāo)區(qū)域窗口的具體步驟為:
s11.將待識別圖像通過第一級cnn網(wǎng)絡(luò)的多層卷積層進行卷積處理,分別獲得包含有目標(biāo)區(qū)域窗口、背景區(qū)域窗口的多個區(qū)域窗口;
s12.區(qū)分獲得的多個區(qū)域窗口中目標(biāo)區(qū)域窗口、背景區(qū)域窗口后,去除背景區(qū)域窗口、保留指定個數(shù)的目標(biāo)區(qū)域窗口,輸出對應(yīng)各個目標(biāo)區(qū)域窗口的roi元組。
本實施例中,步驟s11后、步驟s12前還包括確定各個區(qū)域窗口的邊界步驟,即給每個目標(biāo)區(qū)域窗口、背景區(qū)域窗口加一個明確的邊界。本實施例具體采用輪廓估計方法(contourapproximationmethod)來確定各個區(qū)域窗口的邊界。
本實施例中,步驟s12中具體分別對各個區(qū)域窗口的邊界計算iou(intersectionofunit,交疊)值,根據(jù)計算得到的iou值區(qū)分目標(biāo)區(qū)域窗口、背景區(qū)域窗口。本實施例具體將各個區(qū)域窗口的邊界計算得到的iou值與預(yù)設(shè)閾值進行比較,以確定是背景區(qū)域窗口或是目標(biāo)區(qū)域窗口,并確定是否保留該窗口,最后保留得到的即為目標(biāo)區(qū)域窗口核心信息。
如圖3所示,本發(fā)明具體實施例中步驟s1中獲取目標(biāo)區(qū)域窗口的詳細(xì)步驟為:
首先,將輸入的大小為a*a*3的待識別圖像經(jīng)過第一級cnn的卷積處理后,獲得包含有目標(biāo)區(qū)域和背景區(qū)域的窗口特征信息,如圖4所示,其中每一層卷積層處理按如下公式:
其中,x為輸入的圖像,h為卷積核。
然后,將五層卷積層輸出的窗口特征信息經(jīng)過輪廓估計方法處理后給每個目標(biāo)區(qū)域窗口、背景區(qū)域窗口加一個明確的邊界,本實施例輪廓估計方法具體通過直接調(diào)用opencv庫(opensourcecomputervisionlibrary,開源計算機視覺庫)中的cvfindcontours函數(shù)實現(xiàn),也可以采用其他方式實現(xiàn);
再對每個目標(biāo)區(qū)域窗口、背景區(qū)域窗口的邊界計算iou值,并判斷iou值跟閾值的大小,確定是否是目標(biāo)區(qū)域并確定是否保留,以去除所有的背景區(qū)域目標(biāo),同時保留r個大小不等的目標(biāo)區(qū)域目標(biāo)窗口,輸出r個roi元組,從而可以獲得一系列排除背景區(qū)域后鎖定所有目標(biāo)的具有明顯邊界的區(qū)域窗口核心信息roi元組;每個roi元組具體包含(n,r,c,h,w)等信息,其中n表示該窗口的序列號,(r,c)表示該窗口左上角坐標(biāo),(h,w)表示該窗口的高和寬。
本實施例采用上述步驟,利用cnn的局部感受視野特性,通過第一級cnn網(wǎng)絡(luò)排除背景區(qū)域窗口得到目標(biāo)區(qū)域窗口,避免了如傳統(tǒng)方法中需要對背景區(qū)域進行卷積處理,大大減少了數(shù)據(jù)處理量及所需處理時間。
本實施例中,步驟s1中全局特征圖的具體獲取步驟為:將待識別圖像通過第二級cnn網(wǎng)絡(luò)的多層卷積層進行卷積處理,輸出多個三維全局特征圖矩陣,獲取得到待識別圖像的全局特征圖。本實施例具體通過第二級cnn網(wǎng)絡(luò)的5層卷積層的卷積處理,從輸入的待識別圖像中逐層抽取出維度較低且能夠代表圖像的全局特征圖(featuremap),獲得n個h*w*c大小的三維立體的全局特征圖(featuremaps)矩陣,每一層卷積層處理具體如式(1)所示;獲取到全局特征圖(featuremaps)、目標(biāo)窗口信息roi元組后,將獲取的全局特征圖(featuremaps)矩陣、目標(biāo)窗口信息roi元組一起輸入到roi池化層進行池化處理,即可得到目標(biāo)區(qū)域窗口固定長度的特征向量。
本實施例中,步驟s2中roi池化層中進行池化處理的具體步驟為:
s21.獲取一個目標(biāo)區(qū)域窗口作為當(dāng)前目標(biāo)區(qū)域窗口,使用當(dāng)前目標(biāo)區(qū)域窗口所對應(yīng)的roi元組定位當(dāng)前目標(biāo)區(qū)域在全局特征圖中的位置;
s22.在全局特征圖中截取當(dāng)前目標(biāo)區(qū)域的特征矩陣,并使用roi池化層將特征矩陣劃分為指定大小的網(wǎng)格,根據(jù)每個網(wǎng)格中的最大值作為特征值,得到對應(yīng)當(dāng)前目標(biāo)區(qū)域窗口的特征值矩陣;
s23.重復(fù)執(zhí)行步驟s21、s23,得到對應(yīng)每一個目標(biāo)區(qū)域窗口的特征值矩陣。
本實施例roi池化處理中,具體首先利用步驟s1所獲得的roi元組定位目標(biāo)區(qū)域在全局特征圖中的位置,然后在特征圖中截取該目標(biāo)區(qū)域部分的特征矩陣,其中對于任意大小的特征矩陣,roi池化層都將其劃分為h1*w1大小的網(wǎng)格,利用取池化網(wǎng)格中最大的值maxpooling方法獲取每個小網(wǎng)格中的最大值以代表對應(yīng)網(wǎng)格的特征值,每個小網(wǎng)格單元的大小具體是(h/h1)*(w/w1),即可獲取h1*w1個網(wǎng)格小單元,每個網(wǎng)格大小可根據(jù)roi的大小調(diào)整,網(wǎng)格數(shù)目為固定;經(jīng)過上述roi池化層的處理之后,輸入的每一個roi窗口池化成一個固定大小的矩陣h1*w1*c,從而能夠滿足全連接層所需的固定維度的輸入。
如圖5所示,本實施例將第二級cnn的五層卷積層處理原始輸入圖像,獲得n個h*w*c大小的三維立體的全局特征圖(featuremaps)矩陣,n表示卷積核數(shù)目;將獲取的全局特征圖(featuremaps)矩陣、目標(biāo)窗口信息roi元組(r個roi元組,r>>n,每個roi是一個元組(n,r,c,h,w))一起輸入到roi池化層進行池化處理,經(jīng)過roi池化層的處理之后,每一個roi窗口池化成一個固定大小的矩陣h1*w1*c,該特征矩陣代表了目標(biāo)的信息,由最終得到的特征矩陣即可進行后續(xù)的目標(biāo)檢測、識別。
本實施例采用上述步驟,通過具有roi池化層的第二級cnn網(wǎng)絡(luò)將全局特征圖和目標(biāo)區(qū)域窗口進行池化處理,能夠獲得固定尺寸的目標(biāo)窗口特征,使得僅需對整幅圖像做一次卷積操作,無需對目標(biāo)區(qū)域窗口逐個進行卷積提取特征,相比于傳統(tǒng)方法中耗時較大的對大量目標(biāo)區(qū)域窗口逐個進行卷積提取特征,能夠大大減少識別計算量、提高識別效率,同時避免了如傳統(tǒng)方法中需要剪切、縮放處理而導(dǎo)致圖像信息損失,有效提高了識別精度。
本實施例中,步驟s2還包括將各個目標(biāo)區(qū)域窗口的特征值矩陣進行全連接層的非線性組合處理步驟(fc處理),得到目標(biāo)區(qū)域窗口所需的特征向量。通過在roi池化層處理后的全連接層,對固定大小的特征矩陣進行非線性組合,使得可獲得便于后續(xù)分類器所需的特征向量,從而便于對目標(biāo)圖像特征進行分類、識別處理。
本實施例中,進行全連接層的非線性組合處理時,具體采用svd權(quán)值分解方法對原始權(quán)值矩陣進行分解,可以減少全連接層的參數(shù),進而減少參數(shù)訓(xùn)練學(xué)習(xí)的時間,從而進一步減少識別所需的時間、提高識別效率,結(jié)合roi池化技術(shù)以及svd權(quán)值分解技術(shù),能夠最大限度的減少整個圖像目標(biāo)檢測識別過程所需消耗的時間。
如圖6所示,本實施例在全連接層中采用svd權(quán)值分解技術(shù)時,具體按照式(2)將原始的權(quán)值矩陣進行分解;
w≈u∑tvt(2)
其中w是原始fc層的權(quán)值矩陣,經(jīng)過矩陣分解得到公式右邊的三個矩陣u、vt以及∑t,其中u是u*t大小的矩陣,∑t是t*t大小的單位矩陣,vt是t*v大小的矩陣。
本實施例進一步通過調(diào)整參數(shù)t的值使得u,v遠(yuǎn)大于t,能夠使得需要訓(xùn)練學(xué)習(xí)的fc參數(shù)大大減少。
本實施例中,步驟s3中具體將步驟s2提取到的特征向量訓(xùn)練softmax分類器,根據(jù)訓(xùn)練得到的softmax分類器檢測待識別圖像中的目標(biāo),實現(xiàn)最終的分類、識別。softmax回歸模型是logistic回歸模型對多分類問題的推廣得到。
本實施例softmax分類器具體表示為:
其中,i=0,1,2,3..k-1,k表示數(shù)據(jù)集的k個類,ai是由輸入的特征向量計算得到。
softmax分類器的結(jié)果相當(dāng)于輸入圖像被分到每個標(biāo)簽的概率分布,且為單調(diào)遞增函數(shù),即輸入值越大,則輸出也越大,對應(yīng)輸入圖像屬于該標(biāo)簽的概率也越大,因而識別的效果就越明顯。如圖3所示,當(dāng)對輸入圖像經(jīng)過上述具有roi池化的雙cnn網(wǎng)絡(luò)處理后,得到圖像目標(biāo)歸屬于各類的概率p,最終通過概率的大小確定識別結(jié)果,其中由pmax對應(yīng)的類為識別類。
本實施例中,步驟s3后還包括窗口調(diào)整步驟,窗口調(diào)整步驟對窗口大小進行調(diào)整,返回執(zhí)行步驟s2以重新訓(xùn)練分類器,直至達(dá)到預(yù)設(shè)識別效果。若分類器的分類損失函數(shù)值較大,分類效果不好,本實施例進一步根據(jù)目標(biāo)檢測效果的反饋調(diào)整窗口邊界大小,再重新進行分類器訓(xùn)練,直到分類效果明顯為止,具體可采用回歸方法對窗口邊界進行不斷微調(diào)實現(xiàn)。
本實施例進一步采用回歸調(diào)參模塊對網(wǎng)絡(luò)結(jié)構(gòu)進行回歸調(diào)參,返回重新進行分類器訓(xùn)練,以進一步提高識別精度、識別效果。
上述只是本發(fā)明的較佳實施例,并非對本發(fā)明作任何形式上的限制。雖然本發(fā)明已以較佳實施例揭露如上,然而并非用以限定本發(fā)明。因此,凡是未脫離本發(fā)明技術(shù)方案的內(nèi)容,依據(jù)本發(fā)明技術(shù)實質(zhì)對以上實施例所做的任何簡單修改、等同變化及修飾,均應(yīng)落在本發(fā)明技術(shù)方案保護的范圍內(nèi)。