該發(fā)明涉及一種圖像語義分割方法,特別是涉及一種基于深度卷積神經(jīng)網(wǎng)絡(luò)和超像素的圖像語義分割方法。
背景技術(shù):
隨著卷積神經(jīng)網(wǎng)絡(luò)在公開數(shù)據(jù)集上分類錯誤率的不斷下降,研究者開始關(guān)注圖像像素級的分割,即圖像語義分割。語義特征是一種更加高層的特征,將圖像中每一像素標(biāo)記為相應(yīng)的類別,通用方法是通過對圖像區(qū)域判別從而實(shí)現(xiàn)語義分割。Carreira等人、Farabet等人、Girshick等人通過使用超像素等手段把圖像分成若干區(qū)域,通過深度卷積神經(jīng)網(wǎng)絡(luò)提取區(qū)域特征對其分類從而實(shí)現(xiàn)對整幅圖像的語義分割。2015年Long等人基于深度卷積神經(jīng)網(wǎng)絡(luò)模型提出了一種端到端的語義分割模型。基于深度卷積神經(jīng)網(wǎng)絡(luò)的分類模型主要通過卷積層、池化層的堆疊以及最后若干的全連接層,完成特征表達(dá)和分類。為了實(shí)現(xiàn)圖像級的預(yù)測,通過池化操作降低了輸出尺寸,全連接層舍棄了圖像空間信息。
使用卷積層替代分類網(wǎng)絡(luò)中的全連接層,從而保留空間信息,在其后增加反卷積層對特征進(jìn)行上采樣從而實(shí)現(xiàn)逐像素的預(yù)測。該網(wǎng)絡(luò)中的所有操作均可以看作卷積操作,因此稱為Fully convolutional networks(FCN)。Long等人考慮了三種分類性能得到認(rèn)可的模型,通過在訓(xùn)練好的分類網(wǎng)絡(luò)上進(jìn)行語義分割微調(diào)訓(xùn)練,從而減少了對大規(guī)模圖像逐像素標(biāo)記數(shù)據(jù)集的依賴。為了提高分割精度,F(xiàn)CN提出了skip結(jié)構(gòu),綜合低層的細(xì)節(jié)信息和高層的抽象全局信息來通過反卷積對圖像像素進(jìn)行預(yù)測,分割精度得到了改善。Chen等人通過CRF來對分割結(jié)果進(jìn)一步改善。2015年,Hyeonwoo等人基于FCN中反卷積層的思路,提出了對稱的反卷積網(wǎng)絡(luò)模型。通過反卷積層堆疊操作實(shí)現(xiàn)對特征圖像的逐級上采樣,該方法的上采樣不同與FCN網(wǎng)絡(luò)的直接一次上采樣,因此分割精度得到了提高。2016年,Pim等人基于深度卷積神經(jīng)網(wǎng)絡(luò)通過對逐像素進(jìn)行分類實(shí)現(xiàn)語義分割,該方法在MR圖像分割上取得了較好的結(jié)果,且一定程度上解決了圖像像素級標(biāo)注數(shù)據(jù)集較小的問題。通過從幾十張圖像標(biāo)注數(shù)據(jù)集中,可以取出足夠數(shù)量的圖像區(qū)域,用圖像區(qū)域的中心像素類別標(biāo)記該區(qū)域,進(jìn)而訓(xùn)練分類網(wǎng)絡(luò)實(shí)現(xiàn)對像素類別的預(yù)測。采用滑動的方式可以對圖像中每個像素進(jìn)行分類判別,最終實(shí)現(xiàn)對整幅圖像的語義分割。采用多尺度的思想提高分類性能,以待判別像素為中心取三個尺寸的圖像區(qū)域,通過特征提取和融合提高語義分割的魯棒性。雖然基于深度卷積神經(jīng)網(wǎng)絡(luò)的語義分割模型取得了一系列較好的結(jié)果,但是在邊緣等細(xì)節(jié)部分的分割精度仍然較低,需要進(jìn)一步提高。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明克服了現(xiàn)有技術(shù)中,現(xiàn)有語義分割方法的精度仍待提高的問題,提供一種使用效果較好的基于深度卷積神經(jīng)網(wǎng)絡(luò)和超像素的圖像語義分割方法。
本發(fā)明的技術(shù)解決方案是,提供一種具有以下步驟的基于深度卷積神經(jīng)網(wǎng)絡(luò)和超像素的圖像語義分割方法:含有如下步驟:
步驟1:在圖像分類數(shù)據(jù)集上訓(xùn)練一個由圖像到類別標(biāo)簽的深度卷積網(wǎng)絡(luò)分類模型;
步驟2:在深度卷積神經(jīng)網(wǎng)絡(luò)分類模型中加入反卷積層,在圖像語義分割數(shù)據(jù)集上進(jìn)行微調(diào)訓(xùn)練,實(shí)現(xiàn)從圖像到圖像語義分割結(jié)果的映射;
步驟3:將測試圖像輸入深度卷積神經(jīng)網(wǎng)絡(luò)語義分割模型中,得到各個像素的語義標(biāo)簽,同時(shí)將測試圖像送入超像素分割算法,得到若干超像素區(qū)域;
步驟4:把超像素和語義標(biāo)簽進(jìn)行融合,得到最終改善的語義分割結(jié)果。
所述加入反卷積層的具體方法為:訓(xùn)練得到的深度卷積神經(jīng)網(wǎng)絡(luò)包含卷積層、矯正線性單元層、池化層和全連接層等,為了保留特征的空間信息,去掉分類網(wǎng)絡(luò)中的全連接層,在最后一層池化層后面加入反卷積層,對特征上采樣,實(shí)現(xiàn)圖像到圖像語義分割結(jié)果的端到端映射。
所述微調(diào)訓(xùn)練的具體方法為:基于分類網(wǎng)絡(luò)構(gòu)建語義分割模型的過程中,全連接層之前的模型保持不變,同樣是用來特征提取和表達(dá),在語義分割模型訓(xùn)練時(shí),分類網(wǎng)絡(luò)訓(xùn)練好的參數(shù)用來對語義分割模型相應(yīng)參數(shù)初始化;然后在語義分割數(shù)據(jù)集上進(jìn)行端到端的微調(diào)訓(xùn)練,得到語義分割模型。
所述超像素和語義標(biāo)簽進(jìn)行融合的具體方法為:基于卷積神經(jīng)網(wǎng)絡(luò)的語義分割模型得到的語義分割結(jié)果較為粗糙,而超像素對于邊緣等細(xì)節(jié)的保持性較好,對于某個像素的標(biāo)簽,通過其所在超像素區(qū)域所有像素的語義標(biāo)簽的平均作為該超像素的語義結(jié)果,從而糾正了基于卷積神經(jīng)網(wǎng)絡(luò)的圖像語義分割結(jié)果中的錯誤分割結(jié)果。
與現(xiàn)有技術(shù)相比,本發(fā)明基于深度卷積神經(jīng)網(wǎng)絡(luò)和超像素的圖像語義分割方法具有以下優(yōu)點(diǎn):本方法創(chuàng)新性綜合深度卷積神經(jīng)網(wǎng)絡(luò)的高層語義標(biāo)簽和超像素在圖像具有較好目標(biāo)邊緣貼合度的特點(diǎn),提出了一種融合策略,從而改善現(xiàn)有圖像語義分割方法的精度,在圖像識別和應(yīng)用中具有重要意義。
附圖說明
圖1是本發(fā)明基于深度卷積神經(jīng)網(wǎng)絡(luò)和超像素的圖像語義分割方法的流程示意圖。
具體實(shí)施方式
下面結(jié)合附圖和具體實(shí)施方式對本發(fā)明基于深度卷積神經(jīng)網(wǎng)絡(luò)和超像素的圖像語義分割方法作進(jìn)一步說明:如圖所示,本實(shí)施例中含有如下步驟:
步驟1:在圖像分類數(shù)據(jù)集上訓(xùn)練一個由圖像到類別標(biāo)簽的深度卷積網(wǎng)絡(luò)分類模型;
步驟2:在深度卷積神經(jīng)網(wǎng)絡(luò)分類模型中加入反卷積層,在圖像語義分割數(shù)據(jù)集上進(jìn)行微調(diào)訓(xùn)練,實(shí)現(xiàn)從圖像到圖像語義分割結(jié)果的映射;
步驟3:將測試圖像輸入深度卷積神經(jīng)網(wǎng)絡(luò)語義分割模型中,得到各個像素的語義標(biāo)簽,同時(shí)將測試圖像送入超像素分割算法,得到若干超像素區(qū)域;
步驟4:把超像素和語義標(biāo)簽進(jìn)行融合,得到最終改善的語義分割結(jié)果。
步驟1中:在圖像分類數(shù)據(jù)集上,訓(xùn)練一個由圖像到類別標(biāo)簽的深度卷積網(wǎng)絡(luò)分類模型,實(shí)現(xiàn)特征提取和分類的端到端映射,獲得較好的分類結(jié)果。
步驟2中:加入反卷積層的具體方法為:訓(xùn)練得到的深度卷積神經(jīng)網(wǎng)絡(luò)包含卷積層、矯正線性單元(rectified linear units,ReLU)層、池化層和全連接層等,為了保留特征的空間信息,去掉分類網(wǎng)絡(luò)中的全連接層,在最后一層池化層后面加入反卷積層,對特征上采樣,彌補(bǔ)由于池化帶來的圖像特征尺寸降低的特點(diǎn),從而實(shí)現(xiàn)圖像到圖像語義分割結(jié)果的端到端映射。
步驟3中:微調(diào)訓(xùn)練的具體方法為:基于分類網(wǎng)絡(luò)構(gòu)建語義分割模型的過程中,全連接層之前的模型保持不變,同樣是用來特征提取和表達(dá),在語義分割模型訓(xùn)練時(shí),分類網(wǎng)絡(luò)訓(xùn)練好的參數(shù)用來對語義分割模型相應(yīng)參數(shù)初始化。然后在語義分割數(shù)據(jù)集上進(jìn)行端到端的微調(diào)訓(xùn)練,得到語義分割模型。
步驟4中:超像素和語義標(biāo)簽融合的具體方法為:基于卷積神經(jīng)網(wǎng)絡(luò)的語義分割模型得到的語義分割結(jié)果較為粗糙,而超像素對于邊緣等細(xì)節(jié)的保持性較好,對于某個像素的標(biāo)簽,通過其所在超像素區(qū)域所有像素的語義標(biāo)簽的平均作為該像素的語義結(jié)果,從而融合超像素對語義分割結(jié)果中的錯誤分割結(jié)果進(jìn)行了糾正。