本發(fā)明涉及一種圖像分割方法,尤其是一種基于深度語義分割優(yōu)化模型的圖像分割方法。
背景技術(shù):
1、近年來,隨著人工智能算力與人工智能數(shù)據(jù)的快速迭代與發(fā)展,深度學(xué)習(xí)算法在多個領(lǐng)域取得了重大進(jìn)展和突破,特別是在計算機(jī)視覺、自然語言處理、語音處理等領(lǐng)域。圖像分割任務(wù)作為計算機(jī)視覺中的一個重要子任務(wù),其中以語義分割方法為代表的相關(guān)算法在自動駕駛、醫(yī)療影像、土地覆蓋分析、計算攝影、視頻分析等多個領(lǐng)域獲得了越來越多的關(guān)注。
2、然而語義分割模型仍遭受著特征噪聲與特征錯誤的影響。特征錯誤:深度語義分割模型的特征錯誤可以分為淺層特征錯誤和深層特征錯誤,深層特征具有豐富的全局語義信息和語義類別信息,淺層特征則具有豐富的邊緣細(xì)節(jié)信息;然而深層特征錯誤會拉大與類別表征的差距,導(dǎo)致對應(yīng)的圖像區(qū)域預(yù)測錯誤,淺層特征錯誤會引入錯誤的邊界信息,導(dǎo)致預(yù)測結(jié)果無法獲得精細(xì)的圖像邊界;特征噪聲:深度語義分割模型在圖像或數(shù)據(jù)的特征提取過程中,模型錯誤地捕捉到的無關(guān)或錯誤的特征部分,特征噪聲可能表現(xiàn)為分割模型錯誤地將圖像中的一些區(qū)域劃分為錯誤的語義類別,或者在存在遮擋或光照變化的情況下,模型未能正確地捕捉到物體的真實(shí)輪廓和邊界。特征噪聲可能是由于圖像中的干擾、噪聲、光照變化、遮擋等因素引起的,從而干擾了深度分割模型對圖像真實(shí)語義的理解,進(jìn)而導(dǎo)致模型對于圖像中某些區(qū)域的特征提取出現(xiàn)偏差或錯誤。
3、特征噪聲與特征錯誤的存在,導(dǎo)致了語義分割模型精度無法進(jìn)一步提升,且現(xiàn)有優(yōu)化方法多注重于語義分割模型結(jié)構(gòu)的改進(jìn),這種方法不僅需耗費(fèi)更多的時間、資源,而且仍繼續(xù)面臨特征噪聲與特征錯誤的影響,針對性不足。因此,研究如何減少語義分割模型中的特征噪聲與特征錯誤可以進(jìn)一步提升語義分割模型精度,具有實(shí)際研究需求與研究意義。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明所要解決的技術(shù)問題是提供一種基于深度語義分割優(yōu)化模型的圖像分割方法,減少了深度語義分割模型中的特征噪聲或特征錯誤,從而提高了圖像語義分割精度。
2、本發(fā)明解決上述技術(shù)問題所采用的技術(shù)方案為:一種基于深度語義分割優(yōu)化模型的圖像分割方法,包括以下步驟:
3、步驟①,根據(jù)預(yù)設(shè)的訓(xùn)練參數(shù),使用公開的語義分割數(shù)據(jù)集voc2012的訓(xùn)練集和驗(yàn)證集對設(shè)置有編碼器的待訓(xùn)練的深度語義分割模型進(jìn)行訓(xùn)練和驗(yàn)證,得到預(yù)訓(xùn)練的深度語義分割模型;
4、步驟②,通過基于語義類別和區(qū)域邊界偏差修正的優(yōu)化方法或基于局部噪聲消除的優(yōu)化方法對預(yù)訓(xùn)練的深度語義分割模型進(jìn)行優(yōu)化,得到優(yōu)化后的深度語義分割優(yōu)化模型;
5、步驟③,將待檢測的圖像輸入至深度語義分割優(yōu)化模型中進(jìn)行語義分割,得到語義分割結(jié)果。
6、與現(xiàn)有技術(shù)相比,本發(fā)明的優(yōu)點(diǎn)在于基于語義類別和區(qū)域邊界偏差修正的優(yōu)化方法可以消除預(yù)訓(xùn)練的深度語義分割模型中的特征噪聲,基于局部噪聲消除的優(yōu)化方法可以消除預(yù)訓(xùn)練的深度語義分割模型中的特征錯誤,通過對voc?2012數(shù)據(jù)集進(jìn)行驗(yàn)證的實(shí)驗(yàn)結(jié)果表明,使用通過基于語義類別和區(qū)域邊界偏差修正的優(yōu)化方法對unet模型進(jìn)行優(yōu)化后得到的miou比使用原有的unet模型提高了1.4;使用通過基于局部噪聲消除的優(yōu)化方法對segformer模型進(jìn)行優(yōu)化后得到的miou比使用原有的segformer模型提高了1.6,因此本發(fā)明提高了語義分割精度。
7、進(jìn)一步的,所述的步驟②中,通過基于語義類別和區(qū)域邊界偏差修正的優(yōu)化方法對預(yù)訓(xùn)練的深度語義分割模型進(jìn)行優(yōu)化的具體過程如下;
8、步驟i,設(shè)置訓(xùn)練輪次為50次,將公開的語義分割數(shù)據(jù)集voc2012的訓(xùn)練集輸入至預(yù)訓(xùn)練的深度語義分割模型中進(jìn)行訓(xùn)練;
9、步驟ii,通過預(yù)訓(xùn)練的深度語義分割模型中的編碼器提取輸入的圖像的深層特征和淺層特征;
10、步驟iii,根據(jù)類別k的深層特征提取其語義特征中心q,其中,rk表示類別k的深層特征,dk表示類別k的深層特征集合,1≤k≤a,a表示輸入的圖像的類別總數(shù),||·||2表示向量的模長;
11、步驟iv,根據(jù)深層特征和類別k的語義特征中心獲取特征距離損失lsim,lsim=1-d(ck,md),其中,d(ck,md)表示深層特征與類別k的語義特征中心之間的特征距離,ck表示類別k的語義特征中心,md表示深層特征,ck·md中的“·”表示向量乘法;
12、步驟v,構(gòu)建超像素分支,通過超像素分支對淺層特征進(jìn)行上采樣操作,預(yù)測上采樣操作后的淺層特征中每個像素分配到相鄰像素的概率p,p=σ(fsup(ml)),其中,σ(·)表示sigmoid函數(shù),fsup(·)表示超像素分支,ml表示淺層特征;
13、步驟ⅵ,根據(jù)預(yù)測的上采樣操作后的淺層特征中每個像素分配到相鄰像素的概率重建像素特征和像素坐標(biāo),具體的重建操作為:其中,f′(v)表示重建后的像素特征,v表示原始像素坐標(biāo),s表示坐標(biāo)與像素坐標(biāo)v相鄰的像素點(diǎn),nv表示與像素坐標(biāo)v相鄰的像素點(diǎn)集合,v=(x,y),x表示橫坐標(biāo),y表示縱坐標(biāo),f(v)表示原始像素特征,v′表示重建后的像素坐標(biāo);
14、步驟vii,根據(jù)原始像素特征、原始像素坐標(biāo)、重建后的像素特征以及重建后的像素坐標(biāo)獲取超像素?fù)p失lsp,其中,ce(·,·)表示交叉熵?fù)p失函數(shù),m表示權(quán)重平衡項(xiàng),b表示超像素采樣間隔,||·||2表示向量的模長;
15、步驟viii,定義總損失函數(shù)l=α*lsim+β*lsp+lcross_entropy,其中,α和β分別表示平衡參數(shù),α=0.03,β=0.05,lcross_entropy表示交叉熵?fù)p失函數(shù),根據(jù)總損失函數(shù)通過梯度反向傳播算法更新預(yù)訓(xùn)練的深度語義分割模型的網(wǎng)絡(luò)參數(shù),獲取每一輪次訓(xùn)練得出的權(quán)重文件,基于公開的語義分割數(shù)據(jù)集voc2012的驗(yàn)證集對所有權(quán)重文件進(jìn)行驗(yàn)證,篩選出miou值最高的權(quán)重文件,得到該權(quán)重文件所對應(yīng)的優(yōu)化后的深度語義分割優(yōu)化模型。通過特征距離損失迫使類內(nèi)深層特征的錯誤信息向語義特征中心靠近,從而糾正類內(nèi)深層特征同時緩解類內(nèi)特征發(fā)散現(xiàn)象;構(gòu)建的超像素分支利用全卷積網(wǎng)絡(luò)來實(shí)現(xiàn)快速和顯著的結(jié)果,通過上采樣操作并生成每個像素分配到相鄰像素的概率,其概率代表的是不同超像素塊屬于同一物體的概率,即保護(hù)相鄰超像素中淺層特征相似的概率,借助超像素分支,在網(wǎng)絡(luò)的淺層階段捕捉更多的紋理特征,從而提高對語義信息的感知,提升語義分割精度。
16、進(jìn)一步的,步驟vii中,所述的權(quán)重平衡項(xiàng)m=θ.003,所述的超像素采樣間隔b=16。
17、進(jìn)一步的,所述的步驟②中,通過基于局部噪聲消除的優(yōu)化方法對預(yù)訓(xùn)練的深度語義分割模型進(jìn)行優(yōu)化的具體過程如下;
18、步驟(1),設(shè)置訓(xùn)練輪次為50次,將公開的語義分割數(shù)據(jù)集voc2012的訓(xùn)練集輸入至預(yù)訓(xùn)練的深度語義分割模型中進(jìn)行前向傳播;
19、步驟(2),通過預(yù)訓(xùn)練的深度語義分割模型的編碼器提取輸入的圖像的不同深度的特征并記為x,并將x的長記為c、寬記為w、高記為h,對x進(jìn)行形狀變換,將x的寬高維度進(jìn)行合并,得到形狀為[c,hw]的特征矩陣x1和形狀為[hw,?c]的特征矩陣x2,通過公式m1=x2x1得到每個位置特征與全局位置特征的位置特征語義相關(guān)性矩陣m1,通過公式m2=x1x2得到每個特征通道與全局特征通道的通道特征語義相關(guān)性矩陣m2;
20、步驟(3),遍歷m1構(gòu)建不同位置間元素的語義位置圖結(jié)構(gòu)g1:將g1中索引位置為i的元素值所對應(yīng)的x1中的特征向量記為a,其中i∈[0,hw],將g1中索引位置為j的元素值所對應(yīng)的x2中的特征向量記為b,其中j∈[0,hw],判斷a與b之間的相關(guān)性是否大于預(yù)設(shè)的閾值λ,若是,則a和b在g1中互為鄰居,在g1中引入一條邊a→b;若否,則a和b不存在相鄰關(guān)系;
21、步驟(4),遍歷m2構(gòu)建不同通道間元素的語義通道圖結(jié)構(gòu)g2:將g2中索引位置為l的元素值所對應(yīng)的x1中的特征向量記為c,其中l(wèi)∈[0,c],將g2中索引位置為n的元素值所對應(yīng)的x2中的特征向量記為d,其中n∈[0,c],判斷c與d之間的相關(guān)性是否大于預(yù)設(shè)的閾值λ,若是,則c和d在g2中互為鄰居,在g2中引入一條邊c→d;若否,則c和d不存在相鄰關(guān)系;
22、步驟(5),遍歷g1和g2,并將g1和g2中任意一對相鄰節(jié)點(diǎn)對記為(z,u),獲取節(jié)點(diǎn)u對于節(jié)點(diǎn)z的重要性ezu,其中,prelu(·)表示可學(xué)習(xí)非線性激活函數(shù),hu表示節(jié)點(diǎn)u的節(jié)點(diǎn)表征,t表示轉(zhuǎn)置,w表示可學(xué)習(xí)參數(shù),hz表示節(jié)點(diǎn)z的節(jié)點(diǎn)表征;
23、步驟(6),通過softmax函數(shù)將相鄰節(jié)點(diǎn)對(z,u)的重要性轉(zhuǎn)換為值在[0-1]區(qū)間內(nèi)的重要性系數(shù)azu,其中,exp(·)表示以自然常數(shù)e為底的指數(shù)函數(shù),n(z)表示節(jié)點(diǎn)z的鄰居節(jié)點(diǎn)集合,t表示節(jié)點(diǎn)z的鄰居節(jié)點(diǎn),ezt表示節(jié)點(diǎn)t對于節(jié)點(diǎn)z的重要性;
24、步驟(7),對節(jié)點(diǎn)z的鄰居節(jié)點(diǎn)的特征進(jìn)行加權(quán)聚合,得到節(jié)點(diǎn)z的噪聲估計特征表示δxz,其中,σ(·)表示sigmoid函數(shù),k表示相互獨(dú)立的節(jié)點(diǎn)重要性計算過程的總數(shù),xu表示節(jié)點(diǎn)z的鄰居節(jié)點(diǎn)的特征;
25、步驟(8),獲取節(jié)點(diǎn)z的去噪后特征yz,yz=xz-δxz,其中,xz表示節(jié)點(diǎn)z的特征;
26、步驟(9),將節(jié)點(diǎn)z的去噪后特征yz代替節(jié)點(diǎn)z的特征xz,繼續(xù)前向傳播,直到得到預(yù)訓(xùn)練的深度語義分割模型的輸出;
27、步驟(10),根據(jù)交叉熵?fù)p失函數(shù)通過梯度反向傳播算法更新步驟(5)中的可學(xué)習(xí)參數(shù),獲取每一輪次訓(xùn)練得出的權(quán)重文件,基于公開的語義分割數(shù)據(jù)集voc2012的驗(yàn)證集對所有權(quán)重文件進(jìn)行驗(yàn)證,篩選出miou值最高的權(quán)重文件,得到該權(quán)重文件所對應(yīng)的優(yōu)化后的深度語義分割優(yōu)化模型。遍歷每個位置特征與全局位置特征的位置特征語義相關(guān)性矩陣構(gòu)建不同位置間元素的語義位置圖結(jié)構(gòu)可以打破原有不同位置像素特征之間的空間距離約束,更加靈活地刻畫不同位置特征之間的語義關(guān)聯(lián);遍歷每個特征通道與全局特征通道的通道特征語義相關(guān)性矩陣構(gòu)建不同通道間元素的語義通道圖結(jié)構(gòu),可以從特征通道的角度分析不同通道間響應(yīng)圖像模式的相關(guān)性;不但充分考慮了輸入特征在全局范圍內(nèi)的語義關(guān)系,而且有助于更有效地捕捉特征之間的復(fù)雜關(guān)系;利用圖結(jié)構(gòu)數(shù)據(jù)完成局部特征消除,得到更加準(zhǔn)確和泛化的圖像特征。
28、進(jìn)一步的,步驟(3)和步驟(4)中,所述的預(yù)設(shè)的閾值λ=0.5;步驟(7)中,所述的相互獨(dú)立的節(jié)點(diǎn)重要性計算過程的總數(shù)k=8。
29、進(jìn)一步的,步驟①的具體操作過程為:根據(jù)預(yù)設(shè)的訓(xùn)練參數(shù),使用公開的語義分割數(shù)據(jù)集voc2012的訓(xùn)練集根據(jù)交叉熵?fù)p失函數(shù)對設(shè)置有編碼器的待訓(xùn)練的深度語義分割模型進(jìn)行訓(xùn)練,獲取每一輪次訓(xùn)練得出的權(quán)重文件,基于公開的語義分割數(shù)據(jù)集voc2012的驗(yàn)證集對所有權(quán)重文件進(jìn)行驗(yàn)證,篩選出miou值最高的權(quán)重文件,得到該權(quán)重文件所對應(yīng)的預(yù)訓(xùn)練的深度語義分割模型。
30、進(jìn)一步的,所述的預(yù)設(shè)的訓(xùn)練參數(shù)包括訓(xùn)練輪次為50次,初始學(xué)習(xí)率為0.01。