本發(fā)明涉及計算機視覺領域,尤其涉及計算機視覺領域中一種圖像語義分割的方法和裝置。
背景技術:圖像語義分割也可以簡稱為語義分割,是計算機視覺領域的一個重要研究內(nèi)容,即將一幅圖像分割成具有不同語義的區(qū)域,并且標注出每個區(qū)域?qū)儆诘念悇e,例如汽車、樹或人臉等。圖像語義分割可以用于許多應用場合,例如基于內(nèi)容的圖像檢索(ContentBasedImageRetrieval,簡稱為“CBIR”),場景理解與目標定位等。應理解,目標定位就是語義分割的一個特例,只是把分割出的兩個區(qū)域分別標注為前景與背景。傳統(tǒng)的圖像分割(以下簡稱為分割)是非監(jiān)督學習問題,只是將相似的像素劃分到一起,不必利用帶有類別的訓練樣本。傳統(tǒng)的分割技術的研究已經(jīng)有幾十年的歷史,但還是無法準確地分割出目標,在大多數(shù)情況下,目標都被過度分割成了更小的區(qū)域,即過分割。而近年才開始研究的圖像語義分割是一種監(jiān)督學習問題,要利用帶有類別的訓練樣本進行目標識別。圖像語義分割結合了分割與目標識別這兩種技術,能夠?qū)D像分割成具有高級語義內(nèi)容的區(qū)域。例如,通過圖像語義分割,一幅圖像能夠被分割成分別具有“?!?、“草地”和“天空”三種不同語義的區(qū)域。圖像語義分割的一類主要方法是對不同的目標類別建立數(shù)學模型或分類器,例如特征袋、核表觀模型、區(qū)域評分模型以及統(tǒng)計推斷模型等。為了解決一個局部區(qū)域可能具有模棱兩可的不同類別的問題,可以對上下文信息進行建模,在語義的層面上獲得不同目標類別之間的約束關系。但是一般來說,這類基于數(shù)學模型或分類器的方法很難處理目標類別很多時的情形。例如,如果我們的應用場合中包含成千上萬種目標類別時,我們也只能不厭其煩地建立一個個目標類別數(shù)學模型或分類器。另外,如果利用上下文信息,上下文信息的總量也會隨著目標類別的增多而飛速增長。最近一種基于數(shù)據(jù)庫的方法代替建立數(shù)學模型或分類器方法,進行圖像語義分割。這類方法將語義分割問題轉(zhuǎn)化為將輸入圖像與已有的帶標注的圖像集進行匹配的問題。在這類方法中,通過相似性匹配,能夠?qū)⒂柧殘D像庫中的已有樣本的類別進行遷移,用來標注新的樣本。但這個方法需要對訓練樣本中的每一個像素進行手工標注它所屬的類別,這個標注過程費時費力,代價不菲。例如,僅對一幅圖像進行像素級標注大概就要花費15到16分鐘。最近還提出了一種弱監(jiān)督語義分割方法,即不需要像素級標注的圖像庫,而只利用圖像級標注的訓練圖像或參考圖像進行語義分割。相比于其它系統(tǒng)需要對訓練圖像進行繁重的像素標注而言,這種對圖像的粗略標注會更快也會更容易獲得。但是,這類弱監(jiān)督語義分割問題非常具有挑戰(zhàn)性,因為沒有準確的像素級的標注用來學習參考。已有的一些方法主要是依賴于這樣的假設,即具有相似全局表觀的圖像傾向于具有相似的語義內(nèi)容。但是由于目標和場景的變化復雜,這個假設并不總是正確的,從而可能導致比較嚴重的語義誤判和分割誤差。此外,在這類方法中,訓練圖像或參考圖像并沒有和目標圖像一起完成語義分割,而是仍然只保留圖像級的標注。
技術實現(xiàn)要素:本發(fā)明實施例提供了一種圖像語義分割的方法和裝置,能夠準確地對目標圖像進行語義分割。第一方面,提供了一種圖像語義分割的方法,該方法包括:基于圖像的用于表示圖像之間的全局表觀相似性的全局表觀距離和用于表示圖像之間的語義相似性的語義距離,在圖像庫中確定目標圖像的兼容參考集和競爭參考集,該兼容參考集包括的兼容參考圖像與該目標圖像具有相似的全局表觀,該競爭參考集包括的競爭參考圖像與該目標圖像具有相異的全局表觀;將該目標圖像、該兼容參考圖像和該競爭參考圖像中的每一幅圖像分割成多個區(qū)域;基于該目標圖像、該兼容參考圖像和該競爭參考圖像中的每一幅圖像的多個區(qū)域的語義一致性和圖像相關性,確定該目標圖像的區(qū)域的類別。結合第一方面,在第一方面的第一種可能的實現(xiàn)方式中,該方法還包括:基于該目標圖像、該兼容參考圖像和該競爭參考圖像中的每一幅圖像的多個區(qū)域的語義一致性和圖像相關性,確定該兼容參考圖像和該競爭參考圖像的區(qū)域的類別。結合第一方面,在第一方面的第二種可能的實現(xiàn)方式中,該在圖像庫中確定目標圖像的兼容參考集和競爭參考集,包括:將該圖像庫中與該目標圖像的全局表觀距離最近的N幅圖像確定為該目標圖像的兼容參考集,其中,N為自然數(shù),并且該圖像庫Ω中的圖像IΩ(IΩ∈Ω)與該目標圖像It的全局表觀距離DA(IΩ,It)由下列等式(1)確定:其中,為該圖像庫Ω中的圖像IΩ的用于表示圖像IΩ的全局表觀的全局表觀特征,為該目標圖像It的用于表示圖像It的全局表觀的全局表觀特征。結合第一方面,在第一方面的第三種可能的實現(xiàn)方式中,該在圖像庫中確定目標圖像的兼容參考集和競爭參考集,包括:對于該兼容參考集中的一幅兼容參考圖像確定該圖像庫中與該兼容參考圖像的全局表觀距離最遠的K幅圖像其中,K為自然數(shù),n為自然數(shù)且n≤N,N為該兼容參考集包括的兼容參考圖像的數(shù)量;將該K幅圖像中與該兼容參考圖像的語義距離最近的一幅圖像,確定為與該兼容參考圖像相應的競爭參考圖像,其中,該K幅圖像中的圖像與該兼容參考圖像的語義距離由下列等式(2)確定:其中,k為自然數(shù)且k≤K;表示該K幅圖像中的圖像所包括的類別的集合;表示該兼容參考圖像所包括的類別的集合;將與該兼容參考集中的N幅兼容參考圖像分別相應的N幅競爭參考圖像確定為該目標圖像的競爭參考集。結合第一方面,在第一方面的第四種可能的實現(xiàn)方式中,該將該目標圖像、該兼容參考圖像和該競爭參考圖像中的每一幅圖像分割成多個區(qū)域,包括:基于圖像的顏色和紋理的區(qū)域表觀特征,將該目標圖像、該兼容參考圖像和該競爭參考圖像中的每一幅圖像分割成多個區(qū)域。結合第一方面或第一方面的第一種至第四種可能的實現(xiàn)方式中的任一種可能的實現(xiàn)方式,在第一方面的第五種可能的實現(xiàn)方式中,該確定該目標圖像的區(qū)域的類別,包括:確定該目標圖像、該兼容參考圖像和該競爭參考圖像的語義一致性;確定該兼容參考圖像和該競爭參考圖像分別與該目標圖像的圖像相關性;以該語義一致性與該圖像相關性之和最大為目標函數(shù),確定該目標圖像的區(qū)域的類別。結合第一方面的第五種可能的實現(xiàn)方式,在第一方面的第六種可能的實現(xiàn)方式中,該確定該目標圖像、該兼容參考圖像和該競爭參考圖像的語義一致性,包括:由下列等式(3)和(4)確定該目標圖像、該兼容參考圖像和該競爭參考圖像的語義一致性之和C:其中,I表示圖像且It表示該目標圖像,表示該兼容參考圖像,表示該競爭參考圖像;c(I)表示圖像I的語義一致性;s表示圖像I中的一個區(qū)域;Ls表示區(qū)域s可能屬于的類別的集合;xs為用于指示區(qū)域s所屬的類別的二值類別指示向量,且當i=ls時,xs(i)=1,ls為區(qū)域s的類別;s1和s2表示圖像I中的兩個相鄰的區(qū)域;和分別表示區(qū)域s1和s2可能屬于的類別的集合;為用于指示區(qū)域s1和s2分別所屬的類別的二值類別指示矩陣,并且當時,和分別為區(qū)域s1和s2的類別;θs(i)表示區(qū)域s屬于第i個類別的相關程度的程度值;表示相鄰區(qū)域s1和s2分別屬于第i個類別和第j個類別的相關程度的程度值。結合第一方面的第六種可能的實現(xiàn)方式,在第一方面的第七種可能的實現(xiàn)方式中,該區(qū)域s屬于第i個類別的相關程度的程度值θs(i)由該區(qū)域s的基于語義的區(qū)域密度先驗、目標先驗和顯著性先驗確定;該區(qū)域s1和s2分別屬于第i個類別和第j個類別的相關程度的程度值由該區(qū)域s1和s2的一階密度先驗確定。結合第一方面的第七種可能的實現(xiàn)方式,在第一方面的第八種可能的實現(xiàn)方式中,該區(qū)域s的基于語義的區(qū)域密度先驗,由該區(qū)域s在該圖像庫的圖像IΩ中的密度最小的L幅圖像的類別分布統(tǒng)計確定,其中,L為自然數(shù),并且該區(qū)域s在該圖像庫的圖像IΩ中的密度由下列等式(5)確定:其中,m為非零常數(shù);為該圖像庫的圖像IΩ中與該區(qū)域s的距離最近的T個區(qū)域,t為自然數(shù)且t≤T;fs為該區(qū)域s的特征;為該區(qū)域st的特征;其中,該圖像庫的圖像IΩ中的區(qū)域sΩ與該區(qū)域s之間的距離由下列等式(6)確定:其中,為該區(qū)域sΩ的特征。結合第一方面的第五種可能的實現(xiàn)方式,在第一方面的第九種可能的實現(xiàn)方式中,該確定該兼容參考圖像和該競爭參考圖像分別與該目標圖像的圖像相關性,包括:由下列等式(7)至(9)確定該兼容參考圖像和該競爭參考圖像分別與該目標圖像的圖像相關性之和E:E=E1+E2(7)其中,E1表示該兼容參考集包括的所有兼容參考圖像I+與該目標圖像It的圖像相關性之和;E2表示該競爭參考集包括的所有競爭參考圖像I-與該目標圖像It的圖像相關性之和;st、s+和s-分別表示該目標圖像It、該兼容參考圖像I+和該競爭參考圖像I-中的區(qū)域;和分別表示區(qū)域st、s+和s-可能屬于的類別的集合;z+(i,j)為用于指示區(qū)域s+和st分別所屬的類別的二值類別指示矩陣,并且當時,z+(i,j)=1,和分別為區(qū)域s+和st的類別;z-(i,j)為用于指示區(qū)域s-和st分別所屬的類別的二值類別指示矩陣,并且當時,z-(i,j)=1,為區(qū)域s-的類別;和分別由下列等式(10)和(11)確定:其中,和分別表示區(qū)域st、s+和s-的特征。第二方面,提供了一種圖像語義分割的裝置,該裝置包括:第一確定模塊,用于基于圖像的用于表示圖像之間的全局表觀相似性的全局表觀距離和用于表示圖像之間的語義相似性的語義距離,在圖像庫中確定目標圖像的兼容參考集和競爭參考集,該兼容參考集包括的兼容參考圖像與該目標圖像具有相似的全局表觀,該競爭參考集包括的競爭參考圖像與該目標圖像具有相異的全局表觀;分割模塊,用于將該目標圖像、該第一確定模塊確定的該兼容參考圖像和該第一確定模塊確定的該競爭參考圖像中的每一幅圖像分割成多個區(qū)域;第二確定模塊,用于基于該目標圖像、該兼容參考圖像和該競爭參考圖像中的每一幅圖像的多個區(qū)域的語義一致性和圖像相關性,確定該分割模塊將該目標圖像分割成的區(qū)域的類別。結合第二方面,在第二方面的第一種可能的實現(xiàn)方式中,該第二確定模塊還用于:基于該目標圖像、該兼容參考圖像和該競爭參考圖像中的每一幅圖像的多個區(qū)域的語義一致性和圖像相關性,確定該兼容參考圖像和該競爭參考圖像的區(qū)域的類別。結合第二方面,在第二方面的第二種可能的實現(xiàn)方式中,該第一確定模塊包括:第一確定單元,用于將該圖像庫中與該目標圖像的全局表觀距離最近的N幅圖像確定為該目標圖像的兼容參考集,其中,N為自然數(shù),并且該圖像庫Ω中的圖像IΩ(IΩ∈Ω)與該目標圖像It的全局表觀距離DA(IΩ,It)由下列等式(21)確定:其中,為該圖像庫Ω中的圖像IΩ的用于表示圖像IΩ的全局表觀的全局表觀特征,為該目標圖像It的用于表示圖像It的全局表觀的全局表觀特征。結合第二方面,在第二方面的第三種可能的實現(xiàn)方式中,該第一確定模塊包括:第二確定單元,用于對于該兼容參考集中的一幅兼容參考圖像確定該圖像庫中與該兼容參考圖像的全局表觀距離最遠的K幅圖像其中,K為自然數(shù),n為自然數(shù)且n≤N,N為該兼容參考集包括的兼容參考圖像的數(shù)量;第三確定單元,用于將該K幅圖像中與該兼容參考圖像的語義距離最近的一幅圖像,確定為與該兼容參考圖像相應的競爭參考圖像,其中,該K幅圖像中的圖像與該兼容參考圖像的語義距離由下列等式(22)確定:其中,k為自然數(shù)且k≤K;表示該K幅圖像中的圖像所包括的類別的集合;表示該兼容參考圖像所包括的類別的集合;第四確定單元,用于將與該兼容參考集中的N幅兼容參考圖像分別相應的N幅競爭參考圖像確定為該目標圖像的競爭參考集。結合第二方面,在第二方面的第四種可能的實現(xiàn)方式中,該分割模塊用于:基于圖像的顏色和紋理的區(qū)域表觀特征,將該目標圖像、該兼容參考圖像和該競爭參考圖像中的每一幅圖像分割成多個區(qū)域。結合第二方面或第二方面的第一種至第四種可能的實現(xiàn)方式中的任一種可能的實現(xiàn)方式,在第二方面的第五種可能的實現(xiàn)方式中,該第二確定模塊包括:第五確定單元,用于確定該目標圖像、該兼容參考圖像和該競爭參考圖像的語義一致性;第六確定單元,用于確定該兼容參考圖像和該競爭參考圖像分別與該目標圖像的圖像相關性;第七確定單元,用于以該語義一致性與該圖像相關性之和最大為目標函數(shù),確定該目標圖像的區(qū)域的類別。結合第二方面的第五種可能的實現(xiàn)方式,在第二方面的第六種可能的實現(xiàn)方式中,該第五確定單元用于:由下列等式(23)和(24)確定該目標圖像、該兼容參考圖像和該競爭參考圖像的語義一致性之和C:其中,I表示圖像且It表示該目標圖像,表示該兼容參考圖像,表示該競爭參考圖像;c(I)表示圖像I的語義一致性;s表示圖像I中的一個區(qū)域;Ls表示區(qū)域s可能屬于的類別的集合;xs為用于指示區(qū)域s所屬的類別的二值類別指示向量,且當i=ls時,xs(i)=1,ls為區(qū)域s的類別;s1和s2表示圖像I中的兩個相鄰的區(qū)域;和分別表示區(qū)域s1和s2可能屬于的類別的集合;為用于指示區(qū)域s1和s2分別所屬的類別的二值類別指示矩陣,并且當時,和分別為區(qū)域s1和s2的類別;θs(i)表示區(qū)域s屬于第i個類別的相關程度的程度值;表示相鄰區(qū)域s1和s2分別屬于第i個類別和第j個類別的相關程度的程度值。結合第二方面的第六種可能的實現(xiàn)方式,在第二方面的第七種可能的實現(xiàn)方式中,該區(qū)域s屬于第i個類別的相關程度的程度值θs(i)由該區(qū)域s的基于語義的區(qū)域密度先驗、目標先驗和顯著性先驗確定;該區(qū)域s1和s2分別屬于第i個類別和第j個類別的相關程度的程度值由該區(qū)域s1和s2的一階密度先驗確定。結合第二方面的第七種可能的實現(xiàn)方式,在第二方面的第八種可能的實現(xiàn)方式中,該區(qū)域s的基于語義的區(qū)域密度先驗,由該區(qū)域s在該圖像庫的圖像IΩ中的密度最小的L幅圖像的類別分布統(tǒng)計確定,其中,L為自然數(shù),并且該區(qū)域s在該圖像庫的圖像IΩ中的密度由下列等式(25)確定:其中,m為非零常數(shù);為該圖像庫的圖像IΩ中與該區(qū)域s的距離最近的T個區(qū)域,t為自然數(shù)且t≤T;fs為該區(qū)域s的特征;為該區(qū)域st的特征;其中,該圖像庫的圖像IΩ中的區(qū)域sΩ與該區(qū)域s之間的距離由下列等式(26)確定:其中,為該區(qū)域sΩ的特征。結合第二方面的第五種可能的實現(xiàn)方式,在第二方面的第九種可能的實現(xiàn)方式中,該第六確定單元用于:由下列等式(27)至(29)確定該兼容參考圖像和該競爭參考圖像分別與該目標圖像的圖像相關性之和E:E=E1+E2(27)其中,E1表示該兼容參考集包括的所有兼容參考圖像I+與該目標圖像It的圖像相關性之和;E2表示該競爭參考集包括的所有競爭參考圖像I-與該目標圖像It的圖像相關性之和;st、s+和s-分別表示該目標圖像It、該兼容參考圖像I+和該競爭參考圖像I-中的區(qū)域;和分別表示區(qū)域st、s+和s-可能屬于的類別的集合;z+(i,j)為用于指示區(qū)域s+和st分別所屬的類別的二值類別指示矩陣,并且當時,z+(i,j)=1,和分別為區(qū)域s+和st的類別;z-(i,j)為用于指示區(qū)域s-和st分別所屬的類別的二值類別指示矩陣,并且當時,z-(i,j)=1,為區(qū)域s-的類別;和分別由下列等式(30)和(31)確定:其中,和分別表示區(qū)域st、s+和s-的特征。基于上述技術方案,本發(fā)明實施例的圖像語義分割的方法和裝置,通過在圖像庫中采用與目標圖像具有相似的全局表觀的兼容參考集,以及與目標圖像具有相異的全局表觀且與兼容參考集具有相似語義的競爭參考集作為參考集,能夠為目標圖像的分割提供互補信息以減少語義的誤判,從而能夠采用目標圖像、兼容參考圖像和競爭參考圖像中的每一幅圖像的多個區(qū)域的語義一致性和圖像相關性,確定目標圖像的區(qū)域的類別,由此能夠獲得準確的語義分割,以及更加符合語義感知的圖像內(nèi)容。附圖說明為了更清楚地說明本發(fā)明實施例的技術方案,下面將對本發(fā)明實施例中所需要使用的附圖作簡單地介紹,顯而易見地,下面所描述的附圖僅僅是本發(fā)明的一些實施例,對于本領域普通技術人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖1是根據(jù)本發(fā)明實施例的圖像語義分割的方法的示意性流程圖。圖2是根據(jù)本發(fā)明實施例的圖像語義分割的方法的另一示意性流程圖。圖3是根據(jù)本發(fā)明實施例的確定目標圖像的兼容參考集和競爭參考集的方法的示意性流程圖。圖4是根據(jù)本發(fā)明實施例的確定該目標圖像的區(qū)域的類別的方法的示意性流程圖。圖5是根據(jù)本發(fā)明實施例的圖像語義分割的裝置的示意性框圖。圖6是根據(jù)本發(fā)明實施例的圖像語義分割的裝置的另一示意性框圖。圖7是根據(jù)本發(fā)明實施例的第一確定模塊的示意性框圖。圖8是根據(jù)本發(fā)明實施例的第二確定模塊的示意性框圖。圖9是根據(jù)本發(fā)明實施例的圖像語義分割的裝置的再一示意性框圖。具體實施方式下面將結合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例是本發(fā)明的一部分實施例,而不是全部實施例?;诒景l(fā)明中的實施例,本領域普通技術人員在沒有做出創(chuàng)造性勞動的前提下所獲得的所有其他實施例,都應屬于本發(fā)明保護的范圍。圖1示出了根據(jù)本發(fā)明實施例的圖像語義分割的方法100的示意性流程圖。如圖1所示,該方法100包括:S110,基于圖像的用于表示圖像之間的全局表觀相似性的全局表觀距離和用于表示圖像之間的語義相似性的語義距離,在圖像庫中確定目標圖像的兼容參考集和競爭參考集,該兼容參考集包括的兼容參考圖像與所述目標圖像具有相似的全局表觀,該競爭參考集包括的競爭參考圖像與所述目標圖像具有相異的全局表觀;S120,將該目標圖像、該兼容參考圖像和該競爭參考圖像中的每一幅圖像分割成多個區(qū)域;S130,基于該目標圖像、該兼容參考圖像和該競爭參考圖像中的每一幅圖像的多個區(qū)域的語義一致性和圖像相關性,確定該目標圖像的區(qū)域的類別。具體而言,為了對目標圖像進行圖像語義分割,圖像語義分割的裝置可以在圖像庫中搜索或選擇用于圖像語義分割的訓練圖像或參考圖像,例如,圖像語義分割的裝置可以基于圖像的全局表觀距離和語義距離,在圖像庫中確定目標圖像的兼容參考集和競爭參考集,該兼容參考集包括的圖像可以與目標圖像具有相似的全局表觀,而競爭參考集包括的圖像可以與目標圖像具有相異的全局表觀,且與兼容參考集包括的其中一個兼容參考圖像具有相似的圖像級標注,即競爭參考集包括的圖像可以與目標圖像具有相異的全局表觀且與兼容參考集包括的兼容參考圖像具有相似的語義;從而圖像語義分割的裝置可以將該目標圖像、該兼容參考集包括的兼容參考圖像和該競爭參考集包括的競爭參考圖像過度中的每一幅圖像分割成多個區(qū)域,從而可以基于該目標圖像、該兼容參考圖像和該競爭參考圖像中的每一幅圖像的多個區(qū)域的語義一致性和圖像相關性,確定該目標圖像的區(qū)域的類別。因此,本發(fā)明實施例的圖像語義分割的方法,通過在圖像庫中采用與目標圖像具有相似的全局表觀的兼容參考集,以及與目標圖像具有相異的全局表觀且與兼容參考集具有相似語義的競爭參考集作為參考集,能夠為目標圖像的分割提供互補信息以減少語義的誤判,從而能夠采用目標圖像、兼容參考圖像和競爭參考圖像中的每一幅圖像的多個區(qū)域的語義一致性和圖像相關性,確定目標圖像的區(qū)域的類別,由此能夠獲得準確的語義分割,以及更加符合語義感知的圖像內(nèi)容。此外,根據(jù)本發(fā)明實施例的圖像語義分割的方法,采用的圖像庫可以是具有圖像級標注的訓練圖像庫,從而不需要對訓練圖像庫進行繁重的手工像素級標注,省時省力。在本發(fā)明實施例中,可選地,如圖2所示,該方法100還包括:S140,基于該目標圖像、該兼容參考圖像和該競爭參考圖像中的每一幅圖像的多個區(qū)域的語義一致性和圖像相關性,確定該兼容參考圖像和該競爭參考圖像的區(qū)域的類別。即在本發(fā)明實施例中,圖像語義分割的裝置可以在基于該目標圖像、該兼容參考圖像和該競爭參考圖像中的每一幅圖像的多個區(qū)域的語義一致性和圖像相關性,確定該目標圖像的區(qū)域的類別的同時,還可以基于該目標圖像、該兼容參考圖像和該競爭參考圖像中的每一幅圖像的多個區(qū)域的語義一致性和圖像相關性,確定該兼容參考圖像和該競爭參考圖像的區(qū)域的類別。因此,根據(jù)本發(fā)明實施例的圖像語義分割的方法,能夠為目標圖像的分割提供互補信息以減少語義的誤判,從而能夠采用目標圖像、兼容參考圖像和競爭參考圖像中的每一幅圖像的多個區(qū)域的語義一致性和圖像相關性,確定目標圖像的區(qū)域的類別,由此能夠獲得準確的語義分割,以及更加符合語義感知的圖像內(nèi)容;并且還能夠同時對無標注的目標圖像以及帶圖像級標注的參考圖像進行聯(lián)合語義分割。下文中將結合圖3和圖4,詳細描述根據(jù)本發(fā)明實施例的圖像語義分割的方法如何對目標圖像和/或參考圖像進行圖像語義分割。在S110中,圖像語義分割的裝置可以基于圖像的全局表觀距離和語義距離,在圖像庫中確定目標圖像的兼容參考集和競爭參考集。在本發(fā)明實施例中,該圖像庫可以是具有圖像級標注的圖像庫,即該圖像庫包括的圖像具有圖像級標注。該圖像庫可以通過手工標定網(wǎng)絡上采集的圖像而獲得,也可以直接利用網(wǎng)絡上已經(jīng)出現(xiàn)的大量帶圖像級標注的圖像獲得,例如可以通過采集谷歌(Google)上的圖像級標注的圖像而獲得。應理解,本發(fā)明實施例僅以具有圖像級標注的圖像庫為例進行說明,但本發(fā)明實施例并不限于此,例如,該圖像庫包括的圖像還可以具有部分或全部的像素級標注。還應理解,在本發(fā)明實施例中,圖像級標注可以表示標注圖像所包括的目標類別,像素級標注可以表示標注圖像中的像素所屬的類別。在本發(fā)明實施例中,圖像的全局表觀距離用于表示圖像之間的全局表觀相似性,例如,全局表觀距離越小,可以表示圖像之間的全局表觀相似性越高,即圖像之間的全局表觀越相似;類似地,圖像的語義距離用于表示圖像之間的語義相似性,例如,語義距離越小,可以表示圖像之間的語義相似性越低,即圖像之間的語義越不相似。在本發(fā)明實施例中,兼容參考集可以表示與目標圖像具有相似的全局表觀的圖像的集合;競爭參考集可以表示與目標圖像具有相異的全局表觀的圖像的集合,其中,競爭參考集包括的競爭參考圖像可以與兼容參考集包括的其中一個兼容參考圖像具有相似的圖像級標注。從而兼容參考集和競爭參考集可以為目標圖像的語義分割提供互補的信息以減少語義的誤判,從而能夠獲得準確的語義分割,以及更加符合語義感知的圖像內(nèi)容。在本發(fā)明實施例中,可選地,該在圖像庫中確定目標圖像的兼容參考集和競爭參考集,包括:將該圖像庫中與該目標圖像的全局表觀距離最近的N幅圖像確定為該目標圖像的兼容參考集,其中,N為自然數(shù),并且該圖像庫Ω中的圖像IΩ(IΩ∈Ω)與該目標圖像It的全局表觀距離DA(IΩ,It)由下列等式(1)確定:其中,為該圖像庫Ω中的圖像IΩ的用于表示圖像IΩ的全局表觀的全局表觀特征,為該目標圖像It的用于表示圖像It的全局表觀的全局表觀特征。應理解,在本發(fā)明實施例中,全局表觀特征用于表示圖像的全局表觀,也即圖像的全局表觀的特征;區(qū)域表觀特征用于表示圖像的區(qū)域表觀,也即圖像的區(qū)域表觀的特征,但本發(fā)明并不限于此。即對于一幅無標注的目標圖像It,可以基于等式(1),在圖像庫Ω中搜索與目標圖像It的全局表觀距離最近的一些圖像,作為兼容參考集包括的兼容參考圖像。其中,圖像的全局表觀特征可以為任何用于衡量圖像的全局表觀特征,例如,在本發(fā)明實施例中,圖像的全局表觀特征f可以為梯度方向直方圖(HistogramofOrientedGradients,簡稱為“HOG”)特征fHOG和GIST特征fGIST的組合[fHOG,fGIST]。還應理解,在等式(1)中,符號可以表示向量的范數(shù),或者也可以稱為向量的模數(shù)或長度,但本發(fā)明并不限于此。在本發(fā)明實施例中,可選地,如圖3所示,在圖像庫中確定目標圖像的兼容參考集和競爭參考集的方法110,包括:S111,對于該兼容參考集中的一幅兼容參考圖像確定該圖像庫中與該兼容參考圖像的全局表觀距離最遠的K幅圖像其中,K為自然數(shù),n為自然數(shù)且n≤N,N為該兼容參考集包括的兼容參考圖像的數(shù)量;S112,將該K幅圖像中與該兼容參考圖像的語義距離最近的一幅圖像,確定為與該兼容參考圖像相應的競爭參考圖像,其中,該K幅圖像中的圖像與該兼容參考圖像的語義距離由下列等式(2)確定:其中,k為自然數(shù)且k≤K;表示該K幅圖像中的圖像所包括的類別的集合;表示該兼容參考圖像所包括的類別的集合;S113,將與該兼容參考集中的N幅兼容參考圖像分別相應的N幅競爭參考圖像確定為該目標圖像的競爭參考集。具體而言,在本發(fā)明實施例中,對于兼容參考集中的每一幅兼容參考圖像n為自然數(shù)且n≤N,N為該兼容參考集包括的兼容參考圖像的數(shù)量,例如可以基于等式(1)所示的全局表觀距離,分別確定該圖像庫中與該兼容參考圖像的全局表觀距離最遠或距離值最大的K幅圖像其中,K為自然數(shù),例如,K為圖像庫Ω中包括的圖像總數(shù)的1/10。在確定的K幅圖像中,可以再根據(jù)圖像之間的語義距離,將該K幅圖像中與該兼容參考圖像的語義距離最近或距離值最小的一幅圖像,確定為與該兼容參考圖像相應的競爭參考圖像。例如,根據(jù)等式(2)所示的語義距離,確定與兼容參考圖像相應的競爭參考圖像。應理解,在等式(2)中,|T(·)|表示類別的集合中包括的類別的數(shù)量,例如,表示K幅圖像中的圖像所包括的類別的數(shù)量;表示該兼容參考圖像所包括的類別的數(shù)量。從而可以確定與該兼容參考集中的N幅兼容參考圖像分別相應的N幅競爭參考圖像,由此該N幅競爭參考圖像形成用于目標圖像的圖像語義分割的競爭參考集。即對于每一幅兼容參考圖像,都可以確定一幅與之相應的競爭參考圖像,也即兼容參考集與競爭參考集的大小相同。但應理解,本發(fā)明實施例僅以兼容參考集與競爭參考集的大小相同為例進行說明,本發(fā)明并不限于此,兼容參考集與競爭參考集的大小也可以不同。例如對于每一幅兼容參考圖像,也可以確定兩幅或更多的與之相應的競爭參考圖像。還應理解,可以事先離線完成圖像庫Ω中所有圖像之間的語義距離的計算,從而能夠快速地確定與每幅兼容參考圖相應的競爭參考圖像。在本發(fā)明實施例中,可以基于圖像的全局表觀距離和語義距離,確定目標圖像的兼容參考集和競爭參考集,而圖像之間的全局表觀距離可以由等式(1)確定,圖像之間的語義距離可以由等式(2)確定。但應理解,本發(fā)明實施例僅以等式(1)和(2)為例進行說明,但本發(fā)明并不限于此,圖像之間的全局表觀距離和語義距離還可以采用其它特征或采用其它函數(shù)進行表示;還應理解,在本發(fā)明實施例中,還可以基于圖像之間的其它距離度量,在圖像庫中確定目標圖像的兼容參考集和競爭參考集,本發(fā)明并不限于此。在S120中,圖像語義分割的裝置將該目標圖像、該兼容參考圖像和該競爭參考圖像中的每一幅圖像分割成多個區(qū)域??蛇x地,圖像語義分割的裝置基于圖像的顏色和紋理的區(qū)域表觀特征,將該目標圖像、該兼容參考圖像和該競爭參考圖像中的每一幅圖像分割成多個區(qū)域。例如,圖像語義分割的裝置可以基于圖切割方法、正規(guī)切割方法等,對目標圖像、兼容參考圖像和競爭參考圖像進行過度分割,形成多個區(qū)域。應理解,在本發(fā)明實施例中,可以采用任何基于圖像的顏色和/或紋理的區(qū)域表觀特征的分割方法,對目標圖像、兼容參考圖像和競爭參考圖像進行過度分割,本發(fā)明實施例并不限于此。還應理解,在本發(fā)明實施例中,可以離線對圖像庫Ω中的每一幅圖像進行過分割,并僅對目標圖像進行在線過分割,從而能夠縮短圖像語義分割的處理時間,并簡化圖像語義分割。在S130中,圖像語義分割的裝置可以基于該目標圖像、該兼容參考圖像和該競爭參考圖像中的每一幅圖像的多個區(qū)域的語義一致性和圖像相關性,確定該目標圖像的區(qū)域的類別。例如,圖像語義分割的裝置可以基于該目標圖像、該兼容參考圖像和該競爭參考圖像的語義一致性之和,以及兼容參考圖像和競爭參考圖像分別與目標圖像的圖像相關性之和,確定該目標圖像的區(qū)域的類別。具體地,在本發(fā)明實施例中,可選地,如圖4所示,根據(jù)本發(fā)明實施例的確定該目標圖像的區(qū)域的類別的方法130,包括:S131,確定該目標圖像、該兼容參考圖像和該競爭參考圖像的語義一致性;S132,確定該兼容參考圖像和該競爭參考圖像分別與該目標圖像的圖像相關性;S133,以該語義一致性與該圖像相關性之和最大為目標函數(shù),確定該目標圖像的區(qū)域的類別。在S131中,可選地,該確定該目標圖像、該兼容參考圖像和該競爭參考圖像的語義一致性,包括:由下列等式(3)和(4)確定該目標圖像、該兼容參考圖像和該競爭參考圖像的語義一致性之和C:其中,I表示圖像且It表示該目標圖像,表示該兼容參考圖像,表示該競爭參考圖像;c(I)表示圖像I的語義一致性;s表示圖像I中的一個區(qū)域;Ls表示區(qū)域s可能屬于的類別的集合;xs為用于指示區(qū)域s所屬的類別的二值類別指示向量,且當i=ls時,xs(i)=1,ls為區(qū)域s的類別;s1和s2表示圖像I中的兩個相鄰的區(qū)域;和分別表示區(qū)域s1和s2可能屬于的類別的集合;為用于指示區(qū)域s1和s2分別所屬的類別的二值類別指示矩陣,并且當時,和分別為區(qū)域s1和s2的類別;θs(i)表示區(qū)域s屬于第i個類別的相關程度的程度值;表示相鄰區(qū)域s1和s2分別屬于第i個類別和第j個類別的相關程度的程度值。應理解,θs(i)表示區(qū)域s屬于第i個類別的相關程度的程度值,該程度值越大,說明區(qū)域s屬于第i個類別的可能性就越大;表示相鄰區(qū)域s1和s2分別屬于第i個類別和第j個類別的相關程度的程度值,該程度值越大,說明相鄰區(qū)域s1和s2分別屬于第i個類別和第j個類別的可能性就越大。還應理解,θs也可以稱為區(qū)域s的一元勢能;也可以稱為相鄰區(qū)域s1和s2的二元勢能。在本發(fā)明實施例中,可選地,該區(qū)域s屬于第i個類別的相關程度的程度值θs(i)由該區(qū)域s的基于語義的區(qū)域密度先驗、目標先驗和顯著性先驗確定;該區(qū)域s1和s2分別屬于第i個類別和第j個類別的相關程度的程度值由該區(qū)域s1和s2的一階密度先驗確定。應理解,區(qū)域s的目標先驗可以由下列方法確定:例如,將Ls中的第i個類別定義為目標,將其它類別定義為背景,利用圖像庫學習出目標與背景的判別模型,從而用該判別模型對該區(qū)域s進行打分,并可以將分值確定為該區(qū)域s的目標先驗。但本發(fā)明實施例并不限于此,還可以采用其它方法確定區(qū)域s的目標先驗。應理解,區(qū)域s的顯著性先驗可以由下列方法確定:將該區(qū)域s與周圍相鄰區(qū)域進行基于直方圖和基于區(qū)域的對比度分析,確定區(qū)域s在它所在圖像I上的顯著性程度;并對圖像庫中具有相似顯著性程度的區(qū)域所在圖像進行類別分布統(tǒng)計,從而確定該區(qū)域s的顯著性先驗。但本發(fā)明實施例并不限于此,還可以采用其它方法確定區(qū)域s的顯著性先驗。在本發(fā)明實施例中,區(qū)域s的基于語義的區(qū)域密度先驗例如可以由下列方法確定:首先對于圖像I中的區(qū)域s,估計它在圖像庫中每一幅圖像中的密度,該密度可以為該區(qū)域s與它在該圖像的一些鄰近區(qū)域之間的平均相似度;然后可以根據(jù)密度,按降序排列圖像庫中的所有圖像;由此可以將前幾幅圖像(例如,圖像庫包括的圖像總數(shù)的1/20)的類別分布統(tǒng)計作為區(qū)域s的基于語義的區(qū)域密度先驗。即,在本發(fā)明實施例中,可選地,該區(qū)域s的基于語義的區(qū)域密度先驗,由該區(qū)域s在該圖像庫的圖像IΩ中的密度最小的L幅圖像的類別分布統(tǒng)計確定,其中,L為自然數(shù),并且該區(qū)域s在該圖像庫的圖像IΩ中的密度由下列等式(5)確定:其中,m為非零常數(shù);為該圖像庫的圖像IΩ中與該區(qū)域s的距離最近的T個區(qū)域,t為自然數(shù)且t≤T;fs為該區(qū)域s的特征;為該區(qū)域st的特征;其中,該圖像庫的圖像IΩ中的區(qū)域sΩ與該區(qū)域s之間的距離由下列等式(6)確定:其中,為該區(qū)域sΩ的特征。應理解,該區(qū)域s1和s2的一階密度先驗可以由下列等式確定:其中,表示相鄰區(qū)域s1和s2在圖像庫Ω中的密度,并且可以由下列等式確定:其中,a為非零常數(shù);為圖像庫中與相鄰區(qū)域s1和s2距離最近的G個相鄰區(qū)域?qū)?;其中,圖像庫中的相鄰區(qū)域?qū)εc該相鄰區(qū)域s1和s2之間的距離由下式確定:其中,為該相鄰區(qū)域s1和s2的聯(lián)合特征;為該圖像庫中的相鄰區(qū)域?qū)Φ穆?lián)合特征;相應地,為該相鄰區(qū)域?qū)Φ穆?lián)合特征。還應理解,本發(fā)明實施例僅以此為例進行說明,但本發(fā)明并不限于此,根據(jù)本發(fā)明實施例的圖像語義分割的方法還可以采用其它方法確定該區(qū)域s的基于語義的區(qū)域密度先驗、目標先驗和顯著性先驗,并可以采用其它方法確定該區(qū)域s1和s2的一階密度先驗。在S132中,可選地,該確定該兼容參考圖像和該競爭參考圖像分別與該目標圖像的圖像相關性,包括:由下列等式(7)至(9)確定該兼容參考圖像和該競爭參考圖像分別與該目標圖像的圖像相關性之和E:E=E1+E2(7)其中,E1表示該兼容參考集包括的所有兼容參考圖像I+與該目標圖像It的圖像相關性之和;E2表示該競爭參考集包括的所有競爭參考圖像I-與該目標圖像It的圖像相關性之和;st、s+和s-分別表示該目標圖像It、該兼容參考圖像I+和該競爭參考圖像I-中的區(qū)域;和分別表示區(qū)域st、s+和s-可能屬于的類別的集合;z+(i,j)為用于指示區(qū)域s+和st分別所屬的類別的二值類別指示矩陣,并且當時,z+(i,j)=1,和分別為區(qū)域s+和st的類別;z-(i,j)為用于指示區(qū)域s-和st分別所屬的類別的二值類別指示矩陣,并且當時,z-(i,j)=1,為區(qū)域s-的類別;和分別由下列等式(10)和(11)確定:其中,和分別表示區(qū)域st、s+和s-的特征。在S133中,圖像語義分割的裝置以該語義一致性與該圖像相關性之和最大為目標函數(shù),確定該目標圖像的區(qū)域的類別。在S140中,圖像語義分割的裝置以該目標圖像、該兼容參考圖像和該競爭參考圖像的語義一致性,以及該兼容參考圖像和該競爭參考圖像分別與該目標圖像的圖像相關性之和最大為目標函數(shù),確定該兼容參考圖像和該競爭參考圖像的區(qū)域的類別。具體而言,可以將目標圖像、兼容參考集包括的兼容參考圖像和競爭參考集包括的競爭參考圖像的區(qū)域作為圖模型的頂點,這些區(qū)域的類別是未知量。一幅圖像的語義一致性可以由一元勢能和二元勢能表示,即由圖像的統(tǒng)計先驗表示;兼容參考圖像和該競爭參考圖像分別與該目標圖像的圖像相關性可以由兼容邊和競爭邊來表示,每一個兼容邊連接著目標圖像和一幅兼容參考圖像上相似位置上的兩個區(qū)域,每一個競爭邊以同樣的方式連接目標圖像和一幅競爭參考圖像上的兩個區(qū)域。該目標圖像、該兼容參考圖像和該競爭參考圖像的語義一致性之和C可以由上述等式(3)和(4)確定,但應理解,除了上文中對xs(i)和所做的約束之外,為了使得它們指示的類別相一致,xs(i)和還需要滿足下列等式(12)和(13):其中,s1和s2表示圖像I中的兩個相鄰的區(qū)域;和分別為二值類別指示向量,且當時,且當時,因此,上述等式(3)和(4)以及約束條件(12)和(13)一起可以由以矩陣符號體現(xiàn)的等式(14)表示:ΘTx+ΦTys.t.Hx=e,Ax=By,x,y∈{0,1}(14)其中,x是一個長向量,由目標圖像、兼容參考圖像和競爭參考圖像中的所有區(qū)域的二值類標指示向量串連而成;類似地,y也是一個長向量,由所有二值類標指示矩陣串連而成;x和y分別表示x和y中的元素;e為一個全1向量,而H,A和B分別為系數(shù)矩陣。該兼容參考圖像和該競爭參考圖像分別與該目標圖像的圖像相關性之和E可以由上述等式(7)至(9)確定,但應理解,除了上文中的約束之外,為了使得z+(i,j)與和它們指示的類別相一致,還需要滿足下列等式(15)和(16):類似地,z-(i,j)需要與和它們指示的類別相一致。因此,上述等式(7)至(9)以及上述約束條件一起可以由以矩陣符號體現(xiàn)的等式(17)表示:ΨTz++ΓTz-s.t.Cz+=Dx,C′z-=D′x,x,z+,z-∈{0,1}(17)其中,z+和z-分別為由所有二值類標指示矩陣串連而成的長向量;z+和z-分別表示z+和z-中的元素;C,C′,D和D′分別為系數(shù)矩陣。因此,結合等式(14)和(16)可以得到完整表達式(18):上述整數(shù)規(guī)劃問題可以被松弛為一個線性規(guī)劃問題。應理解,許多算法都可用于求解線性規(guī)劃問題,得到的類標指示向量x就確定了目標圖像、兼容參考圖像和競爭參考圖像中所有區(qū)域的類別,例如,該線性規(guī)劃問題可以采用內(nèi)點法進行求解。應理解,目標圖像和兼容參考集之間的圖像相關性可以理解為:假如目標圖像中的一個區(qū)域與一幅兼容參考集圖像中對應位置的區(qū)域具有相似的表觀或特征,則這兩個區(qū)域?qū)儆谕活惖目赡苄跃痛螅活愃频?,目標圖像和競爭參考集之間的圖像相關性可以理解為:假如目標圖像中的一個區(qū)域與一幅競爭參考集圖像中對應位置的區(qū)域具有相異的表觀,兩個區(qū)域?qū)儆诓煌惖目赡苄跃痛?。還應理解,在本發(fā)明的各種實施例中,上述各過程的序號的大小并不意味著執(zhí)行順序的先后,各過程的執(zhí)行順序應以其功能和內(nèi)在邏輯確定,而不應對本發(fā)明實施例的實施過程構成任何限定。因此,本發(fā)明實施例的圖像語義分割的方法,通過在圖像庫中采用與目標圖像具有相似的全局表觀的兼容參考集,以及與目標圖像具有相異的全局表觀且與兼容參考集具有相似語義的競爭參考集作為參考集,能夠為目標圖像的分割提供互補信息以減少語義的誤判,從而能夠采用目標圖像、兼容參考圖像和競爭參考圖像中的每一幅圖像的多個區(qū)域的語義一致性和圖像相關性,確定目標圖像的區(qū)域的類別,由此能夠獲得準確的語義分割,以及更加符合語義感知的圖像內(nèi)容。此外,根據(jù)本發(fā)明實施例的圖像語義分割的方法,采用的圖像庫可以是具有圖像級標注的訓練圖像庫,從而不需要對訓練圖像庫進行繁重的手工像素級標注,省時省力;并且根據(jù)本發(fā)明實施例的圖像語義分割的方法,能夠同時對無標注的目標圖像以及帶圖像級標注的參考圖像進行聯(lián)合語義分割。上文中結合圖1至圖4,詳細描述了根據(jù)本發(fā)明實施例的圖像語義分割的方法,下面將結合圖5至圖9,詳細描述根據(jù)本發(fā)明實施例的圖像語義分割的裝置。圖5示出了根據(jù)本發(fā)明實施例的圖像語義分割的裝置500的示意性框圖。如圖5所示,該裝置500包括:第一確定模塊510,用于基于圖像的用于表示圖像之間的全局表觀相似性的全局表觀距離和用于表示圖像之間的語義相似性的語義距離,在圖像庫中確定目標圖像的兼容參考集和競爭參考集,該兼容參考集包括的兼容參考圖像與該目標圖像具有相似的全局表觀,該競爭參考集包括的競爭參考圖像與該目標圖像具有相異的全局表觀;分割模塊520,用于將該目標圖像、該第一確定模塊510確定的該兼容參考圖像和該第一確定模塊510確定的該競爭參考圖像中的每一幅圖像分割成多個區(qū)域;第二確定模塊530,用于基于該目標圖像、該兼容參考圖像和該競爭參考圖像中的每一幅圖像的多個區(qū)域的語義一致性和圖像相關性,確定該分割模塊520將該目標圖像分割成的區(qū)域的類別。因此,本發(fā)明實施例的圖像語義分割的裝置,通過在圖像庫中采用與目標圖像具有相似的全局表觀的兼容參考集,以及與目標圖像具有相異的全局表觀且與兼容參考集具有相似語義的競爭參考集作為參考集,能夠為目標圖像的分割提供互補信息以減少語義的誤判,從而能夠采用目標圖像、兼容參考圖像和競爭參考圖像中的每一幅圖像的多個區(qū)域的語義一致性和圖像相關性,確定目標圖像的區(qū)域的類別,由此能夠獲得準確的語義分割,以及更加符合語義感知的圖像內(nèi)容。此外,根據(jù)本發(fā)明實施例的圖像語義分割的裝置,采用的圖像庫可以是具有圖像級標注的訓練圖像庫,從而不需要對訓練圖像庫進行繁重的手工像素級標注,省時省力;并且根據(jù)本發(fā)明實施例的圖像語義分割的裝置,能夠同時對無標注的目標圖像以及帶圖像級標注的參考圖像進行聯(lián)合語義分割。在本發(fā)明實施例中,可選地,該第二確定模塊530還用于:基于該目標圖像、該兼容參考圖像和該競爭參考圖像中的每一幅圖像的多個區(qū)域的語義一致性和圖像相關性,確定該兼容參考圖像和該競爭參考圖像的區(qū)域的類別。在本發(fā)明實施例中,如圖6所示,可選地,該第一確定模塊510包括:第一確定單元511,用于將該圖像庫中與該目標圖像的全局表觀距離最近的N幅圖像確定為該目標圖像的兼容參考集,其中,N為自然數(shù),并且該圖像庫Ω中的圖像IΩ(IΩ∈Ω)與該目標圖像It的全局表觀距離DA(IΩ,It)由下列等式(21)確定:其中,為該圖像庫Ω中的圖像IΩ的用于表示圖像IΩ的全局表觀的全局表觀特征,為該目標圖像It的用于表示圖像It的全局表觀的全局表觀特征。在本發(fā)明實施例中,如圖7所示,可選地,該第一確定模塊510包括:第二確定單元512,用于對于該兼容參考集中的一幅兼容參考圖像確定該圖像庫中與該兼容參考圖像的全局表觀距離最遠的K幅圖像其中,K為自然數(shù),n為自然數(shù)且n≤N,N為該兼容參考集包括的兼容參考圖像的數(shù)量;第三確定單元513,用于將該K幅圖像中與該兼容參考圖像的語義距離最近的一幅圖像,確定為與該兼容參考圖像相應的競爭參考圖像,其中,該K幅圖像中的圖像與該兼容參考圖像的語義距離由下列等式(22)確定:其中,k為自然數(shù)且k≤K;表示該K幅圖像中的圖像所包括的類別的集合;表示該兼容參考圖像所包括的類別的集合;第四確定單元514,用于將與該兼容參考集中的N幅兼容參考圖像分別相應的N幅競爭參考圖像確定為該目標圖像的競爭參考集。在本發(fā)明實施例中,可選地,該分割模塊520用于:基于圖像的顏色和紋理的區(qū)域表觀特征,將該目標圖像、該兼容參考圖像和該競爭參考圖像中的每一幅圖像分割成多個區(qū)域。在本發(fā)明實施例中,如圖8所示,可選地,該第二確定模塊530包括:第五確定單元531,用于確定該目標圖像、該兼容參考圖像和該競爭參考圖像的語義一致性;第六確定單元532,用于確定該兼容參考圖像和該競爭參考圖像分別與該目標圖像的圖像相關性;第七確定單元533,用于以該語義一致性與該圖像相關性之和最大為目標函數(shù),確定該目標圖像的區(qū)域的類別。在本發(fā)明實施例中,可選地,該第五確定單元531用于:由下列等式(23)和(24)確定該目標圖像、該兼容參考圖像和該競爭參考圖像的語義一致性之和C:其中,I表示圖像且It表示該目標圖像,表示該兼容參考圖像,表示該競爭參考圖像;c(I)表示圖像I的語義一致性;s表示圖像I中的一個區(qū)域;Ls表示區(qū)域s可能屬于的類別的集合;xs為用于指示區(qū)域s所屬的類別的二值類別指示向量,且當i=ls時,xs(i)=1,ls為區(qū)域s的類別;s1和s2表示圖像I中的兩個相鄰的區(qū)域;和分別表示區(qū)域s1和s2可能屬于的類別的集合;為用于指示區(qū)域s1和s2分別所屬的類別的二值類別指示矩陣,并且當時,和分別為區(qū)域s1和s2的類別;θs(i)表示區(qū)域s屬于第i個類別的相關程度的程度值;表示相鄰區(qū)域s1和s2分別屬于第i個類別和第j個類別的相關程度的程度值。在本發(fā)明實施例中,可選地,該區(qū)域s屬于第i個類別的相關程度的程度值θs(i)由該區(qū)域s的基于語義的區(qū)域密度先驗、目標先驗和顯著性先驗確定;該區(qū)域s1和s2分別屬于第i個類別和第j個類別的相關程度的程度值由該區(qū)域s1和s2的一階密度先驗確定。在本發(fā)明實施例中,可選地,該區(qū)域s的基于語義的區(qū)域密度先驗,由該區(qū)域s在該圖像庫的圖像IΩ中的密度最小的L幅圖像的類別分布統(tǒng)計確定,其中,L為自然數(shù),并且該區(qū)域s在該圖像庫的圖像IΩ中的密度由下列等式(25)確定:其中,m為非零常數(shù);為該圖像庫的圖像IΩ中與該區(qū)域s的距離最近的T個區(qū)域,t為自然數(shù)且t≤T;fs為該區(qū)域s的特征;為該區(qū)域st的特征;其中,該圖像庫的圖像IΩ中的區(qū)域sΩ與該區(qū)域s之間的距離由下列等式(26)確定:其中,為該區(qū)域sΩ的特征。在本發(fā)明實施例中,可選地,該第六確定單元532用于:由下列等式(27)至(29)確定該兼容參考圖像和該競爭參考圖像分別與該目標圖像的圖像相關性之和E:E=E1+E2(27)其中,E1表示該兼容參考集包括的所有兼容參考圖像I+與該目標圖像It的圖像相關性之和;E2表示該競爭參考集包括的所有競爭參考圖像I-與該目標圖像It的圖像相關性之和;st、s+和s-分別表示該目標圖像It、該兼容參考圖像I+和該競爭參考圖像I-中的區(qū)域;和分別表示區(qū)域st、s+和s-可能屬于的類別的集合;z+(i,j)為用于指示區(qū)域s+和st分別所屬的類別的二值類別指示矩陣,并且當時,z+(i,j)=1,和分別為區(qū)域s+和st的類別;z-(i,j)為用于指示區(qū)域s-和st分別所屬的類別的二值類別指示矩陣,并且當時,z-(i,j)=1,為區(qū)域s-的類別;和分別由下列等式(30)和(31)確定:其中,和分別表示區(qū)域st、s+和s-的特征。因此,本發(fā)明實施例的圖像語義分割的裝置,通過在圖像庫中采用與目標圖像具有相似的全局表觀的兼容參考集,以及與目標圖像具有相異的全局表觀且與兼容參考集具有相似語義的競爭參考集作為參考集,能夠為目標圖像的分割提供互補信息以減少語義的誤判,從而能夠采用目標圖像、兼容參考圖像和競爭參考圖像中的每一幅圖像的多個區(qū)域的語義一致性和圖像相關性,確定目標圖像的區(qū)域的類別,由此能夠獲得準確的語義分割,以及更加符合語義感知的圖像內(nèi)容。此外,根據(jù)本發(fā)明實施例的圖像語義分割的裝置,采用的圖像庫可以是具有圖像級標注的訓練圖像庫,從而不需要對訓練圖像庫進行繁重的手工像素級標注,省時省力;并且根據(jù)本發(fā)明實施例的圖像語義分割的裝置,能夠同時對無標注的目標圖像以及帶圖像級標注的參考圖像進行聯(lián)合語義分割。應理解,本文中術語“和/或”,僅僅是一種描述關聯(lián)對象的關聯(lián)關系,表示可以存在三種關系,例如,A和/或B,可以表示:單獨存在A,同時存在A和B,單獨存在B這三種情況。另外,本文中字符“/”,一般表示前后關聯(lián)對象是一種“或”的關系。還應理解,在本發(fā)明實施例中,“與A相應的B”表示B與A相關聯(lián),根據(jù)A可以確定B。但還應理解,根據(jù)A確定B并不意味著僅僅根據(jù)A確定B,還可以根據(jù)A和/或其它信息確定B。如圖9所示,本發(fā)明實施例還提供了一種圖像語義分割的裝置700,該裝置700包括處理器710、存儲器720和總線系統(tǒng)730。其中,處理器710、存儲器720通過總線系統(tǒng)730相連,該存儲器720用于存儲指令,該處理器710用于執(zhí)行該存儲器720存儲的指令。其中,該處理器710用于:基于圖像的用于表示圖像之間的全局表觀相似性的全局表觀距離和用于表示圖像之間的語義相似性的語義距離,在圖像庫中確定目標圖像的兼容參考集和競爭參考集,該兼容參考集包括的兼容參考圖像與該目標圖像具有相似的全局表觀,該競爭參考集包括的競爭參考圖像與該目標圖像具有相異的全局表觀;將該目標圖像、該兼容參考圖像和該競爭參考圖像中的每一幅圖像分割成多個區(qū)域;基于該目標圖像、該兼容參考圖像和該競爭參考圖像中的每一幅圖像的多個區(qū)域的語義一致性和圖像相關性,確定該目標圖像的區(qū)域的類別。因此,本發(fā)明實施例的圖像語義分割的裝置,通過在圖像庫中采用與目標圖像具有相似的全局表觀的兼容參考集,以及與目標圖像具有相異的全局表觀且與兼容參考集具有相似語義的競爭參考集作為參考集,能夠為目標圖像的分割提供互補信息以減少語義的誤判,從而能夠采用目標圖像、兼容參考圖像和競爭參考圖像中的每一幅圖像的多個區(qū)域的語義一致性和圖像相關性,確定目標圖像的區(qū)域的類別,由此能夠獲得準確的語義分割,以及更加符合語義感知的圖像內(nèi)容。此外,根據(jù)本發(fā)明實施例的圖像語義分割的裝置,采用的圖像庫可以是具有圖像級標注的訓練圖像庫,從而不需要對訓練圖像庫進行繁重的手工像素級標注,省時省力;并且根據(jù)本發(fā)明實施例的圖像語義分割的裝置,能夠同時對無標注的目標圖像以及帶圖像級標注的參考圖像進行聯(lián)合語義分割。應理解,在本發(fā)明實施例中,該處理器710可以是中央處理單元(CentralProcessingUnit,簡稱為“CPU”),該處理器710還可以是其他通用處理器、數(shù)字信號處理器(DSP)、專用集成電路(ASIC)、現(xiàn)成可編程門陣列(FPGA)或者其他可編程邏輯器件、分立門或者晶體管邏輯器件、分立硬件組件等。通用處理器可以是微處理器或者該處理器也可以是任何常規(guī)的處理器等。該存儲器720可以包括只讀存儲器和隨機存取存儲器,并向處理器710提供指令和數(shù)據(jù)。存儲器720的一部分還可以包括非易失性隨機存取存儲器。例如,存儲器720還可以存儲設備類型的信息。該總線系統(tǒng)730除包括數(shù)據(jù)總線之外,還可以包括電源總線、控制總線和狀態(tài)信號總線等。但是為了清楚說明起見,在圖中將各種總線都標為總線系統(tǒng)730。在實現(xiàn)過程中,上述方法的各步驟可以通過處理器710中的硬件的集成邏輯電路或者軟件形式的指令完成。結合本發(fā)明實施例所公開的方法的步驟可以直接體現(xiàn)為硬件處理器執(zhí)行完成,或者用處理器中的硬件及軟件模塊組合執(zhí)行完成。軟件模塊可以位于隨機存儲器,閃存、只讀存儲器,可編程只讀存儲器或者電可擦寫可編程存儲器、寄存器等本領域成熟的存儲介質(zhì)中。該存儲介質(zhì)位于存儲器720,處理器710讀取存儲器720中的信息,結合其硬件完成上述方法的步驟。為避免重復,這里不再詳細描述??蛇x地,作為一個實施例,該處理器710還用于:基于該目標圖像、該兼容參考圖像和該競爭參考圖像中的每一幅圖像的多個區(qū)域的語義一致性和圖像相關性,確定該兼容參考圖像和該競爭參考圖像的區(qū)域的類別??蛇x地,作為一個實施例,該處理器710在圖像庫中確定目標圖像的兼容參考集和競爭參考集,包括:將該圖像庫中與該目標圖像的全局表觀距離最近的N幅圖像確定為該目標圖像的兼容參考集,其中,N為自然數(shù),并且該圖像庫Ω中的圖像IΩ(IΩ∈Ω)與該目標圖像It的全局表觀距離DA(IΩ,It)由下列等式(1)確定:其中,為該圖像庫Ω中的圖像IΩ的用于表示圖像IΩ的全局表觀的全局表觀特征,為該目標圖像It的用于表示圖像It的全局表觀的全局表觀特征??蛇x地,作為一個實施例,該處理器710在圖像庫中確定目標圖像的兼容參考集和競爭參考集,包括:對于該兼容參考集中的一幅兼容參考圖像確定該圖像庫中與該兼容參考圖像的全局表觀距離最遠的K幅圖像其中,K為自然數(shù),n為自然數(shù)且n≤N,N為該兼容參考集包括的兼容參考圖像的數(shù)量;將該K幅圖像中與該兼容參考圖像的語義距離最近的一幅圖像,確定為與該兼容參考圖像相應的競爭參考圖像,其中,該K幅圖像中的圖像與該兼容參考圖像的語義距離由下列等式(2)確定:其中,k為自然數(shù)且k≤K;表示該K幅圖像中的圖像所包括的類別的集合;表示該兼容參考圖像所包括的類別的集合;將與該兼容參考集中的N幅兼容參考圖像分別相應的N幅競爭參考圖像確定為該目標圖像的競爭參考集??蛇x地,作為一個實施例,該處理器710將該目標圖像、該兼容參考圖像和該競爭參考圖像中的每一幅圖像分割成多個區(qū)域,包括:基于圖像的顏色和紋理的區(qū)域表觀特征,將該目標圖像、該兼容參考圖像和該競爭參考圖像中的每一幅圖像分割成多個區(qū)域??蛇x地,作為一個實施例,該處理器710確定該目標圖像的區(qū)域的類別,包括:確定該目標圖像、該兼容參考圖像和該競爭參考圖像的語義一致性;確定該兼容參考圖像和該競爭參考圖像分別與該目標圖像的圖像相關性;以該語義一致性與該圖像相關性之和最大為目標函數(shù),確定該目標圖像的區(qū)域的類別??蛇x地,作為一個實施例,該處理器710確定該目標圖像、該兼容參考圖像和該競爭參考圖像的語義一致性,包括:由下列等式(3)和(4)確定該目標圖像、該兼容參考圖像和該競爭參考圖像的語義一致性之和C:其中,I表示圖像且It表示該目標圖像,表示該兼容參考圖像,表示該競爭參考圖像;c(I)表示圖像I的語義一致性;s表示圖像I中的一個區(qū)域;Ls表示區(qū)域s可能屬于的類別的集合;xs為用于指示區(qū)域s所屬的類別的二值類別指示向量,且當i=ls時,xs(i)=1,ls為區(qū)域s的類別;s1和s2表示圖像I中的兩個相鄰的區(qū)域;和分別表示區(qū)域s1和s2可能屬于的類別的集合;為用于指示區(qū)域s1和s2分別所屬的類別的二值類別指示矩陣,并且當時,和分別為區(qū)域s1和s2的類別;θs(i)表示區(qū)域s屬于第i個類別的相關程度的程度值;表示相鄰區(qū)域s1和s2分別屬于第i個類別和第j個類別的相關程度的程度值??蛇x地,作為一個實施例,該區(qū)域s屬于第i個類別的相關程度的程度值θs(i)由該區(qū)域s的基于語義的區(qū)域密度先驗、目標先驗和顯著性先驗確定;該區(qū)域s1和s2分別屬于第i個類別和第j個類別的相關程度的程度值由該區(qū)域s1和s2的一階密度先驗確定??蛇x地,作為一個實施例,該區(qū)域s的基于語義的區(qū)域密度先驗,由該區(qū)域s在該圖像庫的圖像IΩ中的密度最小的L幅圖像的類別分布統(tǒng)計確定,其中,L為自然數(shù),并且該區(qū)域s在該圖像庫的圖像IΩ中的密度由下列等式(5)確定:其中,m為非零常數(shù);為該圖像庫的圖像IΩ中與該區(qū)域s的距離最近的T個區(qū)域,t為自然數(shù)且t≤T;fs為該區(qū)域s的特征;為該區(qū)域st的特征;其中,該圖像庫的圖像IΩ中的區(qū)域sΩ與該區(qū)域s之間的距離由下列等式(6)確定:其中,為該區(qū)域sΩ的特征??蛇x地,作為一個實施例,該處理器710確定該兼容參考圖像和該競爭參考圖像分別與該目標圖像的圖像相關性,包括:由下列等式(7)至(9)確定該兼容參考圖像和該競爭參考圖像分別與該目標圖像的圖像相關性之和E:E=E1+E2(7)其中,E1表示該兼容參考集包括的所有兼容參考圖像I+與該目標圖像It的圖像相關性之和;E2表示該競爭參考集包括的所有競爭參考圖像I-與該目標圖像It的圖像相關性之和;st、s+和s-分別表示該目標圖像It、該兼容參考圖像I+和該競爭參考圖像I-中的區(qū)域;和分別表示區(qū)域st、s+和s-可能屬于的類別的集合;z+(i,j)為用于指示區(qū)域s+和st分別所屬的類別的二值類別指示矩陣,并且當時,z+(i,j)=1,和分別為區(qū)域s+和st的類別;z-(i,j)為用于指示區(qū)域s-和st分別所屬的類別的二值類別指示矩陣,并且當時,z-(i,j)=1,為區(qū)域s-的類別;和分別由下列等式(10)和(11)確定:其中,和分別表示區(qū)域st、s+和s-的特征。應理解,根據(jù)本發(fā)明實施例的圖像語義分割的裝置700可對應于執(zhí)行根據(jù)本發(fā)明實施例的圖像語義分割的方法的執(zhí)行主體,并對應于根據(jù)本發(fā)明實施例的圖像語義分割的裝置500,并且裝置700中的各個模塊的上述和其它操作和/或功能分別為了實現(xiàn)圖1至圖4中的各個方法的相應流程,為了簡潔,在此不再贅述。因此,本發(fā)明實施例的圖像語義分割的裝置,通過在圖像庫中采用與目標圖像具有相似的全局表觀的兼容參考集,以及與目標圖像具有相異的全局表觀且與兼容參考集具有相似語義的競爭參考集作為參考集,能夠為目標圖像的分割提供互補信息以減少語義的誤判,從而能夠采用目標圖像、兼容參考圖像和競爭參考圖像中的每一幅圖像的多個區(qū)域的語義一致性和圖像相關性,確定目標圖像的區(qū)域的類別,由此能夠獲得準確的語義分割,以及更加符合語義感知的圖像內(nèi)容。此外,根據(jù)本發(fā)明實施例的圖像語義分割的裝置,采用的圖像庫可以是具有圖像級標注的訓練圖像庫,從而不需要對訓練圖像庫進行繁重的手工像素級標注,省時省力;并且根據(jù)本發(fā)明實施例的圖像語義分割的裝置,能夠同時對無標注的目標圖像以及帶圖像級標注的參考圖像進行聯(lián)合語義分割。本領域普通技術人員可以意識到,結合本文中所公開的實施例描述的各示例的單元及算法步驟,能夠以電子硬件、計算機軟件或者二者的結合來實現(xiàn),為了清楚地說明硬件和軟件的可互換性,在上述說明中已經(jīng)按照功能一般性地描述了各示例的組成及步驟。這些功能究竟以硬件還是軟件方式來執(zhí)行,取決于技術方案的特定應用和設計約束條件。專業(yè)技術人員可以對每個特定的應用來使用不同方法來實現(xiàn)所描述的功能,但是這種實現(xiàn)不應認為超出本發(fā)明的范圍。所屬領域的技術人員可以清楚地了解到,為了描述的方便和簡潔,上述描述的系統(tǒng)、裝置和單元的具體工作過程,可以參考前述方法實施例中的對應過程,在此不再贅述。在本申請所提供的幾個實施例中,應該理解到,所揭露的系統(tǒng)、裝置和方法,可以通過其它的方式實現(xiàn)。例如,以上所描述的裝置實施例僅僅是示意性的,例如,所述單元的劃分,僅僅為一種邏輯功能劃分,實際實現(xiàn)時可以有另外的劃分方式,例如多個單元或組件可以結合或者可以集成到另一個系統(tǒng),或一些特征可以忽略,或不執(zhí)行。另外,所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些接口、裝置或單元的間接耦合或通信連接,也可以是電的,機械的或其它的形式連接。所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個地方,或者也可以分布到多個網(wǎng)絡單元上??梢愿鶕?jù)實際的需要選擇其中的部分或者全部單元來實現(xiàn)本發(fā)明實施例方案的目的。另外,在本發(fā)明各個實施例中的各功能單元可以集成在一個處理單元中,也可以是各個單元單獨物理存在,也可以是兩個或兩個以上單元集成在一個單元中。上述集成的單元既可以采用硬件的形式實現(xiàn),也可以采用軟件功能單元的形式實現(xiàn)。所述集成的單元如果以軟件功能單元的形式實現(xiàn)并作為獨立的產(chǎn)品銷售或使用時,可以存儲在一個計算機可讀取存儲介質(zhì)中?;谶@樣的理解,本發(fā)明的技術方案本質(zhì)上或者說對現(xiàn)有技術做出貢獻的部分,或者該技術方案的全部或部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計算機軟件產(chǎn)品存儲在一個存儲介質(zhì)中,包括若干指令用以使得一臺計算機設備(可以是個人計算機,服務器,或者網(wǎng)絡設備等)執(zhí)行本發(fā)明各個實施例所述方法的全部或部分步驟。而前述的存儲介質(zhì)包括:U盤、移動硬盤、只讀存儲器(ROM,Read-OnlyMemory)、隨機存取存儲器(RAM,RandomAccessMemory)、磁碟或者光盤等各種可以存儲程序代碼的介質(zhì)。以上所述,僅為本發(fā)明的具體實施方式,但本發(fā)明的保護范圍并不局限于此,任何熟悉本技術領域的技術人員在本發(fā)明揭露的技術范圍內(nèi),可輕易想到各種等效的修改或替換,這些修改或替換都應涵蓋在本發(fā)明的保護范圍之內(nèi)。因此,本發(fā)明的保護范圍應以權利要求的保護范圍為準。