本發(fā)明涉及計算機視覺技術(shù)領域,尤其涉及一種基于弱監(jiān)督的語義分割模型訓練方法及裝置、計算設備、圖像分割方法及裝置。
背景技術(shù):
語義分割是計算機視覺領域的一個經(jīng)典問題,目的為預測輸入圖像每一個像素點的物體類別,實現(xiàn)精確、稠密的圖像像素級別理解。語義分割因其標注數(shù)據(jù)需要像素級別的標注,通常非常耗時。根據(jù)常用方法的實踐經(jīng)驗,如果要獲得一張400*600像素大小的精確的語義分割標注,通常需要耗時5-8分鐘。因此數(shù)據(jù)標注速度和質(zhì)量成為制約該問題獲得大數(shù)據(jù)支持、得到更近一步發(fā)展的重要問題。
技術(shù)實現(xiàn)要素:
本發(fā)明實施例提供一種語義分割模型訓練和圖像分割方案。
根據(jù)本發(fā)明實施例的一個方面,提供了一種語義分割模型訓練方法,所述方法采用多個預先標注有弱監(jiān)督信息的訓練圖像對語義分割模型進行訓練,針對于每一個訓練圖像,訓練步驟包括:
將所述訓練圖像輸入至所述語義分割模型,得到所述語義分割模型輸出的所述訓練圖像的語義分割的初步結(jié)果;
依據(jù)所述弱監(jiān)督信息和所述訓練圖像預選的多個局部候選區(qū)域,進行局部候選區(qū)域融合,得到所述訓練圖像的語義分割的校正結(jié)果;
依據(jù)所述初步結(jié)果和所述校正結(jié)果,對所述語義分割模型的模型參數(shù)進行修正;
迭代執(zhí)行所述訓練步驟直至所述語義分割模型的訓練結(jié)果滿足預定收斂條件。
可選地,所述弱監(jiān)督信息包含:物體類別信息。
可選地,在所述進行局部候選區(qū)域融合之前,所述方法還包括:對所述訓練圖像進行超像素分割處理,將進行超像素分割處理得到的若干圖像塊進行聚類,得到多個局部候選區(qū)域。
可選地,所述訓練步驟還包括:利用交叉熵損失函數(shù),將所述多個局部候選區(qū)域按照物體類別進行分類;對每個局部候選區(qū)域?qū)儆谖矬w類別的概率進行預測,得到每個局部候選區(qū)域的物體類別概率預測值。
可選地,所述訓練步驟還包括:依據(jù)所述弱監(jiān)督信息,對用于預測所述訓練圖像的圖像類別的函數(shù)進行訓練。
可選地,所述依據(jù)所述弱監(jiān)督信息和從所述訓練圖像選擇的多個局部候選區(qū)域,進行局部候選區(qū)域融合,得到所述訓練圖像的語義分割的校正結(jié)果進一步包括:從所述多個局部候選區(qū)域內(nèi)選擇出屬于同一物體類別的局部候選區(qū)域;針對屬于同一物體類別的局部候選區(qū)域,進行融合處理,并采用聚類算法將融合后的圖像區(qū)域劃分為近物體區(qū)域、近背景區(qū)域和歧義區(qū)域;將近物體區(qū)域和近背景區(qū)域作為種子,采用分割算法對所述歧義區(qū)域進行分割,得到所述訓練圖像的語義分割的校正結(jié)果。
可選地,所述針對屬于同一物體類別的局部候選區(qū)域,進行融合處理進一步包括:依據(jù)局部候選區(qū)域的物體類別概率預測值從高至低的順序,從針對屬于同一物體類別的局部候選區(qū)域中挑選出預設數(shù)量的局部候選區(qū)域,進行融合處理;或者,從針對屬于同一物體類別的局部候選區(qū)域中挑選出物體類別概率預測值高于預設閾值的局部候選區(qū)域,進行融合處理。
可選地,所述訓練步驟還包括:依據(jù)所述訓練圖像的語義分割的初步結(jié)果和每個局部候選區(qū)域的物體類別概率預測值,對所述多個局部候選區(qū)域進行篩選;所述依據(jù)所述弱監(jiān)督信息和從所述訓練圖像選擇的多個局部候選區(qū)域,進行局部候選區(qū)域融合,得到所述訓練圖像的語義分割的校正結(jié)果進一步包括:依據(jù)所述弱監(jiān)督信息,對經(jīng)篩選得到的局部候選區(qū)域進行融合,獲得所述訓練圖像的語義分割的校正結(jié)果。
可選地,所述依據(jù)所述訓練圖像的語義分割的初步結(jié)果和每個局部候選區(qū)域的物體類別概率預測值,對所述多個局部候選區(qū)域進行篩選進一步包括:計算所述局部候選區(qū)域的分割掩膜與所述訓練圖像的語義分割的初步結(jié)果的交并比;根據(jù)所述局部候選區(qū)域的交并比與交并比閾值的比較結(jié)果、以及所述局部候選區(qū)域的物體類別預測值與預測值閾值的比較結(jié)果,對所述多個局部候選區(qū)域進行篩選。
可選地,所述根據(jù)局部候選區(qū)域的交并比與交并比閾值的比較結(jié)果、以及所述局部候選區(qū)域的物體類別預測值與預測值閾值的比較結(jié)果,對所述多個局部候選區(qū)域進行篩選進一步包括:響應于所述局部候選區(qū)域的交并比大于或等于第一交并比閾值,所述局部候選區(qū)域的物體類別預測值大于或等于第一預測值閾值,將所述局部候選區(qū)域作為經(jīng)篩選得到的正樣本的局部候選區(qū)域;和/或,響應于所述局部候選區(qū)域的交并比小于或等于第二交并比閾值,所述局部候選區(qū)域的物體類別預測值小于或等于第二預測值閾值,將所述局部候選區(qū)域作為經(jīng)篩選得到的負樣本的局部候選區(qū)域。
可選地,所述對經(jīng)篩選得到的局部候選區(qū)域進行融合,獲得所述訓練圖像的語義分割的校正結(jié)果進一步包括:從所述經(jīng)篩選得到的局部候選區(qū)域內(nèi)選擇出屬于同一物體類別的局部候選區(qū)域;針對屬于同一物體類別的局部候選區(qū)域,進行融合處理,并采用聚類算法將融合后的圖像區(qū)域劃分為近物體區(qū)域、近背景區(qū)域和歧義區(qū)域;將近物體區(qū)域和近背景區(qū)域作為種子,采用分割算法對所述歧義區(qū)域進行分割,得到所述訓練圖像的語義分割的校正結(jié)果。
可選地,所述針對屬于同一物體類別的局部候選區(qū)域,進行融合處理進一步包括:依據(jù)局部候選區(qū)域的物體類別概率預測值從高至低的順序,從針對屬于同一物體類別的局部候選區(qū)域中挑選出預設數(shù)量的局部候選區(qū)域,進行融合處理;或者,從針對屬于同一物體類別的局部候選區(qū)域中挑選出物體類別概率預測值高于預設閾值的局部候選區(qū)域,進行融合處理。
根據(jù)本發(fā)明實施例的一個方面,提供了一種圖像分割方法,包括:
將待分割的圖像作為語義分割模型的輸入,所述語義分割模型預先采用上面所述的方法進行訓練;
根據(jù)所述語義分割模型的輸出結(jié)果確定所述圖像的分割結(jié)果。
根據(jù)本發(fā)明實施例的另一個方面,提供了一種語義分割模型訓練裝置,所述裝置采用多個預先標注有弱監(jiān)督信息的訓練圖像對語義分割模型進行訓練,所述訓練裝置包括:
語義分割單元,用于將所述訓練圖像輸入至所述語義分割模型,得到所述語義分割模型輸出的所述訓練圖像的語義分割的初步結(jié)果;
融合單元,用于依據(jù)所述弱監(jiān)督信息和從所述訓練圖像選擇的多個局部候選區(qū)域,進行局部候選區(qū)域融合,得到所述訓練圖像的語義分割的校正結(jié)果;
修正單元,用于依據(jù)所述初步結(jié)果和所述校正結(jié)果,對所述語義分割模型的模型參數(shù)進行修正;
所述訓練裝置迭代運行,直至所述語義分割模型的訓練結(jié)果滿足預定收斂條件。
可選地,所述裝置還包括:數(shù)據(jù)準備模塊,用于獲取所述訓練圖像的物體類別信息作為弱監(jiān)督信息。
可選地,所述裝置還包括:數(shù)據(jù)準備模塊,用于對所述訓練圖像進行超像素分割處理,將進行超像素分割處理得到的若干圖像塊進行聚類,得到多個局部候選區(qū)域。
可選地,所述訓練裝置還包括:局部候選區(qū)域類別預測單元,用于利用交叉熵損失函數(shù),將所述多個局部候選區(qū)域按照物體類別進行分類;對每個局部候選區(qū)域?qū)儆谖矬w類別的概率進行預測,得到每個局部候選區(qū)域的物體類別概率預測值。
可選地,所述訓練裝置還包括:圖像類別預測單元,用于依據(jù)所述弱監(jiān)督信息,對用于預測所述訓練圖像的圖像類別的函數(shù)進行訓練。
可選地,所述融合單元進一步包括:
歸類子單元,用于從所述多個局部候選區(qū)域內(nèi)選擇出屬于同一物體類別的局部候選區(qū)域;
融合處理子單元,用于針對屬于同一物體類別的局部候選區(qū)域,進行融合處理,并采用聚類算法將融合后的圖像區(qū)域劃分為近物體區(qū)域、近背景區(qū)域和歧義區(qū)域;
分割子單元,用于將近物體區(qū)域和近背景區(qū)域作為種子,采用分割算法對所述歧義區(qū)域進行分割,得到所述訓練圖像的語義分割的校正結(jié)果。
可選地,所述融合處理子單元進一步用于:依據(jù)局部候選區(qū)域的物體類別概率預測值從高至低的順序,從針對屬于同一物體類別的局部候選區(qū)域中挑選出預設數(shù)量的局部候選區(qū)域,進行融合處理;或者,從針對屬于同一物體類別的局部候選區(qū)域中挑選出物體類別概率預測值高于預設閾值的局部候選區(qū)域,進行融合處理。
可選地,所述訓練模塊還包括:選擇單元,用于依據(jù)所述訓練圖像的語義分割的初步結(jié)果和每個局部候選區(qū)域的物體類別概率預測值,對所述多個局部候選區(qū)域進行篩選;所述融合單元進一步用于:依據(jù)所述弱監(jiān)督信息,對經(jīng)篩選得到的局部候選區(qū)域進行融合,獲得所述訓練圖像的語義分割的校正結(jié)果。
可選地,所述選擇單元進一步用于:計算所述局部候選區(qū)域的分割掩膜與所述訓練圖像的語義分割的初步結(jié)果的交并比;根據(jù)所述局部候選區(qū)域的交并比與交并比閾值的比較結(jié)果、以及所述局部候選區(qū)域的物體類別預測值與預測值閾值的比較結(jié)果,對所述多個局部候選區(qū)域進行篩選。
可選地,所述選擇單元進一步用于:響應于所述局部候選區(qū)域的交并比大于或等于第一交并比閾值,所述局部候選區(qū)域的物體類別預測值大于或等于第一預測值閾值,將所述局部候選區(qū)域作為經(jīng)篩選得到的正樣本的局部候選區(qū)域;和/或,響應于所述局部候選區(qū)域的交并比小于或等于第二交并比閾值,所述局部候選區(qū)域的物體類別預測值小于或等于第二預測值閾值,將所述局部候選區(qū)域作為經(jīng)篩選得到的負樣本的局部候選區(qū)域。
可選地,所述融合單元進一步包括:
歸類子單元,用于從所述經(jīng)篩選得到的局部候選區(qū)域內(nèi)選擇出屬于同一物體類別的局部候選區(qū)域;
融合處理子單元,用于針對屬于同一物體類別的局部候選區(qū)域,進行融合處理,并采用聚類算法將融合后的圖像區(qū)域劃分為近物體區(qū)域、近背景區(qū)域和歧義區(qū)域;
分割子單元,用于將近物體區(qū)域和近背景區(qū)域作為種子,采用分割算法對所述歧義區(qū)域進行分割,得到所述訓練圖像的語義分割的校正結(jié)果。
可選地,所述融合處理子單元進一步用于:依據(jù)局部候選區(qū)域的物體類別概率預測值從高至低的順序,從針對屬于同一物體類別的局部候選區(qū)域中挑選出預設數(shù)量的局部候選區(qū)域,進行融合處理;或者,從針對屬于同一物體類別的局部候選區(qū)域中挑選出物體類別概率預測值高于預設閾值的局部候選區(qū)域,進行融合處理。
根據(jù)本發(fā)明實施例的另一個方面,提供了一種圖像分割裝置,所述圖像分割裝置用于將待分割的圖像作為語義分割模型的輸入,根據(jù)所述語義分割模型的輸出結(jié)果確定所述圖像的分割結(jié)果;其中,所述語義分割模型預先采用上面所述的訓練裝置進行訓練。
根據(jù)本發(fā)明實施例的又一個方面,提供了一種計算設備,包括:處理器、通信接口、存儲器以及通信總線;所述處理器、所述通信接口和所述存儲器通過所述通信總線完成相互間的通信;
所述存儲器用于存放至少一指令;所述指令使所述處理器執(zhí)行以下操作:
將所述訓練圖像輸入至所述語義分割模型,得到所述語義分割模型輸出的所述訓練圖像的語義分割的初步結(jié)果;
依據(jù)所述弱監(jiān)督信息和從所述訓練圖像選擇的多個局部候選區(qū)域,進行局部候選區(qū)域融合,得到所述訓練圖像的語義分割的校正結(jié)果;
依據(jù)所述初步結(jié)果和所述校正結(jié)果,對所述語義分割模型的模型參數(shù)進行修正;
迭代執(zhí)行所述訓練步驟直至所述語義分割模型的訓練結(jié)果滿足預定收斂條件。
根據(jù)本發(fā)明實施例的又一個方面,提供了一種計算機存儲介質(zhì),用于存儲計算機可讀取的指令;所述指令包括:
將訓練圖像輸入至所述語義分割模型,得到語義分割模型輸出的所述訓練圖像的語義分割的初步結(jié)果的指令;
依據(jù)所述弱監(jiān)督信息和從所述訓練圖像選擇的多個局部候選區(qū)域,進行局部候選區(qū)域融合,得到所述訓練圖像的語義分割的校正結(jié)果的指令;
依據(jù)所述初步結(jié)果和所述校正結(jié)果,對所述語義分割模型的模型參數(shù)進行修正的指令;
迭代執(zhí)行所述訓練步驟直至所述語義分割模型的訓練結(jié)果滿足預定收斂條件的指令。
本發(fā)明實施例提供的技術(shù)方案,依據(jù)弱監(jiān)督信息和多個局部候選區(qū)域,進行局部候選區(qū)域融合,得到訓練圖像的語義分割的校正結(jié)果,并使該校正結(jié)果替代真實結(jié)果,對語義分割模型進行訓練。通過預先提供的弱監(jiān)督信息的指導,實現(xiàn)了準確地語義分割。該方案既有像素級別的直接監(jiān)督,又可以端到端的優(yōu)化語義分割模型,又能夠根據(jù)對局部候選區(qū)域的判斷改善分割分支的結(jié)果。
上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說明書的內(nèi)容予以實施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點能夠更明顯易懂,以下特舉本發(fā)明的具體實施方式。
附圖說明
通過閱讀下文優(yōu)選實施方式的詳細描述,各種其他的優(yōu)點和益處對于本領域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實施方式的目的,而并不認為是對本發(fā)明的限制。而且在整個附圖中,用相同的參考符號表示相同的部件。在附圖中:
圖1a至圖1f示出了現(xiàn)有技術(shù)中采用多個體學習方法預測像素類別的示意圖;
圖2示出了本發(fā)明提供的語義分割模型訓練方法的實施例一的流程圖;
圖3示出了本發(fā)明提供的語義分割模型訓練方法的實施例二的流程圖;
圖4示出了本發(fā)明提供的語義分割模型訓練方法的實施例二的網(wǎng)絡模型示意圖;
圖5a至圖5h示出了本發(fā)明實施例中局部候選區(qū)域融合處理的一個示例的示意圖;
圖6示出了本發(fā)明提供的語義分割模型訓練方法的實施例三的流程圖;
圖7示出了本發(fā)明提供的語義分割模型訓練方法的實施例三的網(wǎng)絡模型示意圖;
圖8示出了本發(fā)明提供的語義分割模型訓練裝置的實施例一的功能結(jié)構(gòu)框圖;
圖9示出了本發(fā)明提供的語義分割模型訓練裝置的實施例二的功能結(jié)構(gòu)框圖;
圖10示出了本發(fā)明提供的語義分割模型訓練裝置的實施例三的功能結(jié)構(gòu)框圖;
圖11示出了用于執(zhí)行根據(jù)本發(fā)明實施例的語義分割模型訓練方法的計算設備的框圖;
圖12示出了用于保持或者攜帶實現(xiàn)根據(jù)本發(fā)明實施例的語義分割模型訓練方法的程序代碼的存儲單元。
具體實施方式
下面將參照附圖更詳細地描述本公開的示例性實施例。雖然附圖中顯示了本公開的示例性實施例,然而應當理解,可以以各種形式實現(xiàn)本公開而不應被這里闡述的實施例所限制。相反,提供這些實施例是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍完整的傳達給本領域的技術(shù)人員。
在實現(xiàn)本發(fā)明的過程中,發(fā)明人通過研究現(xiàn)有技術(shù)發(fā)現(xiàn)目前存在一些利用半監(jiān)督或弱監(jiān)督的方法訓練語義分割問題。傳統(tǒng)的給定圖像類別的弱監(jiān)督語義分割通常分為兩類。第一類是采用多個體學習(Multiple Instance Learning,以下簡稱:MIL)的方法直接預測像素類別。在這個設定下,每個圖片被認為是一系列像素或者超像素的集合。其中如果集合中有一個元素為正樣本則整體輸出為正,反之如果集合中的所有元素都為負樣本則整體輸出為負。這樣的方案因為沒有對底層信息有直接的監(jiān)督信息指導,很容易無法準確定位物體,如圖1a至圖1f所示。其中,圖1a和圖1d為原圖,圖1b和圖1e分別為圖1a和圖1d對應的真實的語義分割圖像,圖1c和圖1f分別為利用MIL方法預測得到的語義分割圖像。從圖中可看出,利用MIL方法預測得到的語義分割圖像的準確率較低。
現(xiàn)有技術(shù)中另一個方向的弱監(jiān)督學習是利用期望最大的思想(Expectation-Maximization),循環(huán)的學習當前暫時的監(jiān)督類別,以及學習語義分割模型。這樣的方法受利于有像素級別的監(jiān)督,但是很依賴于一個非常好的初始化。如果初始化不當,結(jié)果比較難保證。
基于以上發(fā)現(xiàn),本發(fā)明實施例提出了一種語義分割方案,既有像素級別的直接監(jiān)督,又可以端到端的優(yōu)化語義分割模型,還引入了一個物體定位分支,能夠改善分割分支的結(jié)果。下面通過幾個具體的實施例對該方案進行詳細介紹。
圖2示出了本發(fā)明提供的語義分割模型訓練方法的實施例一的流程圖。本實施例提供的語義分割模型訓練方法無需進行像素級別的標注,基于預先提供的弱監(jiān)督信息即可實現(xiàn)語義分割模型的訓練。該方法采用多個訓練圖像對語義分割模型進行訓練,本實施例所描述的方法主要是在講如何利用一個訓練圖像對語義分割模型進行訓練。本領域技術(shù)人員可以理解的是,訓練過程需要使用大量的訓練圖像,訓練圖像的數(shù)量越多,覆蓋面越廣,訓練得到的語義分割模型越精確。本發(fā)明實施例對訓練圖像的數(shù)量不作限制。
如圖2所示,針對于每一個訓練圖像的訓練方法包括如下步驟:
步驟S101,從訓練圖像中選擇多個局部候選區(qū)域;以及,獲取訓練圖像的弱監(jiān)督信息。步驟S101為數(shù)據(jù)準備步驟。
本發(fā)明實施例將一個訓練圖像拆成多個局部候選區(qū)域來理解和學習。拆解的原則是能夠盡可能多的覆蓋訓練圖像中不同大小的物體;每個局部候選區(qū)域可以覆蓋物體的一部分,不必完全包含物體,因而每個局部候選區(qū)域?qū)W到的信息更豐富。進一步的,對訓練圖像的拆解具體為對訓練圖像進行超像素分割處理,得到若干個圖像塊;然后,將若干個圖像塊進行聚類組合得到多個局部候選區(qū)域。本發(fā)明實施例可采用現(xiàn)有技術(shù)中提供的局部候選區(qū)域的選擇方法,對此不作限制。
另外,還需獲取訓練圖像的弱監(jiān)督信息,該弱監(jiān)督信息是預先提供的信息??蛇x地,弱監(jiān)督信息具體為物體類別信息。傳統(tǒng)的像素標注信息需要精確地標注出訓練圖像中每個像素所屬的物體類別,而本發(fā)明中弱監(jiān)督信息是訓練圖像所包含的物體類別信息。舉例來說,假如某個訓練圖像中包含人和飛機,傳統(tǒng)的像素標注信息需要標注出該訓練圖像中每個像素是否屬于人或飛機,而本發(fā)明僅需標注出訓練圖像中有人和飛機即可。也即,預先告知訓練裝置訓練圖像中包含的物體類別,但不告知物體的位置。
步驟S102,將訓練圖像輸入至語義分割模型,得到語義分割模型輸出的訓練圖像的語義分割的初步結(jié)果。
在準備好數(shù)據(jù)后,開始訓練過程。首先,將訓練圖像輸入至初始的語義分割模型,得到訓練圖像的語義分割的初步結(jié)果。
可選地,本發(fā)明實施例利用深度學習的全卷積神經(jīng)網(wǎng)絡作為語義分割的模型。使用全卷積神經(jīng)網(wǎng)絡進行預測,通過多個卷積層/非線性響應層/池化層學習中間表示的參數(shù),得到訓練圖像的語義分割的初步結(jié)果。
步驟S103,依據(jù)弱監(jiān)督信息和多個局部候選區(qū)域,進行局部候選區(qū)域融合,得到訓練圖像的語義分割的校正結(jié)果。
依賴于前述準備的弱監(jiān)督信息,對多個局部候選區(qū)域進行融合處理,得到訓練圖像的語義分割的校正結(jié)果。本發(fā)明實施例與現(xiàn)有技術(shù)的不同之處在于,本實施例不采用語義分割的真實結(jié)果(該真實結(jié)果具體為每個像素所屬的真實的物體類別信息,可通過預先標注得到,如像素級別的預先標注信息等)作為校正訓練過程中語義分割模型的模型參數(shù),而是將訓練圖像的多個局部候選區(qū)域的融合得到的結(jié)果作為校正訓練過程中語義分割模型的模型參數(shù)。
步驟S104,依據(jù)初步結(jié)果和校正結(jié)果,對語義分割模型的模型參數(shù)進行修正。
替代真實結(jié)果,將步驟S103得到的校正結(jié)果視為標準輸出,確定標準輸出與初步結(jié)果的差異,根據(jù)確定的差異得到語義分割模型的損失函數(shù),利用損失函數(shù)響應值進行回傳,更新語義分割模型的模型參數(shù)。
以上步驟S102至步驟S104為訓練步驟,迭代執(zhí)行上述訓練步驟,以得到經(jīng)訓練的語義分割模型。具體地,訓練步驟迭代執(zhí)行直至語義分割模型的訓練結(jié)果滿足預定收斂條件。例如,預定收斂條件為達到預定迭代次數(shù),當?shù)螖?shù)達到預定迭代次數(shù)時,迭代過程結(jié)束。或者,預定收斂條件為初步結(jié)果與校正結(jié)果之間的差異收斂到一定程度,當滿足該預定收斂條件時,迭代過程結(jié)束。
本實施例提供的語義分割模型訓練方法,依據(jù)弱監(jiān)督信息和多個局部候選區(qū)域,進行局部候選區(qū)域融合,得到訓練圖像的語義分割的校正結(jié)果,并使該校正結(jié)果替代真實結(jié)果,對語義分割模型進行訓練。通過預先提供的弱監(jiān)督信息的指導,實現(xiàn)了準確地語義分割。由于該方案中通過步驟S102的語義分割模型可得到像素級別的預測結(jié)果,可將其作為暫時的監(jiān)督信息,這種情況屬于像素級別的直接監(jiān)督,使得該方案既有像素級別的直接監(jiān)督,可以端到端的優(yōu)化語義分割模型,又能夠根據(jù)對局部候選區(qū)域的判斷改善分割分支的結(jié)果。
圖3示出了本發(fā)明提供的語義分割模型訓練方法的實施例二的流程圖。圖4示出了本發(fā)明提供的語義分割模型訓練方法的實施例二的網(wǎng)絡模型示意圖。下面結(jié)合這兩幅圖對本實施例的具體方案進行詳細介紹。本實施例所描述的方法也是在講如何利用一個訓練圖像對語義分割模型進行訓練。
如圖3所示,針對于每一個訓練圖像的訓練方法包括如下步驟:
步驟S201,從訓練圖像中選擇多個局部候選區(qū)域;以及,獲取訓練圖像的弱監(jiān)督信息。步驟S201為數(shù)據(jù)準備步驟。
本發(fā)明實施例將一個訓練圖像拆成多個局部候選區(qū)域來理解和學習。拆解的原則是能夠盡可能多的覆蓋訓練圖像中不同大小的物體;每個局部候選區(qū)域可以覆蓋物體的一部分,不必完全包含物體,因而每個局部候選區(qū)域?qū)W到的信息更豐富。如圖4中的b分支所示,b分支為物體定位分支,具體將原始的訓練圖像拆解為若干個局部候選區(qū)域,此分支拆解的越細致,物體定位的準確率越高。在實際操作過程中,b分支可拆解得到2000個左右的局部候選區(qū)域。本發(fā)明實施例可采用現(xiàn)有技術(shù)中提供的局部候選區(qū)域的選擇方法,對此不作限制。
另外,還需獲取訓練圖像的弱監(jiān)督信息,該弱監(jiān)督信息是預先提供的信息。可選地,弱監(jiān)督信息具體為物體類別信息。傳統(tǒng)的像素標注信息需要精確地標注出訓練圖像中每個像素所屬的物體類別,而本發(fā)明中弱監(jiān)督信息是訓練圖像所包含的物體類別信息。如圖4右下角所示,針對該訓練圖像所預先提供的弱監(jiān)督信息就是人和飛機。傳統(tǒng)的像素標注信息需要標注出該訓練圖像中每個像素是否屬于人或飛機,而本發(fā)明僅需標注出訓練圖像中有人和飛機即可。也即,預先告知訓練裝置訓練圖像中包含的物體類別,但不告知物體的位置。
步驟S202,將訓練圖像輸入至語義分割模型,得到語義分割模型輸出的訓練圖像的語義分割的初步結(jié)果。
在準備好數(shù)據(jù)后,開始訓練過程。首先,將訓練圖像輸入至初始的語義分割模型,得到訓練圖像的語義分割的初步結(jié)果。本實施例利用深度學習的全卷積神經(jīng)網(wǎng)絡作為語義分割的模型。具體地,對訓練圖像進行全卷積神經(jīng)網(wǎng)絡預測得到語義分割的初步結(jié)果。本步驟通過多個卷積層/非線性響應層/池化層學習中間表示的參數(shù),一個具體的示例如下:
1.輸入層
//第一階段,共享卷積層結(jié)果
2.<=1卷積層1_1(3×3×64)
3.<=2非線性響應ReLU層
4.<=3卷積層1_2(3×3×64)
5.<=4非線性響應ReLU層
6.<=5池化層(3×3/2)
7.<=6卷積層2_1(3×3×128)
8.<=7非線性響應ReLU層
9.<=8卷積層2_2(3×3×128)
10.<=9非線性響應ReLU層
11.<=10池化層(3×3/2)
12.<=11卷積層3_1(3×3×256)
13.<=12非線性響應ReLU層
14.<=13卷積層3_2(3×3×256)
15.<=14非線性響應ReLU層
16.<=15卷積層3_3(3×3×256)
17.<=16非線性響應ReLU層
18.<=17池化層(3×3/2)
19.<=18卷積層4_1(3×3×512)
20.<=19非線性響應ReLU層
21.<=20卷積層4_2(3×3×512)
22.<=21非線性響應ReLU層
23.<=22卷積層4_3(3×3×512)
24.<=23非線性響應ReLU層
25.<=24池化層(3×3/2)
26.<=25卷積層5_1(3×3×512)
27.<=26非線性響應ReLU層
28.<=27卷積層5_2(3×3×512)
29.<=28非線性響應ReLU層
30.<=29卷積層5_3(3×3×512)
31.<=30非線性響應ReLU層
32.<=31線性差值層
33.<=32損失層,進行損失函數(shù)的計算
其中符號“.<=”前面的數(shù)字為當前層數(shù),后面的數(shù)字為輸入層數(shù),例如,2.<=1表明當前層為第二層,輸入為第一層。卷積層后面括號內(nèi)為卷積層參數(shù),例如,3×3×64,表明卷積核大小3×3,通道數(shù)為64。池化層后面括號內(nèi)為池化層參數(shù),例如,3×3/2表明池化核大小3×3,間隔為2。
在上述神經(jīng)網(wǎng)絡中,每個卷積層之后都有一個非線性響應單元。該非線性響應單元具體為糾正線性單元(Rectified Linear Units,以下簡稱:ReLU),通過在卷積層后增加上述糾正線性單元,將卷積層的映射結(jié)果盡量稀疏一些,更接近人的視覺反應,從而使圖像處理效果更好。上述示例中,將卷積層的卷積核設為3×3,能更好的綜合局部信息。
本實施例中,設定池化層的步長stride,目的是為了讓上層特征在不增加計算量的前提下獲得更大的視野,同時池化層的步長stride還有增強空間不變性的特征,即允許同樣的輸入出現(xiàn)在不同的圖像位置上,而輸出結(jié)果響應相同。
線性差值層為了將之前的特征放大到原圖大小,得到每個像素的預測值。
綜上所述,該全卷積神經(jīng)網(wǎng)絡的卷積層主要用于信息歸納和融合,池化層(可選為最大池化層:Max pooling)主要進行高層信息的歸納。該全卷積神經(jīng)網(wǎng)絡可以進行微調(diào)來適應不同的性能和效率的權(quán)衡。
本步驟得到的訓練圖像的語義分割的初步結(jié)果具體為像素級別的語義分割的標注,即每個像素的語義分割結(jié)果的標注。但是,由于該語義分割模型為訓練過程中的模型,不是最終的模型,因此初步結(jié)果不夠精確。
步驟S203,利用交叉熵損失函數(shù),將多個局部候選區(qū)域按照物體類別進行分類;對每個局部候選區(qū)域?qū)儆谖矬w類別的概率進行預測,得到每個局部候選區(qū)域的物體類別概率預測值。
在通過步驟S201利用物體的局部候選區(qū)域選擇方法獲得一系列物體的局部候選區(qū)域之后,本步驟對這些局部候選區(qū)域進行分類。本發(fā)明實施例額外設計了一個多任務的訓練子系統(tǒng),利用圖像級別的標注進行約束。該多任務的訓練子系統(tǒng)包括對物體的局部候選區(qū)域分類的訓練(即步驟S203)和對圖像類別的訓練(即步驟204),該方法避免了因為最初階段訓練樣本監(jiān)督信號不準確而造成的語義偏離。
具體地,在步驟S203中,利用交叉熵損失函數(shù),將多個局部候選區(qū)域按照物體類別進行分類。一個具體的示例如下:
34.<=31全連接層6_1(M×N)(M為上一層輸出維度,N為需要預測的類別維度)
35.<=34交叉熵損失函數(shù)層
通過共享前述全卷積神經(jīng)網(wǎng)絡的結(jié)果,在全連接層可預測得到局部候選區(qū)域的類別。
本步驟還對每個局部候選區(qū)域?qū)儆谖矬w類別的概率進行預測,得到每個局部候選區(qū)域的物體類別概率預測值。具體地,每個局部候選區(qū)域的物體類別概率預測值是通過上述全卷積神經(jīng)網(wǎng)絡學習得到的。
步驟S204,依據(jù)弱監(jiān)督信息,對用于預測訓練圖像的圖像類別的函數(shù)進行訓練。
本步驟中,圖像類別訓練利用了多個體訓練的方案,使用產(chǎn)生式模型Log-Sum-Exponentail分類,優(yōu)化公式如下:
其中,Ik為第k個訓練圖像,c為類別;xkj為第k個訓練圖像的第j個局部候選區(qū)域的描述特征,M為第k個訓練圖像的局部候選區(qū)域的個數(shù);wc為要學的類別c的分類器參數(shù)。該公式預測的是Ik類別為c的概率,即Pr(Ik∈c|wc)。
本步驟將弱監(jiān)督信息作為輸入,通過上述優(yōu)化公式的學習,可學到各類別的分類器參數(shù)。由于弱監(jiān)督信息為圖像類別的標準標注信息,依據(jù)該標準標注信息,通過上述優(yōu)化公式的學習得到各類別的分類器參數(shù),使得網(wǎng)絡具有了下次遇到同類輸入圖像時也能夠預測的能力。
步驟S205,從多個局部候選區(qū)域內(nèi)選擇出屬于同一物體類別的局部候選區(qū)域。
在經(jīng)過步驟S203的分類處理后,可獲知每個局部候選區(qū)域所屬的物體類別。本步驟將屬于同一物體類別的局部候選區(qū)域選擇出來作為一組,執(zhí)行后續(xù)的操作。如果訓練圖像包含N個物體類別,那么局部候選區(qū)域被分為N組,針對每一組執(zhí)行后續(xù)的操作。
步驟S206,針對屬于同一物體類別的局部候選區(qū)域,進行融合處理,并采用聚類算法將融合后的圖像區(qū)域劃分為近物體區(qū)域、近背景區(qū)域和歧義區(qū)域。
由于所選取的局部候選區(qū)域較多,如果對屬于同一物體類別的所有局部候選區(qū)域進行融合處理,計算量較大。為了減小計算量,可選地從針對屬于同一物體類別的局部候選區(qū)域中挑選出一批局部候選區(qū)域進行融合處理。挑選的原則可采用但不限于如下兩種:
一種是,依據(jù)局部候選區(qū)域的物體類別概率預測值從高至低的順序,從針對屬于同一物體類別的局部候選區(qū)域中挑選出預設數(shù)量的局部候選區(qū)域,進行融合處理。
另一種是,從針對屬于同一物體類別的局部候選區(qū)域中挑選出物體類別概率預測值高于預設閾值的局部候選區(qū)域,進行融合處理。
以上兩種示例性的原則都是基于局部候選區(qū)域的物體類別概率預測值進行挑選,物體類別概率預測值的高低反映出局部候選區(qū)域?qū)儆谀硞€物體類別的概率的高低,上述兩種原則的目的都是挑選出屬于物體的概率比較高的局部候選區(qū)域。
對挑選出的局部候選區(qū)域進行融合處理。具體過程可以為:對挑選出的局部候選區(qū)域進行圖像分割處理,得到局部候選區(qū)域的二進制分割掩膜;將挑選出的局部候選區(qū)域的二進制分割掩膜進行融合處理;采用聚類算法將融合后的圖像區(qū)域劃分為近物體區(qū)域、近背景區(qū)域和歧義區(qū)域。
圖5a至圖5h示出了本發(fā)明實施例中局部候選區(qū)域融合處理的一個示例的示意圖。其中,圖5a為原始圖像,圖5b為語義分割的真實圖像,圖5c、圖5d和圖5e為物體類別概率預測值排名在前三位的局部候選區(qū)域的二進制分割掩膜,將圖5c、圖5d和圖5e進行融合處理得到圖5f;采用一種可選地聚類算法,如kmeans方法對圖像區(qū)域進行聚類處理得到圖5g,在圖5g中圖像區(qū)域被劃分為近物體區(qū)域、近背景區(qū)域和歧義區(qū)域。其中近物體區(qū)域指的是為物體的概率較高的區(qū)域(圖5g中白色區(qū)域),近背景區(qū)域指的是為背景的概率較高的區(qū)域(圖5g中黑色區(qū)域),這里的背景通常是指不屬于物體的概率較高的區(qū)域,歧義區(qū)域指的是無法預估是否為物體的區(qū)域(圖5g中灰色區(qū)域)。
步驟S207,將近物體區(qū)域和近背景區(qū)域作為種子,采用分割算法對所述歧義區(qū)域進行分割,得到所述訓練圖像的語義分割的校正結(jié)果。
為了進一步預測出歧義區(qū)域的分割結(jié)果,本步驟將近物體區(qū)域和近背景區(qū)域作為種子,采用一種可選地分割算法,如grabcut算法對歧義區(qū)域進行分割,得到一個物體類別的語義分割的校正結(jié)果。在上述示例中,圖5h為圖5a的語義分割的校正結(jié)果。
如果訓練圖像包含N個物體類別,那么局部候選區(qū)域被分為N組分別經(jīng)過上述步驟S206和步驟S207的處理,得到所有物體類別的語義分割的校正結(jié)果,最終得到整個訓練圖像的語義分割的校正結(jié)果。
步驟S208,依據(jù)初步結(jié)果和校正結(jié)果,對語義分割模型的模型參數(shù)進行修正。
替代真實結(jié)果,將上述步驟得到的校正結(jié)果視為標準輸出,確定標準輸出與初步結(jié)果的差異,根據(jù)確定的差異得到語義分割模型的損失函數(shù),利用損失函數(shù)響應值進行回傳,更新語義分割模型的模型參數(shù)。
以上步驟S202至步驟S208為訓練步驟,迭代執(zhí)行上述訓練步驟,以得到經(jīng)訓練的語義分割模型。具體地,訓練步驟迭代執(zhí)行直至語義分割模型的訓練結(jié)果滿足預定收斂條件。例如,預定收斂條件為達到預定迭代次數(shù),當?shù)螖?shù)達到預定迭代次數(shù)時,迭代過程結(jié)束?;蛘?,預定收斂條件為初步結(jié)果與校正結(jié)果之間的差異收斂到一定程度,當滿足該預定收斂條件時,迭代過程結(jié)束。
本實施例提供的語義分割模型訓練方法,依據(jù)弱監(jiān)督信息和多個局部候選區(qū)域,進行局部候選區(qū)域融合,得到訓練圖像的語義分割的校正結(jié)果,并使該校正結(jié)果替代真實結(jié)果,對語義分割模型進行訓練。通過預先提供的弱監(jiān)督信息的指導,實現(xiàn)了準確地語義分割。進一步地,本方法包含兩個分支的訓練過程,一個分支是語義分割模型的訓練過程,另一個分支(即物體定位分支)是對物體的局部候選區(qū)域分類的訓練和對圖像類別的訓練的過程,兩個分支能夠共享訓練的結(jié)果,能夠避免因為最初階段訓練樣本監(jiān)督信號不準確而造成的語義偏離,進一步提升了語義分割結(jié)果的準確性。該方案既有像素級別的直接監(jiān)督,又可以端到端的優(yōu)化語義分割模型,還引入了一個物體定位分支,又能夠根據(jù)對局部候選區(qū)域的判斷改善分割分支的結(jié)果。
圖6示出了本發(fā)明提供的語義分割模型訓練方法的實施例三的流程圖。圖7示出了本發(fā)明提供的語義分割模型訓練方法的實施例三的網(wǎng)絡模型示意圖。本實施例與上述實施例二的主要區(qū)別在于,本實施例依據(jù)訓練圖像的語義分割的初步結(jié)果和每個局部候選區(qū)域的物體類別概率預測值,對多個局部候選區(qū)域進行篩選,利用經(jīng)篩選的局部候選區(qū)域進行后續(xù)的融合處理。下面結(jié)合這兩幅圖對本實施例的具體方案進行詳細介紹。本實施例所描述的方法也是在講如何利用一個訓練圖像對語義分割模型進行訓練。
如圖6所示,針對于每一個訓練圖像的訓練方法包括如下步驟:
步驟S301,從訓練圖像中選擇多個局部候選區(qū)域;以及,獲取訓練圖像的弱監(jiān)督信息。步驟S301為數(shù)據(jù)準備步驟。
步驟S302,將訓練圖像輸入至語義分割模型,得到語義分割模型輸出的訓練圖像的語義分割的初步結(jié)果。
步驟S303,利用交叉熵損失函數(shù),將多個局部候選區(qū)域按照物體類別進行分類;對每個局部候選區(qū)域?qū)儆谖矬w類別的概率進行預測,得到每個局部候選區(qū)域的物體類別概率預測值。
步驟S304,依據(jù)弱監(jiān)督信息,對用于預測訓練圖像的圖像類別的函數(shù)進行訓練。
上述步驟S301至步驟S304的具體實現(xiàn)過程可參見本發(fā)明實施例二中步驟S201至步驟S204的描述,在此不再贅述。
步驟S305,依據(jù)訓練圖像的語義分割的初步結(jié)果和每個局部候選區(qū)域的物體類別概率預測值,對多個局部候選區(qū)域進行篩選。
由于步驟S301準備得到的局部候選區(qū)域有上千個,而且這些局部候選區(qū)域作為樣本來說,存在樣本不均衡的問題,即高概率物體的區(qū)域(正樣本)的數(shù)量與高概率背景的區(qū)域(負樣本)的數(shù)量不均衡,使得后續(xù)訓練過程受其影響得到不準確的結(jié)果。因此,本實施例通過對局部候選區(qū)域進行篩選,使得樣本更為均衡。
具體來說,首先計算局部候選區(qū)域的分割掩膜與訓練圖像的語義分割的初步結(jié)果的交并比,交并比越大,表明局部候選區(qū)域為物體的概率越高,交并比越小,表明局部候選區(qū)域為背景的概率越高。然后,根據(jù)局部候選區(qū)域的交并比與交并比閾值的比較結(jié)果、以及局部候選區(qū)域的物體類別預測值與預測值閾值的比較結(jié)果,對多個局部候選區(qū)域進行篩選。
進一步的,本實施例預先設定交并比的兩個閾值,分別為第一交并比閾值和第二交并比閾值,其中第一交并比閾值大于第二交并比閾值;本實施例還預先設定物體類別預測值的兩個閾值,分別為第一預測值閾值和第二預測值閾值,其中第一預測值閾值大于第二預測值閾值。
響應于局部候選區(qū)域的交并比大于或等于第一交并比閾值,局部候選區(qū)域的物體類別預測值大于或等于第一預測值閾值,將局部候選區(qū)域作為經(jīng)篩選得到的正樣本的局部候選區(qū)域;
響應于局部候選區(qū)域的交并比小于或等于第二交并比閾值,局部候選區(qū)域的物體類別預測值小于或等于第二預測值閾值,將局部候選區(qū)域作為經(jīng)篩選得到的負樣本的局部候選區(qū)域。
通過上述閾值比較過程,篩選出一定數(shù)量的正樣本和負樣本,且保證篩選出的正樣本和負樣本的數(shù)量均衡。
步驟S306,從經(jīng)篩選得到的局部候選區(qū)域內(nèi)選擇出屬于同一物體類別的局部候選區(qū)域。
本步驟將屬于同一物體類別的局部候選區(qū)域選擇出來作為一組,執(zhí)行后續(xù)的操作。如果訓練圖像包含N個物體類別,那么局部候選區(qū)域被分為N組,針對每一組執(zhí)行后續(xù)的操作。
步驟S307,針對屬于同一物體類別的局部候選區(qū)域,進行融合處理,并采用聚類算法將融合后的圖像區(qū)域劃分為近物體區(qū)域、近背景區(qū)域和歧義區(qū)域。
步驟S308,將近物體區(qū)域和近背景區(qū)域作為種子,采用分割算法對所述歧義區(qū)域進行分割,得到所述訓練圖像的語義分割的校正結(jié)果。
步驟S309,依據(jù)初步結(jié)果和校正結(jié)果,對語義分割模型的模型參數(shù)進行修正。
上述步驟S307至步驟S309的具體實現(xiàn)過程可參見本發(fā)明實施例二中步驟S206至步驟S208的描述,在此不再贅述。
以上步驟S302至步驟S309為訓練步驟,迭代執(zhí)行上述訓練步驟,以得到經(jīng)訓練的語義分割模型。具體地,訓練步驟迭代執(zhí)行直至語義分割模型的訓練結(jié)果滿足預定收斂條件。例如,預定收斂條件為達到預定迭代次數(shù),當?shù)螖?shù)達到預定迭代次數(shù)時,迭代過程結(jié)束?;蛘撸A定收斂條件為初步結(jié)果與校正結(jié)果之間的差異收斂到一定程度,當滿足該預定收斂條件時,迭代過程結(jié)束。
本實施例提供的語義分割模型訓練方法,依據(jù)弱監(jiān)督信息和多個局部候選區(qū)域,進行局部候選區(qū)域融合,得到訓練圖像的語義分割的校正結(jié)果,并使該校正結(jié)果替代真實結(jié)果,對語義分割模型進行訓練。通過預先提供的弱監(jiān)督信息的指導,實現(xiàn)了準確地語義分割。進一步地,本方法包含兩個分支的訓練過程,一個分支是語義分割模型的訓練過程,另一個分支(即物體定位分支)是對物體的局部候選區(qū)域分類的訓練和對圖像類別的訓練的過程,兩個分支能夠共享訓練的結(jié)果,能夠避免因為最初階段訓練樣本監(jiān)督信號不準確而造成的語義偏離,進一步提升了語義分割結(jié)果的準確性。該方案既有像素級別的直接監(jiān)督,又可以端到端的優(yōu)化語義分割模型,還引入了一個物體定位分支,又能夠根據(jù)對局部候選區(qū)域的判斷改善分割分支的結(jié)果。除此之外,本實施例還通過對局部候選區(qū)域進行篩選,使得樣本更為均衡,進一步優(yōu)化了訓練效果。
本發(fā)明還提供了一種圖像分割方法,該圖像分割方法將待分割的圖像作為語義分割模型的輸入,根據(jù)語義分割模型的輸出結(jié)果確定圖像的分割結(jié)果。本發(fā)明中基于訓練得到的語義分割模型進行圖像語義分割的方法與現(xiàn)有技術(shù)中的方法相同,不同的是,所利用的語義分割模型采用本發(fā)明上述實施例提供的訓練方法得到。
圖8示出了本發(fā)明提供的語義分割模型訓練裝置的實施例一的功能結(jié)構(gòu)框圖。如圖8所示,本實施例的語義分割模型訓練裝置采用多個預先標注有弱監(jiān)督信息的訓練圖像對語義分割模型進行訓練,該訓練裝置包括:訓練模塊820。
訓練模塊820進一步包括:語義分割單元821,融合單元822,以及修正單元823。
語義分割單元821用于將訓練圖像輸入至語義分割模型,得到語義分割模型輸出的訓練圖像的語義分割的初步結(jié)果??蛇x地,本發(fā)明實施例利用深度學習的全卷積神經(jīng)網(wǎng)絡作為語義分割的模型。使用全卷積神經(jīng)網(wǎng)絡進行預測,通過多個卷積層/非線性響應層/池化層學習中間表示的參數(shù),得到訓練圖像的語義分割的初步結(jié)果。
融合單元822用于依據(jù)弱監(jiān)督信息和多個局部候選區(qū)域,進行局部候選區(qū)域融合,得到訓練圖像的語義分割的校正結(jié)果。依賴于前述準備的弱監(jiān)督信息,對多個局部候選區(qū)域進行融合處理,得到訓練圖像的語義分割的校正結(jié)果。本發(fā)明實施例與現(xiàn)有技術(shù)的不同之處在于,本實施例不采用語義分割的真實結(jié)果(如像素級別的預先標注信息等)作為校正訓練過程中語義分割模型的模型參數(shù),而是將訓練圖像的多個局部候選區(qū)域的融合得到的結(jié)果作為校正訓練過程中語義分割模型的模型參數(shù)。
修正單元823,用于依據(jù)初步結(jié)果和校正結(jié)果,對語義分割模型的模型參數(shù)進行修正。替代真實結(jié)果,將融合單元822得到的校正結(jié)果視為標準輸出,確定標準輸出與初步結(jié)果的差異,根據(jù)確定的差異得到語義分割模型的損失函數(shù),利用損失函數(shù)響應值進行回傳,更新語義分割模型的模型參數(shù)。
上述訓練模塊820迭代運行,以得到經(jīng)訓練的語義分割模型。具體地,訓練模塊820迭代執(zhí)行直至語義分割模型的訓練結(jié)果滿足預定收斂條件。例如,預定收斂條件為達到預定迭代次數(shù),當?shù)螖?shù)達到預定迭代次數(shù)時,迭代過程結(jié)束?;蛘撸A定收斂條件為初步結(jié)果與校正結(jié)果之間的差異收斂到一定程度,當滿足該預定收斂條件時,迭代過程結(jié)束。
進一步的,該訓練裝置還包括:數(shù)據(jù)準備模塊810用于從訓練圖像中選擇多個局部候選區(qū)域;以及,獲取訓練圖像的弱監(jiān)督信息。
本發(fā)明實施例將一個訓練圖像拆成多個局部候選區(qū)域來理解和學習。拆解的原則是能夠盡可能多的覆蓋訓練圖像中不同大小的物體;每個局部候選區(qū)域可以覆蓋物體的一部分,不必完全包含物體,因而每個局部候選區(qū)域?qū)W到的信息更豐富。進一步的,對訓練圖像的拆解具體為對訓練圖像進行超像素分割處理,得到若干個圖像塊;然后,將若干個圖像塊進行聚類組合得到多個局部候選區(qū)域。本發(fā)明實施例可采用現(xiàn)有技術(shù)中提供的局部候選區(qū)域的選擇方法,對此不作限制。
另外,數(shù)據(jù)準備模塊810進一步用于:獲取訓練圖像的物體類別信息。傳統(tǒng)的像素標注信息需要精確地標注出訓練圖像中每個像素所屬的物體類別,而本發(fā)明中弱監(jiān)督信息是訓練圖像所包含的物體類別信息。舉例來說,假如某個訓練圖像中包含人和飛機,傳統(tǒng)的像素標注信息需要標注出該訓練圖像中每個像素是否屬于人或飛機,而本發(fā)明僅需標注出訓練圖像中有人和飛機即可。也即,預先告知訓練裝置訓練圖像中包含的物體類別,但不告知物體的位置。
本實施例提供的語義分割模型訓練裝置,依據(jù)弱監(jiān)督信息和多個局部候選區(qū)域,進行局部候選區(qū)域融合,得到訓練圖像的語義分割的校正結(jié)果,并使該校正結(jié)果替代真實結(jié)果,對語義分割模型進行訓練。通過預先提供的弱監(jiān)督信息的指導,實現(xiàn)了準確地語義分割。由于該裝置中的利用語義分割模型可得到像素級別的預測結(jié)果,可將其作為暫時的監(jiān)督信息,這種情況屬于像素級別的直接監(jiān)督,使得該裝置既有像素級別的直接監(jiān)督,又可以端到端的優(yōu)化語義分割模型,又能夠根據(jù)對局部候選區(qū)域的判斷改善分割分支的結(jié)果。
圖9示出了本發(fā)明提供的語義分割模型訓練裝置的實施例二的功能結(jié)構(gòu)框圖。本實施例在上述裝置實施例一的基礎上,額外設計了一個多任務的訓練子系統(tǒng),利用圖像級別的標注進行約束,以避免因為最初階段訓練樣本監(jiān)督信號不準確而造成的語義偏離。
如圖9所示,訓練模塊820還包括:
局部候選區(qū)域類別預測單元824,用于利用交叉熵損失函數(shù),將多個局部候選區(qū)域按照物體類別進行分類;對每個局部候選區(qū)域?qū)儆谖矬w類別的概率進行預測,得到每個局部候選區(qū)域的物體類別概率預測值。具體地,每個局部候選區(qū)域的物體類別概率預測值是通過全卷積神經(jīng)網(wǎng)絡學習得到的。
局部候選區(qū)域類別預測單元824通過共享全卷積神經(jīng)網(wǎng)絡的結(jié)果,在全連接層可預測得到局部候選區(qū)域的類別。
圖像類別預測單元825,用于依據(jù)弱監(jiān)督信息,對用于預測訓練圖像的圖像類別的函數(shù)進行訓練。
具體地,圖像類別訓練利用了多個體訓練的方案,使用產(chǎn)生式模型Log-Sum-Exponentail分類,優(yōu)化公式如下:
其中,Ik為第k個訓練圖像,c為類別;xkj為第k個訓練圖像的第j個局部候選區(qū)域的描述特征,M為第k個訓練圖像的局部候選區(qū)域的個數(shù);wc為要學的類別c的分類器參數(shù)。該公式預測的是Ik類別為c的概率,即Pr(Ik∈c|wc)。
圖像類別預測單元825將弱監(jiān)督信息作為輸入,通過上述優(yōu)化公式的學習,可學到各類別的分類器參數(shù)。由于弱監(jiān)督信息為圖像類別的標準標注信息,依據(jù)該標準標注信息,通過上述優(yōu)化公式的學習得到各類別的分類器參數(shù),使得網(wǎng)絡具有了下次遇到同類輸入圖像時也能夠預測的能力。
進一步地,融合單元822包括:歸類子單元822a,融合處理子單元822b,分割子單元822c。
歸類子單元822a用于從多個局部候選區(qū)域內(nèi)選擇出屬于同一物體類別的局部候選區(qū)域。歸類子單元822a將屬于同一物體類別的局部候選區(qū)域選擇出來作為一組,交由融合處理子單元822b和分割子單元822c進行處理。如果訓練圖像包含N個物體類別,那么局部候選區(qū)域被分為N組,將每一組交由融合處理子單元822b和分割子單元822c進行處理。
融合處理子單元822b用于針對屬于同一物體類別的局部候選區(qū)域,進行融合處理,并采用聚類算法將融合后的圖像區(qū)域劃分為近物體區(qū)域、近背景區(qū)域和歧義區(qū)域。
由于所選取的局部候選區(qū)域較多,如果對屬于同一物體類別的所有局部候選區(qū)域進行融合處理,計算量較大。為了減小計算量,可選地融合處理子單元822b從針對屬于同一物體類別的局部候選區(qū)域中挑選出一批局部候選區(qū)域進行融合處理。挑選的原則可采用如下兩種:
一種是,依據(jù)局部候選區(qū)域的物體類別概率預測值從高至低的順序,從針對屬于同一物體類別的局部候選區(qū)域中挑選出預設數(shù)量的局部候選區(qū)域,進行融合處理。
另一種是,從針對屬于同一物體類別的局部候選區(qū)域中挑選出物體類別概率預測值高于預設閾值的局部候選區(qū)域,進行融合處理。
以上兩種原則都是基于局部候選區(qū)域的物體類別概率預測值進行挑選,物體類別概率預測值的高低反映出局部候選區(qū)域?qū)儆谀硞€物體類別的概率的高低,上述兩種原則的目的都是挑選出屬于物體的概率比較高的局部候選區(qū)域。
融合處理子單元822b對挑選出的局部候選區(qū)域進行融合處理。具體過程可以為:對挑選出的局部候選區(qū)域進行圖像分割處理,得到局部候選區(qū)域的二進制分割掩膜;將挑選出的局部候選區(qū)域的二進制分割掩膜進行融合處理;采用聚類算法將融合后的圖像區(qū)域劃分為近物體區(qū)域、近背景區(qū)域和歧義區(qū)域。
分割子單元822c用于將近物體區(qū)域和近背景區(qū)域作為種子,采用分割算法對歧義區(qū)域進行分割,得到訓練圖像的語義分割的校正結(jié)果。
為了進一步預測出歧義區(qū)域的分割結(jié)果,分割子單元822c將近物體區(qū)域和近背景區(qū)域作為種子,采用一種可選地分割算法,如grabcut算法對歧義區(qū)域進行分割,得到一個物體類別的語義分割的校正結(jié)果。如果訓練圖像包含N個物體類別,那么局部候選區(qū)域被分為N組分別經(jīng)過融合處理子單元822b和分割子單元822c的處理,得到所有物體類別的語義分割的校正結(jié)果,最終得到整個訓練圖像的語義分割的校正結(jié)果。
本實施例提供的語義分割模型訓練裝置,依據(jù)弱監(jiān)督信息和多個局部候選區(qū)域,進行局部候選區(qū)域融合,得到訓練圖像的語義分割的校正結(jié)果,并使該校正結(jié)果替代真實結(jié)果,對語義分割模型進行訓練。通過預先提供的弱監(jiān)督信息的指導,實現(xiàn)了準確地語義分割。進一步地,本裝置包含兩個分支的訓練過程,一個分支是語義分割模型的訓練過程,另一個分支(即物體定位分支)是對物體的局部候選區(qū)域分類的訓練和對圖像類別的訓練的過程,兩個分支能夠共享訓練的結(jié)果,能夠避免因為最初階段訓練樣本監(jiān)督信號不準確而造成的語義偏離,進一步提升了語義分割結(jié)果的準確性。該方案既有像素級別的直接監(jiān)督,又可以端到端的優(yōu)化語義分割模型,還引入了一個物體定位分支,又能夠根據(jù)對局部候選區(qū)域的判斷改善分割分支的結(jié)果。
圖10示出了本發(fā)明提供的語義分割模型訓練裝置的實施例三的功能結(jié)構(gòu)框圖。本實施例在上述裝置實施例二的基礎上,訓練模塊820還包括:選擇單元826,用于依據(jù)訓練圖像的語義分割的初步結(jié)果和每個局部候選區(qū)域的物體類別概率預測值,對多個局部候選區(qū)域進行篩選。
融合單元822進一步用于:依據(jù)弱監(jiān)督信息,對經(jīng)篩選得到的局部候選區(qū)域進行融合,獲得訓練圖像的語義分割的校正結(jié)果。
由于數(shù)據(jù)準備模塊準備得到的局部候選區(qū)域有上千個,而且這些局部候選區(qū)域作為樣本來說,存在樣本不均衡的問題,即高概率物體的區(qū)域(正樣本)的數(shù)量與高概率背景的區(qū)域(負樣本)的數(shù)量不均衡,使得后續(xù)訓練過程受其影響得到不準確的結(jié)果。因此,本實施例的選擇單元826通過對局部候選區(qū)域進行篩選,使得樣本更為均衡。
具體來說,選擇單元826首先計算局部候選區(qū)域的分割掩膜與訓練圖像的語義分割的初步結(jié)果的交并比,交并比越大,表明局部候選區(qū)域為物體的概率越高,交并比越小,表明局部候選區(qū)域為背景的概率越高。然后,根據(jù)局部候選區(qū)域的交并比與交并比閾值的比較結(jié)果、以及局部候選區(qū)域的物體類別預測值與預測值閾值的比較結(jié)果,對多個局部候選區(qū)域進行篩選。
進一步的,本實施例預先設定交并比的兩個閾值,分別為第一交并比閾值和第二交并比閾值,其中第一交并比閾值大于第二交并比閾值;本實施例還預先設定物體類別預測值的兩個閾值,分別為第一預測值閾值和第二預測值閾值,其中第一預測值閾值大于第二預測值閾值。
選擇單元826進一步用于:響應于局部候選區(qū)域的交并比大于或等于第一交并比閾值,局部候選區(qū)域的物體類別預測值大于或等于第一預測值閾值,將局部候選區(qū)域作為經(jīng)篩選得到的正樣本的局部候選區(qū)域;響應于局部候選區(qū)域的交并比小于或等于第二交并比閾值,局部候選區(qū)域的物體類別預測值小于或等于第二預測值閾值,將局部候選區(qū)域作為經(jīng)篩選得到的負樣本的局部候選區(qū)域。
通過上述閾值比較過程,選擇單元826篩選出一定數(shù)量的正樣本和負樣本,且保證篩選出的正樣本和負樣本的數(shù)量均衡。
歸類子單元822a用于從經(jīng)篩選得到的局部候選區(qū)域內(nèi)選擇出屬于同一物體類別的局部候選區(qū)域。
融合處理子單元822b用于針對屬于同一物體類別的局部候選區(qū)域,進行融合處理,并采用聚類算法將融合后的圖像區(qū)域劃分為近物體區(qū)域、近背景區(qū)域和歧義區(qū)域。
分割子單元822c用于將近物體區(qū)域和近背景區(qū)域作為種子,采用分割算法對歧義區(qū)域進行分割,得到訓練圖像的語義分割的校正結(jié)果。
融合處理子單元822b進一步用于:依據(jù)局部候選區(qū)域的物體類別概率預測值從高至低的順序,從針對屬于同一物體類別的局部候選區(qū)域中挑選出預設數(shù)量的局部候選區(qū)域,進行融合處理;或者,從針對屬于同一物體類別的局部候選區(qū)域中挑選出物體類別概率預測值高于預設閾值的局部候選區(qū)域,進行融合處理。
本實施例提供的語義分割模型訓練裝置,依據(jù)弱監(jiān)督信息和多個局部候選區(qū)域,進行局部候選區(qū)域融合,得到訓練圖像的語義分割的校正結(jié)果,并使該校正結(jié)果替代真實結(jié)果,對語義分割模型進行訓練。通過預先提供的弱監(jiān)督信息的指導,實現(xiàn)了準確地語義分割。進一步地,本裝置包含兩個分支的訓練過程,一個分支是語義分割模型的訓練過程,另一個分支(即物體定位分支)是對物體的局部候選區(qū)域分類的訓練和對圖像類別的訓練的過程,兩個分支能夠共享訓練的結(jié)果,能夠避免因為最初階段訓練樣本監(jiān)督信號不準確而造成的語義偏離,進一步提升了語義分割結(jié)果的準確性。該方案既有像素級別的直接監(jiān)督,又可以端到端的優(yōu)化語義分割模型,還引入了一個物體定位分支,又能夠根據(jù)對局部候選區(qū)域的判斷改善分割分支的結(jié)果。除此之外,本實施例還通過對局部候選區(qū)域進行篩選,使得樣本更為均衡,進一步優(yōu)化了訓練效果。
本發(fā)明還提供了一種圖像分割裝置,該圖像分割裝置將待分割的圖像作為語義分割模型的輸入,根據(jù)語義分割模型的輸出結(jié)果確定圖像的分割結(jié)果。本發(fā)明中基于訓練得到的語義分割模型進行圖像語義分割的裝置與現(xiàn)有技術(shù)中的圖像分割裝置相同,不同的是,所利用的語義分割模型采用本發(fā)明上述實施例提供的訓練裝置得到。
在此提供的方法和顯示不與任何特定計算機、虛擬系統(tǒng)或者其它設備固有相關。各種通用系統(tǒng)也可以與基于在此的示教一起使用。根據(jù)上面的描述,構(gòu)造這類系統(tǒng)所要求的結(jié)構(gòu)是顯而易見的。此外,本發(fā)明也不針對任何特定編程語言。應當明白,可以利用各種編程語言實現(xiàn)在此描述的本發(fā)明的內(nèi)容,并且上面對特定語言所做的描述是為了披露本發(fā)明的最佳實施方式。
在此處所提供的說明書中,說明了大量具體細節(jié)。然而,能夠理解,本發(fā)明的實施例可以在沒有這些具體細節(jié)的情況下實踐。在一些實例中,并未詳細示出公知的方法、結(jié)構(gòu)和技術(shù),以便不模糊對本說明書的理解。
類似地,應當理解,為了精簡本公開并幫助理解各個發(fā)明方面中的一個或多個,在上面對本發(fā)明的示例性實施例的描述中,本發(fā)明的各個特征有時被一起分組到單個實施例、圖、或者對其的描述中。然而,并不應將該公開的方法解釋成反映如下意圖:即所要求保護的本發(fā)明要求比在每個權(quán)利要求中所明確記載的特征更多的特征。更確切地說,如下面的權(quán)利要求書所反映的那樣,發(fā)明方面在于少于前面公開的單個實施例的所有特征。因此,遵循具體實施方式的權(quán)利要求書由此明確地并入該具體實施方式,其中每個權(quán)利要求本身都作為本發(fā)明的單獨實施例。
本領域那些技術(shù)人員可以理解,可以對實施例中的設備中的模塊進行自適應性地改變并且把它們設置在與該實施例不同的一個或多個設備中??梢园褜嵤├械哪K或單元或組件組合成一個模塊或單元或組件,以及此外可以把它們分成多個子模塊或子單元或子組件。除了這樣的特征和/或過程或者單元中的至少一些是相互排斥之外,可以采用任何組合對本說明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的所有特征以及如此公開的任何方法或者設備的所有過程或單元進行組合。除非另外明確陳述,本說明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的每個特征可以由提供相同、等同或相似目的的替代特征來代替。
此外,本領域的技術(shù)人員能夠理解,盡管在此所述的一些實施例包括其它實施例中所包括的某些特征而不是其它特征,但是不同實施例的特征的組合意味著處于本發(fā)明的范圍之內(nèi)并且形成不同的實施例。例如,在下面的權(quán)利要求書中,所要求保護的實施例的任意之一都可以以任意的組合方式來使用。
本發(fā)明的各個部件實施例可以以硬件實現(xiàn),或者以在一個或者多個處理器上運行的軟件模塊實現(xiàn),或者以它們的組合實現(xiàn)。本領域的技術(shù)人員應當理解,可以在實踐中使用微處理器或者數(shù)字信號處理器(DSP)來實現(xiàn)根據(jù)本發(fā)明實施例的獲取應用信息的設備中的一些或者全部部件的一些或者全部功能。本發(fā)明還可以實現(xiàn)為用于執(zhí)行這里所描述的方法的一部分或者全部的設備或者裝置程序(例如,計算機程序和計算機程序產(chǎn)品)。這樣的實現(xiàn)本發(fā)明的程序可以存儲在計算機可讀介質(zhì)上,或者可以具有一個或者多個信號的形式。這樣的信號可以從因特網(wǎng)網(wǎng)站上下載得到,或者在載體信號上提供,或者以任何其他形式提供。
例如,圖11示出了可以實現(xiàn)根據(jù)本發(fā)明的語義分割模型訓練方法的計算設備。該計算設備可以是終端或者服務器。該計算設備傳統(tǒng)上包括處理器1110和以存儲設備1120形式的計算機程序產(chǎn)品或者計算機可讀介質(zhì),另外還包括通信接口和通信總線。存儲設備1120可以是諸如閃存、EEPROM(電可擦除可編程只讀存儲器)、EPROM、硬盤或者ROM之類的電子存儲器。一個或多個處理器、通信接口和存儲器通過通信總線完成相互間的通信。處理器可以是CPU(中央處理單元)或GPU(圖形處理單元)。存儲設備1120具有存儲用于執(zhí)行上述方法中的任何方法步驟的程序代碼1131的存儲空間1130,用于存放至少一指令,該指令使處理器執(zhí)行本發(fā)明實施例的語義分割模型訓練方法中的各種步驟。例如,存儲程序代碼的存儲空間1130可以包括分別用于實現(xiàn)上面的方法中的各種步驟的各個程序代碼1131。這些程序代碼可以從一個或者多個計算機程序產(chǎn)品中讀出或者寫入到這一個或者多個計算機程序產(chǎn)品中。這些計算機程序產(chǎn)品包括諸如硬盤、緊致盤(CD)、存儲卡或者軟盤之類的程序代碼載體。這樣的計算機程序產(chǎn)品通常為例如圖12所示的便攜式或者固定存儲單元。該存儲單元可以具有與圖11的計算設備中的存儲設備1120類似布置的存儲段、存儲空間等。程序代碼可以例如以適當形式進行壓縮。通常,存儲單元包括用于執(zhí)行根據(jù)本發(fā)明的方法步驟的計算機可讀代碼1131',即可以由諸如1110之類的處理器讀取的代碼,當這些代碼由計算設備運行時,導致該計算設備執(zhí)行上面所描述的方法中的各個步驟。
應該注意的是上述實施例對本發(fā)明進行說明而不是對本發(fā)明進行限制,并且本領域技術(shù)人員在不脫離所附權(quán)利要求的范圍的情況下可設計出替換實施例。在權(quán)利要求中,不應將位于括號之間的任何參考符號構(gòu)造成對權(quán)利要求的限制。單詞“包含”不排除存在未列在權(quán)利要求中的元件或步驟。位于元件之前的單詞“一”或“一個”不排除存在多個這樣的元件。本發(fā)明可以借助于包括有若干不同元件的硬件以及借助于適當編程的計算機來實現(xiàn)。在列舉了若干裝置的單元權(quán)利要求中,這些裝置中的若干個可以是通過同一個硬件項來具體體現(xiàn)。單詞第一、第二、以及第三等的使用不表示任何順序。可將這些單詞解釋為名稱。