本發(fā)明涉及機器學習領(lǐng)域,特別涉及一種基于擴散模型的跨域語義分割系統(tǒng)及方法。
背景技術(shù):
1、目前,語義分割的任務(wù)是對圖像的每個像素進行分類,以實現(xiàn)對不同物體的精確分割。該任務(wù)的精度依賴于模型對每個像素進行分類,以便為圖像中的每個部分生成準確的語義標簽。與分類或檢測任務(wù)相比,語義分割需要更細粒度的分析,因為它不僅要識別物體,還要確定其精確的邊界。由于現(xiàn)實場景中圖像的復雜性,如光照變化、不同的視角、遮擋等因素,語義分割模型的泛化能力面臨更高的要求。模型必須能夠在不同的場景和條件下,準確地識別和分割目標對象。這對模型的訓練數(shù)據(jù)、數(shù)據(jù)增強方法以及網(wǎng)絡(luò)架構(gòu)提出了更高的要求。
2、現(xiàn)有的方法通常需要依賴域自適應(yīng)技術(shù)來解決域偏移問題,這種做法雖然在一定程度上能夠緩解源域和目標域之間的分布差異,但往往依賴大量標注數(shù)據(jù),且在未標注場景下表現(xiàn)受限。通過采用域泛化的策略,可以在無需目標域數(shù)據(jù)的情況下提高模型的泛化能力,有效應(yīng)對不同域之間的分布差異,尤其是在無監(jiān)督或者弱監(jiān)督場景下,這種方法的優(yōu)勢尤為明顯。然而,現(xiàn)有的方法大多專注于全局特征對齊或?qū)褂柧?,未能充分考慮在細粒度特征上的差異,從而在處理復雜場景或局部結(jié)構(gòu)顯著變化時表現(xiàn)不足,導致模型在實際應(yīng)用中對細節(jié)的捕捉能力欠佳。大多數(shù)語義分割模型默認測試數(shù)據(jù)和訓練數(shù)據(jù)具有相同的分布,但在實際應(yīng)用中,這種假設(shè)往往不成立。尤其是在開放環(huán)境下,模型經(jīng)常面臨域偏移問題。這種偏移可能是由于語義差異(如未曾見過的類別)或環(huán)境差異(如來自不同場景或風格的樣本)導致的。這使得語義分割變得更加復雜,模型必須具備良好的泛化能力,才能適應(yīng)不斷變化的場景與挑戰(zhàn)。
3、綜上所述,為了實現(xiàn)更廣泛的應(yīng)用場景,模型必須具備更強的適應(yīng)性。不僅需要在標準分割任務(wù)上表現(xiàn)優(yōu)異,還要能夠在不同的視覺風格和環(huán)境條件下靈活應(yīng)對。因此,對于跨域語義分割任務(wù),除了考慮模型在各域間的泛化能力,還需重點關(guān)注域間差異的處理,如視覺風格的變化和環(huán)境的多樣性。只有這樣,才能確保模型在實際應(yīng)用中的穩(wěn)健性和高效性,滿足復雜、多變場景下的需求。
技術(shù)實現(xiàn)思路
1、本發(fā)明為解決公知技術(shù)中存在的技術(shù)問題而提供一種基于擴散模型的跨域語義分割系統(tǒng)及方法。
2、本發(fā)明為解決公知技術(shù)中存在的技術(shù)問題所采取的技術(shù)方案是:
3、一種基于擴散模型的跨域語義分割系統(tǒng),包括主干網(wǎng)絡(luò)、fpn網(wǎng)絡(luò)、編碼擾動模塊、風格投影器、均值調(diào)整模塊、方差調(diào)整模塊、特征融合模塊及掩碼解碼器;
4、主干網(wǎng)絡(luò)用于自下而上提取目標圖像的特征圖;
5、fpn網(wǎng)絡(luò)用于融合主干網(wǎng)絡(luò)提取的特征圖中的低層特征圖與高層特征圖,生成多尺度特征圖;
6、編碼擾動模塊用于在目標圖像中加入高斯噪聲,生成初始噪聲特征圖;
7、風格投影器用于從多層圖像特征中提取各層圖像的風格特征,得到圖像的多層風格特征;
8、均值調(diào)整模塊用于從多層風格特征中提取各層各通道的均值信息,并擴展尺寸使其尺寸和初始噪聲特征尺寸相對應(yīng);
9、方差調(diào)整模塊用于從多層風格特征中提取各層各通道的方差信息,并擴展尺寸使其尺寸和初始噪聲特征尺寸相對應(yīng);
10、特征融合模塊用于將各層圖像的圖像風格特征的均值及和方差與圖像的初始噪聲特征圖相結(jié)合;并與fpn網(wǎng)絡(luò)生成的多尺度特征圖相連接,得到混合特征圖;
11、主干網(wǎng)絡(luò)及編碼擾動模塊分別輸入目標圖像;編碼擾動模塊輸出初始噪聲特征圖;主干網(wǎng)絡(luò)輸出n層圖像特征圖至fpn網(wǎng)絡(luò);fpn網(wǎng)絡(luò)輸出目標圖像的多尺度特征;主干網(wǎng)絡(luò)和/或fpn網(wǎng)絡(luò)輸出第l層圖像特征圖至第i個風格投影器,i=l≤n;第i個風格投影器輸出第l層圖像的風格特征圖,分別至均值調(diào)整模塊及方差調(diào)整模塊;均值調(diào)整模塊輸出第一層至第n層圖像的風格特征均值;方差調(diào)整模塊輸出第一層至第n層圖像的風格特征方差;特征融合模塊分別輸入來自編碼擾動模塊、fpn網(wǎng)絡(luò)、均值調(diào)整模塊及方差調(diào)整模塊的輸出信號,生成混合特征圖;掩碼解碼器輸入特征融合模塊生成的混合特征圖,輸出預測掩碼。
12、進一步地,fpn網(wǎng)絡(luò)輸出第l層圖像特征圖至第i個風格投影器,第i個風格投影器包括依次連接的均值計算模塊、第一線性層、第一激活層、第二線性層:均值計算模塊計算輸入數(shù)據(jù)的平均值;第一、二線性層用于將輸入數(shù)據(jù)通過線性變換映射到輸出,第一激活層用于對輸入數(shù)據(jù)通過非線性的激活函數(shù)進行處理并輸出;fpn網(wǎng)絡(luò)輸出第l層圖像特征圖至第i個風格投影器的均值計算模塊,第i個風格投影器第二線性層的輸出第l層圖像的風格特征圖。
13、進一步地,均值調(diào)整模塊包括依次連接的第二激活層及特征圖均值模塊;第二激活層用于對輸入數(shù)據(jù)通過非線性的激活函數(shù)進行處理并輸出,特征圖均值模塊用于計算特征圖的均值;方差調(diào)整模塊包括依次連接的第三激活層及特征圖方差模塊;第三激活層用于對輸入數(shù)據(jù)通過非線性的激活函數(shù)進行處理并輸出,特征圖方差模塊用于計算特征圖的方差;第i個風格投影器輸出第l層圖像的風格特征圖,分別至均值調(diào)整模塊的第二激活層及方差調(diào)整模塊的第三激活層;均值調(diào)整模塊的特征圖均值模塊輸出第一層至第n層圖像的風格特征均值;方差調(diào)整模塊的特征圖方差模塊輸出第一層至第n層圖像的風格特征方差。
14、進一步地,特征融合模塊包括依次相連的第一矩陣乘法器和第一矩陣加法器,第一矩陣乘法器用于將兩個矩陣進行相乘;第一矩陣加法器用于將兩個矩陣相加;第一矩陣乘法器輸入各層圖像的圖像風格特征的方差矩陣及初始噪聲特征圖,將兩者相乘后輸出至第一矩陣加法器的第一個輸入端,第一矩陣加法器的第二個輸入端輸入各層圖像的圖像風格特征的均值矩陣,第一矩陣加法器輸出組合特征圖。
15、本發(fā)明還提供了一種基于擴散模型的跨域語義分割方法,該方法構(gòu)建跨域語義分割模型;跨域語義分割模型中設(shè)置主干網(wǎng)絡(luò)、fpn網(wǎng)絡(luò)、編碼擾動模塊、風格投影器、均值調(diào)整模塊、方差調(diào)整模塊、特征融合模塊及掩碼解碼器;
16、主干網(wǎng)絡(luò)用于自下而上提取目標圖像的特征圖;
17、fpn網(wǎng)絡(luò)用于融合主干網(wǎng)絡(luò)提取的特征圖中的低層特征圖與高層特征圖,生成多尺度特征圖;
18、編碼擾動模塊用于在目標圖像中加入高斯噪聲,生成初始噪聲特征圖;
19、風格投影器用于從多層圖像特征中提取各層圖像的風格特征,得到圖像的多層風格特征;
20、均值調(diào)整模塊用于從多層風格特征中提取各層各通道的均值信息,并擴展尺寸使其尺寸和初始噪聲特征尺寸相對應(yīng);
21、方差調(diào)整模塊用于從多層風格特征中提取各層各通道的方差信息,并擴展尺寸使其尺寸和初始噪聲特征尺寸相對應(yīng);
22、特征融合模塊用于將各層圖像的圖像風格特征的均值及和方差與圖像的初始噪聲特征圖相結(jié)合;并與fpn網(wǎng)絡(luò)生成的多尺度特征圖相連接,得到混合特征圖;
23、使主干網(wǎng)絡(luò)及編碼擾動模塊分別輸入目標圖像;使編碼擾動模塊輸出初始噪聲特征圖;使主干網(wǎng)絡(luò)輸出n層圖像特征圖至fpn網(wǎng)絡(luò);使fpn網(wǎng)絡(luò)輸出目標圖像的多尺度特征;使主干網(wǎng)絡(luò)和/或fpn網(wǎng)絡(luò)輸出第l層圖像特征圖至第i個風格投影器,i=l≤n;使第i個風格投影器輸出第l層圖像的風格特征圖,分別至均值調(diào)整模塊及方差調(diào)整模塊;使均值調(diào)整模塊輸出第一層至第n層圖像的風格特征均值;使方差調(diào)整模塊輸出第一層至第n層圖像的風格特征方差;使特征融合模塊分別輸入來自編碼擾動模塊、fpn網(wǎng)絡(luò)、均值調(diào)整模塊及方差調(diào)整模塊的輸出信號,生成混合特征圖;使掩碼解碼器輸入特征融合模塊生成的混合特征圖,輸出預測掩碼。
24、進一步地,訓練跨域語義分割模型的方法包括如下方法步驟:輸入數(shù)據(jù)需要經(jīng)過適當?shù)念A處理后輸入到網(wǎng)絡(luò)中,預處理方法包括旋轉(zhuǎn)、裁剪、調(diào)整銳度和亮度、傅里葉變換、動態(tài)模糊、灰度調(diào)整等數(shù)據(jù)增強策略;使用adamw優(yōu)化器訓練40000輪;初始學習率設(shè)置為0.00006,并采用默認因子為1.0的poly學習率調(diào)度器。
25、進一步地,使編碼擾動模塊分t步在目標圖像中加入高斯噪聲,生成目標圖像的初始噪聲特征圖。
26、進一步地,使fpn網(wǎng)絡(luò)輸出第l層圖像特征圖至第i個風格投影器,第i個風格投影器的計算公式如下:
27、fstyle=linear2(relu(linear1(avg(fl))));
28、式中:
29、fstyle是第i個風格投影器輸出第l層圖像的風格特征圖;
30、fl是fpn網(wǎng)絡(luò)輸出的第l層圖像特征數(shù)據(jù);
31、avg()表示均值計算函數(shù);
32、linear1()表示第一線性變換函數(shù);
33、relu()表示激活函數(shù);
34、linear2()表示第二線性變換函數(shù)。
35、進一步地,使均值調(diào)整模塊計算風格特征均值的計算公式如下:
36、μadjustment=linearμ(relu(fstyle));
37、使方差調(diào)整模塊計算風格特征方差的計算公式如下:
38、σadjustment=linearσ(relu(fstyle));
39、式中:
40、fstyle是風格特征;
41、linearμ()表示特征圖數(shù)據(jù)的均值計算函數(shù);
42、linearσ()表示特征圖數(shù)據(jù)的方差計算函數(shù);
43、relu()表示激活函數(shù);
44、μadjustment是圖像風格特征的均值;
45、σadjustment是圖像風格特征的方差。
46、進一步地,特征融合模塊將各層圖像的圖像風格特征的均值及和方差與圖像的初始噪聲特征圖相結(jié)合時,使特征融合模塊的噪聲圖像計算公式如下:
47、fadjusted=μadjustment+fnoise×σadjustment;
48、式中:
49、μadjustment是圖像風格特征的均值;
50、σadjustment是圖像風格特征的方差;
51、fnoise是初始噪聲特征;
52、fadjusted是調(diào)整后的噪聲特征。
53、本發(fā)明具有的優(yōu)點和積極效果是:
54、1、本發(fā)明提出了一種基于擴散模型的語義分割方法,充分利用了條件擴散模型在可控圖像生成方面的優(yōu)勢,通過引入其特性,實現(xiàn)了更為高效的語義分割。經(jīng)過訓練的模型在不同域數(shù)據(jù)上有較強的通用性和魯棒性,能夠適應(yīng)多種復雜場景的需求。
55、2、本發(fā)明提出了一種跨域特征增強方法,有效解決了訓練數(shù)據(jù)與目標圖像之間的域分布差異問題。在保持圖像內(nèi)部結(jié)構(gòu)不變的前提下,通過擾動源域圖像特征的通道統(tǒng)計量,靈活地捕捉和表達各種潛在樣式,提高了模型在語義分割任務(wù)中的適應(yīng)性與性能。