本發(fā)明屬于人工智能的一種多任務(wù)預(yù)測(cè)方法,尤其涉及一種基于任務(wù)條件適配器的多任務(wù)密集預(yù)測(cè)方法及系統(tǒng)。
背景技術(shù):
1、多任務(wù)密集預(yù)測(cè)在計(jì)算機(jī)視覺領(lǐng)域至關(guān)重要,其允許模型同時(shí)處理如語義分割、深度估計(jì)和邊緣檢測(cè)等多個(gè)任務(wù),提高了場(chǎng)景理解的深度和準(zhǔn)確性。多任務(wù)密集預(yù)測(cè)通過共享網(wǎng)絡(luò)參數(shù)和學(xué)習(xí)互補(bǔ)任務(wù)特征,提升了模型效率,減少了計(jì)算資源消耗,并增強(qiáng)了模型在實(shí)際應(yīng)用如自動(dòng)駕駛和醫(yī)療成像中的魯棒性和靈活性。
2、多任務(wù)密集預(yù)測(cè)領(lǐng)域的現(xiàn)有技術(shù)有諸多不足,主要包括參數(shù)量大、訓(xùn)練時(shí)間長(zhǎng)和內(nèi)存消耗大等問題。傳統(tǒng)多任務(wù)密集預(yù)測(cè)方法通過設(shè)計(jì)獨(dú)立的模塊來處理每對(duì)任務(wù)之間的關(guān)系,導(dǎo)致參數(shù)數(shù)量隨著任務(wù)數(shù)量的增加而呈指數(shù)級(jí)增長(zhǎng),極大地增加了模型的復(fù)雜性。此外,為了訓(xùn)練這些龐大的網(wǎng)絡(luò),需要大量的計(jì)算資源和存儲(chǔ)空間,這不僅限制了模型在資源受限的環(huán)境中的應(yīng)用,也增加了研究和開發(fā)的成本。訓(xùn)練時(shí)間長(zhǎng)是另一個(gè)關(guān)鍵問題。由于模型參數(shù)眾多,需要大量的數(shù)據(jù)和迭代來優(yōu)化,這使得訓(xùn)練過程變得耗時(shí)。長(zhǎng)時(shí)間的訓(xùn)練不僅降低了研究效率,也增加了等待模型訓(xùn)練完成的時(shí)間成本。同時(shí),大量的參數(shù)和復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)還會(huì)導(dǎo)致內(nèi)存消耗大,這在處理大規(guī)模數(shù)據(jù)集或進(jìn)行高分辨率圖像分析時(shí)尤為明顯。在內(nèi)存受限的系統(tǒng)上,這可能導(dǎo)致訓(xùn)練過程無法進(jìn)行或效率低下。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明為了解決背景技術(shù)中存在的問題,提出了一種基于任務(wù)條件適配器的多任務(wù)密集預(yù)測(cè)方法及系統(tǒng)。本發(fā)明首先采用任務(wù)條件的訓(xùn)練以及推理方法,即輸入一張圖像和需要進(jìn)行預(yù)測(cè)的任務(wù)類別,輸出對(duì)應(yīng)的密集預(yù)測(cè)結(jié)果,并引入了可學(xué)習(xí)的任務(wù)特定提示,并使得網(wǎng)絡(luò)能夠靈活地在多種任務(wù)間切換,實(shí)現(xiàn)了節(jié)省參數(shù)數(shù)量和計(jì)算資源的目的。
2、第一方面,本發(fā)明提供了一種基于任務(wù)條件適配器的多任務(wù)密集預(yù)測(cè)方法,包括:
3、獲取輸入圖像與執(zhí)行任務(wù)類型;
4、利用結(jié)合適配器的特征提取骨干編碼器提取輸入圖像的多尺度特征圖;
5、根據(jù)執(zhí)行任務(wù)類型,利用結(jié)合適配器的任務(wù)解碼器對(duì)多尺度特征圖進(jìn)行解碼,獲得解碼結(jié)果;
6、多個(gè)執(zhí)行任務(wù)特定的輸出頭根據(jù)任務(wù)類型對(duì)解碼結(jié)果處理后輸出對(duì)應(yīng)任務(wù)的預(yù)測(cè)結(jié)果。
7、在訓(xùn)練過程中,所述結(jié)合適配器的特征提取骨干編碼器中的多尺度密集特征提取網(wǎng)絡(luò)為凍結(jié)狀態(tài),所述結(jié)合適配器的任務(wù)解碼器的解碼過程中利用任務(wù)條件的適配器調(diào)制解碼器的各個(gè)階段,用于強(qiáng)化任務(wù)特定的解碼過程。
8、所述結(jié)合適配器的特征提取骨干編碼器包含相連的多尺度密集特征提取網(wǎng)絡(luò)和多尺度的適配器層,對(duì)于多尺度密集特征提取網(wǎng)絡(luò)中的每個(gè)尺度的transformer層,每個(gè)transformer層與對(duì)應(yīng)的適配器層相連,每個(gè)適配器層包括多個(gè)適配器,當(dāng)前尺度的transformer層中每個(gè)殘差塊的殘差分支的輸出作為適配器層中對(duì)應(yīng)的適配器的輸入,第一個(gè)適配器的輸出與當(dāng)前尺度的適配器層的輸入相加后作為當(dāng)前尺度的第一個(gè)中間特征,每個(gè)適配器的輸出與前一個(gè)中間特征相加后生成下一個(gè)中間特征,將當(dāng)前尺度的transformer層的輸出與適配器層的輸出相加后再經(jīng)歸一化層后,獲得當(dāng)前尺度的特征圖。
9、所述適配器包含線性層、卷積塊注意力模塊和任務(wù)條件模塊,利用第一線性層對(duì)適配器的輸入特征進(jìn)行降維,再利用卷積塊注意力模塊對(duì)降維后的特征進(jìn)行通道維度與空間維度的適配;然后任務(wù)條件模塊根據(jù)任務(wù)特定編碼對(duì)適配后的特征進(jìn)行任務(wù)特定強(qiáng)化調(diào)制,得到任務(wù)特定編碼特征;最后利用第二線性層對(duì)任務(wù)特定特征進(jìn)行升維,得到適配器調(diào)制后的多尺度圖像特征。
10、所述任務(wù)條件模塊包含第三和第四線性層,第三線性層根據(jù)任務(wù)特定編碼和卷積塊注意力模塊的輸出第一歸一化權(quán)重向量,第四線性層根據(jù)任務(wù)特定編碼學(xué)習(xí)第二歸一化權(quán)重向量,完成根據(jù)任務(wù)特定編碼et調(diào)制卷積塊注意力模塊的輸出y″。
11、每個(gè)所述輸出頭包括卷積模塊,卷積模塊的通道維度由任務(wù)類型決定。
12、第二方面,本發(fā)明還提供了一種基于任務(wù)條件適配器的多任務(wù)密集預(yù)測(cè)系統(tǒng),包括:
13、所述圖像與任務(wù)類型采集模塊,被配置為:獲取圖像與任務(wù)類型;
14、所述圖像預(yù)處理模塊,被配置為:歸一化圖像像素值使得圖像適應(yīng)網(wǎng)絡(luò)輸入,并利用塊編碼網(wǎng)絡(luò)將其編碼為圖像特征,另外加上圖像位置編碼以表征像素位置信息;
15、所述任務(wù)特定編碼模塊,被配置為:根據(jù)輸入的任務(wù)類型,選擇正確的任務(wù)特定編碼用于后續(xù)特征調(diào)制;
16、所述任務(wù)特定特征提取模塊,被配置為:根據(jù)任務(wù)特定編碼,提取輸入圖像的多尺度特征;
17、所述任務(wù)條件調(diào)制的解碼模塊,被配置為:在現(xiàn)有多尺度解碼器基礎(chǔ)上,增加所述任務(wù)條件適配器,在解碼階段對(duì)特征進(jìn)行通道與空間維度適配的同時(shí),根據(jù)任務(wù)特定編碼調(diào)制解碼特征,得到最終輸出的任務(wù)特定特征;
18、所述任務(wù)特定輸出模塊,被配置為:利用任務(wù)特定輸出卷積模塊,對(duì)所述任務(wù)特定特征進(jìn)行通道維度適配,得到密集預(yù)測(cè)結(jié)果。
19、所述任務(wù)特定特征提取模塊中,將凍結(jié)的多尺度密集特征提取網(wǎng)絡(luò)與任務(wù)條件適配器以并行方式相連,進(jìn)而提取輸入圖像的多尺度特征。
20、所述任務(wù)條件適配器,被配置為:利用卷積塊注意力模塊對(duì)所述多尺度特征進(jìn)行通道與空間維度適配,并利用任務(wù)條件模塊,根據(jù)任務(wù)特定編碼對(duì)適配后的特征進(jìn)行進(jìn)一步調(diào)制,得到更好的任務(wù)特定特征。
21、第三方面,本發(fā)明還提供了一種電子設(shè)備,其包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)了所述的一種基于任務(wù)條件適配器的多任務(wù)密集預(yù)測(cè)方法中的步驟。
22、第四方面,本發(fā)明還提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,該程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)了第一方面中所述的多任務(wù)密集預(yù)測(cè)中的步驟。
23、本發(fā)明首先基于深度學(xué)習(xí)的特征提取骨干編碼器網(wǎng)絡(luò)swin?transformer提取輸入圖像的多尺度特征圖。在此基礎(chǔ)上,基于通道和空間的注意力機(jī)制,本發(fā)明提出一種基于任務(wù)條件適配器的多任務(wù)密集預(yù)測(cè)方法,并與凍結(jié)了參數(shù)的特征提取骨干編碼器網(wǎng)絡(luò)進(jìn)行并行連接,實(shí)現(xiàn)了對(duì)凍結(jié)的骨干編碼器網(wǎng)絡(luò)參數(shù)的高效提取,并進(jìn)一步節(jié)省了參數(shù)數(shù)量和計(jì)算資源。在解碼階段,本發(fā)明將所述任務(wù)條件適配器串行接入每個(gè)解碼器層,從而實(shí)現(xiàn)更直接有效的任務(wù)特定特征調(diào)制。本發(fā)明中的方法對(duì)適配器和解碼器進(jìn)行統(tǒng)一的端到端訓(xùn)練,保證了模型參數(shù)的有效更新和任務(wù)性能的最優(yōu)化效果;經(jīng)過本發(fā)明中的方法,可以實(shí)現(xiàn)與傳統(tǒng)多任務(wù)密集預(yù)測(cè)方法相比,在具有相當(dāng)甚至更佳的性能的情況下,具有更少的訓(xùn)練參數(shù)、更短的訓(xùn)練時(shí)間和更低的內(nèi)存消耗。
24、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果為:
25、1.本發(fā)明采用任務(wù)條件的訓(xùn)練方式,相比傳統(tǒng)的多任務(wù)密集預(yù)測(cè)訓(xùn)練方式,該方式允許多任務(wù)密集預(yù)測(cè)網(wǎng)絡(luò)在不同任務(wù)之間共享更多任務(wù)通用參數(shù),另外,相比大多數(shù)任務(wù)條件的方法,本發(fā)明在不同任務(wù)之間共享絕大多數(shù)神經(jīng)網(wǎng)絡(luò)參數(shù),實(shí)現(xiàn)了節(jié)省訓(xùn)練參數(shù)數(shù)量的目的。
26、2.本發(fā)明提出的任務(wù)條件適配器一方面通過凍結(jié)特征提取骨干網(wǎng)絡(luò)進(jìn)一步節(jié)省訓(xùn)練參數(shù)數(shù)量,另一方面,相對(duì)于傳統(tǒng)適配器方法,本發(fā)明將適配器與骨干網(wǎng)絡(luò)以并行方式連接,這使得網(wǎng)絡(luò)訓(xùn)練時(shí)反向傳播的梯度無需經(jīng)過凍結(jié)的骨干網(wǎng)絡(luò),這不僅減少了訓(xùn)練參數(shù)數(shù)量,也進(jìn)一步減少了空間占用和訓(xùn)練時(shí)間。
27、3.本發(fā)明提出的任務(wù)條件適配器,相對(duì)于傳統(tǒng)適配器方法,結(jié)合了通道與空間注意力模塊,增強(qiáng)了適配器在密集預(yù)測(cè)任務(wù)中的有效性,同時(shí)增加了任務(wù)條件模塊,根據(jù)任務(wù)特定編碼對(duì)特征進(jìn)行任務(wù)特定調(diào)制,進(jìn)一步增強(qiáng)任務(wù)特征表達(dá)能力。
28、4.本發(fā)明將適配器同時(shí)應(yīng)用于編碼器與解碼器,增強(qiáng)整個(gè)網(wǎng)絡(luò)的多任務(wù)適配能力,并且對(duì)適配器和解碼器進(jìn)行統(tǒng)一的端到端訓(xùn)練,保證了模型參數(shù)的有效更新和任務(wù)性能的最優(yōu)化效果。