本發(fā)明涉及計(jì)算機(jī)視覺,尤其涉及一種基于跨模態(tài)對齊和原型多樣化的連續(xù)小樣本圖片分類方法。
背景技術(shù):
1、近年來,采用精心設(shè)計(jì)的架構(gòu)的深度神經(jīng)網(wǎng)絡(luò)在多種視覺識別任務(wù)中取得了顯著進(jìn)展。其成功的關(guān)鍵因素之一在于采用了預(yù)先收集的、靜態(tài)不變的大規(guī)模有標(biāo)簽數(shù)據(jù)集進(jìn)行模型訓(xùn)練。然而,在實(shí)際應(yīng)用中,考慮到隱私或者標(biāo)注成本等因素,新的類別通常會隨著時(shí)間不斷出現(xiàn),且訓(xùn)練數(shù)據(jù)相對較少。舉例來說,在人臉識別系統(tǒng)中,系統(tǒng)需要不斷添加新的用戶,同時(shí)只允許上傳一張或者幾張圖片來識別新增加的人臉信息。針對上述挑戰(zhàn),研究者們提出了小樣本類增學(xué)習(xí)問題,該問題模仿了人類的學(xué)習(xí)過程,旨在從有限的標(biāo)注樣本中不斷學(xué)習(xí)新類別,同時(shí)不過分遺忘先前學(xué)到的舊類別知識。
2、小樣本類增學(xué)習(xí)通常由一個(gè)基礎(chǔ)任務(wù)和多個(gè)連續(xù)的增量任務(wù)組成。在基礎(chǔ)任務(wù)中,每個(gè)類別具有大量的有標(biāo)注訓(xùn)練樣本用以構(gòu)建初始模型,而在增量任務(wù)中,每個(gè)類只有少量的幾個(gè)標(biāo)注樣本用來持續(xù)的訓(xùn)練模型。在對每個(gè)任務(wù)進(jìn)行學(xué)習(xí)時(shí),模型只能使用當(dāng)前任務(wù)中的訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練,而在每個(gè)任務(wù)學(xué)習(xí)結(jié)束后,模型需要在所有已見過的類別上進(jìn)行測試。在小樣本類增學(xué)習(xí)過程中,有兩個(gè)關(guān)鍵挑戰(zhàn)需要解決:災(zāi)難性遺忘和模型過擬合。其中,災(zāi)難性遺忘用來形容模型在適配后續(xù)增量任務(wù)中的新類別時(shí),往往會丟失已經(jīng)學(xué)習(xí)到的舊知識的現(xiàn)象;而模型過擬合主要由增量任務(wù)中的訓(xùn)練數(shù)據(jù)過少引起,這一現(xiàn)象反過來加劇災(zāi)難性遺忘的產(chǎn)生。
3、針對上述挑戰(zhàn),現(xiàn)有的小樣本類增學(xué)習(xí)方法主要側(cè)重于首先從基礎(chǔ)任務(wù)中學(xué)習(xí)出泛化特征,然后在增量任務(wù)中采用權(quán)重約束、知識蒸餾、特征提前分配等策略優(yōu)化特征空間,從而緩解模型過擬合現(xiàn)象,達(dá)到平衡模型穩(wěn)定性-可塑性困境的目的。這種學(xué)習(xí)可遷移特征的思想與對比語言視覺預(yù)訓(xùn)練大模型的思想相似,其主要通過從海量的文本-圖片數(shù)據(jù)對中通過對比學(xué)習(xí)方式構(gòu)造出具有泛化能力的網(wǎng)絡(luò)結(jié)構(gòu)。對比語言視覺預(yù)訓(xùn)練大模型在圖片分類、圖片生成等多種下游視覺問題上取得了顯著進(jìn)展。考慮到語言視覺預(yù)訓(xùn)練大模型通常具有海量參數(shù),如何以參數(shù)高效的方式,使用語言視覺預(yù)訓(xùn)練大模型求解連續(xù)小樣本學(xué)習(xí)問題是當(dāng)前亟需解決的難題。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的在于針對現(xiàn)有技術(shù)的不足,提供一種基于跨模態(tài)對齊和原型多樣化的連續(xù)小樣本圖片分類方法。
2、本發(fā)明的目的是通過以下技術(shù)方案來實(shí)現(xiàn)的:本發(fā)明實(shí)施例第一方面提供了一種基于跨模態(tài)對齊和原型多樣化的連續(xù)小樣本圖片分類方法,包括以下步驟:
3、(1)構(gòu)造多模態(tài)對齊網(wǎng)絡(luò)以提取對齊的圖片特征和類別文本原型;其中,所述多模態(tài)對齊網(wǎng)絡(luò)包括視覺軟提示、圖片編碼器、文本軟提示、文本編碼器和特征適配器;
4、(2)構(gòu)造原型偏置器,將步驟(1)得到的對齊的圖片特征輸入到構(gòu)造的原型偏置器中,得到類別原型的視覺偏置向量,采用類別原型的視覺偏置向量對步驟(1)得到的類別文本原型進(jìn)行更正,以獲取更正后的類別文本原型;
5、(3)計(jì)算步驟(1)得到的對齊的圖片特征與步驟(2)得到的更正后的所有類別文本原型之間的余弦相似度及其概率值;
6、(4)使用當(dāng)前任務(wù)的有標(biāo)簽訓(xùn)練數(shù)據(jù)進(jìn)行迭代訓(xùn)練,訓(xùn)練過程中固定圖片編碼器和文本編碼器的參數(shù),基于步驟(3)得到的概率值計(jì)算交叉熵?fù)p失函數(shù),以最小化交叉熵?fù)p失函數(shù)為優(yōu)化目標(biāo),調(diào)整視覺軟提示、文本軟提示、特征適配器和原型偏置器中的參數(shù),以獲取訓(xùn)練好的視覺軟提示、文本軟提示、特征適配器和原型偏置器;
7、(5)給定待測試圖片,利用訓(xùn)練好的視覺軟提示、文本軟提示、特征適配器和原型偏置器以及圖片編碼器和文本編碼器,重復(fù)步驟(1)-步驟(3),計(jì)算該待測試圖片與所有類別標(biāo)簽之間的概率值,選取最大概率值對應(yīng)的類別標(biāo)簽,作為當(dāng)前待測試圖片的最終類別標(biāo)簽。
8、進(jìn)一步地,所述步驟(1)包括以下子步驟:
9、(1.1)使用開源的預(yù)訓(xùn)練好的對比語言-圖像預(yù)訓(xùn)練大模型對圖片編碼器和文本編碼器進(jìn)行初始化;
10、(1.2)構(gòu)造視覺軟提示向量,將視覺軟提示向量與輸入圖片進(jìn)行拼接,以獲取拼接后的特征向量,將拼接后的特征向量輸入到圖片編碼器中,得到對應(yīng)的圖片特征;
11、(1.3)將步驟(1.2)得到的圖片特征輸入到特征適配器中,得到適配的圖片特征,適配的圖片特征再與步驟(1.2)得到的圖片特征進(jìn)行線性組合,得到對齊的圖片特征;
12、(1.4)構(gòu)造文本軟提示向量,將文本軟提示向量與類別標(biāo)簽進(jìn)行拼接,以獲取拼接后的類別文本向量,將拼接后的類別文本向量輸入到文本編碼器中,得到對應(yīng)的類別標(biāo)簽特征,也被稱為類別文本原型。
13、進(jìn)一步地,所述步驟(1.2)具體包括:首先構(gòu)造視覺軟提示向量,其中表示第1個(gè)視覺軟提示,表示第2個(gè)視覺軟提示,表示第l個(gè)視覺軟提示,l表示視覺軟提示的總數(shù);然后將輸入圖片平均分成m個(gè)具有固定尺寸大小的圖片塊,圖片塊的特征表示為,其中表示第i個(gè)圖片塊的特征嵌入表示;再根據(jù)m個(gè)圖片塊的特征嵌入表示獲取輸入圖片的特征向量;其次,將構(gòu)造的視覺軟提示向量與輸入圖片的特征向量進(jìn)行拼接,得到拼接后的圖片特征向量;最后將拼接后的特征向量輸入到圖片編碼器中,得到對應(yīng)的圖片特征;
14、所述步驟(1.4)具體包括:首先構(gòu)造文本軟提示向量,其中表示第1個(gè)文本軟提示,表示第2個(gè)文本軟提示,表示第h個(gè)文本軟提示,h表示文本軟提示的總數(shù);然后對于每一個(gè)類別標(biāo)簽,將構(gòu)造的文本軟提示向量與其對應(yīng)的類別標(biāo)簽向量進(jìn)行拼接,以獲取拼接后的類別文本向量,其中表示第c個(gè)類別標(biāo)簽的類別標(biāo)簽向量;最后將拼接后的類別文本向量輸入到文本編碼器中,得到對應(yīng)的類別標(biāo)簽特征,也被稱為類別文本原型。
15、進(jìn)一步地,所述步驟(1.3)中,所述特征適配器包括兩層全連接層和一層殘差連接層;所述對齊的圖片特征通過如下過程獲?。?/p>
16、
17、
18、其中,為輸入到特征適配器中的圖片特征;為經(jīng)過兩層全連接層后的圖片特征;、、、為特征適配器中兩層全連接層的參數(shù);為激活函數(shù);?為對齊的圖片特征,為殘差連接層的殘差系數(shù)。
19、進(jìn)一步地,所述步驟(2)包括以下子步驟:
20、(2.1)構(gòu)造原型偏置器,將步驟(1)得到的對齊的圖片特征輸入到構(gòu)造的原型偏置器中,得到類別原型的視覺偏置向量;
21、(2.2)將步驟(2.1)得到的類別原型的視覺偏置向量與步驟(1)得到的類別文本原型按照如下公式進(jìn)行相加,以獲取更正后的類別文本原型:
22、
23、其中,表示更正后的類別文本原型,表示類別原型的視覺偏置向量,為混合參數(shù)。
24、進(jìn)一步地,所述步驟(2.1)中,所述原型偏置器包括兩層全連接層;所述類別原型的視覺偏置向量通過如下過程獲?。?/p>
25、
26、其中,、、、是原型偏置器中兩層全連接層的參數(shù)。
27、進(jìn)一步地,所述步驟(3)中,所述概率值的計(jì)算公式為:
28、
29、其中,表示輸入圖片對應(yīng)的預(yù)測類別標(biāo)簽,表示預(yù)測類別標(biāo)簽為類別標(biāo)簽c的概率值,表示余弦相似度,表示指數(shù)函數(shù),k表示一共具有?k個(gè)類別標(biāo)簽,j表示第j個(gè)類別標(biāo)簽,表示溫度系數(shù)。
30、進(jìn)一步地,所述步驟(4)中,所述交叉熵?fù)p失函數(shù)的計(jì)算公式為:
31、
32、其中,表示交叉熵?fù)p失函數(shù),表示第n個(gè)圖片,表示第n個(gè)圖片對應(yīng)的預(yù)測類別標(biāo)簽,表示第n個(gè)圖片對應(yīng)的真實(shí)類別標(biāo)簽,表示當(dāng)前任務(wù)t中一共有個(gè)標(biāo)簽訓(xùn)練數(shù)據(jù),表示預(yù)測類別標(biāo)簽為類別標(biāo)簽c的概率值,k表示一共具有?k個(gè)類別標(biāo)簽。
33、本發(fā)明實(shí)施例第二方面提供了一種基于跨模態(tài)對齊和原型多樣化的連續(xù)小樣本圖片分類裝置,包括一個(gè)或多個(gè)處理器和存儲器,所述存儲器與所述處理器耦接;其中,所述存儲器用于存儲程序數(shù)據(jù),所述處理器用于執(zhí)行所述程序數(shù)據(jù)以實(shí)現(xiàn)上述的基于跨模態(tài)對齊和原型多樣化的連續(xù)小樣本圖片分類方法。
34、本發(fā)明實(shí)施例第三方面提供了一種計(jì)算機(jī)可讀存儲介質(zhì),其上存儲有程序,該程序被處理器執(zhí)行時(shí),用于實(shí)現(xiàn)上述的基于跨模態(tài)對齊和原型多樣化的連續(xù)小樣本圖片分類方法。
35、本發(fā)明的有益效果是,本發(fā)明通過采用跨模態(tài)對齊方式,可以將下游任務(wù)的圖片特征與類別文本特征在特征空間進(jìn)一步對齊,從而改善對比語言-圖像預(yù)訓(xùn)練大模型在下游任務(wù)中的泛化能力,在此基礎(chǔ)上,通過采用原型偏置器,使得類別原型融入輸入特異的信息,從而進(jìn)一步提升分類能力;本發(fā)明實(shí)現(xiàn)方法簡便、靈活,顯著提高了新類別的預(yù)測精度,同時(shí)可以有效緩解模型在舊類別的災(zāi)難性遺忘現(xiàn)象。