本發(fā)明涉及一種基于圖像特征和語義描述的無參考圖像質(zhì)量評價方法,具體涉及一種結(jié)合全局和局部圖像融合特征與語義描述特征的無參考圖像質(zhì)量評價方法,屬于圖像質(zhì)量評價。
背景技術(shù):
1、圖像質(zhì)量評價的研究對圖像處理和計算機(jī)視覺任務(wù)具有重要意義,原始圖像經(jīng)過壓縮、傳輸和存儲等過程中常出現(xiàn)失真,圖像質(zhì)量評價可以對圖像失真情況進(jìn)行評估。同時在圖像增強(qiáng)和重建等任務(wù)的目標(biāo)函數(shù)設(shè)計中,好的圖像質(zhì)量評價方法有助于實現(xiàn)更高質(zhì)量的圖像處理結(jié)果。
2、圖像質(zhì)量評價方法一般分為三類:全參考、半?yún)⒖己蜔o參考圖像質(zhì)量評價。全參考圖像質(zhì)量評價需要原始圖像作為參考,根據(jù)原始圖像和失真圖像差異度來對圖像質(zhì)量進(jìn)行判斷;半?yún)⒖紙D像質(zhì)量評價只需要部分原始圖像信息,或原始圖像和失真圖像的某些統(tǒng)計特性來評價圖像質(zhì)量;無參考圖像質(zhì)量評價不需要原始圖像,目前主流的方法主要有基于失真圖像統(tǒng)計特征的方法、基于人類視覺系統(tǒng)的方法和基于深度學(xué)習(xí)的方法。
3、基于深度學(xué)習(xí)的無參考圖像質(zhì)量評價方法中,基于vision?transformer的圖像特征更多的是對全局特征及內(nèi)容特征的提取,缺少局部信息所表達(dá)的紋理及邊緣等失真特征;此外,將圖像特征與語義描述特征相結(jié)合可以提高對圖像內(nèi)容的理解和圖像質(zhì)量評價的準(zhǔn)確性。
技術(shù)實現(xiàn)思路
1、為了克服現(xiàn)有技術(shù)存在的缺陷,本發(fā)明提出了一種基于圖像特征和語義描述的無參考圖像質(zhì)量評價方法,該方法將全局特征與局部特征進(jìn)行融合獲得圖像特征,利用文本描述圖像的語義獲得文本特征,生成圖像文本語義對齊特征從而提高圖像質(zhì)量評價的準(zhǔn)確性。
2、為解決上述技術(shù)問題,本發(fā)明采用了如下技術(shù)手段:一種無參考圖像質(zhì)量評價方法,包括:
3、輸入文本模型,由text?transformer編碼器提取文本特征,獲得文本嵌入;
4、輸入圖像,將輸入圖像劃分為子圖像,由vision?transformer編碼器提取全局圖像特征,由cnn編碼器提取局部圖像特征;
5、將全局圖像特征加入通道注意力,與局部圖像特征進(jìn)行交叉注意力操作得到融合特征,獲得視覺嵌入;
6、對文本嵌入和視覺嵌入進(jìn)行余弦相似度計算,使用softmax對余弦相似度進(jìn)行歸一化得到聯(lián)合概率,將圖像與候選文本描述相匹配;
7、對聯(lián)合概率進(jìn)行邊緣化處理,得到目標(biāo)類型概率、背景類別概率、失真類型概率、質(zhì)量等級概率,通過關(guān)聯(lián)五個質(zhì)量級別的李克特量表及其對應(yīng)的邊際概率得到質(zhì)量評分;
8、計算出目標(biāo)類型損失、背景類別損失、失真類型損失、質(zhì)量預(yù)測損失;
9、對所述四種類型的損失加權(quán)求和,計算整體損失,對整體網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練。
10、在一些實施例中,輸入文本模型,由text?transformer編碼器提取文本特征,獲得文本嵌入,包括:
11、輸入文本模型:t一張具有{a}失真在背景下的{c}照片,質(zhì)量xv3r9jzsqg;其中a為失真類型,定義為11種;b為背景類別,定義為5種;c為目標(biāo)類型,定義為5種;d為質(zhì)量等級,定義為5種;
12、
13、b∈b={城市景觀,自然風(fēng)光,室內(nèi)場景,夜景,其他}
14、c∈c=人物,動物,植物,靜物,其他}
15、d∈d=差,較差,一般,好,完美}={1,2,3,4,5}
16、根據(jù)文本模型,由text?transformer編碼器提取其文本特征ft,獲得文本嵌入。
17、在一些實施例中,輸入圖像,將輸入圖像劃分為子圖像,由vision?transformer編碼器提取全局圖像特征,由cnn編碼器提取局部圖像特征,包括:
18、對輸入圖像進(jìn)行預(yù)處理轉(zhuǎn)換為rgb格式,將圖像進(jìn)行等比例縮放,最小邊長調(diào)整為768像素,將圖像劃分為若干個大小為224*224的圖像塊,選擇n個圖像塊由visiontransformer提取其全局特征fi,由resnet提取其局部特征fl。
19、在一些實施例中,將全局圖像特征加入通道注意力,與局部圖像特征進(jìn)行交叉注意力操作得到融合特征,獲得視覺嵌入,包括:
20、選取不同vision?transformer層的特征進(jìn)行連接以獲取不同程度的語義特征,加入通道注意力得到增強(qiáng)特征。
21、上述全局圖像特征與局部圖像特征進(jìn)行交叉注意力處理以相互補(bǔ)充,得到全局與局部的融合特征。
22、進(jìn)一步地,在一些實施例中,將全局圖像特征加入通道注意力,與局部圖像特征進(jìn)行交叉注意力操作得到融合特征,獲得視覺嵌入,包括:
23、提取并連接由vision?transformer輸出的第7,8,9,10層特征:
24、fi=rb*∑ici*hiwi,i∈{7,8,9,10}
25、其中fi表示連接后的全局特征,b表示批次大小,c為通道數(shù),h為圖像的高度,w為圖像的寬度,∑表示特征連接操作。
26、將連接后的全局特征通過自注意力機(jī)制來增強(qiáng)特征之間的通道交互:
27、fc=attention(q,k,v)+fi
28、attention(q,k,v)=v·softmax(k·q/α)
29、其中fc為經(jīng)過通道注意力處理后的全局特征,q,k,v分別表示查詢、鍵和值,為輸入特征fi的線性變換,α為q,k,v的空間維度大?。?/p>
30、將進(jìn)行通道注意力處理后的全局特征與局部特征進(jìn)行交叉注意力操作,融合全局與局部特征:
31、
32、
33、其中ff為融合后的圖像特征,為全局特征fc的線性變換,為局部特征fl的線性變換,α為的空間維度大小。
34、在一些實施例中,對文本嵌入和視覺嵌入進(jìn)行余弦相似度計算,使用softmax對余弦相似度進(jìn)行歸一化得到聯(lián)合概率,將圖像與候選文本描述相匹配,包括:
35、對視覺嵌入和文本嵌入進(jìn)行余弦相似度計算,得到圖像與所有文本描述的相關(guān)等級:
36、
37、其中x為輸入圖像,a,b,c,d為文本描述,n為圖像塊數(shù),ff為融合后的圖像特征,ft為文本特征。
38、歸一化后得到圖像與其對應(yīng)失真類型、背景類別、目標(biāo)類型、質(zhì)量等級的聯(lián)合概率,邊緣化得到邊際概率進(jìn)而計算出各個損失。
39、關(guān)聯(lián)五個質(zhì)量級別的李克特量表及其對應(yīng)的邊際概率得到質(zhì)量評分:
40、
41、其中q為圖像x對應(yīng)的質(zhì)量評分,p為質(zhì)量等級的邊際概率,d表示質(zhì)量等級。
42、本發(fā)明還提出了一種無參考圖像質(zhì)量評價系統(tǒng),包括:
43、文本特征提取模塊,用于:輸入文本模型,由text?transformer編碼器提取文本特征,獲得文本嵌入;
44、圖像特征提取模塊,用于:輸入圖像,將輸入圖像劃分為子圖像,由visiontransformer編碼器提取全局圖像特征,由cnn編碼器提取局部圖像特征;將全局圖像特征加入通道注意力,與局部圖像特征進(jìn)行交叉注意力操作得到融合特征,獲得視覺嵌入;
45、圖像文本匹配模塊,用于:對文本嵌入和視覺嵌入進(jìn)行余弦相似度計算,使用softmax對余弦相似度進(jìn)行歸一化得到聯(lián)合概率,將圖像與候選文本描述相匹配;
46、圖像質(zhì)量多任務(wù)預(yù)測模塊,用于:對聯(lián)合概率進(jìn)行邊緣化處理,得到目標(biāo)類型概率、背景類別概率、失真類型概率、質(zhì)量等級概率,通過關(guān)聯(lián)五個質(zhì)量級別的李克特量表及其對應(yīng)的邊際概率得到質(zhì)量評分;計算出目標(biāo)類型損失、背景類別損失、失真類型損失、質(zhì)量預(yù)測損失;對所述四種類型的損失加權(quán)求和,計算整體損失。
47、本發(fā)明還提出了一種設(shè)備,包括處理器及存儲介質(zhì);
48、所述存儲介質(zhì)用于存儲指令;
49、所述處理器用于根據(jù)所述指令進(jìn)行操作以執(zhí)行第一方面所述方法的步驟。
50、本發(fā)明還提出了一種存儲介質(zhì),其上存儲有計算機(jī)程序,該程序被處理器執(zhí)行時實現(xiàn)第一方面所述方法的步驟。
51、有益效果:
52、1、本發(fā)明提出一種基于圖像特征和語義描述的無參考圖像質(zhì)量評價方法,通過基于transformer和cnn網(wǎng)絡(luò)提取圖像特征,并通過文本編碼器提取語義描述特征進(jìn)行多任務(wù)無參考圖像質(zhì)量評價,與一般無參考圖像質(zhì)量評價方法相比,通過對圖像進(jìn)行視覺與文本特征描述和對齊,更好地利用了圖像的語義特征。
53、2、本發(fā)明利用transformer網(wǎng)絡(luò)來提取失真圖像的全局特征,并將其與基于cnn的圖像局部特征進(jìn)行融合,彌補(bǔ)了一般無參考圖像質(zhì)量評價網(wǎng)絡(luò)對特征利用單一的不足,更好地表達(dá)了圖像的整體與細(xì)節(jié)特征,從而獲得更好的圖像質(zhì)量評價準(zhǔn)確度。