一種基于圖像特征和語義描述的無參考圖像質(zhì)量評價方法

文檔序號：39341306發(fā)布日期：2024-09-10 12:00閱讀：16來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及一種基于圖像特征和語義描述的無參考圖像質(zhì)量評價方法，具體涉及一種結(jié)合全局和局部圖像融合特征與語義描述特征的無參考圖像質(zhì)量評價方法，屬于圖像質(zhì)量評價。

背景技術(shù)：

1、圖像質(zhì)量評價的研究對圖像處理和計算機(jī)視覺任務(wù)具有重要意義，原始圖像經(jīng)過壓縮、傳輸和存儲等過程中常出現(xiàn)失真，圖像質(zhì)量評價可以對圖像失真情況進(jìn)行評估。同時在圖像增強(qiáng)和重建等任務(wù)的目標(biāo)函數(shù)設(shè)計中，好的圖像質(zhì)量評價方法有助于實現(xiàn)更高質(zhì)量的圖像處理結(jié)果。

2、圖像質(zhì)量評價方法一般分為三類：全參考、半?yún)⒖己蜔o參考圖像質(zhì)量評價。全參考圖像質(zhì)量評價需要原始圖像作為參考，根據(jù)原始圖像和失真圖像差異度來對圖像質(zhì)量進(jìn)行判斷；半?yún)⒖紙D像質(zhì)量評價只需要部分原始圖像信息，或原始圖像和失真圖像的某些統(tǒng)計特性來評價圖像質(zhì)量；無參考圖像質(zhì)量評價不需要原始圖像，目前主流的方法主要有基于失真圖像統(tǒng)計特征的方法、基于人類視覺系統(tǒng)的方法和基于深度學(xué)習(xí)的方法。

3、基于深度學(xué)習(xí)的無參考圖像質(zhì)量評價方法中，基于vision?transformer的圖像特征更多的是對全局特征及內(nèi)容特征的提取，缺少局部信息所表達(dá)的紋理及邊緣等失真特征；此外，將圖像特征與語義描述特征相結(jié)合可以提高對圖像內(nèi)容的理解和圖像質(zhì)量評價的準(zhǔn)確性。

技術(shù)實現(xiàn)思路

1、為了克服現(xiàn)有技術(shù)存在的缺陷，本發(fā)明提出了一種基于圖像特征和語義描述的無參考圖像質(zhì)量評價方法，該方法將全局特征與局部特征進(jìn)行融合獲得圖像特征，利用文本描述圖像的語義獲得文本特征，生成圖像文本語義對齊特征從而提高圖像質(zhì)量評價的準(zhǔn)確性。

2、為解決上述技術(shù)問題，本發(fā)明采用了如下技術(shù)手段：一種無參考圖像質(zhì)量評價方法，包括：

3、輸入文本模型，由text?transformer編碼器提取文本特征，獲得文本嵌入；

4、輸入圖像，將輸入圖像劃分為子圖像，由vision?transformer編碼器提取全局圖像特征，由cnn編碼器提取局部圖像特征；

5、將全局圖像特征加入通道注意力，與局部圖像特征進(jìn)行交叉注意力操作得到融合特征，獲得視覺嵌入；

6、對文本嵌入和視覺嵌入進(jìn)行余弦相似度計算，使用softmax對余弦相似度進(jìn)行歸一化得到聯(lián)合概率，將圖像與候選文本描述相匹配；

7、對聯(lián)合概率進(jìn)行邊緣化處理，得到目標(biāo)類型概率、背景類別概率、失真類型概率、質(zhì)量等級概率，通過關(guān)聯(lián)五個質(zhì)量級別的李克特量表及其對應(yīng)的邊際概率得到質(zhì)量評分；

8、計算出目標(biāo)類型損失、背景類別損失、失真類型損失、質(zhì)量預(yù)測損失；

9、對所述四種類型的損失加權(quán)求和，計算整體損失，對整體網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練。

10、在一些實施例中，輸入文本模型，由text?transformer編碼器提取文本特征，獲得文本嵌入，包括：

11、輸入文本模型：t一張具有{a}失真在背景下的{c}照片，質(zhì)量xv3r9jzsqg；其中a為失真類型，定義為11種；b為背景類別，定義為5種；c為目標(biāo)類型，定義為5種；d為質(zhì)量等級，定義為5種；

12、

13、b∈b＝{城市景觀，自然風(fēng)光，室內(nèi)場景，夜景，其他}

14、c∈c＝人物，動物，植物，靜物，其他}

15、d∈d＝差，較差，一般，好，完美}＝{1，2，3，4，5}

16、根據(jù)文本模型，由text?transformer編碼器提取其文本特征ft，獲得文本嵌入。

17、在一些實施例中，輸入圖像，將輸入圖像劃分為子圖像，由vision?transformer編碼器提取全局圖像特征，由cnn編碼器提取局部圖像特征，包括：

18、對輸入圖像進(jìn)行預(yù)處理轉(zhuǎn)換為rgb格式，將圖像進(jìn)行等比例縮放，最小邊長調(diào)整為768像素，將圖像劃分為若干個大小為224*224的圖像塊，選擇n個圖像塊由visiontransformer提取其全局特征fi，由resnet提取其局部特征fl。

19、在一些實施例中，將全局圖像特征加入通道注意力，與局部圖像特征進(jìn)行交叉注意力操作得到融合特征，獲得視覺嵌入，包括：

20、選取不同vision?transformer層的特征進(jìn)行連接以獲取不同程度的語義特征，加入通道注意力得到增強(qiáng)特征。

21、上述全局圖像特征與局部圖像特征進(jìn)行交叉注意力處理以相互補(bǔ)充，得到全局與局部的融合特征。

22、進(jìn)一步地，在一些實施例中，將全局圖像特征加入通道注意力，與局部圖像特征進(jìn)行交叉注意力操作得到融合特征，獲得視覺嵌入，包括：

23、提取并連接由vision?transformer輸出的第7，8，9，10層特征：

24、fi＝rb*∑ici*hiwi，i∈{7，8，9，10}

25、其中fi表示連接后的全局特征，b表示批次大小，c為通道數(shù)，h為圖像的高度，w為圖像的寬度，∑表示特征連接操作。

26、將連接后的全局特征通過自注意力機(jī)制來增強(qiáng)特征之間的通道交互：

27、fc＝attention(q，k，v)+fi

28、attention(q，k，v)＝v·softmax(k·q/α)

29、其中fc為經(jīng)過通道注意力處理后的全局特征，q，k，v分別表示查詢、鍵和值，為輸入特征fi的線性變換，α為q，k，v的空間維度大?。?/p>

30、將進(jìn)行通道注意力處理后的全局特征與局部特征進(jìn)行交叉注意力操作，融合全局與局部特征：

31、

32、

33、其中ff為融合后的圖像特征，為全局特征fc的線性變換，為局部特征fl的線性變換，α為的空間維度大小。

34、在一些實施例中，對文本嵌入和視覺嵌入進(jìn)行余弦相似度計算，使用softmax對余弦相似度進(jìn)行歸一化得到聯(lián)合概率，將圖像與候選文本描述相匹配，包括：

35、對視覺嵌入和文本嵌入進(jìn)行余弦相似度計算，得到圖像與所有文本描述的相關(guān)等級：

36、

37、其中x為輸入圖像，a，b，c，d為文本描述，n為圖像塊數(shù)，ff為融合后的圖像特征，ft為文本特征。

38、歸一化后得到圖像與其對應(yīng)失真類型、背景類別、目標(biāo)類型、質(zhì)量等級的聯(lián)合概率，邊緣化得到邊際概率進(jìn)而計算出各個損失。

39、關(guān)聯(lián)五個質(zhì)量級別的李克特量表及其對應(yīng)的邊際概率得到質(zhì)量評分：

40、

41、其中q為圖像x對應(yīng)的質(zhì)量評分，p為質(zhì)量等級的邊際概率，d表示質(zhì)量等級。

42、本發(fā)明還提出了一種無參考圖像質(zhì)量評價系統(tǒng)，包括：

43、文本特征提取模塊，用于：輸入文本模型，由text?transformer編碼器提取文本特征，獲得文本嵌入；

44、圖像特征提取模塊，用于：輸入圖像，將輸入圖像劃分為子圖像，由visiontransformer編碼器提取全局圖像特征，由cnn編碼器提取局部圖像特征；將全局圖像特征加入通道注意力，與局部圖像特征進(jìn)行交叉注意力操作得到融合特征，獲得視覺嵌入；

45、圖像文本匹配模塊，用于：對文本嵌入和視覺嵌入進(jìn)行余弦相似度計算，使用softmax對余弦相似度進(jìn)行歸一化得到聯(lián)合概率，將圖像與候選文本描述相匹配；

46、圖像質(zhì)量多任務(wù)預(yù)測模塊，用于：對聯(lián)合概率進(jìn)行邊緣化處理，得到目標(biāo)類型概率、背景類別概率、失真類型概率、質(zhì)量等級概率，通過關(guān)聯(lián)五個質(zhì)量級別的李克特量表及其對應(yīng)的邊際概率得到質(zhì)量評分；計算出目標(biāo)類型損失、背景類別損失、失真類型損失、質(zhì)量預(yù)測損失；對所述四種類型的損失加權(quán)求和，計算整體損失。

47、本發(fā)明還提出了一種設(shè)備，包括處理器及存儲介質(zhì)；

48、所述存儲介質(zhì)用于存儲指令；

49、所述處理器用于根據(jù)所述指令進(jìn)行操作以執(zhí)行第一方面所述方法的步驟。

50、本發(fā)明還提出了一種存儲介質(zhì)，其上存儲有計算機(jī)程序，該程序被處理器執(zhí)行時實現(xiàn)第一方面所述方法的步驟。

51、有益效果：

52、1、本發(fā)明提出一種基于圖像特征和語義描述的無參考圖像質(zhì)量評價方法，通過基于transformer和cnn網(wǎng)絡(luò)提取圖像特征，并通過文本編碼器提取語義描述特征進(jìn)行多任務(wù)無參考圖像質(zhì)量評價，與一般無參考圖像質(zhì)量評價方法相比，通過對圖像進(jìn)行視覺與文本特征描述和對齊，更好地利用了圖像的語義特征。

53、2、本發(fā)明利用transformer網(wǎng)絡(luò)來提取失真圖像的全局特征，并將其與基于cnn的圖像局部特征進(jìn)行融合，彌補(bǔ)了一般無參考圖像質(zhì)量評價網(wǎng)絡(luò)對特征利用單一的不足，更好地表達(dá)了圖像的整體與細(xì)節(jié)特征，從而獲得更好的圖像質(zhì)量評價準(zhǔn)確度。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：崔子冠,曾令宣,柏明蔭,吳立鵬,干宗良,唐貴進(jìn),劉峰
技術(shù)所有人：南京郵電大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種基于圖像特征和語義描述的無參考圖像質(zhì)量評價方法