国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于圖像特征和語義描述的無參考圖像質(zhì)量評價方法

      文檔序號:39341306發(fā)布日期:2024-09-10 12:00閱讀:16來源:國知局
      一種基于圖像特征和語義描述的無參考圖像質(zhì)量評價方法

      本發(fā)明涉及一種基于圖像特征和語義描述的無參考圖像質(zhì)量評價方法,具體涉及一種結(jié)合全局和局部圖像融合特征與語義描述特征的無參考圖像質(zhì)量評價方法,屬于圖像質(zhì)量評價。


      背景技術(shù):

      1、圖像質(zhì)量評價的研究對圖像處理和計算機(jī)視覺任務(wù)具有重要意義,原始圖像經(jīng)過壓縮、傳輸和存儲等過程中常出現(xiàn)失真,圖像質(zhì)量評價可以對圖像失真情況進(jìn)行評估。同時在圖像增強(qiáng)和重建等任務(wù)的目標(biāo)函數(shù)設(shè)計中,好的圖像質(zhì)量評價方法有助于實現(xiàn)更高質(zhì)量的圖像處理結(jié)果。

      2、圖像質(zhì)量評價方法一般分為三類:全參考、半?yún)⒖己蜔o參考圖像質(zhì)量評價。全參考圖像質(zhì)量評價需要原始圖像作為參考,根據(jù)原始圖像和失真圖像差異度來對圖像質(zhì)量進(jìn)行判斷;半?yún)⒖紙D像質(zhì)量評價只需要部分原始圖像信息,或原始圖像和失真圖像的某些統(tǒng)計特性來評價圖像質(zhì)量;無參考圖像質(zhì)量評價不需要原始圖像,目前主流的方法主要有基于失真圖像統(tǒng)計特征的方法、基于人類視覺系統(tǒng)的方法和基于深度學(xué)習(xí)的方法。

      3、基于深度學(xué)習(xí)的無參考圖像質(zhì)量評價方法中,基于vision?transformer的圖像特征更多的是對全局特征及內(nèi)容特征的提取,缺少局部信息所表達(dá)的紋理及邊緣等失真特征;此外,將圖像特征與語義描述特征相結(jié)合可以提高對圖像內(nèi)容的理解和圖像質(zhì)量評價的準(zhǔn)確性。


      技術(shù)實現(xiàn)思路

      1、為了克服現(xiàn)有技術(shù)存在的缺陷,本發(fā)明提出了一種基于圖像特征和語義描述的無參考圖像質(zhì)量評價方法,該方法將全局特征與局部特征進(jìn)行融合獲得圖像特征,利用文本描述圖像的語義獲得文本特征,生成圖像文本語義對齊特征從而提高圖像質(zhì)量評價的準(zhǔn)確性。

      2、為解決上述技術(shù)問題,本發(fā)明采用了如下技術(shù)手段:一種無參考圖像質(zhì)量評價方法,包括:

      3、輸入文本模型,由text?transformer編碼器提取文本特征,獲得文本嵌入;

      4、輸入圖像,將輸入圖像劃分為子圖像,由vision?transformer編碼器提取全局圖像特征,由cnn編碼器提取局部圖像特征;

      5、將全局圖像特征加入通道注意力,與局部圖像特征進(jìn)行交叉注意力操作得到融合特征,獲得視覺嵌入;

      6、對文本嵌入和視覺嵌入進(jìn)行余弦相似度計算,使用softmax對余弦相似度進(jìn)行歸一化得到聯(lián)合概率,將圖像與候選文本描述相匹配;

      7、對聯(lián)合概率進(jìn)行邊緣化處理,得到目標(biāo)類型概率、背景類別概率、失真類型概率、質(zhì)量等級概率,通過關(guān)聯(lián)五個質(zhì)量級別的李克特量表及其對應(yīng)的邊際概率得到質(zhì)量評分;

      8、計算出目標(biāo)類型損失、背景類別損失、失真類型損失、質(zhì)量預(yù)測損失;

      9、對所述四種類型的損失加權(quán)求和,計算整體損失,對整體網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練。

      10、在一些實施例中,輸入文本模型,由text?transformer編碼器提取文本特征,獲得文本嵌入,包括:

      11、輸入文本模型:t一張具有{a}失真在背景下的{c}照片,質(zhì)量xv3r9jzsqg;其中a為失真類型,定義為11種;b為背景類別,定義為5種;c為目標(biāo)類型,定義為5種;d為質(zhì)量等級,定義為5種;

      12、

      13、b∈b={城市景觀,自然風(fēng)光,室內(nèi)場景,夜景,其他}

      14、c∈c=人物,動物,植物,靜物,其他}

      15、d∈d=差,較差,一般,好,完美}={1,2,3,4,5}

      16、根據(jù)文本模型,由text?transformer編碼器提取其文本特征ft,獲得文本嵌入。

      17、在一些實施例中,輸入圖像,將輸入圖像劃分為子圖像,由vision?transformer編碼器提取全局圖像特征,由cnn編碼器提取局部圖像特征,包括:

      18、對輸入圖像進(jìn)行預(yù)處理轉(zhuǎn)換為rgb格式,將圖像進(jìn)行等比例縮放,最小邊長調(diào)整為768像素,將圖像劃分為若干個大小為224*224的圖像塊,選擇n個圖像塊由visiontransformer提取其全局特征fi,由resnet提取其局部特征fl。

      19、在一些實施例中,將全局圖像特征加入通道注意力,與局部圖像特征進(jìn)行交叉注意力操作得到融合特征,獲得視覺嵌入,包括:

      20、選取不同vision?transformer層的特征進(jìn)行連接以獲取不同程度的語義特征,加入通道注意力得到增強(qiáng)特征。

      21、上述全局圖像特征與局部圖像特征進(jìn)行交叉注意力處理以相互補(bǔ)充,得到全局與局部的融合特征。

      22、進(jìn)一步地,在一些實施例中,將全局圖像特征加入通道注意力,與局部圖像特征進(jìn)行交叉注意力操作得到融合特征,獲得視覺嵌入,包括:

      23、提取并連接由vision?transformer輸出的第7,8,9,10層特征:

      24、fi=rb*∑ici*hiwi,i∈{7,8,9,10}

      25、其中fi表示連接后的全局特征,b表示批次大小,c為通道數(shù),h為圖像的高度,w為圖像的寬度,∑表示特征連接操作。

      26、將連接后的全局特征通過自注意力機(jī)制來增強(qiáng)特征之間的通道交互:

      27、fc=attention(q,k,v)+fi

      28、attention(q,k,v)=v·softmax(k·q/α)

      29、其中fc為經(jīng)過通道注意力處理后的全局特征,q,k,v分別表示查詢、鍵和值,為輸入特征fi的線性變換,α為q,k,v的空間維度大?。?/p>

      30、將進(jìn)行通道注意力處理后的全局特征與局部特征進(jìn)行交叉注意力操作,融合全局與局部特征:

      31、

      32、

      33、其中ff為融合后的圖像特征,為全局特征fc的線性變換,為局部特征fl的線性變換,α為的空間維度大小。

      34、在一些實施例中,對文本嵌入和視覺嵌入進(jìn)行余弦相似度計算,使用softmax對余弦相似度進(jìn)行歸一化得到聯(lián)合概率,將圖像與候選文本描述相匹配,包括:

      35、對視覺嵌入和文本嵌入進(jìn)行余弦相似度計算,得到圖像與所有文本描述的相關(guān)等級:

      36、

      37、其中x為輸入圖像,a,b,c,d為文本描述,n為圖像塊數(shù),ff為融合后的圖像特征,ft為文本特征。

      38、歸一化后得到圖像與其對應(yīng)失真類型、背景類別、目標(biāo)類型、質(zhì)量等級的聯(lián)合概率,邊緣化得到邊際概率進(jìn)而計算出各個損失。

      39、關(guān)聯(lián)五個質(zhì)量級別的李克特量表及其對應(yīng)的邊際概率得到質(zhì)量評分:

      40、

      41、其中q為圖像x對應(yīng)的質(zhì)量評分,p為質(zhì)量等級的邊際概率,d表示質(zhì)量等級。

      42、本發(fā)明還提出了一種無參考圖像質(zhì)量評價系統(tǒng),包括:

      43、文本特征提取模塊,用于:輸入文本模型,由text?transformer編碼器提取文本特征,獲得文本嵌入;

      44、圖像特征提取模塊,用于:輸入圖像,將輸入圖像劃分為子圖像,由visiontransformer編碼器提取全局圖像特征,由cnn編碼器提取局部圖像特征;將全局圖像特征加入通道注意力,與局部圖像特征進(jìn)行交叉注意力操作得到融合特征,獲得視覺嵌入;

      45、圖像文本匹配模塊,用于:對文本嵌入和視覺嵌入進(jìn)行余弦相似度計算,使用softmax對余弦相似度進(jìn)行歸一化得到聯(lián)合概率,將圖像與候選文本描述相匹配;

      46、圖像質(zhì)量多任務(wù)預(yù)測模塊,用于:對聯(lián)合概率進(jìn)行邊緣化處理,得到目標(biāo)類型概率、背景類別概率、失真類型概率、質(zhì)量等級概率,通過關(guān)聯(lián)五個質(zhì)量級別的李克特量表及其對應(yīng)的邊際概率得到質(zhì)量評分;計算出目標(biāo)類型損失、背景類別損失、失真類型損失、質(zhì)量預(yù)測損失;對所述四種類型的損失加權(quán)求和,計算整體損失。

      47、本發(fā)明還提出了一種設(shè)備,包括處理器及存儲介質(zhì);

      48、所述存儲介質(zhì)用于存儲指令;

      49、所述處理器用于根據(jù)所述指令進(jìn)行操作以執(zhí)行第一方面所述方法的步驟。

      50、本發(fā)明還提出了一種存儲介質(zhì),其上存儲有計算機(jī)程序,該程序被處理器執(zhí)行時實現(xiàn)第一方面所述方法的步驟。

      51、有益效果:

      52、1、本發(fā)明提出一種基于圖像特征和語義描述的無參考圖像質(zhì)量評價方法,通過基于transformer和cnn網(wǎng)絡(luò)提取圖像特征,并通過文本編碼器提取語義描述特征進(jìn)行多任務(wù)無參考圖像質(zhì)量評價,與一般無參考圖像質(zhì)量評價方法相比,通過對圖像進(jìn)行視覺與文本特征描述和對齊,更好地利用了圖像的語義特征。

      53、2、本發(fā)明利用transformer網(wǎng)絡(luò)來提取失真圖像的全局特征,并將其與基于cnn的圖像局部特征進(jìn)行融合,彌補(bǔ)了一般無參考圖像質(zhì)量評價網(wǎng)絡(luò)對特征利用單一的不足,更好地表達(dá)了圖像的整體與細(xì)節(jié)特征,從而獲得更好的圖像質(zhì)量評價準(zhǔn)確度。

      當(dāng)前第1頁1 2 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1