国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      圖像處理方法、裝置和計算機設備與流程

      文檔序號:40289431發(fā)布日期:2024-12-13 11:03閱讀:10來源:國知局
      圖像處理方法、裝置和計算機設備與流程

      本技術涉及人工智能,特別是涉及一種圖像處理方法、裝置和計算機設備。


      背景技術:

      1、隨著人工智能技術的發(fā)展,視覺語言大模型的應用越來越多,視覺語言大模型通過結合文本和圖像的信息,使得在自然語言描述和圖像之間建立更緊密的聯(lián)系。

      2、傳統(tǒng)技術中,視覺語言大模型通過主干網(wǎng)絡和文本編碼器對輸入的圖像和描述文本進行特征提取,得到圖像的全局特征圖和問題文本,按照問題文本對圖像對應的全局特征圖進行分析和圖像處理,基于全局特征圖和問題文本的相似度確定問題文本對應的圖像處理結果,例如,基于問題文本中的目標類別對輸入的多個圖像進行圖像搜索,或者,基于問題文本確定輸入圖像的圖像類別。

      3、然而,傳統(tǒng)技術中,針對視覺語言大模型的應用,由于主干網(wǎng)絡針對輸入的圖像進行特征分析的尺度較為單一,僅能夠對全局級別的圖像特征進行特征提取,導致視覺語言大模型在稠密預測任務的數(shù)據(jù)處理上準確性較差。


      技術實現(xiàn)思路

      1、基于此,有必要針對上述技術問題,提供一種圖像處理方法、裝置、計算機設備、計算機可讀存儲介質和計算機程序產(chǎn)品。

      2、第一方面,本技術提供了一種圖像處理方法,包括:

      3、基于圖像處理任務,獲取待處理圖像的初始特征圖并確定所述圖像處理任務的任務特征;

      4、基于視覺語言大模型的多尺度結構對所述初始特征圖進行多尺度卷積,得到多個尺度的目標特征圖;

      5、根據(jù)所述視覺語言大模型的區(qū)域級結構對各所述目標特征圖進行區(qū)域級特征提取,得到區(qū)域級特征向量;

      6、基于所述區(qū)域級特征向量和所述任務特征對所述待處理圖像進行圖像處理,得到所述任務特征對應的圖像處理結果。

      7、在其中一個實施例中,所述多尺度結構包括初始卷積結構、第一下采樣結構和第二下采樣結構,所述目標特征圖包括第一尺度特征圖、第二尺度特征圖和第三尺度特征圖;所述基于視覺語言大模型的多尺度結構對所述初始特征圖進行多尺度卷積,得到多個尺度的目標特征圖,包括:

      8、根據(jù)所述初始卷積結構對所述初始特征圖進行卷積變換,得到所述第一尺度特征圖;

      9、根據(jù)所述第一下采樣結構對所述第一尺度特征圖進行采樣和分布矯正,得到所述第二尺度特征圖;

      10、根據(jù)所述第二下采樣結構對所述第二尺度特征圖進行采樣和分布矯正,得到所述第三尺度特征圖。

      11、在其中一個實施例中,若所述圖像處理結果為確定目標對象位置;所述根據(jù)所述視覺語言大模型的區(qū)域級結構對各所述目標特征圖進行區(qū)域級特征提取,得到區(qū)域級特征向量,包括:

      12、根據(jù)所述視覺語言大模型的區(qū)域級結構對所述初始特征圖進行識別,在所述初始特征圖中確定所述任務特征中的目標對象對應的候選標定框;

      13、根據(jù)所述視覺語言大模型的區(qū)域級結構和所述初始特征圖中的所述候選標定框對各所述目標特征圖進行標定框映射,并根據(jù)裁剪結構將標定框映射后的初始特征圖進行裁剪,得到各尺度下的未對齊區(qū)域特征;

      14、基于對齊結構將各所述尺度下的所述未對齊區(qū)域特征進行尺度對齊,得到與所述任務文本對應的文本編碼的特征維度相同的區(qū)域級特征向量;

      15、將所述區(qū)域級特征向量與所述任務文本中所述目標對象的文本編碼進行相似度匹配,得到所述目標對象位置。

      16、在其中一個實施例中,所述基于圖像處理任務,獲取待處理圖像的初始特征圖并確定所述圖像處理任務的任務特征之前,所述方法還包括:

      17、獲取樣本圖像集、各所述樣本圖像對應的類別標注、所述樣本圖像集中各樣本圖像對應的位置標注、各所述位置標注對應的類別信息和待訓練的初始視覺語言大模型;

      18、根據(jù)所述初始視覺語言大模型對各所述樣本圖像和各所述樣本圖像的類別標注進行數(shù)據(jù)處理,得到所述樣本圖像對應的第一特征圖和各所述類別標注對應的類別嵌入;

      19、基于所述初始視覺語言大模型的多尺度結構對所述初始特征圖進行多尺度卷積變換,得到多個尺度的第二特征圖,并根據(jù)所述初始視覺語言大模型的區(qū)域級結構對各所述第二特征圖進行區(qū)域級特征提取,得到目標區(qū)域級特征向量;

      20、根據(jù)所述初始視覺語言大模型的區(qū)域向量構建結構、所述類別信息、所述類別嵌入、目標區(qū)域級特征向量和區(qū)域級損失函數(shù)構建結構對所述初始視覺語言大模型的多尺度結構和區(qū)域級結構進行訓練,得到訓練完成的視覺語言大模型。

      21、在其中一個實施例中,所述區(qū)域級結構包括裁剪結構和對齊結構;所述根據(jù)所述初始視覺語言大模型的區(qū)域級結構對各所述第二特征圖進行區(qū)域級特征提取,得到目標區(qū)域級特征向量,包括:

      22、根據(jù)所述初始視覺語言大模型的區(qū)域級結構對各所述第二特征圖進行標定框映射,并根據(jù)所述裁剪結構對標定框映射后的第二特征圖進行裁剪,得到各尺度下的目標未對齊區(qū)域特征;

      23、基于所述對齊結構將各所述尺度下的所述目標未對齊區(qū)域特征進行尺度對齊,得到與所述類別嵌入的特征維度相同的目標區(qū)域級特征向量。

      24、在其中一個實施例中,所述對齊結構還包括線性投影結構;所述基于所述對齊結構將各所述尺度下的所述目標未對齊區(qū)域特征進行尺度對齊,得到與所述類別嵌入的特征維度相同的目標區(qū)域級特征向量,包括:

      25、根據(jù)所述對齊結構對各所述尺度下的所述目標未對齊區(qū)域特征進行空間維度最大池化計算,得到初始區(qū)域級特征向量;

      26、基于所述線性投影結構,按照所述類別編碼對應的維度對各所述初始區(qū)域級特征向量進行投影,得到目標區(qū)域級特征向量。

      27、在其中一個實施例中,所述根據(jù)所述初始視覺語言大模型的區(qū)域向量構建結構、所述類別信息、所述類別嵌入、目標區(qū)域級特征向量和區(qū)域級損失函數(shù)構建結構對所述初始視覺語言大模型的多尺度結構和區(qū)域級結構進行訓練,得到訓練完成的視覺語言大模型,包括:

      28、根據(jù)所述初始視覺語言大模型的區(qū)域向量構建結構對各所述位置標注對應的類別信息進行編碼,得到各所述類別信息對應的類別向量;

      29、基于區(qū)域級損失函數(shù)構建結構對各所述尺度下的所述目標區(qū)域級特征向量、類別嵌入和所述類別向量進行損失值計算,得到各所述尺度下的損失值;

      30、根據(jù)各所述尺度下的所述損失值確定目標損失值,并基于所述目標損失值對所述初始視覺語言大模型的多尺度結構和區(qū)域級結構進行訓練,直至所述目標損失值滿足預設損失條件,得到訓練完成的視覺語言大模型。

      31、在其中一個實施例中,所述基于圖像處理任務,獲取待處理圖像的初始特征圖并確定所述圖像處理任務的任務特征,包括:

      32、基于圖像處理任務,獲取待處理圖像和所述待處理圖像對應的任務文本;

      33、根據(jù)視覺語言大模型的主干網(wǎng)絡對所述待處理圖像和所述任務文本進行特征提取,得到所述待處理圖像對應的初始特征圖;

      34、根據(jù)視覺語言大模型的文本編碼器對所述任務文本進行編碼,得到文本編碼;

      35、基于所述文本編碼確定所述任務文本對應的任務特征。

      36、第二方面,本技術還提供了一種圖像處理裝置,包括:

      37、第一獲取模塊,用于基于圖像處理任務,獲取待處理圖像的初始特征圖并確定所述圖像處理任務的任務特征;

      38、第一卷積模塊,用于基于視覺語言大模型的多尺度結構對所述初始特征圖進行多尺度卷積,得到多個尺度的目標特征圖;

      39、第一特征提取模塊,用于根據(jù)所述視覺語言大模型的區(qū)域級結構對各所述目標特征圖進行區(qū)域級特征提取,得到區(qū)域級特征向量;

      40、圖像處理模塊,用于基于所述區(qū)域級特征向量和所述任務特征對所述待處理圖像進行圖像處理,得到所述任務特征對應的圖像處理結果。

      41、在其中一個實施例中,所述多尺度結構包括初始卷積結構、第一下采樣結構和第二下采樣結構,所述目標特征圖包括第一尺度特征圖、第二尺度特征圖和第三尺度特征圖;所述第一卷積模塊具體用于根據(jù)所述初始卷積結構對所述初始特征圖進行卷積變換,得到所述第一尺度特征圖;

      42、根據(jù)所述第一下采樣結構對所述第一尺度特征圖進行采樣和分布矯正,得到所述第二尺度特征圖;

      43、根據(jù)所述第二下采樣結構對所述第二尺度特征圖進行采樣和分布矯正,得到所述第三尺度特征圖。

      44、在其中一個實施例中,若所述圖像處理結果為確定目標對象位置;所述第一特征提取模塊具體用于根據(jù)所述視覺語言大模型的區(qū)域級結構對所述初始特征圖進行識別,在所述初始特征圖中確定所述任務特征中的目標對象對應的候選標定框;

      45、根據(jù)所述視覺語言大模型的區(qū)域級結構和所述初始特征圖中的所述候選標定框對各所述目標特征圖進行標定框映射,并根據(jù)裁剪結構將標定框映射后的初始特征圖進行裁剪,得到各尺度下的未對齊區(qū)域特征;

      46、基于對齊結構將各所述尺度下的所述未對齊區(qū)域特征進行尺度對齊,得到與所述任務文本對應的文本編碼的特征維度相同的區(qū)域級特征向量;

      47、將所述區(qū)域級特征向量與所述任務文本中所述目標對象的文本編碼進行相似度匹配,得到所述目標對象位置。

      48、在其中一個實施例中,所述裝置還包括:

      49、第二獲取模塊,用于獲取樣本圖像集、各所述樣本圖像對應的類別標注、所述樣本圖像集中各樣本圖像對應的位置標注、各所述位置標注對應的類別信息和待訓練的初始視覺語言大模型;

      50、嵌入模塊,用于根據(jù)所述初始視覺語言大模型對各所述樣本圖像和各所述樣本圖像的類別標注進行數(shù)據(jù)處理,得到所述樣本圖像對應的第一特征圖和各所述類別標注對應的類別嵌入;

      51、第二卷積模塊,用于基于所述初始視覺語言大模型的多尺度結構對所述初始特征圖進行多尺度卷積變換,得到多個尺度的第二特征圖,并根據(jù)所述初始視覺語言大模型的區(qū)域級結構對各所述第二特征圖進行區(qū)域級特征提取,得到目標區(qū)域級特征向量;

      52、訓練模塊,用于根據(jù)所述初始視覺語言大模型的區(qū)域向量構建結構、所述類別信息、所述類別嵌入、目標區(qū)域級特征向量和區(qū)域級損失函數(shù)構建結構對所述初始視覺語言大模型的多尺度結構和區(qū)域級結構進行訓練,得到訓練完成的視覺語言大模型。

      53、在其中一個實施例中,所述區(qū)域級結構包括裁剪結構和對齊結構;所述第二卷積模塊具體用于根據(jù)所述初始視覺語言大模型的區(qū)域級結構對各所述第二特征圖進行標定框映射,并根據(jù)所述裁剪結構對標定框映射后的第二特征圖進行裁剪,得到各尺度下的目標未對齊區(qū)域特征;

      54、基于所述對齊結構將各所述尺度下的所述目標未對齊區(qū)域特征進行尺度對齊,得到與所述類別嵌入的特征維度相同的目標區(qū)域級特征向量。

      55、在其中一個實施例中,所述對齊結構還包括線性投影結構;所述第二卷積模塊具體用于根據(jù)所述對齊結構對各所述尺度下的所述目標未對齊區(qū)域特征進行空間維度最大池化計算,得到初始區(qū)域級特征向量;

      56、基于所述線性投影結構,按照所述類別編碼對應的維度對各所述初始區(qū)域級特征向量進行投影,得到目標區(qū)域級特征向量。

      57、在其中一個實施例中,所述訓練模塊具體用于根據(jù)所述初始視覺語言大模型的區(qū)域向量構建結構對各所述位置標注對應的類別信息進行編碼,得到各所述類別信息對應的類別向量;

      58、基于區(qū)域級損失函數(shù)構建結構對各所述尺度下的所述目標區(qū)域級特征向量、類別嵌入和所述類別向量進行損失值計算,得到各所述尺度下的損失值;

      59、根據(jù)各所述尺度下的所述損失值確定目標損失值,并基于所述目標損失值對所述初始視覺語言大模型的多尺度結構和區(qū)域級結構進行訓練,直至所述目標損失值滿足預設損失條件,得到訓練完成的視覺語言大模型。

      60、在其中一個實施例中,所述裝置還包括:

      61、第三獲取模塊,用于基于圖像處理任務,獲取待處理圖像和所述待處理圖像對應的任務文本;

      62、第二特征提取模塊,用于根據(jù)視覺語言大模型的主干網(wǎng)絡對所述待處理圖像和所述任務文本進行特征提取,得到所述待處理圖像對應的初始特征圖;

      63、編碼模塊,用于根據(jù)視覺語言大模型的文本編碼器對所述任務文本進行編碼,得到文本編碼;

      64、確定模塊,用于基于所述文本編碼確定所述任務文本對應的任務特征。

      65、第三方面,本技術還提供了一種計算機設備,包括存儲器和處理器,所述存儲器存儲有計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)以下步驟:

      66、基于圖像處理任務,獲取待處理圖像的初始特征圖并確定所述圖像處理任務的任務特征;

      67、基于視覺語言大模型的多尺度結構對所述初始特征圖進行多尺度卷積,得到多個尺度的目標特征圖;

      68、根據(jù)所述視覺語言大模型的區(qū)域級結構對各所述目標特征圖進行區(qū)域級特征提取,得到區(qū)域級特征向量;

      69、基于所述區(qū)域級特征向量和所述任務特征對所述待處理圖像進行圖像處理,得到所述任務特征對應的圖像處理結果。

      70、第四方面,本技術還提供了一種計算機可讀存儲介質,其上存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)以下步驟:

      71、基于圖像處理任務,獲取待處理圖像的初始特征圖并確定所述圖像處理任務的任務特征;

      72、基于視覺語言大模型的多尺度結構對所述初始特征圖進行多尺度卷積,得到多個尺度的目標特征圖;

      73、根據(jù)所述視覺語言大模型的區(qū)域級結構對各所述目標特征圖進行區(qū)域級特征提取,得到區(qū)域級特征向量;

      74、基于所述區(qū)域級特征向量和所述任務特征對所述待處理圖像進行圖像處理,得到所述任務特征對應的圖像處理結果。

      75、第五方面,本技術還提供了一種計算機程序產(chǎn)品,包括計算機程序,該計算機程序被處理器執(zhí)行時實現(xiàn)以下步驟:

      76、基于圖像處理任務,獲取待處理圖像的初始特征圖并確定所述圖像處理任務的任務特征;

      77、基于視覺語言大模型的多尺度結構對所述初始特征圖進行多尺度卷積,得到多個尺度的目標特征圖;

      78、根據(jù)所述視覺語言大模型的區(qū)域級結構對各所述目標特征圖進行區(qū)域級特征提取,得到區(qū)域級特征向量;

      79、基于所述區(qū)域級特征向量和所述任務特征對所述待處理圖像進行圖像處理,得到所述任務特征對應的圖像處理結果。

      80、上述圖像處理方法、裝置、計算機設備、計算機可讀存儲介質和計算機程序產(chǎn)品,通過多尺度結構對待處理圖像進行卷積,模型能夠捕捉到待處理圖像在不同尺度下的特征,從而更全面地理解圖像內容,通過區(qū)域級結構對目標特征圖進行進一步的特征提取,得到區(qū)域級特征向量,使得視覺語言大模型能夠更精確地聚焦于待處理圖像中的關鍵區(qū)域,提取出與任務文本緊密相關的局部特征,提升了視覺語言大模型對于不同尺寸物體的位置感知能力,進而可以靈活適應不同類型的視覺任務,可以有效提升視覺語言大模型在稠密預測任務中的準確性。

      當前第1頁1 2 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1