国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      視覺文本處理方法、裝置、電子設(shè)備、介質(zhì)及程序產(chǎn)品與流程

      文檔序號:39622110發(fā)布日期:2024-10-11 13:42閱讀:16來源:國知局
      視覺文本處理方法、裝置、電子設(shè)備、介質(zhì)及程序產(chǎn)品與流程

      本公開涉及計算機視覺,具體涉及視覺文本處理方法、裝置、電子設(shè)備、介質(zhì)及程序產(chǎn)品。


      背景技術(shù):

      1、視覺文本是一種融合了視覺元素和文字信息的創(chuàng)意表達形式,它通過圖像、色彩和文字的有機結(jié)合,將信息以更加直觀、生動的方式進行顯示。

      2、相關(guān)技術(shù)中,針對視覺文本(文檔、場景文本)進行處理的模型,所執(zhí)行的功能相對單一,進而當需要執(zhí)行大量且不同類型的視覺文本處理任務(wù)時,則需要利用多個模型共同處理,從而極大增加了模型的存儲消耗。


      技術(shù)實現(xiàn)思路

      1、有鑒于此,本公開提供了一種視覺文本處理方法、裝置、電子設(shè)備、介質(zhì)及程序產(chǎn)品,以解決針對視覺文本進行處理的模型不具有通用性的問題。

      2、第一方面,本公開提供了一種視覺文本處理方法,方法包括:

      3、獲取當前視覺任務(wù)的目標圖像以及對應的提示文本;

      4、提取目標圖像的視覺特征以及提示文本的文本特征,得到待處理特征;

      5、將待處理特征輸入目標模型中,利用目標模型中的語言處理模塊以及與當前視覺任務(wù)對應的目標任務(wù)處理子模塊對待處理特征進行處理,得到當前視覺任務(wù)的處理結(jié)果。

      6、第二方面,本公開提供了一種視覺文本處理裝置,裝置包括:

      7、獲取模塊,用于獲取當前視覺任務(wù)的目標圖像以及對應的提示文本;

      8、第一處理模塊,用于提取目標圖像的視覺特征以及提示文本的文本特征,得到待處理特征;

      9、第二處理模塊,用于將待處理特征輸入目標模型中,利用目標模型中的語言處理模塊以及與當前視覺任務(wù)對應的目標任務(wù)處理子模塊對待處理特征進行處理,得到當前視覺任務(wù)的處理結(jié)果。

      10、第三方面,本公開提供了一種電子設(shè)備,包括:存儲器和處理器,存儲器和處理器之間互相通信連接,存儲器中存儲有計算機指令,處理器通過執(zhí)行計算機指令,從而執(zhí)行上述第一方面或其對應的任一實施方式的視覺文本處理方法。

      11、第四方面,本公開提供了一種計算機可讀存儲介質(zhì),該計算機可讀存儲介質(zhì)上存儲有計算機指令,計算機指令用于使計算機執(zhí)行上述第一方面或其對應的任一實施方式的視覺文本處理方法。

      12、第五方面,本發(fā)明提供了一種計算機程序產(chǎn)品,包括計算機指令,計算機指令用于使計算機執(zhí)行上述第一方面或其對應的任一實施方式的視覺文本處理方法。

      13、本實施例提供的視覺文本處理方法,通過提取目標圖像的視覺特征和提示文本的文本特征,并將其整合為待處理特征,有助于捕捉多模態(tài)輸入數(shù)據(jù)中不同方面的信息,進而通過目標模型進行處理時,得到的待處理特征可以提供更全面和綜合的描述,便于目標模型可以更好地理解和處理當前視覺任務(wù),能夠有效提高處理效率。并且,目標模型在處理待處理特征的過程中,是利用內(nèi)置的語言處理模塊以及與當前視覺任務(wù)對應的目標任務(wù)處理子模塊進行處理,進而使得處理過程更靈活、更具有針對性,能夠有效提高處理結(jié)果的準確性。



      技術(shù)特征:

      1.一種視覺文本處理方法,其特征在于,所述方法包括:

      2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述目標模型包括多個所述語言處理模塊,以及與所述語言處理模塊對應的任務(wù)處理模塊,所述任務(wù)處理模塊包括任務(wù)選擇子模塊、用于圖像生成的第一任務(wù)處理子模塊,用于圖像理解的第二任務(wù)處理子模塊以及用于圖像生成與理解的第三任務(wù)處理子模塊,所述任務(wù)選擇子模塊用于基于所述待處理特征確定所述目標任務(wù)處理子模塊。

      3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述任務(wù)處理模塊與所述語言處理模塊一一對應。

      4.根據(jù)權(quán)利要求3所述的方法,其特征在于,在任意相鄰的兩個語言處理模塊之間設(shè)置有所述任務(wù)處理模塊。

      5.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述利用所述目標模型中的語言處理模塊以及與當前視覺任務(wù)對應的目標任務(wù)處理子模塊對所述待處理特征進行處理,得到所述當前視覺任務(wù)的處理結(jié)果,包括:

      6.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述目標模型還包括結(jié)果生成模塊,所述結(jié)果生成模塊與視覺任務(wù)對應,所述利用所述目標模型中的語言處理模塊以及與當前視覺任務(wù)對應的目標任務(wù)處理子模塊對所述待處理特征進行處理,得到所述當前視覺任務(wù)的處理結(jié)果,還包括:

      7.根據(jù)權(quán)利要求6所述的方法,其特征在于,若所述當前視覺任務(wù)為圖像生成任務(wù),則所述目標結(jié)果生成模塊為條件擴散模型;所述利用所述目標結(jié)果生成模塊,對經(jīng)過多個所述語言處理模塊以及所述目標任務(wù)處理子模塊處理后得到的目標特征進行處理,得到所述當前視覺任務(wù)的處理結(jié)果,包括:

      8.根據(jù)權(quán)利要求6所述的方法,其特征在于,若所述當前視覺任務(wù)為圖像理解任務(wù),則所述目標結(jié)果生成模塊為文本標記器;所述利用所述目標結(jié)果生成模塊,對經(jīng)過多個所述語言處理模塊以及所述目標任務(wù)處理子模塊處理后得到的目標特征進行處理,得到所述當前視覺任務(wù)的處理結(jié)果,包括:

      9.根據(jù)權(quán)利要求6所述的方法,其特征在于,訓練所述目標模型的方法包括:

      10.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述提取所述目標圖像的視覺特征,包括:

      11.一種視覺文本處理裝置,其特征在于,所述裝置包括:

      12.一種電子設(shè)備,其特征在于,包括:

      13.一種計算機可讀存儲介質(zhì),其特征在于,所述計算機可讀存儲介質(zhì)上存儲有計算機指令,所述計算機指令用于使計算機執(zhí)行權(quán)利要求1至10中任一項所述的視覺文本處理方法。

      14.一種計算機程序產(chǎn)品,其特征在于,包括計算機指令,所述計算機指令用于使計算機執(zhí)行權(quán)利要求1至10中任一項所述的視覺文本處理方法。


      技術(shù)總結(jié)
      本公開涉及計算機視覺技術(shù)領(lǐng)域,公開了視覺文本處理方法、裝置、電子設(shè)備、介質(zhì)及程序產(chǎn)品。本公開提供的視覺文本處理方法,包括:獲取當前視覺任務(wù)的目標圖像以及對應的提示文本;提取目標圖像的視覺特征以及提示文本的文本特征,得到待處理特征;將待處理特征輸入目標模型中,利用目標模型中的語言處理模塊以及與當前視覺任務(wù)對應的目標任務(wù)處理子模塊對待處理特征進行處理,得到當前視覺任務(wù)的處理結(jié)果。能夠有效提高處理效率,并且使得處理過程更靈活、更具有針對性,能夠有效提高處理結(jié)果的準確性。

      技術(shù)研發(fā)人員:趙震,唐景群,黃燦
      受保護的技術(shù)使用者:抖音視界有限公司
      技術(shù)研發(fā)日:
      技術(shù)公布日:2024/10/10
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1