視覺文本處理方法、裝置、電子設(shè)備、介質(zhì)及程序產(chǎn)品與流程

文檔序號：39622110發(fā)布日期：2024-10-11 13:42閱讀：16來源：國知局

本公開涉及計算機視覺，具體涉及視覺文本處理方法、裝置、電子設(shè)備、介質(zhì)及程序產(chǎn)品。

背景技術(shù)：

1、視覺文本是一種融合了視覺元素和文字信息的創(chuàng)意表達形式，它通過圖像、色彩和文字的有機結(jié)合，將信息以更加直觀、生動的方式進行顯示。

2、相關(guān)技術(shù)中，針對視覺文本(文檔、場景文本)進行處理的模型，所執(zhí)行的功能相對單一，進而當需要執(zhí)行大量且不同類型的視覺文本處理任務(wù)時，則需要利用多個模型共同處理，從而極大增加了模型的存儲消耗。

技術(shù)實現(xiàn)思路

1、有鑒于此，本公開提供了一種視覺文本處理方法、裝置、電子設(shè)備、介質(zhì)及程序產(chǎn)品，以解決針對視覺文本進行處理的模型不具有通用性的問題。

2、第一方面，本公開提供了一種視覺文本處理方法，方法包括：

3、獲取當前視覺任務(wù)的目標圖像以及對應的提示文本；

4、提取目標圖像的視覺特征以及提示文本的文本特征，得到待處理特征；

5、將待處理特征輸入目標模型中，利用目標模型中的語言處理模塊以及與當前視覺任務(wù)對應的目標任務(wù)處理子模塊對待處理特征進行處理，得到當前視覺任務(wù)的處理結(jié)果。

6、第二方面，本公開提供了一種視覺文本處理裝置，裝置包括：

7、獲取模塊，用于獲取當前視覺任務(wù)的目標圖像以及對應的提示文本；

8、第一處理模塊，用于提取目標圖像的視覺特征以及提示文本的文本特征，得到待處理特征；

9、第二處理模塊，用于將待處理特征輸入目標模型中，利用目標模型中的語言處理模塊以及與當前視覺任務(wù)對應的目標任務(wù)處理子模塊對待處理特征進行處理，得到當前視覺任務(wù)的處理結(jié)果。

10、第三方面，本公開提供了一種電子設(shè)備，包括：存儲器和處理器，存儲器和處理器之間互相通信連接，存儲器中存儲有計算機指令，處理器通過執(zhí)行計算機指令，從而執(zhí)行上述第一方面或其對應的任一實施方式的視覺文本處理方法。

11、第四方面，本公開提供了一種計算機可讀存儲介質(zhì)，該計算機可讀存儲介質(zhì)上存儲有計算機指令，計算機指令用于使計算機執(zhí)行上述第一方面或其對應的任一實施方式的視覺文本處理方法。

12、第五方面，本發(fā)明提供了一種計算機程序產(chǎn)品，包括計算機指令，計算機指令用于使計算機執(zhí)行上述第一方面或其對應的任一實施方式的視覺文本處理方法。

13、本實施例提供的視覺文本處理方法，通過提取目標圖像的視覺特征和提示文本的文本特征，并將其整合為待處理特征，有助于捕捉多模態(tài)輸入數(shù)據(jù)中不同方面的信息，進而通過目標模型進行處理時，得到的待處理特征可以提供更全面和綜合的描述，便于目標模型可以更好地理解和處理當前視覺任務(wù)，能夠有效提高處理效率。并且，目標模型在處理待處理特征的過程中，是利用內(nèi)置的語言處理模塊以及與當前視覺任務(wù)對應的目標任務(wù)處理子模塊進行處理，進而使得處理過程更靈活、更具有針對性，能夠有效提高處理結(jié)果的準確性。

技術(shù)特征：

1.一種視覺文本處理方法，其特征在于，所述方法包括：

2.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述目標模型包括多個所述語言處理模塊，以及與所述語言處理模塊對應的任務(wù)處理模塊，所述任務(wù)處理模塊包括任務(wù)選擇子模塊、用于圖像生成的第一任務(wù)處理子模塊，用于圖像理解的第二任務(wù)處理子模塊以及用于圖像生成與理解的第三任務(wù)處理子模塊，所述任務(wù)選擇子模塊用于基于所述待處理特征確定所述目標任務(wù)處理子模塊。

3.根據(jù)權(quán)利要求2所述的方法，其特征在于，所述任務(wù)處理模塊與所述語言處理模塊一一對應。

4.根據(jù)權(quán)利要求3所述的方法，其特征在于，在任意相鄰的兩個語言處理模塊之間設(shè)置有所述任務(wù)處理模塊。

5.根據(jù)權(quán)利要求2所述的方法，其特征在于，所述利用所述目標模型中的語言處理模塊以及與當前視覺任務(wù)對應的目標任務(wù)處理子模塊對所述待處理特征進行處理，得到所述當前視覺任務(wù)的處理結(jié)果，包括：

6.根據(jù)權(quán)利要求2所述的方法，其特征在于，所述目標模型還包括結(jié)果生成模塊，所述結(jié)果生成模塊與視覺任務(wù)對應，所述利用所述目標模型中的語言處理模塊以及與當前視覺任務(wù)對應的目標任務(wù)處理子模塊對所述待處理特征進行處理，得到所述當前視覺任務(wù)的處理結(jié)果，還包括：

7.根據(jù)權(quán)利要求6所述的方法，其特征在于，若所述當前視覺任務(wù)為圖像生成任務(wù)，則所述目標結(jié)果生成模塊為條件擴散模型；所述利用所述目標結(jié)果生成模塊，對經(jīng)過多個所述語言處理模塊以及所述目標任務(wù)處理子模塊處理后得到的目標特征進行處理，得到所述當前視覺任務(wù)的處理結(jié)果，包括：

8.根據(jù)權(quán)利要求6所述的方法，其特征在于，若所述當前視覺任務(wù)為圖像理解任務(wù)，則所述目標結(jié)果生成模塊為文本標記器；所述利用所述目標結(jié)果生成模塊，對經(jīng)過多個所述語言處理模塊以及所述目標任務(wù)處理子模塊處理后得到的目標特征進行處理，得到所述當前視覺任務(wù)的處理結(jié)果，包括：

9.根據(jù)權(quán)利要求6所述的方法，其特征在于，訓練所述目標模型的方法包括：

10.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述提取所述目標圖像的視覺特征，包括：

11.一種視覺文本處理裝置，其特征在于，所述裝置包括：

12.一種電子設(shè)備，其特征在于，包括：

13.一種計算機可讀存儲介質(zhì)，其特征在于，所述計算機可讀存儲介質(zhì)上存儲有計算機指令，所述計算機指令用于使計算機執(zhí)行權(quán)利要求1至10中任一項所述的視覺文本處理方法。

14.一種計算機程序產(chǎn)品，其特征在于，包括計算機指令，所述計算機指令用于使計算機執(zhí)行權(quán)利要求1至10中任一項所述的視覺文本處理方法。

技術(shù)總結(jié)
本公開涉及計算機視覺技術(shù)領(lǐng)域，公開了視覺文本處理方法、裝置、電子設(shè)備、介質(zhì)及程序產(chǎn)品。本公開提供的視覺文本處理方法，包括：獲取當前視覺任務(wù)的目標圖像以及對應的提示文本；提取目標圖像的視覺特征以及提示文本的文本特征，得到待處理特征；將待處理特征輸入目標模型中，利用目標模型中的語言處理模塊以及與當前視覺任務(wù)對應的目標任務(wù)處理子模塊對待處理特征進行處理，得到當前視覺任務(wù)的處理結(jié)果。能夠有效提高處理效率，并且使得處理過程更靈活、更具有針對性，能夠有效提高處理結(jié)果的準確性。

技術(shù)研發(fā)人員：趙震,唐景群,黃燦
受保護的技術(shù)使用者：抖音視界有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2024/10/10

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：趙震,唐景群,黃燦
技術(shù)所有人：抖音視界有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構(gòu)動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

視覺文本處理方法、裝置、電子設(shè)備、介質(zhì)及程序產(chǎn)品與流程

視覺文本處理方法、裝置、電子設(shè)備、介質(zhì)及程序產(chǎn)品與流程