本公開涉及計算機視覺,具體涉及視覺文本處理方法、裝置、電子設(shè)備、介質(zhì)及程序產(chǎn)品。
背景技術(shù):
1、視覺文本是一種融合了視覺元素和文字信息的創(chuàng)意表達形式,它通過圖像、色彩和文字的有機結(jié)合,將信息以更加直觀、生動的方式進行顯示。
2、相關(guān)技術(shù)中,針對視覺文本(文檔、場景文本)進行處理的模型,所執(zhí)行的功能相對單一,進而當需要執(zhí)行大量且不同類型的視覺文本處理任務(wù)時,則需要利用多個模型共同處理,從而極大增加了模型的存儲消耗。
技術(shù)實現(xiàn)思路
1、有鑒于此,本公開提供了一種視覺文本處理方法、裝置、電子設(shè)備、介質(zhì)及程序產(chǎn)品,以解決針對視覺文本進行處理的模型不具有通用性的問題。
2、第一方面,本公開提供了一種視覺文本處理方法,方法包括:
3、獲取當前視覺任務(wù)的目標圖像以及對應的提示文本;
4、提取目標圖像的視覺特征以及提示文本的文本特征,得到待處理特征;
5、將待處理特征輸入目標模型中,利用目標模型中的語言處理模塊以及與當前視覺任務(wù)對應的目標任務(wù)處理子模塊對待處理特征進行處理,得到當前視覺任務(wù)的處理結(jié)果。
6、第二方面,本公開提供了一種視覺文本處理裝置,裝置包括:
7、獲取模塊,用于獲取當前視覺任務(wù)的目標圖像以及對應的提示文本;
8、第一處理模塊,用于提取目標圖像的視覺特征以及提示文本的文本特征,得到待處理特征;
9、第二處理模塊,用于將待處理特征輸入目標模型中,利用目標模型中的語言處理模塊以及與當前視覺任務(wù)對應的目標任務(wù)處理子模塊對待處理特征進行處理,得到當前視覺任務(wù)的處理結(jié)果。
10、第三方面,本公開提供了一種電子設(shè)備,包括:存儲器和處理器,存儲器和處理器之間互相通信連接,存儲器中存儲有計算機指令,處理器通過執(zhí)行計算機指令,從而執(zhí)行上述第一方面或其對應的任一實施方式的視覺文本處理方法。
11、第四方面,本公開提供了一種計算機可讀存儲介質(zhì),該計算機可讀存儲介質(zhì)上存儲有計算機指令,計算機指令用于使計算機執(zhí)行上述第一方面或其對應的任一實施方式的視覺文本處理方法。
12、第五方面,本發(fā)明提供了一種計算機程序產(chǎn)品,包括計算機指令,計算機指令用于使計算機執(zhí)行上述第一方面或其對應的任一實施方式的視覺文本處理方法。
13、本實施例提供的視覺文本處理方法,通過提取目標圖像的視覺特征和提示文本的文本特征,并將其整合為待處理特征,有助于捕捉多模態(tài)輸入數(shù)據(jù)中不同方面的信息,進而通過目標模型進行處理時,得到的待處理特征可以提供更全面和綜合的描述,便于目標模型可以更好地理解和處理當前視覺任務(wù),能夠有效提高處理效率。并且,目標模型在處理待處理特征的過程中,是利用內(nèi)置的語言處理模塊以及與當前視覺任務(wù)對應的目標任務(wù)處理子模塊進行處理,進而使得處理過程更靈活、更具有針對性,能夠有效提高處理結(jié)果的準確性。
1.一種視覺文本處理方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述目標模型包括多個所述語言處理模塊,以及與所述語言處理模塊對應的任務(wù)處理模塊,所述任務(wù)處理模塊包括任務(wù)選擇子模塊、用于圖像生成的第一任務(wù)處理子模塊,用于圖像理解的第二任務(wù)處理子模塊以及用于圖像生成與理解的第三任務(wù)處理子模塊,所述任務(wù)選擇子模塊用于基于所述待處理特征確定所述目標任務(wù)處理子模塊。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述任務(wù)處理模塊與所述語言處理模塊一一對應。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,在任意相鄰的兩個語言處理模塊之間設(shè)置有所述任務(wù)處理模塊。
5.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述利用所述目標模型中的語言處理模塊以及與當前視覺任務(wù)對應的目標任務(wù)處理子模塊對所述待處理特征進行處理,得到所述當前視覺任務(wù)的處理結(jié)果,包括:
6.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述目標模型還包括結(jié)果生成模塊,所述結(jié)果生成模塊與視覺任務(wù)對應,所述利用所述目標模型中的語言處理模塊以及與當前視覺任務(wù)對應的目標任務(wù)處理子模塊對所述待處理特征進行處理,得到所述當前視覺任務(wù)的處理結(jié)果,還包括:
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,若所述當前視覺任務(wù)為圖像生成任務(wù),則所述目標結(jié)果生成模塊為條件擴散模型;所述利用所述目標結(jié)果生成模塊,對經(jīng)過多個所述語言處理模塊以及所述目標任務(wù)處理子模塊處理后得到的目標特征進行處理,得到所述當前視覺任務(wù)的處理結(jié)果,包括:
8.根據(jù)權(quán)利要求6所述的方法,其特征在于,若所述當前視覺任務(wù)為圖像理解任務(wù),則所述目標結(jié)果生成模塊為文本標記器;所述利用所述目標結(jié)果生成模塊,對經(jīng)過多個所述語言處理模塊以及所述目標任務(wù)處理子模塊處理后得到的目標特征進行處理,得到所述當前視覺任務(wù)的處理結(jié)果,包括:
9.根據(jù)權(quán)利要求6所述的方法,其特征在于,訓練所述目標模型的方法包括:
10.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述提取所述目標圖像的視覺特征,包括:
11.一種視覺文本處理裝置,其特征在于,所述裝置包括:
12.一種電子設(shè)備,其特征在于,包括:
13.一種計算機可讀存儲介質(zhì),其特征在于,所述計算機可讀存儲介質(zhì)上存儲有計算機指令,所述計算機指令用于使計算機執(zhí)行權(quán)利要求1至10中任一項所述的視覺文本處理方法。
14.一種計算機程序產(chǎn)品,其特征在于,包括計算機指令,所述計算機指令用于使計算機執(zhí)行權(quán)利要求1至10中任一項所述的視覺文本處理方法。