本發(fā)明涉及人工智能及金融科技領(lǐng)域,具體涉及一種圖文信息識(shí)別方法、裝置、計(jì)算機(jī)設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。
背景技術(shù):
1、目前,隨著計(jì)算機(jī)技術(shù)的發(fā)展,越來(lái)越多的技術(shù)應(yīng)用在金融領(lǐng)域,傳統(tǒng)金融業(yè)正在逐步向金融科技(fintech)轉(zhuǎn)變,圖文信息識(shí)別技術(shù)也不例外,例如,在金融機(jī)構(gòu)(如銀行)的合規(guī)審查場(chǎng)景中,金融機(jī)構(gòu)經(jīng)常需要審查大量的文檔,如合同、貸款文件、保險(xiǎn)單、財(cái)務(wù)報(bào)表、身份證明等,這些文檔通常包含豐富的文本信息和圖像內(nèi)容(如簽名、印章、公司標(biāo)志等),通過(guò)圖文信息識(shí)別技術(shù),金融機(jī)構(gòu)可以實(shí)現(xiàn)合規(guī)審查的自動(dòng)化和智能化,提高業(yè)務(wù)效率和客戶滿意度,同時(shí)降低運(yùn)營(yíng)成本和合規(guī)風(fēng)險(xiǎn)。但由于金融行業(yè)的安全性、實(shí)時(shí)性等要求,也對(duì)圖文信息識(shí)別技術(shù)提出了更高的要求。
2、同時(shí),當(dāng)前隨著社交媒體的爆炸性增長(zhǎng),信息傳播的速度和廣度達(dá)到了前所未有的水平。然而,這一現(xiàn)象的陰暗面是虛假新聞的迅速擴(kuò)散,虛假新聞不僅擾亂了人們的生活,引起了公眾恐慌,還影響了輿論,操縱了公眾關(guān)注點(diǎn),破壞了社交媒體平臺(tái)的信譽(yù)。在當(dāng)前的數(shù)字媒體環(huán)境中,信息的碎片化使得未經(jīng)控制的虛假信息得以迅速傳播。虛假新聞的傳播速度、范圍、深度和廣度都遠(yuǎn)遠(yuǎn)超過(guò)了真實(shí)新聞,這主要是因?yàn)橹e言往往更具吸引力,且易于在社交媒體上引起共鳴。尤其是融合了圖像和文本的多模態(tài)虛假新聞,因其吸引人的圖像內(nèi)容,比純文本新聞更容易吸引觀眾的注意力,從而更難以被識(shí)別和遏制。目前,現(xiàn)有的虛假新聞檢測(cè)方法主要集中在文本分析上,但隨著融合了圖像和文本的多模態(tài)虛假新聞的增加,這些方法的有效性受到了限制,使得虛假檢測(cè)與分類(lèi)變得更加困難。
3、綜上所述,如何提供一種圖文信息識(shí)別方法、裝置、計(jì)算機(jī)設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),可實(shí)現(xiàn)對(duì)于目標(biāo)圖文信息的準(zhǔn)確分類(lèi)與識(shí)別,是目前本領(lǐng)域技術(shù)人員亟待解決的問(wèn)題。
技術(shù)實(shí)現(xiàn)思路
1、鑒于上述現(xiàn)有技術(shù)的不足之處,本發(fā)明的目的在于提供一種圖文信息識(shí)別方法、裝置、計(jì)算機(jī)設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),旨在解決如何可實(shí)現(xiàn)對(duì)于目標(biāo)圖文信息的準(zhǔn)確分類(lèi)與識(shí)別的問(wèn)題。
2、為了達(dá)到上述目的,本發(fā)明采取了以下技術(shù)方案:
3、第一方面,本發(fā)明提供了一種圖文信息識(shí)別方法,其中,包括:
4、獲取目標(biāo)圖文信息,并對(duì)所述目標(biāo)圖文信息進(jìn)行信息提取,得到其中的文本內(nèi)容和圖像內(nèi)容;
5、將所述文本內(nèi)容輸入nlp模型中,生成所述目標(biāo)圖文信息的文本特征向量;
6、將所述圖像內(nèi)容輸入cv模型中,生成所述目標(biāo)圖文信息的圖像特征向量;
7、基于交叉注意力機(jī)制,對(duì)所述文本特征向量與所述圖像特征向量執(zhí)行交叉注意力操作,生成所述目標(biāo)圖文信息的融合特征向量;
8、基于所述融合特征向量,利用分類(lèi)器生成所述目標(biāo)圖文信息的信息識(shí)別結(jié)果。
9、第二方面,本發(fā)明提供了一種圖文信息識(shí)別裝置,其中,包括:
10、信息提取模塊,用于獲取目標(biāo)圖文信息,并對(duì)所述目標(biāo)圖文信息進(jìn)行信息提取,得到其中的文本內(nèi)容和圖像內(nèi)容;
11、文本內(nèi)容輸入模塊,用于將所述文本內(nèi)容輸入nlp模型中,生成所述目標(biāo)圖文信息的文本特征向量;
12、圖像內(nèi)容輸入模塊,用于將所述圖像內(nèi)容輸入cv模型中,生成所述目標(biāo)圖文信息的圖像特征向量;
13、操作執(zhí)行模塊,用于基于交叉注意力機(jī)制,對(duì)所述文本特征向量與所述圖像特征向量執(zhí)行交叉注意力操作,生成所述目標(biāo)圖文信息的融合特征向量;
14、結(jié)果生成模塊,用于基于所述融合特征向量,利用分類(lèi)器生成所述目標(biāo)圖文信息的信息識(shí)別結(jié)果。
15、第三方面,本發(fā)明提供了一種計(jì)算機(jī)設(shè)備,包括存儲(chǔ)器、處理器以及存儲(chǔ)在所述存儲(chǔ)器中并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,其中,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如上所述的圖文信息識(shí)別方法。
16、第四方面,本發(fā)明提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序,其中,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上所述的圖文信息識(shí)別方法。
17、相較于現(xiàn)有技術(shù),本發(fā)明提供了一種圖文信息識(shí)別方法、裝置、計(jì)算機(jī)設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中,通過(guò)獲取目標(biāo)圖文信息,并對(duì)所述目標(biāo)圖文信息進(jìn)行信息提取,得到其中的文本內(nèi)容和圖像內(nèi)容;將所述文本內(nèi)容輸入nlp模型中,生成所述目標(biāo)圖文信息的文本特征向量;將所述圖像內(nèi)容輸入cv模型中,生成所述目標(biāo)圖文信息的圖像特征向量;基于交叉注意力機(jī)制,對(duì)所述文本特征向量與所述圖像特征向量執(zhí)行交叉注意力操作,生成所述目標(biāo)圖文信息的融合特征向量;基于所述融合特征向量,利用分類(lèi)器生成所述目標(biāo)圖文信息的信息識(shí)別結(jié)果;從而本發(fā)明可實(shí)現(xiàn)對(duì)于目標(biāo)圖文信息的準(zhǔn)確分類(lèi)與識(shí)別。
1.一種圖文信息識(shí)別方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的圖文信息識(shí)別方法,其特征在于,所述獲取目標(biāo)圖文信息,并對(duì)所述目標(biāo)圖文信息進(jìn)行信息提取,得到其中的文本內(nèi)容和圖像內(nèi)容,包括:
3.根據(jù)權(quán)利要求1所述的圖文信息識(shí)別方法,其特征在于,所述將所述文本內(nèi)容輸入nlp模型中,生成所述目標(biāo)圖文信息的文本特征向量,包括:
4.根據(jù)權(quán)利要求1所述的圖文信息識(shí)別方法,其特征在于,所述將所述圖像內(nèi)容輸入cv模型中,生成所述目標(biāo)圖文信息的圖像特征向量,包括:
5.根據(jù)權(quán)利要求1所述的圖文信息識(shí)別方法,其特征在于,所述基于交叉注意力機(jī)制,對(duì)所述文本特征向量與所述圖像特征向量執(zhí)行交叉注意力操作,生成所述目標(biāo)圖文信息的融合特征向量,包括:
6.根據(jù)權(quán)利要求5所述的圖文信息識(shí)別方法,其特征在于,所述對(duì)所述文本特征向量與所述圖像特征向量執(zhí)行調(diào)整操作,以確保兩者在格式與維度上一致,包括:
7.根據(jù)權(quán)利要求1-6任一項(xiàng)所述的圖文信息識(shí)別方法,其特征在于,所述基于所述融合特征向量,利用分類(lèi)器生成所述目標(biāo)圖文信息的信息識(shí)別結(jié)果,包括:
8.一種圖文信息識(shí)別裝置,其特征在于,包括:
9.一種計(jì)算機(jī)設(shè)備,包括存儲(chǔ)器、處理器以及存儲(chǔ)在所述存儲(chǔ)器中并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如權(quán)利要求1-7任一項(xiàng)所述的圖文信息識(shí)別方法。
10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1-7任一項(xiàng)所述的圖文信息識(shí)別方法。