跨模態(tài)數(shù)據(jù)處理方法、裝置、設(shè)備、介質(zhì)及程序產(chǎn)品與流程

文檔序號(hào)：40371529發(fā)布日期：2024-12-20 11:53閱讀：3來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

跨模態(tài)數(shù)據(jù)處理方法、裝置、設(shè)備、介質(zhì)及程序產(chǎn)品與流程

本公開涉及計(jì)算機(jī)，尤其涉及一種跨模態(tài)數(shù)據(jù)處理方法、裝置、設(shè)備、介質(zhì)及程序產(chǎn)品。

背景技術(shù)：

1、現(xiàn)有的視覺文本模型在處理圖像和視頻之間的時(shí)序語義表示和相關(guān)性方面存在一些局限性。視覺文本模型在預(yù)訓(xùn)練階段往往不能學(xué)習(xí)到時(shí)序理解的能力，即使后續(xù)再進(jìn)行微調(diào)訓(xùn)練，由于數(shù)據(jù)量有限，也將會(huì)導(dǎo)致模型的最終性能表現(xiàn)一般。即使通過聯(lián)合使用圖像-文本和視頻-文本數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練，但圖像-文本語料庫中樣本數(shù)量遠(yuǎn)遠(yuǎn)大于視頻-文本語料庫，視頻-文本壓樣本容易被忽略，且還存在視頻-文本語料庫的視覺冗余度高，場(chǎng)景與描述單一等問題，導(dǎo)致基于視覺文本的跨模態(tài)數(shù)據(jù)處理模型的準(zhǔn)確度不高，任務(wù)處理性能得不到提升。

技術(shù)實(shí)現(xiàn)思路

1、本公開提出一種跨模態(tài)數(shù)據(jù)處理方法、裝置、設(shè)備、存儲(chǔ)介質(zhì)及程序產(chǎn)品，以在一定程度上解決跨模態(tài)數(shù)據(jù)處理的準(zhǔn)確度低的技術(shù)問題。

2、本公開第一方面，提供了一種跨模態(tài)數(shù)據(jù)處理方法，包括：

3、獲取待處理的第一模態(tài)數(shù)據(jù)；

4、基于所述第一模態(tài)數(shù)據(jù)進(jìn)行特征提取得到第一模態(tài)數(shù)據(jù)特征；

5、基于所述第一模態(tài)數(shù)據(jù)特征和跨模態(tài)處理模型得到第二模態(tài)數(shù)據(jù)，所述第一模態(tài)數(shù)據(jù)與所述第二模態(tài)數(shù)據(jù)具有不同的模態(tài)；

6、其中，所述跨模態(tài)處理模型需要基于串聯(lián)訓(xùn)練樣本進(jìn)行預(yù)訓(xùn)練，所述串聯(lián)訓(xùn)練樣本包括串聯(lián)圖像樣本以及對(duì)應(yīng)的串聯(lián)文本樣本。

7、本公開第二方面，提供了一種跨模態(tài)數(shù)據(jù)處理裝置，包括：

8、獲取模塊，用于獲取待處理的第一模態(tài)數(shù)據(jù)；

9、模型模塊，用于基于所述第一模態(tài)數(shù)據(jù)進(jìn)行特征提取得到第一模態(tài)數(shù)據(jù)特征；以及基于所述第一模態(tài)數(shù)據(jù)特征和跨模態(tài)處理模型得到第二模態(tài)數(shù)據(jù)，所述第一模態(tài)數(shù)據(jù)與所述第二模態(tài)數(shù)據(jù)具有不同的模態(tài)；

10、其中，所述跨模態(tài)處理模型需要基于串聯(lián)訓(xùn)練樣本進(jìn)行預(yù)訓(xùn)練，所述串聯(lián)訓(xùn)練樣本包括串聯(lián)圖像樣本以及對(duì)應(yīng)的串聯(lián)文本樣本。

11、本公開第三方面，提供了一種電子設(shè)備，其特征在于，包括一個(gè)或者多個(gè)處理器、存儲(chǔ)器；和一個(gè)或多個(gè)程序，其中所述一個(gè)或多個(gè)程序被存儲(chǔ)在所述存儲(chǔ)器中，并且被所述一個(gè)或多個(gè)處理器執(zhí)行，所述程序包括用于執(zhí)行根據(jù)第一方面所述的方法的指令。

12、本公開第四方面，提供了一種包含計(jì)算機(jī)程序的非易失性計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，當(dāng)所述計(jì)算機(jī)程序被一個(gè)或多個(gè)處理器執(zhí)行時(shí)，使得所述處理器執(zhí)行第一方面所述的方法。

13、本公開第五方面，提供了一種計(jì)算機(jī)程序產(chǎn)品，包括計(jì)算機(jī)程序指令，當(dāng)所述計(jì)算機(jī)程序指令在計(jì)算機(jī)上運(yùn)行時(shí)，使得計(jì)算機(jī)執(zhí)行第一方面所述的方法。

14、從上面所述可以看出，本公開提供的一種跨模態(tài)數(shù)據(jù)處理方法、裝置、設(shè)備、介質(zhì)及程序產(chǎn)品，通過在預(yù)訓(xùn)練階段采用串聯(lián)的圖像樣本和文本樣本對(duì)跨模態(tài)處理模型進(jìn)行訓(xùn)練，將圖像和文本樣本對(duì)轉(zhuǎn)化為串聯(lián)圖像-串聯(lián)文本樣本對(duì)，保持了時(shí)序的對(duì)應(yīng)關(guān)系，提供了豐富的場(chǎng)景變換和描述信息，使得跨模態(tài)處理模型能夠?qū)W習(xí)到顯式的場(chǎng)景級(jí)時(shí)間對(duì)齊，提升了對(duì)靜態(tài)和時(shí)態(tài)信息的學(xué)習(xí)能力，從而提高了跨模態(tài)數(shù)據(jù)處理任務(wù)的準(zhǔn)確度和效率。

技術(shù)特征：

1.一種跨模態(tài)數(shù)據(jù)處理方法，其特征在于，包括：

2.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述跨模態(tài)處理模型需要基于串聯(lián)訓(xùn)練樣本進(jìn)行預(yù)訓(xùn)練，包括：

3.根據(jù)權(quán)利要求2所述的方法，其特征在于，獲取所述串聯(lián)訓(xùn)練樣本，包括：

4.根據(jù)權(quán)利要求3所述的方法，其特征在于，所述串聯(lián)圖像樣本包括串聯(lián)的多個(gè)圖像樣本；

5.根據(jù)權(quán)利要求3所述的方法，其特征在于，所述串聯(lián)文本樣本包括串聯(lián)的多個(gè)文本樣本，所述文本樣本與所述圖像樣本相對(duì)應(yīng)；

6.根據(jù)權(quán)利要求2所述的方法，其特征在于，基于所述串聯(lián)圖像特征和所述串聯(lián)文本特征進(jìn)行融合得到多模態(tài)特征，包括：

7.根據(jù)權(quán)利要求2所述的方法，其特征在于，基于所述串聯(lián)圖像樣本、所述串聯(lián)文本樣本和所述多模態(tài)特征對(duì)所述初始模型進(jìn)行預(yù)訓(xùn)練，包括：

8.根據(jù)權(quán)利要求2所述的方法，其特征在于，基于所述串聯(lián)圖像樣本、所述串聯(lián)文本樣本和所述多模態(tài)特征對(duì)所述初始模型進(jìn)行預(yù)訓(xùn)練，包括：

9.根據(jù)權(quán)利要求2所述的方法，其特征在于，基于所述串聯(lián)圖像樣本、所述串聯(lián)文本樣本和所述多模態(tài)特征對(duì)所述初始模型進(jìn)行預(yù)訓(xùn)練，包括：

10.根據(jù)權(quán)利要求2所述的方法，其特征在于，基于所述串聯(lián)圖像特征、所述串聯(lián)文本特征和所述多模態(tài)特征對(duì)所述初始模型進(jìn)行預(yù)訓(xùn)練，包括：

11.一種跨模態(tài)數(shù)據(jù)處理裝置，其特征在于，包括：

12.一種電子設(shè)備，包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序，所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)如權(quán)利要求1至10任意一項(xiàng)所述的方法。

13.一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，所述非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)計(jì)算機(jī)指令，所述計(jì)算機(jī)指令用于使計(jì)算機(jī)執(zhí)行權(quán)利要求1至10任一所述方法。

14.一種計(jì)算機(jī)程序產(chǎn)品，包括計(jì)算機(jī)程序指令，當(dāng)所述計(jì)算機(jī)程序指令在計(jì)算機(jī)上運(yùn)行時(shí)，使得計(jì)算機(jī)執(zhí)行權(quán)利要求1至10任一所述的方法。

技術(shù)總結(jié)
本公開提供一種跨模態(tài)數(shù)據(jù)處理方法、裝置、設(shè)備、存儲(chǔ)介質(zhì)及程序產(chǎn)品。該方法包括：獲取待處理的第一模態(tài)數(shù)據(jù)；基于所述第一模態(tài)數(shù)據(jù)進(jìn)行特征提取得到第一模態(tài)數(shù)據(jù)特征；基于所述第一模態(tài)數(shù)據(jù)特征和跨模態(tài)處理模型得到第二模態(tài)數(shù)據(jù)，所述第一模態(tài)數(shù)據(jù)與所述第二模態(tài)數(shù)據(jù)具有不同的模態(tài)；其中，所述跨模態(tài)處理模型需要基于串聯(lián)訓(xùn)練樣本進(jìn)行預(yù)訓(xùn)練，所述串聯(lián)訓(xùn)練樣本包括串聯(lián)圖像樣本以及對(duì)應(yīng)的串聯(lián)文本樣本。

技術(shù)研發(fā)人員：靳瀟杰,陳思涵,馮佳時(shí),何興建,李翰東,劉靜
受保護(hù)的技術(shù)使用者：臉萌有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2024/12/19

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：靳瀟杰,陳思涵,馮佳時(shí),何興建,李翰東,劉靜
技術(shù)所有人：臉萌有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

跨模態(tài)數(shù)據(jù)處理方法、裝置、設(shè)備、介質(zhì)及程序產(chǎn)品與流程

跨模態(tài)數(shù)據(jù)處理方法、裝置、設(shè)備、介質(zhì)及程序產(chǎn)品與流程