一種數(shù)據(jù)處理方法和裝置與流程

文檔序號(hào)：40280864發(fā)布日期：2024-12-11 13:20閱讀：來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>電子通信裝置的制造及其應(yīng)用技術(shù)>一種數(shù)據(jù)處理方法和裝置與流程

技術(shù)特征：

1.一種數(shù)據(jù)處理方法，其特征在于，所述方法包括：

2.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述獲取p個(gè)噪聲圖像，包括：

3.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述獲取p個(gè)噪聲圖像，包括：

4.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述對(duì)所述業(yè)務(wù)文本和所述業(yè)務(wù)圖像進(jìn)行多模態(tài)特征提取，得到圖文編碼特征，包括：

5.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述根據(jù)所述目標(biāo)前向噪聲向量、所述文本編碼特征和所述圖文編碼特征對(duì)所述目標(biāo)噪聲圖像進(jìn)行去噪處理，得到所述目標(biāo)幀文本所對(duì)應(yīng)的目標(biāo)預(yù)測(cè)圖像，包括：

6.根據(jù)權(quán)利要求5所述的方法，其特征在于，所述業(yè)務(wù)圖像為待生成視頻中的最末尾幀圖像，所述業(yè)務(wù)文本為所述目標(biāo)幀文本的上一個(gè)連續(xù)幀文本；所述根據(jù)所述文本編碼特征與所述圖文編碼特征生成融合編碼特征，包括：

7.根據(jù)權(quán)利要求5所述的方法，其特征在于，所述業(yè)務(wù)文本和業(yè)務(wù)圖像的數(shù)量均為f，f為正整數(shù)，f個(gè)業(yè)務(wù)圖像為待生成視頻中已生成的全部幀圖像；所述圖文編碼特征包括f個(gè)圖文編碼子特征，一個(gè)圖文編碼子特征是基于一個(gè)業(yè)務(wù)文本和所表征的業(yè)務(wù)圖像進(jìn)行多模態(tài)特征提取得到的；

8.根據(jù)權(quán)利要求5所述的方法，其特征在于，所述t個(gè)時(shí)間步包括時(shí)間步ti，i為小于或者等于t的正整數(shù)；所述基于所述融合編碼特征，在t個(gè)時(shí)間步中分別對(duì)所述目標(biāo)前向噪聲向量，進(jìn)行反向擴(kuò)散處理，得到目標(biāo)預(yù)測(cè)噪聲，包括：

9.根據(jù)權(quán)利要求8所述的方法，其特征在于，所述反向擴(kuò)散網(wǎng)絡(luò)層包括t個(gè)時(shí)間步分別對(duì)應(yīng)的噪聲預(yù)測(cè)網(wǎng)絡(luò)，每個(gè)噪聲預(yù)測(cè)網(wǎng)絡(luò)均包括交叉注意力子網(wǎng)絡(luò)和旁路注意力子網(wǎng)絡(luò)；在所述時(shí)間步ti中，基于所述融合編碼特征，對(duì)所述時(shí)間步ti對(duì)應(yīng)的迭代噪聲向量進(jìn)行噪聲預(yù)測(cè)，得到所述時(shí)間步ti對(duì)應(yīng)的初始噪聲向量，包括：

10.根據(jù)權(quán)利要求9所述的方法，其特征在于，所述對(duì)所述融合編碼特征和所述初始噪聲向量進(jìn)行第一交叉注意力處理，得到第一注意力處理結(jié)果，包括：

11.根據(jù)權(quán)利要求1所述的方法，其特征在于，還包括：

12.根據(jù)權(quán)利要求11所述的方法，其特征在于，所述待生成視頻中的所述p個(gè)連續(xù)幀文本分別對(duì)應(yīng)的幀圖像包括幀圖像pj和幀圖像pj+1，j為小于p的正整數(shù)；所述對(duì)每相鄰兩個(gè)幀圖像進(jìn)行圖像插值，得到每相鄰兩個(gè)幀圖像之間的中間幀圖像，包括：

13.一種數(shù)據(jù)處理方法，其特征在于，所述方法包括：

14.根據(jù)權(quán)利要求13所述的方法，其特征在于，所述獲取樣本序列，包括：

15.根據(jù)權(quán)利要求14所述的方法，其特征在于，所述獲取n個(gè)噪聲樣本，包括：

16.根據(jù)權(quán)利要求14所述的方法，其特征在于，所述獲取n個(gè)噪聲樣本，包括：

17.根據(jù)權(quán)利要求13所述的方法，其特征在于，所述初始視頻生成模型包括初始反向擴(kuò)散網(wǎng)絡(luò)層，所述初始反向擴(kuò)散網(wǎng)絡(luò)層包括交叉注意力子網(wǎng)絡(luò)和初始旁路注意力子網(wǎng)絡(luò)；所述對(duì)所述樣本前向噪聲向量、所述第一編碼特征和所述第二編碼特征，進(jìn)行反向擴(kuò)散處理，得到預(yù)測(cè)噪聲樣本向量，包括：

18.根據(jù)權(quán)利要求17所述的方法，其特征在于，所述初始視頻生成模型還包括初始多模態(tài)特征提取網(wǎng)絡(luò)和初始特征融合網(wǎng)絡(luò)，所述初始多模態(tài)特征提取網(wǎng)絡(luò)用于對(duì)第一圖像樣本和第一文本樣本進(jìn)行多模態(tài)特征提取，得到第二編碼特征；所述初始特征融合網(wǎng)絡(luò)用于根據(jù)所述第一編碼特征和所述第二編碼特征生成目標(biāo)編碼特征；

19.一種數(shù)據(jù)處理裝置，其特征在于，所述裝置包括：

20.一種數(shù)據(jù)處理裝置，其特征在于，所述裝置包括：

技術(shù)總結(jié)
本申請(qǐng)實(shí)施例公開(kāi)了一種數(shù)據(jù)處理方法和裝置，涉及計(jì)算機(jī)技術(shù)領(lǐng)域，該方法包括：獲取目標(biāo)文本，通過(guò)目標(biāo)文本得到P個(gè)連續(xù)幀文本；獲取P個(gè)噪聲圖像，從P個(gè)連續(xù)幀文本中獲取目標(biāo)幀文本，從P個(gè)噪聲圖像中確定目標(biāo)噪聲圖像；通過(guò)目標(biāo)視頻生成模型對(duì)目標(biāo)噪聲圖像進(jìn)行處理，得到目標(biāo)前向噪聲向量；通過(guò)目標(biāo)視頻生成模型對(duì)業(yè)務(wù)文本、業(yè)務(wù)圖像和目標(biāo)幀文本進(jìn)行處理，得到融合編碼特征，根據(jù)目標(biāo)前向噪聲向量和融合編碼特征對(duì)目標(biāo)噪聲圖像進(jìn)行去噪處理，得到目標(biāo)幀文本所對(duì)應(yīng)的目標(biāo)預(yù)測(cè)圖像，將目標(biāo)預(yù)測(cè)圖像作為待生成視頻中位于業(yè)務(wù)圖像的下一幀圖像。采用本申請(qǐng)，可以提升文生視頻整體基調(diào)一致性，保證文生視頻的質(zhì)量。

技術(shù)研發(fā)人員：郭卉
受保護(hù)的技術(shù)使用者：騰訊科技（深圳）有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2024/12/10

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第2頁(yè)1 2

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種數(shù)據(jù)處理方法和裝置與流程