1.一種數(shù)據(jù)處理方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述獲取p個(gè)噪聲圖像,包括:
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述獲取p個(gè)噪聲圖像,包括:
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對(duì)所述業(yè)務(wù)文本和所述業(yè)務(wù)圖像進(jìn)行多模態(tài)特征提取,得到圖文編碼特征,包括:
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述目標(biāo)前向噪聲向量、所述文本編碼特征和所述圖文編碼特征對(duì)所述目標(biāo)噪聲圖像進(jìn)行去噪處理,得到所述目標(biāo)幀文本所對(duì)應(yīng)的目標(biāo)預(yù)測(cè)圖像,包括:
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述業(yè)務(wù)圖像為待生成視頻中的最末尾幀圖像,所述業(yè)務(wù)文本為所述目標(biāo)幀文本的上一個(gè)連續(xù)幀文本;所述根據(jù)所述文本編碼特征與所述圖文編碼特征生成融合編碼特征,包括:
7.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述業(yè)務(wù)文本和業(yè)務(wù)圖像的數(shù)量均為f,f為正整數(shù),f個(gè)業(yè)務(wù)圖像為待生成視頻中已生成的全部幀圖像;所述圖文編碼特征包括f個(gè)圖文編碼子特征,一個(gè)圖文編碼子特征是基于一個(gè)業(yè)務(wù)文本和所表征的業(yè)務(wù)圖像進(jìn)行多模態(tài)特征提取得到的;
8.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述t個(gè)時(shí)間步包括時(shí)間步ti,i為小于或者等于t的正整數(shù);所述基于所述融合編碼特征,在t個(gè)時(shí)間步中分別對(duì)所述目標(biāo)前向噪聲向量,進(jìn)行反向擴(kuò)散處理,得到目標(biāo)預(yù)測(cè)噪聲,包括:
9.根據(jù)權(quán)利要求8所述的方法,其特征在于,所述反向擴(kuò)散網(wǎng)絡(luò)層包括t個(gè)時(shí)間步分別對(duì)應(yīng)的噪聲預(yù)測(cè)網(wǎng)絡(luò),每個(gè)噪聲預(yù)測(cè)網(wǎng)絡(luò)均包括交叉注意力子網(wǎng)絡(luò)和旁路注意力子網(wǎng)絡(luò);在所述時(shí)間步ti中,基于所述融合編碼特征,對(duì)所述時(shí)間步ti對(duì)應(yīng)的迭代噪聲向量進(jìn)行噪聲預(yù)測(cè),得到所述時(shí)間步ti對(duì)應(yīng)的初始噪聲向量,包括:
10.根據(jù)權(quán)利要求9所述的方法,其特征在于,所述對(duì)所述融合編碼特征和所述初始噪聲向量進(jìn)行第一交叉注意力處理,得到第一注意力處理結(jié)果,包括:
11.根據(jù)權(quán)利要求1所述的方法,其特征在于,還包括:
12.根據(jù)權(quán)利要求11所述的方法,其特征在于,所述待生成視頻中的所述p個(gè)連續(xù)幀文本分別對(duì)應(yīng)的幀圖像包括幀圖像pj和幀圖像pj+1,j為小于p的正整數(shù);所述對(duì)每相鄰兩個(gè)幀圖像進(jìn)行圖像插值,得到每相鄰兩個(gè)幀圖像之間的中間幀圖像,包括:
13.一種數(shù)據(jù)處理方法,其特征在于,所述方法包括:
14.根據(jù)權(quán)利要求13所述的方法,其特征在于,所述獲取樣本序列,包括:
15.根據(jù)權(quán)利要求14所述的方法,其特征在于,所述獲取n個(gè)噪聲樣本,包括:
16.根據(jù)權(quán)利要求14所述的方法,其特征在于,所述獲取n個(gè)噪聲樣本,包括:
17.根據(jù)權(quán)利要求13所述的方法,其特征在于,所述初始視頻生成模型包括初始反向擴(kuò)散網(wǎng)絡(luò)層,所述初始反向擴(kuò)散網(wǎng)絡(luò)層包括交叉注意力子網(wǎng)絡(luò)和初始旁路注意力子網(wǎng)絡(luò);所述對(duì)所述樣本前向噪聲向量、所述第一編碼特征和所述第二編碼特征,進(jìn)行反向擴(kuò)散處理,得到預(yù)測(cè)噪聲樣本向量,包括:
18.根據(jù)權(quán)利要求17所述的方法,其特征在于,所述初始視頻生成模型還包括初始多模態(tài)特征提取網(wǎng)絡(luò)和初始特征融合網(wǎng)絡(luò),所述初始多模態(tài)特征提取網(wǎng)絡(luò)用于對(duì)第一圖像樣本和第一文本樣本進(jìn)行多模態(tài)特征提取,得到第二編碼特征;所述初始特征融合網(wǎng)絡(luò)用于根據(jù)所述第一編碼特征和所述第二編碼特征生成目標(biāo)編碼特征;
19.一種數(shù)據(jù)處理裝置,其特征在于,所述裝置包括:
20.一種數(shù)據(jù)處理裝置,其特征在于,所述裝置包括: