本技術(shù)涉及計算機(jī),尤其涉及一種數(shù)據(jù)處理方法和裝置。
背景技術(shù):
::1、隨著人工智能技術(shù)的迅猛發(fā)展,特別是生成對抗網(wǎng)絡(luò)和擴(kuò)散模型(diffusionmodels)的不斷進(jìn)步,圖像和視頻生成領(lǐng)域迎來了重大突破。文生圖技術(shù)能夠僅通過文字描述生成相應(yīng)的圖像。這一技術(shù)的核心在于將自然語言處理與計算機(jī)視覺技術(shù)相結(jié)合,利用訓(xùn)練好的模型將文本信息轉(zhuǎn)化為視覺內(nèi)容。在圖像生成技術(shù)的基礎(chǔ)上,文生視頻(text-to-video)則是進(jìn)一步擴(kuò)展了這一能力的產(chǎn)物。文生視頻不僅要求模型能夠生成靜態(tài)圖像,還需要能夠根據(jù)文本描述生成連續(xù)的動態(tài)畫面。目前,可以借助開源的穩(wěn)定擴(kuò)散模型(stablediffusion模型,sd模型),在特定的控制參數(shù)下進(jìn)行文生圖產(chǎn)生第一幀圖像,然后在部分相同的控制參數(shù)下產(chǎn)生第二幀圖像,直到產(chǎn)生所有視頻序列需要的圖像并生成視頻。但sd模型輸入的生成文本針對上一幀文本出現(xiàn)變化時,容易導(dǎo)致生成下一幀時出現(xiàn)生成的前景、背景明顯與上一幀不一致,從而產(chǎn)生不良的生成效果,導(dǎo)致文生視頻的質(zhì)量不高。技術(shù)實現(xiàn)思路1、本技術(shù)實施例提供了一種數(shù)據(jù)處理方法和裝置,可以提升文生視頻整體基調(diào)一致性,保證文生視頻的質(zhì)量。2、本技術(shù)實施例一方面提供了一種數(shù)據(jù)處理方法,該方法包括:3、獲取目標(biāo)文本,對目標(biāo)文本進(jìn)行拆分處理,得到具有視頻幀排序順序的p個連續(xù)幀文本;p為正整數(shù);4、獲取p個噪聲圖像,從p個連續(xù)幀文本中獲取按序遍歷到的目標(biāo)幀文本,從p個噪聲圖像中確定與目標(biāo)幀文本相關(guān)聯(lián)的目標(biāo)噪聲圖像;5、將目標(biāo)噪聲圖像輸入至目標(biāo)視頻生成模型,通過目標(biāo)視頻生成模型對目標(biāo)噪聲圖像進(jìn)行特征提取,得到目標(biāo)噪聲特征,對目標(biāo)噪聲特征進(jìn)行前向擴(kuò)散處理,得到目標(biāo)前向噪聲向量;6、將業(yè)務(wù)文本、業(yè)務(wù)圖像和目標(biāo)幀文本輸入至目標(biāo)視頻生成模型,通過目標(biāo)視頻生成模型對目標(biāo)幀文本進(jìn)行文本編碼,得到文本編碼特征,對業(yè)務(wù)文本和業(yè)務(wù)圖像進(jìn)行多模態(tài)特征提取,得到圖文編碼特征;業(yè)務(wù)圖像屬于待生成視頻中已生成的幀圖像;業(yè)務(wù)文本為p個連續(xù)幀文本中用于表征業(yè)務(wù)圖像的連續(xù)幀文本,且業(yè)務(wù)文本為排序在目標(biāo)幀文本之前的連續(xù)幀文本;7、根據(jù)目標(biāo)前向噪聲向量、文本編碼特征和圖文編碼特征對目標(biāo)噪聲圖像進(jìn)行去噪處理,得到目標(biāo)幀文本所對應(yīng)的目標(biāo)預(yù)測圖像,將目標(biāo)預(yù)測圖像作為待生成視頻中位于業(yè)務(wù)圖像的下一幀圖像。8、本技術(shù)實施例一方面提供了另一種數(shù)據(jù)處理方法,該方法包括:9、獲取樣本序列;樣本序列包括具有視頻幀排序順序的n個圖像樣本、與每個圖像樣本分別關(guān)聯(lián)的文本樣本,以及n個噪聲樣本;n為正整數(shù);10、從n個圖像樣本中確定目標(biāo)圖像樣本,從n個文本樣本中確定目標(biāo)圖像樣本相關(guān)聯(lián)的目標(biāo)文本樣本;11、對目標(biāo)圖像樣本和n個噪聲樣本中目標(biāo)圖像樣本對應(yīng)的目標(biāo)噪聲樣本進(jìn)行特征提取,得到潛在噪聲特征,對潛在噪聲特征進(jìn)行前向擴(kuò)散處理,得到樣本前向噪聲向量;12、對目標(biāo)文本樣本進(jìn)行文本編碼,得到第一編碼特征,對第一圖像樣本和第一文本樣本進(jìn)行多模態(tài)特征提取,得到第二編碼特征;第一圖像樣本為n個圖像樣本中排序在目標(biāo)圖像樣本之前的圖像樣本;第一文本樣本為第一圖像樣本相關(guān)聯(lián)的文本樣本;13、對樣本前向噪聲向量、第一編碼特征和第二編碼特征,進(jìn)行反向擴(kuò)散處理,得到預(yù)測噪聲樣本向量;14、根據(jù)n個噪聲樣本和通過n個噪聲樣本分別預(yù)測得到的預(yù)測噪聲樣本向量,對初始視頻生成模型進(jìn)行參數(shù)調(diào)整,得到目標(biāo)視頻生成模型;目標(biāo)視頻模型用于基于目標(biāo)文本生成目標(biāo)文本所指示的目標(biāo)視頻。15、本技術(shù)實施例一方面提供了一種數(shù)據(jù)處理裝置,該裝置包括:16、數(shù)據(jù)獲取模塊,用于獲取目標(biāo)文本,對目標(biāo)文本進(jìn)行拆分處理,得到具有視頻幀排序順序的p個連續(xù)幀文本;p為正整數(shù);17、數(shù)據(jù)確定模塊,用于獲取p個噪聲圖像,從p個連續(xù)幀文本中獲取按序遍歷到的目標(biāo)幀文本,從p個噪聲圖像中確定與目標(biāo)幀文本相關(guān)聯(lián)的目標(biāo)噪聲圖像;18、數(shù)據(jù)前向擴(kuò)散模塊,用于將目標(biāo)噪聲圖像輸入至目標(biāo)視頻生成模型,通過目標(biāo)視頻生成模型對目標(biāo)噪聲圖像進(jìn)行特征提取,得到目標(biāo)噪聲特征,對目標(biāo)噪聲特征進(jìn)行前向擴(kuò)散處理,得到目標(biāo)前向噪聲向量;19、特征編碼模塊,用于將業(yè)務(wù)文本、業(yè)務(wù)圖像和目標(biāo)幀文本輸入至目標(biāo)視頻生成模型,通過目標(biāo)視頻生成模型對目標(biāo)幀文本進(jìn)行文本編碼,得到文本編碼特征,對業(yè)務(wù)文本和業(yè)務(wù)圖像進(jìn)行多模態(tài)特征提取,得到圖文編碼特征;業(yè)務(wù)圖像屬于待生成視頻中已生成的幀圖像;業(yè)務(wù)文本為p個連續(xù)幀文本中用于表征業(yè)務(wù)圖像的連續(xù)幀文本,且業(yè)務(wù)文本為排序在目標(biāo)幀文本之前的連續(xù)幀文本;20、圖像預(yù)測模塊,用于根據(jù)目標(biāo)前向噪聲向量、文本編碼特征和圖文編碼特征對目標(biāo)噪聲圖像進(jìn)行去噪處理,得到目標(biāo)幀文本所對應(yīng)的目標(biāo)預(yù)測圖像,將目標(biāo)預(yù)測圖像作為待生成視頻中位于業(yè)務(wù)圖像的下一幀圖像。21、在一種可能的實現(xiàn)方式中,數(shù)據(jù)確定模塊用于獲取p個噪聲圖像時,數(shù)據(jù)確定模塊具體用于執(zhí)行以下操作:22、獲取噪聲數(shù)據(jù)池;噪聲數(shù)據(jù)池包括s個噪聲數(shù)據(jù);s為正整數(shù);23、從噪聲數(shù)據(jù)池中隨機(jī)獲取m個噪聲數(shù)據(jù),將m個噪聲數(shù)據(jù)進(jìn)行拼接,得到第一拼接噪聲圖,對第一拼接噪聲圖進(jìn)行傅立葉變換,得到第一拼接噪聲圖所對應(yīng)的第一頻率域,將第一頻率域中小于低頻閾值的頻率信號確定為全局低頻信號;m為小于s的正整數(shù);24、獲取第一滑動步長,通過第一滑動步長,從s個噪聲數(shù)據(jù)中獲取p個噪聲數(shù)據(jù)組,分別對p個噪聲數(shù)據(jù)組中的噪聲數(shù)據(jù)進(jìn)行拼接,得到p個第二拼接噪聲圖;每個噪聲數(shù)據(jù)組所包括的噪聲數(shù)據(jù)的數(shù)量均為m;25、分別對p個第二拼接噪聲圖進(jìn)行傅立葉變換,得到p個第二拼接噪聲圖分別對應(yīng)的第二頻率域,分別將p個第二頻率域中大于或者等于低頻閾值的頻率信號確定為高頻信號;26、將每個第二頻率域中的高頻信號分別與全局低頻信號進(jìn)行組合,得到p個全頻信號,分別對p個全頻信號進(jìn)行逆傅立葉變換,得到p個噪聲圖像。27、在一種可能的實現(xiàn)方式中,數(shù)據(jù)確定模塊用于獲取p個噪聲圖像時,數(shù)據(jù)確定模塊具體還用于執(zhí)行以下操作:28、獲取噪聲數(shù)據(jù)池;噪聲數(shù)據(jù)池包括s個噪聲數(shù)據(jù);s為正整數(shù);29、獲取第二滑動步長,通過第二滑動步長,從s個噪聲數(shù)據(jù)中獲取p個噪聲數(shù)據(jù)組,分別對p個噪聲數(shù)據(jù)組中的噪聲數(shù)據(jù)進(jìn)行拼接,得到p個噪聲圖像;每個噪聲數(shù)據(jù)組所包括的噪聲數(shù)據(jù)的數(shù)量均為m,m為正整數(shù),第二滑動步長小于m。30、在一種可能的實現(xiàn)方式中,特征編碼模塊用于對業(yè)務(wù)文本和業(yè)務(wù)圖像進(jìn)行多模態(tài)特征提取,得到圖文編碼特征時,特征編碼模塊具體用于執(zhí)行以下操作:31、通過目標(biāo)視頻生成模型中的圖像編碼組件,對業(yè)務(wù)圖像進(jìn)行特征提取,得到圖像提取特征;32、通過目標(biāo)視頻生成模型中的文本編碼組件,對業(yè)務(wù)文本進(jìn)行特征提取,得到文本提取特征;33、將圖像提取特征和文本提取特征映射到相同的特征空間,將映射后的圖像提取特征和映射后的文本提取特征進(jìn)行特征對齊,得到圖文編碼特征。34、在一種可能的實現(xiàn)方式中,圖像預(yù)測模塊用于根據(jù)目標(biāo)前向噪聲向量、文本編碼特征和圖文編碼特征對目標(biāo)噪聲圖像進(jìn)行去噪處理,得到目標(biāo)幀文本所對應(yīng)的目標(biāo)預(yù)測圖像時,圖像預(yù)測模塊具體用于執(zhí)行以下操作:35、根據(jù)文本編碼特征與圖文編碼特征生成融合編碼特征;36、在目標(biāo)視頻生成模型中的反向擴(kuò)散網(wǎng)絡(luò)層中,基于融合編碼特征,在t個時間步中分別對目標(biāo)前向噪聲向量,進(jìn)行反向擴(kuò)散處理,得到目標(biāo)預(yù)測噪聲;t為正整數(shù);37、基于目標(biāo)預(yù)測噪聲和目標(biāo)前向噪聲向量,確定目標(biāo)潛在向量;38、通過目標(biāo)視頻生成模型中的解碼器對目標(biāo)潛在向量進(jìn)行圖像重建,得到目標(biāo)幀文本所對應(yīng)的目標(biāo)預(yù)測圖像。39、在一種可能的實現(xiàn)方式中,業(yè)務(wù)圖像為待生成視頻中的最末尾幀圖像,業(yè)務(wù)文本為目標(biāo)幀文本的上一個連續(xù)幀文本;圖像預(yù)測模塊用于根據(jù)文本編碼特征與圖文編碼特征生成融合編碼特征時,圖像預(yù)測模塊具體用于執(zhí)行以下操作:40、對文本編碼特征和圖文編碼特征進(jìn)行特征拼接,得到拼接編碼特征;41、通過目標(biāo)視頻生成模型中的特征融合網(wǎng)絡(luò),對拼接編碼特征進(jìn)行維度融合,得到融合編碼特征;融合編碼特征和目標(biāo)前向噪聲向量的維度相同。42、在一種可能的實現(xiàn)方式中,業(yè)務(wù)文本和業(yè)務(wù)圖像的數(shù)量均為f,f為正整數(shù),f個業(yè)務(wù)圖像為待生成視頻中已生成的全部幀圖像;圖文編碼特征包括f個圖文編碼子特征,一個圖文編碼子特征是基于一個業(yè)務(wù)文本和所表征的業(yè)務(wù)圖像進(jìn)行多模態(tài)特征提取得到的;43、圖像預(yù)測模塊用于根據(jù)文本編碼特征與圖文編碼特征生成融合編碼特征時,圖像預(yù)測模塊具體用于執(zhí)行以下操作:44、將f個圖文編碼子特征中的單元特征,組成待匹配序列;45、基于待匹配序列中的單元特征與文本編碼特征進(jìn)行特征匹配,得到每個單元特征分別對應(yīng)的特征匹配度,基于每個單元特征的特征匹配度對每個單元特征進(jìn)行排序,得到特征匹配序列;46、將特征匹配序列中的前a個單元特征確定為目標(biāo)匹配特征;a為正整數(shù);47、對文本編碼特征和目標(biāo)匹配特征進(jìn)行特征拼接,得到融合編碼特征。48、在一種可能的實現(xiàn)方式中,t個時間步包括時間步ti,i為小于或者等于t的正整數(shù);圖像預(yù)測模塊用于基于融合編碼特征,在t個時間步中分別對目標(biāo)前向噪聲向量,進(jìn)行反向擴(kuò)散處理,得到目標(biāo)預(yù)測噪聲時,圖像預(yù)測模塊具體用于執(zhí)行以下操作:49、在時間步ti中,基于融合編碼特征,對時間步ti對應(yīng)的迭代噪聲向量進(jìn)行噪聲預(yù)測,得到時間步ti對應(yīng)的初始噪聲向量;若時間步ti為t個時間步中的第一個時間步,則時間步ti對應(yīng)的迭代噪聲向量為目標(biāo)前向噪聲向量;50、將時間步ti對應(yīng)的初始噪聲向量,確定為時間步ti+1對應(yīng)的迭代噪聲向量,在時間步ti+1中,基于融合編碼特征,對時間步ti+1對應(yīng)的迭代噪聲向量進(jìn)行噪聲預(yù)測,得到時間步ti+1的初始噪聲向量,直至在得到t個時間步中最后一個時間步所對應(yīng)的初始噪聲向量時,將最后一個時間步所對應(yīng)的初始噪聲向量確定為目標(biāo)預(yù)測噪聲;時間步ti+1為t個時間步中時間步ti的下一個時間步。51、在一種可能的實現(xiàn)方式中,反向擴(kuò)散網(wǎng)絡(luò)層包括t個時間步分別對應(yīng)的噪聲預(yù)測網(wǎng)絡(luò),每個噪聲預(yù)測網(wǎng)絡(luò)均包括交叉注意力子網(wǎng)絡(luò)和旁路注意力子網(wǎng)絡(luò);圖像預(yù)測模塊用于在時間步ti中,基于融合編碼特征,對時間步ti對應(yīng)的迭代噪聲向量進(jìn)行噪聲預(yù)測,得到時間步ti對應(yīng)的初始噪聲向量時,圖像預(yù)測模塊具體用于執(zhí)行以下操作:52、在時間步ti中,將融合編碼特征和迭代噪聲向量,輸入至?xí)r間步ti所對應(yīng)的噪聲預(yù)測網(wǎng)絡(luò);53、通過時間步ti所對應(yīng)的噪聲預(yù)測網(wǎng)絡(luò)中的交叉注意力子網(wǎng)絡(luò),對融合編碼特征和迭代噪聲向量進(jìn)行交叉注意力處理,得到第一注意力處理結(jié)果;54、通過時間步ti所對應(yīng)的噪聲預(yù)測網(wǎng)絡(luò)中的旁路注意力子網(wǎng)絡(luò),對融合編碼特征和迭代噪聲向量進(jìn)行交叉注意力處理,得到第二注意力處理結(jié)果;55、獲取第一交叉注意力系數(shù)和第二交叉注意力系數(shù),基于第一交叉注意力系數(shù)和第二交叉注意力系數(shù),對第一注意力處理結(jié)果和第二注意力處理結(jié)果進(jìn)行加權(quán)處理,得到交叉注意力加權(quán)結(jié)果,基于交叉注意力加權(quán)結(jié)果,確定時間步ti對應(yīng)的初始噪聲向量。56、在一種可能的實現(xiàn)方式中,圖像預(yù)測模塊用于對融合編碼特征和初始噪聲向量進(jìn)行第一交叉注意力處理,得到第一注意力處理結(jié)果時,圖像預(yù)測模塊具體用于執(zhí)行以下操作:57、將初始噪聲向量作為交叉注意力函數(shù)中的查詢向量,將融合編碼特征作為交叉注意力函數(shù)中的鍵向量,且將融合編碼特征作為交叉注意力函數(shù)中的值向量;58、通過交叉注意力函數(shù)將查詢向量與鍵向量的乘積確定為第一融合特征;59、獲取融合編碼特征對應(yīng)的維度數(shù)量,將第一融合特征和維度數(shù)量的倒數(shù)的乘積確定為第二融合特征;60、基于交叉注意力函數(shù)中的激活子函數(shù),將第二融合特征轉(zhuǎn)換為第一激活特征,將第一激活特征和值向量的乘積確定為第一注意力處理結(jié)果。61、在一種可能的實現(xiàn)方式中,數(shù)據(jù)處理裝置還包括視頻確定模塊,視頻確定模塊具體用于執(zhí)行以下操作:62、當(dāng)待生成視頻包含p個連續(xù)幀文本分別對應(yīng)的幀圖像時,對每相鄰兩個幀圖像進(jìn)行圖像插值,得到每相鄰兩個幀圖像之間的中間幀圖像;p個連續(xù)幀文本分別對應(yīng)的幀圖像包括目標(biāo)預(yù)測圖像;63、將包含p個連續(xù)幀文本分別對應(yīng)的幀圖像以及中間幀圖像的待生成視頻,確定為與目標(biāo)文本相匹配的業(yè)務(wù)視頻。64、在一種可能的實現(xiàn)方式中,待生成視頻中的p個連續(xù)幀文本分別對應(yīng)的幀圖像包括幀圖像pj和幀圖像pj+1,j為小于p的正整數(shù);視頻確定模塊用于對每相鄰兩個幀圖像進(jìn)行圖像插值,得到每相鄰兩個幀圖像之間的中間幀圖像時,視頻確定模塊具體用于執(zhí)行以下操作:65、基于幀圖像pj和幀圖像pj+1,確定幀圖像pj-1和幀圖像pj+2,對幀圖像pj、幀圖像pj+1、幀圖像pj-1和幀圖像pj+2進(jìn)行光流預(yù)測,得到光流預(yù)測結(jié)果;幀圖像pj+1為待生成視頻中幀圖像pj的下一個幀圖像,幀圖像pj+2為待生成視頻中幀圖像pj+1的下一個幀圖像,幀圖像pj-1為待生成視頻中幀圖像pj的上一個幀圖像;66、基于幀圖像pj、幀圖像pj+1和光流預(yù)測結(jié)果,生成幀圖像pj和幀圖像pj+1之間的中間幀圖像。67、本技術(shù)實施例一方面提供了另一種數(shù)據(jù)處理裝置,該裝置包括:68、樣本獲取模塊,用于獲取樣本序列;樣本序列包括具有視頻幀排序順序的n個圖像樣本、與每個圖像樣本分別關(guān)聯(lián)的文本樣本,以及n個噪聲樣本;n為正整數(shù);69、樣本確定模塊,用于從n個圖像樣本中確定目標(biāo)圖像樣本,從n個文本樣本中確定目標(biāo)圖像樣本相關(guān)聯(lián)的目標(biāo)文本樣本;70、樣本前向擴(kuò)散模塊,用于對目標(biāo)圖像樣本和n個噪聲樣本中目標(biāo)圖像樣本對應(yīng)的目標(biāo)噪聲樣本進(jìn)行特征提取,得到潛在噪聲特征,對潛在噪聲特征進(jìn)行前向擴(kuò)散處理,得到樣本前向噪聲向量;71、樣本編碼模塊,用于對目標(biāo)文本樣本進(jìn)行文本編碼,得到第一編碼特征,對第一圖像樣本和第一文本樣本進(jìn)行多模態(tài)特征提取,得到第二編碼特征;第一圖像樣本為n個圖像樣本中排序在目標(biāo)圖像樣本之前的圖像樣本;第一文本樣本為第一圖像樣本相關(guān)聯(lián)的文本樣本;72、樣本反向擴(kuò)散模塊,用于對樣本前向噪聲向量、第一編碼特征和第二編碼特征,進(jìn)行反向擴(kuò)散處理,得到預(yù)測噪聲樣本向量;73、參數(shù)調(diào)整模塊,用于根據(jù)n個噪聲樣本和通過n個噪聲樣本分別預(yù)測得到的預(yù)測噪聲樣本向量,對初始視頻生成模型進(jìn)行參數(shù)調(diào)整,得到目標(biāo)視頻生成模型;目標(biāo)視頻模型用于基于目標(biāo)文本生成目標(biāo)文本所指示的目標(biāo)視頻。74、在一種可能的實現(xiàn)方式中,樣本獲取模塊用于獲取樣本序列時,樣本獲取模塊具體用于執(zhí)行以下操作:75、獲取樣本視頻,基于樣本視頻中的視頻幀排序順序,獲取n個視頻幀,將n個視頻幀確定為n個圖像樣本;n個圖像樣本均包含相同的主體對象和對象場景,且n個圖像樣本中的主體對象的展示視角互不相同;76、為n個圖像樣本分別生成文本樣本,得到n個文本樣本;文本樣本用于指示所對應(yīng)的圖像樣本中的具體內(nèi)容;77、獲取n個噪聲樣本,將n個圖像樣本、n個文本樣本和n個噪聲樣本進(jìn)行組合,得到樣本序列。78、在一種可能的實現(xiàn)方式中,樣本獲取模塊用于獲取n個噪聲樣本時,樣本獲取模塊具體用于執(zhí)行以下操作:79、獲取噪聲數(shù)據(jù)池;噪聲數(shù)據(jù)池包括s個噪聲數(shù)據(jù);s為正整數(shù);80、從噪聲數(shù)據(jù)池中隨機(jī)獲取r個噪聲數(shù)據(jù),將r個噪聲數(shù)據(jù)進(jìn)行拼接,得到第一樣本噪聲圖,對第一樣本噪聲圖進(jìn)行傅立葉變換,得到第一樣本噪聲圖所對應(yīng)的第一樣本頻率域,將第一樣本頻率域中小于樣本低頻閾值的頻率信號確定為樣本全局低頻信號;r為小于s的正整數(shù);81、獲取第一樣本滑動步長,通過第一樣本滑動步長,從s個噪聲數(shù)據(jù)中獲取n個樣本噪聲數(shù)據(jù)組,分別對n個樣本噪聲數(shù)據(jù)組中的噪聲數(shù)據(jù)進(jìn)行拼接,得到n個第二樣本噪聲圖;每個樣本噪聲數(shù)據(jù)組所包括的噪聲數(shù)據(jù)的數(shù)量均為r;82、分別對n個第二樣本噪聲圖進(jìn)行傅立葉變換,得到n個第二樣本噪聲圖分別對應(yīng)的第二樣本頻率域,分別將n個第二樣本頻率域中大于或者等于樣本低頻閾值的頻率信號確定為樣本高頻信號;83、將每個第二樣本頻率域中的樣本高頻信號分別與樣本全局低頻信號進(jìn)行組合,得到n個樣本全頻信號,分別對n個樣本全頻信號進(jìn)行逆傅立葉變換,得到n個噪聲樣本。84、在一種可能的實現(xiàn)方式中,樣本獲取模塊用于獲取n個噪聲樣本時,樣本獲取模塊具體還用于執(zhí)行以下操作:85、獲取噪聲數(shù)據(jù)池;噪聲數(shù)據(jù)池包括s個噪聲數(shù)據(jù);s為正整數(shù);86、獲取第二樣本滑動步長,通過第二樣本滑動步長,從s個噪聲數(shù)據(jù)中獲取n個噪聲數(shù)據(jù)組,分別對n個噪聲數(shù)據(jù)組中的噪聲數(shù)據(jù)進(jìn)行拼接,得到n個噪聲樣本;每個噪聲數(shù)據(jù)組所包括的噪聲數(shù)據(jù)的數(shù)量均為r,r為正整數(shù),第二樣本滑動步長小于r。87、在一種可能的實現(xiàn)方式中,初始視頻生成模型包括初始反向擴(kuò)散網(wǎng)絡(luò)層,初始反向擴(kuò)散網(wǎng)絡(luò)層包括交叉注意力子網(wǎng)絡(luò)和初始旁路注意力子網(wǎng)絡(luò);樣本反向擴(kuò)散模塊用于對樣本前向噪聲向量、第一編碼特征和第二編碼特征,進(jìn)行反向擴(kuò)散處理,得到預(yù)測噪聲樣本向量時,樣本反向擴(kuò)散模塊具體用于執(zhí)行以下操作:88、根據(jù)第一編碼特征和第二編碼特征生成目標(biāo)編碼特征;89、通過初始反向擴(kuò)散網(wǎng)絡(luò)層的交叉注意力子網(wǎng)絡(luò),對樣本前向噪聲向量和目標(biāo)編碼特征進(jìn)行交叉注意力處理,得到第一樣本注意力結(jié)果;90、通過初始反向擴(kuò)散網(wǎng)絡(luò)層的初始旁路注意力子網(wǎng)絡(luò),對樣本前向噪聲向量和目標(biāo)編碼特征進(jìn)行交叉注意力處理,得到第二樣本注意力結(jié)果;91、獲取第一交叉注意力樣本系數(shù)和第二交叉注意力樣本系數(shù),基于第一交叉注意力樣本系數(shù)和第二交叉注意力樣本系數(shù),對第一樣本注意力結(jié)果和第二樣本注意力結(jié)果進(jìn)行加權(quán)處理,得到樣本注意力加權(quán)結(jié)果,基于樣本注意力加權(quán)結(jié)果,確定預(yù)測噪聲樣本向量。92、在一種可能的實現(xiàn)方式中,初始視頻生成模型還包括初始多模態(tài)特征提取網(wǎng)絡(luò)和初始特征融合網(wǎng)絡(luò),初始多模態(tài)特征提取網(wǎng)絡(luò)用于對第一圖像樣本和第一文本樣本進(jìn)行多模態(tài)特征提取,得到第二編碼特征;初始特征融合網(wǎng)絡(luò)用于根據(jù)第一編碼特征和第二編碼特征生成目標(biāo)編碼特征;參數(shù)調(diào)整模塊用于根據(jù)n個噪聲樣本和通過n個噪聲樣本分別預(yù)測得到的預(yù)測噪聲樣本向量,對初始視頻生成模型進(jìn)行參數(shù)調(diào)整,得到目標(biāo)視頻生成模型時,參數(shù)調(diào)整模塊具體用于執(zhí)行以下操作:93、根據(jù)n個噪聲樣本和通過n個噪聲樣本分別預(yù)測得到的預(yù)測噪聲樣本向量,生成模型損失值;94、基于模型損失值對初始多模態(tài)特征提取網(wǎng)絡(luò)、初始特征融合網(wǎng)絡(luò)和初始旁路注意力子網(wǎng)絡(luò)進(jìn)行參數(shù)調(diào)整,得到目標(biāo)視頻生成模型。95、本技術(shù)實施例一方面提供了一種計算機(jī)設(shè)備,包括處理器、存儲器、輸入輸出接口;96、處理器分別與存儲器和輸入輸出接口相連,其中,輸入輸出接口用于接收數(shù)據(jù)及輸出數(shù)據(jù),存儲器用于存儲計算機(jī)程序,處理器用于調(diào)用該計算機(jī)程序,以使包含該處理器的計算機(jī)設(shè)備執(zhí)行本技術(shù)實施例一方面中的方法。97、本技術(shù)實施例一方面提供了一種計算機(jī)可讀存儲介質(zhì),計算機(jī)可讀存儲介質(zhì)存儲有計算機(jī)程序,該計算機(jī)程序適于由處理器加載并執(zhí)行,以使得具有該處理器的計算機(jī)設(shè)備執(zhí)行本技術(shù)實施例一方面中的方法。98、本技術(shù)實施例一方面提供了一種計算機(jī)程序產(chǎn)品,該計算機(jī)程序產(chǎn)品包括計算機(jī)程序,該計算機(jī)程序存儲在計算機(jī)可讀存儲介質(zhì)中。計算機(jī)設(shè)備的處理器從計算機(jī)可讀存儲介質(zhì)讀取該計算機(jī)程序,處理器執(zhí)行該計算機(jī)程序,使得該計算機(jī)設(shè)備執(zhí)行本技術(shù)實施例一方面中的各種可選方式中提供的方法。換句話說,該計算機(jī)程序被處理器執(zhí)行時實現(xiàn)本技術(shù)實施例一方面中的各種可選方式中提供的方法。99、在本技術(shù)實施例中,獲取目標(biāo)文本,對目標(biāo)文本進(jìn)行拆分處理,得到具有視頻幀排序順序的p個連續(xù)幀文本;p為正整數(shù)。獲取p個噪聲圖像,從p個連續(xù)幀文本中獲取按序遍歷到的目標(biāo)幀文本,從p個噪聲圖像中確定與目標(biāo)幀文本相關(guān)聯(lián)的目標(biāo)噪聲圖像。將目標(biāo)噪聲圖像輸入至目標(biāo)視頻生成模型,通過目標(biāo)視頻生成模型對目標(biāo)噪聲圖像進(jìn)行特征提取,得到目標(biāo)噪聲特征,對目標(biāo)噪聲特征進(jìn)行前向擴(kuò)散處理,得到目標(biāo)前向噪聲向量。將業(yè)務(wù)文本、業(yè)務(wù)圖像和目標(biāo)幀文本輸入至目標(biāo)視頻生成模型,通過目標(biāo)視頻生成模型對目標(biāo)幀文本進(jìn)行文本編碼,得到文本編碼特征,對業(yè)務(wù)文本和業(yè)務(wù)圖像進(jìn)行多模態(tài)特征提取,得到圖文編碼特征;業(yè)務(wù)圖像屬于待生成視頻中已生成的幀圖像;業(yè)務(wù)文本為p個連續(xù)幀文本中用于表征業(yè)務(wù)圖像的連續(xù)幀文本,且業(yè)務(wù)文本為排序在目標(biāo)幀文本之前的連續(xù)幀文本??梢猿浞掷锰卣魈崛〉姆椒?,提取歷史圖像(業(yè)務(wù)圖像)和歷史文本(業(yè)務(wù)文本)的特征;根據(jù)目標(biāo)前向噪聲向量、文本編碼特征和圖文編碼特征對目標(biāo)噪聲圖像進(jìn)行去噪處理,得到目標(biāo)幀文本所對應(yīng)的目標(biāo)預(yù)測圖像,將目標(biāo)預(yù)測圖像作為待生成視頻中位于業(yè)務(wù)圖像的下一幀圖像。通過業(yè)務(wù)文本和業(yè)務(wù)圖像聯(lián)合最新幀文本(目標(biāo)幀文本)共同約束并指導(dǎo)目標(biāo)視頻生成模型,通過目標(biāo)噪聲圖像生成目標(biāo)幀文本所對應(yīng)的目標(biāo)預(yù)測圖像,保證了生成的目標(biāo)預(yù)測圖像和歷史圖像(即待生成視頻中的最新幀,即目標(biāo)預(yù)測圖像和歷史幀)的內(nèi)容物(主體對象和對象場景等)能夠保持一致,避免了因為最新幀文本變化導(dǎo)致生成的最新幀與歷史幀差異過大,提升了目標(biāo)預(yù)測圖像和歷史圖像的相似性,從而提升了基于目標(biāo)文本所生成的待生成視頻的連貫性和協(xié)調(diào)性;同時,歷史文本和歷史圖像對于目標(biāo)視頻生成模型生成目標(biāo)預(yù)測圖像的約束,可以促使目標(biāo)預(yù)測圖像在生成時的生成風(fēng)格或者內(nèi)容等偏向歷史圖像,以保證目標(biāo)預(yù)測圖像與歷史圖像之間的差異不大,從而提升文生視頻的整體基調(diào)一致性,進(jìn)一步保證了文生視頻的質(zhì)量。當(dāng)前第1頁12當(dāng)前第1頁12