本技術(shù)涉及計(jì)算機(jī),尤其涉及一種數(shù)據(jù)處理方法、裝置、計(jì)算機(jī)、存儲(chǔ)介質(zhì)及程序產(chǎn)品。
背景技術(shù):
::1、隨著人工智能技術(shù)的迅猛發(fā)展,特別是生成對(duì)抗網(wǎng)絡(luò)和擴(kuò)散模型(diffusionmodels)的不斷進(jìn)步,圖像和視頻生成領(lǐng)域迎來了重大突破。文生圖技術(shù)能夠僅通過文字描述生成相應(yīng)的圖像。這一技術(shù)的核心在于將自然語言處理與計(jì)算機(jī)視覺技術(shù)相結(jié)合,利用訓(xùn)練好的模型將文本信息轉(zhuǎn)化為視覺內(nèi)容。在圖像生成技術(shù)的基礎(chǔ)上,文生視頻(text-to-video)則是進(jìn)一步擴(kuò)展了這一能力的產(chǎn)物。文生視頻不僅要求模型能夠生成靜態(tài)圖像,還需要能夠根據(jù)文本描述生成連續(xù)的動(dòng)態(tài)畫面。目前,可以借助開源的穩(wěn)定擴(kuò)散模型(stablediffusion模型,sd模型),在特定的控制參數(shù)下進(jìn)行文生圖產(chǎn)生第一幀圖像,然后在部分相同的控制參數(shù)下產(chǎn)生第二幀圖像,直到產(chǎn)生所有視頻序列需要的圖像并生成視頻。但sd模型輸入的生成文本針對(duì)上一幀文本出現(xiàn)變化時(shí),容易導(dǎo)致生成下一幀時(shí)出現(xiàn)生成的前景、背景明顯與上一幀不一致,從而產(chǎn)生不良的生成效果,導(dǎo)致文生視頻的質(zhì)量不高。技術(shù)實(shí)現(xiàn)思路1、本技術(shù)實(shí)施例提供了一種數(shù)據(jù)處理方法、裝置、計(jì)算機(jī)、存儲(chǔ)介質(zhì)及程序產(chǎn)品,可以提升文生視頻整體背景相似性,保證文生視頻的質(zhì)量。2、本技術(shù)實(shí)施例一方面提供了一種數(shù)據(jù)處理方法,該方法包括:3、獲取目標(biāo)文本,對(duì)目標(biāo)文本進(jìn)行拆分處理,得到具有視頻幀排序順序的p個(gè)連續(xù)幀文本;p為正整數(shù);4、從p個(gè)連續(xù)幀文本中獲取按序遍歷到的目標(biāo)幀文本,獲取噪聲數(shù)據(jù)池,基于業(yè)務(wù)圖像和噪聲數(shù)據(jù)池,確定與目標(biāo)幀文本相關(guān)聯(lián)的目標(biāo)噪聲圖像;業(yè)務(wù)圖像為待生成視頻中最末尾的幀圖像,且業(yè)務(wù)圖像為業(yè)務(wù)文本所表征的幀圖像;業(yè)務(wù)文本為p個(gè)連續(xù)幀文本中目標(biāo)幀文本的上一個(gè)連續(xù)幀文本;5、將目標(biāo)噪聲圖像輸入至目標(biāo)視頻生成模型,通過目標(biāo)視頻生成模型對(duì)目標(biāo)噪聲圖像進(jìn)行特征提取,得到目標(biāo)噪聲特征,對(duì)目標(biāo)噪聲特征進(jìn)行前向擴(kuò)散處理,得到目標(biāo)前向噪聲向量;6、將業(yè)務(wù)文本和目標(biāo)幀文本輸入至目標(biāo)視頻生成模型,通過目標(biāo)視頻生成模型對(duì)目標(biāo)幀文本進(jìn)行文本編碼,得到第一文本特征,對(duì)業(yè)務(wù)文本進(jìn)行文本編碼,得到第二文本特征;7、根據(jù)目標(biāo)前向噪聲向量、第一文本特征和第二文本特征,對(duì)目標(biāo)噪聲圖像進(jìn)行去噪處理,得到目標(biāo)幀文本所對(duì)應(yīng)的目標(biāo)預(yù)測(cè)圖像,將目標(biāo)預(yù)測(cè)圖像作為待生成視頻中位于業(yè)務(wù)圖像的下一幀圖像。8、本技術(shù)實(shí)施例一方面提供了另一種數(shù)據(jù)處理方法,該方法包括:9、獲取具有視頻幀排序順序的n個(gè)圖像樣本,以及與每個(gè)圖像樣本分別關(guān)聯(lián)的文本樣本;n為正整數(shù);10、獲取噪聲數(shù)據(jù)池,基于噪聲數(shù)據(jù)池與n個(gè)圖像樣本,確定n個(gè)噪聲樣本;一個(gè)噪聲樣本由噪聲數(shù)據(jù)池與一個(gè)圖像樣本所確定;11、從n個(gè)圖像樣本中確定目標(biāo)圖像樣本,從n個(gè)文本樣本中確定目標(biāo)圖像樣本相關(guān)聯(lián)的目標(biāo)文本樣本;12、對(duì)目標(biāo)圖像樣本和n個(gè)噪聲樣本中目標(biāo)圖像樣本對(duì)應(yīng)的目標(biāo)噪聲樣本進(jìn)行特征提取,得到潛在噪聲特征,對(duì)潛在噪聲特征進(jìn)行前向擴(kuò)散處理,得到樣本前向噪聲向量;目標(biāo)噪聲樣本由第一圖像樣本確定;第一圖像樣本為n個(gè)圖像樣本中目標(biāo)圖像樣本的上一個(gè)圖像樣本;13、對(duì)目標(biāo)文本樣本進(jìn)行文本編碼,得到第一編碼特征,對(duì)第一文本樣本進(jìn)行文本編碼,得到第二編碼特征;第一文本樣本為第一圖像樣本相關(guān)聯(lián)的文本樣本;14、對(duì)樣本前向噪聲向量、第一編碼特征和第二編碼特征,進(jìn)行反向擴(kuò)散處理,得到預(yù)測(cè)噪聲樣本向量;15、根據(jù)n個(gè)噪聲樣本和通過n個(gè)噪聲樣本分別預(yù)測(cè)得到的預(yù)測(cè)噪聲樣本向量,對(duì)初始視頻生成模型進(jìn)行參數(shù)調(diào)整,得到目標(biāo)視頻生成模型;目標(biāo)視頻模型用于基于目標(biāo)文本生成目標(biāo)文本所指示的目標(biāo)視頻。16、本技術(shù)實(shí)施例一方面提供了一種數(shù)據(jù)處理裝置,該裝置包括:17、數(shù)據(jù)獲取模塊,用于獲取目標(biāo)文本,對(duì)目標(biāo)文本進(jìn)行拆分處理,得到具有視頻幀排序順序的p個(gè)連續(xù)幀文本;p為正整數(shù);18、數(shù)據(jù)確定模塊,用于從p個(gè)連續(xù)幀文本中獲取按序遍歷到的目標(biāo)幀文本,獲取噪聲數(shù)據(jù)池,基于業(yè)務(wù)圖像和噪聲數(shù)據(jù)池,確定與目標(biāo)幀文本相關(guān)聯(lián)的目標(biāo)噪聲圖像;業(yè)務(wù)圖像為待生成視頻中最末尾的幀圖像,且業(yè)務(wù)圖像為業(yè)務(wù)文本所表征的幀圖像;業(yè)務(wù)文本為p個(gè)連續(xù)幀文本中目標(biāo)幀文本的上一個(gè)連續(xù)幀文本;19、數(shù)據(jù)前向擴(kuò)散模塊,用于將目標(biāo)噪聲圖像輸入至目標(biāo)視頻生成模型,通過目標(biāo)視頻生成模型對(duì)目標(biāo)噪聲圖像進(jìn)行特征提取,得到目標(biāo)噪聲特征,對(duì)目標(biāo)噪聲特征進(jìn)行前向擴(kuò)散處理,得到目標(biāo)前向噪聲向量;20、特征編碼模塊,用于將業(yè)務(wù)文本和目標(biāo)幀文本輸入至目標(biāo)視頻生成模型,通過目標(biāo)視頻生成模型對(duì)目標(biāo)幀文本進(jìn)行文本編碼,得到第一文本特征,對(duì)業(yè)務(wù)文本進(jìn)行文本編碼,得到第二文本特征;21、圖像預(yù)測(cè)模塊,用于根據(jù)目標(biāo)前向噪聲向量、第一文本特征和第二文本特征,對(duì)所述目標(biāo)噪聲圖像進(jìn)行去噪處理,得到所述目標(biāo)幀文本所對(duì)應(yīng)的目標(biāo)預(yù)測(cè)圖像,將所述目標(biāo)預(yù)測(cè)圖像作為所述待生成視頻中位于所述業(yè)務(wù)圖像的下一幀圖像。22、在一種可能的實(shí)現(xiàn)方式中,數(shù)據(jù)確定模塊用于基于業(yè)務(wù)圖像和噪聲數(shù)據(jù)池,確定與目標(biāo)幀文本相關(guān)聯(lián)的目標(biāo)噪聲圖像時(shí),數(shù)據(jù)確定模塊具體用于執(zhí)行以下操作:23、通過噪聲數(shù)據(jù)池獲取與目標(biāo)幀文本相關(guān)聯(lián)的目標(biāo)拼接噪聲圖,根據(jù)業(yè)務(wù)圖像對(duì)應(yīng)的低頻信號(hào)以及目標(biāo)拼接噪聲圖對(duì)應(yīng)的高頻信號(hào),生成與目標(biāo)幀文本相關(guān)聯(lián)的目標(biāo)噪聲圖像。24、在一種可能的實(shí)現(xiàn)方式中,噪聲數(shù)據(jù)池包括s個(gè)噪聲數(shù)據(jù),s為正整數(shù);數(shù)據(jù)確定模塊用于通過噪聲數(shù)據(jù)池獲取與目標(biāo)幀文本相關(guān)聯(lián)的目標(biāo)拼接噪聲圖,根據(jù)業(yè)務(wù)圖像對(duì)應(yīng)的低頻信號(hào)以及目標(biāo)拼接噪聲圖對(duì)應(yīng)的高頻信號(hào),生成與目標(biāo)幀文本相關(guān)聯(lián)的目標(biāo)噪聲圖像時(shí),數(shù)據(jù)確定模塊具體用于執(zhí)行以下操作:25、獲取滑動(dòng)步長(zhǎng),通過滑動(dòng)步長(zhǎng),從s個(gè)噪聲數(shù)據(jù)中獲取p個(gè)噪聲數(shù)據(jù)組,分別對(duì)p個(gè)噪聲數(shù)據(jù)組中的噪聲數(shù)據(jù)進(jìn)行拼接,得到p個(gè)第二拼接噪聲圖,從p個(gè)第二拼接噪聲圖中,確定與目標(biāo)幀文本相關(guān)聯(lián)的目標(biāo)拼接噪聲圖;每個(gè)噪聲數(shù)據(jù)組所包括的噪聲數(shù)據(jù)的數(shù)量均為m,m為正整數(shù);26、對(duì)業(yè)務(wù)圖像進(jìn)行傅里葉變換,得到業(yè)務(wù)圖像所對(duì)應(yīng)的第一頻率域,將第一頻率域中小于低頻閾值的頻率信號(hào)確定為低頻信號(hào);27、對(duì)目標(biāo)拼接噪聲圖進(jìn)行傅立葉變換,得到目標(biāo)拼接噪聲圖對(duì)應(yīng)的目標(biāo)頻率域,將目標(biāo)頻率域中大于或者等于低頻閾值的頻率信號(hào)確定為高頻信號(hào);28、將高頻信號(hào)與低頻信號(hào)進(jìn)行組合,得到全頻信號(hào),對(duì)全頻信號(hào)進(jìn)行逆傅立葉變換,得到與目標(biāo)幀文本相關(guān)聯(lián)的目標(biāo)噪聲圖像。29、在一種可能的實(shí)現(xiàn)方式中,圖像預(yù)測(cè)模塊用于根據(jù)目標(biāo)前向噪聲向量、第一文本特征和第二文本特征,對(duì)目標(biāo)噪聲圖像進(jìn)行去噪處理,得到目標(biāo)幀文本所對(duì)應(yīng)的目標(biāo)預(yù)測(cè)圖像時(shí),圖像預(yù)測(cè)模塊具體用于執(zhí)行以下操作:30、對(duì)第一文本特征與第二文本特征進(jìn)行特征拼接,得到目標(biāo)文本特征;31、在目標(biāo)視頻生成模型中的反向擴(kuò)散網(wǎng)絡(luò)層中,基于目標(biāo)文本特征,在t個(gè)時(shí)間步中分別對(duì)目標(biāo)前向噪聲向量,進(jìn)行反向擴(kuò)散處理,得到目標(biāo)預(yù)測(cè)噪聲;t為正整數(shù);32、基于目標(biāo)預(yù)測(cè)噪聲和目標(biāo)前向噪聲向量,確定目標(biāo)潛在向量;33、通過目標(biāo)視頻生成模型中的解碼器對(duì)目標(biāo)潛在向量進(jìn)行圖像重建,得到目標(biāo)幀文本所對(duì)應(yīng)的目標(biāo)預(yù)測(cè)圖像。34、在一種可能的實(shí)現(xiàn)方式中,圖像預(yù)測(cè)模塊用于對(duì)第一文本特征與第二文本特征進(jìn)行特征拼接,得到目標(biāo)文本特征時(shí),圖像預(yù)測(cè)模塊具體用于執(zhí)行以下操作:35、對(duì)第二文本特征進(jìn)行偏置處理,得到具有偏置特性的更新文本特征;偏置特性用于突顯第一文本特征和更新文本特征之間的幀時(shí)序關(guān)系;36、基于第一文本特征和更新文本特征,生成目標(biāo)文本特征。37、在一種可能的實(shí)現(xiàn)方式中,圖像預(yù)測(cè)模塊用于基于第一文本特征和更新文本特征,生成目標(biāo)文本特征時(shí),圖像預(yù)測(cè)模塊具體用于執(zhí)行以下操作:38、獲取目標(biāo)視頻生成模型的上下文窗口閾值,基于上下文窗口閾值確定第一文本長(zhǎng)度閾值和第二文本長(zhǎng)度閾值;第一文本長(zhǎng)度閾值和第二文本長(zhǎng)度閾值之和等于上下文窗口閾值;39、基于第一文本長(zhǎng)度閾值和第一文本特征,生成第一拼接文本特征;第一拼接文本特征的特征長(zhǎng)度等于第一文本長(zhǎng)度閾值;40、基于第二文本長(zhǎng)度閾值和更新文本特征,生成第二拼接文本特征;第二拼接文本特征的特征長(zhǎng)度等于第二文本長(zhǎng)度閾值;41、對(duì)第一拼接文本特征和第二拼接文本特征進(jìn)行拼接,得到目標(biāo)文本特征。42、在一種可能的實(shí)現(xiàn)方式中,t個(gè)時(shí)間步包括時(shí)間步ti,i為小于或者等于t的正整數(shù);圖像預(yù)測(cè)模塊用于基于目標(biāo)文本特征,在t個(gè)時(shí)間步中分別對(duì)目標(biāo)前向噪聲向量,進(jìn)行反向擴(kuò)散處理,得到目標(biāo)預(yù)測(cè)噪聲時(shí),圖像預(yù)測(cè)模塊具體用于執(zhí)行以下操作:43、在時(shí)間步ti中,基于目標(biāo)文本特征,對(duì)時(shí)間步ti對(duì)應(yīng)的迭代噪聲向量進(jìn)行噪聲預(yù)測(cè),得到時(shí)間步ti對(duì)應(yīng)的初始噪聲向量;若時(shí)間步ti為t個(gè)時(shí)間步中的第一個(gè)時(shí)間步,則時(shí)間步ti對(duì)應(yīng)的迭代噪聲向量為目標(biāo)前向噪聲向量;44、將時(shí)間步ti對(duì)應(yīng)的初始噪聲向量,確定為時(shí)間步ti+1對(duì)應(yīng)的迭代噪聲向量,在時(shí)間步ti+1中,基于目標(biāo)文本特征,對(duì)時(shí)間步ti+1對(duì)應(yīng)的迭代噪聲向量進(jìn)行噪聲預(yù)測(cè),得到時(shí)間步ti+1的初始噪聲向量,直至在得到t個(gè)時(shí)間步中最后一個(gè)時(shí)間步所對(duì)應(yīng)的初始噪聲向量時(shí),將最后一個(gè)時(shí)間步所對(duì)應(yīng)的初始噪聲向量確定為目標(biāo)預(yù)測(cè)噪聲;時(shí)間步ti+1為t個(gè)時(shí)間步中時(shí)間步ti的下一個(gè)時(shí)間步。45、在一種可能的實(shí)現(xiàn)方式中,反向擴(kuò)散網(wǎng)絡(luò)層包括t個(gè)時(shí)間步分別對(duì)應(yīng)的噪聲預(yù)測(cè)網(wǎng)絡(luò),每個(gè)噪聲預(yù)測(cè)網(wǎng)絡(luò)均包括交叉注意力子網(wǎng)絡(luò);圖像預(yù)測(cè)模塊用于在時(shí)間步ti中,基于目標(biāo)文本特征,對(duì)時(shí)間步ti對(duì)應(yīng)的迭代噪聲向量進(jìn)行噪聲預(yù)測(cè),得到時(shí)間步ti對(duì)應(yīng)的初始噪聲向量時(shí),圖像預(yù)測(cè)模塊具體用于執(zhí)行以下操作:46、在時(shí)間步ti中,將目標(biāo)文本特征和迭代噪聲向量,輸入至?xí)r間步ti所對(duì)應(yīng)的交叉注意力子網(wǎng)絡(luò);47、通過時(shí)間步ti所對(duì)應(yīng)的噪聲預(yù)測(cè)網(wǎng)絡(luò)中的交叉注意力子網(wǎng)絡(luò),對(duì)目標(biāo)文本特征和迭代噪聲向量進(jìn)行交叉注意力處理,交叉注意力處理結(jié)果;48、基于交叉注意力處理結(jié)果,確定時(shí)間步ti對(duì)應(yīng)的初始噪聲向量。49、在一種可能的實(shí)現(xiàn)方式中,圖像預(yù)測(cè)模塊用于對(duì)目標(biāo)文本特征和迭代噪聲向量進(jìn)行交叉注意力處理,交叉注意力處理結(jié)果時(shí),圖像預(yù)測(cè)模塊具體用于執(zhí)行以下操作:50、將初始噪聲向量作為交叉注意力函數(shù)中的查詢向量,將目標(biāo)文本特征作為交叉注意力函數(shù)中的鍵向量,且將目標(biāo)文本特征作為交叉注意力函數(shù)中的值向量;51、通過交叉注意力函數(shù)將查詢向量與鍵向量的乘積確定為第一融合特征;52、獲取融合編碼特征對(duì)應(yīng)的維度數(shù)量,將第一融合特征和維度數(shù)量的倒數(shù)的乘積確定為第二融合特征;53、基于交叉注意力函數(shù)中的激活子函數(shù),將第二融合特征轉(zhuǎn)換為第一激活特征,將第一激活特征和值向量的乘積確定為交叉注意力處理結(jié)果。54、在一種可能的實(shí)現(xiàn)方式中,數(shù)據(jù)處理裝置還包括視頻確定模塊,視頻確定模塊具體用于執(zhí)行以下操作:55、當(dāng)待生成視頻包含p個(gè)連續(xù)幀文本分別對(duì)應(yīng)的幀圖像時(shí),對(duì)每相鄰兩個(gè)幀圖像進(jìn)行圖像插值,得到每相鄰兩個(gè)幀圖像之間的中間幀圖像;p個(gè)連續(xù)幀文本分別對(duì)應(yīng)的幀圖像包括目標(biāo)預(yù)測(cè)圖像;56、將包含p個(gè)連續(xù)幀文本分別對(duì)應(yīng)的幀圖像以及中間幀圖像的待生成視頻,確定為與目標(biāo)文本相匹配的業(yè)務(wù)視頻。57、在一種可能的實(shí)現(xiàn)方式中,待生成視頻中的p個(gè)連續(xù)幀文本分別對(duì)應(yīng)的幀圖像包括幀圖像pj和幀圖像pj+1,j為小于p的正整數(shù);視頻確定模塊用于對(duì)每相鄰兩個(gè)幀圖像進(jìn)行圖像插值,得到每相鄰兩個(gè)幀圖像之間的中間幀圖像時(shí),視頻確定模塊具體用于執(zhí)行以下操作:58、基于幀圖像pj和幀圖像pj+1,確定幀圖像pj-1和幀圖像pj+2,對(duì)幀圖像pj、幀圖像pj+1、幀圖像pj-1和幀圖像pj+2進(jìn)行光流預(yù)測(cè),得到光流預(yù)測(cè)結(jié)果;幀圖像pj+1為待生成視頻中幀圖像pj的下一個(gè)幀圖像,幀圖像pj+2為待生成視頻中幀圖像pj+1的下一個(gè)幀圖像,幀圖像pj-1為待生成視頻中幀圖像pj的上一個(gè)幀圖像;59、基于幀圖像pj、幀圖像pj+1和光流預(yù)測(cè)結(jié)果,生成幀圖像pj和幀圖像pj+1之間的中間幀圖像。60、本技術(shù)實(shí)施例一方面提供了另一種數(shù)據(jù)處理裝置,該裝置包括:61、圖像樣本獲取模塊,用于獲取具有視頻幀排序順序的n個(gè)圖像樣本,以及與每個(gè)圖像樣本分別關(guān)聯(lián)的文本樣本;n為正整數(shù);62、噪聲樣本獲取模塊,用于獲取噪聲數(shù)據(jù)池,基于噪聲數(shù)據(jù)池與n個(gè)圖像樣本,確定n個(gè)噪聲樣本;一個(gè)噪聲樣本由噪聲數(shù)據(jù)池與一個(gè)圖像樣本所確定;63、樣本確定模塊,用于從n個(gè)圖像樣本中確定目標(biāo)圖像樣本,從n個(gè)文本樣本中確定目標(biāo)圖像樣本相關(guān)聯(lián)的目標(biāo)文本樣本;64、樣本前向擴(kuò)散模塊,用于對(duì)目標(biāo)圖像樣本和n個(gè)噪聲樣本中目標(biāo)圖像樣本對(duì)應(yīng)的目標(biāo)噪聲樣本進(jìn)行特征提取,得到潛在噪聲特征,對(duì)潛在噪聲特征進(jìn)行前向擴(kuò)散處理,得到樣本前向噪聲向量;目標(biāo)噪聲樣本由第一圖像樣本確定;第一圖像樣本為n個(gè)圖像樣本中目標(biāo)圖像樣本的上一個(gè)圖像樣本;65、樣本編碼模塊,用于對(duì)目標(biāo)文本樣本進(jìn)行文本編碼,得到第一編碼特征,對(duì)第一文本樣本進(jìn)行文本編碼,得到第二編碼特征;第一文本樣本為第一圖像樣本相關(guān)聯(lián)的文本樣本;66、樣本反向擴(kuò)散模塊,用于對(duì)樣本前向噪聲向量、第一編碼特征和第二編碼特征,進(jìn)行反向擴(kuò)散處理,得到預(yù)測(cè)噪聲樣本向量;67、參數(shù)調(diào)整模塊,用于根據(jù)n個(gè)噪聲樣本和通過n個(gè)噪聲樣本分別預(yù)測(cè)得到的預(yù)測(cè)噪聲樣本向量,對(duì)初始視頻生成模型進(jìn)行參數(shù)調(diào)整,得到目標(biāo)視頻生成模型;目標(biāo)視頻模型用于基于目標(biāo)文本生成目標(biāo)文本所指示的目標(biāo)視頻。68、在一種可能的實(shí)現(xiàn)方式中,噪聲數(shù)據(jù)池包括s個(gè)噪聲數(shù)據(jù),s為正整數(shù);噪聲樣本獲取模塊用于基于噪聲數(shù)據(jù)池與n個(gè)圖像樣本,確定n個(gè)噪聲樣本時(shí),噪聲樣本獲取模塊具體用于執(zhí)行以下操作:69、獲取樣本滑動(dòng)步長(zhǎng),通過樣本滑動(dòng)步長(zhǎng),從s個(gè)噪聲數(shù)據(jù)中獲取n個(gè)樣本噪聲數(shù)據(jù)組,分別對(duì)n個(gè)噪聲數(shù)據(jù)組中的噪聲數(shù)據(jù)進(jìn)行拼接,得到n個(gè)第一樣本噪聲圖;每個(gè)樣本噪聲數(shù)據(jù)組所包括的噪聲數(shù)據(jù)的數(shù)量均為r,r為正整數(shù);70、基于n個(gè)第一樣本噪聲圖和n個(gè)圖像樣本,生成n個(gè)噪聲樣本。71、在一種可能的實(shí)現(xiàn)方式中,每個(gè)圖像樣本分別對(duì)應(yīng)n個(gè)第一樣本噪聲圖中的一個(gè)第一樣本噪聲圖,n個(gè)圖像樣本包括圖像樣本ci,n個(gè)第一樣本噪聲圖包括圖像樣本ci對(duì)應(yīng)的第一樣本噪聲圖bi,i為小于或者等于n的正整數(shù);噪聲樣本獲取模塊用于基于n個(gè)第一樣本噪聲圖和n個(gè)圖像樣本,生成n個(gè)噪聲樣本時(shí),噪聲樣本獲取模塊具體用于執(zhí)行以下操作:72、當(dāng)圖像樣本ci為n個(gè)圖像樣本中排序首位的圖像樣本時(shí),將第一樣本噪聲圖bi,確定為圖像樣本ci所對(duì)應(yīng)的噪聲樣本;73、當(dāng)圖像樣本ci不為n個(gè)圖像樣本中排序首位的圖像樣本時(shí),對(duì)圖像樣本ci-1進(jìn)行傅里葉變換,得到圖像樣本ci-1所對(duì)應(yīng)的第一樣本頻率域,將第一樣本頻率域中小于樣本低頻閾值的頻率信號(hào)確定為樣本低頻信號(hào),對(duì)第一樣本噪聲圖bi進(jìn)行傅立葉變換,得到第一樣本噪聲圖bi對(duì)應(yīng)的第二樣本頻率域,將第二樣本頻率域中大于或者等于樣本低頻閾值的頻率信號(hào)確定為樣本高頻信號(hào),將樣本高頻信號(hào)與樣本低頻信號(hào)進(jìn)行組合,得到樣本全頻信號(hào),對(duì)樣本全頻信號(hào)進(jìn)行逆傅立葉變換,得到圖像樣本ci所對(duì)應(yīng)的噪聲樣本;圖像樣本ci-1為n個(gè)圖像樣本中圖像樣本ci的上一個(gè)圖像樣本。74、在一種可能的實(shí)現(xiàn)方式中,初始視頻生成模型包括初始反向擴(kuò)散網(wǎng)絡(luò)層;初始反向擴(kuò)散網(wǎng)絡(luò)層用于對(duì)樣本前向噪聲向量、第一編碼特征和第二編碼特征,進(jìn)行反向擴(kuò)散處理,得到預(yù)測(cè)噪聲樣本向量;參數(shù)調(diào)整模塊用于根據(jù)n個(gè)噪聲樣本和通過n個(gè)噪聲樣本分別預(yù)測(cè)得到的預(yù)測(cè)噪聲樣本向量,對(duì)初始視頻生成模型進(jìn)行參數(shù)調(diào)整,得到目標(biāo)視頻生成模型時(shí),參數(shù)調(diào)整模塊具體用于執(zhí)行以下操作:75、根據(jù)n個(gè)噪聲樣本和通過n個(gè)噪聲樣本分別預(yù)測(cè)得到的預(yù)測(cè)噪聲樣本向量,對(duì)初始視頻生成模型進(jìn)行參數(shù)調(diào)整,得到目標(biāo)視頻生成模型,包括:76、根據(jù)n個(gè)噪聲樣本和通過n個(gè)噪聲樣本分別預(yù)測(cè)得到的預(yù)測(cè)噪聲樣本向量,生成模型損失值;77、基于模型損失值對(duì)初始反向擴(kuò)散網(wǎng)絡(luò)層進(jìn)行參數(shù)調(diào)整,得到目標(biāo)視頻生成模型。78、本技術(shù)實(shí)施例一方面提供了一種計(jì)算機(jī)設(shè)備,包括處理器、存儲(chǔ)器、輸入輸出接口;79、處理器分別與存儲(chǔ)器和輸入輸出接口相連,其中,輸入輸出接口用于接收數(shù)據(jù)及輸出數(shù)據(jù),存儲(chǔ)器用于存儲(chǔ)計(jì)算機(jī)程序,處理器用于調(diào)用該計(jì)算機(jī)程序,以使包含該處理器的計(jì)算機(jī)設(shè)備執(zhí)行本技術(shù)實(shí)施例一方面中的方法。80、本技術(shù)實(shí)施例一方面提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序,該計(jì)算機(jī)程序適于由處理器加載并執(zhí)行,以使得具有該處理器的計(jì)算機(jī)設(shè)備執(zhí)行本技術(shù)實(shí)施例一方面中的方法。81、本技術(shù)實(shí)施例一方面提供了一種計(jì)算機(jī)程序產(chǎn)品,該計(jì)算機(jī)程序產(chǎn)品包括計(jì)算機(jī)程序,該計(jì)算機(jī)程序存儲(chǔ)在計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中。計(jì)算機(jī)設(shè)備的處理器從計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)讀取該計(jì)算機(jī)程序,處理器執(zhí)行該計(jì)算機(jī)程序,使得計(jì)算機(jī)設(shè)備執(zhí)行本技術(shù)實(shí)施例一方面中的各種可選方式中提供的方法。換句話說,該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)本技術(shù)實(shí)施例一方面中的各種可選方式中提供的方法。82、在本技術(shù)實(shí)施例中,獲取目標(biāo)文本,對(duì)目標(biāo)文本進(jìn)行拆分處理,得到具有視頻幀排序順序的p個(gè)連續(xù)幀文本;p為正整數(shù);從p個(gè)連續(xù)幀文本中獲取按序遍歷到的目標(biāo)幀文本,獲取噪聲數(shù)據(jù)池,基于業(yè)務(wù)圖像和噪聲數(shù)據(jù)池,確定與目標(biāo)幀文本相關(guān)聯(lián)的目標(biāo)噪聲圖像;業(yè)務(wù)圖像為待生成視頻中最末尾的幀圖像,且業(yè)務(wù)圖像為業(yè)務(wù)文本所表征的幀圖像;業(yè)務(wù)文本為p個(gè)連續(xù)幀文本中目標(biāo)幀文本的上一個(gè)連續(xù)幀文本。將目標(biāo)噪聲圖像輸入至目標(biāo)視頻生成模型,通過目標(biāo)視頻生成模型對(duì)目標(biāo)噪聲圖像進(jìn)行特征提取,得到目標(biāo)噪聲特征,對(duì)目標(biāo)噪聲特征進(jìn)行前向擴(kuò)散處理,得到目標(biāo)前向噪聲向量;將業(yè)務(wù)文本和目標(biāo)幀文本輸入至目標(biāo)視頻生成模型,通過目標(biāo)視頻生成模型對(duì)目標(biāo)幀文本進(jìn)行文本編碼,得到第一文本特征,對(duì)業(yè)務(wù)文本進(jìn)行文本編碼,得到第二文本特征;可以充分利用特征提取的方法,提取目標(biāo)幀文本和歷史文本(業(yè)務(wù)文本)的特征。根據(jù)目標(biāo)前向噪聲向量、第一文本特征和第二文本特征,對(duì)目標(biāo)噪聲圖像進(jìn)行去噪處理,得到目標(biāo)幀文本所對(duì)應(yīng)的目標(biāo)預(yù)測(cè)圖像,將目標(biāo)預(yù)測(cè)圖像作為待生成視頻中位于業(yè)務(wù)圖像的下一幀圖像。通過業(yè)務(wù)文本聯(lián)合下一幀文本(目標(biāo)幀文本)共同約束并指導(dǎo)目標(biāo)視頻生成模型,保證了生成的目標(biāo)預(yù)測(cè)圖像和歷史圖像(即待生成視頻的前后幀)的主體對(duì)象能夠保持一致;通過基于業(yè)務(wù)圖像生成的目標(biāo)噪聲圖像,目標(biāo)噪聲圖像中存在業(yè)務(wù)圖像的部分信息,保證了生成的目標(biāo)預(yù)測(cè)圖像和歷史圖像中的對(duì)象場(chǎng)景能夠保持一致或者高度相似,從而可以保證目標(biāo)預(yù)測(cè)圖像和業(yè)務(wù)圖像的背景相似性,從而避免了因?yàn)榍昂髱谋咀兓瘜?dǎo)致生成的前后幀圖像差異過大,提升了目標(biāo)預(yù)測(cè)圖像和歷史圖像的相似性,從而提升了基于目標(biāo)文本所生成的待生成視頻的連貫性和協(xié)調(diào)性;同時(shí),歷史圖像約束目標(biāo)噪聲圖像的目標(biāo)噪聲特征,歷史文本進(jìn)一步約束目標(biāo)視頻生成模型生成目標(biāo)預(yù)測(cè)圖像,可以促使目標(biāo)預(yù)測(cè)圖像在生成時(shí)的背景(對(duì)象場(chǎng)景)、生成風(fēng)格或者內(nèi)容等偏向歷史圖像,以保證歷史圖像與目標(biāo)預(yù)測(cè)圖像作為前后幀的差異不大,從而提升文生視頻的整體背景相似性(也就是整體基調(diào)保持一致),進(jìn)一步保證了文生視頻的質(zhì)量。當(dāng)前第1頁12當(dāng)前第1頁12