一種數(shù)據(jù)處理方法、裝置、計(jì)算機(jī)、存儲(chǔ)介質(zhì)及程序產(chǎn)品與流程

文檔序號(hào)：40282907發(fā)布日期：2024-12-11 13:24閱讀：13來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本技術(shù)涉及計(jì)算機(jī)，尤其涉及一種數(shù)據(jù)處理方法、裝置、計(jì)算機(jī)、存儲(chǔ)介質(zhì)及程序產(chǎn)品。
背景技術(shù)：
：：1、隨著人工智能技術(shù)的迅猛發(fā)展，特別是生成對(duì)抗網(wǎng)絡(luò)和擴(kuò)散模型(diffusionmodels)的不斷進(jìn)步，圖像和視頻生成領(lǐng)域迎來了重大突破。文生圖技術(shù)能夠僅通過文字描述生成相應(yīng)的圖像。這一技術(shù)的核心在于將自然語言處理與計(jì)算機(jī)視覺技術(shù)相結(jié)合，利用訓(xùn)練好的模型將文本信息轉(zhuǎn)化為視覺內(nèi)容。在圖像生成技術(shù)的基礎(chǔ)上，文生視頻(text-to-video)則是進(jìn)一步擴(kuò)展了這一能力的產(chǎn)物。文生視頻不僅要求模型能夠生成靜態(tài)圖像，還需要能夠根據(jù)文本描述生成連續(xù)的動(dòng)態(tài)畫面。目前，可以借助開源的穩(wěn)定擴(kuò)散模型(stablediffusion模型，sd模型)，在特定的控制參數(shù)下進(jìn)行文生圖產(chǎn)生第一幀圖像，然后在部分相同的控制參數(shù)下產(chǎn)生第二幀圖像，直到產(chǎn)生所有視頻序列需要的圖像并生成視頻。但sd模型輸入的生成文本針對(duì)上一幀文本出現(xiàn)變化時(shí)，容易導(dǎo)致生成下一幀時(shí)出現(xiàn)生成的前景、背景明顯與上一幀不一致，從而產(chǎn)生不良的生成效果，導(dǎo)致文生視頻的質(zhì)量不高。技術(shù)實(shí)現(xiàn)思路1、本技術(shù)實(shí)施例提供了一種數(shù)據(jù)處理方法、裝置、計(jì)算機(jī)、存儲(chǔ)介質(zhì)及程序產(chǎn)品，可以提升文生視頻整體背景相似性，保證文生視頻的質(zhì)量。2、本技術(shù)實(shí)施例一方面提供了一種數(shù)據(jù)處理方法，該方法包括：3、獲取目標(biāo)文本，對(duì)目標(biāo)文本進(jìn)行拆分處理，得到具有視頻幀排序順序的p個(gè)連續(xù)幀文本；p為正整數(shù)；4、從p個(gè)連續(xù)幀文本中獲取按序遍歷到的目標(biāo)幀文本，獲取噪聲數(shù)據(jù)池，基于業(yè)務(wù)圖像和噪聲數(shù)據(jù)池，確定與目標(biāo)幀文本相關(guān)聯(lián)的目標(biāo)噪聲圖像；業(yè)務(wù)圖像為待生成視頻中最末尾的幀圖像，且業(yè)務(wù)圖像為業(yè)務(wù)文本所表征的幀圖像；業(yè)務(wù)文本為p個(gè)連續(xù)幀文本中目標(biāo)幀文本的上一個(gè)連續(xù)幀文本；5、將目標(biāo)噪聲圖像輸入至目標(biāo)視頻生成模型，通過目標(biāo)視頻生成模型對(duì)目標(biāo)噪聲圖像進(jìn)行特征提取，得到目標(biāo)噪聲特征，對(duì)目標(biāo)噪聲特征進(jìn)行前向擴(kuò)散處理，得到目標(biāo)前向噪聲向量；6、將業(yè)務(wù)文本和目標(biāo)幀文本輸入至目標(biāo)視頻生成模型，通過目標(biāo)視頻生成模型對(duì)目標(biāo)幀文本進(jìn)行文本編碼，得到第一文本特征，對(duì)業(yè)務(wù)文本進(jìn)行文本編碼，得到第二文本特征；7、根據(jù)目標(biāo)前向噪聲向量、第一文本特征和第二文本特征，對(duì)目標(biāo)噪聲圖像進(jìn)行去噪處理，得到目標(biāo)幀文本所對(duì)應(yīng)的目標(biāo)預(yù)測(cè)圖像，將目標(biāo)預(yù)測(cè)圖像作為待生成視頻中位于業(yè)務(wù)圖像的下一幀圖像。8、本技術(shù)實(shí)施例一方面提供了另一種數(shù)據(jù)處理方法，該方法包括：9、獲取具有視頻幀排序順序的n個(gè)圖像樣本，以及與每個(gè)圖像樣本分別關(guān)聯(lián)的文本樣本；n為正整數(shù)；10、獲取噪聲數(shù)據(jù)池，基于噪聲數(shù)據(jù)池與n個(gè)圖像樣本，確定n個(gè)噪聲樣本；一個(gè)噪聲樣本由噪聲數(shù)據(jù)池與一個(gè)圖像樣本所確定；11、從n個(gè)圖像樣本中確定目標(biāo)圖像樣本，從n個(gè)文本樣本中確定目標(biāo)圖像樣本相關(guān)聯(lián)的目標(biāo)文本樣本；12、對(duì)目標(biāo)圖像樣本和n個(gè)噪聲樣本中目標(biāo)圖像樣本對(duì)應(yīng)的目標(biāo)噪聲樣本進(jìn)行特征提取，得到潛在噪聲特征，對(duì)潛在噪聲特征進(jìn)行前向擴(kuò)散處理，得到樣本前向噪聲向量；目標(biāo)噪聲樣本由第一圖像樣本確定；第一圖像樣本為n個(gè)圖像樣本中目標(biāo)圖像樣本的上一個(gè)圖像樣本；13、對(duì)目標(biāo)文本樣本進(jìn)行文本編碼，得到第一編碼特征，對(duì)第一文本樣本進(jìn)行文本編碼，得到第二編碼特征；第一文本樣本為第一圖像樣本相關(guān)聯(lián)的文本樣本；14、對(duì)樣本前向噪聲向量、第一編碼特征和第二編碼特征，進(jìn)行反向擴(kuò)散處理，得到預(yù)測(cè)噪聲樣本向量；15、根據(jù)n個(gè)噪聲樣本和通過n個(gè)噪聲樣本分別預(yù)測(cè)得到的預(yù)測(cè)噪聲樣本向量，對(duì)初始視頻生成模型進(jìn)行參數(shù)調(diào)整，得到目標(biāo)視頻生成模型；目標(biāo)視頻模型用于基于目標(biāo)文本生成目標(biāo)文本所指示的目標(biāo)視頻。16、本技術(shù)實(shí)施例一方面提供了一種數(shù)據(jù)處理裝置，該裝置包括：17、數(shù)據(jù)獲取模塊，用于獲取目標(biāo)文本，對(duì)目標(biāo)文本進(jìn)行拆分處理，得到具有視頻幀排序順序的p個(gè)連續(xù)幀文本；p為正整數(shù)；18、數(shù)據(jù)確定模塊，用于從p個(gè)連續(xù)幀文本中獲取按序遍歷到的目標(biāo)幀文本，獲取噪聲數(shù)據(jù)池，基于業(yè)務(wù)圖像和噪聲數(shù)據(jù)池，確定與目標(biāo)幀文本相關(guān)聯(lián)的目標(biāo)噪聲圖像；業(yè)務(wù)圖像為待生成視頻中最末尾的幀圖像，且業(yè)務(wù)圖像為業(yè)務(wù)文本所表征的幀圖像；業(yè)務(wù)文本為p個(gè)連續(xù)幀文本中目標(biāo)幀文本的上一個(gè)連續(xù)幀文本；19、數(shù)據(jù)前向擴(kuò)散模塊，用于將目標(biāo)噪聲圖像輸入至目標(biāo)視頻生成模型，通過目標(biāo)視頻生成模型對(duì)目標(biāo)噪聲圖像進(jìn)行特征提取，得到目標(biāo)噪聲特征，對(duì)目標(biāo)噪聲特征進(jìn)行前向擴(kuò)散處理，得到目標(biāo)前向噪聲向量；20、特征編碼模塊，用于將業(yè)務(wù)文本和目標(biāo)幀文本輸入至目標(biāo)視頻生成模型，通過目標(biāo)視頻生成模型對(duì)目標(biāo)幀文本進(jìn)行文本編碼，得到第一文本特征，對(duì)業(yè)務(wù)文本進(jìn)行文本編碼，得到第二文本特征；21、圖像預(yù)測(cè)模塊，用于根據(jù)目標(biāo)前向噪聲向量、第一文本特征和第二文本特征，對(duì)所述目標(biāo)噪聲圖像進(jìn)行去噪處理，得到所述目標(biāo)幀文本所對(duì)應(yīng)的目標(biāo)預(yù)測(cè)圖像，將所述目標(biāo)預(yù)測(cè)圖像作為所述待生成視頻中位于所述業(yè)務(wù)圖像的下一幀圖像。22、在一種可能的實(shí)現(xiàn)方式中，數(shù)據(jù)確定模塊用于基于業(yè)務(wù)圖像和噪聲數(shù)據(jù)池，確定與目標(biāo)幀文本相關(guān)聯(lián)的目標(biāo)噪聲圖像時(shí)，數(shù)據(jù)確定模塊具體用于執(zhí)行以下操作：23、通過噪聲數(shù)據(jù)池獲取與目標(biāo)幀文本相關(guān)聯(lián)的目標(biāo)拼接噪聲圖，根據(jù)業(yè)務(wù)圖像對(duì)應(yīng)的低頻信號(hào)以及目標(biāo)拼接噪聲圖對(duì)應(yīng)的高頻信號(hào)，生成與目標(biāo)幀文本相關(guān)聯(lián)的目標(biāo)噪聲圖像。24、在一種可能的實(shí)現(xiàn)方式中，噪聲數(shù)據(jù)池包括s個(gè)噪聲數(shù)據(jù)，s為正整數(shù)；數(shù)據(jù)確定模塊用于通過噪聲數(shù)據(jù)池獲取與目標(biāo)幀文本相關(guān)聯(lián)的目標(biāo)拼接噪聲圖，根據(jù)業(yè)務(wù)圖像對(duì)應(yīng)的低頻信號(hào)以及目標(biāo)拼接噪聲圖對(duì)應(yīng)的高頻信號(hào)，生成與目標(biāo)幀文本相關(guān)聯(lián)的目標(biāo)噪聲圖像時(shí)，數(shù)據(jù)確定模塊具體用于執(zhí)行以下操作：25、獲取滑動(dòng)步長(zhǎng)，通過滑動(dòng)步長(zhǎng)，從s個(gè)噪聲數(shù)據(jù)中獲取p個(gè)噪聲數(shù)據(jù)組，分別對(duì)p個(gè)噪聲數(shù)據(jù)組中的噪聲數(shù)據(jù)進(jìn)行拼接，得到p個(gè)第二拼接噪聲圖，從p個(gè)第二拼接噪聲圖中，確定與目標(biāo)幀文本相關(guān)聯(lián)的目標(biāo)拼接噪聲圖；每個(gè)噪聲數(shù)據(jù)組所包括的噪聲數(shù)據(jù)的數(shù)量均為m，m為正整數(shù)；26、對(duì)業(yè)務(wù)圖像進(jìn)行傅里葉變換，得到業(yè)務(wù)圖像所對(duì)應(yīng)的第一頻率域，將第一頻率域中小于低頻閾值的頻率信號(hào)確定為低頻信號(hào)；27、對(duì)目標(biāo)拼接噪聲圖進(jìn)行傅立葉變換，得到目標(biāo)拼接噪聲圖對(duì)應(yīng)的目標(biāo)頻率域，將目標(biāo)頻率域中大于或者等于低頻閾值的頻率信號(hào)確定為高頻信號(hào)；28、將高頻信號(hào)與低頻信號(hào)進(jìn)行組合，得到全頻信號(hào)，對(duì)全頻信號(hào)進(jìn)行逆傅立葉變換，得到與目標(biāo)幀文本相關(guān)聯(lián)的目標(biāo)噪聲圖像。29、在一種可能的實(shí)現(xiàn)方式中，圖像預(yù)測(cè)模塊用于根據(jù)目標(biāo)前向噪聲向量、第一文本特征和第二文本特征，對(duì)目標(biāo)噪聲圖像進(jìn)行去噪處理，得到目標(biāo)幀文本所對(duì)應(yīng)的目標(biāo)預(yù)測(cè)圖像時(shí)，圖像預(yù)測(cè)模塊具體用于執(zhí)行以下操作：30、對(duì)第一文本特征與第二文本特征進(jìn)行特征拼接，得到目標(biāo)文本特征；31、在目標(biāo)視頻生成模型中的反向擴(kuò)散網(wǎng)絡(luò)層中，基于目標(biāo)文本特征，在t個(gè)時(shí)間步中分別對(duì)目標(biāo)前向噪聲向量，進(jìn)行反向擴(kuò)散處理，得到目標(biāo)預(yù)測(cè)噪聲；t為正整數(shù)；32、基于目標(biāo)預(yù)測(cè)噪聲和目標(biāo)前向噪聲向量，確定目標(biāo)潛在向量；33、通過目標(biāo)視頻生成模型中的解碼器對(duì)目標(biāo)潛在向量進(jìn)行圖像重建，得到目標(biāo)幀文本所對(duì)應(yīng)的目標(biāo)預(yù)測(cè)圖像。34、在一種可能的實(shí)現(xiàn)方式中，圖像預(yù)測(cè)模塊用于對(duì)第一文本特征與第二文本特征進(jìn)行特征拼接，得到目標(biāo)文本特征時(shí)，圖像預(yù)測(cè)模塊具體用于執(zhí)行以下操作：35、對(duì)第二文本特征進(jìn)行偏置處理，得到具有偏置特性的更新文本特征；偏置特性用于突顯第一文本特征和更新文本特征之間的幀時(shí)序關(guān)系；36、基于第一文本特征和更新文本特征，生成目標(biāo)文本特征。37、在一種可能的實(shí)現(xiàn)方式中，圖像預(yù)測(cè)模塊用于基于第一文本特征和更新文本特征，生成目標(biāo)文本特征時(shí)，圖像預(yù)測(cè)模塊具體用于執(zhí)行以下操作：38、獲取目標(biāo)視頻生成模型的上下文窗口閾值，基于上下文窗口閾值確定第一文本長(zhǎng)度閾值和第二文本長(zhǎng)度閾值；第一文本長(zhǎng)度閾值和第二文本長(zhǎng)度閾值之和等于上下文窗口閾值；39、基于第一文本長(zhǎng)度閾值和第一文本特征，生成第一拼接文本特征；第一拼接文本特征的特征長(zhǎng)度等于第一文本長(zhǎng)度閾值；40、基于第二文本長(zhǎng)度閾值和更新文本特征，生成第二拼接文本特征；第二拼接文本特征的特征長(zhǎng)度等于第二文本長(zhǎng)度閾值；41、對(duì)第一拼接文本特征和第二拼接文本特征進(jìn)行拼接，得到目標(biāo)文本特征。42、在一種可能的實(shí)現(xiàn)方式中，t個(gè)時(shí)間步包括時(shí)間步ti，i為小于或者等于t的正整數(shù)；圖像預(yù)測(cè)模塊用于基于目標(biāo)文本特征，在t個(gè)時(shí)間步中分別對(duì)目標(biāo)前向噪聲向量，進(jìn)行反向擴(kuò)散處理，得到目標(biāo)預(yù)測(cè)噪聲時(shí)，圖像預(yù)測(cè)模塊具體用于執(zhí)行以下操作：43、在時(shí)間步ti中，基于目標(biāo)文本特征，對(duì)時(shí)間步ti對(duì)應(yīng)的迭代噪聲向量進(jìn)行噪聲預(yù)測(cè)，得到時(shí)間步ti對(duì)應(yīng)的初始噪聲向量；若時(shí)間步ti為t個(gè)時(shí)間步中的第一個(gè)時(shí)間步，則時(shí)間步ti對(duì)應(yīng)的迭代噪聲向量為目標(biāo)前向噪聲向量；44、將時(shí)間步ti對(duì)應(yīng)的初始噪聲向量，確定為時(shí)間步ti+1對(duì)應(yīng)的迭代噪聲向量，在時(shí)間步ti+1中，基于目標(biāo)文本特征，對(duì)時(shí)間步ti+1對(duì)應(yīng)的迭代噪聲向量進(jìn)行噪聲預(yù)測(cè)，得到時(shí)間步ti+1的初始噪聲向量，直至在得到t個(gè)時(shí)間步中最后一個(gè)時(shí)間步所對(duì)應(yīng)的初始噪聲向量時(shí)，將最后一個(gè)時(shí)間步所對(duì)應(yīng)的初始噪聲向量確定為目標(biāo)預(yù)測(cè)噪聲；時(shí)間步ti+1為t個(gè)時(shí)間步中時(shí)間步ti的下一個(gè)時(shí)間步。45、在一種可能的實(shí)現(xiàn)方式中，反向擴(kuò)散網(wǎng)絡(luò)層包括t個(gè)時(shí)間步分別對(duì)應(yīng)的噪聲預(yù)測(cè)網(wǎng)絡(luò)，每個(gè)噪聲預(yù)測(cè)網(wǎng)絡(luò)均包括交叉注意力子網(wǎng)絡(luò)；圖像預(yù)測(cè)模塊用于在時(shí)間步ti中，基于目標(biāo)文本特征，對(duì)時(shí)間步ti對(duì)應(yīng)的迭代噪聲向量進(jìn)行噪聲預(yù)測(cè)，得到時(shí)間步ti對(duì)應(yīng)的初始噪聲向量時(shí)，圖像預(yù)測(cè)模塊具體用于執(zhí)行以下操作：46、在時(shí)間步ti中，將目標(biāo)文本特征和迭代噪聲向量，輸入至?xí)r間步ti所對(duì)應(yīng)的交叉注意力子網(wǎng)絡(luò)；47、通過時(shí)間步ti所對(duì)應(yīng)的噪聲預(yù)測(cè)網(wǎng)絡(luò)中的交叉注意力子網(wǎng)絡(luò)，對(duì)目標(biāo)文本特征和迭代噪聲向量進(jìn)行交叉注意力處理，交叉注意力處理結(jié)果；48、基于交叉注意力處理結(jié)果，確定時(shí)間步ti對(duì)應(yīng)的初始噪聲向量。49、在一種可能的實(shí)現(xiàn)方式中，圖像預(yù)測(cè)模塊用于對(duì)目標(biāo)文本特征和迭代噪聲向量進(jìn)行交叉注意力處理，交叉注意力處理結(jié)果時(shí)，圖像預(yù)測(cè)模塊具體用于執(zhí)行以下操作：50、將初始噪聲向量作為交叉注意力函數(shù)中的查詢向量，將目標(biāo)文本特征作為交叉注意力函數(shù)中的鍵向量，且將目標(biāo)文本特征作為交叉注意力函數(shù)中的值向量；51、通過交叉注意力函數(shù)將查詢向量與鍵向量的乘積確定為第一融合特征；52、獲取融合編碼特征對(duì)應(yīng)的維度數(shù)量，將第一融合特征和維度數(shù)量的倒數(shù)的乘積確定為第二融合特征；53、基于交叉注意力函數(shù)中的激活子函數(shù)，將第二融合特征轉(zhuǎn)換為第一激活特征，將第一激活特征和值向量的乘積確定為交叉注意力處理結(jié)果。54、在一種可能的實(shí)現(xiàn)方式中，數(shù)據(jù)處理裝置還包括視頻確定模塊，視頻確定模塊具體用于執(zhí)行以下操作：55、當(dāng)待生成視頻包含p個(gè)連續(xù)幀文本分別對(duì)應(yīng)的幀圖像時(shí)，對(duì)每相鄰兩個(gè)幀圖像進(jìn)行圖像插值，得到每相鄰兩個(gè)幀圖像之間的中間幀圖像；p個(gè)連續(xù)幀文本分別對(duì)應(yīng)的幀圖像包括目標(biāo)預(yù)測(cè)圖像；56、將包含p個(gè)連續(xù)幀文本分別對(duì)應(yīng)的幀圖像以及中間幀圖像的待生成視頻，確定為與目標(biāo)文本相匹配的業(yè)務(wù)視頻。57、在一種可能的實(shí)現(xiàn)方式中，待生成視頻中的p個(gè)連續(xù)幀文本分別對(duì)應(yīng)的幀圖像包括幀圖像pj和幀圖像pj+1，j為小于p的正整數(shù)；視頻確定模塊用于對(duì)每相鄰兩個(gè)幀圖像進(jìn)行圖像插值，得到每相鄰兩個(gè)幀圖像之間的中間幀圖像時(shí)，視頻確定模塊具體用于執(zhí)行以下操作：58、基于幀圖像pj和幀圖像pj+1，確定幀圖像pj-1和幀圖像pj+2，對(duì)幀圖像pj、幀圖像pj+1、幀圖像pj-1和幀圖像pj+2進(jìn)行光流預(yù)測(cè)，得到光流預(yù)測(cè)結(jié)果；幀圖像pj+1為待生成視頻中幀圖像pj的下一個(gè)幀圖像，幀圖像pj+2為待生成視頻中幀圖像pj+1的下一個(gè)幀圖像，幀圖像pj-1為待生成視頻中幀圖像pj的上一個(gè)幀圖像；59、基于幀圖像pj、幀圖像pj+1和光流預(yù)測(cè)結(jié)果，生成幀圖像pj和幀圖像pj+1之間的中間幀圖像。60、本技術(shù)實(shí)施例一方面提供了另一種數(shù)據(jù)處理裝置，該裝置包括：61、圖像樣本獲取模塊，用于獲取具有視頻幀排序順序的n個(gè)圖像樣本，以及與每個(gè)圖像樣本分別關(guān)聯(lián)的文本樣本；n為正整數(shù)；62、噪聲樣本獲取模塊，用于獲取噪聲數(shù)據(jù)池，基于噪聲數(shù)據(jù)池與n個(gè)圖像樣本，確定n個(gè)噪聲樣本；一個(gè)噪聲樣本由噪聲數(shù)據(jù)池與一個(gè)圖像樣本所確定；63、樣本確定模塊，用于從n個(gè)圖像樣本中確定目標(biāo)圖像樣本，從n個(gè)文本樣本中確定目標(biāo)圖像樣本相關(guān)聯(lián)的目標(biāo)文本樣本；64、樣本前向擴(kuò)散模塊，用于對(duì)目標(biāo)圖像樣本和n個(gè)噪聲樣本中目標(biāo)圖像樣本對(duì)應(yīng)的目標(biāo)噪聲樣本進(jìn)行特征提取，得到潛在噪聲特征，對(duì)潛在噪聲特征進(jìn)行前向擴(kuò)散處理，得到樣本前向噪聲向量；目標(biāo)噪聲樣本由第一圖像樣本確定；第一圖像樣本為n個(gè)圖像樣本中目標(biāo)圖像樣本的上一個(gè)圖像樣本；65、樣本編碼模塊，用于對(duì)目標(biāo)文本樣本進(jìn)行文本編碼，得到第一編碼特征，對(duì)第一文本樣本進(jìn)行文本編碼，得到第二編碼特征；第一文本樣本為第一圖像樣本相關(guān)聯(lián)的文本樣本；66、樣本反向擴(kuò)散模塊，用于對(duì)樣本前向噪聲向量、第一編碼特征和第二編碼特征，進(jìn)行反向擴(kuò)散處理，得到預(yù)測(cè)噪聲樣本向量；67、參數(shù)調(diào)整模塊，用于根據(jù)n個(gè)噪聲樣本和通過n個(gè)噪聲樣本分別預(yù)測(cè)得到的預(yù)測(cè)噪聲樣本向量，對(duì)初始視頻生成模型進(jìn)行參數(shù)調(diào)整，得到目標(biāo)視頻生成模型；目標(biāo)視頻模型用于基于目標(biāo)文本生成目標(biāo)文本所指示的目標(biāo)視頻。68、在一種可能的實(shí)現(xiàn)方式中，噪聲數(shù)據(jù)池包括s個(gè)噪聲數(shù)據(jù)，s為正整數(shù)；噪聲樣本獲取模塊用于基于噪聲數(shù)據(jù)池與n個(gè)圖像樣本，確定n個(gè)噪聲樣本時(shí)，噪聲樣本獲取模塊具體用于執(zhí)行以下操作：69、獲取樣本滑動(dòng)步長(zhǎng)，通過樣本滑動(dòng)步長(zhǎng)，從s個(gè)噪聲數(shù)據(jù)中獲取n個(gè)樣本噪聲數(shù)據(jù)組，分別對(duì)n個(gè)噪聲數(shù)據(jù)組中的噪聲數(shù)據(jù)進(jìn)行拼接，得到n個(gè)第一樣本噪聲圖；每個(gè)樣本噪聲數(shù)據(jù)組所包括的噪聲數(shù)據(jù)的數(shù)量均為r，r為正整數(shù)；70、基于n個(gè)第一樣本噪聲圖和n個(gè)圖像樣本，生成n個(gè)噪聲樣本。71、在一種可能的實(shí)現(xiàn)方式中，每個(gè)圖像樣本分別對(duì)應(yīng)n個(gè)第一樣本噪聲圖中的一個(gè)第一樣本噪聲圖，n個(gè)圖像樣本包括圖像樣本ci，n個(gè)第一樣本噪聲圖包括圖像樣本ci對(duì)應(yīng)的第一樣本噪聲圖bi，i為小于或者等于n的正整數(shù)；噪聲樣本獲取模塊用于基于n個(gè)第一樣本噪聲圖和n個(gè)圖像樣本，生成n個(gè)噪聲樣本時(shí)，噪聲樣本獲取模塊具體用于執(zhí)行以下操作：72、當(dāng)圖像樣本ci為n個(gè)圖像樣本中排序首位的圖像樣本時(shí)，將第一樣本噪聲圖bi，確定為圖像樣本ci所對(duì)應(yīng)的噪聲樣本；73、當(dāng)圖像樣本ci不為n個(gè)圖像樣本中排序首位的圖像樣本時(shí)，對(duì)圖像樣本ci-1進(jìn)行傅里葉變換，得到圖像樣本ci-1所對(duì)應(yīng)的第一樣本頻率域，將第一樣本頻率域中小于樣本低頻閾值的頻率信號(hào)確定為樣本低頻信號(hào)，對(duì)第一樣本噪聲圖bi進(jìn)行傅立葉變換，得到第一樣本噪聲圖bi對(duì)應(yīng)的第二樣本頻率域，將第二樣本頻率域中大于或者等于樣本低頻閾值的頻率信號(hào)確定為樣本高頻信號(hào)，將樣本高頻信號(hào)與樣本低頻信號(hào)進(jìn)行組合，得到樣本全頻信號(hào)，對(duì)樣本全頻信號(hào)進(jìn)行逆傅立葉變換，得到圖像樣本ci所對(duì)應(yīng)的噪聲樣本；圖像樣本ci-1為n個(gè)圖像樣本中圖像樣本ci的上一個(gè)圖像樣本。74、在一種可能的實(shí)現(xiàn)方式中，初始視頻生成模型包括初始反向擴(kuò)散網(wǎng)絡(luò)層；初始反向擴(kuò)散網(wǎng)絡(luò)層用于對(duì)樣本前向噪聲向量、第一編碼特征和第二編碼特征，進(jìn)行反向擴(kuò)散處理，得到預(yù)測(cè)噪聲樣本向量；參數(shù)調(diào)整模塊用于根據(jù)n個(gè)噪聲樣本和通過n個(gè)噪聲樣本分別預(yù)測(cè)得到的預(yù)測(cè)噪聲樣本向量，對(duì)初始視頻生成模型進(jìn)行參數(shù)調(diào)整，得到目標(biāo)視頻生成模型時(shí)，參數(shù)調(diào)整模塊具體用于執(zhí)行以下操作：75、根據(jù)n個(gè)噪聲樣本和通過n個(gè)噪聲樣本分別預(yù)測(cè)得到的預(yù)測(cè)噪聲樣本向量，對(duì)初始視頻生成模型進(jìn)行參數(shù)調(diào)整，得到目標(biāo)視頻生成模型，包括：76、根據(jù)n個(gè)噪聲樣本和通過n個(gè)噪聲樣本分別預(yù)測(cè)得到的預(yù)測(cè)噪聲樣本向量，生成模型損失值；77、基于模型損失值對(duì)初始反向擴(kuò)散網(wǎng)絡(luò)層進(jìn)行參數(shù)調(diào)整，得到目標(biāo)視頻生成模型。78、本技術(shù)實(shí)施例一方面提供了一種計(jì)算機(jī)設(shè)備，包括處理器、存儲(chǔ)器、輸入輸出接口；79、處理器分別與存儲(chǔ)器和輸入輸出接口相連，其中，輸入輸出接口用于接收數(shù)據(jù)及輸出數(shù)據(jù)，存儲(chǔ)器用于存儲(chǔ)計(jì)算機(jī)程序，處理器用于調(diào)用該計(jì)算機(jī)程序，以使包含該處理器的計(jì)算機(jī)設(shè)備執(zhí)行本技術(shù)實(shí)施例一方面中的方法。80、本技術(shù)實(shí)施例一方面提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序，該計(jì)算機(jī)程序適于由處理器加載并執(zhí)行，以使得具有該處理器的計(jì)算機(jī)設(shè)備執(zhí)行本技術(shù)實(shí)施例一方面中的方法。81、本技術(shù)實(shí)施例一方面提供了一種計(jì)算機(jī)程序產(chǎn)品，該計(jì)算機(jī)程序產(chǎn)品包括計(jì)算機(jī)程序，該計(jì)算機(jī)程序存儲(chǔ)在計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中。計(jì)算機(jī)設(shè)備的處理器從計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)讀取該計(jì)算機(jī)程序，處理器執(zhí)行該計(jì)算機(jī)程序，使得計(jì)算機(jī)設(shè)備執(zhí)行本技術(shù)實(shí)施例一方面中的各種可選方式中提供的方法。換句話說，該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)本技術(shù)實(shí)施例一方面中的各種可選方式中提供的方法。82、在本技術(shù)實(shí)施例中，獲取目標(biāo)文本，對(duì)目標(biāo)文本進(jìn)行拆分處理，得到具有視頻幀排序順序的p個(gè)連續(xù)幀文本；p為正整數(shù)；從p個(gè)連續(xù)幀文本中獲取按序遍歷到的目標(biāo)幀文本，獲取噪聲數(shù)據(jù)池，基于業(yè)務(wù)圖像和噪聲數(shù)據(jù)池，確定與目標(biāo)幀文本相關(guān)聯(lián)的目標(biāo)噪聲圖像；業(yè)務(wù)圖像為待生成視頻中最末尾的幀圖像，且業(yè)務(wù)圖像為業(yè)務(wù)文本所表征的幀圖像；業(yè)務(wù)文本為p個(gè)連續(xù)幀文本中目標(biāo)幀文本的上一個(gè)連續(xù)幀文本。將目標(biāo)噪聲圖像輸入至目標(biāo)視頻生成模型，通過目標(biāo)視頻生成模型對(duì)目標(biāo)噪聲圖像進(jìn)行特征提取，得到目標(biāo)噪聲特征，對(duì)目標(biāo)噪聲特征進(jìn)行前向擴(kuò)散處理，得到目標(biāo)前向噪聲向量；將業(yè)務(wù)文本和目標(biāo)幀文本輸入至目標(biāo)視頻生成模型，通過目標(biāo)視頻生成模型對(duì)目標(biāo)幀文本進(jìn)行文本編碼，得到第一文本特征，對(duì)業(yè)務(wù)文本進(jìn)行文本編碼，得到第二文本特征；可以充分利用特征提取的方法，提取目標(biāo)幀文本和歷史文本(業(yè)務(wù)文本)的特征。根據(jù)目標(biāo)前向噪聲向量、第一文本特征和第二文本特征，對(duì)目標(biāo)噪聲圖像進(jìn)行去噪處理，得到目標(biāo)幀文本所對(duì)應(yīng)的目標(biāo)預(yù)測(cè)圖像，將目標(biāo)預(yù)測(cè)圖像作為待生成視頻中位于業(yè)務(wù)圖像的下一幀圖像。通過業(yè)務(wù)文本聯(lián)合下一幀文本(目標(biāo)幀文本)共同約束并指導(dǎo)目標(biāo)視頻生成模型，保證了生成的目標(biāo)預(yù)測(cè)圖像和歷史圖像(即待生成視頻的前后幀)的主體對(duì)象能夠保持一致；通過基于業(yè)務(wù)圖像生成的目標(biāo)噪聲圖像，目標(biāo)噪聲圖像中存在業(yè)務(wù)圖像的部分信息，保證了生成的目標(biāo)預(yù)測(cè)圖像和歷史圖像中的對(duì)象場(chǎng)景能夠保持一致或者高度相似，從而可以保證目標(biāo)預(yù)測(cè)圖像和業(yè)務(wù)圖像的背景相似性，從而避免了因?yàn)榍昂髱谋咀兓瘜?dǎo)致生成的前后幀圖像差異過大，提升了目標(biāo)預(yù)測(cè)圖像和歷史圖像的相似性，從而提升了基于目標(biāo)文本所生成的待生成視頻的連貫性和協(xié)調(diào)性；同時(shí)，歷史圖像約束目標(biāo)噪聲圖像的目標(biāo)噪聲特征，歷史文本進(jìn)一步約束目標(biāo)視頻生成模型生成目標(biāo)預(yù)測(cè)圖像，可以促使目標(biāo)預(yù)測(cè)圖像在生成時(shí)的背景(對(duì)象場(chǎng)景)、生成風(fēng)格或者內(nèi)容等偏向歷史圖像，以保證歷史圖像與目標(biāo)預(yù)測(cè)圖像作為前后幀的差異不大，從而提升文生視頻的整體背景相似性(也就是整體基調(diào)保持一致)，進(jìn)一步保證了文生視頻的質(zhì)量。當(dāng)前第1頁12當(dāng)前第1頁12

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：郭卉
技術(shù)所有人：騰訊科技（深圳）有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種數(shù)據(jù)處理方法、裝置、計(jì)算機(jī)、存儲(chǔ)介質(zhì)及程序產(chǎn)品與流程

一種數(shù)據(jù)處理方法、裝置、計(jì)算機(jī)、存儲(chǔ)介質(zhì)及程序產(chǎn)品與流程