国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      基于增強(qiáng)視頻擴(kuò)散模型的動(dòng)作視頻生成方法

      文檔序號(hào):40278372發(fā)布日期:2024-12-11 13:14閱讀:13來源:國知局
      基于增強(qiáng)視頻擴(kuò)散模型的動(dòng)作視頻生成方法

      本發(fā)明屬于動(dòng)作視頻生成,更為具體地講,涉及一種基于增強(qiáng)視頻擴(kuò)散模型的動(dòng)作視頻生成方法。


      背景技術(shù):

      1、近年來,大規(guī)模生成模型顯著推動(dòng)了視頻生成的發(fā)展,尤其是擴(kuò)散模型因其出色的生成質(zhì)量和訓(xùn)練穩(wěn)定性成為首選。視頻擴(kuò)散模型(vdm)整合了兩個(gè)關(guān)鍵組件:空間層用于生成和處理幀內(nèi)形狀,時(shí)間層則保持幀間一致性。由于圖像模型不涉及時(shí)間維度,較易掌握,因此許多視頻擴(kuò)散模型基于預(yù)訓(xùn)練的圖像擴(kuò)散模型擴(kuò)展,利用其卓越的空間生成能力。然而,調(diào)整這些模型以捕捉復(fù)雜的時(shí)間動(dòng)態(tài)仍具挑戰(zhàn)性。雖然目前已有一些方法通過對(duì)單個(gè)動(dòng)作建模生成高質(zhì)量輸出,但在實(shí)際應(yīng)用中,如開域視頻生成,模型規(guī)模有限對(duì)時(shí)間建模造成影響,導(dǎo)致對(duì)多動(dòng)作的理解和綜合效果欠佳。

      2、由于增強(qiáng)時(shí)態(tài)學(xué)習(xí)的模型存在局限,研究人員開始探索“模仿”策略,重點(diǎn)從示例中提取和學(xué)習(xí)信息,而非僅依賴訓(xùn)練數(shù)據(jù)。這種方法受自然語言處理任務(wù)中上下文學(xué)習(xí)成功的啟發(fā),利用大型語言模型(llms)基于少量示例進(jìn)行預(yù)測(cè)。目前,多模態(tài)上下文學(xué)習(xí)主要集中在圖像或音頻模態(tài),方法包括開發(fā)模型以提取和調(diào)整跨模態(tài)特征,或通過自動(dòng)編碼器整合視覺模態(tài)與標(biāo)簽。盡管在文本、圖像和音頻領(lǐng)域取得進(jìn)展,但擴(kuò)展到復(fù)雜的視頻領(lǐng)域仍具挑戰(zhàn)性。一些研究探討了空間注意力對(duì)生成空間內(nèi)容的影響,結(jié)果顯示,調(diào)整提示詞的注意力圖譜可優(yōu)化視頻的空間特征。然而,這種方法尚未涉及視頻的核心部分,即時(shí)間內(nèi)容或動(dòng)作。


      技術(shù)實(shí)現(xiàn)思路

      1、本發(fā)明的目的在于克服現(xiàn)有技術(shù)的不足,提供一種基于增強(qiáng)視頻擴(kuò)散模型的動(dòng)作視頻生成方法,模擬現(xiàn)有視頻中的動(dòng)作來增強(qiáng)視頻擴(kuò)散模型生成復(fù)雜動(dòng)作的能力,并通過新增的附加層將新的動(dòng)作特征納入視頻擴(kuò)散模型,從而無需對(duì)未經(jīng)訓(xùn)練的動(dòng)作進(jìn)行任何進(jìn)一步的微調(diào)即可根據(jù)字幕文本準(zhǔn)確生成動(dòng)作視頻。

      2、為了實(shí)現(xiàn)上述發(fā)明目的,本發(fā)明基于增強(qiáng)視頻擴(kuò)散模型的動(dòng)作視頻生成方法包括以下步驟:

      3、s1:根據(jù)實(shí)際情況設(shè)置動(dòng)作的參考視頻集合ref,記每個(gè)備選參考視頻為refn,對(duì)應(yīng)的字幕文本為txtn,n=1,2,…,n,n表示參考視頻集合ref中備選參考視頻數(shù)量;

      4、s2:根據(jù)實(shí)際需要構(gòu)建三個(gè)子模型并分別采用相應(yīng)的訓(xùn)練樣本集進(jìn)行預(yù)訓(xùn)練,三個(gè)子模型分別為:

      5、文本編碼器,用于將輸入的字幕文本進(jìn)行編碼得到文本向量;

      6、變分自編碼器,包括編碼器和解碼器,其中編碼器用于對(duì)輸入的動(dòng)作視頻進(jìn)行編碼得到動(dòng)作視頻特征,解碼器用于對(duì)輸入的動(dòng)作視頻特征進(jìn)行解碼得到動(dòng)作視頻;

      7、擴(kuò)散u-net模型,用于根據(jù)輸入的字幕文本特征對(duì)輸入噪聲進(jìn)行逐步去噪,得到字幕文本對(duì)應(yīng)的動(dòng)作視頻特征;擴(kuò)散u-net模型采用基于注意力機(jī)制的u-net模型,包括l層卷積下采樣模塊和l層卷積上采樣模塊,在每層卷積下采樣模塊和每層卷積上采樣模塊后均設(shè)置注意力模塊,每個(gè)注意力模塊包括堆疊的空間自注意力層sas,時(shí)間自注意力層sat和交叉注意力層cas,其中:

      8、空間自注意力層sas用于對(duì)輸入該層的噪聲特征采用空間自注意力機(jī)制進(jìn)行處理,將得到的噪聲特征與輸入該層的噪聲特征疊加后輸出至?xí)r間自注意力層sat;

      9、時(shí)間自注意力層sat用于對(duì)接收到的噪聲特征采用時(shí)間自注意力機(jī)制進(jìn)行處理,將得到的噪聲特征輸出與輸入該層的噪聲特征疊加后至交叉注意力層cas;

      10、空間交叉注意力層cas用于對(duì)接收到的噪聲特征和字幕文本特征采用空間交叉注意力機(jī)制進(jìn)行處理,將得到的噪聲特征與輸入該層的噪聲特征疊加后進(jìn)行輸出;

      11、s3:基于步驟s2中預(yù)訓(xùn)練好的子模型構(gòu)建增強(qiáng)視頻擴(kuò)散模型,包括參考視頻篩選模塊,文本編碼器,變分自編碼器的編碼器,視頻擴(kuò)散模型和變分自編碼器的解碼器,其中:

      12、參考視頻篩選模塊用于根據(jù)待生成動(dòng)作視頻的字幕文本txt從參考視頻集合ref中篩選出參考視頻,將所得到的參考視頻vref,k發(fā)送至變分自編碼器的編碼器,將對(duì)應(yīng)的字幕文本txtref,k發(fā)送至文本編碼器,k=1,2,…,k,k表示篩選得到的參考視頻數(shù)量;參考視頻的篩選方法為:

      13、從字幕文本txt中提取主要?jiǎng)釉~,將所提取出主要?jiǎng)釉~的所有時(shí)態(tài)一起構(gòu)成動(dòng)詞列表l={v1,v2,…,vm},vm表示第m個(gè)動(dòng)詞,m=1,2,…,m,m表示動(dòng)詞數(shù)量;對(duì)于參考視頻集合ref中每個(gè)備選參考視頻refn,首先篩選出字幕文本txtn與統(tǒng)計(jì)動(dòng)詞列表l的交集不為空的備選參考視頻,然后從中隨機(jī)選擇k個(gè)備選參考視頻作為待生成動(dòng)作視頻的參考視頻;

      14、文本編碼器的參數(shù)固定為步驟s2中預(yù)訓(xùn)練得到的參數(shù),用于對(duì)待生成動(dòng)作視頻的字幕文本txt和篩選出的參考視頻vref,k的字幕文本txtref,k分別進(jìn)行編碼,將字幕文本txt的文本特征c發(fā)送至視覺擴(kuò)散模型,將字幕文本txtref,k的文本特征cref,k發(fā)送至視覺信息提取模塊;

      15、變分自編碼器的編碼器的參數(shù)固定為步驟s2中預(yù)訓(xùn)練得到的參數(shù),用于對(duì)每個(gè)參考視頻vref,k進(jìn)行編碼獲得動(dòng)作視頻特征zref,k并發(fā)送至視覺信息提取模塊;

      16、視覺信息提取模塊用于根據(jù)所有參考視頻的文本特征cref,k,從參考視頻的潛在特征zref,k中提取動(dòng)作特征rref并發(fā)送至視頻擴(kuò)散模型;視覺信息提取模塊包括q層堆疊的注意力模塊和特征融合層,其中:

      17、q層堆疊的注意力模塊用于根據(jù)每個(gè)參考視頻的文本特征cref,k對(duì)動(dòng)作視頻特征zref,k逐層進(jìn)行特征提取,最后一層注意力模塊得到動(dòng)作視頻特征rref,k并發(fā)送至特征融合層;每層注意力模塊包括堆疊的空間自注意力層sas,時(shí)間自注意力層sat和交叉注意力層cas,其中:

      18、空間自注意力層sas用于對(duì)輸入該層的動(dòng)作視頻特征采用空間自注意力機(jī)制進(jìn)行處理,將得到的動(dòng)作視頻特征與輸入該層的動(dòng)作視頻特征疊加后輸出至?xí)r間自注意力層sat;

      19、時(shí)間自注意力層sat用于對(duì)接收到的動(dòng)作視頻特征采用時(shí)間自注意力機(jī)制進(jìn)行處理,將得到的動(dòng)作視頻特征與輸入該層的動(dòng)作視頻特征疊加后輸出至交叉注意力層cas;

      20、交叉注意力層cas用于對(duì)接收到的動(dòng)作視頻特征和字幕文本特征cref,k采用交叉注意力機(jī)制進(jìn)行處理,將得到的動(dòng)作視頻特征與輸入該層的動(dòng)作視頻特征疊加后進(jìn)行輸出;

      21、特征融合層用于對(duì)k個(gè)動(dòng)作視頻特征rref,k進(jìn)行融合,得到動(dòng)作視頻特征rref;

      22、視頻擴(kuò)散模型基于擴(kuò)散u-net模型構(gòu)建,用于根據(jù)字幕文本txt的文本特征c、動(dòng)作視頻特征rref對(duì)輸入噪聲去噪得到與字幕文本txt對(duì)應(yīng)的動(dòng)作視頻特征并發(fā)送至變分自編碼器的解碼器;視頻擴(kuò)散模型的每個(gè)注意力模塊包括堆疊的空間自注意力層sas,時(shí)間自注意力層sat,空間交叉注意力層cas和時(shí)間交叉注意力層cat,其中:

      23、空間自注意力層sas的參數(shù)固定為步驟s2中預(yù)訓(xùn)練得到的參數(shù),用于對(duì)輸入該層的噪聲特征采用空間自注意力機(jī)制進(jìn)行處理,將得到的噪聲特征與輸入該層的噪聲特征疊加后輸出至?xí)r間自注意力層sat;

      24、時(shí)間自注意力層sat的參數(shù)固定為步驟s2中預(yù)訓(xùn)練得到的參數(shù),用于對(duì)接收到的噪聲特征采用時(shí)間自注意力機(jī)制進(jìn)行處理,將得到的噪聲特征與輸入該層的噪聲特征疊加后輸出至交叉注意力層cas;

      25、空間交叉注意力層cas的參數(shù)固定為步驟s2中預(yù)訓(xùn)練得到的參數(shù),用于對(duì)接收到的噪聲特征和字幕文本特征c采用空間交叉注意力機(jī)制進(jìn)行處理,將得到的噪聲特征與輸入該層的噪聲特征疊加后輸出至?xí)r間交叉注意力層cat;

      26、時(shí)間交叉注意力層cat用于對(duì)接收到的噪聲特征和動(dòng)作特征rref采用時(shí)間交叉注意力機(jī)制進(jìn)行處理,前l(fā)-1層注意力模塊的時(shí)間交叉注意力層將得到的噪聲特征與輸入該層的噪聲特征疊加后輸出至下一層注意力模塊,第l層注意力模塊的時(shí)間交叉注意力層將得到的噪聲特征與輸入該層的噪聲特征疊加后作為動(dòng)作特征進(jìn)行輸出;

      27、變分自編碼器的解碼器的參數(shù)固定為步驟s2中預(yù)訓(xùn)練得到的參數(shù),用于對(duì)輸入的動(dòng)作特征進(jìn)行解碼得到動(dòng)作視頻;

      28、s4:根據(jù)實(shí)際需要收集若干源視頻及其對(duì)應(yīng)的字幕樣本作為訓(xùn)練樣本,對(duì)增強(qiáng)視頻擴(kuò)散模型進(jìn)行訓(xùn)練,具體方法為:

      29、s4.1:令訓(xùn)練批次g=1;

      30、s4.2:從所有源視頻中選取b個(gè)源視頻作為當(dāng)前批次的訓(xùn)練樣本,b表示預(yù)設(shè)的訓(xùn)練批次大??;

      31、s4.3:對(duì)當(dāng)前批次的每個(gè)源視頻vori,b進(jìn)行處理得到其對(duì)應(yīng)噪聲zori,b,具體方法為:首先利用步驟s1預(yù)訓(xùn)練的變分自編碼器的編碼器對(duì)每個(gè)源視頻vori,b進(jìn)行編碼獲得動(dòng)作視頻特征zori,b;然后隨機(jī)確定噪聲添加時(shí)間步t,t∈[1,t],t表示噪聲添加的最大時(shí)間步,對(duì)動(dòng)作視頻特征zori,b添加隨機(jī)噪聲,將所得到的噪聲zt作為源視頻vori,b的噪聲噪聲添加公式為:

      32、

      33、其中,表示累計(jì)比例參數(shù),βs表示第s步噪聲添加時(shí)的預(yù)設(shè)比例參數(shù),βs∈(0,1),s∈[1,t],ε表示從標(biāo)準(zhǔn)正態(tài)分布中隨機(jī)采樣的單步噪聲;

      34、s4.4:將每個(gè)源視頻vori,b、對(duì)應(yīng)的字幕文本txtori,b和對(duì)應(yīng)的噪聲輸入增強(qiáng)視頻擴(kuò)散模型,得到視頻擴(kuò)散模型去噪過程中所估計(jì)得到的單步噪聲

      35、s4.5:采用如下公式計(jì)算損失函數(shù)loss:

      36、

      37、其中,||?||2表示求取二范數(shù);

      38、s4.6:判斷是否訓(xùn)練批次g<g,g表示預(yù)設(shè)的最大訓(xùn)練批次,如果是,進(jìn)入步驟s4.7,否則訓(xùn)練結(jié)束。

      39、s4.7:令g=g+1,返回步驟s4.2;

      40、s5:對(duì)于需要生成動(dòng)作視頻的字幕文本,隨機(jī)生成噪聲,將字幕文本和噪聲輸入步驟s4訓(xùn)練好的增強(qiáng)視頻擴(kuò)散模型,得到對(duì)應(yīng)的動(dòng)作視頻。

      41、本發(fā)明基于增強(qiáng)視頻擴(kuò)散模型的動(dòng)作視頻生成方法,根據(jù)實(shí)際情況設(shè)置動(dòng)作的參考視頻集合,根據(jù)實(shí)際需要構(gòu)建文本編碼器,變分自編碼器和擴(kuò)散u-net模型并分別采用相應(yīng)的訓(xùn)練樣本集進(jìn)行預(yù)訓(xùn)練,基于以上子模型構(gòu)建增強(qiáng)視頻擴(kuò)散模型并采用若干源視頻對(duì)增強(qiáng)視頻擴(kuò)散模型進(jìn)行訓(xùn)練,在訓(xùn)練過程中通過添加噪聲將源視頻特征轉(zhuǎn)換為噪聲,然后利用增強(qiáng)視頻擴(kuò)散模根據(jù)參考視頻的視覺信息以及文本描述預(yù)測(cè)噪聲,利用噪聲的差距計(jì)算損失函數(shù)更新模型參數(shù);將字幕文本和噪聲輸入訓(xùn)練好的增強(qiáng)視頻擴(kuò)散模型,即可生成對(duì)應(yīng)的動(dòng)作視頻。

      42、本發(fā)明具有以下有益效果:

      43、1)本發(fā)明利用多個(gè)參考視頻實(shí)現(xiàn)更廣泛的動(dòng)作模仿,增強(qiáng)現(xiàn)有的視頻擴(kuò)散模型的能力,使它們能夠合成超出其原始范圍的復(fù)雜動(dòng)作且無需微調(diào);

      44、2)本發(fā)明可以通過捕捉視覺運(yùn)動(dòng)特征以指導(dǎo)視頻擴(kuò)散模型的生成,提取有效的和相關(guān)的視覺運(yùn)動(dòng)特征而不是僅僅復(fù)制參考的內(nèi)容,使得到的動(dòng)作視頻更為合理、準(zhǔn)確。

      當(dāng)前第1頁1 2 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1