視頻生成模型的訓(xùn)練方法、視頻生成方法、裝置和設(shè)備與流程

文檔序號：40404560發(fā)布日期：2024-12-20 12:28閱讀：7來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本申請涉及人工智能，尤其涉及一種視頻生成模型的訓(xùn)練方法、視頻生成方法、裝置和設(shè)備。

背景技術(shù)：

1、在醫(yī)學(xué)教育、臨床診斷以及科學(xué)普及等領(lǐng)域，高質(zhì)量的血管和內(nèi)臟動畫扮演著至關(guān)重要的角色。然而，現(xiàn)有的動畫制作技術(shù)在模擬血管和內(nèi)臟等醫(yī)學(xué)部位的動態(tài)行為方面存在顯著不足。

技術(shù)實現(xiàn)思路

1、本申請?zhí)峁┮环N視頻生成模型的訓(xùn)練方法、視頻生成方法、裝置和設(shè)備，用以解決現(xiàn)有技術(shù)中在模擬血管和內(nèi)臟等醫(yī)學(xué)部位的動態(tài)行為方面存在顯著不足的問題。

2、第一方面，本申請?zhí)峁┝艘环N視頻生成模型的訓(xùn)練方法，所述視頻生成模型包括預(yù)訓(xùn)練的vae編碼器、vae解碼器和unet網(wǎng)絡(luò)，所述unet網(wǎng)絡(luò)包括多組由時間注意力層和空間注意力層組成的注意力層，所述方法包括：

3、針對由包含不同醫(yī)學(xué)部位的靜態(tài)圖像組成的訓(xùn)練數(shù)據(jù)，通過圖像分類確定表示所述靜態(tài)圖像中不同醫(yī)學(xué)部位所屬類型的選擇系數(shù)矩陣；

4、將所述選擇系數(shù)矩陣與預(yù)先初始化的權(quán)重矩陣進(jìn)行融合，得到運(yùn)動模版矩陣，其中，所述權(quán)重矩陣用于表征所述不同醫(yī)學(xué)部位的運(yùn)動趨勢信息；

5、將所述靜態(tài)圖像輸入所述vae編碼器，通過所述vae編碼器輸出編碼潛在表示；

6、將所述編碼潛在表示輸入所述unet網(wǎng)絡(luò)，并將所述運(yùn)動模版矩陣加入所述unet網(wǎng)絡(luò)的時間注意力層中；

7、將加入所述運(yùn)動模版矩陣的unet網(wǎng)絡(luò)的輸出結(jié)果輸入所述vae解碼器，通過所述vae解碼器生成當(dāng)前視頻；

8、基于與所述靜態(tài)圖像對應(yīng)的真實視頻和所述當(dāng)前視頻計算當(dāng)前損失，并根據(jù)所述當(dāng)前損失優(yōu)化所述unet網(wǎng)絡(luò)的時間注意力層和所述權(quán)重矩陣的參數(shù)，其中，所述unet網(wǎng)絡(luò)的空間注意力層的參數(shù)在訓(xùn)練過程中凍結(jié)。

9、第二方面，本申請?zhí)峁┝艘环N視頻生成方法，包括：

10、獲取視頻生成模型和訓(xùn)練后的權(quán)重矩陣，其中，所述視頻生成模型是按照本申請實施例中任一所述的視頻生成模型的訓(xùn)練方法訓(xùn)練得到，所述視頻生成模型包括vae編碼器、vae解碼器和unet網(wǎng)絡(luò)；

11、對包含不同醫(yī)學(xué)部位的目標(biāo)圖像進(jìn)行圖像分類，得到表示所述目標(biāo)圖像中不同醫(yī)學(xué)部位所屬類型的目標(biāo)選擇系數(shù)矩陣；

12、將所述目標(biāo)選擇系數(shù)矩陣與所述訓(xùn)練后的權(quán)重矩陣進(jìn)行融合，得到目標(biāo)運(yùn)動模版矩陣，其中，所述權(quán)重矩陣用于表征所述不同醫(yī)學(xué)部位的運(yùn)動趨勢信息；

13、將所述目標(biāo)圖像輸入所述vae編碼器，通過所述vae編碼器輸出目標(biāo)編碼潛在表示；

14、將所述目標(biāo)編碼潛在表示輸入所述unet網(wǎng)絡(luò)，并將所述目標(biāo)運(yùn)動模版矩陣加入所述unet網(wǎng)絡(luò)的時間注意力層中；

15、將加入所述運(yùn)動模版矩陣的unet網(wǎng)絡(luò)的輸出結(jié)果輸入所述vae解碼器，通過所述vae解碼器生成目標(biāo)視頻。

16、第三方面，本申請?zhí)峁┝艘环N視頻生成模型的訓(xùn)練裝置，所述視頻生成模型包括預(yù)訓(xùn)練的vae編碼器、vae解碼器和unet網(wǎng)絡(luò)，所述unet網(wǎng)絡(luò)包括多組由時間注意力層和空間注意力層組成的注意力層，所述裝置包括：

17、圖像分類模塊，用于針對由包含不同醫(yī)學(xué)部位的靜態(tài)圖像組成的訓(xùn)練數(shù)據(jù)，通過圖像分類確定表示所述靜態(tài)圖像中不同醫(yī)學(xué)部位所屬類型的選擇系數(shù)矩陣；

18、運(yùn)動模版選擇模塊，用于將所述選擇系數(shù)矩陣與預(yù)先初始化的權(quán)重矩陣進(jìn)行融合，得到運(yùn)動模版矩陣，其中，所述權(quán)重矩陣用于表征所述不同醫(yī)學(xué)部位的運(yùn)動趨勢信息；

19、第一輸入模塊，用于將所述靜態(tài)圖像輸入所述vae編碼器，通過所述vae編碼器輸出編碼潛在表示；

20、運(yùn)動模版添加模塊，用于將所述編碼潛在表示輸入所述unet網(wǎng)絡(luò)，并將所述運(yùn)動模版矩陣加入所述unet網(wǎng)絡(luò)的時間注意力層中；

21、第二輸入模塊，用于將加入所述運(yùn)動模版矩陣的unet網(wǎng)絡(luò)的輸出結(jié)果輸入所述vae解碼器，通過所述vae解碼器生成當(dāng)前視頻；

22、優(yōu)化訓(xùn)練模塊，用于基于與所述靜態(tài)圖像對應(yīng)的真實視頻和所述當(dāng)前視頻計算當(dāng)前損失，并根據(jù)所述當(dāng)前損失優(yōu)化所述unet網(wǎng)絡(luò)的時間注意力層和所述權(quán)重矩陣的參數(shù)，其中，所述unet網(wǎng)絡(luò)的空間注意力層的參數(shù)在訓(xùn)練過程中凍結(jié)。

23、第四方面，本申請?zhí)峁┝艘环N視頻生成裝置，包括：

24、模型獲取模塊，用于獲取視頻生成模型和訓(xùn)練后的權(quán)重矩陣，其中，所述視頻生成模型是由本申請實施例中任一所述的視頻生成模型的訓(xùn)練裝置訓(xùn)練得到，所述視頻生成模型包括vae編碼器、vae解碼器和unet網(wǎng)絡(luò)；

25、目標(biāo)選擇系數(shù)矩陣確定模塊，用于對包含不同醫(yī)學(xué)部位的目標(biāo)圖像進(jìn)行圖像分類，得到表示所述目標(biāo)圖像中不同醫(yī)學(xué)部位所屬類型的目標(biāo)選擇系數(shù)矩陣；

26、目標(biāo)運(yùn)動模版矩陣確定模塊，用于將所述目標(biāo)選擇系數(shù)矩陣與所述訓(xùn)練后的權(quán)重矩陣進(jìn)行融合，得到目標(biāo)運(yùn)動模版矩陣，其中，所述權(quán)重矩陣用于表征所述不同醫(yī)學(xué)部位的運(yùn)動趨勢信息；

27、目標(biāo)編碼潛在表示確定模塊，用于將所述目標(biāo)圖像輸入所述vae編碼器，通過所述vae編碼器輸出目標(biāo)編碼潛在表示；

28、目標(biāo)運(yùn)動模版添加模塊，用于將所述目標(biāo)編碼潛在表示輸入所述unet網(wǎng)絡(luò)，并將所述目標(biāo)運(yùn)動模版矩陣加入所述unet網(wǎng)絡(luò)的時間注意力層中；

29、目標(biāo)視頻生成模塊，用于將加入所述運(yùn)動模版矩陣的unet網(wǎng)絡(luò)的輸出結(jié)果輸入所述vae解碼器，通過所述vae解碼器生成目標(biāo)視頻。

30、第五方面，本申請還提供了一種電子設(shè)備，包括存儲器、處理器及存儲在存儲器上并可在處理器上運(yùn)行的計算機(jī)程序，所述處理器執(zhí)行所述程序時實現(xiàn)如本申請實施例中任一所述的視頻生成模型的訓(xùn)練方法和視頻生成方法。

31、第六方面，本申請還提供了一種計算機(jī)可讀存儲介質(zhì)，其上存儲有計算機(jī)程序，該程序被處理器執(zhí)行時實現(xiàn)如本申請實施例中任一所述的視頻生成模型的訓(xùn)練方法和視頻生成方法。

32、第七方面，本申請還提供了一種計算機(jī)程序產(chǎn)品，包括計算機(jī)程序，該計算機(jī)程序被處理器執(zhí)行時實現(xiàn)如本申請實施例中任一所述的視頻生成模型的訓(xùn)練方法和視頻生成方法。

33、本申請?zhí)峁┑囊曨l生成模型的訓(xùn)練方法、視頻生成方法、裝置和設(shè)備，通過對訓(xùn)練數(shù)據(jù)中的靜態(tài)圖像進(jìn)行圖像分類，確定表示靜態(tài)圖像中不同醫(yī)學(xué)部位所屬類型的選擇系數(shù)矩陣，然后將選擇系數(shù)矩陣與預(yù)先初始化的權(quán)重矩陣進(jìn)行融合得到運(yùn)動模版矩陣，再將運(yùn)動模版矩陣加入unet網(wǎng)絡(luò)的時間注意力層中，在訓(xùn)練過程中，凍結(jié)unet網(wǎng)絡(luò)的空間注意力層的參數(shù)，優(yōu)化unet網(wǎng)絡(luò)的時間注意力層和權(quán)重矩陣的參數(shù)。由此，通過權(quán)重矩陣來學(xué)習(xí)表征不同醫(yī)學(xué)部位的運(yùn)動趨勢信息，使得訓(xùn)練后的視頻生成模型可以基于權(quán)重矩陣生成更具有真實性的醫(yī)學(xué)部位的動畫視頻，該動畫視頻更符合醫(yī)學(xué)部位的自然運(yùn)動趨勢，從而提高生成動畫的準(zhǔn)確性和科學(xué)性。

技術(shù)特征：

1.一種視頻生成模型的訓(xùn)練方法，其特征在于，所述視頻生成模型包括預(yù)訓(xùn)練的vae編碼器、vae解碼器和unet網(wǎng)絡(luò)，所述unet網(wǎng)絡(luò)包括多組由時間注意力層和空間注意力層組成的注意力層，所述方法包括：

2.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述通過圖像分類確定表示所述靜態(tài)圖像中不同醫(yī)學(xué)部位所屬類型的選擇系數(shù)矩陣，包括：

3.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述將所述選擇系數(shù)矩陣與預(yù)先初始化的權(quán)重矩陣進(jìn)行融合，得到運(yùn)動模版矩陣，包括：

4.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述將所述運(yùn)動模版矩陣加入所述unet網(wǎng)絡(luò)的時間注意力層中，包括：

5.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述將所述靜態(tài)圖像輸入所述vae編碼器，通過所述vae編碼器輸出編碼潛在表示，包括：

6.一種視頻生成方法，其特征在于，包括：

7.根據(jù)權(quán)利要求6所述的方法，其特征在于，所述將所述目標(biāo)選擇系數(shù)矩陣與所述訓(xùn)練后的權(quán)重矩陣進(jìn)行融合，得到目標(biāo)運(yùn)動模版矩陣，包括：

8.一種視頻生成模型的訓(xùn)練裝置，其特征在于，所述視頻生成模型包括預(yù)訓(xùn)練的vae編碼器、vae解碼器和unet網(wǎng)絡(luò)，所述unet網(wǎng)絡(luò)包括多組由時間注意力層和空間注意力層組成的注意力層，所述裝置包括：

9.一種視頻生成裝置，其特征在于，包括：

10.一種電子設(shè)備，其特征在于，包括：處理器，以及與所述處理器通信連接的存儲器；

11.一種計算機(jī)可讀存儲介質(zhì)，其特征在于，所述計算機(jī)可讀存儲介質(zhì)中存儲有計算機(jī)執(zhí)行指令，所述計算機(jī)執(zhí)行指令被處理器執(zhí)行時用于實現(xiàn)如權(quán)利要求1-5中任一項所述的視頻生成模型的訓(xùn)練方法，以及實現(xiàn)如權(quán)利要求6或7所述的視頻生成方法。

12.一種計算機(jī)程序產(chǎn)品，其特征在于，包括計算機(jī)程序，該計算機(jī)程序被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1-5中任一項所述的視頻生成模型的訓(xùn)練方法，以及實現(xiàn)如權(quán)利要求6或7所述的視頻生成方法。

技術(shù)總結(jié)
本申請?zhí)峁┮环N視頻生成模型的訓(xùn)練方法、視頻生成方法、裝置和設(shè)備，涉及人工智能技術(shù)。該方法包括：針對由包含不同醫(yī)學(xué)部位的靜態(tài)圖像組成的訓(xùn)練數(shù)據(jù)，通過圖像分類確定表示不同醫(yī)學(xué)部位所屬類型的選擇系數(shù)矩陣；將選擇系數(shù)矩陣與初始化的權(quán)重矩陣融合，得到運(yùn)動模版矩陣；將靜態(tài)圖像輸入VAE編碼器，通過VAE編碼器輸出編碼潛在表示；將編碼潛在表示輸入UNET網(wǎng)絡(luò)，并將運(yùn)動模版矩陣加入UNET網(wǎng)絡(luò)的時間注意力層中；將加入運(yùn)動模版矩陣的UNET網(wǎng)絡(luò)的輸出結(jié)果輸入VAE解碼器，通過VAE解碼器生成當(dāng)前視頻；基于與靜態(tài)圖像對應(yīng)的真實視頻和當(dāng)前視頻計算當(dāng)前損失，并根據(jù)當(dāng)前損失優(yōu)化UNET網(wǎng)絡(luò)的時間注意力層和權(quán)重矩陣的參數(shù)。本申請能提升生成醫(yī)學(xué)部位動畫的真實性。

技術(shù)研發(fā)人員：謝方敏,周峰,郭陟,陳蔚岳
受保護(hù)的技術(shù)使用者：廣州方舟信息科技有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2024/12/19

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：謝方敏,周峰,郭陟,陳蔚岳
技術(shù)所有人：廣州方舟信息科技有限公司
我是此專利的發(fā)明人

上一篇：一種工字型鋼座的薄壁加固結(jié)構(gòu)的制作方法
上一篇：一種兒童安全座椅支撐腿固定機(jī)構(gòu)的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

視頻生成模型的訓(xùn)練方法、視頻生成方法、裝置和設(shè)備與流程

視頻生成模型的訓(xùn)練方法、視頻生成方法、裝置和設(shè)備與流程