本申請涉及人工智能,尤其涉及一種視頻生成模型的訓(xùn)練方法、視頻生成方法、裝置和設(shè)備。
背景技術(shù):
1、在醫(yī)學(xué)教育、臨床診斷以及科學(xué)普及等領(lǐng)域,高質(zhì)量的血管和內(nèi)臟動畫扮演著至關(guān)重要的角色。然而,現(xiàn)有的動畫制作技術(shù)在模擬血管和內(nèi)臟等醫(yī)學(xué)部位的動態(tài)行為方面存在顯著不足。
技術(shù)實現(xiàn)思路
1、本申請?zhí)峁┮环N視頻生成模型的訓(xùn)練方法、視頻生成方法、裝置和設(shè)備,用以解決現(xiàn)有技術(shù)中在模擬血管和內(nèi)臟等醫(yī)學(xué)部位的動態(tài)行為方面存在顯著不足的問題。
2、第一方面,本申請?zhí)峁┝艘环N視頻生成模型的訓(xùn)練方法,所述視頻生成模型包括預(yù)訓(xùn)練的vae編碼器、vae解碼器和unet網(wǎng)絡(luò),所述unet網(wǎng)絡(luò)包括多組由時間注意力層和空間注意力層組成的注意力層,所述方法包括:
3、針對由包含不同醫(yī)學(xué)部位的靜態(tài)圖像組成的訓(xùn)練數(shù)據(jù),通過圖像分類確定表示所述靜態(tài)圖像中不同醫(yī)學(xué)部位所屬類型的選擇系數(shù)矩陣;
4、將所述選擇系數(shù)矩陣與預(yù)先初始化的權(quán)重矩陣進(jìn)行融合,得到運(yùn)動模版矩陣,其中,所述權(quán)重矩陣用于表征所述不同醫(yī)學(xué)部位的運(yùn)動趨勢信息;
5、將所述靜態(tài)圖像輸入所述vae編碼器,通過所述vae編碼器輸出編碼潛在表示;
6、將所述編碼潛在表示輸入所述unet網(wǎng)絡(luò),并將所述運(yùn)動模版矩陣加入所述unet網(wǎng)絡(luò)的時間注意力層中;
7、將加入所述運(yùn)動模版矩陣的unet網(wǎng)絡(luò)的輸出結(jié)果輸入所述vae解碼器,通過所述vae解碼器生成當(dāng)前視頻;
8、基于與所述靜態(tài)圖像對應(yīng)的真實視頻和所述當(dāng)前視頻計算當(dāng)前損失,并根據(jù)所述當(dāng)前損失優(yōu)化所述unet網(wǎng)絡(luò)的時間注意力層和所述權(quán)重矩陣的參數(shù),其中,所述unet網(wǎng)絡(luò)的空間注意力層的參數(shù)在訓(xùn)練過程中凍結(jié)。
9、第二方面,本申請?zhí)峁┝艘环N視頻生成方法,包括:
10、獲取視頻生成模型和訓(xùn)練后的權(quán)重矩陣,其中,所述視頻生成模型是按照本申請實施例中任一所述的視頻生成模型的訓(xùn)練方法訓(xùn)練得到,所述視頻生成模型包括vae編碼器、vae解碼器和unet網(wǎng)絡(luò);
11、對包含不同醫(yī)學(xué)部位的目標(biāo)圖像進(jìn)行圖像分類,得到表示所述目標(biāo)圖像中不同醫(yī)學(xué)部位所屬類型的目標(biāo)選擇系數(shù)矩陣;
12、將所述目標(biāo)選擇系數(shù)矩陣與所述訓(xùn)練后的權(quán)重矩陣進(jìn)行融合,得到目標(biāo)運(yùn)動模版矩陣,其中,所述權(quán)重矩陣用于表征所述不同醫(yī)學(xué)部位的運(yùn)動趨勢信息;
13、將所述目標(biāo)圖像輸入所述vae編碼器,通過所述vae編碼器輸出目標(biāo)編碼潛在表示;
14、將所述目標(biāo)編碼潛在表示輸入所述unet網(wǎng)絡(luò),并將所述目標(biāo)運(yùn)動模版矩陣加入所述unet網(wǎng)絡(luò)的時間注意力層中;
15、將加入所述運(yùn)動模版矩陣的unet網(wǎng)絡(luò)的輸出結(jié)果輸入所述vae解碼器,通過所述vae解碼器生成目標(biāo)視頻。
16、第三方面,本申請?zhí)峁┝艘环N視頻生成模型的訓(xùn)練裝置,所述視頻生成模型包括預(yù)訓(xùn)練的vae編碼器、vae解碼器和unet網(wǎng)絡(luò),所述unet網(wǎng)絡(luò)包括多組由時間注意力層和空間注意力層組成的注意力層,所述裝置包括:
17、圖像分類模塊,用于針對由包含不同醫(yī)學(xué)部位的靜態(tài)圖像組成的訓(xùn)練數(shù)據(jù),通過圖像分類確定表示所述靜態(tài)圖像中不同醫(yī)學(xué)部位所屬類型的選擇系數(shù)矩陣;
18、運(yùn)動模版選擇模塊,用于將所述選擇系數(shù)矩陣與預(yù)先初始化的權(quán)重矩陣進(jìn)行融合,得到運(yùn)動模版矩陣,其中,所述權(quán)重矩陣用于表征所述不同醫(yī)學(xué)部位的運(yùn)動趨勢信息;
19、第一輸入模塊,用于將所述靜態(tài)圖像輸入所述vae編碼器,通過所述vae編碼器輸出編碼潛在表示;
20、運(yùn)動模版添加模塊,用于將所述編碼潛在表示輸入所述unet網(wǎng)絡(luò),并將所述運(yùn)動模版矩陣加入所述unet網(wǎng)絡(luò)的時間注意力層中;
21、第二輸入模塊,用于將加入所述運(yùn)動模版矩陣的unet網(wǎng)絡(luò)的輸出結(jié)果輸入所述vae解碼器,通過所述vae解碼器生成當(dāng)前視頻;
22、優(yōu)化訓(xùn)練模塊,用于基于與所述靜態(tài)圖像對應(yīng)的真實視頻和所述當(dāng)前視頻計算當(dāng)前損失,并根據(jù)所述當(dāng)前損失優(yōu)化所述unet網(wǎng)絡(luò)的時間注意力層和所述權(quán)重矩陣的參數(shù),其中,所述unet網(wǎng)絡(luò)的空間注意力層的參數(shù)在訓(xùn)練過程中凍結(jié)。
23、第四方面,本申請?zhí)峁┝艘环N視頻生成裝置,包括:
24、模型獲取模塊,用于獲取視頻生成模型和訓(xùn)練后的權(quán)重矩陣,其中,所述視頻生成模型是由本申請實施例中任一所述的視頻生成模型的訓(xùn)練裝置訓(xùn)練得到,所述視頻生成模型包括vae編碼器、vae解碼器和unet網(wǎng)絡(luò);
25、目標(biāo)選擇系數(shù)矩陣確定模塊,用于對包含不同醫(yī)學(xué)部位的目標(biāo)圖像進(jìn)行圖像分類,得到表示所述目標(biāo)圖像中不同醫(yī)學(xué)部位所屬類型的目標(biāo)選擇系數(shù)矩陣;
26、目標(biāo)運(yùn)動模版矩陣確定模塊,用于將所述目標(biāo)選擇系數(shù)矩陣與所述訓(xùn)練后的權(quán)重矩陣進(jìn)行融合,得到目標(biāo)運(yùn)動模版矩陣,其中,所述權(quán)重矩陣用于表征所述不同醫(yī)學(xué)部位的運(yùn)動趨勢信息;
27、目標(biāo)編碼潛在表示確定模塊,用于將所述目標(biāo)圖像輸入所述vae編碼器,通過所述vae編碼器輸出目標(biāo)編碼潛在表示;
28、目標(biāo)運(yùn)動模版添加模塊,用于將所述目標(biāo)編碼潛在表示輸入所述unet網(wǎng)絡(luò),并將所述目標(biāo)運(yùn)動模版矩陣加入所述unet網(wǎng)絡(luò)的時間注意力層中;
29、目標(biāo)視頻生成模塊,用于將加入所述運(yùn)動模版矩陣的unet網(wǎng)絡(luò)的輸出結(jié)果輸入所述vae解碼器,通過所述vae解碼器生成目標(biāo)視頻。
30、第五方面,本申請還提供了一種電子設(shè)備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運(yùn)行的計算機(jī)程序,所述處理器執(zhí)行所述程序時實現(xiàn)如本申請實施例中任一所述的視頻生成模型的訓(xùn)練方法和視頻生成方法。
31、第六方面,本申請還提供了一種計算機(jī)可讀存儲介質(zhì),其上存儲有計算機(jī)程序,該程序被處理器執(zhí)行時實現(xiàn)如本申請實施例中任一所述的視頻生成模型的訓(xùn)練方法和視頻生成方法。
32、第七方面,本申請還提供了一種計算機(jī)程序產(chǎn)品,包括計算機(jī)程序,該計算機(jī)程序被處理器執(zhí)行時實現(xiàn)如本申請實施例中任一所述的視頻生成模型的訓(xùn)練方法和視頻生成方法。
33、本申請?zhí)峁┑囊曨l生成模型的訓(xùn)練方法、視頻生成方法、裝置和設(shè)備,通過對訓(xùn)練數(shù)據(jù)中的靜態(tài)圖像進(jìn)行圖像分類,確定表示靜態(tài)圖像中不同醫(yī)學(xué)部位所屬類型的選擇系數(shù)矩陣,然后將選擇系數(shù)矩陣與預(yù)先初始化的權(quán)重矩陣進(jìn)行融合得到運(yùn)動模版矩陣,再將運(yùn)動模版矩陣加入unet網(wǎng)絡(luò)的時間注意力層中,在訓(xùn)練過程中,凍結(jié)unet網(wǎng)絡(luò)的空間注意力層的參數(shù),優(yōu)化unet網(wǎng)絡(luò)的時間注意力層和權(quán)重矩陣的參數(shù)。由此,通過權(quán)重矩陣來學(xué)習(xí)表征不同醫(yī)學(xué)部位的運(yùn)動趨勢信息,使得訓(xùn)練后的視頻生成模型可以基于權(quán)重矩陣生成更具有真實性的醫(yī)學(xué)部位的動畫視頻,該動畫視頻更符合醫(yī)學(xué)部位的自然運(yùn)動趨勢,從而提高生成動畫的準(zhǔn)確性和科學(xué)性。
1.一種視頻生成模型的訓(xùn)練方法,其特征在于,所述視頻生成模型包括預(yù)訓(xùn)練的vae編碼器、vae解碼器和unet網(wǎng)絡(luò),所述unet網(wǎng)絡(luò)包括多組由時間注意力層和空間注意力層組成的注意力層,所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述通過圖像分類確定表示所述靜態(tài)圖像中不同醫(yī)學(xué)部位所屬類型的選擇系數(shù)矩陣,包括:
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述將所述選擇系數(shù)矩陣與預(yù)先初始化的權(quán)重矩陣進(jìn)行融合,得到運(yùn)動模版矩陣,包括:
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述將所述運(yùn)動模版矩陣加入所述unet網(wǎng)絡(luò)的時間注意力層中,包括:
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述將所述靜態(tài)圖像輸入所述vae編碼器,通過所述vae編碼器輸出編碼潛在表示,包括:
6.一種視頻生成方法,其特征在于,包括:
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述將所述目標(biāo)選擇系數(shù)矩陣與所述訓(xùn)練后的權(quán)重矩陣進(jìn)行融合,得到目標(biāo)運(yùn)動模版矩陣,包括:
8.一種視頻生成模型的訓(xùn)練裝置,其特征在于,所述視頻生成模型包括預(yù)訓(xùn)練的vae編碼器、vae解碼器和unet網(wǎng)絡(luò),所述unet網(wǎng)絡(luò)包括多組由時間注意力層和空間注意力層組成的注意力層,所述裝置包括:
9.一種視頻生成裝置,其特征在于,包括:
10.一種電子設(shè)備,其特征在于,包括:處理器,以及與所述處理器通信連接的存儲器;
11.一種計算機(jī)可讀存儲介質(zhì),其特征在于,所述計算機(jī)可讀存儲介質(zhì)中存儲有計算機(jī)執(zhí)行指令,所述計算機(jī)執(zhí)行指令被處理器執(zhí)行時用于實現(xiàn)如權(quán)利要求1-5中任一項所述的視頻生成模型的訓(xùn)練方法,以及實現(xiàn)如權(quán)利要求6或7所述的視頻生成方法。
12.一種計算機(jī)程序產(chǎn)品,其特征在于,包括計算機(jī)程序,該計算機(jī)程序被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1-5中任一項所述的視頻生成模型的訓(xùn)練方法,以及實現(xiàn)如權(quán)利要求6或7所述的視頻生成方法。