本發(fā)明涉及計(jì)算機(jī)圖形學(xué)和語(yǔ)音驅(qū)動(dòng)的動(dòng)畫(huà),尤其涉及一種基于音頻驅(qū)動(dòng)的針對(duì)中文的唇音同步方法及系統(tǒng)。
背景技術(shù):
1、傳統(tǒng)的3d建模軟件需要手動(dòng)創(chuàng)建3d模型和動(dòng)畫(huà),通常需要大量的手工工作和專(zhuān)業(yè)知識(shí)。傳統(tǒng)的面部捕捉技術(shù)需要用到專(zhuān)業(yè)設(shè)備,雖然能實(shí)現(xiàn)高度逼真的面部動(dòng)畫(huà),但設(shè)備成本高,操作復(fù)雜。現(xiàn)有的基于規(guī)則的唇音同步系統(tǒng)能根據(jù)預(yù)定義但規(guī)則將語(yǔ)音轉(zhuǎn)換為唇部動(dòng)作,實(shí)現(xiàn)起來(lái)相對(duì)簡(jiǎn)單,但可能不夠自然和準(zhǔn)確?,F(xiàn)有的一些基于深度學(xué)習(xí)驅(qū)動(dòng)的唇音同步算法可以自動(dòng)從數(shù)據(jù)中學(xué)習(xí),但可能缺乏對(duì)復(fù)雜動(dòng)態(tài)和細(xì)微動(dòng)作對(duì)處理能力。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的在于提供一種基于音頻驅(qū)動(dòng)的針對(duì)中文的唇音同步方法及系統(tǒng),從而解決現(xiàn)有技術(shù)中存在的前述問(wèn)題。
2、為了實(shí)現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案如下:
3、一種基于音頻驅(qū)動(dòng)的針對(duì)中文的唇音同步方法,包括如下步驟,
4、s1、面部區(qū)域提?。簩?duì)用戶(hù)輸入的符合要求的視頻數(shù)據(jù)進(jìn)行人臉檢測(cè)和人體姿態(tài)估計(jì),將人臉檢測(cè)結(jié)果和人體姿態(tài)估計(jì)結(jié)果進(jìn)行整合,以判斷人頭區(qū)域邊界的準(zhǔn)確位置,并通過(guò)人頭區(qū)域邊界進(jìn)行優(yōu)化,獲取精確的人頭區(qū)域視頻;
5、s2、音頻特征提取:對(duì)用戶(hù)輸入的符合要求的視頻數(shù)據(jù)進(jìn)行音頻特征提取,并將與嘴型變化相關(guān)的音頻特征轉(zhuǎn)換為音素序列;
6、s3、相機(jī)內(nèi)外參數(shù)獲?。簩?duì)人頭區(qū)域的視頻進(jìn)行人臉關(guān)鍵點(diǎn)檢測(cè)、人臉表情檢測(cè)和人臉區(qū)域劃分,基于人臉關(guān)鍵點(diǎn)檢測(cè)、人臉表情檢測(cè)和人臉區(qū)域劃分的結(jié)果,重建人臉模型,通過(guò)跟蹤重建人臉模型在連續(xù)幀中的變化,利用pnp算法計(jì)算相機(jī)內(nèi)外參數(shù);
7、s4、模型訓(xùn)練:將音素序列、相機(jī)內(nèi)外參數(shù)和3d坐標(biāo)輸入到nerf網(wǎng)絡(luò)中,并通過(guò)引入注意力機(jī)制、設(shè)置相應(yīng)的損失函數(shù),對(duì)nerf網(wǎng)絡(luò)的唇音同步能力進(jìn)行訓(xùn)練,利用梯度下降法優(yōu)化網(wǎng)絡(luò)參數(shù),直至損失函數(shù)收斂,得到訓(xùn)練好的nerf網(wǎng)絡(luò);
8、s5、模型推理:將用戶(hù)提交的音頻文件輸入到訓(xùn)練好的nerf網(wǎng)絡(luò)中,獲取與語(yǔ)音匹配的頭部區(qū)域渲染圖片,并將其同步到原視頻數(shù)據(jù)中,最終生成基于音頻驅(qū)動(dòng)的唇音同步視頻數(shù)據(jù)。
9、優(yōu)選的,步驟s1之前還包括,對(duì)用戶(hù)輸入的視頻數(shù)據(jù)進(jìn)行檢查,判斷輸入的視頻數(shù)據(jù)是否符合要求,若符合要求則進(jìn)入后續(xù)操作,否則需要重新輸入新的視頻數(shù)據(jù);
10、對(duì)視頻數(shù)據(jù)的判斷包括如下幾個(gè)方面:
11、(1)、要確保視頻數(shù)據(jù)中存在至少一個(gè)人體或人臉;
12、(2)、要確保視頻數(shù)據(jù)中應(yīng)當(dāng)包含完整的臉部區(qū)域,臉部區(qū)域應(yīng)當(dāng)清晰可見(jiàn),沒(méi)有嚴(yán)重的模糊或失焦;
13、(3)、評(píng)估光照條件,臉部區(qū)域應(yīng)當(dāng)有均勻的光照,避免強(qiáng)烈的陰影或反光;
14、(4)、臉部不應(yīng)當(dāng)被物體遮擋,特別是嘴唇區(qū)域;
15、(5)、視頻數(shù)據(jù)應(yīng)當(dāng)由足夠的分辨率,能夠清晰地看到嘴唇的細(xì)微動(dòng)作;
16、(6)視頻數(shù)據(jù)中的音頻應(yīng)當(dāng)為中文,主要由中文字符構(gòu)成。
17、優(yōu)選的,步驟s2具體包括如下內(nèi)容,
18、s11、使用人臉檢測(cè)算法在視頻數(shù)據(jù)的圖像上以不同大小和位置的窗口進(jìn)行滑動(dòng),對(duì)每個(gè)窗口內(nèi)的區(qū)域進(jìn)行分析,判斷是否為人臉并進(jìn)行分類(lèi),對(duì)檢測(cè)到的人臉區(qū)域進(jìn)行去重檢測(cè)和合并相鄰區(qū)域操作,獲取準(zhǔn)確和完成的人臉檢測(cè)結(jié)果,并輸出人臉的位置和邊界框信息;
19、s12、采用預(yù)訓(xùn)練的人體姿態(tài)估計(jì)模型輸出人體關(guān)節(jié)點(diǎn)在視頻數(shù)據(jù)的圖像中的位置,通過(guò)幾何約束和人體結(jié)構(gòu)先驗(yàn)知識(shí)修正不合理的關(guān)節(jié)點(diǎn)位置,從而推斷出人體的姿態(tài)和大致的身體輪廓;
20、s13、將人臉檢測(cè)算法的輸出和人體姿態(tài)估計(jì)模型的輸出進(jìn)行整合,獲取頭部與身體的相對(duì)位置關(guān)系以及頭部的重要關(guān)鍵點(diǎn)坐標(biāo),從而綜合判斷人頭區(qū)域邊界的準(zhǔn)確位置,并對(duì)確定的人頭區(qū)域邊界不斷微調(diào),獲取精確的人頭區(qū)域視頻;
21、s14、對(duì)精確的人頭區(qū)域視頻進(jìn)行后處理,優(yōu)化人頭區(qū)域的邊界。
22、優(yōu)選的,步驟s2中,使用梅爾頻率倒譜系數(shù)或其他聲譜特征來(lái)捕捉視頻數(shù)據(jù)中的音頻信號(hào),將音頻信號(hào)中與嘴型變化相關(guān)的特征轉(zhuǎn)換為音素序列。
23、優(yōu)選的,步驟s3具體包括如下內(nèi)容,
24、s31、利用訓(xùn)練好的人臉關(guān)鍵點(diǎn)算法在人臉圖像上定位出關(guān)鍵的特征點(diǎn);
25、s32、利用已經(jīng)在大量人臉圖像數(shù)據(jù)集中訓(xùn)練過(guò)的基于cnn構(gòu)建的表情檢測(cè)模型,對(duì)人臉的表情狀態(tài)進(jìn)行表情分類(lèi);
26、s33、使用語(yǔ)義分割算法將人臉劃分為不同的區(qū)域;
27、s34、根據(jù)獲取到的關(guān)鍵特征點(diǎn)、表情分類(lèi)和區(qū)域劃分信息,使用三維建模技術(shù)重建人臉模型;
28、s35、通過(guò)跟蹤重建人臉模型在連續(xù)幀中的位置和姿態(tài)變化,利用pnp算法根據(jù)已知的人臉關(guān)鍵點(diǎn)在圖像中的坐標(biāo)和對(duì)應(yīng)的三維空間坐標(biāo),計(jì)算相機(jī)的內(nèi)外參。
29、優(yōu)選的,重建人臉模型具體為,首先根據(jù)關(guān)鍵點(diǎn)確定人臉的大致形狀和輪廓;然后結(jié)合表情分類(lèi)結(jié)果來(lái)調(diào)整面部肌肉和皮膚的變形,以模擬不同表情下的形態(tài)變化;
30、其中,模型的形狀參數(shù)包括面部各個(gè)部位的長(zhǎng)度、寬度和高度;紋理參數(shù)描述了皮膚的顏色、粗糙度特性;姿態(tài)參數(shù)包括人臉的旋轉(zhuǎn)、傾斜和俯仰角度。
31、優(yōu)選的,步驟s4具體包括如下內(nèi)容,
32、s41、將音素序列、相機(jī)內(nèi)外參數(shù)和3d坐標(biāo)作為輸入數(shù)據(jù)傳入nerf網(wǎng)絡(luò);
33、s42、對(duì)3d坐標(biāo)進(jìn)行位置編碼,增強(qiáng)網(wǎng)絡(luò)對(duì)空間信息的建模能力;
34、s43、通過(guò)網(wǎng)絡(luò)學(xué)習(xí)3d坐標(biāo)與音頻特征之間的映射關(guān)系;
35、s44、輸出每個(gè)點(diǎn)的顏色信息;
36、s45、在人像邊緣區(qū)域引入注意力機(jī)制,提高邊緣細(xì)節(jié)的重建質(zhì)量;在唇部區(qū)域添加單獨(dú)的注意力機(jī)制,關(guān)注唇音同步的關(guān)鍵信息;對(duì)于眨眼控制,注意力機(jī)制將專(zhuān)注于眼睛區(qū)域的動(dòng)作生成;
37、s46、設(shè)計(jì)損失函數(shù),分別計(jì)算重建圖像與真實(shí)圖像之間的差異以及唇部關(guān)鍵點(diǎn)距離損失、唇部動(dòng)作分類(lèi)損失;
38、s47、在保持頭部重建能力的基礎(chǔ)上,對(duì)nerf網(wǎng)絡(luò)的唇音同步能力進(jìn)行訓(xùn)練,并利用梯度下降法優(yōu)化網(wǎng)絡(luò)參數(shù),直至損失函數(shù)收斂。
39、優(yōu)選的,步驟s5具體包括如下內(nèi)容,
40、s51、加載訓(xùn)練好的nerf網(wǎng)絡(luò)及其參數(shù)權(quán)重文件;
41、s52、對(duì)輸入的音頻數(shù)據(jù)進(jìn)行特征提取操作;
42、s53、將提取的語(yǔ)音特征輸入到訓(xùn)練好的nerf網(wǎng)絡(luò)中,模型通過(guò)編碼器處理語(yǔ)音特征,并通過(guò)解碼器生成對(duì)應(yīng)的3d頭部運(yùn)動(dòng)和唇部動(dòng)作序列;
43、s54、使用nerf網(wǎng)絡(luò)輸出的密度和顏色信息進(jìn)行體積渲染,生成頭部的3d渲染圖像;
44、s55、對(duì)頭部的3d渲染圖像以及唇部動(dòng)作進(jìn)行后處理,獲取最終的渲染圖像;
45、s56、將最終的渲染圖像映射回原視頻數(shù)據(jù)中,實(shí)現(xiàn)唇音同步。
46、本發(fā)明的目的還在于提供一種基于音頻驅(qū)動(dòng)的針對(duì)中文的唇音同步系統(tǒng),系統(tǒng)能夠?qū)崿F(xiàn)上述所述的方法,系統(tǒng)包括,
47、面部區(qū)域提取模塊:對(duì)用戶(hù)輸入的符合要求的視頻數(shù)據(jù)進(jìn)行人臉檢測(cè)和人體姿態(tài)估計(jì),將人臉檢測(cè)結(jié)果和人體姿態(tài)估計(jì)結(jié)果進(jìn)行整合,以判斷人頭區(qū)域邊界的準(zhǔn)確位置,并通過(guò)人頭區(qū)域邊界進(jìn)行優(yōu)化,獲取精確的人頭區(qū)域視頻;
48、音頻特征提取模塊:對(duì)用戶(hù)輸入的符合要求的視頻數(shù)據(jù)進(jìn)行音頻特征提取,并將與嘴型變化相關(guān)的音頻特征轉(zhuǎn)換為音素序列;
49、相機(jī)內(nèi)外參數(shù)獲取模塊:對(duì)人頭區(qū)域的視頻進(jìn)行人臉關(guān)鍵點(diǎn)檢測(cè)、人臉表情檢測(cè)和人臉區(qū)域劃分,基于人臉關(guān)鍵點(diǎn)檢測(cè)、人臉表情檢測(cè)和人臉區(qū)域劃分的結(jié)果,重建人臉模型,通過(guò)跟蹤重建人臉模型在連續(xù)幀中的變化,利用pnp算法計(jì)算相機(jī)內(nèi)外參數(shù);
50、模型訓(xùn)練模塊:將音素序列、相機(jī)內(nèi)外參數(shù)和3d坐標(biāo)輸入到nerf網(wǎng)絡(luò)中,并通過(guò)引入注意力機(jī)制、設(shè)置相應(yīng)的損失函數(shù),對(duì)nerf網(wǎng)絡(luò)的唇音同步能力進(jìn)行訓(xùn)練,利用梯度下降法優(yōu)化網(wǎng)絡(luò)參數(shù),直至損失函數(shù)收斂,得到訓(xùn)練好的nerf網(wǎng)絡(luò);
51、模型推理模塊:將用戶(hù)提交的音頻文件輸入到訓(xùn)練好的nerf網(wǎng)絡(luò)中,獲取與語(yǔ)音匹配的頭部區(qū)域渲染圖片,并將其同步到原視頻數(shù)據(jù)中,最終生成基于音頻驅(qū)動(dòng)的唇音同步視頻數(shù)據(jù)。
52、本發(fā)明的有益效果是:1、能夠更自然地同步語(yǔ)音和唇部動(dòng)作,減少了傳統(tǒng)方法中可能出現(xiàn)的僵硬或不自然的唇部動(dòng)作。2、通過(guò)對(duì)特定區(qū)域應(yīng)用注意力機(jī)制,算法能夠生成更精細(xì)和逼真的面部表情,提高了視頻的整體真實(shí)感。