本發(fā)明屬于數(shù)字人口型動(dòng)畫合成,具體涉及一種基于隱音素檢索的數(shù)字人口型多樣性增強(qiáng)方法。
背景技術(shù):
1、在數(shù)字人口型動(dòng)畫合成領(lǐng)域,現(xiàn)有的主流技術(shù)方案通常基于音素(phoneme)與視素(viseme)的匹配方法。這一方法首先從語(yǔ)音中提取連續(xù)的音素序列,例如:/ni3hɑo3/(你好)、(hello),隨后根據(jù)音素與預(yù)定義視素之間的對(duì)應(yīng)關(guān)系,挑選出相應(yīng)的視素圖像,最終將這些圖像拼接成流暢的口型動(dòng)畫。
2、音素是人類語(yǔ)言中能夠區(qū)別意義的最小聲音單位,通常通過(guò)語(yǔ)音專家手動(dòng)標(biāo)注或使用語(yǔ)音識(shí)別工具對(duì)音頻數(shù)據(jù)進(jìn)行分段和分類。而視素則指與特定音素相對(duì)應(yīng)的發(fā)音器官的可視狀態(tài)。mpeg-4標(biāo)準(zhǔn)提出了視素的概念,并將其應(yīng)用于語(yǔ)音動(dòng)畫合成中。
3、市場(chǎng)上已商業(yè)化的應(yīng)用為了降低成本并確保實(shí)時(shí)性,通常會(huì)采用這種方案。首先將輸入的語(yǔ)音信號(hào)進(jìn)行音素級(jí)分割,識(shí)別出連續(xù)語(yǔ)音中的各個(gè)音素。然后,根據(jù)音素到視素的映射關(guān)系,確定相應(yīng)的口型動(dòng)畫。這種方法的優(yōu)勢(shì)在于實(shí)現(xiàn)相對(duì)簡(jiǎn)單,能夠快速地將語(yǔ)音與口型動(dòng)畫進(jìn)行同步,在算力受限的手機(jī)端應(yīng)用廣泛。
4、然而,現(xiàn)有技術(shù)存在一些局限性。由于音素和視素的映射關(guān)系是基于靜態(tài)的、離散的狀態(tài),這種方法難以捕捉到發(fā)音過(guò)程中的動(dòng)態(tài)變化和細(xì)微差別。此外,不同語(yǔ)言的發(fā)音特點(diǎn)和音位組成差異較大,導(dǎo)致現(xiàn)有的音素視素匹配方案在處理某些語(yǔ)言時(shí)可能不夠準(zhǔn)確或自然。
5、此外,對(duì)于不同語(yǔ)種,音視素的個(gè)數(shù)和定義也不盡相同。例如,英語(yǔ)可能需要區(qū)分更多的輔音視素,以反映其豐富的輔音結(jié)尾和輔音群;漢語(yǔ)中的聲母和韻母構(gòu)成復(fù)雜,其視素分類方法多樣,從基于聲母和韻母的分類到使用聚類方法對(duì)音素進(jìn)行分組,不同的分類方法反映了漢語(yǔ)發(fā)音的復(fù)雜性。例如,有研究將漢語(yǔ)分為28個(gè)基本的靜態(tài)視位,而微軟則將視素分為22個(gè),以適應(yīng)不同語(yǔ)言的需求。這些分類方法為音素到視素的映射提供了基礎(chǔ),而生成這些音素需要基于語(yǔ)言學(xué)的規(guī)則,通常通過(guò)具備相關(guān)專業(yè)知識(shí)的語(yǔ)音專家手動(dòng)標(biāo)注或使用先進(jìn)的語(yǔ)音識(shí)別工具對(duì)音頻數(shù)據(jù)進(jìn)行分段和分類,是一個(gè)非常耗時(shí)的過(guò)程。同時(shí),受人工定義的局限性,離散有限的音素個(gè)數(shù)在實(shí)際應(yīng)用中仍面臨著發(fā)音連貫性和動(dòng)畫真實(shí)性的挑戰(zhàn)。
6、綜上所述,盡管現(xiàn)有的音素視素匹配方案在數(shù)字人口型動(dòng)畫合成中得到了廣泛應(yīng)用,但其在捕捉自然發(fā)音的動(dòng)態(tài)變化和適應(yīng)不同語(yǔ)言特點(diǎn)方面仍有改進(jìn)空間。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的在于提供一種基于隱音素檢索的數(shù)字人口型多樣性增強(qiáng)方法,通過(guò)引入基于深度學(xué)習(xí)的隱音素技術(shù),克服現(xiàn)有技術(shù)的局限,實(shí)現(xiàn)更自然、更連貫的數(shù)字人口型動(dòng)畫合成。
2、為實(shí)現(xiàn)上述目的,本發(fā)明采用了如下技術(shù)方案:一種基于隱音素檢索的數(shù)字人口型多樣性增強(qiáng)方法,包括以下步驟:
3、a)數(shù)據(jù)預(yù)處理步驟,對(duì)已有數(shù)字人說(shuō)話視頻中的音頻與視頻數(shù)據(jù)進(jìn)行預(yù)處理,為步驟b)提供預(yù)處理后的音頻和視頻數(shù)據(jù);
4、b)特征提取步驟,利用深度音頻特征編碼器對(duì)步驟a)中預(yù)處理后的音頻數(shù)據(jù)進(jìn)行特征提取,生成特征向量,步驟b)生成的特征向量作為步驟c)的輸入;
5、c)隱音素生成步驟,使用聚類算法對(duì)步驟b)中提取的音頻特征向量進(jìn)行聚類,生成代表不同隱音素的中心特征向量,步驟c)生成的隱音素用于步驟d)中的隱音素-視素庫(kù)構(gòu)建;
6、d)隱音素-視素庫(kù)構(gòu)建步驟,將步驟c)生成的隱音素與對(duì)應(yīng)的視頻圖片幀關(guān)聯(lián),形成一個(gè)包含多種發(fā)音口型的視素圖庫(kù),步驟d)構(gòu)建的庫(kù)為步驟e)提供隱音素和視素圖;
7、e)音頻的隱音素檢索步驟,在數(shù)字人與用戶實(shí)時(shí)交互過(guò)程中,將音頻片段通過(guò)深度音頻特征編碼器轉(zhuǎn)換為特征向量,并與步驟d)構(gòu)建的隱音素集合計(jì)算距離或相似度,檢索出最匹配的視素口型圖片序列,步驟e)檢索的結(jié)果用于步驟f);
8、f)視素圖匹配步驟,根據(jù)步驟e)檢索到的隱音素口型圖片序列,從步驟d)構(gòu)建的庫(kù)中匹配相應(yīng)的視素圖,步驟f)匹配的視素圖為步驟g)提供口型序列;
9、g)口型序列合成步驟,按照時(shí)序順序組合步驟f)中匹配的視素圖,生成連貫的數(shù)字人口型動(dòng)畫,步驟g)合成的動(dòng)畫為步驟h)提供基礎(chǔ);
10、h)動(dòng)態(tài)匹配機(jī)制步驟,在實(shí)時(shí)音頻處理過(guò)程中,動(dòng)態(tài)調(diào)整隱音素和視素?cái)?shù)量和匹配關(guān)系以優(yōu)化口型動(dòng)畫表現(xiàn)力,步驟h)的調(diào)整依據(jù)步驟i)中反饋的交互體驗(yàn);
11、i)持續(xù)優(yōu)化與迭代步驟,根據(jù)數(shù)字人的發(fā)音風(fēng)格和真實(shí)交互體驗(yàn),不斷調(diào)整隱音素和視素的數(shù)量,提升系統(tǒng)的適應(yīng)性和性能,步驟i)的反饋循環(huán)作用于步驟c)至步驟h)。
12、優(yōu)選的,所述數(shù)據(jù)預(yù)處理步驟a)包括以下子步驟:
13、a1)音頻重采樣步驟,將所有音頻數(shù)據(jù)重采樣至16,000hz,步驟a1)處理后的音頻為步驟a2)提供輸入;
14、a2)mel頻譜圖計(jì)算步驟,使用25毫秒的窗口和10毫秒的步長(zhǎng)對(duì)步驟a1)中重采樣的音頻數(shù)據(jù)進(jìn)行滑動(dòng)分割,并計(jì)算80通道的對(duì)數(shù)mel頻譜圖,步驟a2)生成的mel頻譜圖作為步驟a3)的輸入;
15、a3)視頻幀率轉(zhuǎn)換步驟,將視頻轉(zhuǎn)換為每秒25幀,并將視頻拆分為單張圖片,以確保每幀圖片能夠?qū)?yīng)40ms的音頻數(shù)據(jù),步驟a3)產(chǎn)生的圖片與步驟a2)的mel頻譜圖共同作為步驟b)的輸入。
16、優(yōu)選的,所述特征提取步驟b)包括以下子步驟:
17、b1)利用whisper模型的編碼器部分對(duì)步驟a2)生成的mel頻譜圖數(shù)據(jù)進(jìn)行特征提取,此編碼器包含兩個(gè)卷積層、正弦位置編碼及4層標(biāo)準(zhǔn)的transformer編碼器塊;
18、b2)經(jīng)過(guò)步驟b1)的處理后,30秒音頻的mel數(shù)據(jù)被轉(zhuǎn)化為特征向量,每20ms的音頻被轉(zhuǎn)為5*384緯的特征向量,步驟b2)生成的特征向量作為步驟c)隱音素生成的輸入。
19、優(yōu)選的,所述隱音素生成步驟c)包括以下子步驟:
20、c1)對(duì)步驟b2)中生成的特征向量進(jìn)行數(shù)據(jù)預(yù)處理,包括對(duì)每個(gè)特征進(jìn)行歸一化或標(biāo)準(zhǔn)化;
21、c2)在完成步驟c1)的數(shù)據(jù)預(yù)處理之后,選擇一個(gè)預(yù)設(shè)的簇?cái)?shù)量k,使用k-means聚類算法初始化k個(gè)質(zhì)心,并將步驟b2)中處理后的特征向量分配給最近的質(zhì)心,形成k個(gè)簇,這些簇的中心即為隱音素的中心特征向量;
22、c3)通過(guò)重復(fù)執(zhí)行步驟c2)中的分配數(shù)據(jù)點(diǎn)到最近中心和更新質(zhì)心的操作,直到質(zhì)心的變化非常小或達(dá)到預(yù)定的迭代次數(shù),步驟c3)最終生成的隱音素用于步驟d)中的隱音素-視素庫(kù)構(gòu)建。
23、優(yōu)選的,所述隱音素-視素庫(kù)構(gòu)建步驟d)包括以下子步驟:
24、d1)將步驟c3)生成的k個(gè)隱音素中心特征向量與對(duì)應(yīng)的視頻幀進(jìn)行關(guān)聯(lián),這些視頻幀是從預(yù)處理過(guò)的數(shù)字人說(shuō)話視頻中提取的,每個(gè)視頻幀對(duì)應(yīng)于一個(gè)特定的口型狀態(tài);
25、d2)依據(jù)步驟d1)中隱音素中心特征向量與視頻幀的關(guān)聯(lián)關(guān)系,構(gòu)建一個(gè)由k個(gè)隱音素對(duì)應(yīng)的發(fā)音口型圖片組成的視素圖庫(kù),該庫(kù)中的每一個(gè)視素圖都代表了一個(gè)隱音素的發(fā)音狀態(tài);
26、d3)利用步驟d2)構(gòu)建的視素圖庫(kù),在步驟e)中進(jìn)行隱音素檢索機(jī)制的實(shí)現(xiàn),即將實(shí)時(shí)音頻處理過(guò)程中得到的特征向量與庫(kù)中的隱音素進(jìn)行比對(duì),找到最匹配的視素圖并合成連貫的口型動(dòng)畫。
27、優(yōu)選的,所述音頻的隱音素檢索步驟e)包括以下子步驟:
28、e1)在數(shù)字人與用戶的實(shí)時(shí)交互過(guò)程中,通過(guò)深度音頻特征編碼器(whisper)將輸入的音頻片段轉(zhuǎn)換為一系列5*384維的特征向量;
29、e2)對(duì)于步驟e1)中獲取的每個(gè)特征向量,與步驟d2)構(gòu)建的隱音素集合中的隱音素計(jì)算歐幾里得距離或余弦相似度;
30、e3)依據(jù)步驟e2)計(jì)算得到的距離或相似度,從隱音素集合中檢索出與當(dāng)前音頻片段最匹配的隱音素,進(jìn)而確定對(duì)應(yīng)的視素口型圖片序列。
31、優(yōu)選的,所述視素圖匹配步驟f)包括以下子步驟:
32、f1)根據(jù)步驟e3)檢索出的隱音素口型圖片序列,確定與之對(duì)應(yīng)的視素圖,這些視素圖來(lái)自于步驟d2)構(gòu)建的隱音素-視素圖庫(kù);
33、f2)從步驟d2)的庫(kù)中提取步驟f1)確定的視素圖,作為下一步驟g)中合成連貫數(shù)字人口型動(dòng)畫的基礎(chǔ)視素圖集合;
34、f3)步驟f2)提取的視素圖經(jīng)過(guò)排序和組織,形成一個(gè)連貫的口型序列。
35、優(yōu)選的,所述口型序列合成步驟g)包括以下子步驟:
36、g1)將步驟f3)中組織好的視素圖按時(shí)間順序排列,確保每一個(gè)視素圖對(duì)應(yīng)正確的音頻時(shí)間點(diǎn);
37、g2)使用圖形合成技術(shù)將步驟g1)排列好的視素圖序列合并成一個(gè)連續(xù)的動(dòng)畫流,生成逼真的數(shù)字人口型動(dòng)畫,為步驟h)中的最終呈現(xiàn)提供基礎(chǔ)素材;
38、g3)對(duì)步驟g2)生成的動(dòng)畫流進(jìn)行平滑處理,提升步驟h)中數(shù)字人交互的真實(shí)感。
39、優(yōu)選的,所述動(dòng)態(tài)匹配機(jī)制步驟h)包括以下子步驟:
40、h1)在實(shí)時(shí)音頻處理過(guò)程中,利用步驟f)中提取的隱音素特征,動(dòng)態(tài)檢索與之匹配的視素圖,并根據(jù)實(shí)際效果調(diào)整隱音素的數(shù)量;
41、h2)結(jié)合步驟g)中合成的口型動(dòng)畫序列,觀察其連貫性和真實(shí)性,根據(jù)實(shí)際應(yīng)用情況動(dòng)態(tài)調(diào)整隱音素和視素的數(shù)量,持續(xù)優(yōu)化口型動(dòng)畫;
42、h3)收集步驟i)中用戶交互體驗(yàn)的反饋,基于反饋信息,微調(diào)步驟h2)中的隱音素和視素的數(shù)量及匹配策略。
43、優(yōu)選的,所述持續(xù)優(yōu)化與迭代步驟i)包括以下子步驟:
44、i1)收集來(lái)自數(shù)字人與用戶的交互數(shù)據(jù),包括但不限于用戶反饋、系統(tǒng)響應(yīng)時(shí)間和口型動(dòng)畫的一致性評(píng)價(jià);
45、i2)基于步驟i1)收集的數(shù)據(jù),分析數(shù)字人的發(fā)音風(fēng)格和用戶的交互體驗(yàn),動(dòng)態(tài)調(diào)整步驟c)中生成的隱音素?cái)?shù)量及步驟4)中構(gòu)建的隱音素-視素庫(kù);
46、i3)將步驟i2)中調(diào)整后的隱音素和視素圖應(yīng)用于步驟h)中的動(dòng)態(tài)匹配機(jī)制,以優(yōu)化口型動(dòng)畫的表現(xiàn)力,并繼續(xù)監(jiān)測(cè)用戶反饋和系統(tǒng)性能,循環(huán)執(zhí)行步驟i1)至i3),持續(xù)提升系統(tǒng)的適應(yīng)性和性能。
47、本發(fā)明的技術(shù)效果和優(yōu)點(diǎn):本發(fā)明提出的一種基于隱音素檢索的數(shù)字人口型多樣性增強(qiáng)方法,與現(xiàn)有技術(shù)相比,具有以下優(yōu)點(diǎn):
48、本發(fā)明通過(guò)對(duì)已有數(shù)字人的音頻和視頻素材數(shù)據(jù)進(jìn)行預(yù)處理、特征提取、構(gòu)建隱音素-視素庫(kù)、音頻的隱音素檢索-匹配,最終實(shí)現(xiàn)了數(shù)字人逼真且連貫的口型動(dòng)畫合成,能夠通過(guò)優(yōu)化和迭代,不斷提升口型動(dòng)畫的連貫性和真實(shí)性,實(shí)現(xiàn)了實(shí)時(shí)生成與音頻一致的口型動(dòng)畫,能夠不受傳統(tǒng)音素?cái)?shù)量和專業(yè)性的限制,根據(jù)不同數(shù)字人的發(fā)音風(fēng)格和真實(shí)交互體驗(yàn),動(dòng)態(tài)調(diào)整隱音素和視素的數(shù)量,從而提升系統(tǒng)的適應(yīng)性和性能。