一種基于隱音素檢索的數(shù)字人口型多樣性增強(qiáng)方法

文檔序號(hào)：39962451發(fā)布日期：2024-11-12 14:21閱讀：25來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>電子通信裝置的制造及其應(yīng)用技術(shù)

本發(fā)明屬于數(shù)字人口型動(dòng)畫合成，具體涉及一種基于隱音素檢索的數(shù)字人口型多樣性增強(qiáng)方法。

背景技術(shù)：

1、在數(shù)字人口型動(dòng)畫合成領(lǐng)域，現(xiàn)有的主流技術(shù)方案通常基于音素（phoneme）與視素（viseme）的匹配方法。這一方法首先從語(yǔ)音中提取連續(xù)的音素序列，例如：/ni3hɑo3/（你好）、（hello），隨后根據(jù)音素與預(yù)定義視素之間的對(duì)應(yīng)關(guān)系，挑選出相應(yīng)的視素圖像，最終將這些圖像拼接成流暢的口型動(dòng)畫。

2、音素是人類語(yǔ)言中能夠區(qū)別意義的最小聲音單位，通常通過(guò)語(yǔ)音專家手動(dòng)標(biāo)注或使用語(yǔ)音識(shí)別工具對(duì)音頻數(shù)據(jù)進(jìn)行分段和分類。而視素則指與特定音素相對(duì)應(yīng)的發(fā)音器官的可視狀態(tài)。mpeg-4標(biāo)準(zhǔn)提出了視素的概念，并將其應(yīng)用于語(yǔ)音動(dòng)畫合成中。

3、市場(chǎng)上已商業(yè)化的應(yīng)用為了降低成本并確保實(shí)時(shí)性，通常會(huì)采用這種方案。首先將輸入的語(yǔ)音信號(hào)進(jìn)行音素級(jí)分割，識(shí)別出連續(xù)語(yǔ)音中的各個(gè)音素。然后，根據(jù)音素到視素的映射關(guān)系，確定相應(yīng)的口型動(dòng)畫。這種方法的優(yōu)勢(shì)在于實(shí)現(xiàn)相對(duì)簡(jiǎn)單，能夠快速地將語(yǔ)音與口型動(dòng)畫進(jìn)行同步，在算力受限的手機(jī)端應(yīng)用廣泛。

4、然而，現(xiàn)有技術(shù)存在一些局限性。由于音素和視素的映射關(guān)系是基于靜態(tài)的、離散的狀態(tài)，這種方法難以捕捉到發(fā)音過(guò)程中的動(dòng)態(tài)變化和細(xì)微差別。此外，不同語(yǔ)言的發(fā)音特點(diǎn)和音位組成差異較大，導(dǎo)致現(xiàn)有的音素視素匹配方案在處理某些語(yǔ)言時(shí)可能不夠準(zhǔn)確或自然。

5、此外，對(duì)于不同語(yǔ)種，音視素的個(gè)數(shù)和定義也不盡相同。例如，英語(yǔ)可能需要區(qū)分更多的輔音視素，以反映其豐富的輔音結(jié)尾和輔音群；漢語(yǔ)中的聲母和韻母構(gòu)成復(fù)雜，其視素分類方法多樣，從基于聲母和韻母的分類到使用聚類方法對(duì)音素進(jìn)行分組，不同的分類方法反映了漢語(yǔ)發(fā)音的復(fù)雜性。例如，有研究將漢語(yǔ)分為28個(gè)基本的靜態(tài)視位，而微軟則將視素分為22個(gè)，以適應(yīng)不同語(yǔ)言的需求。這些分類方法為音素到視素的映射提供了基礎(chǔ)，而生成這些音素需要基于語(yǔ)言學(xué)的規(guī)則，通常通過(guò)具備相關(guān)專業(yè)知識(shí)的語(yǔ)音專家手動(dòng)標(biāo)注或使用先進(jìn)的語(yǔ)音識(shí)別工具對(duì)音頻數(shù)據(jù)進(jìn)行分段和分類，是一個(gè)非常耗時(shí)的過(guò)程。同時(shí)，受人工定義的局限性，離散有限的音素個(gè)數(shù)在實(shí)際應(yīng)用中仍面臨著發(fā)音連貫性和動(dòng)畫真實(shí)性的挑戰(zhàn)。

6、綜上所述，盡管現(xiàn)有的音素視素匹配方案在數(shù)字人口型動(dòng)畫合成中得到了廣泛應(yīng)用，但其在捕捉自然發(fā)音的動(dòng)態(tài)變化和適應(yīng)不同語(yǔ)言特點(diǎn)方面仍有改進(jìn)空間。

技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明的目的在于提供一種基于隱音素檢索的數(shù)字人口型多樣性增強(qiáng)方法，通過(guò)引入基于深度學(xué)習(xí)的隱音素技術(shù)，克服現(xiàn)有技術(shù)的局限，實(shí)現(xiàn)更自然、更連貫的數(shù)字人口型動(dòng)畫合成。

2、為實(shí)現(xiàn)上述目的，本發(fā)明采用了如下技術(shù)方案：一種基于隱音素檢索的數(shù)字人口型多樣性增強(qiáng)方法，包括以下步驟：

3、a)數(shù)據(jù)預(yù)處理步驟，對(duì)已有數(shù)字人說(shuō)話視頻中的音頻與視頻數(shù)據(jù)進(jìn)行預(yù)處理，為步驟b)提供預(yù)處理后的音頻和視頻數(shù)據(jù)；

4、b)特征提取步驟，利用深度音頻特征編碼器對(duì)步驟a)中預(yù)處理后的音頻數(shù)據(jù)進(jìn)行特征提取，生成特征向量，步驟b)生成的特征向量作為步驟c)的輸入；

5、c)隱音素生成步驟，使用聚類算法對(duì)步驟b)中提取的音頻特征向量進(jìn)行聚類，生成代表不同隱音素的中心特征向量，步驟c)生成的隱音素用于步驟d)中的隱音素-視素庫(kù)構(gòu)建；

6、d)隱音素-視素庫(kù)構(gòu)建步驟，將步驟c)生成的隱音素與對(duì)應(yīng)的視頻圖片幀關(guān)聯(lián)，形成一個(gè)包含多種發(fā)音口型的視素圖庫(kù)，步驟d)構(gòu)建的庫(kù)為步驟e)提供隱音素和視素圖；

7、e)音頻的隱音素檢索步驟，在數(shù)字人與用戶實(shí)時(shí)交互過(guò)程中，將音頻片段通過(guò)深度音頻特征編碼器轉(zhuǎn)換為特征向量，并與步驟d)構(gòu)建的隱音素集合計(jì)算距離或相似度，檢索出最匹配的視素口型圖片序列，步驟e)檢索的結(jié)果用于步驟f)；

8、f)視素圖匹配步驟，根據(jù)步驟e)檢索到的隱音素口型圖片序列，從步驟d)構(gòu)建的庫(kù)中匹配相應(yīng)的視素圖，步驟f)匹配的視素圖為步驟g)提供口型序列；

9、g)口型序列合成步驟，按照時(shí)序順序組合步驟f)中匹配的視素圖，生成連貫的數(shù)字人口型動(dòng)畫，步驟g)合成的動(dòng)畫為步驟h)提供基礎(chǔ)；

10、h)動(dòng)態(tài)匹配機(jī)制步驟，在實(shí)時(shí)音頻處理過(guò)程中，動(dòng)態(tài)調(diào)整隱音素和視素?cái)?shù)量和匹配關(guān)系以優(yōu)化口型動(dòng)畫表現(xiàn)力，步驟h)的調(diào)整依據(jù)步驟i)中反饋的交互體驗(yàn)；

11、i)持續(xù)優(yōu)化與迭代步驟，根據(jù)數(shù)字人的發(fā)音風(fēng)格和真實(shí)交互體驗(yàn)，不斷調(diào)整隱音素和視素的數(shù)量，提升系統(tǒng)的適應(yīng)性和性能，步驟i)的反饋循環(huán)作用于步驟c)至步驟h)。

12、優(yōu)選的，所述數(shù)據(jù)預(yù)處理步驟a)包括以下子步驟：

13、a1)音頻重采樣步驟，將所有音頻數(shù)據(jù)重采樣至16,000hz，步驟a1)處理后的音頻為步驟a2)提供輸入；

14、a2)mel頻譜圖計(jì)算步驟，使用25毫秒的窗口和10毫秒的步長(zhǎng)對(duì)步驟a1)中重采樣的音頻數(shù)據(jù)進(jìn)行滑動(dòng)分割，并計(jì)算80通道的對(duì)數(shù)mel頻譜圖，步驟a2)生成的mel頻譜圖作為步驟a3)的輸入；

15、a3)視頻幀率轉(zhuǎn)換步驟，將視頻轉(zhuǎn)換為每秒25幀，并將視頻拆分為單張圖片，以確保每幀圖片能夠?qū)?yīng)40ms的音頻數(shù)據(jù)，步驟a3)產(chǎn)生的圖片與步驟a2)的mel頻譜圖共同作為步驟b)的輸入。

16、優(yōu)選的，所述特征提取步驟b)包括以下子步驟：

17、b1)利用whisper模型的編碼器部分對(duì)步驟a2)生成的mel頻譜圖數(shù)據(jù)進(jìn)行特征提取，此編碼器包含兩個(gè)卷積層、正弦位置編碼及4層標(biāo)準(zhǔn)的transformer編碼器塊；

18、b2)經(jīng)過(guò)步驟b1)的處理后，30秒音頻的mel數(shù)據(jù)被轉(zhuǎn)化為特征向量，每20ms的音頻被轉(zhuǎn)為5*384緯的特征向量，步驟b2)生成的特征向量作為步驟c)隱音素生成的輸入。

19、優(yōu)選的，所述隱音素生成步驟c)包括以下子步驟：

20、c1)對(duì)步驟b2)中生成的特征向量進(jìn)行數(shù)據(jù)預(yù)處理，包括對(duì)每個(gè)特征進(jìn)行歸一化或標(biāo)準(zhǔn)化；

21、c2)在完成步驟c1)的數(shù)據(jù)預(yù)處理之后，選擇一個(gè)預(yù)設(shè)的簇?cái)?shù)量k，使用k-means聚類算法初始化k個(gè)質(zhì)心，并將步驟b2)中處理后的特征向量分配給最近的質(zhì)心，形成k個(gè)簇，這些簇的中心即為隱音素的中心特征向量；

22、c3)通過(guò)重復(fù)執(zhí)行步驟c2)中的分配數(shù)據(jù)點(diǎn)到最近中心和更新質(zhì)心的操作，直到質(zhì)心的變化非常小或達(dá)到預(yù)定的迭代次數(shù)，步驟c3)最終生成的隱音素用于步驟d)中的隱音素-視素庫(kù)構(gòu)建。

23、優(yōu)選的，所述隱音素-視素庫(kù)構(gòu)建步驟d)包括以下子步驟：

24、d1)將步驟c3)生成的k個(gè)隱音素中心特征向量與對(duì)應(yīng)的視頻幀進(jìn)行關(guān)聯(lián)，這些視頻幀是從預(yù)處理過(guò)的數(shù)字人說(shuō)話視頻中提取的，每個(gè)視頻幀對(duì)應(yīng)于一個(gè)特定的口型狀態(tài)；

25、d2)依據(jù)步驟d1)中隱音素中心特征向量與視頻幀的關(guān)聯(lián)關(guān)系，構(gòu)建一個(gè)由k個(gè)隱音素對(duì)應(yīng)的發(fā)音口型圖片組成的視素圖庫(kù)，該庫(kù)中的每一個(gè)視素圖都代表了一個(gè)隱音素的發(fā)音狀態(tài)；

26、d3)利用步驟d2)構(gòu)建的視素圖庫(kù)，在步驟e)中進(jìn)行隱音素檢索機(jī)制的實(shí)現(xiàn)，即將實(shí)時(shí)音頻處理過(guò)程中得到的特征向量與庫(kù)中的隱音素進(jìn)行比對(duì)，找到最匹配的視素圖并合成連貫的口型動(dòng)畫。

27、優(yōu)選的，所述音頻的隱音素檢索步驟e)包括以下子步驟：

28、e1)在數(shù)字人與用戶的實(shí)時(shí)交互過(guò)程中，通過(guò)深度音頻特征編碼器（whisper）將輸入的音頻片段轉(zhuǎn)換為一系列5*384維的特征向量；

29、e2)對(duì)于步驟e1)中獲取的每個(gè)特征向量，與步驟d2)構(gòu)建的隱音素集合中的隱音素計(jì)算歐幾里得距離或余弦相似度；

30、e3)依據(jù)步驟e2)計(jì)算得到的距離或相似度，從隱音素集合中檢索出與當(dāng)前音頻片段最匹配的隱音素，進(jìn)而確定對(duì)應(yīng)的視素口型圖片序列。

31、優(yōu)選的，所述視素圖匹配步驟f)包括以下子步驟：

32、f1)根據(jù)步驟e3)檢索出的隱音素口型圖片序列，確定與之對(duì)應(yīng)的視素圖，這些視素圖來(lái)自于步驟d2)構(gòu)建的隱音素-視素圖庫(kù)；

33、f2)從步驟d2)的庫(kù)中提取步驟f1)確定的視素圖，作為下一步驟g)中合成連貫數(shù)字人口型動(dòng)畫的基礎(chǔ)視素圖集合；

34、f3)步驟f2)提取的視素圖經(jīng)過(guò)排序和組織，形成一個(gè)連貫的口型序列。

35、優(yōu)選的，所述口型序列合成步驟g)包括以下子步驟：

36、g1)將步驟f3)中組織好的視素圖按時(shí)間順序排列，確保每一個(gè)視素圖對(duì)應(yīng)正確的音頻時(shí)間點(diǎn)；

37、g2)使用圖形合成技術(shù)將步驟g1)排列好的視素圖序列合并成一個(gè)連續(xù)的動(dòng)畫流，生成逼真的數(shù)字人口型動(dòng)畫，為步驟h)中的最終呈現(xiàn)提供基礎(chǔ)素材；

38、g3)對(duì)步驟g2)生成的動(dòng)畫流進(jìn)行平滑處理，提升步驟h)中數(shù)字人交互的真實(shí)感。

39、優(yōu)選的，所述動(dòng)態(tài)匹配機(jī)制步驟h)包括以下子步驟：

40、h1)在實(shí)時(shí)音頻處理過(guò)程中，利用步驟f)中提取的隱音素特征，動(dòng)態(tài)檢索與之匹配的視素圖，并根據(jù)實(shí)際效果調(diào)整隱音素的數(shù)量；

41、h2)結(jié)合步驟g)中合成的口型動(dòng)畫序列，觀察其連貫性和真實(shí)性，根據(jù)實(shí)際應(yīng)用情況動(dòng)態(tài)調(diào)整隱音素和視素的數(shù)量，持續(xù)優(yōu)化口型動(dòng)畫；

42、h3)收集步驟i)中用戶交互體驗(yàn)的反饋，基于反饋信息，微調(diào)步驟h2)中的隱音素和視素的數(shù)量及匹配策略。

43、優(yōu)選的，所述持續(xù)優(yōu)化與迭代步驟i)包括以下子步驟：

44、i1)收集來(lái)自數(shù)字人與用戶的交互數(shù)據(jù)，包括但不限于用戶反饋、系統(tǒng)響應(yīng)時(shí)間和口型動(dòng)畫的一致性評(píng)價(jià)；

45、i2)基于步驟i1)收集的數(shù)據(jù)，分析數(shù)字人的發(fā)音風(fēng)格和用戶的交互體驗(yàn)，動(dòng)態(tài)調(diào)整步驟c)中生成的隱音素?cái)?shù)量及步驟4）中構(gòu)建的隱音素-視素庫(kù)；

46、i3)將步驟i2)中調(diào)整后的隱音素和視素圖應(yīng)用于步驟h)中的動(dòng)態(tài)匹配機(jī)制，以優(yōu)化口型動(dòng)畫的表現(xiàn)力，并繼續(xù)監(jiān)測(cè)用戶反饋和系統(tǒng)性能，循環(huán)執(zhí)行步驟i1)至i3)，持續(xù)提升系統(tǒng)的適應(yīng)性和性能。

47、本發(fā)明的技術(shù)效果和優(yōu)點(diǎn)：本發(fā)明提出的一種基于隱音素檢索的數(shù)字人口型多樣性增強(qiáng)方法，與現(xiàn)有技術(shù)相比，具有以下優(yōu)點(diǎn)：

48、本發(fā)明通過(guò)對(duì)已有數(shù)字人的音頻和視頻素材數(shù)據(jù)進(jìn)行預(yù)處理、特征提取、構(gòu)建隱音素-視素庫(kù)、音頻的隱音素檢索-匹配，最終實(shí)現(xiàn)了數(shù)字人逼真且連貫的口型動(dòng)畫合成，能夠通過(guò)優(yōu)化和迭代，不斷提升口型動(dòng)畫的連貫性和真實(shí)性，實(shí)現(xiàn)了實(shí)時(shí)生成與音頻一致的口型動(dòng)畫，能夠不受傳統(tǒng)音素?cái)?shù)量和專業(yè)性的限制，根據(jù)不同數(shù)字人的發(fā)音風(fēng)格和真實(shí)交互體驗(yàn)，動(dòng)態(tài)調(diào)整隱音素和視素的數(shù)量，從而提升系統(tǒng)的適應(yīng)性和性能。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：劉旻昊,張彥如,任福繼,段立新,唐浩,鄧達(dá)豪,吳乃星
技術(shù)所有人：電子科技大學(xué)（深圳）高等研究院
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、王老師：1.數(shù)字信號(hào)處理 2.傳感器技術(shù)及應(yīng)用 3.機(jī)電一體化產(chǎn)品開發(fā) 4.機(jī)械工程測(cè)試技術(shù) 5.逆向工程技術(shù)研究
2、王老師：1.機(jī)器人 2.嵌入式控制系統(tǒng)開發(fā)
3、孫老師：1.振動(dòng)信號(hào)時(shí)頻分析理論與測(cè)試系統(tǒng)設(shè)計(jì) 2.汽車檢測(cè)系統(tǒng)設(shè)計(jì) 3.汽車電子控制系統(tǒng)設(shè)計(jì)
4、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
5、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種基于隱音素檢索的數(shù)字人口型多樣性增強(qiáng)方法