国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種語音同步驅(qū)動三維人臉口型與面部姿勢動畫的方法

      文檔序號:6400310閱讀:3308來源:國知局
      專利名稱:一種語音同步驅(qū)動三維人臉口型與面部姿勢動畫的方法
      技術(shù)領(lǐng)域
      本發(fā)明涉及語音驅(qū)動三維人臉動畫合成技術(shù)領(lǐng)域,具體涉及一種基于KNN與HMM混合模型的語音可視化協(xié)同發(fā)音建模。
      背景技術(shù)
      語音驅(qū)動三維人臉動畫合成的研究是自然人機交互領(lǐng)域的重要內(nèi)容。語音驅(qū)動三維人臉動畫合成是對一個人的聲音進行預(yù)處理,使之在虛擬的三維人臉頭像上合成與語音對應(yīng)的口型動畫(lip animation)和面部表情(facial expressions)。目前,這方面的研究主要集中在合成同步、精確的口型動畫,以及通過語音分析實現(xiàn)對面部表情的分類上,還沒有一個較好的方法來實現(xiàn)語音同時驅(qū)動虛擬人的口型動畫和面部姿勢(facialgestures or visual prosody)。所謂面部姿勢是指頭部動作(head movements)、眼睛動作(eye movements)和眉毛動作(eyebrow movements)等非語言信息。相對于口型動畫與語音有明顯的關(guān)聯(lián)關(guān)系,面部姿勢跟語音的關(guān)聯(lián)關(guān)系比較微弱,因此獲得比較準(zhǔn)確的面部姿勢比較困難,這就使得語音驅(qū)動虛擬人的表情木訥、呆滯,沒有較為豐富的信息反饋,從而降低了人機交互的可理解性和認知度。這是語音驅(qū)動三維人臉動畫領(lǐng)域必須解決的瓶頸。為了實現(xiàn)語音同步驅(qū)動人臉口型和面部姿勢,語音可視化建模是必不可少的一步。語音可視化建模是語言信息與合成人臉的接口,是驅(qū)動人臉產(chǎn)生語音動畫的核心結(jié)構(gòu)。語音可視化模型通過分析語音信息,建立音素到視素的映射,將音素信息轉(zhuǎn)換成視素信息,將語音學(xué)上的協(xié)同發(fā)音體現(xiàn)到視覺效果上。如何建立語音與口型、語音與面部姿勢的映射關(guān)系,如何通過一個簡單而完全自動化的方法來獲得協(xié)同發(fā)音模型參數(shù),使得虛擬說話人動畫的生成完全自動化,并且具有一定的真實感,是我們的研究內(nèi)容?,F(xiàn)如今,絕大多數(shù)研究學(xué)者僅僅是關(guān)注語音驅(qū)動三維人臉口型動畫,而將語音驅(qū)動人臉面部姿勢忽略了,這就使生成的虛擬人的人臉木訥呆滯,沒有任何表情信息的反饋,從而降低了人機交互的可理解性和可認知度。所以,僅僅關(guān)注語音與三維人臉口型之間的關(guān)系,是不能充分反映人臉最真實的狀況。中國專利CN101751695A(申請?zhí)?200910263558.8)公開了一種基于BP神經(jīng)網(wǎng)絡(luò)的語音驅(qū)動唇形動畫的方法。其特征在于,包括以下步驟:將漢語中的音節(jié)結(jié)構(gòu)采用Consonant-Vowel分類;采集若干個人的原始音頻數(shù)據(jù)和視頻數(shù)據(jù);獲取對應(yīng)唇形信息;獲取語音特征數(shù)據(jù);對獲取的唇形信息和語音特征數(shù)據(jù)進行訓(xùn)練和建模,依據(jù)訓(xùn)練的模型實時輸入語音合成的唇形運動序列。該方法的可操作性不強,要求在訓(xùn)練樣本比較充分的情況下,才有可能得到較好的判定效果,否則對于形變、尺度改變、光照改變等干擾,就不能很好地判定。并且神經(jīng)網(wǎng)絡(luò)方法存在合成動畫不夠連續(xù),跳變現(xiàn)象較多、口型特征預(yù)測不準(zhǔn)確、且動畫流暢度和自然度欠佳的不足。中國專利CNlO 1930619A(申請?zhí)?201010263097.7)發(fā)明了一種基于協(xié)同過濾算
      法的實時語音驅(qū)動人臉唇部動畫系統(tǒng),通過輸入實時錄入的語音,使得任務(wù)頭部模型做出與輸入語音同步的唇部動畫。系統(tǒng)包含有音視頻編碼模塊,該模塊對采集到的語音和人臉三維特征點運動分別進行Mel頻率倒譜參數(shù)編碼和MPEG-4標(biāo)準(zhǔn)中的人臉動畫參數(shù)編碼,由音視頻編碼模塊得到的Mel頻率倒譜參數(shù)和人臉動畫參數(shù)多模態(tài)同步庫;協(xié)同過濾模塊使用協(xié)同過濾算法,由新輸入語音的Mel頻率倒譜參數(shù)編碼結(jié)合Mel頻率倒譜參數(shù)和人臉動畫參數(shù)多模態(tài)同步庫求出與語音同步的人臉動畫參數(shù);動畫模塊由人臉動畫參數(shù)驅(qū)動人臉模型進行動畫。該系統(tǒng)在完成語音驅(qū)動人臉動畫的同時,必須在動畫生成之前錄制好語音文件進行唇讀,不能對任意提供的朗讀文本合成語音動畫,所以具有一定的局限性。并且該系統(tǒng)僅僅是關(guān)注語音驅(qū)動三維人臉口型動畫,而將語音驅(qū)動人臉姿勢忽略了,這就使生成的虛擬人的人臉木訥呆滯,沒有任何表情信息的反饋,從而降低了人機交互的可理解性和可認知度。迄今為止,還沒有一個較為合理而高效的方法實現(xiàn)語音同步驅(qū)動三維人臉口型和面部姿勢動畫的合成。這是因為,雖然口型跟語音之間存在著明顯的關(guān)聯(lián)性,但面部姿勢跟語音之間的關(guān)聯(lián)關(guān)系比較微弱,因此語音驅(qū)動準(zhǔn)確的面部姿勢相對困難。采用什么方法去實現(xiàn)語音與口型、語音與面部姿勢之間的同步關(guān)聯(lián)問題,使語音可以同時驅(qū)動虛擬人唇部、眼睛、眉毛、頭部等部位做出一整套相應(yīng)的動作,這是本發(fā)明要解決的關(guān)鍵問題。

      發(fā)明內(nèi)容
      鑒于現(xiàn)有技術(shù)的以上缺點,本發(fā)明的目的是,探索研究一種語音同步驅(qū)動三維人臉口型與面部姿勢動畫的方法,使之克服現(xiàn)有技術(shù)的不足,尤其是克服CN101930619A僅僅注重語音驅(qū)動人臉口型動畫而未考慮語音驅(qū)動虛擬人面部姿勢的不足,提出一種基于KNN(K-nearest neighbour)與 HMM(Hidden Markov Model)混合模型的語音可視化協(xié)同發(fā)音建模新方法。其中,擬使用KNN分類器將分好類的聲韻母與口型進行映射,同時用HMM將面部的六種基本動作(眨眼與凝視,揚眉與皺眉,點頭與搖頭)進行建模。本發(fā)明的目的是通過如下的手段實現(xiàn)的。一種語音同步驅(qū)動三維人臉口型與面部姿勢動畫的方法,通過對用戶的聲音進行預(yù)處理,使之在虛擬人的三維人臉頭像上合成與語音同步的口型動畫和面姿勢動畫,包括以下主要步驟:1.視素歸類,為了降低口型動畫合成的復(fù)雜度,根據(jù)漢語拼音中各個聲母和韻母口型動作的不同,將部分聲韻母根據(jù)它們所對應(yīng)的口型進行視素歸類,共分為16類,F(xiàn)0-Fi5 ;2.建立音頻/視頻語料庫,用高清攝錄機進行錄制,由20個人,10男10女,讀取步驟I中的已經(jīng)分好類的聲韻母,同時錄制好音頻和視頻,在錄制語音的時候,采集與語音同步的臉部視頻信息;3.提取音頻/視頻幀特征參數(shù),從步驟2錄制得到的音頻數(shù)據(jù)中提取出語音信號的音高(pitch)、音強(intensity)和13維的Mel頻率倒譜系數(shù)MFCC(Mel FrequencyCepstrum Coefficient),同時,截取與語音同步的視頻巾貞,提取視頻巾貞中各聲韻母所對應(yīng)的基于MPEG-4定義的口型特征參數(shù)和面部姿勢特征參數(shù),通過相對幀作差計算以及相對位移計算可以得到人臉運動參數(shù);4.將步驟3中的語音信號的特征參數(shù)13 — MFCC進行降維處理,利用PCA(Principal Component Analysis)方法將語音信號的特征向量、口型特征參數(shù)進行降維處理,將語音信號中13 — MFCC降低為4維向量,將口型特征參數(shù)降為4維向量。5.運用k-means算法將步驟4中的語音信號的特征參數(shù)和口型特征參數(shù)進行聚類分析;6.運用KNN分類器將步驟5中的語音信號的特征參數(shù)與口型特征參數(shù)進行訓(xùn)練和識別;7.對于新輸入的語音信號s,根據(jù)K-nearest neighbour準(zhǔn)則求取相似度;通過求其相似度,然后選出相似度最大的前k個向量,這k個向量屬于哪個類別的口型最多,則這個類別的口型就是與語音信號相匹配的口型;8.將面部姿勢分為六種類型:眨眼和凝視、揚眉和皺眉、點頭和搖頭,通過臉部部位的各種動作組合來表達不同的人臉面部信息;9.用HMM對面部姿勢進行建模,將提取的語音信號的音高和音強,與人臉六種基本面部姿勢進行訓(xùn)練和識別;10.訓(xùn)練階段:首先,從錄制的語料庫中選取部分語料,使所選語料能夠覆蓋所有面部姿勢類型且保證一定的出現(xiàn)概率;提取出語音信號的特征參數(shù)和面部姿勢的特征參數(shù),接著把語音特征參數(shù)作為觀察值序列,通過Baum-Welch重估算法訓(xùn)練各相應(yīng)的HMM,然后用Viterbi算法搜索并記錄下語音特征參數(shù)所對應(yīng)的最優(yōu)狀態(tài)序列;用HMM建模將面部姿勢六種類型的特征參數(shù)與語音特征參數(shù)所對應(yīng)的最優(yōu)狀態(tài)序列建立對應(yīng)關(guān)系;11.識別階段:對新輸入的語音信號進行特征提取,分析其音高和音強,然后根據(jù)訓(xùn)練好的HMM,將新的語音特征參數(shù)作為HMM的觀察值序列,通過Veterbi算法搜索并獲取最優(yōu)狀態(tài)序列;計算新輸入語音信號與訓(xùn)練庫中的圖像觀察值序列中的各個人臉面部姿勢的相似或然率P (0|M);找出最大相似或然率,對應(yīng)的HMM即為與新輸入的語音信號相匹配的人臉面部姿勢;12.依據(jù)以上步驟得到與語音信號相對應(yīng)的人臉面部姿勢和口型幀序列參數(shù),經(jīng)過平滑處理后,使用Xface開源軟件合成最終的人臉動畫。本發(fā)明的有益效果:本發(fā)明提出了一種基于KNN與HMM混合模型的語音可視化協(xié)同發(fā)音建模新方法。該方法的優(yōu)勢在于可以實現(xiàn)語音同時對口型和面部姿勢的驅(qū)動,從而可以簡單地生成更加細膩、豐富的虛擬人臉動畫。另外,本發(fā)明通過簡單而完全自動化的方法來獲得協(xié)同發(fā)音模型參數(shù),使得虛擬人語音動畫的生成完全自動化,并且具有一定的真實感;傳統(tǒng)的語音驅(qū)動人臉動畫方法,僅僅是關(guān)注語音驅(qū)動人臉口型動畫的合成,而將語音驅(qū)動面部姿勢忽略了,這就使生成的人臉木訥呆滯,沒有任何表情信息的反饋,從而降低了人機交互的可理解性和可認知度。


      :圖1聲韻母視素歸類表。圖2提取MPEG-4對應(yīng)的人臉特征點圖。圖3臉部姿勢類型表。圖4使用KNN分類器實現(xiàn)語音信號與口型的分類過程示意圖。圖5用HMM對面部姿勢進行建模的過程示意圖。
      具體實施例方式下面結(jié)合附圖和具體實施對本發(fā)明作進一步描述。實施例:下面結(jié)合附圖以及具體實施例對本發(fā)明作進一步描述:本發(fā)明的具體實施方法大致包括以下步驟:1.視素歸類,由于部分聲韻母所對應(yīng)的口型幀相似,本發(fā)明為了減少計算量,將部分聲韻母根據(jù)它們所對應(yīng)的口型進行視素歸類,共分為16類,F(xiàn)tl-F1515具體分類如圖1所示。2.建立音頻/視頻語料庫,用高清攝錄機進行錄制,由20個人,10男10女,讀取步驟I中的已經(jīng)分好類的聲韻母,同時錄制好音頻和視頻。在錄制語音的時候,采集與語音同步的臉部視頻信息。為了方便語料庫的檢索和提取,將16組不同類別的的聲韻母音頻和視頻信息放在不同的文件夾下。3.提取音頻/視頻幀的特征參數(shù),從錄制得到的音頻數(shù)據(jù)中提取出語音信號的音高、音強和13維的Mel頻率倒譜系數(shù)MFCC等特征參數(shù)。同時,截取與語音同步的視頻幀,提取視頻幀中各聲韻母所對應(yīng)的基于MPEG-4定義的口型特征參數(shù)和面部姿勢特征參數(shù),如圖2所示,然后計算各特征點坐標(biāo)與標(biāo)準(zhǔn)幀坐標(biāo)的差值Vel = IV1, V2,...,VJ,再計算按MPEG-4定義的人臉上的對應(yīng)尺度參考量P = (P1, P2,, PJ,通過公式(I),F(xiàn)api = (Vi (x|y)/Pi(x|y)) *1024(I)即可得到人臉運動參數(shù)。其中,F(xiàn)api表示與第i個特征點對應(yīng)的人臉運動參數(shù),Vi(x|y)表示Vi的X或y坐標(biāo),Pi(x|y)表示與Vi(x|y)對應(yīng)的尺度參考量。

      4.將步驟3中的語音信號的特征參數(shù)13—MFCC、口型特征參數(shù)進行降維處理。為了減少計算量,我們先利用PCA方法將語音信號的特征向量、口型幀的特征向量進行降維處理,將語音信號中13—MFCC參數(shù)降低為4維向量,將口型幀向量降為4維向量。5.運用k-means算法將步驟4中的16.類聲韻母的語音特征參數(shù)和口型特征參數(shù)分別進行聚類分析。6.運用KNN分類器將步驟5中的語音信號的特征參數(shù)與口型特征參數(shù)進行訓(xùn)練和識別,如圖3所示。7.對于一個音素一視素分類的問題,我們先收集整理步驟5中的語音特征參數(shù)和口型特征參數(shù),共有 16 組,表示如下:ImuBi2,mn} = {(x1, Y1), (x2,y2),…,(xn, yn)},n=16,其中(XiJi)代表第i個音素一視素特征參數(shù)Hii (比如X1代表語音信號“b,p,m,f”的特征參數(shù),Y1代表“b,p,m, f”的口型特征參數(shù)),那么對于新輸入的語音信號S,經(jīng)過預(yù)處理之后,得到4維MFCC,因為在步驟6中訓(xùn)練的聲韻母的音素一視素特征向量是8維向量,為了計算方便,通過在向量末端補零的方式將4維MFCC擴展成8維向量即s',然后根據(jù)K-nearestneighbour準(zhǔn)則,根據(jù)公式⑵,求取與訓(xùn)練庫之間的相似度。 Similarity -1!其中,Hii代表音素一視素特征參數(shù),s'代表經(jīng)預(yù)處理之后的新輸入的語音信號,η=16。然后選出相似度最大的前k個向量,這k個向量屬于哪個類別的口型最多,則這個類別的口型就是與語音信號相匹配的口型。根據(jù)經(jīng)驗這里選擇k=5。8.將面部姿勢分為六種類型:眨眼和凝視、揚眉和皺眉、點頭和搖頭,如圖4所示。這樣我們就可以通過臉部部位的各種動作組合來表達不同的人臉面部信息。9.用HMM對面部姿勢進行建模,將提取的語音信號的音高和音強,與人臉六種基本面部姿勢進行訓(xùn)練和識別,如圖5所示。10.訓(xùn)練階段:首先,從錄制的語料庫中選取部分語料,使所選語料能夠覆蓋所有面部姿勢類型且保證一定的出現(xiàn)概率;提取出語音信號的特征參數(shù)和面部姿勢的特征參數(shù),接著把語音特征參數(shù)作為觀察值序列,通過Baum-Welch重估算法訓(xùn)練各相應(yīng)的HMM,然后用Viterbi算法搜索并記錄下語音特征參數(shù)所對應(yīng)的最優(yōu)狀態(tài)序列;用HMM建模將面部姿勢六種類型的特征參數(shù)與語音特征參數(shù)所對應(yīng)的最優(yōu)狀態(tài)序列建立對應(yīng)關(guān)系。11.識別階段:對新輸入的語音信號進行特征提取,分析其音高和音強,然后根據(jù)訓(xùn)練好的HMM,將新的語音特征參數(shù)作為HMM的觀察值序列,通過Veterbi算法搜索并獲取最優(yōu)狀態(tài)序列;由于相似或然率反映了語音信號與人臉面部姿勢的相似概率,因此需要計算新輸入語音信號與訓(xùn)練庫中的圖像觀察值序列中的各個人臉面部姿勢的相似或然率Ρ(0|Μ);找出最大相似或然率,對應(yīng)的HMM即為與新輸入的語音信號相匹配的人臉面部姿勢完成以上各個步驟,可得 到與語音信號相對應(yīng)的人臉面部姿勢和口型幀序列參數(shù),經(jīng)過平滑處理后,使用Xface開源軟件合成最終的人臉動畫。
      權(quán)利要求
      1.一種語音同步驅(qū)動三維人臉口型與面部姿勢動畫的方法,通過對用戶的聲音進行預(yù)處理,使之在虛擬人的人臉頭像上合成與語音同步的口型和面部姿勢動畫,包括以下主要步驟: (O視素歸類,將部分聲韻母根據(jù)它們所對應(yīng)的口型進行視素歸類,共分為16類,F(xiàn)0-Fi5 ; (2)建立音頻/視頻語料庫,用高清攝錄機進行錄制,由20個人,10男10女,讀取步驟I中的已經(jīng)分好類的聲韻母,同時錄制好音頻和視頻,在錄制語音的時候,采集與語音同步的臉部視頻信息; (3)提取音頻/視頻幀特征參數(shù),從步驟2錄制得到的音頻數(shù)據(jù)中提取出語音信號的音高、音強和和13維的Mel頻率倒譜系數(shù)MFCC,同時,截取與語音同步的視頻幀,提取視頻幀中各聲韻母所對應(yīng)的基于MPEG-4定義的口型特征參數(shù)和面部姿勢特征參數(shù),然后計算各特征點坐標(biāo)與標(biāo)準(zhǔn)巾貞坐標(biāo)的差值Vel = (V1, V2,, Vj ,再計算按MPEG-4定義的人臉上的對應(yīng)尺度參考量P = (P1, P2,, PnI,通過公式⑴,F(xiàn)api = (Vi0ily)A3i (x|y)) *1024 (I) 得到人臉運動參數(shù);其中,F(xiàn)api表示與第i個特征點對應(yīng)的人臉運動參數(shù),Vi(x!y)表示的Vi的X或y坐標(biāo),Pi(x|y)表示與Vi(x|y)對應(yīng)的尺度參考量; (4)將步驟3中的語音信號的特征參數(shù)13—MFCC進行降維處理,利用PCA方法將語音信號的特征向量、口型幀的特征向量進行降維處理,將語音信號中13—MFCC降低為4維向量,將口型特征參數(shù)降為4維向量; (5)運用k-means算法將步驟4中的語音特征參數(shù)和口型特征參數(shù)進行聚類分析; (6)運用KNN分類器將 步驟5中的語音信號的特征參數(shù)與口型特征參數(shù)進行訓(xùn)練和識別; (7)對于新輸入的語音信號s,根據(jù)K-nearestneighbour準(zhǔn)則求取相似度;通過求其相似度,然后選出相似度最大的前k個向量,這k個向量屬于哪個類別的口型最多,則這個類別的口型就是與語音信號相匹配的口型; (8)將面部姿勢分為六種類型:眨眼和凝視、揚眉和皺眉、點頭和搖頭,通過臉部部位的各種動作組合來表達不同的人臉面部信息; (9)用HMM對面部姿勢進行建模,將提取的語音信號的音高和音強,與人臉六種基本面部姿勢進行訓(xùn)練和識別; (10)訓(xùn)練階段:首先,從錄制的語料庫中選取部分語料,使所選語料能夠覆蓋所有面部姿勢類型且保證一定的出現(xiàn)概率;提取出語音信號的特征參數(shù)和面部姿勢的特征參數(shù),接著把語音特征參數(shù)作為觀察值序列,通過Baum-Welch重估算法訓(xùn)練各相應(yīng)的HMM,然后用Viterbi算法搜索并記錄下語音特征參數(shù)所對應(yīng)的最優(yōu)狀態(tài)序列;用HMM建模將面部姿勢六種類型的特征參數(shù)與語音特征參數(shù)所對應(yīng)的最優(yōu)狀態(tài)序列建立對應(yīng)關(guān)系; (11)識別階段:對新輸入的語音信號進行特征提取,分析其音高和音強,然后根據(jù)訓(xùn)練好的HMM,將新的語音特征參數(shù)作為HMM的觀察值序列,通過Veterbi算法搜索并獲取最優(yōu)狀態(tài)序列;計算新輸入語音信號與訓(xùn)練庫中的圖像觀察值序列中的各個人臉面部姿勢的相似或然率P (0|M);找出最大相似或然率,對應(yīng)的HMM即為與新輸入的語音信號相匹配的人臉面部姿勢;(12) 依據(jù)以上步驟得到與語音信號相對應(yīng)的人臉面部姿勢和口型幀序列參數(shù),經(jīng)過平滑處理后,使用Xface開源軟件合成最終的人臉動畫。
      全文摘要
      本發(fā)明公開了一種語音同步驅(qū)動三維人臉口型與面部姿勢動畫的方法,通過用戶輸入新的語音信息,經(jīng)過預(yù)處理之后,在虛擬人的人臉頭像上合成與語音同步的口型動畫和面部姿勢動畫。本發(fā)明具體包括兩個階段,在訓(xùn)練階段,通過KNN和HMM的混合模型實現(xiàn)語音可視化建模;在合成階段,通過用戶輸入新的語音信息,先進行語音信號的特征提取,再經(jīng)過KNN和HMM混合模型生成與語音信號相對應(yīng)的人臉面部姿勢和口型幀序列參數(shù),經(jīng)過平滑處理后,使用Xface開源軟件合成更加細膩、豐富的三維人臉動畫。本發(fā)明不僅具有重要的理論研究價值,而且在可視通信、虛擬會議、游戲娛樂和教學(xué)輔助等領(lǐng)域有著廣闊的應(yīng)用前景。
      文檔編號G06T13/40GK103218842SQ20131008065
      公開日2013年7月24日 申請日期2013年3月12日 優(yōu)先權(quán)日2013年3月12日
      發(fā)明者侯進, 米輝輝 申請人:西南交通大學(xué)
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1