專(zhuān)利名稱(chēng):漢語(yǔ)音位-視位參數(shù)的計(jì)算機(jī)轉(zhuǎn)換方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
漢語(yǔ)音位-視位參數(shù)的計(jì)算機(jī)轉(zhuǎn)換方法和系統(tǒng)屬于語(yǔ)音-人臉動(dòng)態(tài)信息之間的信息轉(zhuǎn)換和處理技術(shù)領(lǐng)域。
視位國(guó)際標(biāo)準(zhǔn)化組織運(yùn)動(dòng)圖像專(zhuān)家組MPEG(Moving Picture Expert Group)制定的國(guó)際標(biāo)準(zhǔn)MPEG-4(ISO/IEC 14496-2)給出了視位的定義視位是指與某一音位相對(duì)應(yīng)的嘴、舌頭、下腭等可視發(fā)音器官的物理形狀。一種語(yǔ)言的音位約有幾十個(gè)。有些音位在發(fā)音時(shí)其面部圖像相似,即音位與視位之間存在著多對(duì)一的關(guān)系,因此需要對(duì)音位進(jìn)行合理的分類(lèi),據(jù)此建立相應(yīng)的視位集。MPEG-4按照國(guó)際音標(biāo)定義了1 5靜態(tài)視位。各種語(yǔ)言具有不同的音位內(nèi)容和語(yǔ)音系統(tǒng),相應(yīng)的視位也有所不同。目前國(guó)外定義了英語(yǔ)、德語(yǔ)等語(yǔ)言的靜態(tài)視位,而漢語(yǔ)靜態(tài)視位還沒(méi)有一個(gè)完整的定義和具體分類(lèi)結(jié)果;即使有,也是根據(jù)發(fā)音規(guī)則主觀(guān)確定,不同的人作了不同的分類(lèi),沒(méi)有人采用一個(gè)較為客觀(guān)的分類(lèi)方法。但是,研究人在講話(huà)時(shí)臉部圖像的變化以及聲音與人臉圖像的關(guān)系在計(jì)算機(jī)合成人臉動(dòng)畫(huà)、聾啞人輔助發(fā)聲練習(xí)、漢語(yǔ)文字-可視語(yǔ)音轉(zhuǎn)換上有著重大的意義。
在計(jì)算機(jī)內(nèi),視位就是以某種參數(shù)表達(dá)的圖像。上述MPEG-4國(guó)際標(biāo)準(zhǔn)定義了描述視位的參數(shù)人臉動(dòng)畫(huà)參數(shù)FAP(Facial Animation Parameters)。目前,還沒(méi)有專(zhuān)門(mén)描述漢語(yǔ)視位的視位參數(shù)。另外,MPEG-4標(biāo)準(zhǔn)還定義了靜態(tài)視位(Static Viseme),但人們發(fā)音本身是一個(gè)動(dòng)態(tài)的過(guò)程,簡(jiǎn)單地用一個(gè)靜態(tài)視位來(lái)表示必然丟失許多有用的信息。另一方面,在人臉動(dòng)畫(huà)合成過(guò)程中也需要任意時(shí)刻的人臉動(dòng)畫(huà)參數(shù)?,F(xiàn)在解決這一問(wèn)題的方法有二一是由一個(gè)個(gè)靜態(tài)FAP參數(shù)在時(shí)間上進(jìn)行插值計(jì)算,以得出連續(xù)語(yǔ)流中任意時(shí)刻的人臉動(dòng)畫(huà)參數(shù)。對(duì)連續(xù)語(yǔ)流中視位參數(shù)的插值計(jì)算大多采用固定的函數(shù)進(jìn)行插值;二是對(duì)協(xié)同發(fā)音的處理,這是指連續(xù)說(shuō)話(huà)過(guò)程中,每個(gè)視位都要受到它周?chē)渌曃坏挠绊?,如美?guó)加洲大學(xué)的Cohen和Massaro提出的協(xié)同發(fā)音處理模型;在漢語(yǔ)可視語(yǔ)音合成中未見(jiàn)到相關(guān)報(bào)道,而且上述方法都是從靜態(tài)視位出發(fā),考慮相互之間的影響和過(guò)渡,而沒(méi)有把視位作為一個(gè)完整的動(dòng)態(tài)過(guò)程來(lái)考慮。
本發(fā)明的方法其特征在于,它依次包含以下步驟(1)選定需要錄像和錄音的漢語(yǔ)音位,建立包括復(fù)合元音的視位在內(nèi)的基本視位集所需的音位系列;(2)在讀出步驟(1)所述音位系列中所有聲韻母時(shí),放置與人臉正面成45度角的鏡子錄像,同步完成人臉正面和側(cè)面圖像的錄像和錄音,再通過(guò)與計(jì)算機(jī)相連的數(shù)字圖像采集卡,把錄像數(shù)據(jù)轉(zhuǎn)換為音視頻同步的數(shù)字圖像數(shù)據(jù);(3)從音視頻流中確定漢語(yǔ)靜態(tài)視位的抽取時(shí)刻;(3.1)由AVI文件中與時(shí)間有關(guān)的語(yǔ)音信號(hào)數(shù)據(jù),按下式計(jì)算從第n0個(gè)樣本開(kāi)始的一幀語(yǔ)音的短時(shí)能量 ,隨時(shí)間依次得到短時(shí)能量隨時(shí)間變化的曲線(xiàn),取語(yǔ)音短時(shí)能量曲線(xiàn)的中心時(shí)刻作為韻母靜態(tài)視位的抽取時(shí)刻;En0=Σn=n0N-1+n0(S2(n))----n0≤n≤N-1+n0]]>其中N為計(jì)算語(yǔ)音短時(shí)能量的語(yǔ)音幀長(zhǎng)(樣本點(diǎn)數(shù)),n0為起始樣本號(hào),S(n)表示第n個(gè)樣本的語(yǔ)音信號(hào)幅度值;(3.2)語(yǔ)音短時(shí)能量曲線(xiàn)隨時(shí)間變化的起始時(shí)刻作為聲母靜態(tài)視位的抽取時(shí)刻;(4)從國(guó)際標(biāo)準(zhǔn)化組織運(yùn)動(dòng)圖像專(zhuān)家組MPEG(Moving Picture Expert Group)制定的國(guó)際標(biāo)準(zhǔn)MPEG-4(ISO/IEC 14496-2)所定義的68個(gè)人臉動(dòng)畫(huà)參數(shù)FAP(Facial AnimationParameters)中選取24個(gè)FAP參數(shù)來(lái)描述漢語(yǔ)視位,現(xiàn)列出如下#3open_jaw下腭張開(kāi)度#16push_b_lip 下唇突出度#4lower_t_midlip內(nèi)上唇中點(diǎn)下移量#17push_t_lip 上唇突出度#5raise_b_midlip內(nèi)下唇中點(diǎn)上移量#51lower_t_lip_o外上唇中點(diǎn)下移量#6stretch_l_cornerlip左內(nèi)唇角拉開(kāi)度 #52raise_b_midlip_o外下唇中點(diǎn)上移量#7stretch_r_conerlip右內(nèi)唇角拉開(kāi)度 #53stretch_l_cornerlip_o左外唇角拉開(kāi)度#8lower_t_lip_lm內(nèi)上唇左中點(diǎn)下移量 #54stretch_r_conerlip_o右外唇角拉開(kāi)度#9lower_t_lip_rm內(nèi)上唇右中點(diǎn)下移量 #55lower_t_lip_lm_o外上唇左中點(diǎn)下移量#10raise_b_lip_lm內(nèi)下唇左中點(diǎn)上移量 #56lower_t_lip_rm_o外上唇右中點(diǎn)下移量#11raise_b_lip_rm內(nèi)下唇右中點(diǎn)上移量 #57raise_b_lip_lm_o外下唇左中點(diǎn)上移量#12raise_l_cornerlip左內(nèi)唇角上移度 #58raise_b_lip_rm_o外下唇右中點(diǎn)上移量#13raise_r_cornerlip右內(nèi)唇角上移度 #59raise_l_cornerlip_o 左外唇角上移度#14thrust_jaw下腭突出度 #60raise_r_cornerlip_o 右外唇角上移度
(5)利用計(jì)算機(jī)自動(dòng)測(cè)量或手動(dòng)測(cè)量視頻流中面部特征點(diǎn)的運(yùn)動(dòng),計(jì)算出相應(yīng)的漢語(yǔ)靜態(tài)視位的FAP參數(shù)(5.1)定義以下的人臉特征點(diǎn)雙鼻孔點(diǎn),外唇左右角點(diǎn)和上、下唇中點(diǎn),內(nèi)唇左右角點(diǎn)和上、下唇中點(diǎn),側(cè)面圖中的鼻尖點(diǎn),上、下唇突出點(diǎn)和下腭突出點(diǎn)和下腭下角點(diǎn);還有,外唇上輪廓線(xiàn)上左、右半邊的中點(diǎn),內(nèi)唇上輪廓線(xiàn)上左、右半邊的中點(diǎn),外唇下輪廓線(xiàn)上左、右半邊的中點(diǎn),內(nèi)唇下輪廓線(xiàn)上左、右半邊的中點(diǎn);(5.2)利用公知技術(shù)對(duì)上述人臉特征點(diǎn)定位,再根據(jù)MPEG-4標(biāo)準(zhǔn)的規(guī)定計(jì)算相應(yīng)的漢語(yǔ)靜態(tài)視位參數(shù)FAP;(6)通過(guò)計(jì)算機(jī)自動(dòng)聚類(lèi)分析產(chǎn)生漢語(yǔ)基本視位集,包括根據(jù)聚類(lèi)誤差建立漢語(yǔ)音位的視覺(jué)混淆樹(shù)和選擇適當(dāng)?shù)念?lèi)別數(shù),它依次包含以下步驟(6.1)設(shè)初始表類(lèi)別數(shù)為總視位個(gè)數(shù),對(duì)聲母為M=20,韻母M=15,即把每個(gè)視位作為一類(lèi),設(shè)總誤差J(M)=0;(6.2)選擇兩類(lèi)合并,M=M-1,設(shè)合并后形成類(lèi)別號(hào)為m,類(lèi)中視位個(gè)數(shù)為Nm,計(jì)算合并后形成的第m個(gè)類(lèi)的類(lèi)中心μm(p)=1NmΣk=1NmFapk(p);]]>(6.3)在所有可能的兩兩合并中,選擇使得按標(biāo)準(zhǔn)歐氏距離由下式計(jì)算出的總的誤差最小 ,并記錄這一類(lèi)別數(shù)的總誤差J(M),其中Fapi(k)表示第k個(gè)視位的第p個(gè)FAP參數(shù)值,P為所采用的總的FAP參數(shù)個(gè)數(shù);(6.4)重復(fù)步驟(6.2)、(6.3)步,直到總的類(lèi)別數(shù)減為1;(6.5)根據(jù)以上幾步所得到的不同類(lèi)別數(shù)下每一類(lèi)中的音位成員,畫(huà)出按各個(gè)音位視位相似性進(jìn)行合并過(guò)程的樹(shù)狀圖;(6.6)畫(huà)出誤差隨類(lèi)別數(shù)變化的曲線(xiàn),畫(huà)出視位分類(lèi)線(xiàn)去選擇誤差劇烈增加之前的類(lèi)別數(shù)作為最佳的類(lèi)別;(6.7)視位分類(lèi)線(xiàn)下對(duì)應(yīng)的視位即通過(guò)對(duì)漢語(yǔ)靜態(tài)視位分類(lèi)而得到的漢語(yǔ)基本視位集共20個(gè),現(xiàn)列出如下#0NA(自動(dòng)狀態(tài))#7 r #14 er#1b,p,m #8 z,c,s#15 i#2f #9 a,ang #16 o#3d,t,n,l #10 ai,an #17 ou#4g,k,h #11 ao #18 u#5j,q,x #12 e,eng #19 ü#6zh,ch,sh #13 ei,en
(7)建立一個(gè)用于描述某一視位對(duì)應(yīng)的FAP參數(shù)變化過(guò)程的基于權(quán)值融合的動(dòng)態(tài)視位模型WB-DVM(Weight Blending-Dynamic Viseme Model)每個(gè)動(dòng)態(tài)視位的FAP參數(shù)由一個(gè)基本控制權(quán)值函數(shù)和前、后兩個(gè)無(wú)聲模型控制權(quán)值函數(shù)來(lái)決定,三個(gè)控制權(quán)值函數(shù)的基本函數(shù)形式都是指數(shù)函數(shù),可表示為W=αeθ|τ|c]]>其中α給出視位中心處的控制權(quán)值幅度;θ為控制權(quán)值衰減或增加的速度;|τ|表示當(dāng)前時(shí)刻到控制權(quán)值函數(shù)中心點(diǎn)時(shí)刻的時(shí)間距離;c為一常數(shù);α、θ、|τ|、c都大于零;前無(wú)聲模型控制權(quán)值函數(shù)Wl為Wl=αleθl|τ|c---τ<0,]]>Wl=αle-θl|τ|c---τ>0,τ=tsi-tl-t,]]>后無(wú)聲模型控制權(quán)值函數(shù)Wr為Wr=αre-θr|τ|c---τ<0,]]>Wr=αreθr|τ|c---τ>0,τ=tei-tr-t,]]>第i個(gè)聲母視位基本控制權(quán)值函數(shù)Wi為Wi=αie-θi(-)|τ|c---τ<0,]]>Wi=αie-θi(+)|τ|c---τ>0,τ=tsi-tii-t,]]>第i個(gè)韻母視位基本控制權(quán)值函數(shù)Wi為Wi=αie-θi(-)|τ|c---τ<0,]]>Wi=αie-θi(+)|τ|c---τ>0,τ=tci-tfi-t,]]>其中tsi、tei、tci分別為語(yǔ)音段的起始時(shí)刻、結(jié)束時(shí)刻和中心時(shí)刻,tii為從語(yǔ)音段的開(kāi)始時(shí)刻tsi到聲母控制權(quán)值函數(shù)參數(shù)中心點(diǎn)的距離,tfi為從語(yǔ)音段的中心時(shí)刻tci到韻母控制權(quán)值函數(shù)參數(shù)中心點(diǎn)的距離,它與韻母的發(fā)音長(zhǎng)度有關(guān),可記為tfi=kfi*(tei-tsi),-0.5≤kfi≤0.5;tl、tr分別表示從前無(wú)聲模型中心到語(yǔ)音起始時(shí)刻和從后無(wú)聲模型中心到語(yǔ)音結(jié)束時(shí)刻的時(shí)間距離,τ表示當(dāng)前時(shí)刻t到控制權(quán)值函數(shù)中心點(diǎn)時(shí)刻的距離;單獨(dú)發(fā)某一音位i時(shí),任意時(shí)刻的第p個(gè)FAP參數(shù)的動(dòng)態(tài)參數(shù)值由這三者按其控制權(quán)值函數(shù)值加權(quán)計(jì)算得出Fip(t)=Wi(t)*TipWi(t)+Wl(t)+Wr(t);]]>其中T表示視位在其控制權(quán)值中心時(shí)刻的視位參數(shù)值,Tip即指視位i第p個(gè)FAP參數(shù)的中心處參數(shù)值;在連續(xù)語(yǔ)流中,各個(gè)視位的口形受到其周?chē)曃坏挠绊?,最終的FAP參數(shù)可以由各個(gè)FAP參數(shù)按基本控制權(quán)值函數(shù)值加權(quán)得到Fp(t)=(Σi=1I(Wi(t)×Tip))/(Σi=1IWi(t))]]>其中的i包含了前、后無(wú)聲模型,I為協(xié)同發(fā)音所考慮的視位及無(wú)聲模型總個(gè)數(shù);相鄰視位之間的無(wú)聲模型由前后無(wú)聲模型相交構(gòu)成;(8)動(dòng)態(tài)視位模型中的各個(gè)參數(shù)的確定(8.1)需要確定的參數(shù)為控制權(quán)值函數(shù)的指數(shù)參數(shù)c,與前后無(wú)聲模型有關(guān)的參數(shù)αl、αr、θl、θr、tl、tr;確定每個(gè)視位的參數(shù)αi(中心處控制權(quán)值函數(shù)值)、θi(-)、θi(+)(由控制函數(shù)中心向前和向后的衰減系數(shù))、tfi或kfi(控制權(quán)值函數(shù)中心與語(yǔ)音中心的時(shí)間距離)或tii(控制權(quán)值函數(shù)中心與語(yǔ)音起始時(shí)刻的時(shí)間距離),以及第p個(gè)FAP參數(shù)的中心處參數(shù)值Tip;(8.2)估計(jì)模型參數(shù),即采用分組、分階段、分步驟進(jìn)行機(jī)器學(xué)習(xí)的方法從實(shí)際數(shù)據(jù)中獲取先根據(jù)用上述步驟確定的漢語(yǔ)基本靜態(tài)視位集,對(duì)每個(gè)靜態(tài)視位類(lèi)所對(duì)應(yīng)的音位分別進(jìn)行發(fā)音錄像,并用上述FAP參數(shù)測(cè)量方法得到實(shí)際發(fā)音過(guò)程中的FAP參數(shù),再依次按以下步聚估算(8.2.1)根據(jù)經(jīng)驗(yàn)設(shè)定所有FAP參數(shù)共用的模型參數(shù)的初始值指數(shù)參數(shù)c=1.0,tl=100ms,tr=60ms;αl=αr=1,θl=θr=0.03;(8.2.2)設(shè)置第i個(gè)韻母所對(duì)應(yīng)的視位即韻母視位的模型參數(shù)αi=1,θi(-)=θi(+)=0.03,kfi=0,設(shè)置FAP參數(shù)中心處參數(shù)值為靜態(tài)視位的FAP參數(shù)值,并進(jìn)行學(xué)習(xí),以模型產(chǎn)生的FAP參數(shù)與實(shí)測(cè)FAP參數(shù)的誤差平方和作為相似度準(zhǔn)則或能量函數(shù),即 ,其中N為實(shí)際測(cè)量的音位發(fā)音過(guò)程中動(dòng)態(tài)視位長(zhǎng)度,單位為圖像幀,F(xiàn)api,k(p)表示第i個(gè)韻母視位的第k幀F(xiàn)AP參數(shù)p的實(shí)測(cè)數(shù)值,F(xiàn)ap′i,k(p)表示模型生成的第i個(gè)韻母視位的第k幀F(xiàn)AP參數(shù)p的數(shù)值;(8.2.3)利用公知的梯度下降法調(diào)節(jié)各個(gè)參數(shù),經(jīng)多次疊代使得總的誤差Ji最小,其中各個(gè)參數(shù)的調(diào)節(jié)范圍為αi(0.5~1.5),θi(-)、θi(+)(0.01~0.05),kfi(-0.5~0.5);(8.2.4)重復(fù)步驟(8.2.2)~(8.2.3),直到學(xué)完所有韻母視位的模型參數(shù),并記錄總的誤差和 ,其中K為總的韻母視位個(gè)數(shù);(8.2.5)用上述梯度下降法調(diào)節(jié)指數(shù)參數(shù)c和前后無(wú)聲模型參數(shù)tl、tr、αl、αr、θl、θr后返回步驟(8.2.2),經(jīng)多次疊代使總的誤差和J最小,各個(gè)參數(shù)的調(diào)節(jié)范圍為c(0.8~1.2),tl、tr(0~200ms),αl、αr(0.5~1.5),θl、θr、(0.01~0.05);(8.2.6)學(xué)習(xí)第i個(gè)聲母所對(duì)應(yīng)的視位參數(shù)時(shí),對(duì)包括第i個(gè)聲母的音節(jié)進(jìn)行發(fā)音錄像,并測(cè)得整個(gè)音節(jié)發(fā)音過(guò)程的視位參數(shù);(8.2.7)設(shè)置第i個(gè)聲母即聲母視位的模型參數(shù)αi=1,θi(-)=θi(+)=0.03,tii=0,設(shè)置FAP參數(shù)中心處參數(shù)值為靜態(tài)視位的FAP參數(shù)值,并進(jìn)行學(xué)習(xí);根據(jù)模型參數(shù)和上述步驟學(xué)得的指數(shù)參數(shù)c和前后無(wú)聲模型參數(shù)tl、tr、αl、αr、θl、θr以及韻母模型參數(shù)計(jì)算出整個(gè)音節(jié)的視位參數(shù),以模型參數(shù)產(chǎn)生的FAP參數(shù)與實(shí)測(cè)FAP參數(shù)的誤差平方和作為相似度準(zhǔn)則或能量函數(shù), ,其中N為實(shí)際測(cè)量的音節(jié)發(fā)音過(guò)程中動(dòng)態(tài)視位長(zhǎng)度,單位為圖像幀,F(xiàn)api,k(p)表示整個(gè)音節(jié)的第k幀F(xiàn)AP參數(shù)p的實(shí)測(cè)數(shù)值,F(xiàn)ap′i,k(p)表示模型生成的整個(gè)音節(jié)的第k幀F(xiàn)AP參數(shù)p的數(shù)值;(8.2.8)利用公知的梯度下降法調(diào)節(jié)各個(gè)參數(shù),經(jīng)多次疊代使得總的誤差Ji最小,其中各個(gè)參數(shù)的調(diào)節(jié)范圍為αi(0.5~1.5),θi(-)、θi(+)(0.01~0.05),tii(0~200ms);(8.2.9)重復(fù)步驟(8.2.6)~(8.2.8),直到學(xué)完所有聲母視位的模型參數(shù)。
本發(fā)明的系統(tǒng)其特征在于,它含有中央處理器,經(jīng)總線(xiàn)與中央處理器相連的視頻圖像采集設(shè)備中,聲音輸入/輸出設(shè)備,視頻圖像顯示設(shè)備、鍵盤(pán)、鼠標(biāo)以及內(nèi)存儲(chǔ)器。
實(shí)驗(yàn)證明,它達(dá)到了預(yù)期的目的。
圖2漢語(yǔ)音位-視位參數(shù)轉(zhuǎn)換方法和系統(tǒng)的計(jì)算機(jī)流程圖。
圖3雙視覺(jué)錄像及人臉特征點(diǎn)定位的示例圖。
圖4漢語(yǔ)韻母靜態(tài)視位的抽取時(shí)刻示意圖。
圖5漢語(yǔ)聲母靜態(tài)視位的抽取時(shí)刻示意圖。
圖6嘴唇輪廓定位用的變形模板曲線(xiàn)圖。
圖7漢語(yǔ)靜態(tài)視位分類(lèi)的程序流程圖。
圖8是根據(jù)誤差最小原則建立的漢語(yǔ)聲母和韻母音位的視覺(jué)混淆樹(shù)。
圖9分別漢語(yǔ)聲母和韻母視位在合并過(guò)程中總的分類(lèi)誤差隨視位分類(lèi)數(shù)變化的曲線(xiàn)。
圖10漢語(yǔ)動(dòng)態(tài)視位模型的控制權(quán)值函數(shù)及FAP參數(shù)變化過(guò)程示意圖。
圖11連續(xù)語(yǔ)流中的無(wú)聲模型構(gòu)成的示意圖。
圖12漢語(yǔ)動(dòng)態(tài)視位模型參數(shù)學(xué)習(xí)過(guò)程的示意圖。
圖13音位-視位轉(zhuǎn)換系統(tǒng)流程圖。
圖14漢語(yǔ)基本視位集和動(dòng)態(tài)視位模型建立方法的基本流程圖。
圖2是漢語(yǔ)音位-視位參數(shù)轉(zhuǎn)換方法和系統(tǒng)的計(jì)算機(jī)流程圖。圖中右半部分是從漢語(yǔ)音位集生成漢語(yǔ)基本視位集和動(dòng)態(tài)視位模型的過(guò)程。左半部分是由漢語(yǔ)音位轉(zhuǎn)換成視位參數(shù)的過(guò)程。下面將逐一解釋之。
從圖2中看出,首先選定需要錄像和錄音的漢語(yǔ)音位[模塊2]。我們參照《漢語(yǔ)拼音方案》、《現(xiàn)代漢語(yǔ)詞典》,根據(jù)漢語(yǔ)發(fā)音規(guī)則和音位發(fā)音過(guò)程中參數(shù)的變化規(guī)律,選定建立漢語(yǔ)視位所需音位列表,如表1和表2。表1是建立基本視位集所需音位或音位序列,包括漢語(yǔ)聲母、單元音韻母、前響的二合元音韻母,共計(jì)36個(gè)聲韻母視位,需要對(duì)這些音位進(jìn)行發(fā)音錄像。表二是不在表一中的其他復(fù)合元音音位,它們所對(duì)應(yīng)的視位由表一中的元音視位組合而成。
表1 建立基本視位集所需音位列表
對(duì)于不包括在漢語(yǔ)基本靜態(tài)視位中的音位,如漢語(yǔ)中后響二合元音韻母和三合元音韻母,可以根據(jù)一定規(guī)則將其分解為基本靜態(tài)視位,分解方法如表2所示。
表2復(fù)合元音的視位由表一中的元音視位組合而成
關(guān)于漢語(yǔ)聲韻母、輔音、元音及前響、后響的定義可參見(jiàn)《漢語(yǔ)拼音方案》、《現(xiàn)代漢語(yǔ)詞典》。
首先選擇發(fā)音人,讀出表一中的所有聲韻母[模塊2]。放置與人臉正面成45度角的鏡子錄像,同步獲得人臉正面和側(cè)面圖像,如圖3。完成雙視角的同步錄像和錄音。
通過(guò)數(shù)字圖像采集卡,將錄像數(shù)據(jù)轉(zhuǎn)換為音視頻同步的數(shù)字圖像數(shù)據(jù),數(shù)據(jù)格式為Windows AVI文件。
靜態(tài)視位是指代表某音位發(fā)音過(guò)程中某一時(shí)刻的一幀典型的面部圖像。基于音頻視頻流,選擇適當(dāng)時(shí)刻作為抽取靜態(tài)視位的時(shí)刻[模塊3]。如圖3是發(fā)某音位時(shí)的視位圖像。通過(guò)對(duì)漢語(yǔ)發(fā)音特點(diǎn)的研究,我們提出一種基于短時(shí)能量的確定漢語(yǔ)靜態(tài)視位抽取時(shí)刻的方法。語(yǔ)音的短時(shí)能量的計(jì)算已如上述。我們發(fā)現(xiàn),在人們對(duì)一個(gè)包括聲母和韻母的漢語(yǔ)音節(jié)發(fā)音過(guò)程中,漢語(yǔ)韻母所占時(shí)間較長(zhǎng),在發(fā)音的中部能量呈現(xiàn)穩(wěn)定的狀態(tài),口形也呈穩(wěn)定狀態(tài)。因此應(yīng)取語(yǔ)音短時(shí)能量的中心時(shí)刻作為韻母靜態(tài)視位的抽取時(shí)刻,如圖4所示,圖中實(shí)線(xiàn)為語(yǔ)音的短時(shí)能量隨時(shí)間變化曲線(xiàn),虛線(xiàn)為外唇高度變化曲線(xiàn),豎直線(xiàn)所對(duì)應(yīng)的橫軸坐標(biāo)為韻母靜態(tài)視位抽取時(shí)刻;對(duì)于聲母,其視位在聲音發(fā)出前已形成,在發(fā)音過(guò)程中向韻母視位過(guò)渡。因此,我們?nèi)≌Z(yǔ)音短時(shí)能量的起始時(shí)刻作為聲母靜態(tài)視位的抽取時(shí)刻,如圖5所示。外唇高度數(shù)據(jù)指外上唇中點(diǎn)到外下唇中點(diǎn)的距離,具體獲取方法在下述的嘴唇輪廓的定位。
對(duì)于視位參數(shù),發(fā)明中對(duì)視位的描述采用MPEG-4(ISO/IEC 14496-2)所定義的人臉動(dòng)畫(huà)FAP參數(shù)[模塊4],從MPEG-4所定義的68個(gè)FAP參數(shù)中選取24個(gè)來(lái)描述漢語(yǔ)視位,包括FAP3#-FAP14#,F(xiàn)AP16#-FAP17#,F(xiàn)AP51#-FAP60#,如表3所示表3 描述漢語(yǔ)視位的FAP參數(shù)
人臉特征點(diǎn)的定位雙鼻孔點(diǎn)的定位在上一幀圖像中標(biāo)出的雙鼻孔點(diǎn)周?chē)_定矩形框。設(shè)上一幀圖像中雙鼻孔點(diǎn)間距為K像素,則矩形框的左邊界為從上一幀的左鼻孔點(diǎn)向左移K像素,右邊界為從上一幀的右鼻孔點(diǎn)向右移K像素,上下邊界分別為從上一幀圖像中雙鼻孔點(diǎn)水平均值向上和向下移K像素。對(duì)此矩形框內(nèi)的所有像素計(jì)算其亮度,對(duì)最暗的20%像素以區(qū)域水平中心為界分左右兩部分計(jì)算其重心,即定為本幀圖像中的雙鼻孔點(diǎn)。計(jì)算公式如下x=1MΣi=1Mxi]]>y=1MΣi=1Myi]]>其中xi、yi分別為第i個(gè)暗區(qū)像素點(diǎn)的橫坐標(biāo)和縱坐標(biāo),M為總的左邊或右邊暗區(qū)像素點(diǎn)個(gè)數(shù),x、y為計(jì)算出的左邊或右邊暗鼻孔點(diǎn)坐標(biāo)。
嘴唇輪廓的定位在采用變形模板(Deformable Template)的方法,分別用二次曲線(xiàn)和四次曲線(xiàn)來(lái)擬合內(nèi)外唇輪廓線(xiàn),如圖6所示。
內(nèi)唇曲線(xiàn)由兩個(gè)二次曲線(xiàn)組成,其方程為上唇y(tǒng)=h3(1-x2wi2)]]>下唇y(tǒng)=h4(1-x2wi2)]]>其中h3和h4分別為模板中心到內(nèi)上唇和內(nèi)下唇點(diǎn)的距離,wi為內(nèi)唇寬度的一半;外上唇曲線(xiàn)由兩個(gè)四次曲線(xiàn)組成,外下唇曲線(xiàn)由一個(gè)四次曲線(xiàn)組成,其曲線(xiàn)方程分別為外上唇左半部分y=h1(1-(x+a)2wo2)+4q1((x+a)4wo4-(x+a)2wo2)]]>外上唇右半部分y=h1(1-(x-a)2wo2)+4q1((x-a)4wo4-(x-a)2wo2)]]>外下唇y(tǒng)=h2(1-x2wo2)+4q2(x4wo4-x2wo2)]]>其中h1和h2分別為模板中心到外上唇和外下唇點(diǎn)的距離,wo為外唇寬度的一半,a表示四次上唇曲線(xiàn)中心處與上唇中點(diǎn)的距離,q1和q2表示曲線(xiàn)與二次曲線(xiàn)的差別大小,詳見(jiàn)圖6。
側(cè)面圖中特征點(diǎn)的定位
設(shè)初始側(cè)面圖中手動(dòng)標(biāo)出的鼻尖點(diǎn)到下腭下角點(diǎn)的距離為M像素,分別以鼻尖點(diǎn)左移M/3像素和右移M/3像素為膚色點(diǎn)和背景點(diǎn),記錄其像素值。在后續(xù)圖像幀中,對(duì)上一幀圖中鼻尖點(diǎn)左移2*M/3、右移M/3、上移M/5、下移3*M/2構(gòu)成的矩形框內(nèi)所有像素點(diǎn)分為膚色點(diǎn)和背景點(diǎn),從右向左找出邊緣輪廓線(xiàn),邊緣輪廓線(xiàn)上最右三點(diǎn)分別為鼻尖點(diǎn)、下唇突出點(diǎn)和下唇突出點(diǎn)。下腭下角點(diǎn)為曲線(xiàn)上下唇突出點(diǎn)以下斜率等于1的點(diǎn),下腭突出點(diǎn)為下唇突出點(diǎn)與下腭下角點(diǎn)縱向中點(diǎn)處的邊緣點(diǎn)。
人臉動(dòng)畫(huà)參數(shù)FAP的計(jì)算由初始點(diǎn)位置計(jì)算出口鼻距離MNSO(我們以左右鼻孔點(diǎn)的中點(diǎn)到內(nèi)上唇中點(diǎn)的距離近似)和外唇寬度MWO,并根據(jù)MNS=MNSO/1024和MW=MWO/1024轉(zhuǎn)換為MNS和MW。在后續(xù)幀中根據(jù)特征點(diǎn)相對(duì)于初始點(diǎn)位置的位移量,可以按照MPEG-4標(biāo)準(zhǔn)的規(guī)定算出相應(yīng)的FAP參數(shù)。
對(duì)測(cè)量得到的每個(gè)音位所對(duì)應(yīng)的FAP參數(shù)進(jìn)行聚類(lèi)分析[模塊6],即對(duì)相似的靜態(tài)視位進(jìn)行合并,找到所有音位中有區(qū)別又具代表性的靜態(tài)視位。其集合稱(chēng)為漢語(yǔ)基本視位集。圖7是漢語(yǔ)靜態(tài)視位分類(lèi)的程序流程圖??紤]到聲母與韻母的差別,聚類(lèi)分析在聲母和韻母間分別進(jìn)行,首先根據(jù)誤差最小原則建立的漢語(yǔ)聲母和韻母音位的視覺(jué)混淆樹(shù),其步驟如上所述。
在圖8中,最下端是所有待合并的視位,最上端將所有視位合為一類(lèi)。中間每一次將兩個(gè)類(lèi)別合并,合并處的縱坐標(biāo)代表了合并誤差的大小,合并處縱坐標(biāo)越小,說(shuō)明這兩類(lèi)的相似性越強(qiáng)。其中圖8(a)是聲母視位,圖8(b)是韻母視位。
如圖9所示,誤差并非線(xiàn)性變化,應(yīng)該選擇誤差劇烈增加之前的類(lèi)別數(shù)作為最佳的類(lèi)別。圖9中虛線(xiàn)中一種選擇結(jié)果所對(duì)應(yīng)的視位分類(lèi)線(xiàn)。其中圖9(a)是聲母視位,圖9(b)是韻母視位。表4即得到漢語(yǔ)基本視位集。
表4漢語(yǔ)基本視位集
本發(fā)明中所述的基于權(quán)值融合的動(dòng)態(tài)視位模型WB-DVM(Weight Blending-DynamicViseme Model)是一個(gè)用來(lái)描述某一視位所對(duì)應(yīng)的FAP參數(shù)變化過(guò)程的數(shù)學(xué)模型[模塊7]。
通過(guò)對(duì)大量發(fā)音錄像的觀(guān)察和跟蹤處理后我們發(fā)現(xiàn),在人們開(kāi)始發(fā)音時(shí),面部表情超前于語(yǔ)音,如聲音未發(fā)出之前,嘴已開(kāi)始動(dòng);在人們結(jié)束發(fā)音時(shí),面部表情滯后于語(yǔ)音,如聲音停止后,嘴還未合上。面部表情經(jīng)歷了一個(gè)從無(wú)到有再逐漸消失的過(guò)程。因此我們將每個(gè)動(dòng)態(tài)視位的FAP參數(shù)由一個(gè)基本控制權(quán)值函數(shù)和前后兩個(gè)無(wú)聲模型控制權(quán)值函數(shù)來(lái)決定。整個(gè)動(dòng)態(tài)視位的參數(shù)變化過(guò)程由靜態(tài)FAP參數(shù)在這三個(gè)控制權(quán)值函數(shù)共同作用下形成,其建模過(guò)程已如上述。
表5就是在不同控制權(quán)值函數(shù)中動(dòng)態(tài)視位模型的各個(gè)參數(shù),其定義已如上述。
表5不同控制權(quán)值函數(shù)中動(dòng)態(tài)視位模型的各個(gè)參數(shù)
以上各個(gè)時(shí)刻與時(shí)間段的關(guān)系、控制權(quán)值函數(shù)曲線(xiàn)及最終FAP參數(shù)曲線(xiàn)見(jiàn)圖10所示。圖中橫坐標(biāo)代表時(shí)間,上部分的縱坐標(biāo)代表控制權(quán)值函數(shù)值,下半部分的縱坐標(biāo)代表FAP參數(shù)值(對(duì)于實(shí)線(xiàn))和語(yǔ)音能量值(對(duì)于虛線(xiàn))。圖中上半部分為前、后無(wú)聲模型與視位模型的控制權(quán)值函數(shù)曲線(xiàn),其中前、后無(wú)聲模型控制權(quán)值函數(shù)曲線(xiàn)中超出2.2的部分以直線(xiàn)代替,但其實(shí)際值是以指數(shù)上升的。圖中上半部分中的虛直線(xiàn)指出了三個(gè)α系數(shù),并假定αi=αl=αr。圖中下半部分中的虛線(xiàn)為語(yǔ)音能量的示意圖,虛直線(xiàn)在橫坐標(biāo)上指出了語(yǔ)音時(shí)間中心。在圖11中,虛線(xiàn)表示在連續(xù)語(yǔ)流中前后兩個(gè)無(wú)聲模型相交后拋棄的部分,中間的實(shí)線(xiàn)表示新構(gòu)成的無(wú)聲模型權(quán)值函數(shù)曲線(xiàn)。
動(dòng)態(tài)視位模型中的各個(gè)參數(shù)和確定方法已如上述。其動(dòng)態(tài)視位模型參數(shù)學(xué)習(xí)流程見(jiàn)圖12。
本發(fā)明用于單位—視位參數(shù)轉(zhuǎn)換系統(tǒng)的主流程圖見(jiàn)圖13。其漢語(yǔ)基本視位集和動(dòng)態(tài)視位模型的建立方法的基本流程圖見(jiàn)圖14。
下面以讀“大學(xué)”一詞時(shí)視位參數(shù)轉(zhuǎn)換為例加以具體說(shuō)明。
1、所需視位動(dòng)態(tài)視位模型的建立(1)“大學(xué)”一詞的拼音串為’da xue’,涉及到的音位有’d’、’a’、’x’、’ ü’和’e’;
(2)將包括’a’、 ’e’、’i’、’ü’、’xi’和’de’音節(jié)發(fā)音的錄像和錄音數(shù)據(jù)讀入計(jì)算機(jī)內(nèi)存(取’i’是為了與’xi’相結(jié)合學(xué)習(xí)聲母視位’x’的模型參數(shù)),其中圖像的采樣率為25Hz,分辨率為720X576像素;語(yǔ)音的采樣率為11.025kHz,16bit量化;(3)利用計(jì)算機(jī)計(jì)算語(yǔ)音的短時(shí)能量,幀長(zhǎng)采用40ms,每幀樣本點(diǎn)個(gè)數(shù)為N=300;統(tǒng)計(jì)所有幀短時(shí)能量的最大值Emax和最小值Emin以TH=Emin+(Emax-Emin)/10為閾值區(qū)分出所有時(shí)間范圍內(nèi)的語(yǔ)音段和無(wú)聲段。
(4)根據(jù)已知錄音文本的順序,得到音節(jié)’de’、’xi’、’a’、’e’、’i’和’ü’對(duì)應(yīng)的語(yǔ)音段時(shí)間范圍,如表6中第3、4列所示;根據(jù)韻母取語(yǔ)音中心時(shí)刻、聲母取語(yǔ)音起始時(shí)刻的原則,得到對(duì)應(yīng)的靜態(tài)視位時(shí)間分別如表6中第6列所示。
表6各個(gè)視位在錄像中相關(guān)時(shí)刻
(5)按對(duì)模塊5說(shuō)明中所述的方法測(cè)出面部各特征點(diǎn)的位置并計(jì)算得出每個(gè)靜態(tài)視位的FAP參數(shù),如下表7所示
(6)因?yàn)槊娌縿?dòng)作超前于語(yǔ)音開(kāi)始并滯后于語(yǔ)音結(jié)束,可以從各個(gè)音節(jié)的語(yǔ)音開(kāi)始處向前找到視位開(kāi)始時(shí)刻,從語(yǔ)音結(jié)束處向后找到視位結(jié)束時(shí)刻。以FAP3#和FAP4#及FAP5#都等于零作為搜索終止條件。得到音節(jié)’de’、’xi’、’a’、’e’、’i’和’ü’對(duì)應(yīng)的視位時(shí)間范圍,如表6中第2、5列所示。對(duì)應(yīng)的圖像幀數(shù)分別為32、24、39、32、33和40。
(7)對(duì)于得到的原始視位參數(shù),按圖12所示的學(xué)習(xí)流程,得到視位’a’、’e’、’i’、’ü’、’x’和’d’的動(dòng)態(tài)視位模型參數(shù)。具體學(xué)習(xí)過(guò)程如下(A)設(shè)定初始參數(shù)值指數(shù)系數(shù)c=1.0,前后無(wú)聲模型參數(shù)tl=100ms,tr=60ms,αl=αr=1,θl=θr=0.03;(B)設(shè)置韻母視位’a’(視位編號(hào)為’9’)的模型參數(shù)α9=1,θ9(-)=θ9(+)=0.03,kf9=0,設(shè)置初始中心處參數(shù)值為靜態(tài)視位的FAP參數(shù)值,如表5中第2列所示。實(shí)際跟蹤得出的視位時(shí)長(zhǎng)1580ms,根據(jù)以上設(shè)定的模型參數(shù)和式(4)計(jì)算出合成的各個(gè)FAP參數(shù)值,并計(jì)算誤差平方和,即
,式中p的取值范圍為所有用到的FAP參數(shù)號(hào),即3~14,16~17,51~60。設(shè)定各個(gè)參數(shù)的改變步進(jìn)量為Δα=0.05、Δθ=0.005、ΔT=10、Δk=0.05,分別將各參數(shù)減少和增加其步進(jìn)量后計(jì)算出新的誤差平方和J9-和J9+,利用梯度下降法調(diào)節(jié)各個(gè)參數(shù),經(jīng)多次疊代使得總的誤差J9最小。各個(gè)參數(shù)的調(diào)節(jié)范圍為αi(0.5~1.5),θi(-)、θi(+)(0.01~0.05),kfi(-0.5~0.5)。最終得到視位’a’在固定系數(shù)c及無(wú)聲模型參數(shù)情況下的一組最佳參數(shù)。(C)重復(fù)(B)學(xué)習(xí)韻母視位’e’、’i’、’ü’,并記錄總的誤差和
(D)設(shè)定各個(gè)參數(shù)的改變步進(jìn)量為Δc=0.05、Δα=0.05、Δθ=0.005、Δk=0.05,分別將各參數(shù)減少和增加其步進(jìn)量后計(jì)算出新的誤差平方和J-和J+,根據(jù)梯度下降法調(diào)節(jié)指數(shù)系數(shù)c和前后無(wú)聲模型各個(gè)參數(shù)tl、tr、αl、αr、θl、θr,各個(gè)參數(shù)的調(diào)節(jié)范圍為c(0.8~1.2),tl、tr(0~200ms)、αl、αr(0.5~1.5),θl、θr、(0.01~0.05)。然后返回(E),經(jīng)多次重復(fù)(B)、(C)、(D)疊代使總的誤差和J最小,找到最佳的指數(shù)系數(shù)和無(wú)聲模型參數(shù)。
學(xué)習(xí)得到的指數(shù)系數(shù)為c=0.9663,前后無(wú)聲模型參數(shù)tl=64ms,tr=45ms,αl=0.8383,αr=0.9332,θl=0.0351,θr=0.0479;及四個(gè)韻母視位參數(shù)如下表所示
表8韻母視位動(dòng)態(tài)視位模型的參數(shù)值
(F)根據(jù)以上步驟確定的指數(shù)參數(shù)、無(wú)聲模型參數(shù)和韻母視位模型’e’的參數(shù),從音節(jié)’de’中學(xué)習(xí)聲母視位’d’的視位模型參數(shù)設(shè)置聲母視位’d’(視位編號(hào)為’3’)的模型參數(shù)α3=1,θ3(-)=θ3(+)=0.03,tf3=50ms,實(shí)際跟蹤得出的音節(jié)’de’的視位時(shí)長(zhǎng)1240ms,根據(jù)以上得出的指數(shù)系數(shù)、前后無(wú)聲模型參數(shù)以及韻母’e’的視位模型參數(shù),可由式(4)計(jì)算出合成的各個(gè)時(shí)刻的FAP參數(shù)值,并計(jì)算出合成值與實(shí)際跟蹤值的誤差平方和,即
,式中p的取值范圍為所有用到的FAP參數(shù)號(hào),即3~14,16~17,51~60。設(shè)定各個(gè)參數(shù)的改變步進(jìn)量為Δα=0.05、Δθ=0.005、ΔT=10、Δt=20ms,分別將各參數(shù)減少和增加其步進(jìn)量后計(jì)算出新的誤差平方和J3-和J3+,利用梯度下降法調(diào)節(jié)各個(gè)參數(shù),經(jīng)多次疊代使得總的誤差J3最小。各個(gè)參數(shù)的調(diào)節(jié)范圍為α3(0.5~1.5),θ3(-)、θ3(+)(0.01~0.05),ti3(0~200ms)。最終得到聲母視位’d’的模型參數(shù)為α3=1.2432,θ3(-)=0.0457、θ3(+)=0.0432,ti3=8ms、FAP3#中心值T3=156。
與學(xué)習(xí)視位’d’模型參數(shù)的方法相同,利用指數(shù)系數(shù)、前后無(wú)聲模型參數(shù)以及韻母’i’的視位模型參數(shù),從音節(jié)’xi’中學(xué)習(xí)聲母視位’x’的模型參參數(shù)。最終得到聲母視位’x’的模型參數(shù)為α5=1.1982,θ5(-)=0.0361、θ5(+)=0.0354,ti5=5ms、FAP3#中心值T5=125。
2、音位到視位參數(shù)的轉(zhuǎn)換(1)查找靜態(tài)視位集中聲韻母與視位類(lèi)別號(hào)的對(duì)應(yīng)關(guān)系得到下面的靜態(tài)視位號(hào)序列(前后有無(wú)聲模型,中間沒(méi)有語(yǔ)音停頓,無(wú)聲模型自動(dòng)消失)
(2)根據(jù)語(yǔ)音合成系統(tǒng)從語(yǔ)音庫(kù)中得到對(duì)應(yīng)各音位的時(shí)長(zhǎng)如下(也可以人為指定,單位為ms)
總的視位參數(shù)變化過(guò)程為780ms。
(3)設(shè)對(duì)某一視位的協(xié)同發(fā)音只考慮其前后相鄰的兩個(gè)視位對(duì)它的影響,則根據(jù)(2)可得到計(jì)算不同時(shí)間范圍內(nèi)的視位參數(shù)時(shí)所用到的動(dòng)態(tài)視位模型編號(hào)如下表所示
(4)在以上各個(gè)時(shí)間段內(nèi),根據(jù)所用到的動(dòng)態(tài)視位模型可由(4)式計(jì)算出任意時(shí)刻視位參數(shù)值。下表計(jì)算出的各時(shí)刻下腭張開(kāi)度(FAP3#)參數(shù)值,其他參數(shù)計(jì)算方法相同。
權(quán)利要求
1.漢語(yǔ)音位-視位參數(shù)的計(jì)算機(jī)轉(zhuǎn)換方法,含有在發(fā)音人讀出所有聲韻時(shí),放置與人臉正面成45度角的鏡子錄像,同步完成人臉正面和側(cè)面圖像的錄像和錄音,通過(guò)與計(jì)算機(jī)相連的數(shù)字圖像采集卡,把錄像數(shù)據(jù)轉(zhuǎn)換為音視頻同步的數(shù)字圖像數(shù)據(jù)的步驟,其特征在于,它依次包含以下步驟(1)選定需要錄像和錄音的漢語(yǔ)音位,建立包括復(fù)合元音的視位在內(nèi)的基本視位集所需的音位系列;(2)在讀出步驟(1)所述音位系列中所有聲韻母時(shí),放置與人臉正面成45度角的鏡子錄像,同步完成人臉正面和側(cè)面圖像的錄像和錄音,再通過(guò)與計(jì)算機(jī)相連的數(shù)字圖像采集卡,把錄像數(shù)據(jù)轉(zhuǎn)換為音視頻同步的數(shù)字圖像數(shù)據(jù);(3)從音視頻流中確定漢語(yǔ)靜態(tài)視位的抽取時(shí)刻;(3.1)由AVI文件中與時(shí)間有關(guān)的語(yǔ)音信號(hào)數(shù)據(jù),按下式計(jì)算從第n0個(gè)樣本開(kāi)始的一幀語(yǔ)音的短時(shí)能量 ,隨時(shí)間依次得到短時(shí)能量隨時(shí)間變化的曲線(xiàn),取語(yǔ)音短時(shí)能量曲線(xiàn)的中心時(shí)刻作為韻母靜態(tài)視位的抽取時(shí)刻;En0=Σn=n0N-1+n0(S2(n))---n0≤n≤N-1+n0]]>其中N為計(jì)算語(yǔ)音短時(shí)能量的語(yǔ)音幀長(zhǎng)(樣本點(diǎn)數(shù)),n0為起始樣本號(hào),S(n)表示第n個(gè)樣本的語(yǔ)音信號(hào)幅度值;(3.2)語(yǔ)音短時(shí)能量曲線(xiàn)隨時(shí)間變化的起始時(shí)刻作為聲母靜態(tài)視位的抽取時(shí)刻;(4)從國(guó)際標(biāo)準(zhǔn)化組織運(yùn)動(dòng)圖像專(zhuān)家組MPEG(Moving Picture Expert Group)制定的國(guó)際標(biāo)準(zhǔn)MPEG-4(ISO/IEC 14496-2)所定義的68個(gè)人臉動(dòng)畫(huà)參數(shù)FAP(Facial AnimationParameters)中選取24個(gè)FAP參數(shù)來(lái)描述漢語(yǔ)視位,現(xiàn)列出如下#3 open_jaw下腭張開(kāi)度 #16push_b_lip下唇突出度#4 lower_t_midlip內(nèi)上唇中點(diǎn)下移量 #17push_t_lip上唇突出度#5 raise_b_midlip內(nèi)下唇中點(diǎn)上移量 #51lower_t_lip_o外上唇中點(diǎn)下移量#6 stretch_l_cornerlip左內(nèi)唇角拉開(kāi)度#52raise_b_midlip_o外下唇中點(diǎn)上移量#7 stretch_r_conerlip右內(nèi)唇角拉開(kāi)度 #53stretch_l_cornerlip_o左外唇角拉開(kāi)度#8 lower_t_lip_lm內(nèi)上唇左中點(diǎn)下移量 #54stretch_r_conerlip_o右外唇角拉開(kāi)度#9 lower_t_lip_rm內(nèi)上唇右中點(diǎn)下移量 #55lower_t_lip_lm_o外上唇左中點(diǎn)下移量#10raise_b_lip_lm內(nèi)下唇左中點(diǎn)上移量 #56lower_t_lip_rm_o外上唇右中點(diǎn)下移量#11raise_b_lip_rm內(nèi)下唇右中點(diǎn)上移量 #57raise_b_lip_lm_o外下唇左中點(diǎn)上移量#12raise_l_cornerlip左內(nèi)唇角上移度 #58raise_b_lip_rm_o外下唇右中點(diǎn)上移量#13raise_r_cornerlip右內(nèi)唇角上移度 #59raise_l_cornerlip_o左外唇角上移度#14thrust_jaw下腭突出度 #60raise_r_cornerlip_o右外唇角上移度(5)利用計(jì)算機(jī)自動(dòng)測(cè)量或手動(dòng)測(cè)量視頻流中面部特征點(diǎn)的運(yùn)動(dòng),計(jì)算出相應(yīng)的漢語(yǔ)靜態(tài)視位的FAP參數(shù)(5.1)定義以下的人臉特征點(diǎn)雙鼻孔點(diǎn),外唇左右角點(diǎn)和上、下唇中點(diǎn),內(nèi)唇左右角點(diǎn)和上、下唇中點(diǎn),側(cè)面圖中的鼻尖點(diǎn),上、下唇突出點(diǎn)和下腭突出點(diǎn)和下腭下角點(diǎn);還有,外唇上輪廓線(xiàn)上左、右半邊的中點(diǎn),內(nèi)唇上輪廓線(xiàn)上左、右半邊的中點(diǎn),外唇下輪廓線(xiàn)上左、右半邊的中點(diǎn),內(nèi)唇下輪廓線(xiàn)上左、右半邊的中點(diǎn);(5.2)利用公知技術(shù)對(duì)上述人臉特征點(diǎn)定位,再根據(jù)MPEG-4標(biāo)準(zhǔn)的規(guī)定計(jì)算相應(yīng)的漢語(yǔ)靜態(tài)視位參數(shù)FAP;(6)通過(guò)計(jì)算機(jī)自動(dòng)聚類(lèi)分析產(chǎn)生漢語(yǔ)基本視位集,包括根據(jù)聚類(lèi)誤差建立漢語(yǔ)音位的視覺(jué)混淆樹(shù)和選擇適當(dāng)?shù)念?lèi)別數(shù),它依次包含以下步驟(6.1)設(shè)初始表類(lèi)別數(shù)為總視位個(gè)數(shù),對(duì)聲母為M=20,韻母M=15,即把每個(gè)視位作為一類(lèi),設(shè)總誤差J(M)=0;(6.2)選擇兩類(lèi)合并,M=M-1,設(shè)合并后形成類(lèi)別號(hào)為m,類(lèi)中視位個(gè)數(shù)為Nm,計(jì)算合并后形成的第m個(gè)類(lèi)的類(lèi)中心μm(p)=1NmΣk=1NmFapk(p);]]>(6.3)在所有可能的兩兩合并中,選擇使得按標(biāo)準(zhǔn)歐氏距離由下式計(jì)算出的總的誤差最小 ,并記錄這一類(lèi)別數(shù)的總誤差J(M),其中Fapi(k)表示第k個(gè)視位的第p個(gè)FAP參數(shù)值,P為所采用的總的FAP參數(shù)個(gè)數(shù);(6.4)重復(fù)步驟(6.2)、(6.3)步,直到總的類(lèi)別數(shù)減為1;(6.5)根據(jù)以上幾步所得到的不同類(lèi)別數(shù)下每一類(lèi)中的音位成員,畫(huà)出按各個(gè)音位視位相似性進(jìn)行合并過(guò)程的樹(shù)狀圖;(6.6)畫(huà)出誤差隨類(lèi)別數(shù)變化的曲線(xiàn),畫(huà)出視位分類(lèi)線(xiàn)去選擇誤差劇烈增加之前的類(lèi)別數(shù)作為最佳的類(lèi)別;(6.7)視位分類(lèi)線(xiàn)下對(duì)應(yīng)的視位即通過(guò)對(duì)漢語(yǔ)靜態(tài)視位分類(lèi)而得到的漢語(yǔ)基本視位集共20個(gè),現(xiàn)列出如下#0NA(自動(dòng)狀態(tài)) #7 r #14er#1b,p,m #8 z, c, s#15i#2f#9 a, ang #16o#3d,t,n,l #10 ai, an#17ou#4g,k,h #11 ao #18u#5j,q,x #12 e, eng #19ü#6zh,ch,sh #13 ei, en(7)建立一個(gè)用于描述某一視位對(duì)應(yīng)的FAP參數(shù)變化過(guò)程的基于權(quán)值融合的動(dòng)態(tài)視位模型WB-DVM(Weight Blending-Dynamic Viseme Model)每個(gè)動(dòng)態(tài)視位的FAP參數(shù)由一個(gè)基本控制權(quán)值函數(shù)和前、后兩個(gè)無(wú)聲模型控制權(quán)值函數(shù)來(lái)決定,三個(gè)控制權(quán)值函數(shù)的基本函數(shù)形式都是指數(shù)函數(shù),可表示為W=αeθ|τ|c]]>其中α給出視位中心處的控制權(quán)值幅度;θ為控制權(quán)值衰減或增加的速度;|τ|表示當(dāng)前時(shí)刻到控制權(quán)值函數(shù)中心點(diǎn)時(shí)刻的時(shí)間距離;c為一常數(shù);α、θ、|τ|、c都大于零;前無(wú)聲模型控制權(quán)值函數(shù)Wl為Wl=αleθl|τ|c---τ<0,]]>Wl=αle-θl|τ|c---τ>0,τ=tsi-tl-t,]]>后無(wú)聲模型控制權(quán)值函數(shù)Wr為Wr=αre-θr|τ|c---τ<0,]]>Wr=αreθr|τ|c---τ>0,τ=tei-tr-t,]]>第i個(gè)聲母視位基本控制權(quán)值函數(shù)Wi為Wi=αie-θi(-)|τ|c---τ<0,]]>Wi=αie-θi(+)|τ|c---τ>0,τ=tsi-tii-t,]]>第i個(gè)韻母視位基本控制權(quán)值函數(shù)Wi為Wi=αie-θi(-)|τ|c---τ<0,]]>Wi=αie-θi(+)|τ|c---τ>0,τ=tci-tfi-t,]]>其中tsi、tei、tci分別為語(yǔ)音段的起始時(shí)刻、結(jié)束時(shí)刻和中心時(shí)刻,tii為從語(yǔ)音段的開(kāi)始時(shí)刻tsi到聲母控制權(quán)值函數(shù)參數(shù)中心點(diǎn)的距離,tfi為從語(yǔ)音段的中心時(shí)刻tci到韻母控制權(quán)值函數(shù)參數(shù)中心點(diǎn)的距離,它與韻母的發(fā)音長(zhǎng)度有關(guān),可記為tfi=kfi*(tei-tsi),-0.5≤kfi≤0.5;tl、tr分別表示從前無(wú)聲模型中心到語(yǔ)音起始時(shí)刻和從后無(wú)聲模型中心到語(yǔ)音結(jié)束時(shí)刻的時(shí)間距離,τ表示當(dāng)前時(shí)刻t到控制權(quán)值函數(shù)中心點(diǎn)時(shí)刻的距離;單獨(dú)發(fā)某一音位i時(shí),任意時(shí)刻的第p個(gè)FAP參數(shù)的動(dòng)態(tài)參數(shù)值由這三者按其控制權(quán)值函數(shù)值加權(quán)計(jì)算得出Fip(t)=Wi(t)*TipWi(t)+Wl(t)+Wr(t);]]>其中T表示視位在其控制權(quán)值中心時(shí)刻的視位參數(shù)值,Tip即指視位i第p個(gè)FAP參數(shù)的中心處參數(shù)值;在連續(xù)語(yǔ)流中,各個(gè)視位的口形受到其周?chē)曃坏挠绊?,最終的FAP參數(shù)可以由各個(gè)FAP參數(shù)按基本控制權(quán)值函數(shù)值加權(quán)得到Fp(t)=(Σi=1I(Wi(t)×Tip))/(Σi=1IWi(t))]]>其中的i包含了前、后無(wú)聲模型,I為協(xié)同發(fā)音所考慮的視位及無(wú)聲模型總個(gè)數(shù);相鄰視位之間的無(wú)聲模型由前后無(wú)聲模型相交構(gòu)成;(8)動(dòng)態(tài)視位模型中的各個(gè)參數(shù)的確定(8.1)需要確定的參數(shù)為控制權(quán)值函數(shù)的指數(shù)參數(shù)c,與前后無(wú)聲模型有關(guān)的參數(shù)αl、αr、θl、θr、tl、tr;確定每個(gè)視位的參數(shù)αi(中心處控制權(quán)值函數(shù)值)、θi(-)、θi(+)(由控制函數(shù)中心向前和向后的衰減系數(shù))、tfi或kfi(控制權(quán)值函數(shù)中心與語(yǔ)音中心的時(shí)間距離)或tii(控制權(quán)值函數(shù)中心與語(yǔ)音起始時(shí)刻的時(shí)間距離),以及第p個(gè)FAP參數(shù)的中心處參數(shù)值Tip;(8.2)估計(jì)模型參數(shù),即采用分組、分階段、分步驟進(jìn)行機(jī)器學(xué)習(xí)的方法從實(shí)際數(shù)據(jù)中獲取先根據(jù)用上述步驟確定的漢語(yǔ)基本靜態(tài)視位集,對(duì)每個(gè)靜態(tài)視位類(lèi)所對(duì)應(yīng)的音位分別進(jìn)行發(fā)音錄像,并用上述FAP參數(shù)測(cè)量方法得到實(shí)際發(fā)音過(guò)程中的FAP參數(shù),再依次按以下步聚估算(8.2.1)根據(jù)經(jīng)驗(yàn)設(shè)定所有FAP參數(shù)共用的模型參數(shù)的初始值指數(shù)參數(shù)c=1.0,tl=100ms,tr=60ms;αl=αr=1,θl=θr=0.03;(8.2.2)設(shè)置第i個(gè)韻母所對(duì)應(yīng)的視位即韻母視位的模型參數(shù)αi=1,θi(-)=θi(+)=0.03,kfi=0,設(shè)置FAP參數(shù)中心處參數(shù)值為靜態(tài)視位的FAP參數(shù)值,并進(jìn)行學(xué)習(xí),以模型產(chǎn)生的FAP參數(shù)與實(shí)測(cè)FAP參數(shù)的誤差平方和作為相似度準(zhǔn)則或能量函數(shù),即 ,其中N為實(shí)際測(cè)量的音位發(fā)音過(guò)程中動(dòng)態(tài)視位長(zhǎng)度,單位為圖像幀,F(xiàn)api,k(p)表示第i個(gè)韻母視位的第k幀F(xiàn)AP參數(shù)p的實(shí)測(cè)數(shù)值,F(xiàn)ap′i,k(p)表示模型生成的第i個(gè)韻母視位的第k幀F(xiàn)AP參數(shù)p的數(shù)值;(8.2.3)利用公知的梯度下降法調(diào)節(jié)各個(gè)參數(shù),經(jīng)多次疊代使得總的誤差Ji最小,其中各個(gè)參數(shù)的調(diào)節(jié)范圍為αi(0.5~1.5),θi(-)、θi(+)(0.01~0.05),kfi(-0.5~0.5);(8.2.4)重復(fù)步驟(8.2.2)~(8.2.3),直到學(xué)完所有韻母視位的模型參數(shù),并記錄總的誤差和 ,其中K為總的韻母視位個(gè)數(shù);(8.2.5)用上述梯度下降法調(diào)節(jié)指數(shù)參數(shù)c和前后無(wú)聲模型參數(shù)tl、tr、αl、αr、θl、θr后返回步驟(8.2.2),經(jīng)多次疊代使總的誤差和J最小,各個(gè)參數(shù)的調(diào)節(jié)范圍為c(0.8~1.2),tl、tr(0~200ms),αl、αr(0.5~1.5),θl、θr、(0.01~0.05);(8.2.6)學(xué)習(xí)第i個(gè)聲母所對(duì)應(yīng)的視位參數(shù)時(shí),對(duì)包括第i個(gè)聲母的音節(jié)進(jìn)行發(fā)音錄像,并測(cè)得整個(gè)音節(jié)發(fā)音過(guò)程的視位參數(shù);(8.2.7)設(shè)置第i個(gè)聲母即聲母視位的模型參數(shù)αi=1,θi(-)=θi(+)=0.03,tii=0,設(shè)置FAP參數(shù)中心處參數(shù)值為靜態(tài)視位的FAP參數(shù)值,并進(jìn)行學(xué)習(xí);根據(jù)模型參數(shù)和上述步驟學(xué)得的指數(shù)參數(shù)c和前后無(wú)聲模型參數(shù)tl、tr、αl、αr、θl、θr以及韻母模型參數(shù)計(jì)算出整個(gè)音節(jié)的視位參數(shù),以模型參數(shù)產(chǎn)生的FAP參數(shù)與實(shí)測(cè)FAP參數(shù)的誤差平方和作為相似度準(zhǔn)則或能量函數(shù), ,其中N為實(shí)際測(cè)量的音節(jié)發(fā)音過(guò)程中動(dòng)態(tài)視位長(zhǎng)度,單位為圖像幀,F(xiàn)api,k(p)表示整個(gè)音節(jié)的第k幀F(xiàn)AP參數(shù)p的實(shí)測(cè)數(shù)值,F(xiàn)ap′i,k(p)表示模型生成的整個(gè)音節(jié)的第k幀F(xiàn)AP參數(shù)p的數(shù)值;(8.2.8)利用公知的梯度下降法調(diào)節(jié)各個(gè)參數(shù),經(jīng)多次疊代使得總的誤差Ji最小,其中各個(gè)參數(shù)的調(diào)節(jié)范圍為αi(0.5~1.5),θi(-)、θi(+)(0.01~0.05),tii(0~200ms);(8.2.9)重復(fù)步驟(8.2.6)~(8.2.8),直到學(xué)完所有聲母視位的模型參數(shù)。
2.根據(jù)權(quán)利要求1的漢語(yǔ)音位-視位參數(shù)的計(jì)算機(jī)轉(zhuǎn)換方法所設(shè)計(jì)的系統(tǒng),其特征在于,它含有中央處理器,經(jīng)總線(xiàn)與中央處理器相連的視頻圖像采集設(shè)備中,聲音輸入/輸出設(shè)備,視頻圖像顯示設(shè)備、鍵盤(pán)、鼠標(biāo)以及內(nèi)存儲(chǔ)器。
全文摘要
漢語(yǔ)音位-視位參數(shù)的計(jì)算機(jī)轉(zhuǎn)換方法及系統(tǒng)屬于語(yǔ)音—人臉動(dòng)態(tài)圖像信息的轉(zhuǎn)換和處理技術(shù)領(lǐng)域。其特征在于,它包含根據(jù)確定的音位系列同步完成語(yǔ)音和人臉圖像的錄音、錄像,并把錄像數(shù)據(jù)轉(zhuǎn)換為音視頻同步的數(shù)字圖像數(shù)據(jù)輸入計(jì)算機(jī),確定漢語(yǔ)靜態(tài)視位的抽取時(shí)刻,從國(guó)際標(biāo)準(zhǔn)MPEG-4中選取描述漢語(yǔ)視位的人臉動(dòng)畫(huà)參數(shù)FAP參數(shù)集,測(cè)量人臉特征點(diǎn),計(jì)算漢語(yǔ)靜態(tài)視位的人臉動(dòng)畫(huà)參數(shù)FAP參數(shù)值,建立漢語(yǔ)基本視位集,構(gòu)筑用于描述某一視位對(duì)應(yīng)FAP參數(shù)變化的基于權(quán)值融合的動(dòng)態(tài)視位模型,確定動(dòng)態(tài)視位模型各參數(shù)的學(xué)習(xí)方法各步驟,相應(yīng)地提出了音位—視位計(jì)算機(jī)轉(zhuǎn)換系統(tǒng),從而實(shí)現(xiàn)從漢語(yǔ)音位生成其對(duì)應(yīng)FAP參數(shù)的方法和系統(tǒng)。它對(duì)于待轉(zhuǎn)換的文本,由漢語(yǔ)基本視位集提供對(duì)應(yīng)的視位號(hào),從而生成漢語(yǔ)文本所對(duì)應(yīng)的FAP參數(shù)。
文檔編號(hào)G06F17/28GK1379348SQ02117330
公開(kāi)日2002年11月13日 申請(qǐng)日期2002年5月17日 優(yōu)先權(quán)日2002年5月17日
發(fā)明者蔡蓮紅, 王志明, 張毅 申請(qǐng)人:清華大學(xué), 北京炎黃新星網(wǎng)絡(luò)科技有限公司