漢語(yǔ)音位－視位參數(shù)的計(jì)算機(jī)轉(zhuǎn)換方法和系統(tǒng)的制作方法

文檔序號(hào)：6577533閱讀：427來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專(zhuān)利名稱(chēng)：漢語(yǔ)音位－視位參數(shù)的計(jì)算機(jī)轉(zhuǎn)換方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域：
漢語(yǔ)音位-視位參數(shù)的計(jì)算機(jī)轉(zhuǎn)換方法和系統(tǒng)屬于語(yǔ)音-人臉動(dòng)態(tài)信息之間的信息轉(zhuǎn)換和處理技術(shù)領(lǐng)域。
視位國(guó)際標(biāo)準(zhǔn)化組織運(yùn)動(dòng)圖像專(zhuān)家組MPEG(Moving Picture Expert Group)制定的國(guó)際標(biāo)準(zhǔn)MPEG-4(ISO/IEC 14496-2)給出了視位的定義視位是指與某一音位相對(duì)應(yīng)的嘴、舌頭、下腭等可視發(fā)音器官的物理形狀。一種語(yǔ)言的音位約有幾十個(gè)。有些音位在發(fā)音時(shí)其面部圖像相似，即音位與視位之間存在著多對(duì)一的關(guān)系，因此需要對(duì)音位進(jìn)行合理的分類(lèi)，據(jù)此建立相應(yīng)的視位集。MPEG-4按照國(guó)際音標(biāo)定義了1 5靜態(tài)視位。各種語(yǔ)言具有不同的音位內(nèi)容和語(yǔ)音系統(tǒng)，相應(yīng)的視位也有所不同。目前國(guó)外定義了英語(yǔ)、德語(yǔ)等語(yǔ)言的靜態(tài)視位，而漢語(yǔ)靜態(tài)視位還沒(méi)有一個(gè)完整的定義和具體分類(lèi)結(jié)果；即使有，也是根據(jù)發(fā)音規(guī)則主觀(guān)確定，不同的人作了不同的分類(lèi)，沒(méi)有人采用一個(gè)較為客觀(guān)的分類(lèi)方法。但是，研究人在講話(huà)時(shí)臉部圖像的變化以及聲音與人臉圖像的關(guān)系在計(jì)算機(jī)合成人臉動(dòng)畫(huà)、聾啞人輔助發(fā)聲練習(xí)、漢語(yǔ)文字-可視語(yǔ)音轉(zhuǎn)換上有著重大的意義。
在計(jì)算機(jī)內(nèi)，視位就是以某種參數(shù)表達(dá)的圖像。上述MPEG-4國(guó)際標(biāo)準(zhǔn)定義了描述視位的參數(shù)人臉動(dòng)畫(huà)參數(shù)FAP(Facial Animation Parameters)。目前，還沒(méi)有專(zhuān)門(mén)描述漢語(yǔ)視位的視位參數(shù)。另外，MPEG-4標(biāo)準(zhǔn)還定義了靜態(tài)視位(Static Viseme)，但人們發(fā)音本身是一個(gè)動(dòng)態(tài)的過(guò)程，簡(jiǎn)單地用一個(gè)靜態(tài)視位來(lái)表示必然丟失許多有用的信息。另一方面，在人臉動(dòng)畫(huà)合成過(guò)程中也需要任意時(shí)刻的人臉動(dòng)畫(huà)參數(shù)?，F(xiàn)在解決這一問(wèn)題的方法有二一是由一個(gè)個(gè)靜態(tài)FAP參數(shù)在時(shí)間上進(jìn)行插值計(jì)算，以得出連續(xù)語(yǔ)流中任意時(shí)刻的人臉動(dòng)畫(huà)參數(shù)。對(duì)連續(xù)語(yǔ)流中視位參數(shù)的插值計(jì)算大多采用固定的函數(shù)進(jìn)行插值；二是對(duì)協(xié)同發(fā)音的處理，這是指連續(xù)說(shuō)話(huà)過(guò)程中，每個(gè)視位都要受到它周?chē)渌曃坏挠绊?，如美?guó)加洲大學(xué)的Cohen和Massaro提出的協(xié)同發(fā)音處理模型；在漢語(yǔ)可視語(yǔ)音合成中未見(jiàn)到相關(guān)報(bào)道，而且上述方法都是從靜態(tài)視位出發(fā)，考慮相互之間的影響和過(guò)渡，而沒(méi)有把視位作為一個(gè)完整的動(dòng)態(tài)過(guò)程來(lái)考慮。
本發(fā)明的方法其特征在于，它依次包含以下步驟(1)選定需要錄像和錄音的漢語(yǔ)音位，建立包括復(fù)合元音的視位在內(nèi)的基本視位集所需的音位系列；(2)在讀出步驟(1)所述音位系列中所有聲韻母時(shí)，放置與人臉正面成45度角的鏡子錄像，同步完成人臉正面和側(cè)面圖像的錄像和錄音，再通過(guò)與計(jì)算機(jī)相連的數(shù)字圖像采集卡，把錄像數(shù)據(jù)轉(zhuǎn)換為音視頻同步的數(shù)字圖像數(shù)據(jù)；(3)從音視頻流中確定漢語(yǔ)靜態(tài)視位的抽取時(shí)刻；(3.1)由AVI文件中與時(shí)間有關(guān)的語(yǔ)音信號(hào)數(shù)據(jù)，按下式計(jì)算從第n0個(gè)樣本開(kāi)始的一幀語(yǔ)音的短時(shí)能量，隨時(shí)間依次得到短時(shí)能量隨時(shí)間變化的曲線(xiàn)，取語(yǔ)音短時(shí)能量曲線(xiàn)的中心時(shí)刻作為韻母靜態(tài)視位的抽取時(shí)刻；En0=Σn=n0N-1+n0(S2(n))----n0≤n≤N-1+n0]]>其中N為計(jì)算語(yǔ)音短時(shí)能量的語(yǔ)音幀長(zhǎng)(樣本點(diǎn)數(shù))，n0為起始樣本號(hào)，S(n)表示第n個(gè)樣本的語(yǔ)音信號(hào)幅度值；(3.2)語(yǔ)音短時(shí)能量曲線(xiàn)隨時(shí)間變化的起始時(shí)刻作為聲母靜態(tài)視位的抽取時(shí)刻；(4)從國(guó)際標(biāo)準(zhǔn)化組織運(yùn)動(dòng)圖像專(zhuān)家組MPEG(Moving Picture Expert Group)制定的國(guó)際標(biāo)準(zhǔn)MPEG-4(ISO/IEC 14496-2)所定義的68個(gè)人臉動(dòng)畫(huà)參數(shù)FAP(Facial AnimationParameters)中選取24個(gè)FAP參數(shù)來(lái)描述漢語(yǔ)視位，現(xiàn)列出如下#3open_jaw下腭張開(kāi)度#16push_b_lip 下唇突出度#4lower_t_midlip內(nèi)上唇中點(diǎn)下移量#17push_t_lip 上唇突出度#5raise_b_midlip內(nèi)下唇中點(diǎn)上移量#51lower_t_lip_o外上唇中點(diǎn)下移量#6stretch_l_cornerlip左內(nèi)唇角拉開(kāi)度 #52raise_b_midlip_o外下唇中點(diǎn)上移量#7stretch_r_conerlip右內(nèi)唇角拉開(kāi)度 #53stretch_l_cornerlip_o左外唇角拉開(kāi)度#8lower_t_lip_lm內(nèi)上唇左中點(diǎn)下移量 #54stretch_r_conerlip_o右外唇角拉開(kāi)度#9lower_t_lip_rm內(nèi)上唇右中點(diǎn)下移量 #55lower_t_lip_lm_o外上唇左中點(diǎn)下移量#10raise_b_lip_lm內(nèi)下唇左中點(diǎn)上移量 #56lower_t_lip_rm_o外上唇右中點(diǎn)下移量#11raise_b_lip_rm內(nèi)下唇右中點(diǎn)上移量 #57raise_b_lip_lm_o外下唇左中點(diǎn)上移量#12raise_l_cornerlip左內(nèi)唇角上移度 #58raise_b_lip_rm_o外下唇右中點(diǎn)上移量#13raise_r_cornerlip右內(nèi)唇角上移度 #59raise_l_cornerlip_o 左外唇角上移度#14thrust_jaw下腭突出度 #60raise_r_cornerlip_o 右外唇角上移度
(5)利用計(jì)算機(jī)自動(dòng)測(cè)量或手動(dòng)測(cè)量視頻流中面部特征點(diǎn)的運(yùn)動(dòng)，計(jì)算出相應(yīng)的漢語(yǔ)靜態(tài)視位的FAP參數(shù)(5.1)定義以下的人臉特征點(diǎn)雙鼻孔點(diǎn)，外唇左右角點(diǎn)和上、下唇中點(diǎn)，內(nèi)唇左右角點(diǎn)和上、下唇中點(diǎn)，側(cè)面圖中的鼻尖點(diǎn)，上、下唇突出點(diǎn)和下腭突出點(diǎn)和下腭下角點(diǎn)；還有，外唇上輪廓線(xiàn)上左、右半邊的中點(diǎn)，內(nèi)唇上輪廓線(xiàn)上左、右半邊的中點(diǎn)，外唇下輪廓線(xiàn)上左、右半邊的中點(diǎn)，內(nèi)唇下輪廓線(xiàn)上左、右半邊的中點(diǎn)；(5.2)利用公知技術(shù)對(duì)上述人臉特征點(diǎn)定位，再根據(jù)MPEG-4標(biāo)準(zhǔn)的規(guī)定計(jì)算相應(yīng)的漢語(yǔ)靜態(tài)視位參數(shù)FAP；(6)通過(guò)計(jì)算機(jī)自動(dòng)聚類(lèi)分析產(chǎn)生漢語(yǔ)基本視位集，包括根據(jù)聚類(lèi)誤差建立漢語(yǔ)音位的視覺(jué)混淆樹(shù)和選擇適當(dāng)?shù)念?lèi)別數(shù)，它依次包含以下步驟(6.1)設(shè)初始表類(lèi)別數(shù)為總視位個(gè)數(shù)，對(duì)聲母為M＝20，韻母M＝15，即把每個(gè)視位作為一類(lèi)，設(shè)總誤差J(M)＝0；(6.2)選擇兩類(lèi)合并，M＝M-1，設(shè)合并后形成類(lèi)別號(hào)為m，類(lèi)中視位個(gè)數(shù)為Nm，計(jì)算合并后形成的第m個(gè)類(lèi)的類(lèi)中心μm(p)=1NmΣk=1NmFapk(p);]]>(6.3)在所有可能的兩兩合并中，選擇使得按標(biāo)準(zhǔn)歐氏距離由下式計(jì)算出的總的誤差最小，并記錄這一類(lèi)別數(shù)的總誤差J(M)，其中Fapi(k)表示第k個(gè)視位的第p個(gè)FAP參數(shù)值，P為所采用的總的FAP參數(shù)個(gè)數(shù)；(6.4)重復(fù)步驟(6.2)、(6.3)步，直到總的類(lèi)別數(shù)減為1；(6.5)根據(jù)以上幾步所得到的不同類(lèi)別數(shù)下每一類(lèi)中的音位成員，畫(huà)出按各個(gè)音位視位相似性進(jìn)行合并過(guò)程的樹(shù)狀圖；(6.6)畫(huà)出誤差隨類(lèi)別數(shù)變化的曲線(xiàn)，畫(huà)出視位分類(lèi)線(xiàn)去選擇誤差劇烈增加之前的類(lèi)別數(shù)作為最佳的類(lèi)別；(6.7)視位分類(lèi)線(xiàn)下對(duì)應(yīng)的視位即通過(guò)對(duì)漢語(yǔ)靜態(tài)視位分類(lèi)而得到的漢語(yǔ)基本視位集共20個(gè)，現(xiàn)列出如下#0NA(自動(dòng)狀態(tài))#7 r #14 er#1b，p，m #8 z，c，s#15 i#2f #9 a，ang #16 o#3d，t，n，l #10 ai，an #17 ou#4g，k，h #11 ao #18 u#5j，q，x #12 e，eng #19 ü#6zh，ch，sh #13 ei，en
(7)建立一個(gè)用于描述某一視位對(duì)應(yīng)的FAP參數(shù)變化過(guò)程的基于權(quán)值融合的動(dòng)態(tài)視位模型WB-DVM(Weight Blending-Dynamic Viseme Model)每個(gè)動(dòng)態(tài)視位的FAP參數(shù)由一個(gè)基本控制權(quán)值函數(shù)和前、后兩個(gè)無(wú)聲模型控制權(quán)值函數(shù)來(lái)決定，三個(gè)控制權(quán)值函數(shù)的基本函數(shù)形式都是指數(shù)函數(shù)，可表示為W=αeθ|τ|c]]>其中α給出視位中心處的控制權(quán)值幅度；θ為控制權(quán)值衰減或增加的速度；|τ|表示當(dāng)前時(shí)刻到控制權(quán)值函數(shù)中心點(diǎn)時(shí)刻的時(shí)間距離；c為一常數(shù)；α、θ、|τ|、c都大于零；前無(wú)聲模型控制權(quán)值函數(shù)Wl為Wl=αleθl|τ|c---τ<0,]]>Wl=αle-θl|τ|c---τ>0,τ=tsi-tl-t,]]>后無(wú)聲模型控制權(quán)值函數(shù)Wr為Wr=αre-θr|τ|c---τ<0,]]>Wr=αreθr|τ|c---τ>0,τ=tei-tr-t,]]>第i個(gè)聲母視位基本控制權(quán)值函數(shù)Wi為Wi=αie-θi(-)|τ|c---τ<0,]]>Wi=αie-θi(+)|τ|c---τ>0,τ=tsi-tii-t,]]>第i個(gè)韻母視位基本控制權(quán)值函數(shù)Wi為Wi=αie-θi(-)|τ|c---τ<0,]]>Wi=αie-θi(+)|τ|c---τ>0,τ=tci-tfi-t,]]>其中tsi、tei、tci分別為語(yǔ)音段的起始時(shí)刻、結(jié)束時(shí)刻和中心時(shí)刻，tii為從語(yǔ)音段的開(kāi)始時(shí)刻tsi到聲母控制權(quán)值函數(shù)參數(shù)中心點(diǎn)的距離，tfi為從語(yǔ)音段的中心時(shí)刻tci到韻母控制權(quán)值函數(shù)參數(shù)中心點(diǎn)的距離，它與韻母的發(fā)音長(zhǎng)度有關(guān)，可記為tfi＝kfi*(tei-tsi)，-0.5≤kfi≤0.5；tl、tr分別表示從前無(wú)聲模型中心到語(yǔ)音起始時(shí)刻和從后無(wú)聲模型中心到語(yǔ)音結(jié)束時(shí)刻的時(shí)間距離，τ表示當(dāng)前時(shí)刻t到控制權(quán)值函數(shù)中心點(diǎn)時(shí)刻的距離；單獨(dú)發(fā)某一音位i時(shí)，任意時(shí)刻的第p個(gè)FAP參數(shù)的動(dòng)態(tài)參數(shù)值由這三者按其控制權(quán)值函數(shù)值加權(quán)計(jì)算得出Fip(t)=Wi(t)*TipWi(t)+Wl(t)+Wr(t);]]>其中T表示視位在其控制權(quán)值中心時(shí)刻的視位參數(shù)值，Tip即指視位i第p個(gè)FAP參數(shù)的中心處參數(shù)值；在連續(xù)語(yǔ)流中，各個(gè)視位的口形受到其周?chē)曃坏挠绊?，最終的FAP參數(shù)可以由各個(gè)FAP參數(shù)按基本控制權(quán)值函數(shù)值加權(quán)得到Fp(t)=(Σi=1I(Wi(t)×Tip))/(Σi=1IWi(t))]]>其中的i包含了前、后無(wú)聲模型，I為協(xié)同發(fā)音所考慮的視位及無(wú)聲模型總個(gè)數(shù)；相鄰視位之間的無(wú)聲模型由前后無(wú)聲模型相交構(gòu)成；(8)動(dòng)態(tài)視位模型中的各個(gè)參數(shù)的確定(8.1)需要確定的參數(shù)為控制權(quán)值函數(shù)的指數(shù)參數(shù)c，與前后無(wú)聲模型有關(guān)的參數(shù)αl、αr、θl、θr、tl、tr；確定每個(gè)視位的參數(shù)αi(中心處控制權(quán)值函數(shù)值)、θi(-)、θi(+)(由控制函數(shù)中心向前和向后的衰減系數(shù))、tfi或kfi(控制權(quán)值函數(shù)中心與語(yǔ)音中心的時(shí)間距離)或tii(控制權(quán)值函數(shù)中心與語(yǔ)音起始時(shí)刻的時(shí)間距離)，以及第p個(gè)FAP參數(shù)的中心處參數(shù)值Tip；(8.2)估計(jì)模型參數(shù)，即采用分組、分階段、分步驟進(jìn)行機(jī)器學(xué)習(xí)的方法從實(shí)際數(shù)據(jù)中獲取先根據(jù)用上述步驟確定的漢語(yǔ)基本靜態(tài)視位集，對(duì)每個(gè)靜態(tài)視位類(lèi)所對(duì)應(yīng)的音位分別進(jìn)行發(fā)音錄像，并用上述FAP參數(shù)測(cè)量方法得到實(shí)際發(fā)音過(guò)程中的FAP參數(shù)，再依次按以下步聚估算(8.2.1)根據(jù)經(jīng)驗(yàn)設(shè)定所有FAP參數(shù)共用的模型參數(shù)的初始值指數(shù)參數(shù)c＝1.0，tl＝100ms，tr＝60ms；αl＝αr＝1，θl＝θr＝0.03；(8.2.2)設(shè)置第i個(gè)韻母所對(duì)應(yīng)的視位即韻母視位的模型參數(shù)αi＝1，θi(-)＝θi(+)＝0.03，kfi＝0，設(shè)置FAP參數(shù)中心處參數(shù)值為靜態(tài)視位的FAP參數(shù)值，并進(jìn)行學(xué)習(xí)，以模型產(chǎn)生的FAP參數(shù)與實(shí)測(cè)FAP參數(shù)的誤差平方和作為相似度準(zhǔn)則或能量函數(shù)，即，其中N為實(shí)際測(cè)量的音位發(fā)音過(guò)程中動(dòng)態(tài)視位長(zhǎng)度，單位為圖像幀，F(xiàn)api，k(p)表示第i個(gè)韻母視位的第k幀F(xiàn)AP參數(shù)p的實(shí)測(cè)數(shù)值，F(xiàn)ap′i，k(p)表示模型生成的第i個(gè)韻母視位的第k幀F(xiàn)AP參數(shù)p的數(shù)值；(8.2.3)利用公知的梯度下降法調(diào)節(jié)各個(gè)參數(shù)，經(jīng)多次疊代使得總的誤差Ji最小，其中各個(gè)參數(shù)的調(diào)節(jié)范圍為αi(0.5～1.5)，θi(-)、θi(+)(0.01～0.05)，kfi(-0.5～0.5)；(8.2.4)重復(fù)步驟(8.2.2)～(8.2.3)，直到學(xué)完所有韻母視位的模型參數(shù)，并記錄總的誤差和，其中K為總的韻母視位個(gè)數(shù)；(8.2.5)用上述梯度下降法調(diào)節(jié)指數(shù)參數(shù)c和前后無(wú)聲模型參數(shù)tl、tr、αl、αr、θl、θr后返回步驟(8.2.2)，經(jīng)多次疊代使總的誤差和J最小，各個(gè)參數(shù)的調(diào)節(jié)范圍為c(0.8～1.2)，tl、tr(0～200ms)，αl、αr(0.5～1.5)，θl、θr、(0.01～0.05)；(8.2.6)學(xué)習(xí)第i個(gè)聲母所對(duì)應(yīng)的視位參數(shù)時(shí)，對(duì)包括第i個(gè)聲母的音節(jié)進(jìn)行發(fā)音錄像，并測(cè)得整個(gè)音節(jié)發(fā)音過(guò)程的視位參數(shù)；(8.2.7)設(shè)置第i個(gè)聲母即聲母視位的模型參數(shù)αi＝1，θi(-)＝θi(+)＝0.03，tii＝0，設(shè)置FAP參數(shù)中心處參數(shù)值為靜態(tài)視位的FAP參數(shù)值，并進(jìn)行學(xué)習(xí)；根據(jù)模型參數(shù)和上述步驟學(xué)得的指數(shù)參數(shù)c和前后無(wú)聲模型參數(shù)tl、tr、αl、αr、θl、θr以及韻母模型參數(shù)計(jì)算出整個(gè)音節(jié)的視位參數(shù)，以模型參數(shù)產(chǎn)生的FAP參數(shù)與實(shí)測(cè)FAP參數(shù)的誤差平方和作為相似度準(zhǔn)則或能量函數(shù)，，其中N為實(shí)際測(cè)量的音節(jié)發(fā)音過(guò)程中動(dòng)態(tài)視位長(zhǎng)度，單位為圖像幀，F(xiàn)api，k(p)表示整個(gè)音節(jié)的第k幀F(xiàn)AP參數(shù)p的實(shí)測(cè)數(shù)值，F(xiàn)ap′i，k(p)表示模型生成的整個(gè)音節(jié)的第k幀F(xiàn)AP參數(shù)p的數(shù)值；(8.2.8)利用公知的梯度下降法調(diào)節(jié)各個(gè)參數(shù)，經(jīng)多次疊代使得總的誤差Ji最小，其中各個(gè)參數(shù)的調(diào)節(jié)范圍為αi(0.5～1.5)，θi(-)、θi(+)(0.01～0.05)，tii(0～200ms)；(8.2.9)重復(fù)步驟(8.2.6)～(8.2.8)，直到學(xué)完所有聲母視位的模型參數(shù)。
本發(fā)明的系統(tǒng)其特征在于，它含有中央處理器，經(jīng)總線(xiàn)與中央處理器相連的視頻圖像采集設(shè)備中，聲音輸入/輸出設(shè)備，視頻圖像顯示設(shè)備、鍵盤(pán)、鼠標(biāo)以及內(nèi)存儲(chǔ)器。
實(shí)驗(yàn)證明，它達(dá)到了預(yù)期的目的。
圖2漢語(yǔ)音位-視位參數(shù)轉(zhuǎn)換方法和系統(tǒng)的計(jì)算機(jī)流程圖。
圖3雙視覺(jué)錄像及人臉特征點(diǎn)定位的示例圖。
圖4漢語(yǔ)韻母靜態(tài)視位的抽取時(shí)刻示意圖。
圖5漢語(yǔ)聲母靜態(tài)視位的抽取時(shí)刻示意圖。
圖6嘴唇輪廓定位用的變形模板曲線(xiàn)圖。
圖7漢語(yǔ)靜態(tài)視位分類(lèi)的程序流程圖。
圖8是根據(jù)誤差最小原則建立的漢語(yǔ)聲母和韻母音位的視覺(jué)混淆樹(shù)。
圖9分別漢語(yǔ)聲母和韻母視位在合并過(guò)程中總的分類(lèi)誤差隨視位分類(lèi)數(shù)變化的曲線(xiàn)。

圖10漢語(yǔ)動(dòng)態(tài)視位模型的控制權(quán)值函數(shù)及FAP參數(shù)變化過(guò)程示意圖。
圖11連續(xù)語(yǔ)流中的無(wú)聲模型構(gòu)成的示意圖。
圖12漢語(yǔ)動(dòng)態(tài)視位模型參數(shù)學(xué)習(xí)過(guò)程的示意圖。
圖13音位-視位轉(zhuǎn)換系統(tǒng)流程圖。
圖14漢語(yǔ)基本視位集和動(dòng)態(tài)視位模型建立方法的基本流程圖。
圖2是漢語(yǔ)音位-視位參數(shù)轉(zhuǎn)換方法和系統(tǒng)的計(jì)算機(jī)流程圖。圖中右半部分是從漢語(yǔ)音位集生成漢語(yǔ)基本視位集和動(dòng)態(tài)視位模型的過(guò)程。左半部分是由漢語(yǔ)音位轉(zhuǎn)換成視位參數(shù)的過(guò)程。下面將逐一解釋之。
從圖2中看出，首先選定需要錄像和錄音的漢語(yǔ)音位[模塊2]。我們參照《漢語(yǔ)拼音方案》、《現(xiàn)代漢語(yǔ)詞典》，根據(jù)漢語(yǔ)發(fā)音規(guī)則和音位發(fā)音過(guò)程中參數(shù)的變化規(guī)律，選定建立漢語(yǔ)視位所需音位列表，如表1和表2。表1是建立基本視位集所需音位或音位序列，包括漢語(yǔ)聲母、單元音韻母、前響的二合元音韻母，共計(jì)36個(gè)聲韻母視位，需要對(duì)這些音位進(jìn)行發(fā)音錄像。表二是不在表一中的其他復(fù)合元音音位，它們所對(duì)應(yīng)的視位由表一中的元音視位組合而成。
表1 建立基本視位集所需音位列表

對(duì)于不包括在漢語(yǔ)基本靜態(tài)視位中的音位，如漢語(yǔ)中后響二合元音韻母和三合元音韻母，可以根據(jù)一定規(guī)則將其分解為基本靜態(tài)視位，分解方法如表2所示。
表2復(fù)合元音的視位由表一中的元音視位組合而成

關(guān)于漢語(yǔ)聲韻母、輔音、元音及前響、后響的定義可參見(jiàn)《漢語(yǔ)拼音方案》、《現(xiàn)代漢語(yǔ)詞典》。
首先選擇發(fā)音人，讀出表一中的所有聲韻母[模塊2]。放置與人臉正面成45度角的鏡子錄像，同步獲得人臉正面和側(cè)面圖像，如圖3。完成雙視角的同步錄像和錄音。
通過(guò)數(shù)字圖像采集卡，將錄像數(shù)據(jù)轉(zhuǎn)換為音視頻同步的數(shù)字圖像數(shù)據(jù)，數(shù)據(jù)格式為Windows AVI文件。
靜態(tài)視位是指代表某音位發(fā)音過(guò)程中某一時(shí)刻的一幀典型的面部圖像。基于音頻視頻流，選擇適當(dāng)時(shí)刻作為抽取靜態(tài)視位的時(shí)刻[模塊3]。如圖3是發(fā)某音位時(shí)的視位圖像。通過(guò)對(duì)漢語(yǔ)發(fā)音特點(diǎn)的研究，我們提出一種基于短時(shí)能量的確定漢語(yǔ)靜態(tài)視位抽取時(shí)刻的方法。語(yǔ)音的短時(shí)能量的計(jì)算已如上述。我們發(fā)現(xiàn)，在人們對(duì)一個(gè)包括聲母和韻母的漢語(yǔ)音節(jié)發(fā)音過(guò)程中，漢語(yǔ)韻母所占時(shí)間較長(zhǎng)，在發(fā)音的中部能量呈現(xiàn)穩(wěn)定的狀態(tài)，口形也呈穩(wěn)定狀態(tài)。因此應(yīng)取語(yǔ)音短時(shí)能量的中心時(shí)刻作為韻母靜態(tài)視位的抽取時(shí)刻，如圖4所示，圖中實(shí)線(xiàn)為語(yǔ)音的短時(shí)能量隨時(shí)間變化曲線(xiàn)，虛線(xiàn)為外唇高度變化曲線(xiàn)，豎直線(xiàn)所對(duì)應(yīng)的橫軸坐標(biāo)為韻母靜態(tài)視位抽取時(shí)刻；對(duì)于聲母，其視位在聲音發(fā)出前已形成，在發(fā)音過(guò)程中向韻母視位過(guò)渡。因此，我們?nèi)≌Z(yǔ)音短時(shí)能量的起始時(shí)刻作為聲母靜態(tài)視位的抽取時(shí)刻，如圖5所示。外唇高度數(shù)據(jù)指外上唇中點(diǎn)到外下唇中點(diǎn)的距離，具體獲取方法在下述的嘴唇輪廓的定位。
對(duì)于視位參數(shù)，發(fā)明中對(duì)視位的描述采用MPEG-4(ISO/IEC 14496-2)所定義的人臉動(dòng)畫(huà)FAP參數(shù)[模塊4]，從MPEG-4所定義的68個(gè)FAP參數(shù)中選取24個(gè)來(lái)描述漢語(yǔ)視位，包括FAP3#-FAP14#，F(xiàn)AP16#-FAP17#，F(xiàn)AP51#-FAP60#，如表3所示表3 描述漢語(yǔ)視位的FAP參數(shù)

人臉特征點(diǎn)的定位雙鼻孔點(diǎn)的定位在上一幀圖像中標(biāo)出的雙鼻孔點(diǎn)周?chē)_定矩形框。設(shè)上一幀圖像中雙鼻孔點(diǎn)間距為K像素，則矩形框的左邊界為從上一幀的左鼻孔點(diǎn)向左移K像素，右邊界為從上一幀的右鼻孔點(diǎn)向右移K像素，上下邊界分別為從上一幀圖像中雙鼻孔點(diǎn)水平均值向上和向下移K像素。對(duì)此矩形框內(nèi)的所有像素計(jì)算其亮度，對(duì)最暗的20％像素以區(qū)域水平中心為界分左右兩部分計(jì)算其重心，即定為本幀圖像中的雙鼻孔點(diǎn)。計(jì)算公式如下x=1MΣi=1Mxi]]>y=1MΣi=1Myi]]>其中xi、yi分別為第i個(gè)暗區(qū)像素點(diǎn)的橫坐標(biāo)和縱坐標(biāo)，M為總的左邊或右邊暗區(qū)像素點(diǎn)個(gè)數(shù)，x、y為計(jì)算出的左邊或右邊暗鼻孔點(diǎn)坐標(biāo)。
嘴唇輪廓的定位在采用變形模板(Deformable Template)的方法，分別用二次曲線(xiàn)和四次曲線(xiàn)來(lái)擬合內(nèi)外唇輪廓線(xiàn)，如圖6所示。
內(nèi)唇曲線(xiàn)由兩個(gè)二次曲線(xiàn)組成，其方程為上唇y(tǒng)=h3(1-x2wi2)]]>下唇y(tǒng)=h4(1-x2wi2)]]>其中h3和h4分別為模板中心到內(nèi)上唇和內(nèi)下唇點(diǎn)的距離，wi為內(nèi)唇寬度的一半；外上唇曲線(xiàn)由兩個(gè)四次曲線(xiàn)組成，外下唇曲線(xiàn)由一個(gè)四次曲線(xiàn)組成，其曲線(xiàn)方程分別為外上唇左半部分y=h1(1-(x+a)2wo2)+4q1((x+a)4wo4-(x+a)2wo2)]]>外上唇右半部分y=h1(1-(x-a)2wo2)+4q1((x-a)4wo4-(x-a)2wo2)]]>外下唇y(tǒng)=h2(1-x2wo2)+4q2(x4wo4-x2wo2)]]>其中h1和h2分別為模板中心到外上唇和外下唇點(diǎn)的距離，wo為外唇寬度的一半，a表示四次上唇曲線(xiàn)中心處與上唇中點(diǎn)的距離，q1和q2表示曲線(xiàn)與二次曲線(xiàn)的差別大小，詳見(jiàn)圖6。
側(cè)面圖中特征點(diǎn)的定位
設(shè)初始側(cè)面圖中手動(dòng)標(biāo)出的鼻尖點(diǎn)到下腭下角點(diǎn)的距離為M像素，分別以鼻尖點(diǎn)左移M/3像素和右移M/3像素為膚色點(diǎn)和背景點(diǎn)，記錄其像素值。在后續(xù)圖像幀中，對(duì)上一幀圖中鼻尖點(diǎn)左移2*M/3、右移M/3、上移M/5、下移3*M/2構(gòu)成的矩形框內(nèi)所有像素點(diǎn)分為膚色點(diǎn)和背景點(diǎn)，從右向左找出邊緣輪廓線(xiàn)，邊緣輪廓線(xiàn)上最右三點(diǎn)分別為鼻尖點(diǎn)、下唇突出點(diǎn)和下唇突出點(diǎn)。下腭下角點(diǎn)為曲線(xiàn)上下唇突出點(diǎn)以下斜率等于1的點(diǎn)，下腭突出點(diǎn)為下唇突出點(diǎn)與下腭下角點(diǎn)縱向中點(diǎn)處的邊緣點(diǎn)。
人臉動(dòng)畫(huà)參數(shù)FAP的計(jì)算由初始點(diǎn)位置計(jì)算出口鼻距離MNSO(我們以左右鼻孔點(diǎn)的中點(diǎn)到內(nèi)上唇中點(diǎn)的距離近似)和外唇寬度MWO，并根據(jù)MNS＝MNSO/1024和MW＝MWO/1024轉(zhuǎn)換為MNS和MW。在后續(xù)幀中根據(jù)特征點(diǎn)相對(duì)于初始點(diǎn)位置的位移量，可以按照MPEG-4標(biāo)準(zhǔn)的規(guī)定算出相應(yīng)的FAP參數(shù)。
對(duì)測(cè)量得到的每個(gè)音位所對(duì)應(yīng)的FAP參數(shù)進(jìn)行聚類(lèi)分析[模塊6]，即對(duì)相似的靜態(tài)視位進(jìn)行合并，找到所有音位中有區(qū)別又具代表性的靜態(tài)視位。其集合稱(chēng)為漢語(yǔ)基本視位集。圖7是漢語(yǔ)靜態(tài)視位分類(lèi)的程序流程圖?？紤]到聲母與韻母的差別，聚類(lèi)分析在聲母和韻母間分別進(jìn)行，首先根據(jù)誤差最小原則建立的漢語(yǔ)聲母和韻母音位的視覺(jué)混淆樹(shù)，其步驟如上所述。
在圖8中，最下端是所有待合并的視位，最上端將所有視位合為一類(lèi)。中間每一次將兩個(gè)類(lèi)別合并，合并處的縱坐標(biāo)代表了合并誤差的大小，合并處縱坐標(biāo)越小，說(shuō)明這兩類(lèi)的相似性越強(qiáng)。其中圖8(a)是聲母視位，圖8(b)是韻母視位。
如圖9所示，誤差并非線(xiàn)性變化，應(yīng)該選擇誤差劇烈增加之前的類(lèi)別數(shù)作為最佳的類(lèi)別。圖9中虛線(xiàn)中一種選擇結(jié)果所對(duì)應(yīng)的視位分類(lèi)線(xiàn)。其中圖9(a)是聲母視位，圖9(b)是韻母視位。表4即得到漢語(yǔ)基本視位集。
表4漢語(yǔ)基本視位集

本發(fā)明中所述的基于權(quán)值融合的動(dòng)態(tài)視位模型WB-DVM(Weight Blending-DynamicViseme Model)是一個(gè)用來(lái)描述某一視位所對(duì)應(yīng)的FAP參數(shù)變化過(guò)程的數(shù)學(xué)模型[模塊7]。
通過(guò)對(duì)大量發(fā)音錄像的觀(guān)察和跟蹤處理后我們發(fā)現(xiàn)，在人們開(kāi)始發(fā)音時(shí)，面部表情超前于語(yǔ)音，如聲音未發(fā)出之前，嘴已開(kāi)始動(dòng)；在人們結(jié)束發(fā)音時(shí)，面部表情滯后于語(yǔ)音，如聲音停止后，嘴還未合上。面部表情經(jīng)歷了一個(gè)從無(wú)到有再逐漸消失的過(guò)程。因此我們將每個(gè)動(dòng)態(tài)視位的FAP參數(shù)由一個(gè)基本控制權(quán)值函數(shù)和前后兩個(gè)無(wú)聲模型控制權(quán)值函數(shù)來(lái)決定。整個(gè)動(dòng)態(tài)視位的參數(shù)變化過(guò)程由靜態(tài)FAP參數(shù)在這三個(gè)控制權(quán)值函數(shù)共同作用下形成，其建模過(guò)程已如上述。
表5就是在不同控制權(quán)值函數(shù)中動(dòng)態(tài)視位模型的各個(gè)參數(shù)，其定義已如上述。
表5不同控制權(quán)值函數(shù)中動(dòng)態(tài)視位模型的各個(gè)參數(shù)

以上各個(gè)時(shí)刻與時(shí)間段的關(guān)系、控制權(quán)值函數(shù)曲線(xiàn)及最終FAP參數(shù)曲線(xiàn)見(jiàn)圖10所示。圖中橫坐標(biāo)代表時(shí)間，上部分的縱坐標(biāo)代表控制權(quán)值函數(shù)值，下半部分的縱坐標(biāo)代表FAP參數(shù)值(對(duì)于實(shí)線(xiàn))和語(yǔ)音能量值(對(duì)于虛線(xiàn))。圖中上半部分為前、后無(wú)聲模型與視位模型的控制權(quán)值函數(shù)曲線(xiàn)，其中前、后無(wú)聲模型控制權(quán)值函數(shù)曲線(xiàn)中超出2.2的部分以直線(xiàn)代替，但其實(shí)際值是以指數(shù)上升的。圖中上半部分中的虛直線(xiàn)指出了三個(gè)α系數(shù)，并假定αi＝αl＝αr。圖中下半部分中的虛線(xiàn)為語(yǔ)音能量的示意圖，虛直線(xiàn)在橫坐標(biāo)上指出了語(yǔ)音時(shí)間中心。在圖11中，虛線(xiàn)表示在連續(xù)語(yǔ)流中前后兩個(gè)無(wú)聲模型相交后拋棄的部分，中間的實(shí)線(xiàn)表示新構(gòu)成的無(wú)聲模型權(quán)值函數(shù)曲線(xiàn)。
動(dòng)態(tài)視位模型中的各個(gè)參數(shù)和確定方法已如上述。其動(dòng)態(tài)視位模型參數(shù)學(xué)習(xí)流程見(jiàn)圖12。
本發(fā)明用于單位—視位參數(shù)轉(zhuǎn)換系統(tǒng)的主流程圖見(jiàn)圖13。其漢語(yǔ)基本視位集和動(dòng)態(tài)視位模型的建立方法的基本流程圖見(jiàn)圖14。
下面以讀“大學(xué)”一詞時(shí)視位參數(shù)轉(zhuǎn)換為例加以具體說(shuō)明。
1、所需視位動(dòng)態(tài)視位模型的建立(1)“大學(xué)”一詞的拼音串為’da xue’，涉及到的音位有’d’、’a’、’x’、’ ü’和’e’；
(2)將包括’a’、 ’e’、’i’、’ü’、’xi’和’de’音節(jié)發(fā)音的錄像和錄音數(shù)據(jù)讀入計(jì)算機(jī)內(nèi)存(取’i’是為了與’xi’相結(jié)合學(xué)習(xí)聲母視位’x’的模型參數(shù))，其中圖像的采樣率為25Hz，分辨率為720X576像素；語(yǔ)音的采樣率為11.025kHz，16bit量化；(3)利用計(jì)算機(jī)計(jì)算語(yǔ)音的短時(shí)能量，幀長(zhǎng)采用40ms，每幀樣本點(diǎn)個(gè)數(shù)為N＝300；統(tǒng)計(jì)所有幀短時(shí)能量的最大值Emax和最小值Emin以TH＝Emin+(Emax-Emin)/10為閾值區(qū)分出所有時(shí)間范圍內(nèi)的語(yǔ)音段和無(wú)聲段。
(4)根據(jù)已知錄音文本的順序，得到音節(jié)’de’、’xi’、’a’、’e’、’i’和’ü’對(duì)應(yīng)的語(yǔ)音段時(shí)間范圍，如表6中第3、4列所示；根據(jù)韻母取語(yǔ)音中心時(shí)刻、聲母取語(yǔ)音起始時(shí)刻的原則，得到對(duì)應(yīng)的靜態(tài)視位時(shí)間分別如表6中第6列所示。
表6各個(gè)視位在錄像中相關(guān)時(shí)刻

(5)按對(duì)模塊5說(shuō)明中所述的方法測(cè)出面部各特征點(diǎn)的位置并計(jì)算得出每個(gè)靜態(tài)視位的FAP參數(shù)，如下表7所示

(6)因?yàn)槊娌縿?dòng)作超前于語(yǔ)音開(kāi)始并滯后于語(yǔ)音結(jié)束，可以從各個(gè)音節(jié)的語(yǔ)音開(kāi)始處向前找到視位開(kāi)始時(shí)刻，從語(yǔ)音結(jié)束處向后找到視位結(jié)束時(shí)刻。以FAP3#和FAP4#及FAP5#都等于零作為搜索終止條件。得到音節(jié)’de’、’xi’、’a’、’e’、’i’和’ü’對(duì)應(yīng)的視位時(shí)間范圍，如表6中第2、5列所示。對(duì)應(yīng)的圖像幀數(shù)分別為32、24、39、32、33和40。
(7)對(duì)于得到的原始視位參數(shù)，按圖12所示的學(xué)習(xí)流程，得到視位’a’、’e’、’i’、’ü’、’x’和’d’的動(dòng)態(tài)視位模型參數(shù)。具體學(xué)習(xí)過(guò)程如下(A)設(shè)定初始參數(shù)值指數(shù)系數(shù)c＝1.0，前后無(wú)聲模型參數(shù)tl＝100ms，tr＝60ms，αl＝αr＝1，θl＝θr＝0.03；(B)設(shè)置韻母視位’a’(視位編號(hào)為’9’)的模型參數(shù)α9＝1，θ9(-)＝θ9(+)＝0.03，kf9＝0，設(shè)置初始中心處參數(shù)值為靜態(tài)視位的FAP參數(shù)值，如表5中第2列所示。實(shí)際跟蹤得出的視位時(shí)長(zhǎng)1580ms，根據(jù)以上設(shè)定的模型參數(shù)和式(4)計(jì)算出合成的各個(gè)FAP參數(shù)值，并計(jì)算誤差平方和，即

，式中p的取值范圍為所有用到的FAP參數(shù)號(hào)，即3～14，16～17，51～60。設(shè)定各個(gè)參數(shù)的改變步進(jìn)量為Δα＝0.05、Δθ＝0.005、ΔT＝10、Δk＝0.05，分別將各參數(shù)減少和增加其步進(jìn)量后計(jì)算出新的誤差平方和J9-和J9+，利用梯度下降法調(diào)節(jié)各個(gè)參數(shù)，經(jīng)多次疊代使得總的誤差J9最小。各個(gè)參數(shù)的調(diào)節(jié)范圍為αi(0.5～1.5)，θi(-)、θi(+)(0.01～0.05)，kfi(-0.5～0.5)。最終得到視位’a’在固定系數(shù)c及無(wú)聲模型參數(shù)情況下的一組最佳參數(shù)。(C)重復(fù)(B)學(xué)習(xí)韻母視位’e’、’i’、’ü’，并記錄總的誤差和

(D)設(shè)定各個(gè)參數(shù)的改變步進(jìn)量為Δc＝0.05、Δα＝0.05、Δθ＝0.005、Δk＝0.05，分別將各參數(shù)減少和增加其步進(jìn)量后計(jì)算出新的誤差平方和J-和J+，根據(jù)梯度下降法調(diào)節(jié)指數(shù)系數(shù)c和前后無(wú)聲模型各個(gè)參數(shù)tl、tr、αl、αr、θl、θr，各個(gè)參數(shù)的調(diào)節(jié)范圍為c(0.8～1.2)，tl、tr(0～200ms)、αl、αr(0.5～1.5)，θl、θr、(0.01～0.05)。然后返回(E)，經(jīng)多次重復(fù)(B)、(C)、(D)疊代使總的誤差和J最小，找到最佳的指數(shù)系數(shù)和無(wú)聲模型參數(shù)。
學(xué)習(xí)得到的指數(shù)系數(shù)為c＝0.9663，前后無(wú)聲模型參數(shù)tl＝64ms，tr＝45ms，αl＝0.8383，αr＝0.9332，θl＝0.0351，θr＝0.0479；及四個(gè)韻母視位參數(shù)如下表所示
表8韻母視位動(dòng)態(tài)視位模型的參數(shù)值

(F)根據(jù)以上步驟確定的指數(shù)參數(shù)、無(wú)聲模型參數(shù)和韻母視位模型’e’的參數(shù)，從音節(jié)’de’中學(xué)習(xí)聲母視位’d’的視位模型參數(shù)設(shè)置聲母視位’d’(視位編號(hào)為’3’)的模型參數(shù)α3＝1，θ3(-)＝θ3(+)＝0.03，tf3＝50ms，實(shí)際跟蹤得出的音節(jié)’de’的視位時(shí)長(zhǎng)1240ms，根據(jù)以上得出的指數(shù)系數(shù)、前后無(wú)聲模型參數(shù)以及韻母’e’的視位模型參數(shù)，可由式(4)計(jì)算出合成的各個(gè)時(shí)刻的FAP參數(shù)值，并計(jì)算出合成值與實(shí)際跟蹤值的誤差平方和，即

，式中p的取值范圍為所有用到的FAP參數(shù)號(hào)，即3～14，16～17，51～60。設(shè)定各個(gè)參數(shù)的改變步進(jìn)量為Δα＝0.05、Δθ＝0.005、ΔT＝10、Δt＝20ms，分別將各參數(shù)減少和增加其步進(jìn)量后計(jì)算出新的誤差平方和J3-和J3+，利用梯度下降法調(diào)節(jié)各個(gè)參數(shù)，經(jīng)多次疊代使得總的誤差J3最小。各個(gè)參數(shù)的調(diào)節(jié)范圍為α3(0.5～1.5)，θ3(-)、θ3(+)(0.01～0.05)，ti3(0～200ms)。最終得到聲母視位’d’的模型參數(shù)為α3＝1.2432，θ3(-)＝0.0457、θ3(+)＝0.0432，ti3＝8ms、FAP3#中心值T3＝156。
與學(xué)習(xí)視位’d’模型參數(shù)的方法相同，利用指數(shù)系數(shù)、前后無(wú)聲模型參數(shù)以及韻母’i’的視位模型參數(shù)，從音節(jié)’xi’中學(xué)習(xí)聲母視位’x’的模型參參數(shù)。最終得到聲母視位’x’的模型參數(shù)為α5＝1.1982，θ5(-)＝0.0361、θ5(+)＝0.0354，ti5＝5ms、FAP3#中心值T5＝125。
2、音位到視位參數(shù)的轉(zhuǎn)換(1)查找靜態(tài)視位集中聲韻母與視位類(lèi)別號(hào)的對(duì)應(yīng)關(guān)系得到下面的靜態(tài)視位號(hào)序列(前后有無(wú)聲模型，中間沒(méi)有語(yǔ)音停頓，無(wú)聲模型自動(dòng)消失)

(2)根據(jù)語(yǔ)音合成系統(tǒng)從語(yǔ)音庫(kù)中得到對(duì)應(yīng)各音位的時(shí)長(zhǎng)如下(也可以人為指定，單位為ms)

總的視位參數(shù)變化過(guò)程為780ms。
(3)設(shè)對(duì)某一視位的協(xié)同發(fā)音只考慮其前后相鄰的兩個(gè)視位對(duì)它的影響，則根據(jù)(2)可得到計(jì)算不同時(shí)間范圍內(nèi)的視位參數(shù)時(shí)所用到的動(dòng)態(tài)視位模型編號(hào)如下表所示

(4)在以上各個(gè)時(shí)間段內(nèi)，根據(jù)所用到的動(dòng)態(tài)視位模型可由(4)式計(jì)算出任意時(shí)刻視位參數(shù)值。下表計(jì)算出的各時(shí)刻下腭張開(kāi)度(FAP3#)參數(shù)值，其他參數(shù)計(jì)算方法相同。

權(quán)利要求
1.漢語(yǔ)音位-視位參數(shù)的計(jì)算機(jī)轉(zhuǎn)換方法，含有在發(fā)音人讀出所有聲韻時(shí)，放置與人臉正面成45度角的鏡子錄像，同步完成人臉正面和側(cè)面圖像的錄像和錄音，通過(guò)與計(jì)算機(jī)相連的數(shù)字圖像采集卡，把錄像數(shù)據(jù)轉(zhuǎn)換為音視頻同步的數(shù)字圖像數(shù)據(jù)的步驟，其特征在于，它依次包含以下步驟(1)選定需要錄像和錄音的漢語(yǔ)音位，建立包括復(fù)合元音的視位在內(nèi)的基本視位集所需的音位系列；(2)在讀出步驟(1)所述音位系列中所有聲韻母時(shí)，放置與人臉正面成45度角的鏡子錄像，同步完成人臉正面和側(cè)面圖像的錄像和錄音，再通過(guò)與計(jì)算機(jī)相連的數(shù)字圖像采集卡，把錄像數(shù)據(jù)轉(zhuǎn)換為音視頻同步的數(shù)字圖像數(shù)據(jù)；(3)從音視頻流中確定漢語(yǔ)靜態(tài)視位的抽取時(shí)刻；(3.1)由AVI文件中與時(shí)間有關(guān)的語(yǔ)音信號(hào)數(shù)據(jù)，按下式計(jì)算從第n0個(gè)樣本開(kāi)始的一幀語(yǔ)音的短時(shí)能量，隨時(shí)間依次得到短時(shí)能量隨時(shí)間變化的曲線(xiàn)，取語(yǔ)音短時(shí)能量曲線(xiàn)的中心時(shí)刻作為韻母靜態(tài)視位的抽取時(shí)刻；En0=Σn=n0N-1+n0(S2(n))---n0≤n≤N-1+n0]]>其中N為計(jì)算語(yǔ)音短時(shí)能量的語(yǔ)音幀長(zhǎng)(樣本點(diǎn)數(shù))，n0為起始樣本號(hào)，S(n)表示第n個(gè)樣本的語(yǔ)音信號(hào)幅度值；(3.2)語(yǔ)音短時(shí)能量曲線(xiàn)隨時(shí)間變化的起始時(shí)刻作為聲母靜態(tài)視位的抽取時(shí)刻；(4)從國(guó)際標(biāo)準(zhǔn)化組織運(yùn)動(dòng)圖像專(zhuān)家組MPEG(Moving Picture Expert Group)制定的國(guó)際標(biāo)準(zhǔn)MPEG-4(ISO/IEC 14496-2)所定義的68個(gè)人臉動(dòng)畫(huà)參數(shù)FAP(Facial AnimationParameters)中選取24個(gè)FAP參數(shù)來(lái)描述漢語(yǔ)視位，現(xiàn)列出如下#3 open_jaw下腭張開(kāi)度 #16push_b_lip下唇突出度#4 lower_t_midlip內(nèi)上唇中點(diǎn)下移量 #17push_t_lip上唇突出度#5 raise_b_midlip內(nèi)下唇中點(diǎn)上移量 #51lower_t_lip_o外上唇中點(diǎn)下移量#6 stretch_l_cornerlip左內(nèi)唇角拉開(kāi)度#52raise_b_midlip_o外下唇中點(diǎn)上移量#7 stretch_r_conerlip右內(nèi)唇角拉開(kāi)度 #53stretch_l_cornerlip_o左外唇角拉開(kāi)度#8 lower_t_lip_lm內(nèi)上唇左中點(diǎn)下移量 #54stretch_r_conerlip_o右外唇角拉開(kāi)度#9 lower_t_lip_rm內(nèi)上唇右中點(diǎn)下移量 #55lower_t_lip_lm_o外上唇左中點(diǎn)下移量#10raise_b_lip_lm內(nèi)下唇左中點(diǎn)上移量 #56lower_t_lip_rm_o外上唇右中點(diǎn)下移量#11raise_b_lip_rm內(nèi)下唇右中點(diǎn)上移量 #57raise_b_lip_lm_o外下唇左中點(diǎn)上移量#12raise_l_cornerlip左內(nèi)唇角上移度 #58raise_b_lip_rm_o外下唇右中點(diǎn)上移量#13raise_r_cornerlip右內(nèi)唇角上移度 #59raise_l_cornerlip_o左外唇角上移度#14thrust_jaw下腭突出度 #60raise_r_cornerlip_o右外唇角上移度(5)利用計(jì)算機(jī)自動(dòng)測(cè)量或手動(dòng)測(cè)量視頻流中面部特征點(diǎn)的運(yùn)動(dòng)，計(jì)算出相應(yīng)的漢語(yǔ)靜態(tài)視位的FAP參數(shù)(5.1)定義以下的人臉特征點(diǎn)雙鼻孔點(diǎn)，外唇左右角點(diǎn)和上、下唇中點(diǎn)，內(nèi)唇左右角點(diǎn)和上、下唇中點(diǎn)，側(cè)面圖中的鼻尖點(diǎn)，上、下唇突出點(diǎn)和下腭突出點(diǎn)和下腭下角點(diǎn)；還有，外唇上輪廓線(xiàn)上左、右半邊的中點(diǎn)，內(nèi)唇上輪廓線(xiàn)上左、右半邊的中點(diǎn)，外唇下輪廓線(xiàn)上左、右半邊的中點(diǎn)，內(nèi)唇下輪廓線(xiàn)上左、右半邊的中點(diǎn)；(5.2)利用公知技術(shù)對(duì)上述人臉特征點(diǎn)定位，再根據(jù)MPEG-4標(biāo)準(zhǔn)的規(guī)定計(jì)算相應(yīng)的漢語(yǔ)靜態(tài)視位參數(shù)FAP；(6)通過(guò)計(jì)算機(jī)自動(dòng)聚類(lèi)分析產(chǎn)生漢語(yǔ)基本視位集，包括根據(jù)聚類(lèi)誤差建立漢語(yǔ)音位的視覺(jué)混淆樹(shù)和選擇適當(dāng)?shù)念?lèi)別數(shù)，它依次包含以下步驟(6.1)設(shè)初始表類(lèi)別數(shù)為總視位個(gè)數(shù)，對(duì)聲母為M＝20，韻母M＝15，即把每個(gè)視位作為一類(lèi)，設(shè)總誤差J(M)＝0；(6.2)選擇兩類(lèi)合并，M＝M-1，設(shè)合并后形成類(lèi)別號(hào)為m，類(lèi)中視位個(gè)數(shù)為Nm，計(jì)算合并后形成的第m個(gè)類(lèi)的類(lèi)中心μm(p)=1NmΣk=1NmFapk(p);]]>(6.3)在所有可能的兩兩合并中，選擇使得按標(biāo)準(zhǔn)歐氏距離由下式計(jì)算出的總的誤差最小，并記錄這一類(lèi)別數(shù)的總誤差J(M)，其中Fapi(k)表示第k個(gè)視位的第p個(gè)FAP參數(shù)值，P為所采用的總的FAP參數(shù)個(gè)數(shù)；(6.4)重復(fù)步驟(6.2)、(6.3)步，直到總的類(lèi)別數(shù)減為1；(6.5)根據(jù)以上幾步所得到的不同類(lèi)別數(shù)下每一類(lèi)中的音位成員，畫(huà)出按各個(gè)音位視位相似性進(jìn)行合并過(guò)程的樹(shù)狀圖；(6.6)畫(huà)出誤差隨類(lèi)別數(shù)變化的曲線(xiàn)，畫(huà)出視位分類(lèi)線(xiàn)去選擇誤差劇烈增加之前的類(lèi)別數(shù)作為最佳的類(lèi)別；(6.7)視位分類(lèi)線(xiàn)下對(duì)應(yīng)的視位即通過(guò)對(duì)漢語(yǔ)靜態(tài)視位分類(lèi)而得到的漢語(yǔ)基本視位集共20個(gè)，現(xiàn)列出如下#0NA(自動(dòng)狀態(tài)) #7 r #14er#1b，p，m #8 z， c， s#15i#2f#9 a， ang #16o#3d，t，n，l #10 ai， an#17ou#4g，k，h #11 ao #18u#5j，q，x #12 e， eng #19ü#6zh，ch，sh #13 ei， en(7)建立一個(gè)用于描述某一視位對(duì)應(yīng)的FAP參數(shù)變化過(guò)程的基于權(quán)值融合的動(dòng)態(tài)視位模型WB-DVM(Weight Blending-Dynamic Viseme Model)每個(gè)動(dòng)態(tài)視位的FAP參數(shù)由一個(gè)基本控制權(quán)值函數(shù)和前、后兩個(gè)無(wú)聲模型控制權(quán)值函數(shù)來(lái)決定，三個(gè)控制權(quán)值函數(shù)的基本函數(shù)形式都是指數(shù)函數(shù)，可表示為W=αeθ|τ|c]]>其中α給出視位中心處的控制權(quán)值幅度；θ為控制權(quán)值衰減或增加的速度；|τ|表示當(dāng)前時(shí)刻到控制權(quán)值函數(shù)中心點(diǎn)時(shí)刻的時(shí)間距離；c為一常數(shù)；α、θ、|τ|、c都大于零；前無(wú)聲模型控制權(quán)值函數(shù)Wl為Wl=αleθl|τ|c---τ<0,]]>Wl=αle-θl|τ|c---τ>0,τ=tsi-tl-t,]]>后無(wú)聲模型控制權(quán)值函數(shù)Wr為Wr=αre-θr|τ|c---τ<0,]]>Wr=αreθr|τ|c---τ>0,τ=tei-tr-t,]]>第i個(gè)聲母視位基本控制權(quán)值函數(shù)Wi為Wi=αie-θi(-)|τ|c---τ<0,]]>Wi=αie-θi(+)|τ|c---τ>0,τ=tsi-tii-t,]]>第i個(gè)韻母視位基本控制權(quán)值函數(shù)Wi為Wi=αie-θi(-)|τ|c---τ<0,]]>Wi=αie-θi(+)|τ|c---τ>0,τ=tci-tfi-t,]]>其中tsi、tei、tci分別為語(yǔ)音段的起始時(shí)刻、結(jié)束時(shí)刻和中心時(shí)刻，tii為從語(yǔ)音段的開(kāi)始時(shí)刻tsi到聲母控制權(quán)值函數(shù)參數(shù)中心點(diǎn)的距離，tfi為從語(yǔ)音段的中心時(shí)刻tci到韻母控制權(quán)值函數(shù)參數(shù)中心點(diǎn)的距離，它與韻母的發(fā)音長(zhǎng)度有關(guān)，可記為tfi＝kfi*(tei-tsi)，-0.5≤kfi≤0.5；tl、tr分別表示從前無(wú)聲模型中心到語(yǔ)音起始時(shí)刻和從后無(wú)聲模型中心到語(yǔ)音結(jié)束時(shí)刻的時(shí)間距離，τ表示當(dāng)前時(shí)刻t到控制權(quán)值函數(shù)中心點(diǎn)時(shí)刻的距離；單獨(dú)發(fā)某一音位i時(shí)，任意時(shí)刻的第p個(gè)FAP參數(shù)的動(dòng)態(tài)參數(shù)值由這三者按其控制權(quán)值函數(shù)值加權(quán)計(jì)算得出Fip(t)=Wi(t)*TipWi(t)+Wl(t)+Wr(t);]]>其中T表示視位在其控制權(quán)值中心時(shí)刻的視位參數(shù)值，Tip即指視位i第p個(gè)FAP參數(shù)的中心處參數(shù)值；在連續(xù)語(yǔ)流中，各個(gè)視位的口形受到其周?chē)曃坏挠绊?，最終的FAP參數(shù)可以由各個(gè)FAP參數(shù)按基本控制權(quán)值函數(shù)值加權(quán)得到Fp(t)=(Σi=1I(Wi(t)×Tip))/(Σi=1IWi(t))]]>其中的i包含了前、后無(wú)聲模型，I為協(xié)同發(fā)音所考慮的視位及無(wú)聲模型總個(gè)數(shù)；相鄰視位之間的無(wú)聲模型由前后無(wú)聲模型相交構(gòu)成；(8)動(dòng)態(tài)視位模型中的各個(gè)參數(shù)的確定(8.1)需要確定的參數(shù)為控制權(quán)值函數(shù)的指數(shù)參數(shù)c，與前后無(wú)聲模型有關(guān)的參數(shù)αl、αr、θl、θr、tl、tr；確定每個(gè)視位的參數(shù)αi(中心處控制權(quán)值函數(shù)值)、θi(-)、θi(+)(由控制函數(shù)中心向前和向后的衰減系數(shù))、tfi或kfi(控制權(quán)值函數(shù)中心與語(yǔ)音中心的時(shí)間距離)或tii(控制權(quán)值函數(shù)中心與語(yǔ)音起始時(shí)刻的時(shí)間距離)，以及第p個(gè)FAP參數(shù)的中心處參數(shù)值Tip；(8.2)估計(jì)模型參數(shù)，即采用分組、分階段、分步驟進(jìn)行機(jī)器學(xué)習(xí)的方法從實(shí)際數(shù)據(jù)中獲取先根據(jù)用上述步驟確定的漢語(yǔ)基本靜態(tài)視位集，對(duì)每個(gè)靜態(tài)視位類(lèi)所對(duì)應(yīng)的音位分別進(jìn)行發(fā)音錄像，并用上述FAP參數(shù)測(cè)量方法得到實(shí)際發(fā)音過(guò)程中的FAP參數(shù)，再依次按以下步聚估算(8.2.1)根據(jù)經(jīng)驗(yàn)設(shè)定所有FAP參數(shù)共用的模型參數(shù)的初始值指數(shù)參數(shù)c＝1.0，tl＝100ms，tr＝60ms；αl＝αr＝1，θl＝θr＝0.03；(8.2.2)設(shè)置第i個(gè)韻母所對(duì)應(yīng)的視位即韻母視位的模型參數(shù)αi＝1，θi(-)＝θi(+)＝0.03，kfi＝0，設(shè)置FAP參數(shù)中心處參數(shù)值為靜態(tài)視位的FAP參數(shù)值，并進(jìn)行學(xué)習(xí)，以模型產(chǎn)生的FAP參數(shù)與實(shí)測(cè)FAP參數(shù)的誤差平方和作為相似度準(zhǔn)則或能量函數(shù)，即，其中N為實(shí)際測(cè)量的音位發(fā)音過(guò)程中動(dòng)態(tài)視位長(zhǎng)度，單位為圖像幀，F(xiàn)api，k(p)表示第i個(gè)韻母視位的第k幀F(xiàn)AP參數(shù)p的實(shí)測(cè)數(shù)值，F(xiàn)ap′i，k(p)表示模型生成的第i個(gè)韻母視位的第k幀F(xiàn)AP參數(shù)p的數(shù)值；(8.2.3)利用公知的梯度下降法調(diào)節(jié)各個(gè)參數(shù)，經(jīng)多次疊代使得總的誤差Ji最小，其中各個(gè)參數(shù)的調(diào)節(jié)范圍為αi(0.5～1.5)，θi(-)、θi(+)(0.01～0.05)，kfi(-0.5～0.5)；(8.2.4)重復(fù)步驟(8.2.2)～(8.2.3)，直到學(xué)完所有韻母視位的模型參數(shù)，并記錄總的誤差和，其中K為總的韻母視位個(gè)數(shù)；(8.2.5)用上述梯度下降法調(diào)節(jié)指數(shù)參數(shù)c和前后無(wú)聲模型參數(shù)tl、tr、αl、αr、θl、θr后返回步驟(8.2.2)，經(jīng)多次疊代使總的誤差和J最小，各個(gè)參數(shù)的調(diào)節(jié)范圍為c(0.8～1.2)，tl、tr(0～200ms)，αl、αr(0.5～1.5)，θl、θr、(0.01～0.05)；(8.2.6)學(xué)習(xí)第i個(gè)聲母所對(duì)應(yīng)的視位參數(shù)時(shí)，對(duì)包括第i個(gè)聲母的音節(jié)進(jìn)行發(fā)音錄像，并測(cè)得整個(gè)音節(jié)發(fā)音過(guò)程的視位參數(shù)；(8.2.7)設(shè)置第i個(gè)聲母即聲母視位的模型參數(shù)αi＝1，θi(-)＝θi(+)＝0.03，tii＝0，設(shè)置FAP參數(shù)中心處參數(shù)值為靜態(tài)視位的FAP參數(shù)值，并進(jìn)行學(xué)習(xí)；根據(jù)模型參數(shù)和上述步驟學(xué)得的指數(shù)參數(shù)c和前后無(wú)聲模型參數(shù)tl、tr、αl、αr、θl、θr以及韻母模型參數(shù)計(jì)算出整個(gè)音節(jié)的視位參數(shù)，以模型參數(shù)產(chǎn)生的FAP參數(shù)與實(shí)測(cè)FAP參數(shù)的誤差平方和作為相似度準(zhǔn)則或能量函數(shù)，，其中N為實(shí)際測(cè)量的音節(jié)發(fā)音過(guò)程中動(dòng)態(tài)視位長(zhǎng)度，單位為圖像幀，F(xiàn)api，k(p)表示整個(gè)音節(jié)的第k幀F(xiàn)AP參數(shù)p的實(shí)測(cè)數(shù)值，F(xiàn)ap′i，k(p)表示模型生成的整個(gè)音節(jié)的第k幀F(xiàn)AP參數(shù)p的數(shù)值；(8.2.8)利用公知的梯度下降法調(diào)節(jié)各個(gè)參數(shù)，經(jīng)多次疊代使得總的誤差Ji最小，其中各個(gè)參數(shù)的調(diào)節(jié)范圍為αi(0.5～1.5)，θi(-)、θi(+)(0.01～0.05)，tii(0～200ms)；(8.2.9)重復(fù)步驟(8.2.6)～(8.2.8)，直到學(xué)完所有聲母視位的模型參數(shù)。
2.根據(jù)權(quán)利要求1的漢語(yǔ)音位-視位參數(shù)的計(jì)算機(jī)轉(zhuǎn)換方法所設(shè)計(jì)的系統(tǒng)，其特征在于，它含有中央處理器，經(jīng)總線(xiàn)與中央處理器相連的視頻圖像采集設(shè)備中，聲音輸入/輸出設(shè)備，視頻圖像顯示設(shè)備、鍵盤(pán)、鼠標(biāo)以及內(nèi)存儲(chǔ)器。
全文摘要
漢語(yǔ)音位－視位參數(shù)的計(jì)算機(jī)轉(zhuǎn)換方法及系統(tǒng)屬于語(yǔ)音—人臉動(dòng)態(tài)圖像信息的轉(zhuǎn)換和處理技術(shù)領(lǐng)域。其特征在于,它包含根據(jù)確定的音位系列同步完成語(yǔ)音和人臉圖像的錄音、錄像,并把錄像數(shù)據(jù)轉(zhuǎn)換為音視頻同步的數(shù)字圖像數(shù)據(jù)輸入計(jì)算機(jī),確定漢語(yǔ)靜態(tài)視位的抽取時(shí)刻,從國(guó)際標(biāo)準(zhǔn)MPEG－4中選取描述漢語(yǔ)視位的人臉動(dòng)畫(huà)參數(shù)FAP參數(shù)集,測(cè)量人臉特征點(diǎn),計(jì)算漢語(yǔ)靜態(tài)視位的人臉動(dòng)畫(huà)參數(shù)FAP參數(shù)值,建立漢語(yǔ)基本視位集,構(gòu)筑用于描述某一視位對(duì)應(yīng)FAP參數(shù)變化的基于權(quán)值融合的動(dòng)態(tài)視位模型,確定動(dòng)態(tài)視位模型各參數(shù)的學(xué)習(xí)方法各步驟,相應(yīng)地提出了音位—視位計(jì)算機(jī)轉(zhuǎn)換系統(tǒng),從而實(shí)現(xiàn)從漢語(yǔ)音位生成其對(duì)應(yīng)FAP參數(shù)的方法和系統(tǒng)。它對(duì)于待轉(zhuǎn)換的文本,由漢語(yǔ)基本視位集提供對(duì)應(yīng)的視位號(hào),從而生成漢語(yǔ)文本所對(duì)應(yīng)的FAP參數(shù)。
文檔編號(hào)G06F17/28GK1379348SQ02117330
公開(kāi)日2002年11月13日申請(qǐng)日期2002年5月17日優(yōu)先權(quán)日2002年5月17日
發(fā)明者蔡蓮紅, 王志明, 張毅申請(qǐng)人:清華大學(xué), 北京炎黃新星網(wǎng)絡(luò)科技有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：蔡蓮紅;王志明;張毅
技術(shù)所有人：清華大學(xué);北京炎黃新星網(wǎng)絡(luò)科技有限公司
我是此專(zhuān)利的發(fā)明人

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話(huà)進(jìn)行咨詢(xún)。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線(xiàn)網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

漢語(yǔ)音位－視位參數(shù)的計(jì)算機(jī)轉(zhuǎn)換方法和系統(tǒng)的制作方法