国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      建立語音模型的方法

      文檔序號:2823248閱讀:264來源:國知局
      專利名稱:建立語音模型的方法
      技術(shù)領(lǐng)域
      本發(fā)明一般涉及語音識別,更具體地,涉及利用已知的成人語音模型建立兒童計算機(jī)語音模型的方法。
      背景技術(shù)
      計算機(jī)語音識別已經(jīng)在各領(lǐng)域中得到廣泛應(yīng)用,語音識別的一項有益應(yīng)用是在語言學(xué)習(xí)方面。具體地,如果學(xué)習(xí)者在實際中以某種語言發(fā)音,并且他的語音受到監(jiān)測和評價,那么他就能以更加自然的方式學(xué)習(xí)這門語言。對實現(xiàn)上述應(yīng)用來說,僅需少量訓(xùn)練或者不需要訓(xùn)練的用計算機(jī)方法實現(xiàn)的通用的語音識別是理想的選擇。例如,學(xué)習(xí)者可以先聽預(yù)先制作好的母語人士的錄音,并且可以嘗試模仿該錄音。語音識別程序監(jiān)測學(xué)習(xí)者的語音,認(rèn)可其正確的表述,而每當(dāng)出現(xiàn)錯誤時則指出來。然后,學(xué)習(xí)者可以重試,直至其發(fā)音正確為止。目前,已存在很多語種的計算機(jī)語音模型,并且可以按上述方式使用。這使得學(xué)習(xí)者可以在個人電腦上按自己的進(jìn)度來學(xué)習(xí)語言。然而,語音模型往往是成人語音模型。另一方面,對于兒童來說學(xué)習(xí)語言特別容易,兒童時期學(xué)習(xí)語言是最有效的。不過由于兒童語音具有特殊性(女性的聲音比男性的聲音更加多變,然而兒童說話的音調(diào)甚至比女性的音調(diào)更高,并且比女性的聲音更加多變),所以不容易得到兒童語音模型,并且成人語音模型對于兒童而言效果也不佳。因此,期望能夠利用已知的男性和/或女性的成人語音模型來建立相同語種的兒童語音識別模型。

      發(fā)明內(nèi)容
      本發(fā)明涉及利用一種轉(zhuǎn)換式將成人語音模型進(jìn)行轉(zhuǎn)換,從而獲得兒童語音模型。 已經(jīng)得到從成年男性語音到成年女性語音的轉(zhuǎn)換式,所述轉(zhuǎn)換式是在將成年男性語音轉(zhuǎn)換為成年女性語音時所需要的。根據(jù)本發(fā)明,所述轉(zhuǎn)換式可以經(jīng)過預(yù)定修改,然后可把修改后的轉(zhuǎn)換式施加到女性語音模型,以得到有效的兒童語音模型。因此,優(yōu)選的具體實施方案包括三個步驟1)利用兩種成人語音模型推導(dǎo)出能表示兩者關(guān)系的轉(zhuǎn)換式,其中,將該轉(zhuǎn)換式施加到第一種成人語音模型上,可以大體得到第二種成人語音模型;幻修改該轉(zhuǎn)換式; 3)將修改后的轉(zhuǎn)換式施加到第二種成人語音模型,以生成第三種語音模型。下面介紹男性語音向量和女性語音向量。男性語音模型和女性語音模型可以包括多組向量(每個音位狀態(tài)的高斯分布的均值向量)。每個模型可能包括數(shù)千個向量。當(dāng)估算的轉(zhuǎn)換式施加到一個模型的所有均值向量時,使兩模型之間總的均方差最小化。當(dāng)然,也可以采用其它誤差度量方法,例如最大似然法。在每個模型中多次施加所述轉(zhuǎn)換式,并且對每個向量施加一次所述轉(zhuǎn)換式。這也可以從數(shù)學(xué)角度來理解一個均值向量有39維,轉(zhuǎn)換矩陣即為39維。基于HMM的采用高斯分布的聲學(xué)模型可以參見下列文獻(xiàn)“a tutorial on hidden Markov models and selected applications in speech recognition, Rabiner, L. R. , Proceedings of the IEEE, Volume 77,Issue 2,F(xiàn)eb 1989,Pages :257-286,,。優(yōu)選地,男性語音模型和女性語音模型可以用向量表示,該向量代表定義每個語音模型的關(guān)鍵數(shù)據(jù)。然后,轉(zhuǎn)換式(優(yōu)選為矩陣形式)可以將男性語音模型的向量轉(zhuǎn)變?yōu)榕哉Z音模型的向量。簡單地說,該轉(zhuǎn)換過程僅僅是將男性語音向量乘以轉(zhuǎn)換矩陣。然后,修改該轉(zhuǎn)換矩陣,接著用修改后的矩陣將女性語音向量轉(zhuǎn)變?yōu)楹铣傻膬和Z音向量。對矩陣的修改包括對該矩陣進(jìn)行P次冪運算(0 < ρ < 1)。ρ的取值,優(yōu)選地,約為0. 25到0. 7 ; 更優(yōu)選地,約為0. 4到0. 5 ;最優(yōu)選地,約為0. 5。


      下面結(jié)合附圖對本發(fā)明目前優(yōu)選但僅為示例性的具體實施方案進(jìn)行詳細(xì)說明,從而可以更全面地理解本發(fā)明的上述簡要說明和下述目的、特點及有益效果。其中圖1表示系統(tǒng)的隱馬爾可夫模型的示例性狀態(tài)圖;圖2表示假負(fù)率隨用于生成轉(zhuǎn)換矩陣的冪值變化的曲線,該轉(zhuǎn)換矩陣用于將英語的女性語音模型轉(zhuǎn)化為兒童語音模型;圖3表示假負(fù)率隨用于生成轉(zhuǎn)換矩陣的冪值變化的曲線,該轉(zhuǎn)換矩陣用于將西班牙語的女性語音模型轉(zhuǎn)化為兒童語音模型;圖4表示本發(fā)明所要保護(hù)的方法的實施方案的簡要流程圖。
      具體實施例方式“隱馬爾可夫模型”(HMM,hidden Markov model)是一種統(tǒng)計模型,其中假定建模系統(tǒng)是含有未知參數(shù)的馬爾可夫過程。在使用該模型時,隱含的參數(shù)是由可觀察的參數(shù)確定的。然后,推導(dǎo)出的模型參數(shù)可以用來做進(jìn)一步分析。在正常的馬爾可夫模型中,系統(tǒng)的狀態(tài)對觀察者是直接可見的,因此狀態(tài)轉(zhuǎn)移概率是僅有的參數(shù)。在隱馬爾可夫模型中,系統(tǒng)的狀態(tài)對觀察者不是直接可見的,但是受狀態(tài)影響的變量是可見的。每個狀態(tài)在可能輸出的信號上具有一定的概率分布。因此,HMM產(chǎn)生的輸出信號序列提供了一些關(guān)于狀態(tài)序列的信息。例如,圖1表示系統(tǒng)的隱馬爾可夫模型的狀態(tài)圖。該系統(tǒng)具有三個狀態(tài)XI、X2和 X3。狀態(tài)轉(zhuǎn)移概率是用字母“a”加上表示轉(zhuǎn)移的數(shù)字表示的。例如,“al2”表示從狀態(tài)Xl 到狀態(tài)X2的轉(zhuǎn)移概率。在每個狀態(tài)還有多種可能的輸出(這取決于狀態(tài)序列),這些輸出用字母“b”加上兩個數(shù)字表示。方框Y1、Y2、TO*W表示可能輸出的觀察數(shù)據(jù),根據(jù)這些觀察數(shù)據(jù),可以確定系統(tǒng)的狀態(tài)。當(dāng)前模型中,目標(biāo)參數(shù)是HMM狀態(tài)的平均值。多個平均值可以組成“向量”。例如, 與男性語音模型相對應(yīng)的狀態(tài)平均值序列可以組成男性語音模型源向量m,所述男性語音模型源向量m包括與每個狀態(tài)平均值相對應(yīng)的分量。也可以為女性語音模型建立類似的向量f,使男性語音向量中的每個分量映射到女性語音向量中的相應(yīng)分量。于是,可以定義矩陣形式的轉(zhuǎn)換式T,使f = T*m,其中,f表示女性語音向量,m表示男性語音向量,而T*m表示矩陣與向量相乘,其為向量的轉(zhuǎn)換。對矩陣T的良好估計值將會使T*m與f之間的方差最小化。這可以用數(shù)學(xué)式(1) 來表示T = arg minA (Am-f)2 (1)利用數(shù)學(xué)式(1)可以遞歸得到矩陣Τ。矩陣A可以初始化為單位矩陣。然后,如數(shù)學(xué)
      式⑵所示,可以用梯度下降法更新每個矩陣項(2)
      其中,Ai表示矩陣A的第i行。對所有的向量對(m,f)多次實施梯度下降法,以使矩陣收斂到可接受的轉(zhuǎn)換矩陣T的近似值。根據(jù)本發(fā)明,通過將修改形式的矩陣T施加到女性語音向量上,使女性語音模型轉(zhuǎn)換為兒童語音模型,從而可以生成合成的兒童語音模型。修改后的轉(zhuǎn)換矩陣是通過對矩陣τ進(jìn)行P次冪運算而得到,即矩陣T’ = Tp,其中P為分?jǐn)?shù),0 < P < 1。P的取值,優(yōu)選地,約為0. 25到0. 7 ;更優(yōu)選地,約為0. 4到0. 5 ;最優(yōu)選地,約為0. 5。而且,ρ不隨語言變化。 即,無論是哪種語言,所有的語音模型基本都取相同的最佳P值進(jìn)行冪運算。圖4的流程圖概括了本發(fā)明所公開的建立兒童語音模型的過程。該過程從方框 100開始。在方框102,在現(xiàn)有的男性語音模型與現(xiàn)有的女性語音模型之間作相關(guān)處理,以推導(dǎo)出由男性語音模型生成女性語音模型的轉(zhuǎn)換式。在優(yōu)選的具體實施方案中,這是通過如下迭代過程來完成的已知表示男性語音模型的向量和表示女性語音模型的向量,推導(dǎo)出轉(zhuǎn)換矩陣。在方框104,對轉(zhuǎn)換矩陣進(jìn)行調(diào)整。在優(yōu)選實施例中,這相當(dāng)于對轉(zhuǎn)換矩陣進(jìn)行冪運算(冪值取值范圍為O到1)。在方框106,將調(diào)整后的矩陣施加到女性語音模型上,以形成合成的兒童語音模型。處理過程在方框108處結(jié)束。實驗利用數(shù)學(xué)式(1)和數(shù)學(xué)式( 所述的方法,可以生成與英語或西班牙語的現(xiàn)有男性語音模型以及現(xiàn)有女性語音模型有關(guān)的矩陣T。也可以獲得各語種的有效的兒童語音模型。可以為各語種模型生成轉(zhuǎn)換矩陣,并且利用多個0到1的P值可以生成各語種的一系列的不同轉(zhuǎn)換矩陣。然后,用實際的兒童語音對采用不同P值的轉(zhuǎn)換矩陣進(jìn)行測試,從而測定不同P值下的語音模型的質(zhì)量。圖2表示英語的合成兒童語音模型下,假負(fù)率的相對減小量(百分比)與加到轉(zhuǎn)換矩陣上的冪值P之間的函數(shù)關(guān)系。假負(fù)(FN)在實際正確的發(fā)音被檢測為錯誤時出現(xiàn)。表1總結(jié)了當(dāng)語種為英語時,從男性語音模型、女性語音模型、合成的兒童語音模型以及基準(zhǔn)的兒童語音模型所得出的結(jié)果。該表1不僅指示出假負(fù)率,還指示出假接受率。 假接受即實際錯誤的發(fā)音被誤認(rèn)為正確。表1英語語音模型的性能
      權(quán)利要求
      1.一種利用計算機(jī)實現(xiàn)的為第三類語音人群建立語音模型的方法,包括下列步驟推導(dǎo)出轉(zhuǎn)換式,當(dāng)所述轉(zhuǎn)換式與現(xiàn)有的第一類語音人群的語音模型運算時會生成現(xiàn)有的第二類語音人群的語音模型;將所述轉(zhuǎn)換式施加到所述第二類語音人群的語音模型。
      2.如權(quán)利要求1所述的方法,其中所述第一類語音人群是成年男性,所述第二類語音人群是成年女性,所述第三類語音人群是」L童。
      3.如權(quán)利要求2所述的方法,其中在將所述轉(zhuǎn)換式施加到所述第二類語音人群的語音模型之前,修改所述轉(zhuǎn)換式。
      4.如權(quán)利要求3所述的方法,其中所述修改包括對所述轉(zhuǎn)換式進(jìn)行冪運算。
      5.如權(quán)利要求4所述的方法,其中所述冪運算是用0至1之間的冪值完成的。
      6.如權(quán)利要求5所述的方法,其中所述冪運算是用約0.25至0. 7之間的冪值完成的。
      7.如權(quán)利要求5所述的方法,其中所述冪運算是用約0.4至0. 5之間的冪值完成的。
      8.如權(quán)利要求5所述的方法,其中所述冪運算是用約為0.5的冪值完成的。
      9.如權(quán)利要求2所述的方法,其中兒童語音模型包含與其狀態(tài)有關(guān)的協(xié)方差數(shù)據(jù),并且對所述協(xié)方差數(shù)據(jù)進(jìn)行縮放,以反映兒童語音的變化量。
      10.如權(quán)利要求9所述的方法,其中所述協(xié)方差數(shù)據(jù)是對角矩陣的形式,并且前六個協(xié)方差數(shù)據(jù)按下列因子縮放1. 401. 331. 271. 211. 151. 09mtm, δ-言旨ι、Δ-Δ-能量按下歹ι」因子,放~1. 45 1. 35 ΤΤδ
      11.如權(quán)利要求2所述的方法,其中將男性語音模型和女性語音模型表示成統(tǒng)計建模系統(tǒng)中代表狀態(tài)的向量,所述轉(zhuǎn)換式是把男性語音向量轉(zhuǎn)換為女性語音向量的矩陣。
      12.如權(quán)利要求11所述的方法,其中對所述矩陣進(jìn)行冪運算。
      13.如權(quán)利要求12所述的方法,其中所述冪運算是用0至1之間的冪值完成的。
      14.如權(quán)利要求12所述的方法,其中所述冪運算是用約0.25至0. 7之間的冪值完成的。
      15.如權(quán)利要求12所述的方法,其中所述冪運算是用約0.4至0. 5之間的冪值完成的。
      16.如權(quán)利要求12所述的方法,其中所述冪運算是用約為0.5的冪值完成的。
      17.如權(quán)利要求11所述的方法,其中所述兒童語音模型包含與其狀態(tài)有關(guān)的協(xié)方差數(shù)據(jù),并且對所述協(xié)方差數(shù)據(jù)進(jìn)行縮放,以反映兒童語音的變化量。
      18.如權(quán)利要求17所述的方法,其中所述協(xié)方差數(shù)據(jù)是對角矩陣的形式,并且前六個協(xié)方差數(shù)據(jù)按下列因子縮放
      19.如權(quán)利要求1所述的方法,其中在將所述轉(zhuǎn)換式施加到所述第二類語音人群的語音模型之前,調(diào)整所述轉(zhuǎn)換式。
      20.如權(quán)利要求19所述的方法,其中所述調(diào)整包括對所述轉(zhuǎn)換式進(jìn)行冪運算。
      21.如權(quán)利要求20所述的方法,其中所述冪運算是用0至1之間的冪值完成的。
      22.如權(quán)利要求20所述的方法,其中所述冪運算是用約0.25至0. 7之間的冪值完成的。
      23.如權(quán)利要求20所述的方法,其中所述冪運算是用約0.4至0. 5之間的冪值完成的。
      24.如權(quán)利要求20所述的方法,其中所述冪運算是用約為0.5的冪值完成的。
      25.如權(quán)利要求1所述的方法,其中所述第三類語音人群的語音模型包括與其狀態(tài)有關(guān)的協(xié)方差數(shù)據(jù),并且對該協(xié)方差數(shù)據(jù)進(jìn)行縮放,以反映建模的語音的變化量。
      26.一種語音轉(zhuǎn)換方法,包括由一組來自兩類人群的語音模型推導(dǎo)出轉(zhuǎn)換函數(shù),并且利用推導(dǎo)出的所述轉(zhuǎn)換函數(shù)把所述兩類人群中的一類人群的語音轉(zhuǎn)換成第三類人群的語音。
      27.如權(quán)利要求沈所述的方法,其中第一類人群和第二類人群是成年男性和成年女性,第三類人群是兒童。
      28.如權(quán)利要求沈所述的方法,其中,轉(zhuǎn)換為所述第三類人群的語音之后,將該語音用于訓(xùn)練所述第三類人群學(xué)習(xí)新的語言。
      全文摘要
      本發(fā)明提供了一種能夠推導(dǎo)出轉(zhuǎn)換式的方法,該轉(zhuǎn)換式是利用處理過程將男性語音模型轉(zhuǎn)換為女性語音模型時所需的。首先,該轉(zhuǎn)換式經(jīng)過預(yù)定修改,然后將修改后的轉(zhuǎn)換式施加到女性語音模型上,以生成合成的兒童語音模型。其中,男性語音模型和女性語音模型可以用向量表示,該向量代表定義每個語音模型的關(guān)鍵數(shù)據(jù),并且得出的轉(zhuǎn)換式可以是能夠?qū)⒛行哉Z音模型向量轉(zhuǎn)換成女性語音模型向量的矩陣形式。對所得出的矩陣的修改包括對該矩陣進(jìn)行p次冪運算,其中0<p<1。
      文檔編號G10L11/00GK102203852SQ200980144062
      公開日2011年9月28日 申請日期2009年9月10日 優(yōu)先權(quán)日2008年9月12日
      發(fā)明者卡德里·哈吉奧盧, 安德里亞斯·哈根, 布萊恩·培倫 申請人:如師通有限公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1