国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于聲管的語音合成方法與流程

      文檔序號(hào):11202319閱讀:747來源:國(guó)知局
      一種基于聲管的語音合成方法與流程

      本發(fā)明涉及一種語音合成方法。特別是涉及一種考慮噪聲源模型和流體動(dòng)壓的基于聲管的語音合成方法。



      背景技術(shù):

      語音合成指利用電子計(jì)算機(jī)及一些專業(yè)裝置來模擬人制造語音的技術(shù),是當(dāng)前人機(jī)語音交互的主要技術(shù)之一?,F(xiàn)階段,語音合成的研究還是集中到文字到語音的合成這一階段,也就是tts合成系統(tǒng)。

      語音合成主要被分成兩種方法,就是參數(shù)合成法以及波形拼接法。經(jīng)過多年的發(fā)展,銜接合成是目前主要的高質(zhì)量語音合成方法。從長(zhǎng)遠(yuǎn)來看,似乎最有前途的是發(fā)音語音合成,它不受任何基本的限制,并且超出純文本-語音合成的應(yīng)用程序。而基于聲管的語音合成是基于發(fā)音機(jī)理的語音合成方法的重要組成部分。

      關(guān)于人類聲道的數(shù)學(xué)模型,一直以來就有兩種說法:第一個(gè)觀點(diǎn)是將聲道看成是由多個(gè)橫截面積不一樣的聲管串聯(lián)而形成的聲道系統(tǒng),被叫作聲管模型;而第二個(gè)觀點(diǎn)是將聲道看成一個(gè)諧振腔,腔體的諧振頻率由共振峰表示,用該方法來描述聲道的模型即為共振峰模型。本發(fā)明中采用的是第一種,也就是聲管模型。

      有不同的技術(shù)來模擬離散管中聲波的傳播模型。最常用的技術(shù)是基于波數(shù)字濾波器,或者基于傳輸線電路模型的直接數(shù)值模擬,或者是基于時(shí)域-頻域的混合仿真系統(tǒng)模擬聲道。每種方法都有其特有的優(yōu)點(diǎn)和缺點(diǎn)。



      技術(shù)實(shí)現(xiàn)要素:

      本發(fā)明所要解決的技術(shù)問題是,提供一種不僅可以生成元音而且可以生成輔音,提高了生成元音準(zhǔn)確度的基于聲管的語音合成方法。

      本發(fā)明所采用的技術(shù)方案是:一種基于聲管的語音合成方法,包括如下步驟:

      1)輸入數(shù)據(jù)包括發(fā)音時(shí)所有對(duì)應(yīng)位置聲管的面積函數(shù)值及聲管的長(zhǎng)度值,進(jìn)行相關(guān)初始化,并設(shè)定聲管個(gè)數(shù)為500;

      2)計(jì)算第n個(gè)聲管的聲學(xué)元素,所述的聲學(xué)元素是傳統(tǒng)輸電線電路模型所需要的各個(gè)變量,n初始化為1,每循環(huán)一次,n加1;

      3)確定聲管的收縮位置,是分別確定聲管的收縮入口及收縮出口,然后對(duì)所述的收縮入口及收縮出口求取平均值;

      4)在確定聲管的收縮位置的基礎(chǔ)上確定磁單極子和偶極子源的位置,磁單極子放在收縮的最前部分,偶極子源放在一個(gè)具有代表性的障礙位置處,所述的具有代表性的障礙位置是由流動(dòng)分離點(diǎn)與牙齒的距離來決定;

      5)判斷是否要激活噪聲源,當(dāng)收縮中雷諾數(shù)的平方re2大于一定的閾值時(shí),激

      活噪聲源,反之則不激活噪聲源,其中re=vcdc/v是收縮中的雷諾數(shù),是臨界雷諾數(shù);

      6)增加伯努利阻力,是將額外的阻力分離為ri和公式如下:

      其中,是兩個(gè)連續(xù)聲管i和j的橫截面積的平方,uij是這兩個(gè)聲管之間的體積速度,ρ是周圍空氣密度,uin,i是進(jìn)入聲管i的體積速度,uout,i是離開聲管i的體積速度,apred是聲管i前一個(gè)聲管的橫截面積,asucc是聲管i后一個(gè)聲管的橫截面積,rfric,i是聲管i的粘摩擦力;

      7)重復(fù)步驟2)~步驟6),直至更新完成所有的聲管,并將數(shù)據(jù)處理結(jié)果寫入wave文件的數(shù)據(jù)體,更新數(shù)據(jù)體長(zhǎng)度;

      8)重復(fù)步驟2)~步驟7),更新wave文件長(zhǎng)度和wave文件的數(shù)據(jù)頭,得到最終的wave文件。

      步驟1)所述的初始化包括:設(shè)定聲道上牙齒的位置和聲門面積,根據(jù)輸入的數(shù)據(jù)加載聲道的初始化形狀,以及設(shè)置wave文件頭格式。

      步驟2)所述的傳統(tǒng)輸電線電路模型所需要的各個(gè)變量包括:收縮部位的體積速度源、壓力源及動(dòng)態(tài)壓降,非剛性壁聲道內(nèi)的壓強(qiáng)p和體積速度v,聲管內(nèi)聲壓的振幅和力學(xué)阻力,聲門末端及口腔出口的邊界壓強(qiáng)和體積速度,以及計(jì)算阻力時(shí)的粘滯系數(shù)。

      步驟4)所述的磁單極子是收縮出口的體積速度源,所述的偶極子源是氣流源擊中一個(gè)障礙物或者擊中聲管表面部分時(shí)的壓力源。

      步驟4)所述的流動(dòng)分離點(diǎn)是聲管內(nèi)氣流流動(dòng)分離的地方。

      步驟5)所述的,re=vcdc/v式中,vc是收縮中最窄聲管部分的速度,dc是聲管的直徑,v是運(yùn)動(dòng)粘度。

      本發(fā)明的一種基于聲管的語音合成方法,在傳統(tǒng)輸電線模型的基礎(chǔ)上增加噪聲源和采用考慮到流體動(dòng)壓的方法從而形成新的聲道模型,完善了現(xiàn)有的聲管模型,比現(xiàn)有的模型生成元音的準(zhǔn)確度更高并且可以生成輔音。本發(fā)明的方法沒有限制每個(gè)管部分的長(zhǎng)度,完善現(xiàn)有的元音的聲管模型,使得模型不僅可以生成元音而且可以生成輔音,提高了生成元音的準(zhǔn)確度,并有效的避免了聲偽像;對(duì)推進(jìn)語音合成在更廣泛的領(lǐng)域的應(yīng)用提供了極大的幫助。

      附圖說明

      圖1是本發(fā)明一種基于聲管的語音合成方法的流程圖;

      圖2是本發(fā)明中聲道模型中每個(gè)聲管的二端口電路圖;

      圖3是本發(fā)明中一個(gè)實(shí)例元音/e/的頻譜圖;

      圖4是本發(fā)明中一個(gè)實(shí)例輔音/s/的頻譜圖。

      具體實(shí)施方式

      下面結(jié)合實(shí)施例和附圖對(duì)本發(fā)明的一種基于聲管的語音合成方法做出詳細(xì)說明。

      本發(fā)明的一種基于聲管的語音合成方法,將基于核磁共振(mri)數(shù)據(jù),采用時(shí)域模擬方法,用傳輸線電路tlm來模擬聲道,并加入了噪聲源模型。模型中,控制聲波生成和傳播的聲波方程通過應(yīng)用一定的規(guī)則轉(zhuǎn)化為離散變量,并在基于一個(gè)更現(xiàn)實(shí)的對(duì)流體動(dòng)壓變化的分布式考慮的基礎(chǔ)上進(jìn)行改進(jìn),同時(shí)考慮聲道的分支將三個(gè)不同的稀疏矩陣運(yùn)用數(shù)學(xué)方法合并成單一矩陣,以此來完善現(xiàn)有的元音的聲管模型。

      輔音與元音的不同之處主要有兩點(diǎn),一是計(jì)算輔音的時(shí)候需要在進(jìn)行相關(guān)初始化之前設(shè)定牙齒的位置;另外一個(gè)就是在計(jì)算數(shù)據(jù)體的時(shí)候不需要計(jì)算聲門的面積,因?yàn)橛?jì)算輔音的時(shí)候聲門的面積是一個(gè)常數(shù)。這兩點(diǎn)是在輔音研究的實(shí)施例中需要自己手動(dòng)進(jìn)行的修改,并且這些都是由于聲道在發(fā)元音及輔音的時(shí)候的不同生理機(jī)理而導(dǎo)致在研究中所需要做出的改變。

      在得到wav文件之后,對(duì)wav文件通過不同的技術(shù)處理,得到對(duì)應(yīng)聲音文件的面積函數(shù)圖,波形圖及頻譜圖,主要通過比較這些聲音的頻譜圖與實(shí)際發(fā)音得到的頻譜圖來判斷結(jié)果的準(zhǔn)確度。

      如圖1所示,本發(fā)明的一種基于聲管的語音合成方法,包括如下步驟:

      1)輸入數(shù)據(jù)包括發(fā)音時(shí)所有對(duì)應(yīng)位置聲管的面積函數(shù)值及聲管的長(zhǎng)度值,進(jìn)行相關(guān)初始化,并設(shè)定聲管個(gè)數(shù)為500;所述的初始化包括:設(shè)定聲道上牙齒的位置和聲門面積,根據(jù)輸入的數(shù)據(jù)加載聲道的初始化形狀,以及設(shè)置wave文件頭格式。

      2)計(jì)算第n個(gè)聲管的聲學(xué)元素,所述的聲學(xué)元素是傳統(tǒng)輸電線電路模型所需要的各個(gè)變量,n初始化為1,每循環(huán)一次,n加1;所述的傳統(tǒng)輸電線電路模型所需要的各個(gè)變量包括:收縮部位的體積速度源、壓力源及動(dòng)態(tài)壓降,非剛性壁聲道內(nèi)的壓強(qiáng)p和體積速度v,聲管內(nèi)聲壓的振幅和力學(xué)阻力,聲門末端及口腔出口的邊界壓強(qiáng)和體積速度,以及計(jì)算阻力時(shí)的粘滯系數(shù)。

      3)確定聲管的收縮位置,計(jì)算噪聲源的第一步需要確定收縮位置,本發(fā)明在確定收縮位置時(shí),是分別確定聲管的收縮入口及收縮出口,然后對(duì)所述的收縮入口及收縮出口求取平均值;

      4)在確定聲管的收縮位置的基礎(chǔ)上確定磁單極子和偶極子源的位置,磁單極子放在收縮的最前部分,偶極子源放在一個(gè)具有代表性的障礙位置處,所述的具有代表性的障礙位置是由流動(dòng)分離點(diǎn)與牙齒的距離來決定;其中,所述的磁單極子是收縮出口的體積速度源,所述的偶極子源是氣流源擊中一個(gè)障礙物或者擊中聲管表面部分時(shí)的壓力源。所述的流動(dòng)分離點(diǎn)是聲管內(nèi)氣流流動(dòng)分離的地方。

      磁單極子總是放在收縮的最前部分,即假定流動(dòng)分離的地方。偶極子源總是放在一個(gè)具有代表性的障礙位置。當(dāng)流動(dòng)分離點(diǎn)(fsp)距離牙齒小于4cm時(shí),偶極子源就放在牙齒處,因?yàn)?,這是用來發(fā)齒槽音和后齒齦音的。相反,當(dāng)將聲道墻作為障礙物,對(duì)于軟腭音的摩擦音,它被放置在fsp下游0.5cm的地方。當(dāng)fsp的牙齒處或牙齒下游時(shí),偶極子源放置在嘴唇的地方。

      5)判斷是否要激活噪聲源,當(dāng)收縮中雷諾數(shù)的平方re2大于一定的閾值時(shí),激活噪聲源,反之則不激活噪聲源,其中re=vcdc/v是收縮中的雷諾數(shù),是臨界雷諾數(shù);所述的,re=vcdc/v式中,vc是收縮中最窄聲管部分的速度,dc是聲管的直徑,v是運(yùn)動(dòng)粘度。

      6)增加伯努利阻力,是將額外的阻力分離為ri和公式如下:

      其中,是兩個(gè)連續(xù)聲管i和j的橫截面積的平方,uij是這兩個(gè)聲管之間的體積速度,ρ是周圍空氣密度,uin,i是進(jìn)入聲管i的體積速度,uout,i是離開聲管i的體積速度,apred是聲管i前一個(gè)聲管的橫截面積,asucc是聲管i后一個(gè)聲管的橫截面積,rfric,i是聲管i的粘摩擦力。

      從而使得整個(gè)聲管模型可以用統(tǒng)一的二端口網(wǎng)絡(luò)圖來表示,如圖2所示,而,整個(gè)聲道模型是由多個(gè)圖2所示的二端口網(wǎng)絡(luò)串聯(lián)組成。同時(shí)這個(gè)方法還可以預(yù)防由于收縮位置改變?cè)斐傻穆晜蜗瘢?/p>

      7)重復(fù)步驟2)~步驟6),直至更新完成所有的聲管,并將數(shù)據(jù)處理結(jié)果寫入wave文件的數(shù)據(jù)體,更新數(shù)據(jù)體長(zhǎng)度;

      8)重復(fù)步驟2)~步驟7),更新wave文件長(zhǎng)度和wave文件的數(shù)據(jù)頭,得到最終的wave文件。

      本發(fā)明實(shí)例中采用了5個(gè)元音及6個(gè)摩擦音,摩擦音數(shù)據(jù)的面積函數(shù)初始化為40個(gè)離散值,牙齒的位置隨著不同的發(fā)音而發(fā)生變化;元音數(shù)據(jù)的面積函數(shù)初始化為70左右的不同數(shù)量的管。

      在得到wav文件之后,使用praat軟件生成對(duì)應(yīng)的波形圖與頻譜圖,然后與實(shí)際發(fā)音的頻譜圖來比較,從而判斷模型的準(zhǔn)確度。

      實(shí)驗(yàn)結(jié)果表明,本實(shí)例使用的5個(gè)元音的發(fā)音結(jié)果準(zhǔn)確度都比較高,頻譜與實(shí)際的發(fā)音頻譜很相似,即使是最直接的人耳聽起來也不會(huì)有太大的差別。這是一個(gè)令人滿意的結(jié)果。本實(shí)例在改進(jìn)傳統(tǒng)輸電線之后可以生成輔音,只是在本實(shí)例使用的六個(gè)輔音中,只有四個(gè)輔音發(fā)音結(jié)果準(zhǔn)確度比較高,還有兩個(gè)準(zhǔn)確度相對(duì)來講要差一些,準(zhǔn)確度較高的頻譜圖與實(shí)際發(fā)音的頻譜圖整體都比較一致,而另外兩個(gè)相比實(shí)際發(fā)音會(huì)出現(xiàn)些許偏差。結(jié)果示意圖見圖3、圖4。圖3顯示的是元音中結(jié)果準(zhǔn)確度較高的音/e/的頻譜圖,圖4顯示的是摩擦音中結(jié)果準(zhǔn)確度比較高的音/s/的頻譜圖。

      本實(shí)例在傳統(tǒng)輸電線模型的基礎(chǔ)上增加噪聲源和采用考慮到流體動(dòng)壓的方法從而形成新的聲道模型,比現(xiàn)有的模型生成元音的準(zhǔn)確度更高并且可以生成輔音。

      當(dāng)前第1頁1 2 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1