一種基于聲管的語音合成方法與流程

文檔序號(hào)：11202319閱讀：747來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本發(fā)明涉及一種語音合成方法。特別是涉及一種考慮噪聲源模型和流體動(dòng)壓的基于聲管的語音合成方法。

背景技術(shù)：

語音合成指利用電子計(jì)算機(jī)及一些專業(yè)裝置來模擬人制造語音的技術(shù)，是當(dāng)前人機(jī)語音交互的主要技術(shù)之一?，F(xiàn)階段，語音合成的研究還是集中到文字到語音的合成這一階段，也就是tts合成系統(tǒng)。

語音合成主要被分成兩種方法，就是參數(shù)合成法以及波形拼接法。經(jīng)過多年的發(fā)展，銜接合成是目前主要的高質(zhì)量語音合成方法。從長(zhǎng)遠(yuǎn)來看，似乎最有前途的是發(fā)音語音合成，它不受任何基本的限制，并且超出純文本-語音合成的應(yīng)用程序。而基于聲管的語音合成是基于發(fā)音機(jī)理的語音合成方法的重要組成部分。

關(guān)于人類聲道的數(shù)學(xué)模型，一直以來就有兩種說法：第一個(gè)觀點(diǎn)是將聲道看成是由多個(gè)橫截面積不一樣的聲管串聯(lián)而形成的聲道系統(tǒng)，被叫作聲管模型；而第二個(gè)觀點(diǎn)是將聲道看成一個(gè)諧振腔，腔體的諧振頻率由共振峰表示，用該方法來描述聲道的模型即為共振峰模型。本發(fā)明中采用的是第一種，也就是聲管模型。

有不同的技術(shù)來模擬離散管中聲波的傳播模型。最常用的技術(shù)是基于波數(shù)字濾波器,或者基于傳輸線電路模型的直接數(shù)值模擬，或者是基于時(shí)域-頻域的混合仿真系統(tǒng)模擬聲道。每種方法都有其特有的優(yōu)點(diǎn)和缺點(diǎn)。

技術(shù)實(shí)現(xiàn)要素：

本發(fā)明所要解決的技術(shù)問題是，提供一種不僅可以生成元音而且可以生成輔音，提高了生成元音準(zhǔn)確度的基于聲管的語音合成方法。

本發(fā)明所采用的技術(shù)方案是：一種基于聲管的語音合成方法，包括如下步驟：

1)輸入數(shù)據(jù)包括發(fā)音時(shí)所有對(duì)應(yīng)位置聲管的面積函數(shù)值及聲管的長(zhǎng)度值，進(jìn)行相關(guān)初始化，并設(shè)定聲管個(gè)數(shù)為500；

2)計(jì)算第n個(gè)聲管的聲學(xué)元素，所述的聲學(xué)元素是傳統(tǒng)輸電線電路模型所需要的各個(gè)變量，n初始化為1，每循環(huán)一次，n加1；

3)確定聲管的收縮位置，是分別確定聲管的收縮入口及收縮出口，然后對(duì)所述的收縮入口及收縮出口求取平均值；

4)在確定聲管的收縮位置的基礎(chǔ)上確定磁單極子和偶極子源的位置，磁單極子放在收縮的最前部分，偶極子源放在一個(gè)具有代表性的障礙位置處，所述的具有代表性的障礙位置是由流動(dòng)分離點(diǎn)與牙齒的距離來決定；

5)判斷是否要激活噪聲源，當(dāng)收縮中雷諾數(shù)的平方re²大于一定的閾值時(shí)，激

活噪聲源，反之則不激活噪聲源，其中re＝vcdc/v是收縮中的雷諾數(shù)，是臨界雷諾數(shù)；

6)增加伯努利阻力，是將額外的阻力分離為ri和公式如下：

其中，和是兩個(gè)連續(xù)聲管i和j的橫截面積的平方，uij是這兩個(gè)聲管之間的體積速度，ρ是周圍空氣密度，uin,i是進(jìn)入聲管i的體積速度，uout,i是離開聲管i的體積速度，apred是聲管i前一個(gè)聲管的橫截面積，asucc是聲管i后一個(gè)聲管的橫截面積，rfric,i是聲管i的粘摩擦力；

7)重復(fù)步驟2)～步驟6)，直至更新完成所有的聲管，并將數(shù)據(jù)處理結(jié)果寫入wave文件的數(shù)據(jù)體，更新數(shù)據(jù)體長(zhǎng)度；

8)重復(fù)步驟2)～步驟7)，更新wave文件長(zhǎng)度和wave文件的數(shù)據(jù)頭，得到最終的wave文件。

步驟1)所述的初始化包括：設(shè)定聲道上牙齒的位置和聲門面積，根據(jù)輸入的數(shù)據(jù)加載聲道的初始化形狀，以及設(shè)置wave文件頭格式。

步驟2)所述的傳統(tǒng)輸電線電路模型所需要的各個(gè)變量包括：收縮部位的體積速度源、壓力源及動(dòng)態(tài)壓降，非剛性壁聲道內(nèi)的壓強(qiáng)p和體積速度v，聲管內(nèi)聲壓的振幅和力學(xué)阻力，聲門末端及口腔出口的邊界壓強(qiáng)和體積速度，以及計(jì)算阻力時(shí)的粘滯系數(shù)。

步驟4)所述的磁單極子是收縮出口的體積速度源，所述的偶極子源是氣流源擊中一個(gè)障礙物或者擊中聲管表面部分時(shí)的壓力源。

步驟4)所述的流動(dòng)分離點(diǎn)是聲管內(nèi)氣流流動(dòng)分離的地方。

步驟5)所述的，re＝vcdc/v式中，vc是收縮中最窄聲管部分的速度，dc是聲管的直徑，v是運(yùn)動(dòng)粘度。

本發(fā)明的一種基于聲管的語音合成方法，在傳統(tǒng)輸電線模型的基礎(chǔ)上增加噪聲源和采用考慮到流體動(dòng)壓的方法從而形成新的聲道模型，完善了現(xiàn)有的聲管模型，比現(xiàn)有的模型生成元音的準(zhǔn)確度更高并且可以生成輔音。本發(fā)明的方法沒有限制每個(gè)管部分的長(zhǎng)度，完善現(xiàn)有的元音的聲管模型，使得模型不僅可以生成元音而且可以生成輔音，提高了生成元音的準(zhǔn)確度，并有效的避免了聲偽像；對(duì)推進(jìn)語音合成在更廣泛的領(lǐng)域的應(yīng)用提供了極大的幫助。

附圖說明

圖1是本發(fā)明一種基于聲管的語音合成方法的流程圖；

圖2是本發(fā)明中聲道模型中每個(gè)聲管的二端口電路圖；

圖3是本發(fā)明中一個(gè)實(shí)例元音/e/的頻譜圖；

圖4是本發(fā)明中一個(gè)實(shí)例輔音/s/的頻譜圖。

具體實(shí)施方式

下面結(jié)合實(shí)施例和附圖對(duì)本發(fā)明的一種基于聲管的語音合成方法做出詳細(xì)說明。

本發(fā)明的一種基于聲管的語音合成方法，將基于核磁共振(mri)數(shù)據(jù)，采用時(shí)域模擬方法，用傳輸線電路tlm來模擬聲道，并加入了噪聲源模型。模型中，控制聲波生成和傳播的聲波方程通過應(yīng)用一定的規(guī)則轉(zhuǎn)化為離散變量，并在基于一個(gè)更現(xiàn)實(shí)的對(duì)流體動(dòng)壓變化的分布式考慮的基礎(chǔ)上進(jìn)行改進(jìn)，同時(shí)考慮聲道的分支將三個(gè)不同的稀疏矩陣運(yùn)用數(shù)學(xué)方法合并成單一矩陣，以此來完善現(xiàn)有的元音的聲管模型。

輔音與元音的不同之處主要有兩點(diǎn),一是計(jì)算輔音的時(shí)候需要在進(jìn)行相關(guān)初始化之前設(shè)定牙齒的位置；另外一個(gè)就是在計(jì)算數(shù)據(jù)體的時(shí)候不需要計(jì)算聲門的面積，因?yàn)橛?jì)算輔音的時(shí)候聲門的面積是一個(gè)常數(shù)。這兩點(diǎn)是在輔音研究的實(shí)施例中需要自己手動(dòng)進(jìn)行的修改，并且這些都是由于聲道在發(fā)元音及輔音的時(shí)候的不同生理機(jī)理而導(dǎo)致在研究中所需要做出的改變。

在得到wav文件之后，對(duì)wav文件通過不同的技術(shù)處理，得到對(duì)應(yīng)聲音文件的面積函數(shù)圖，波形圖及頻譜圖，主要通過比較這些聲音的頻譜圖與實(shí)際發(fā)音得到的頻譜圖來判斷結(jié)果的準(zhǔn)確度。

如圖1所示，本發(fā)明的一種基于聲管的語音合成方法，包括如下步驟：

1)輸入數(shù)據(jù)包括發(fā)音時(shí)所有對(duì)應(yīng)位置聲管的面積函數(shù)值及聲管的長(zhǎng)度值，進(jìn)行相關(guān)初始化，并設(shè)定聲管個(gè)數(shù)為500；所述的初始化包括：設(shè)定聲道上牙齒的位置和聲門面積，根據(jù)輸入的數(shù)據(jù)加載聲道的初始化形狀，以及設(shè)置wave文件頭格式。

2)計(jì)算第n個(gè)聲管的聲學(xué)元素，所述的聲學(xué)元素是傳統(tǒng)輸電線電路模型所需要的各個(gè)變量，n初始化為1，每循環(huán)一次，n加1；所述的傳統(tǒng)輸電線電路模型所需要的各個(gè)變量包括：收縮部位的體積速度源、壓力源及動(dòng)態(tài)壓降，非剛性壁聲道內(nèi)的壓強(qiáng)p和體積速度v，聲管內(nèi)聲壓的振幅和力學(xué)阻力，聲門末端及口腔出口的邊界壓強(qiáng)和體積速度，以及計(jì)算阻力時(shí)的粘滯系數(shù)。

3)確定聲管的收縮位置，計(jì)算噪聲源的第一步需要確定收縮位置，本發(fā)明在確定收縮位置時(shí)，是分別確定聲管的收縮入口及收縮出口，然后對(duì)所述的收縮入口及收縮出口求取平均值；

4)在確定聲管的收縮位置的基礎(chǔ)上確定磁單極子和偶極子源的位置，磁單極子放在收縮的最前部分，偶極子源放在一個(gè)具有代表性的障礙位置處，所述的具有代表性的障礙位置是由流動(dòng)分離點(diǎn)與牙齒的距離來決定；其中，所述的磁單極子是收縮出口的體積速度源，所述的偶極子源是氣流源擊中一個(gè)障礙物或者擊中聲管表面部分時(shí)的壓力源。所述的流動(dòng)分離點(diǎn)是聲管內(nèi)氣流流動(dòng)分離的地方。

磁單極子總是放在收縮的最前部分，即假定流動(dòng)分離的地方。偶極子源總是放在一個(gè)具有代表性的障礙位置。當(dāng)流動(dòng)分離點(diǎn)(fsp)距離牙齒小于4cm時(shí)，偶極子源就放在牙齒處，因?yàn)?，這是用來發(fā)齒槽音和后齒齦音的。相反，當(dāng)將聲道墻作為障礙物，對(duì)于軟腭音的摩擦音，它被放置在fsp下游0.5cm的地方。當(dāng)fsp的牙齒處或牙齒下游時(shí)，偶極子源放置在嘴唇的地方。

5)判斷是否要激活噪聲源，當(dāng)收縮中雷諾數(shù)的平方re²大于一定的閾值時(shí)，激活噪聲源，反之則不激活噪聲源，其中re＝vcdc/v是收縮中的雷諾數(shù)，是臨界雷諾數(shù)；所述的，re＝vcdc/v式中，vc是收縮中最窄聲管部分的速度，dc是聲管的直徑，v是運(yùn)動(dòng)粘度。

6)增加伯努利阻力，是將額外的阻力分離為ri和公式如下：

從而使得整個(gè)聲管模型可以用統(tǒng)一的二端口網(wǎng)絡(luò)圖來表示，如圖2所示，而，整個(gè)聲道模型是由多個(gè)圖2所示的二端口網(wǎng)絡(luò)串聯(lián)組成。同時(shí)這個(gè)方法還可以預(yù)防由于收縮位置改變?cè)斐傻穆晜蜗瘢?/p>

7)重復(fù)步驟2)～步驟6)，直至更新完成所有的聲管，并將數(shù)據(jù)處理結(jié)果寫入wave文件的數(shù)據(jù)體，更新數(shù)據(jù)體長(zhǎng)度；

8)重復(fù)步驟2)～步驟7)，更新wave文件長(zhǎng)度和wave文件的數(shù)據(jù)頭，得到最終的wave文件。

本發(fā)明實(shí)例中采用了5個(gè)元音及6個(gè)摩擦音，摩擦音數(shù)據(jù)的面積函數(shù)初始化為40個(gè)離散值，牙齒的位置隨著不同的發(fā)音而發(fā)生變化；元音數(shù)據(jù)的面積函數(shù)初始化為70左右的不同數(shù)量的管。

在得到wav文件之后，使用praat軟件生成對(duì)應(yīng)的波形圖與頻譜圖，然后與實(shí)際發(fā)音的頻譜圖來比較，從而判斷模型的準(zhǔn)確度。

實(shí)驗(yàn)結(jié)果表明，本實(shí)例使用的5個(gè)元音的發(fā)音結(jié)果準(zhǔn)確度都比較高，頻譜與實(shí)際的發(fā)音頻譜很相似，即使是最直接的人耳聽起來也不會(huì)有太大的差別。這是一個(gè)令人滿意的結(jié)果。本實(shí)例在改進(jìn)傳統(tǒng)輸電線之后可以生成輔音，只是在本實(shí)例使用的六個(gè)輔音中，只有四個(gè)輔音發(fā)音結(jié)果準(zhǔn)確度比較高，還有兩個(gè)準(zhǔn)確度相對(duì)來講要差一些，準(zhǔn)確度較高的頻譜圖與實(shí)際發(fā)音的頻譜圖整體都比較一致，而另外兩個(gè)相比實(shí)際發(fā)音會(huì)出現(xiàn)些許偏差。結(jié)果示意圖見圖3、圖4。圖3顯示的是元音中結(jié)果準(zhǔn)確度較高的音/e/的頻譜圖，圖4顯示的是摩擦音中結(jié)果準(zhǔn)確度比較高的音/s/的頻譜圖。

本實(shí)例在傳統(tǒng)輸電線模型的基礎(chǔ)上增加噪聲源和采用考慮到流體動(dòng)壓的方法從而形成新的聲道模型，比現(xiàn)有的模型生成元音的準(zhǔn)確度更高并且可以生成輔音。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2