專利名稱:利用二進(jìn)制信號(hào)估計(jì)語音信號(hào)的音調(diào)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種估計(jì)語音信號(hào)的音調(diào)的方法,所述的方法是這樣的類型,在其中將語音信號(hào)劃分成段,對(duì)每段計(jì)算信號(hào)的符合函數(shù),并檢測該符合函數(shù)中的峰值。本發(fā)明也涉及本方法在移動(dòng)電話中的使用。本發(fā)明還涉及一種用于估計(jì)語音信號(hào)的音調(diào)的設(shè)備。
在許多語音處理系統(tǒng)中,了解語音的音調(diào)周期是所希望的,作為一個(gè)例子,許多語音增加算法是取決于對(duì)音調(diào)周期的正確估計(jì)。語音處理算法被廣泛使用的一種應(yīng)用領(lǐng)域是移動(dòng)電話。
一種眾所周知的估計(jì)音調(diào)周期的方法是對(duì)語音信號(hào)使用自相關(guān)函數(shù),或一種類似的符合函數(shù)。這樣一種方法的例子被描述在文獻(xiàn)中D.A.Krubsack,R.J.Nieder john,“An Autocorrelation PitchDetector and Voicing Decision with Confidence MeasuresDeveloped for Noise-Corrupted Speech”,IEEE Transactions onSignal Processing,VOL.39,no.2,pp.319-329,F(xiàn)ebr.1991。將語音信號(hào)劃分為51.2ms的段,對(duì)每個(gè)相繼的語音段計(jì)算標(biāo)準(zhǔn)的短期自相關(guān)函數(shù)。對(duì)每段的自相關(guān)函數(shù)應(yīng)用一種峰值拾取算法。這種算法是通過在50到333Hz的音調(diào)范圍內(nèi)選取最大峰值(最大值)開始的。與這個(gè)峰值對(duì)應(yīng)的周期被選作音調(diào)周期的估值。
然而,這樣一種基本的音調(diào)估值算法是不充分的。在某些情況下可能出現(xiàn)雙重音調(diào),也就是,最高峰值出現(xiàn)在音調(diào)周期的兩倍處,最高峰值也可以出現(xiàn)在實(shí)際音調(diào)周期的另一個(gè)倍數(shù)上。在這些情況下,簡單選擇最大峰值將提供錯(cuò)誤的音調(diào)周期估值。
以上提到的文獻(xiàn)也公開了一種在這些情況下改進(jìn)該算法的方法。該算法在音調(diào)周期第一估值的1/2,1/3,1/4,1/5,和1/6處檢查峰值。如果第一估值的一半是在該音調(diào)范圍內(nèi),在這個(gè)一半值附近間隔內(nèi)的自相關(guān)最大值被定位,如果這個(gè)新的峰值大于老的峰值的一半,則該新的相應(yīng)的值代替老的估值,這樣一來提供了一個(gè)新的估值,對(duì)于音調(diào)周期加倍的差借的可能性大體上得到校正,為了檢查雙重加倍差錯(cuò)(四倍差錯(cuò))再次實(shí)施這種測試。如果這個(gè)最近的測試失敗,對(duì)于這個(gè)新的估值的三倍差錯(cuò)實(shí)施類似的測試。這次測試檢查音調(diào)周期的六倍差錯(cuò)。如果原來的測試失敗,對(duì)于三倍差錯(cuò)和五倍差錯(cuò)測試原來的估值(用類似的方法)。將最后的值用于計(jì)算音調(diào)估值。
然而,這種已知的算法是相當(dāng)復(fù)雜并需要大量的計(jì)算,這些缺點(diǎn)使其在實(shí)時(shí)環(huán)境下不大能夠使用,如在將它們用在移動(dòng)電話和類似設(shè)備時(shí)使用的小型數(shù)字信號(hào)處理器上。
因此,本發(fā)明的一個(gè)目的是提供一種上述類型的方法,它沒有現(xiàn)有技術(shù)的方法復(fù)雜,使得本方法可適用于小型數(shù)字信號(hào)處理器。
依據(jù)本發(fā)明,之所以達(dá)到這個(gè)目的在于,本方法還包括以下步驟提供從語音信號(hào)得到的中間信號(hào),將該中間信號(hào)轉(zhuǎn)換成二進(jìn)制信號(hào),在該中間信號(hào)超過預(yù)選的閾值時(shí)設(shè)置為邏輯“1”,而該中間信號(hào)未超過預(yù)選的閾值時(shí)設(shè)置為邏輯“0”,計(jì)算該二進(jìn)制信號(hào)的自相關(guān),和利用該二進(jìn)制信號(hào)的自相關(guān)中的峰值間的距離作為該音調(diào)的估值。
該二進(jìn)制信號(hào)自相關(guān)的計(jì)算只采取了現(xiàn)有技術(shù)算法所需的計(jì)算資源的一部分,因?yàn)橹辉诙M(jìn)制信號(hào)的某些位置中有值,得到的自相關(guān)值將出現(xiàn)在零附近和語音信號(hào)的音調(diào)周期附近,將只有幾個(gè)值與零分開。因此,很容易地將該音調(diào)周期估計(jì)為在位置零上的值和與零分開的值之間的距離。因而,在數(shù)字向量中必須找到特定值的現(xiàn)有技術(shù)算法中所需的大量運(yùn)算被避免。
在一種實(shí)施方案中,將語音信號(hào)通過一個(gè)基于用線性預(yù)測分析(LPA)估計(jì)的一組濾波器參數(shù)的濾波器對(duì)該語音信號(hào)進(jìn)行濾波可以提供中間信號(hào)。用這種方法除去原來的語音信號(hào)的許多污點(diǎn)。
另一種方案是,將語音信號(hào)通過一個(gè)基于用線性預(yù)測分析(LPA)估計(jì)的一組濾波器參數(shù)的濾波器進(jìn)行濾波。計(jì)算從語音信號(hào)得到的信號(hào)的自相關(guān),可以提供中間信號(hào)。這種解決方案也除去原來的語音信號(hào)的大部分污點(diǎn),并進(jìn)一步增進(jìn)中間信號(hào)中更清晰的峰值的可能性。
如果峰值之間的距離所對(duì)應(yīng)的峰值用許多樣本表示,當(dāng)具有所述的符合函數(shù)中最大幅度的樣本被選作音調(diào)估值時(shí),獲得最佳的估值。
在本發(fā)明的一種簡便的實(shí)施方案中,將本方法用在移動(dòng)電話中,這是一種只具有有限計(jì)算資源的設(shè)備的典型例子。
正如所述,本發(fā)明還涉及一種用于估計(jì)語音信號(hào)音調(diào)的設(shè)備,該設(shè)備包括用于對(duì)語音信號(hào)采樣以獲得一系列樣本的裝置;用于將這樣本序列劃分成段的裝置,每段具有固定數(shù)目的連續(xù)的樣本;用于對(duì)每段計(jì)算該信號(hào)的符合函數(shù)的裝置;和用于檢測在該符合函數(shù)中峰值的裝置。
該設(shè)備還包括用于提供從語音信號(hào)得到的中間信號(hào)的裝置;用于將所述的中間信號(hào)變換成二進(jìn)制信號(hào)的裝置,在中間信號(hào)超過預(yù)選的閾值的場合,將所述的二進(jìn)制信號(hào)設(shè)置為邏輯“1”,在中間信號(hào)未超過預(yù)選的閾值的場合,設(shè)置為邏輯“0”;用于計(jì)算二進(jìn)制信號(hào)自相關(guān)的裝置;和用于使用二進(jìn)制信號(hào)自相關(guān)中的峰值之間的距離作為音調(diào)估值的裝置,獲得一種比現(xiàn)有技術(shù)設(shè)備更簡單的設(shè)備,也避免了音調(diào)雙重的狀況。
在一種實(shí)施方案中,通過一個(gè)基于由線性預(yù)測分析(LPA)估計(jì)的一組濾波器參數(shù)的濾波器對(duì)該語音信號(hào)進(jìn)行濾波可將該設(shè)備用于提供中間信號(hào),用這種方法除去許多原來的語音信號(hào)的污點(diǎn)。
另一種方案是,通過一個(gè)基于由線性預(yù)測分析(LPA)估計(jì)的一組濾波器參數(shù)的濾波器對(duì)該語音信號(hào)進(jìn)行濾波,計(jì)算從該語音信號(hào)得到的信號(hào)自相關(guān),來將該設(shè)備用于提供中間信號(hào)。這種解決方案也除去原來的語音信號(hào)中大部分污點(diǎn),并進(jìn)一步增進(jìn)中間信號(hào)中清晰峰值的可能性。
如果與峰值之間的距離對(duì)應(yīng)的峰值用許多樣本表示,當(dāng)將該設(shè)備用于將具有所述符合函數(shù)的最大幅度的樣本選作音調(diào)估值時(shí),獲得了最佳的估值。
在本發(fā)明的一種簡便的實(shí)施方案中,該設(shè)備是一個(gè)移動(dòng)電話,這是一種只有有限計(jì)算資源的設(shè)備的典型例子。
在另一種實(shí)施方案中,該設(shè)備是一種可用在不同類型裝置中的集成電路。
現(xiàn)在將參考附圖更充分地描述本發(fā)明,其中
圖1示出一種依據(jù)本發(fā)明的音調(diào)檢測器的方框圖;圖2示出一種殘差信號(hào)的產(chǎn)生,圖3a示出一種發(fā)聲的語音信號(hào)的20ms段,圖3b示出與圖3a的段對(duì)應(yīng)的殘差信號(hào)的自相關(guān)函數(shù),和圖4示出可能產(chǎn)生音調(diào)加倍的一種自相關(guān)函數(shù)的例子。
圖1示出依據(jù)本發(fā)明的一種音調(diào)檢測器1的一個(gè)例子的方框圖,在采樣電路3中語音信號(hào)2被以采樣率8KHz采樣,樣本被劃分成160個(gè)連貫的樣本的段或幀。這樣,每段對(duì)應(yīng)于20ms的語音信號(hào),這是通常在標(biāo)準(zhǔn)移動(dòng)電話中語音處理所使用的采樣和分段。
然后,每段160個(gè)樣本在以下將被更詳細(xì)描述的濾波器4中進(jìn)行處理。
然而,首先,將簡明地提一下語音信號(hào)的性質(zhì),在一種經(jīng)典的方法中,語音信號(hào)被模型化為一個(gè)緩慢的時(shí)變線性濾波器的輸出,濾波器或者被準(zhǔn)周期的脈沖序列激勵(lì),或者被隨機(jī)噪聲激勵(lì),這取決于要產(chǎn)生的是話音聲音還是非話音聲音。產(chǎn)生話音聲音的脈沖序列是通過擠壓肺部出來的空氣經(jīng)振動(dòng)的聲帶產(chǎn)生的。在脈沖之間的時(shí)間周期被稱為音調(diào)周期,對(duì)于語音的單一性是極為重要的。另一方面,通過在聲道中形成阻塞物產(chǎn)生非話音聲音和迫使空氣高速通過阻塞物產(chǎn)生擾動(dòng)。這份描述涉及話音聲音音調(diào)周期的檢測,因此非話音聲音將不再進(jìn)一步考慮。
因?yàn)檎Z音是一種變化的信號(hào),濾波器也必須是時(shí)變的。然而,話音信號(hào)的性質(zhì)隨時(shí)間變化比較慢,相信在周期10-20ms內(nèi)語音的一般性質(zhì)仍然是固定的是合乎情理的,這已經(jīng)導(dǎo)致這樣的基本原則,即如果考慮短段的語音信號(hào),每段可被有效地模型化為在該時(shí)間周期期間由線性時(shí)變系統(tǒng)激勵(lì)產(chǎn)生的,濾波器的影響可被看成由聲道,舌,口和唇引起的。
正如所述,發(fā)聲的語音可被解釋為來自由激勵(lì)信號(hào)驅(qū)動(dòng)的線性濾波器的輸出信號(hào),這被示于圖2的上部,在其中脈沖序列21被濾波器22處理,產(chǎn)生發(fā)聲的語音信號(hào)23。如果可以從語音抽取激勵(lì)信號(hào)就獲得用于檢測音調(diào)周期的良好信號(hào)。通過估計(jì)方框24中的濾波器參數(shù)A,然后使語音通過基于所估計(jì)的濾波器參數(shù)的倒置濾波器25進(jìn)行濾波,可以獲得與激勵(lì)信號(hào)類似的信號(hào)26,這個(gè)過程被示于圖2的下部,方框24和25被包括在圖1的濾波器4中。
濾波器參數(shù)的估計(jì)是基于通過被稱為線性預(yù)測分析(LPA)的方法實(shí)施的全極點(diǎn)模擬。這個(gè)名稱是來自這樣的事實(shí),即該方法與線性預(yù)測等效。這種方法在技術(shù)上是眾所周知的。在此將不作更詳細(xì)的描述。
音調(diào)的估計(jì)是基于如以上所描述的那樣獲得的殘差信號(hào)自相關(guān)。因此,來自濾波器4的輸出信號(hào)被取自自相關(guān)計(jì)算單元5,圖3a示出一個(gè)發(fā)聲的語音信號(hào)20ms段的例子,圖3b示出相應(yīng)的殘差信號(hào)自相關(guān)函數(shù)。將從圖3a看到,實(shí)際的音調(diào)周期是大約5.25ms,對(duì)應(yīng)于42個(gè)樣本,所以音調(diào)估值應(yīng)該以此值結(jié)束。
音調(diào)估值中的下一個(gè)步驟是對(duì)由單元5提供的自相關(guān)函數(shù)應(yīng)用一種峰值拾取算法。這是在識(shí)別自相關(guān)函數(shù)中最大峰值(也就是最大值)的峰值檢測器6中完成的。然后,索引值,也就是最大峰值的樣本數(shù)或滯后數(shù)被用作音調(diào)周期的初步估值,在圖3b所示的情況中將看到,最大峰值實(shí)際上位于滯后42個(gè)樣本處,對(duì)最大峰值的搜索只在音調(diào)周期可能在的范圍中進(jìn)行。在這種情況下該范圍被設(shè)置為60-333Hz。
然而,這種基本的音調(diào)估值算法并不始終是充分的,在某些情況下可能發(fā)生音調(diào)加倍,也就是由于畸變,與真正的音調(diào)周期對(duì)應(yīng)的自相關(guān)函數(shù)中的峰值并不是最高的峰值,而代替的是在音調(diào)周期兩倍處出現(xiàn)的最高峰值,最高峰值也可以出現(xiàn)在實(shí)際音調(diào)周期的其他倍數(shù)上(音調(diào)三倍,等),雖然這種情況出現(xiàn)比較稀少。將出現(xiàn)音調(diào)加倍的一個(gè)典型例子示于圖4中,其中再次示出殘差信號(hào)的自相關(guān)函數(shù),在此,正確的音調(diào)周期也將在42個(gè)樣本附近,但峰值卻在音調(diào)周期的兩倍處,也就是大約84個(gè)樣本,它實(shí)際上比在42樣本處的峰值高。因此,基本的音調(diào)估值算法將音調(diào)周期估計(jì)為84個(gè)樣本,這樣就發(fā)生了音調(diào)加倍。
為了避免音調(diào)加倍的問題,音調(diào)檢測算法被進(jìn)行如以下所描述的改進(jìn)。
在初步的音調(diào)估值已被確定后,在風(fēng)險(xiǎn)檢查單元7中檢查是否有任何音調(diào)加倍的風(fēng)險(xiǎn)。峰值的值高于最大峰值的75%的所有峰值被檢測,進(jìn)一步的處理取決于這種檢測的結(jié)果。如果只有一個(gè)峰值被檢測到,也就是原來的最大峰值,不需要實(shí)施一種避免音調(diào)加倍的處理。在這種情況下,初步的音調(diào)估值被用作最后的音調(diào)估值。然而,如果多于一個(gè)被檢測到,有音調(diào)加倍的風(fēng)險(xiǎn),必須實(shí)施一種進(jìn)一步的算法以保證正確的峰值被選作音調(diào)估值,這在單元8中實(shí)施。
為了識(shí)別與實(shí)際的音調(diào)周期對(duì)應(yīng)的峰值,根據(jù)在殘差信號(hào)的自相關(guān)中峰值的位置提供一種修改的信號(hào)。這種修改的信號(hào),被稱為二進(jìn)制信號(hào),只由1和0組成,在自相關(guān)序列中找到高的峰值,則二進(jìn)制信號(hào)被設(shè)置為1,所有其他的值被設(shè)置為0,然后計(jì)算二進(jìn)制信號(hào)的自相關(guān),因?yàn)橹辉诙M(jìn)制信號(hào)的某些位置上有值,所得的自相關(guān)將只有少量的與零分開的若干值,這些值將出現(xiàn)在信號(hào)的音調(diào)周期的附件。通過觀測在零附近值的索引號(hào)和離開零的值的索引號(hào)之間的距離估計(jì)音調(diào)周期。如果離開零的值的組只包含單一的值,它就被選作音調(diào)周期的估值。如果在組中有多于一個(gè)值,選取殘差信號(hào)自相關(guān)中最高幅度的一個(gè)。
有時(shí)可能出現(xiàn)這樣的情況,在滯后于零處理的峰值是唯一存在的峰值。當(dāng)一個(gè)峰值已被分離在兩個(gè)樣本上,在殘差信號(hào)自相關(guān)中沒有其他的高峰值時(shí),將出現(xiàn)這種情況,在這種情況下,初步的音調(diào)估值被選作最后的音調(diào)估值。
這種算法是非常簡單的,因此非常適合于在,例如計(jì)算資源被嚴(yán)格限制,因而對(duì)系統(tǒng)提出低復(fù)雜性算法要求的移動(dòng)電話中應(yīng)用。該算法也可在集成電路中實(shí)現(xiàn),然后可被用在其他類型的設(shè)備中。
雖然已描述和展示了本發(fā)明的一種優(yōu)選實(shí)施方案,但本發(fā)明并不限于此,而是可以用在以下的權(quán)利要求所規(guī)定的主題范圍內(nèi)的其他方法來實(shí)施。
因此,可以代替殘差信號(hào)直接計(jì)算語音信號(hào)的自相關(guān)函數(shù),或者可以代替自相關(guān)函數(shù)使用其他的符合函數(shù)。作為一個(gè)例子,可以在語音信號(hào)和殘差信號(hào)之間計(jì)算互相關(guān)。
可以使用不同的采樣率和段的大小。
權(quán)利要求
1.一種估計(jì)語音信號(hào)(2)的音調(diào)的方法,所述的方法包括以下步驟·對(duì)語音信號(hào)采樣獲得一系列的樣本,·將樣本序列劃分成段,每段具有固定數(shù)目的連續(xù)樣本,·對(duì)每段計(jì)算信號(hào)的符合函數(shù),和·檢測符合函數(shù)中的峰值,其特征在于該方法還包括以下步驟·提供從語音信號(hào)得到的中間信號(hào),·將所述的中間信號(hào)變換成二進(jìn)制信號(hào),在中間信號(hào)超過預(yù)選閾值的場合,所述的二進(jìn)制信號(hào)被設(shè)置為邏輯“1”,在中間信號(hào)未超過預(yù)選閾值的場合,被設(shè)置為邏輯“0”,·計(jì)算二進(jìn)制信號(hào)的自相關(guān),和·使用二進(jìn)制信號(hào)的自相關(guān)中峰值之間的距離作為音調(diào)估值。
2.一種依據(jù)權(quán)利要求1的方法,其特征在于將語音信號(hào)通過一個(gè)基于用線性預(yù)測分析(LPA)估計(jì)的一組濾波器參數(shù)的濾波器(4)進(jìn)行濾波來提供中間信號(hào)。
3.一種依據(jù)權(quán)利要求1的方法,其特征在于將語音信號(hào)通過一個(gè)基于用線性預(yù)測分析(LPA)估計(jì)的一組濾波器參數(shù)的濾波器(4)進(jìn)行濾波,計(jì)算從語音信號(hào)得到的信號(hào)的自相關(guān)來提供中間信號(hào)。
4.一種依據(jù)權(quán)利要求1到3中任何一項(xiàng)的方法,其特征在于還包括以下步驟·如果與峰值間的距離對(duì)應(yīng)的峰值用許多樣本表示,選擇具有所述的符號(hào)函數(shù)中最大幅度的樣本作為音調(diào)估值。
5.將依據(jù)權(quán)利要求1到4中任一項(xiàng)的方法使用在移動(dòng)電話中。
6.一種用于估計(jì)語音信號(hào)的音調(diào)的設(shè)備,包括·用于對(duì)語音信號(hào)采樣獲得一系列樣本的裝置(3),·用于將樣本序列劃分成段的裝置,每段具有固定數(shù)目連貫的樣本,·用于對(duì)每段計(jì)算信號(hào)符合函數(shù)的裝置(5),和·用于檢測符合函數(shù)中峰值的裝置(6),其特征在于該設(shè)備還包括·用于提供從語音信號(hào)得到的中間信號(hào)的裝置,·用于將所述的中間信號(hào)變換成二進(jìn)制信號(hào)的裝置(8),在中間信號(hào)超過預(yù)選閾值的場合,所述的二進(jìn)制信號(hào)被設(shè)置為邏輯“1”,在中間信號(hào)未超過預(yù)選閾值的場合,被設(shè)置為邏輯“0”,·用于計(jì)算二進(jìn)制信號(hào)自相關(guān)的裝置(5),和·用于使用二進(jìn)制信號(hào)自相關(guān)中峰值間距離作為音調(diào)估值的裝置。
7.一種依據(jù)權(quán)利要求6的設(shè)備,其特征在于,通過一個(gè)基于用線性預(yù)測分析(LPA)估計(jì)的一組濾波器參數(shù)的濾波器(4)對(duì)該語音信號(hào)進(jìn)行濾波,來將該設(shè)備用于提供中間信號(hào)。
8.一種依據(jù)權(quán)利要求6的設(shè)備,其特征在于,通過一個(gè)基于用線性預(yù)測分析(LPA)估計(jì)的一組濾波器參數(shù)的濾波器(4)對(duì)該語音信號(hào)進(jìn)行濾波,計(jì)算從該語音信號(hào)得到的信號(hào)的自相關(guān),來將該設(shè)備用于提供中間信號(hào)。
9.一種依據(jù)權(quán)利要求6到9中任一項(xiàng)的設(shè)備,其特征在于,它被進(jìn)一步適配成,如果與峰值間的距離對(duì)應(yīng)的峰值由許多樣本表示,它還用于將具有所述的符合函數(shù)的最大幅度的樣本選作音調(diào)的估值。
10.一種依據(jù)權(quán)利要求6到9中任一項(xiàng)的設(shè)備,其特征在于該設(shè)備是一個(gè)移動(dòng)電話。
11.一種依據(jù)權(quán)利要求6到9中任一項(xiàng)的設(shè)備,其特征在于該設(shè)備是一種集成電路。
全文摘要
一種估計(jì)語音信號(hào)(2)音調(diào)的方法包括以下步驟,對(duì)語音信號(hào)采樣獲得一系列樣本,將樣本序列劃分成段,每段具有固定數(shù)目的連貫樣本,對(duì)每段計(jì)算符合函數(shù),和檢測符合函數(shù)中峰值,該方法還包括以下步驟,提供從語音信號(hào)得到的中間信號(hào),將中間信號(hào)變換成二進(jìn)制信號(hào),在中間信號(hào)超過預(yù)選閾值的場合被設(shè)置為邏輯“1”,在中間信號(hào)未超過預(yù)選閾值的場合被設(shè)置為邏輯“0”,計(jì)算二進(jìn)制信號(hào)的自相關(guān),和使用二進(jìn)制信號(hào)自相關(guān)中峰值間的距離作為音調(diào)的估值。這樣,在先前技術(shù)的算法中所需的大量運(yùn)算被避免。一種類似的設(shè)備也被提供。
文檔編號(hào)G10L25/90GK1422382SQ01807689
公開日2003年6月4日 申請(qǐng)日期2001年3月27日 優(yōu)先權(quán)日2000年4月6日
發(fā)明者C·安德倫, H·約翰尼松 申請(qǐng)人:艾利森電話股份有限公司