專利名稱:語音速率轉(zhuǎn)換的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種轉(zhuǎn)換語音信號的語音速率的方法,該語音信號的音調(diào)周期低于最大預期音調(diào)周期。該方法包括以下步驟將語音信號分為若干段;估計某段中語音信號的語音周期;復制該段中的部分語音信號,所述部分的時長等于所述估計音調(diào)周期;根據(jù)所述部分提供具有相同時長的中間信號;以及通過將所述中間信號音調(diào)同步地插入該段的語音信號中來對該段進行擴展。本發(fā)明還涉及該方法在移動電話中的使用。此外,本發(fā)明還涉及適合轉(zhuǎn)換語音信號的語音速率的裝置。
在很多情況下都希望提高語音的可懂度。尤其是上了年紀的人們常常受到某種聽力障礙的困擾,因而降低了他們對速度較快的語音的理解力。另外,有語言學習障礙的兒童也能夠從改善的可懂度中獲益。此外,當移動電話用于嘈雜環(huán)境時,就很難完全聽懂說的內(nèi)容。不僅聽力障礙的人會遇到這種情況,其它人也不例外。因此,愈來愈多地需要在移動電話方面獲得提高的可懂度。
提高語音可懂度的一種方法是減緩語音的速度。該方法的主要目的是為聽眾提供一些額外的時間來識別所說的內(nèi)容。這可以通過使用時間標度技術(shù)來實現(xiàn),也就是改變信號的時間演變。通過根據(jù)所選算法將額外的時間數(shù)據(jù)加入到信號中來調(diào)整語音速率。
存在幾種語音增強算法,它們都基于放慢輸入語音的技術(shù)。這些算法的基本思想是執(zhí)行一種語音擴展,在提升可懂度的同時仍保持語音的自然屬性。因此,大部分擴展算法均取決于語音的音調(diào)周期性。然而,這類算法不適合在移動電話中實現(xiàn)。
從Y.Nejime、T.Aritsuka、T.Imamura、T.Ifukube以及J.Matsushima的文章“用于聽力障礙的便攜式數(shù)字語音速率轉(zhuǎn)換器”(IEEETransactions on Rehabilitatin Engineering,vol.4,no.2,pp.73-83,June1996)中可以了解到采用這樣一種算法的裝置。該裝置是一種手掌大小的便攜式裝置,它在不改變音調(diào)的情況下轉(zhuǎn)換語音。當語音速度降低時,在輸入和輸出語音之間產(chǎn)生延時。將語音信號記錄在固態(tài)存儲器中,同時放慢并生成前面記錄的信號。用戶通過按下裝置上的某個按鈕來激活該裝置。用戶按下按鈕放慢語音速度的時間越長,延遲也越長。盡管可以通過去掉大于1秒的靜寂時間來減少延遲,但并不足以消除延遲。用戶可以通過釋放該按鈕來返回到非延遲狀態(tài)。
存儲器中的語音數(shù)據(jù)被分為若干幀。時間標度過程逐幀擴展語音數(shù)據(jù)的時間標度。通過插入從三個連續(xù)音調(diào)周期的信號中創(chuàng)建的合成音調(diào)模式獲得時間擴展。使用合成模式以避免擴展信號的混響。由于所用時間標度過程需要四音調(diào)長度的數(shù)據(jù)元素,因此各幀的長度為48ms,對應(yīng)于本文中設(shè)置為12ms的假設(shè)最大音程的四倍。提及的其它文件假定16ms甚至接近20ms的最大音調(diào)周期,這將需要更長的幀長度,進而各幀所處理的數(shù)據(jù)量更大。
要處理的這種數(shù)據(jù)量尤其影響了上述算法在移動電話中的使用,因為移動電話中計算資源相當有限。這種算法的另一缺陷在于用戶按住裝置的按鈕時會積累延時。移動電話的使用幾乎都是兩個人之間的雙向通信,因此希望盡可能使擴展語音接近實時狀態(tài)。
本發(fā)明的一個目的是提供一種上述類型的方法,其中,一幀所必須處理的數(shù)據(jù)量大大減少,使這種方法能夠在例如移動電話的有限計算資源中得以實現(xiàn)。
根據(jù)本發(fā)明,通過采用比所述最大預期音調(diào)周期要長但比最大預期音調(diào)周期的兩倍要短的段長度來實現(xiàn)這個目的。
測試證明,與短音調(diào)周期相比,具有相對長的音調(diào)周期的語音信號出現(xiàn)混響的危險性較小,因為它們實際上的改變較慢。因此,這些信號不需要合成音調(diào)模式,并且足夠有一個幀或段長度正好允許處理一個全音調(diào)長度的模式。因此,段長度可以減少為僅略長于最大預期音調(diào)周期的一個值,也就是說,處于最大預期音調(diào)周期和最大預期音調(diào)周期的兩倍之間。顯然,較短的段或幀長減少了每幀要處理的數(shù)據(jù)量,并且由于至少可以避免對具有長音調(diào)周期的語音信號進行的合成信號計算,所以它還會進一步減少。對于具有較短音調(diào)周期的語音信號,仍然可以從例如兩個連續(xù)音調(diào)周期中形成合成音調(diào)模式。
在一個有利實施例中,該方法還包括以下步驟如果段的實際估計音調(diào)周期大于段長度的一半,則通過將復制部分直接用作中間信號來提供中間信號。這避免了額外計算合成信號。
如果段的實際估計音調(diào)周期小于該段長度的一半,該方法則還可包括以下步驟復制兩個連續(xù)部分,其中每個部分的時長等于估計音調(diào)周期;以及提供兩個連續(xù)部分的平均作為中間信號。通過這種方法,可以最大程度地減少具有較短音調(diào)周期的語音的混響,這種較短音調(diào)周期的語音實際上具有更高的混響危險性。
如果某段語音信息的內(nèi)容低于預設(shè)閾值,則該方法還包括將該語音信號段分類為靜寂段;如果某段和若干緊挨在前面的段已被分類為靜寂段,則該方法還包括縮短該段,以補償前面數(shù)段的擴展,有可能將輸入信號和所述(擴展)輸出信號之間的延遲保持在極低水平,從而提供基本實時的語音對話。這就使該算法更適合用于希望將擴展語音盡量保持接近實時狀態(tài)的移動電話中。
當采用20ms的段長度時,實現(xiàn)了特別適用于移動電話的有利實施例,因為許多移動電話中現(xiàn)有語音信號處理也使用這種段長度,從而通過使用與語音擴展算法相同的段,可以節(jié)省大量計算資源。
當通過將中間信號音調(diào)多次同步插入某段語音信號來擴展該段時,可以獲得更高的擴展率,而不會大量增加計算資源的使用。
如果在復制所述部分和插入所述中間信號時采用重疊窗口,則可以得到更好結(jié)果,而不會在插入中引進尖峰信號或類似的不連續(xù)性。
該方法的典型使用是在便攜式通信裝置中,在一個有利實施例中,該方法用于移動電話。
如上所述,本發(fā)明還涉及一種裝置,這種裝置適于轉(zhuǎn)換語音信號的語音速率,該語音信號的音調(diào)周期小于最大預期音調(diào)周期。該裝置包括用于將語音信號分為若干段的裝置;用于估計某段中語音信號的語音周期的裝置;用于復制該段中部分語音的裝置,所述部分的時長等于所述估計音調(diào)周期;用于根據(jù)所述部分提供具有相同時長的中間信號的裝置;以及通過將所述中間信號音調(diào)同步地插入到該段的語音信號中來對該段進行擴展的裝置。當該裝置適于采用比所述最大預期音調(diào)周期更長但比最大預期音調(diào)周期的兩倍要短的段長度時,則一幀所必須處理的數(shù)據(jù)量較少,使這種方法能夠在例如移動電話的有限計算資源中得以實現(xiàn)。
在一個有利實施例中,如果段的實際估計音調(diào)周期大于該段長度的一半,則該裝置還適合于通過將復制部分直接用作中間信號來提供中間信號。這避免了額外計算合成信號。
如果某段的實際估計音調(diào)周期小于該段長度的一半,則該裝置還適合于復制兩個連續(xù)部分,其中每個部分的時長等于估計音調(diào)周期;以及提供兩個連續(xù)部分的平均作為中間信號。通過這種方法,可以最大程度地減少具有較短音調(diào)周期的語音的混響,這種較短音調(diào)周期的語音實際上具有更高的混響危險性。
如果某段語音信息的內(nèi)容低于預設(shè)閾值,則該裝置還適合于將該語音信號段分類為靜寂段;如果某個段和若干緊挨在前面的段已被分類為靜寂段,則該方法還包括縮短該段,以補償前面數(shù)段的擴展,有可能將輸入信號和所述(擴展)輸出信號之間的延遲保持在極低水平,從而提供基本實時的語音對話。這就使該算法更適合用于希望將擴展語音盡量保持接近實時狀態(tài)的移動電話中。
當裝置適合采用20ms的段長度時,實現(xiàn)了特別適合于移動電話的有利實施例,因為許多移動電話中現(xiàn)有語音信號處理也使用這種段長度,從而通過使用與語音擴展算法相同的段,可節(jié)省大量計算資源。
當裝置適合于通過將中間信號音調(diào)多次同步地插入到某段語音信號中來擴展該段時,可以獲得更高的擴展率,而不會大量增加計算資源的使用。
如果裝置適合于在復制所述部分以及插入所述中間信號時采用重疊窗口,則可以得到更好的結(jié)果,而不會在插入中引進尖峰信號或類似的不連續(xù)性。
在本發(fā)明的一個有利實施例中,該裝置是移動電話,不過,它也可以是其它類型的便攜式通信裝置。
在另一實施例中,該裝置是可以用于各種設(shè)備的集成電路。
下面將參照附圖更全面地描述本發(fā)明,其中
圖1給出了根據(jù)本發(fā)明的語音速率轉(zhuǎn)換系統(tǒng)的方框圖,圖2說明了一種模型,用于有聲語音生成以及從有聲語音提取激勵傳號,圖3說明有聲語音信號以及相應(yīng)的殘留信號的自相關(guān)的實例,圖4給出了用于具有較短音調(diào)周期的語音信號的第一擴展算法的簡圖,圖5說明了圖4所示算法的另一實施例,圖6給出了用于具有較長音調(diào)周期的語音信號的第二擴展算法的簡圖,以及圖7說明了圖6所示算法的另一實施例。
圖1給出了語音速率轉(zhuǎn)換系統(tǒng)1的實例的方框圖,其中可以實現(xiàn)本發(fā)明的方法及裝置。所示語音速率轉(zhuǎn)換系統(tǒng)可被用于移動電話或類似通信裝置中。
在采樣電路3中以8kHz的采樣速率對語音信號2進行采樣,并將這些采樣分為160個連續(xù)采樣的段或幀。這樣,各段對應(yīng)于20ms的語音信號。這是通常用于標準移動電話的語音處理中的采樣和分段,因此,采樣電路3是這種電話的正常組成部分。
然后,將160個采樣的各段或幀發(fā)送給噪聲閾單元4,在該單元中執(zhí)行將靜寂與語音分離的分類步驟。將對分類為語音的幀作進一步處理,而將其余的幀發(fā)送給靜寂縮短單元5,稍后將會對此進行說明。在要實時進行語音擴展時,語音與靜寂的分離是必需操作,因為擴展語音所引起的額外時間是通過減少信號的靜寂或噪聲部分的時間進行補償?shù)摹?br>
分類基于能量測量與前面各幀能量歷史記錄形式的存儲的配合。假定背景噪聲變化較慢,而語音包絡(luò)變化更快。首先計算閾值。計算各幀的短時能量,并且連續(xù)保存最后150幀的短時能量值。選取分類為靜寂的那些幀的能量值,并計算這些所選能量值的平均能量。還儲存所選能量值的最小能量值。通過將平均值和最小值之差與預選因數(shù)的乘積加入平均能量計算閾值。要確定給定幀是語音還是靜寂,只要簡單地將當前幀的能量與閾值進行比較。如果幀的能量超過該值,則該幀被分類為語音,否則將該幀分類為靜寂。
然后,將分類為語音的幀發(fā)送到有聲/無聲分類單元6,因為在進行擴展之前需要將語音分離為有聲和無聲部分。這種分離可以通過若干方法進行,下面將詳細說明其中一個方法。
但是,先簡單地說明語音信號的特性。在傳統(tǒng)方法中,將語音信號模型化為慢速時變線性濾波器的輸出。用準周期序列脈沖或者隨機噪聲激勵濾波器,具體取決于要創(chuàng)建的是濁音還是清音??繉⒖諝鈮撼龇尾客ㄟ^振動聲帶產(chǎn)生形成濁音的脈沖串。脈沖之間的時段稱作音調(diào)周期,該時段對語音的特異性極為重要。另一方面,通過在聲道中形成收縮并通過迫使空氣高速通過該壓縮產(chǎn)生紊流來生成清音。
由于語音是一種變化信號,所以濾波器也必需是時變的。然而,語音信號的屬性隨時間的變化相對較慢。有理由相信,語音的一般屬性在10-20ms的周期內(nèi)保持不變。這樣就得出一個基本原則如果考慮語音信號若干短的段,則各段可以有效地被模型化為已通過在該時段期間激勵線性非時變系統(tǒng)所產(chǎn)生的那樣。濾波器的作用可以被看作是由聲道、舌、嘴以及唇所產(chǎn)生的。
如上所述,有聲語音可以解釋為來自激勵信號所驅(qū)動的線性濾波器的輸出信號。圖2的上半部分說明了這一點,其中,濾波器22對脈沖串21進行處理以便產(chǎn)生有聲語音信號23。如果可以從語音中提取激勵信號,則獲得有聲/無聲分類的好信號。通過在框24中估計濾波器參數(shù)A,然后根據(jù)估計的濾波器參數(shù)通過反向濾波器25對語音進行濾波,就可以獲得類似于激勵信號的信號26。這個信號被稱作殘留信號。在圖2的下半部分說明了這個過程???4和25包含在圖1的有聲/無聲分類單元6中。
濾波器參數(shù)估計基于通過稱作線性預測分析(LPA)的方法所執(zhí)行的全極點模型。這個名稱源于以下事實該方法等同于線性預測。這種方法在本領(lǐng)域是眾所周知的,所以這里不再進行更詳細地說明。
然后,通過計算殘留信號的自相關(guān)函數(shù)并將該結(jié)果縮放到±1之間來產(chǎn)生分類信號。由于反向濾波已消除了濾波器引進的許多拖尾效應(yīng),所以更清晰波峰的概率高于直接計算語音幀的自相關(guān)的概率。然后,通過將分類信號中最高峰值與閾值進行比較來作出有聲/無聲決定,因為分類信號中的足夠高的波峰表示脈沖串實際出現(xiàn)在殘留信號中,從而也出現(xiàn)在幀的原始語音信號中。
或者,可以簡單地通過將幀的功率電平或能級與類似用于噪聲閾單元4中的閾值進行比較來確定有聲/無聲,僅與較高閾值比較,因為低于特定功率電平的信號主要包括輔音或半元音,它們通常是無聲的。不過,這種方法的結(jié)果沒有通過上述分類所獲得的結(jié)果準確。
如果確定幀是無聲的,則直接將該幀發(fā)送給組合或連接單元7。否則,即如果確定該幀為有聲的,則將該幀轉(zhuǎn)發(fā)給音調(diào)估計單元8,下面將進行說明。
估計音調(diào),作為擴展過程的準備,必需是音調(diào)同步的。估計的一般思想源于上述語音模型,其中,音調(diào)表示聲門激勵周期。由于音調(diào)表示語音的自然屬性和特異性,所以對音調(diào)進行良好估計是重要的。
音調(diào)的估計基于殘留信號的自相關(guān),所述殘留信號通過前面在有聲/無聲分類中所述的LPA獲得??梢赃@樣做是因為殘留信號的自相關(guān)中的最高峰表示音調(diào)周期,并且因此可用作音調(diào)估計。通過重復利用數(shù)據(jù),降低了該方法的復雜度。圖3a說明有聲語音信號的某個20ms段的實例,而圖3b說明相應(yīng)的殘留信號的自相關(guān)函數(shù)的實例。從圖3a可以看到,實際的音調(diào)周期約為5.25ms,對應(yīng)于42個采樣,因此音調(diào)估計必需以該值結(jié)束。
音調(diào)估計中的第一步是將波峰選擇算法應(yīng)用于單元6提供的自相關(guān)函數(shù)。這時通過識別自相關(guān)函數(shù)中的最高波峰(即最大值)的峰值檢測器進行的。最大峰值的指標值,即最大峰值的采樣數(shù)量或滯后,則用作音調(diào)周期的估計。在圖3b所示的情況中,可以看到,最大峰值實際上出現(xiàn)在42個采樣之后。最大峰值的搜索僅在音調(diào)周期可能出現(xiàn)的范圍內(nèi)進行。在這種情況下,該范圍被設(shè)置為60-333Hz。
估計結(jié)果與語音幀一起發(fā)送給擴展單元9。擴展算法是基于時域的方法,它在整個音調(diào)周期塊上進行。這種技術(shù)的使用意味著可以避免不必要的音調(diào)變化,從而可以保持語音的特異性。
下面將說明的擴展算法是音調(diào)同步重疊相加(PSOLA)方法的變型。簡單地說,該算法復制一個或兩個音調(diào)周期,并將其加入原始語音數(shù)據(jù),其中可能用相同的重疊。變型是由于以下事實使用了20ms的較短幀或段長度。
根據(jù)估計的音調(diào)周期,在語音擴展中采用兩種不同方法。第一種方法用于較短的音調(diào)周期。它可以是低于8.75ms的音調(diào)周期,對應(yīng)于采用8kHz采樣速率的70個采樣。它還對應(yīng)于高于114Hz的音調(diào)頻率。第二種方法則用于高于8.75ms的音調(diào)周期,即較長的音調(diào)周期。采用兩種不同方法的原因在于由于20ms的短幀或段長度,對于具有長音調(diào)周期的信號的擴展目的,僅可以提取信號的一個全音調(diào)長度,包括特定重疊,而對于具有較短音調(diào)周期的信號,則可以提取兩個連續(xù)的音調(diào)周期(以及重疊)。
第一種方法利用音調(diào)周期較短的情況。圖4說明了這種方法中執(zhí)行的不同步驟。從輸入幀中復制兩個連續(xù)音調(diào)周期TP以及對應(yīng)于重疊部分的附加段L。重疊部分可以設(shè)置為TP的10%。將某窗口應(yīng)用于兩個段I和II,從而形成將稱作段IWin和段II Win的段。所用窗口可以是升余弦窗或梯形窗。計算窗口內(nèi)段的平均值,表示為MWin。通過形成平均段,可以避免現(xiàn)有段不必要的重復。從而可以減少例如混響等不希望的假信號的風險。
現(xiàn)在,將L個采樣與原始幀的重疊插入段Mwin以執(zhí)行語音擴展。從表示輸出數(shù)據(jù)的圖4的下半部分可以看到,擴展幀具有160+TP個采樣的長度,而不是原始的160個采樣。必要時,還可以通過將同樣包含重疊的Mwin相加所需次數(shù),將幀擴展所選數(shù)量的段。圖5類似于圖4,只不過加了兩次MWin,使擴展幀的長度為160+2TP個采樣。
在第二種方法中,音調(diào)周期更長。不能使用第一種方法,因為幀長度不夠長,無法包括兩個音調(diào)周期。從圖6中可以看到第二種方法中各級的示范。只從輸入幀中復制長度為TP+L的一個段I,并采用所選窗口開窗。同樣在這種情況下,長度L對應(yīng)于TP的10%。然后,再將L個采樣與原始采樣的重疊插入窗口段IWin。在顯示輸出數(shù)據(jù)的圖6的下半部分可以看到IWin的插入,其中可以看到,由于在插入IWin之前以及之后使用了原始音調(diào)長度段,因而擴展幀現(xiàn)在具有160+2TP個采樣長度,而不是原始的160個采樣。
同樣在這種方法中,通過再次加上包括重疊的IWin,可以進一步對幀進行擴展。然而,如圖7所示,原始音調(diào)長度段還可以使用僅兩次,從而使擴展幀長度為160+TP個采樣。
應(yīng)當注意,可以使用不同的重疊百分比。較短的重疊長度表示可以用第一種方法對較長音調(diào)周期進行擴展。不過,如果重疊變得太小,重疊過程則會失去作用。以上所采用的10%的重疊看來是較佳的折衷方案。
現(xiàn)在,將擴展幀發(fā)送給連接單元7,在這里,它將與其它幀混合。
從上面可以看到,語音擴展在語音中產(chǎn)生了不希望的延遲,尤其是在移動電話環(huán)境下。要避免這種延遲,必需去掉輸入信號的某些部分。一種自然選擇是采用僅包含靜寂的語音間歇。在縮短單元5中執(zhí)行實現(xiàn)實時需求的縮短算法,在下面進行說明。
在可以開始縮短靜寂部分之前,必須滿足一個條件。當前幀和之前三幀必須是靜寂幀。如果滿足了這個條件,則去掉對應(yīng)于擴展部分的采樣數(shù)量。還可以去掉幀的若干部分,以便保持實時狀態(tài)。
上述條件的原因有兩個。
第一個原因是,如果環(huán)境相當嘈雜,無聲聲音可以被錯誤分類為靜寂,不能去掉這些錯誤分類的幀。已使用的假設(shè)是無聲語音常常跟在有聲語音后面。如果某個無聲語音幀被錯誤分類為靜寂,就有理由相信,不久將會出現(xiàn)濁音或者該語音部分已結(jié)束。無論在哪種情況下,上述條件的使用防止了無聲幀被去掉。
該條件的第二個原因是,語音中存在間歇,這是語音的自然流動所必需的。如果去掉這些間歇,語音則更難以理解,這是和所需結(jié)果相背的。
當分類為靜寂的幀被縮短以補償有聲幀的擴展時,它們被發(fā)送給組合單元7。
從上面可以看到,輸入幀能夠在系統(tǒng)中以三種途經(jīng)發(fā)送給連接或組合單元7,取決于該幀是分類為靜寂、無聲語音還是有聲語音。與這些幀采用的途經(jīng)無關(guān),輸入幀必須以其到達時的相同順序發(fā)出,而不管它們是否已經(jīng)改變。因此,組合單元7可以看作是先進先出(FIFO)緩沖器。
雖然已經(jīng)給出并說明了本發(fā)明的最佳實施例,然而,本發(fā)明并不限于此,而是還可以按照以下權(quán)利要求書所定義的主題范圍之內(nèi)的其它方式來實現(xiàn)。
因此,可以直接從語音信號而不是殘留信號計算自相關(guān)函數(shù),或者其它相似函數(shù)可以用來代替自相關(guān)函數(shù)。例如,可以計算語音信號和殘留信號之間的互相關(guān)。此外,可以采用不同的采樣速率。
權(quán)利要求
1.一種轉(zhuǎn)換語音信號(2)的語音速率的方法,所述語音信號(2)的音調(diào)周期低于最大預期音調(diào)周期,所述方法包括以下步驟·將所述語音信號分為若干段,·估計某段中所述語音信號的所述音調(diào)周期,·復制所述段中的部分所述語音信號,其中所述部分的時長等于所述估計音調(diào)周期,·根據(jù)所述部分提供相同時長的中間信號,以及·通過將所述中間信號音調(diào)同步地插入到所述段的所述語音信號中來擴展所述段,其特征在于使用比所述最大預期音調(diào)周期要長但比所述最大預期音調(diào)周期的兩倍要短的段長度。
2.如權(quán)利要求1所述的方法,其特征在于所述方法還包括以下步驟·如果所述段的所述實際估計音調(diào)周期大于所述段長度的一半,則通過將所述復制部分直接用作所述中間信號來提供所述中間信號。
3.如權(quán)利要求1或2所述的方法,其特征在于所述方法還包括以下步驟·如果所述段的所述實際估計音調(diào)周期小于所述段長度的一半,則復制兩個連續(xù)部分,其中所述各個部分的時長等于所述估計音調(diào)周期的時長,以及·提供所述兩個連續(xù)部分的平均作為所述中間信號。
4.如權(quán)利要求1至3中任何一項所述的方法,其特征在于所述方法還包括以下步驟·如果某段語音信息的內(nèi)容低于預設(shè)閾值,則將所述語音信號的所述段分類為靜寂段,·如果已經(jīng)將某段以及緊挨在前面的若干段分類為靜寂段,則縮短所述段以補償前面若干段的擴展。
5.如權(quán)利要求1至4中任何一項所述的方法,其特征在于采用20ms的段長度。
6.如權(quán)利要求1至5中任何一項所述的方法,其特征在于通過將所述中間信號音調(diào)多次同步地插入到所述段的所述語音信號中來擴展所述段。
7.如權(quán)利要求1至6中任何一項所述的方法,其特征在于在復制所述部分以及插入所述中間信號時采用了重疊窗口。
8.在移動電話中應(yīng)用權(quán)利要求1至7中任何一項所述的方法。
9.一種適合轉(zhuǎn)換語音信號(2)的語音速率的裝置,所述語音信號(2)的音調(diào)周期低于最大預期音調(diào)周期,所述裝置包括·用于將所述語音信號分為若干段的單元(3),·用于估計某段中所述語音信號的所述音調(diào)周期的單元(8),·用于復制所述段中的部分所述語音信號的單元,其中所述部分的時長等于所述估計音調(diào)周期,·用于根據(jù)所述部分提供相同時長的中間信號的單元,以及·通過將所述中間信號音調(diào)同步地插入到所述段的所述語音信號中來擴展所述段的單元(9),其特征在于所述裝置適合于使用比所述最大預期音調(diào)周期要長但比所述最大預期音調(diào)周期的兩倍要短的段長度。
10.如權(quán)利要求9所述的裝置,其特征在于所述裝置還適合于在所述段的所述實際估計音調(diào)周期大于所述段長度的一半時,通過將所述復制部分直接用作所述中間信號來提供所述中間信號。
11.如權(quán)利要求9或10所述的裝置,其特征在于所述裝置還適合于在所述段的所述實際估計音調(diào)周期小于所述段長度的一半時,復制兩個連續(xù)部分,其中,所述各個部分的時長等于所述估計音調(diào)周期,以及適合于提供所述兩個連續(xù)部分的平均作為所述中間信號。
12.如權(quán)利要求9至11中任何一項所述的裝置,其特征在于所述裝置還適合于·如果某個段語音信息的內(nèi)容低于預設(shè)閾值,則將所述語音信號的所述段分類為靜寂段,·如果已將某個段以及緊挨在前面的若干段分類為靜寂段,則縮短所述段以補償前面若干段的擴展。
13.如權(quán)利要求9至12中任何一項所述的裝置,其特征在于所述裝置適合采用20ms的段長度。
14.如權(quán)利要求9至13中任何一項所述的裝置,其特征在于所述裝置適合于通過將所述中間信號音調(diào)多次同步地插入到所述段的所述語音信號中來擴展所述段。
15.如權(quán)利要求9至14中任何一項所述的裝置,其特征在于所述裝置適合于在復制所述部分以及插入所述中間信號時采用重疊窗口。
16.如權(quán)利要求9至15中任何一項所述的裝置,其特征在于所述裝置是移動電話。
17.如權(quán)利要求9至15中任何一項所述的裝置,其特征在于所述裝置是集成電路。
全文摘要
一種轉(zhuǎn)換語音信號(2)的語音速率的方法,其中語音信號(2)的音調(diào)周期低于最大預期音調(diào)周期,所述方法包括以下步驟將語音信號分為若干段;估計某段中的語音周期;復制該段中的部分語音信號,所述部分的時長等于估計音調(diào)周期;根據(jù)所述部分提供具有相同時長的中間信號;以及通過將所述中間信號音調(diào)同步地插入到該段的語音信號中來對該段進行擴展。使用了比最大預期音調(diào)周期要長但比最大預期音調(diào)周期的兩倍要短的段長度。各段要處理的數(shù)據(jù)量小得多,使該方法能夠在例如移動電話的有限計算資源中得以實現(xiàn)。還提供了一種類似的裝置。
文檔編號G10L21/04GK1432177SQ01810565
公開日2003年7月23日 申請日期2001年3月27日 優(yōu)先權(quán)日2000年4月6日
發(fā)明者C·安德倫, H·約翰尼松 申請人:艾利森電話股份有限公司