用于估計語音信號的音調頻率的方法和裝置的制作方法

文檔序號：2821535閱讀：344來源：國知局

專利名稱：用于估計語音信號的音調頻率的方法和裝置的制作方法
技術領域：
本發(fā)明一般涉及用于處理音頻信號的方法和裝置，特別涉及用于估計語音信號的音調的方法。
背景技術：
通過調制在語音域中的氣流而產(chǎn)生語音信號。從聲道中的收縮部分處產(chǎn)生的湍流噪聲產(chǎn)生清音(Voiceless sounds)，而通過聲帶的周期振動在喉嚨中激勵產(chǎn)生濁音(voiced sound)。一般來說，喉部振動的振動周期導致語音的音調。低位率的語音編碼方案一般分離來自語音源的調制(濁音或清音)，并且對這兩個部分分別編碼。為了使得該語音被正確地重構，需要在編碼時精確地估計該語音的濁音部分的音調。為此目的已經(jīng)開發(fā)出各種技術，包括時域和頻域方法。
例如濁音這樣的周期信號的傅利葉變換在頻域中具有一串脈沖或峰值(peaks)的形式。該脈沖串對應于該信號的線狀頻譜，其可以被表示為一個序列{(ai，θi)}，其中θi為該峰值的頻率，并且ai為各個復數(shù)值的線狀頻譜幅度。為了確定一個語音信號的給定片斷是否為濁音或清音，并且如果該片斷為濁音時計算該音調，首先把該時域信號乘以一個有限滑窗。然后該窗內(nèi)信號的傅利葉變換由下式給出X(θ)=ΣkakW(θ-θk)]]>方程1其中W(θ)為該滑窗的傅利葉變換。
給定任何音調頻率，對應于該音調頻率的線狀頻譜可以包括在該頻率的所有倍頻處的線狀頻譜成份。因此在該線狀頻譜中出現(xiàn)的任何頻率之后可以有多個不同候選音調頻率的倍數(shù)。從而，對于在該變換的信號中出現(xiàn)的任何峰值，將有可以給出特定峰值的一系列候選音調頻率，其中每個候選頻率是該峰值的頻率的整數(shù)被除數(shù)。目前不明確的是是否在頻域中分析該頻譜，或者把其轉換回時域用于進一步的分析。
頻域音調估計一般基于分析在被變換信號X(θ)中的峰值的位置和幅度，例如把該頻譜與原型頻譜的“梳”的“齒”相關。該音調頻率由使得該梳函數(shù)與被變換的語音信號的相關性最大化的梳頻率而給出。
用于音調估計的方案的相關類被稱為“對數(shù)倒頻譜(cepstral)”方案，其中對該語音信號的頻譜執(zhí)行記錄操作，并且然后把該記錄頻譜轉換回時域，以產(chǎn)生該對數(shù)倒頻譜信號。該音調頻率是時域對數(shù)倒頻譜信號的峰值。這精確地對應于使得對應于線頻率z(i)的幅度的記錄與與cos(ω(i)T)的相關性在周期T上最大化。對于音調周期T的每次猜測，該函數(shù)cos(ωT)是ω的周期函數(shù)。其在對應于音調頻率1/T的倍數(shù)的頻率上具有峰值。如果這些峰值剛好與線頻率相一致，則1/T是對應于該音調頻率或其倍數(shù)的好的候選項。
用于時域音調估計的普通方法使用相關類型的方案，其搜索使得以時間t為中央的一個信號片斷與以時間t-T為中央的信號片斷的互相關性最大化。該音調頻率是T的倒數(shù)。
音調確定的時域和頻域方法是不穩(wěn)定和容易出錯的，并且精確的音調確定需要大量的計算。例如在時域分析中，在線狀頻譜中的高頻成份導致在互相關性中的附加振動項。當該成份的頻率較高時，該項隨著所估計的音調周期T而快速變化。在這種情況中，即使T相對于真實的音調周期具有微小的偏移，也將大大地減小互相關性的數(shù)值，并且可能導致不正確的估計。一個高頻成份還將把大量峰值與該互相關性相加，其使得對真實的極大值的搜索復雜化。在頻域中，在候選音調頻率的估計中的小錯誤將導致在作為候選頻率的大整數(shù)倍的任何頻譜成份的估計值的大偏移。
利用當前已有的技術，可以在所有可能的候選項及其倍數(shù)上作出分辨率的窮舉搜索，以避免錯過用于給定輸入頻譜的最佳候選音調。根據(jù)實際的音調頻率，這通常需要搜索到達高頻率的取樣頻譜，例如高于1500Hz。與此同時，分析間隔或滑窗的時間必須足夠長，以捕獲在該頻譜中的每個可能的音調候選項的至少幾個周期，這導致復雜度的增加。類似地，在時域中，必須在寬的時間范圍上以高分辨率搜索最佳的音調周期T。在這兩種情況中的搜索消耗大量的計算資源。即使在可能是清音的間隔中也不能放寬該搜索標準，因為僅僅在所有候選音調頻率或周期已經(jīng)被排除之后才可以把一個間隔判斷為清音的。盡管來自先前幀的音調數(shù)值通常被用于控制對當前數(shù)值的搜索，但是該搜索不能限于先前音調的附近區(qū)域。否則，在一個間隔中的誤差可能在后續(xù)的間隔中變?yōu)楹愣?，并且濁音的片斷可能被誤認為清音。

發(fā)明內(nèi)容
本發(fā)明的一個目的是提供一種用于確定音頻信號，特別是語音信號的音調的改進方法和裝置。
在本發(fā)明的一個方面中，提供一種用于估計語音信號的音調頻率的方法，包括查找該信號的線狀頻譜，該頻譜包括具有各個線幅度和線頻率的譜線，對在給定音調頻率范圍中的每個候選音調頻率計算表示該頻譜與候選音調頻率的兼容性的效用函數(shù)，以及響應該效用函數(shù)估計該語音信號的音調頻率。
在本發(fā)明的另一個方面中，計算該效用函數(shù)包括計算作為一個譜線的頻率與候選音調頻率的比率上周期性的至少一個影響函數(shù)。計算至少一個影響函數(shù)最好還包括計算具有在所述比率的整數(shù)值上的極大值和其間的極小值的所述比率的一個函數(shù)。計算至少一個影響函數(shù)最好還包括計算一個分段線性函數(shù)c(f)，其具有在f＝0附近的第一間隔中的極大值、在f＝1/2附近的第二間隔中的極小值、以及在該第一和第二間隔之間的轉變間隔中線性變化的數(shù)值。
在本發(fā)明的另一個方面中，計算至少一個影響函數(shù)包括對在該頻譜中的多條線計算各個影響函數(shù)，以及計算效用函數(shù)包括計算該影響函數(shù)的重疊。最好，各個影響函數(shù)包括具有斷點的分段線性函數(shù)，以及計算該重疊包括計算在該斷點的影響函數(shù)的數(shù)值，使得通過斷點之間的插值而確定該效用函數(shù)。計算各個影響函數(shù)最好還包括對在該頻譜中的連續(xù)的第一和第二線計算至少第一和第二影響函數(shù)，以及計算該效用函數(shù)包括計算包含第一影響函數(shù)的部分效用函數(shù)，然后通過計算在該該部分效用函數(shù)的斷點處的第二影響函數(shù)的數(shù)值而把該第二影響函數(shù)與該部分效用函數(shù)相加，以及計算在該第二影響函數(shù)的斷點處的部分效用函數(shù)的數(shù)值而把該第二影響函數(shù)與該部分效用函數(shù)相加。
在本發(fā)明的另一個方面中，提供一種用于估計語音信號的音調頻率的方法，其中包括確定一個語音信號的幀的線狀頻譜，該頻譜包括具有各個線幅度和線頻率的多個譜線；在所述譜線中選擇具有最高幅度的預定數(shù)目的所述譜線，其中所選擇的譜線的數(shù)目小于所述多個譜線的總數(shù)；計算在一個音調頻率范圍上的初始效用函數(shù)，從而在所述范圍中提供用于每個音調頻率的初始效用函數(shù)值，作為所述被選擇的譜線與所述音調頻率的兼容性的一個度量；至少部分地響應所述初始效用函數(shù)識別預定數(shù)目的初始音調頻率候選項，其中每個初始音調頻率候選項是所述初始效用函數(shù)的局部極大值；對于每個所述初始音調頻率候選項計算一個最后效用分數(shù)；以及至少部分地響應任何所述最后效用分數(shù)，選擇要成為所述語音信號的一個被估計的音調頻率的所述多個初始音調頻率候選項中的任何一個。
在本發(fā)明的另一個方面中，所述計算初始效用函數(shù)的步驟包括響應每個所述被選擇的譜線計算一個影響函數(shù)，其中所述影響函數(shù)在所述譜線的頻率與任何音調頻率的比率上是周期性的；以及計算所述影響函數(shù)的重疊部分。
在本發(fā)明的另一個方面中，所述計算影響函數(shù)的步驟包括計算具有在所述比率的整數(shù)值上的極大值和其間的極小值的所述比率的一個函數(shù)。
在本發(fā)明的另一個方面中，所述計算影響函數(shù)的步驟包括計算一個分段線性函數(shù)c(f)，其具有在f＝0附近的第一間隔中的極大值、在f＝1/2附近的第二間隔中的極小值、以及在該第一和第二間隔之間的轉變間隔中分段線性變化的數(shù)值。
在本發(fā)明的另一個方面中，所述影響函數(shù)是分段線性函數(shù)，并且其中所述計算重疊的步驟包括在其斷點處計算所述影響函數(shù)的數(shù)值，使得所述初始效用函數(shù)通過所述斷點之間的插值而確定。
在本發(fā)明的另一個方面中，所述計算所述影響函數(shù)的步驟包括連續(xù)地計算用于來自所述被選擇的譜線中的第一和第二譜線的至少第一和第二影響函數(shù)，并且其中所述計算一個初始效用函數(shù)的步驟包括計算包括所述第一影響函數(shù)的一個部分效用函數(shù)；以及通過在所述初始效用函數(shù)的斷點處計算所述第二影響函數(shù)的數(shù)值并且在所述第二影響函數(shù)的斷點處計算所述初始效用函數(shù)的數(shù)值，而把所述第二影響函數(shù)與所述初始效用函數(shù)相加。
在本發(fā)明的另一個方面中，所述確定音調頻率候選項的步驟包括優(yōu)先地選擇在頻率上接近于所述語音信號的先前幀的以前估計的音調頻率的所述初始效用函數(shù)的局部極大值。
在本發(fā)明的另一個方面中，所述計算一個最后效用分數(shù)的步驟包括響應每個所述譜線計算一個影響函數(shù)，其中所述影響函數(shù)在所述譜線的頻率與任何音調頻率的比率上是周期性的；以及計算所述影響函數(shù)的總和。
在本發(fā)明的另一個方面中，所述計算影響函數(shù)的步驟包括計算具有在所述比率的整數(shù)值上具有極大值以及其間的極小值的所述比率的函數(shù)。
在本發(fā)明的另一個方面中，所述計算所述比率的函數(shù)的步驟包括計算一個分段線性函數(shù)c(f)，其具有在f＝0附近的第一間隔中的極大值、在f＝1/2附近的第二間隔中的極小值、以及在該第一和第二間隔之間的轉變間隔中分段線性變化的數(shù)值。
在本發(fā)明的另一個方面中，所述選擇音調頻率的步驟包括優(yōu)先地選擇在具有比另一個所述初始音調頻率候選項更高的最后效用分數(shù)的所述初始音調頻率候選項之一。
在本發(fā)明的另一個方面中，所述選擇音調頻率的步驟包括優(yōu)先地選擇具有比另一個所述初始音調頻率候選項更高的頻率的一個所述初始音調頻率候選項。
在本發(fā)明的另一個方面中，所述選擇音調頻率的步驟包括優(yōu)先地選擇在頻率上接近于所述語音信號的先前幀的以前估計的音調頻率的所述初始效用頻率候選項之一。
在本發(fā)明的另一個方面中，進一步包括通過把所述被估計的音調頻率的所述最后效用分數(shù)與一個預定閾值相比較而確定所述語音信號是否濁音或清音。
在本發(fā)明的另一個方面中，進一步包括響應所述被估計的音調頻率而對所述語音信號進行編碼。
在本發(fā)明的另一個方面中，提供一種用于估計語音信號的音調頻率的裝置，其中包括用于確定語音信號的一個幀的譜線的裝置，該頻譜包括具有各個線幅度和線頻率的多個譜線；用于在所述譜線中選擇具有最高幅度的預定數(shù)目的所述譜線的裝置，其中所選擇的譜線的數(shù)目小于所述多個譜線的總數(shù)；用于計算在一個音調頻率范圍上的初始效用函數(shù)的裝置，從而在所述范圍中提供用于每個音調頻率的初始效用函數(shù)值，作為所述被選擇的譜線與所述音調頻率的兼容性的一個度量；用于至少部分地響應所述初始效用函數(shù)識別預定數(shù)目的初始音調頻率候選項的裝置，其中每個初始音調頻率候選項是所述初始效用函數(shù)的局部極大值；用于對每個所述初始音調頻率候選項計算一個最后效用分數(shù)的裝置；以及用于至少部分地響應任何所述最后效用分數(shù)，選擇要成為所述語音信號的一個被估計的音調頻率的所述多個初始音調頻率候選項中的任何一個的裝置。
在本發(fā)明的另一個方面中，所述計算初始效用函數(shù)的裝置用于響應每個所述被選擇的譜線計算一個影響函數(shù)，其中所述影響函數(shù)在所述譜線的頻率與任何音調頻率的比率上是周期性的；以及計算所述影響函數(shù)的重疊部分。
在本發(fā)明的另一個方面中，所述計算影響函數(shù)的裝置計算具有在所述比率的整數(shù)值上的極大值和其間的極小值的所述比率的一個函數(shù)。
在本發(fā)明的另一個方面中，所述計算影響函數(shù)的裝置計算一個分段線性函數(shù)c(f)，其具有在f＝0附近的第一間隔中的極大值、在f＝1/2附近的第二間隔中的極小值、以及在該第一和第二間隔之間的轉變間隔中分段線性變化的數(shù)值。
在本發(fā)明的另一個方面中，所述影響函數(shù)是分段線性函數(shù)，并且其中所述計算重疊的裝置包括在其斷點處計算所述影響函數(shù)的數(shù)值，使得所述初始效用函數(shù)通過所述斷點之間的插值而確定。
在本發(fā)明的另一個方面中，所述計算所述影響函數(shù)的步驟包括連續(xù)地計算用于來自所述被選擇的譜線中的第一和第二譜線的至少第一和第二影響函數(shù)，并且其中所述計算一個初始效用函數(shù)的裝置用于計算包括所述第一影響函數(shù)的一個部分效用函數(shù)；以及通過在所述初始效用函數(shù)的斷點處計算所述第二影響函數(shù)的數(shù)值并且在所述第二影響函數(shù)的斷點處計算所述初始效用函數(shù)的數(shù)值，而把所述第二影響函數(shù)與所述初始效用函數(shù)相加。
在本發(fā)明的另一個方面中，所述確定音調頻率候選項的裝置包括優(yōu)先地選擇在頻率上接近于所述語音信號的先前幀的以前估計的音調頻率的所述初始效用函數(shù)的局部極大值。
在本發(fā)明的另一個方面中，所述計算一個最后效用分數(shù)的裝置用于響應每個所述譜線計算一個影響函數(shù)，其中所述影響函數(shù)在所述譜線的頻率與任何音調頻率的比率上是周期性的；以及計算所述影響函數(shù)的總和。
在本發(fā)明的另一個方面中，所述計算影響函數(shù)的裝置包括計算具有在所述比率的整數(shù)值上具有極大值以及其間的極小值的所述比率的函數(shù)。
在本發(fā)明的另一個方面中，所述計算所述比率的函數(shù)的裝置計算一個分段線性函數(shù)c(f)，其具有在f＝0附近的第一間隔中的極大值、在f＝1/2附近的第二間隔中的極小值、以及在該第一和第二間隔之間的轉變間隔中分段線性變化的數(shù)值。
在本發(fā)明的另一個方面中，所述選擇音調頻率的裝置優(yōu)先地選擇在具有比另一個所述初始音調頻率候選項更高的最后效用分數(shù)的所述初始音調頻率候選項之一。
在本發(fā)明的另一個方面中，所述選擇音調頻率的裝置優(yōu)先地選擇具有比另一個所述初始音調頻率候選項更高的頻率的一個所述初始音調頻率候選項。
在本發(fā)明的另一個方面中，所述選擇音調頻率的裝置包括優(yōu)先地選擇在頻率上接近于所述語音信號的先前幀的以前估計的音調頻率的所述初始效用頻率候選項之一。
在本發(fā)明的另一個方面中，進一步包括通過把所述被估計的音調頻率的所述最后效用分數(shù)與一個預定閾值相比較而確定所述語音信號是否濁音或清音的裝置。
在本發(fā)明的另一個方面中，進一步包括響應所述被估計的音調頻率而對所述語音信號進行編碼的裝置。
在本發(fā)明的另一個方面中，提供一種體現(xiàn)在計算機可讀介質上的計算機程序，該計算機程序包括用于確定語音信號的一個幀的譜線的第一代碼段，該頻譜包括具有各個線幅度和線頻率的多個譜線；用于在所述譜線中選擇具有最高幅度的預定數(shù)目的所述譜線的第二代碼段，其中所選擇的譜線的數(shù)目小于所述多個譜線的總數(shù)；用于計算在一個音調頻率范圍上的初始效用函數(shù)的第三代碼段，從而在所述范圍中提供用于每個音調頻率的初始效用函數(shù)值，作為所述被選擇的譜線與所述音調頻率的兼容性的一個度量；用于至少部分地響應所述初始效用函數(shù)識別預定數(shù)目的初始音調頻率候選項的第四代碼段，其中每個初始音調頻率候選項是所述初始效用函數(shù)的局部極大值；用于對每個所述初始音調頻率候選項計算一個最后效用分數(shù)的第五代碼段；以及用于至少部分地響應任何所述最后效用分數(shù)，選擇要成為所述語音信號的一個被估計的音調頻率的所述多個初始音調頻率候選項中的任何一個的第六代碼段。

從下文結合附圖對優(yōu)選實施例的詳細描述中，將更好地理解本發(fā)明，其中圖1為根據(jù)本發(fā)明一個優(yōu)選實施例的用于語音分析和編碼的系統(tǒng)的示意圖；圖2為示意地示出根據(jù)本發(fā)明一個優(yōu)選實施例的用于音調確定和語音編碼的方法的流程圖；圖3為示意地示出根據(jù)本發(fā)明一個優(yōu)選實施例的用于對語音信號提取線狀頻譜并且查找候選音調值的方法的流程圖；圖4為示意地示出根據(jù)本發(fā)明一個優(yōu)選實施例的用于同時在長和短的間隔上提取線狀頻譜的方法的方框圖；圖5為示意地示出根據(jù)本發(fā)明一個優(yōu)選實施例的用于查找一個線狀頻譜的峰值的方法的流程圖；圖6A、6B、6C和6D為示意地示出根據(jù)本發(fā)明一個優(yōu)選實施例的用于根據(jù)輸入線狀頻譜估計候選音調頻率的方法的流程圖；圖7為根據(jù)圖6A-6D的方法的估計候選音調頻率中所用的干擾頻率的一個周期的示意圖；圖8為根據(jù)本發(fā)明一個優(yōu)選實施例的把圖7的影響函數(shù)應用于一個線狀頻譜的一個成份所導出的一個部分效用函數(shù)的示意圖；圖9A和9B為根據(jù)本發(fā)明一個優(yōu)選實施例的用于從多個候選音調頻率中選擇用于一個語音幀的被估計音調頻率的方法的流程圖；以及圖10為示意地示出根據(jù)本發(fā)明一個優(yōu)選實施例的用于確定一個語音幀是否為濁音或清音的方法的流程圖。
具體實施例方式
圖1為根據(jù)本發(fā)明一個優(yōu)選實施例的用于分析和編碼語音信號的系統(tǒng)20的示意圖。該系統(tǒng)包括一個音頻輸入設備22，例如麥克風，其連接到一個音頻處理器24。另外，到該處理器的音頻輸入可以用模擬或數(shù)字形式通過一條通信線路提供，或者從一個存儲設備恢復。處理器24最好包括一個用適當?shù)能浖幊痰耐ㄓ糜嬎銠C，用于執(zhí)行下述功能。該軟件可以例如通過網(wǎng)絡被以電子形式提供到該處理器，或者它可以在例如CD-ROM或非易失性存儲器這樣的實際介質上提供。另外，處理器24可以包括一個數(shù)字信號處理器(DSP)或者硬連接線邏輯電路。
圖2為示意地示出根據(jù)本發(fā)明一個優(yōu)選實施例的用于使用系統(tǒng)20處理信號的方法的流程圖。在一個輸入步驟30中，一個語音信號被從設備22輸入或者從另一個來源輸入，并且被數(shù)字化(如果該信號還不是數(shù)字形式)用于進一步的處理。該數(shù)字化的信號被分為適當時間段的幀和相對偏移，一般分別為25ms和10ms，用于后續(xù)的處理。在一個峰值識別步驟32中，處理器23對每個幀提取一個近似的線狀頻譜。如下文所示，通過同時在多個間隔上分析該信號而提取該頻譜。最好，兩個間隔被用于每個幀用于提取高頻音調值的短時間間間隔和用于提取低頻值的長間隔。另外，可以使用更多數(shù)目的間隔。該低頻和高頻部分最好一同覆蓋整個可能的音調數(shù)值。根據(jù)所提取的頻譜，識別用于當前幀的候選音調頻率。
在一個音調選擇步驟34中，從該全部頻譜中的候選頻率內(nèi)選擇用于當前幀的音調頻率的最佳估計值。根據(jù)所選擇的音調，系統(tǒng)24在語音判斷步驟36中確定當前幀是否為實際的濁音或清音。在輸出編碼步驟38中，濁音/清音判斷和被選擇的音調頻率被用于編碼該當前幀?？梢允褂萌魏芜m當?shù)木幋a方法，例如在美國專利申請No.09/410,085和09/432,081中所述的方法。最好，被編碼的輸出包括與語音和音調信息一同調制聲音流的特征。被編碼的輸出一般被通過一條通信鏈路發(fā)送和/或存儲在一個存儲器26中(圖1)。用于在此所述的音調確定的方法還可以用于具有或沒有后續(xù)編碼的其他音頻處理應用程序。
圖3為示意地示出根據(jù)本發(fā)明一個優(yōu)選實施例的音調識別步驟32的具體細節(jié)的流程圖。在一個轉換步驟40中，一個雙滑窗短時間傅利葉變換(STFT)被應用于該語音信號的每個幀。用于語音信號的可能音調頻率的范圍一般從55至420Hz。該范圍最好被分為兩個區(qū)域從55Hz至中頻Fb的較低區(qū)域(一般大約為90Hz)，以及從Fb至420Hz的較高區(qū)域。如下文所示，對于每個幀確定一個短時間滑窗，用于搜索較高頻率區(qū)域，以及確定一個長時間滑窗，用于搜索較低頻率區(qū)域。另外，可以使用較大量的相鄰滑窗。該STFT被應用于每個時間滑窗，以計算該語音信號的各個高頻頻譜和低頻頻譜。
短和長滑窗頻譜的處理最好在分離的平行記錄道上進行。在頻譜估計步驟42和44處，從各個STFT結果中導出上述定義的具有形式{(ai，θi)}的高和低頻線狀頻譜。該線狀頻譜被用于候選頻率查找步驟46和48中，以查找該音調的高和低頻候選值的各個集合。該音調候選項被傳送到步驟34(圖2)，用于在該候選項中選擇最佳音調頻率估計。下面參照圖4、5和6A-6D描述步驟40至48的具體細節(jié)。
圖4為示意地示出根據(jù)本發(fā)明一個優(yōu)選實施例的轉換步驟40的具體細節(jié)的方框圖。一個滑窗模塊50對該語音信號的當前幀使用窗口函數(shù)，最好是如本領域普通技術人員所公知的25ms持續(xù)時間的漢明窗。根據(jù)該采樣率，一個轉換模塊52對該窗內(nèi)幀應用適當?shù)念l率變換，最好為具有256或512個頻率點的分辨率的快速傅利葉變換(FFT)。
最好，模塊52的輸出被傳送到一個適當?shù)哪K54，其被用于增加該頻譜的分辨率，例如通過對FFT輸出系數(shù)Xd[k]應用一個狄利克雷核D(θ,N)=sin(Nθ/2)sin(θ/2),]]>給出插值的頻譜系數(shù)X(θ)=Σk=0N-11NXd[k]D(θ-2πk/N,N)exp{-j(θ-2πk/N)(N-1)/2}]]>方程2為了有效插值，少量系數(shù)Xd[k]最好被用于每個頻率θ的附近。一般來說，使用16個系數(shù)，并且按照這種方式把頻譜的分辨率增加2倍，使得在被插值頻譜中的點數(shù)為L＝2N。該模塊54的輸出給出短窗口變換，其被傳送到步驟42(圖3)。
通過組合當前幀Xs和由一個延遲模塊56保存的先前幀Ys的短窗口變換而計算要被傳送到步驟44的長窗口變換。在組合之前，來自先前幀的系數(shù)在一個乘法器58處乘以2πmk/L的相移，其中m為在一個幀中的樣本數(shù)目。通過在一個加法器60把來自當前和先前幀(具有適當?shù)南嘁?的短窗口系數(shù)相加而產(chǎn)生該長窗口頻譜Xl，給出Xl(2πk/L)＝Xs(2πk/L)+Ys(2πk/L)exp(j2πmk/L)方程3在此k為從一組整數(shù)所取得的一個整數(shù)，例如該頻率2πk/L跨過整個頻率范圍。因此以比對單個窗口執(zhí)行STFT操作所需的計算工作量略多的工作量，由圖4所示的方法使得頻譜被導出用于加倍的重疊窗口。
圖5為示意地示出本發(fā)明一個優(yōu)選實施例的線狀頻譜估計步驟42和44的流程圖。在該圖中所示的線狀頻譜估計的方法被用于在步驟40處產(chǎn)生的長和短窗口變換X(θ)。步驟42和44的目的是確定當前幀的絕對線狀頻譜的一個估計值該系列峰值頻率從X(θ)的局部極大值的位置處導出，并且|a^i|=|X(θ^i)|.]]>該估計基于這樣的假設，即在頻域中的窗口函數(shù)的變換(模塊50)的主瓣的寬度與該音調頻率相比較小。因此，在該頻譜中的相鄰窗口之間的相互作用較小。
該線狀頻譜的估計以在一個峰值查找步驟70中在該插值頻譜(每個方程(2))中查找峰值的近似頻率為開始。一般來說，這些頻率以整數(shù)精度而計算。在一個插值步驟72中，計算峰值頻率和幅度為浮點精度，最好在2π/L的三個最近整數(shù)倍處使用基于頻譜幅度的二次插值。
在失真估計步驟74中，在先前步驟中查找的峰值陣列被處理，以估計失真是否存在于該輸入語音信號中，如果為是，則嘗試糾正該失真。最好，被分析的頻率范圍被分為三個相等的區(qū)域，并且對于每個區(qū)域，計算在該區(qū)域中的所有幅度的極大值。該區(qū)域完全覆蓋該頻率范圍。如果在中頻或高頻范圍中的極大值與在低頻范圍中的極大值相比為太高，則在一個衰減步驟76中，在中頻和/或高頻范圍中的峰值被衰減。研究表明如果對于中頻范圍的極大值比在低頻范圍中的極大值大65％，或者如果在高頻范圍中的極大值比低頻范圍中的極大值大45％，則應當進行衰減。按照這種方式衰減該峰值把該頻譜“恢復”到一個更加類似的形狀。一般來說，如果該語音信號最初不失真，則步驟74將不改變其頻譜。
在一個峰值計數(shù)步驟78中，在步驟72所找到的峰值數(shù)目被計數(shù)。在一個大峰值估計步驟80中，峰值的數(shù)目被與一個預定最大數(shù)目相比較，該數(shù)目一般被設置為7。如果發(fā)現(xiàn)7個或更少的峰值，則該處理直接進行到步驟46或48。否則，在排序步驟82中，按照它們的幅度值的降序次序對峰值排序。一旦已經(jīng)發(fā)現(xiàn)預定數(shù)目的最大峰值(一般等于在步驟80中所用的最大峰值數(shù))，則在閾值設置步驟84中，一個閾值被設置為等于在最高峰值的組中的最低峰值。在一個偽峰值丟棄步驟86中，在該閾值之下的峰值被丟棄。另外，如果在排序步驟82的一些階段中，被排序的峰值的總和超過被發(fā)現(xiàn)的所有峰值的數(shù)值總和的一個預定分數(shù)，一般為95％，則該排序處理停止。然后，所有剩余的較小峰值被在步驟86中丟棄。該步驟的目的是刪除可能對音調確定或者在步驟34和36(圖2)判斷濁音/清音具有干擾的小的偽峰值。
圖6A為示意地示出根據(jù)本發(fā)明一個優(yōu)選實施例的在候選音調頻率查找步驟46和48(圖3)的具體細節(jié)的流程圖。這些步驟被分別應用于由上文所示和描述的步驟42和44輸出的短和長窗口線狀頻譜在步驟46中，產(chǎn)生頻率高于特定閾值的音調候選項，并且使用根據(jù)短分析間隔中產(chǎn)生的線狀頻譜而概括的過程來計算它們的效用函數(shù)。在步驟48中，在長分析間隔中產(chǎn)生的線狀頻譜還產(chǎn)生一個音調候選項列表，并且僅僅對其頻率低于該閾值的音調候選項計算效用函數(shù)。在一個歸一化步驟90中，對于長和短窗口使得線狀頻譜歸一化，以產(chǎn)生具有由下式給出的歸一化的幅度bi和頻率fi的線bi=|a^i|Σk=1K|a^k|]]>方程4fi=θ^i2πTs]]>方程5在方程4和5中，i為從1至K，其中K是譜線(峰值)的數(shù)目，并且Ts是采樣間隔。換句話說，1/Ts是原始語音信號的采樣頻率，因此fi是以該譜線的每秒樣本數(shù)為單位的頻率。
在一個選擇主要線步驟92中選擇具有最高幅度值的預定數(shù)目的譜線。然后，在步驟94中，計算一個初始效用函數(shù)，其對在給定音調頻率范圍中的每個候選音調頻率表示在步驟92中選擇的主要譜線與該候選音調頻率的兼容性。下面參照圖7和圖8更加詳細地描述根據(jù)本發(fā)明的實施例的一個效用函數(shù)定義，并且在下文中參照圖6B更加詳細地描述計算該初始效用函數(shù)的優(yōu)選方法。然后使用該初始效用函數(shù)在一個選擇初始候選項步驟96中選擇預定數(shù)目的音調頻率候選項。一個選擇初始候選項的優(yōu)選方法在下文中參照圖6C更加詳細地描述。然后在為初始候選項計算最后效用分數(shù)的步驟98中，對每個初始候選項計算一個效用分數(shù)。下面參照圖6D更加詳細地描述計算最后效用分數(shù)的優(yōu)選方法。
根據(jù)本發(fā)明一個優(yōu)選實施例，通過一個影響函數(shù)確定該效用函數(shù)，例如作為示出被表示為c(f)的一個影響函數(shù)120的一個周期的示意圖的圖7中所示，該影響函數(shù)最好具有如下特性1.c(f+1)＝c(f)，即，該函數(shù)是周期性的，具有周期1。
2.0≤c(f)≤13.c(0)＝1
4.c(f)＝c(-f)5.c(f)＝0，對于r≤|f|≤1/2，其中r為一個小于1/2的參數(shù)＜1/26.c(f)分段線性和在
中非增加。
在圖7中所示的優(yōu)選實施例中，該影響函數(shù)是梯形的，并且其一個周期具有如下形式方程6另外，可以使用另一個周期函數(shù)，最好是一個分段線性函數(shù)，其數(shù)值在相距原點大于預定距離時為零。
圖8為示出根據(jù)本發(fā)明一個優(yōu)選實施例的使用影響函數(shù)c(f)為候選音調頻率fp產(chǎn)生的一個效用函數(shù)U(fp)的成份130的示意圖。根據(jù)線狀頻譜{(bi，fi)}產(chǎn)生用于任何給定音調頻率的效用函數(shù)U(fp)，如下式給出U(fp)=Σi=1Kbic(fi/fp)]]>方程7然后對單個譜線(bi，fi)確定該函數(shù)Ui(fp)的一個成份為Ui(fp)＝bic(fi/fp)方程8圖8示出這樣一個成份，其中fi＝700Hz，并且在從50至400Hz的范圍內(nèi)在音調頻率上估計該成份。該成份包括多個旁瓣132、134、136、138...，每個確定該頻率范圍的一個區(qū)域，其中可以出現(xiàn)一個候選音調頻率，并且導致在fi處的譜線。
由于數(shù)值bi被歸一化，并且c(f)≤1，用于任何給定的候選音調頻率的效用函數(shù)將在0和1之間。由于c(fi/fp)周期地由fi和fp確定，因此對于給定音調頻率fp的效用函數(shù)的高數(shù)值表示在該序列{fi}中的大部分頻率接近于該音調頻率的倍數(shù)。因此，可以通過利用特定的分辨率對在適當頻率范圍中的所有可能音調頻率計算該效用函數(shù)，并且選擇具有高效用值的候選音調頻率，而以直接的方式(但沒有效率)找到用于當前幀的音調頻率。
現(xiàn)在參見圖6A，在一個主要線選擇步驟92，在K條線中選出與M個最大幅度相關的M條譜線{(bij，fij)}，j＝1，2，...，M。在本發(fā)明的一個優(yōu)選實施例中，M被設置為7。在上述步驟94計算由下式給出的一個初始效用函數(shù)UD(fp)=Σj=1Mbijc(fij/fp)]]>方程9僅僅使用在步驟92選擇的M主要線。通過使用在下文中參照6B所述的快速方法，在整個音調頻率搜索范圍上計算該初始效用函數(shù)。由于該影響函數(shù)c(f)是分段線性的，因此在任何點處的Uij(fp)由在該函數(shù)的斷點處的數(shù)值所定義(即，在第一導數(shù)中的不連續(xù)點)，例如圖8中所示的點140和142。盡管Uij(fp)自身不是分段線性的，但是其在所有區(qū)域中可以被近似為一個線性函數(shù)。UD(fp)計算的快速方法使用成份Uij(fp)的斷點值來構建完整函數(shù)UD(fp)。每個成份Uij(fp)把其自身的斷點與該完整函數(shù)相加，并且可以通過執(zhí)行線性插值而查找在該斷點之間的效用函數(shù)的數(shù)值。
構建UD(fp)的處理使用通過把用于每個主要譜線(bij，fij)的成份Uij(fp)連續(xù)相加而產(chǎn)生的一系列部分效用函數(shù)PUjPUj(fp)=Σk=1jUik(fp)]]>方程10繼續(xù)參照圖6B，該影響函數(shù)c(f)被重復地應用于在該歸一化的線狀頻譜中的每個主要線(bij，fij)，以產(chǎn)生部分效用函數(shù)PUj的連續(xù)性。該處理以第一成份Ui1(fp)為開始。該成份對應于主要譜線(bi1，fi1)。在一個效用函數(shù)成份產(chǎn)生步驟102中，在對fp搜索的范圍上的所有斷點處，計算該Ui1(fp)的數(shù)值。在該階段的部分效用函數(shù)PU1被簡化為等于Ui1。在該步驟的后續(xù)重復迭代中，確定其自身的斷點以及部分效用函數(shù)PUj-1(fp)的所有斷點處確定新的成份Uij(fp)。在PUj-1(fp)的斷點處的數(shù)值Uij(fp)最好通過插值來計算。PUj-1(fp)的數(shù)值被類似地在Uij(fp)的斷點處計算。如果Uij(fp)包含非常接近于PUj-1中的現(xiàn)有斷點，則這些新的斷點最好在丟棄步驟103中作為多余的部分而丟棄。最好，按照這種方式丟棄其頻率與現(xiàn)有斷點之差不大于0.0006*fp2的斷點。然后，Uij與在所有剩余斷點處的PUj-1相加，因此在一個加法步驟104中產(chǎn)生PUj。
在一個結束步驟105中，當最后的主要譜線(biM，fiM)的成份UiM已經(jīng)被計算時，該處理完成，并且所獲得的效用函數(shù)UD(fp)被傳送到初始音調候選項選擇步驟96。該函數(shù)具有一組頻率斷點的形式，以及在該斷點處的初始效用函數(shù)的數(shù)值。否則，如果其他主要譜線要被估計，則在步驟106取下一個主要譜線，并且從步驟102繼續(xù)進行迭代處理，直到所有主要譜線已經(jīng)被估計時為止。
在圖6B的方法中可以看到在該搜索范圍中搜索所有可能的音調頻率，但是由于涉及更少的譜線，并且僅僅在特定斷點處，而不是在音調頻率的整個搜索范圍上，計算每條線對該效用函數(shù)的貢獻，因此其具有優(yōu)化的效率。
圖6C為示意地示出根據(jù)本發(fā)明一個優(yōu)選實施例的初始音調候選項選擇步驟96(圖6A)的具體細節(jié)的流程圖。選擇預定數(shù)目m個初始音調候選項。在本發(fā)明的一個優(yōu)選實施例中，m被設置為4。該初始音調頻率候選項的選擇基于從步驟94輸出的初始效用函數(shù)，包括被找到的所有斷點。該初始效用函數(shù)的斷點被估計，并且選擇一些作為該初始音調候選項。
在步驟110中，查找表示該初始效用函數(shù)的局部極大值的這些斷點。然后，選擇m個(一般為4個)最高局部極大值，作為初始候選項的初始集合{(f1，UD(f1))，(f2，UD(f2))，...，(fm，UD(fm))}。假設，(fk，UD(fk))為該集合的最低成份，即，UD(fk)＜UD(fi)，如果i≠k。
假設音調在先前幀中是穩(wěn)定的，則通常希望選擇一個用于接近于先前幀的音調的當前幀的音調。因此，在一個先前幀評估步驟112中，確定該先前幀的音調是否為穩(wěn)定。最好，如果在6個先前幀上滿足特定的連續(xù)性標準，則認為該音調是穩(wěn)定的。例如，可能需要在連續(xù)幀之間改變的音調小于一個預定數(shù)值，例如22％，并且該效用函數(shù)的預定數(shù)值被保持在所有幀中。如果該音調是穩(wěn)定的，則在一個最接近極大值選擇步驟113處選擇與最接近于該先前音調頻率的局部極大值相關的替換音調頻率候選項fpalt。然后通過估計如下條件測試在替換候選頻率fpalt和先前音調頻率fprev之間的接近程度1/R≤fpalt/fprev≤R]]>方程11其中R被設置為預定數(shù)值，例如1.22。如果該條件被滿足，則在一個比較步驟114，根據(jù)最低集合成份UD(fk)的初始效用函數(shù)，估計在該替換候選頻率UD(fpalt)處的初始效用函數(shù)。如果在這兩個頻率處的效用函數(shù)的數(shù)值之差不大于一個預定閾值量T1，例如0.06，則在步驟114，最低集合成份(fk，UD(fk)由(fpalt，UD(fpalt))所代替。否則，保持初始候選項的初始集合不變。如果在步驟112發(fā)現(xiàn)先前幀的音調不穩(wěn)定，并且在步驟113沒有在該先前音調的附近發(fā)現(xiàn)局部極大值，則該初始候選項的初始集合可能被選擇。
圖6D為示意地示出與初始音調頻率候選項f相關的最后效用分數(shù)的計算步驟98(圖6A)的具體細節(jié)的流程圖。在圖6D中所示的步驟次序最好被用于在步驟96中所發(fā)現(xiàn)的每個初始候選音調頻率。使用所有譜線，用方程7獲得該最后效用分數(shù)。在初始化步驟116中，該分數(shù)被設置為0，并且選擇第一譜線(b1，f1)。在步驟117使用方程6計算一個加權影響函數(shù)。這包括計算比率f1/f，取該比率的一個分數(shù)部分，以把其折疊到該影響函數(shù)的主要周期(-1，+1)中，使用方程6并且乘以b1。所獲得數(shù)值與該分數(shù)相加。圖6D的步驟最好對所有譜線重復執(zhí)行。
圖9A和圖9B為示出最佳音調頻率選擇步驟34(圖3)的具體細節(jié)的流程圖。使用在步驟98計算的效用分數(shù)從初始音調候選項中選擇最佳音調候選項。一般來說，把優(yōu)先級給予高音調頻率，以避免把該音調頻率的整數(shù)被除數(shù)(對應于音調周期的整數(shù)倍)誤以為實際音調。因此，在一個頻率排序步驟152中，按照頻率對初始候選項{fpi}i＝1m排序，使得fp1>fp2>...>fpm]]>方程12該估計的音調最好在初始化步驟154中被初始設置為等于最高頻率候選項fp1。按照降頻次序，根據(jù)所估計的音調的當前值估計每個剩余的候選項。
在下一個頻率步驟156中，開始對候選音調fp2進行評估處理。在一個評估步驟158中，該效用函數(shù)的數(shù)值U(fp2)被與相比較。如果在fp2的效用函數(shù)在的效用函數(shù)至少大一個閾值差T2，或者如果fp2接近于并且具有一個更大的效用函數(shù)，則fp2被認為是對當前的高音調頻率估計。最好，T2＝0.06，并且如果1.17fp2>F^0,]]>則fp2被認為是接近于在這種情況中，在一個候選項設置步驟160，被設置為新的候選項數(shù)值fp2。步驟156至160被對所有初始候選項fpi重復執(zhí)行，直到在最后頻率步驟162中到達最后頻率fpm時為止。
假設該音調在先前幀中為穩(wěn)定，則非常希望選擇用于在先前幀的音調附近的當前幀的音調。因此，在圖9B中，類似于用于初始候選項選擇的并且在圖6D中所示的處理還可以被應用于最佳音調候選項選擇。在一個先前幀評估步驟170中，確定該先前幀音調是否如上文所述為穩(wěn)定的。如果該音調是穩(wěn)定的，則在步驟172選擇在最接近于該先前幀音調頻率的集合{fpi}中的替換音調頻率fpalt。然后估計方程11的條件，以確定替換候選項是否足夠接近于先前音調頻率。如果該條件被滿足，則在一個比較步驟174根據(jù)當前估計的音調頻率的效用函數(shù)評估在該替換頻率U(fpalt)的效用函數(shù)。如果在這兩個頻率處的效用函數(shù)的數(shù)值相差不大于一個預定閾值量T2，則在步驟176中，該替換頻率fpalt作為用于當前幀的被估計音調頻率一般地，T2被設置為0.06。否則，在一個候選頻率設置步驟178中，來自步驟162的當前被估計的音調頻率保持為用于當前幀的所選擇音調頻率。如果在步驟170發(fā)現(xiàn)先前幀的音調不穩(wěn)定，并且如果在步驟172在該先前音調附近沒有發(fā)現(xiàn)初始候選項，則該被估計的數(shù)值很可能被選擇。
圖10為根據(jù)本發(fā)明一個優(yōu)選實施例的示意地示出語音判斷步驟36的具體細節(jié)的流程圖。在一個閾值比較步驟180中，該判斷基于把在被估計音調處的效用函數(shù)與上述閾值相比較。一般來說，Tuv＝0.75。如果該效用函數(shù)大于該閾值，則在濁音設置步驟188中，當前幀被分類為濁音。
但是在語音流的轉換過程中，即使當當前幀應當被認為是濁音時，該語音信號的周期結構也可能改變，有時導致該效用函數(shù)的低數(shù)值。因此，當用于當前幀的效用函數(shù)低于該閾值Tuv時，在一個先前幀檢查步驟182中，檢查該先前幀的效用函數(shù)。如果該先前幀的被估計的音調具有一個高的效用值，一般至少為0.84，并且在一個音調檢查步驟184中，找到該當前幀的音調，為接近于先前幀的音調，一般差別不大于18％，然后在步驟188，該當前幀被分類為濁音，而與其低的效用值無關。否則，在一個清音設置步驟186中，當前幀被分類為清音。
應當知道，在此所述的任何方法的一個或多個可以被省略或按照與所示的次序不同的次序來執(zhí)行，而不脫離本發(fā)明的精神和范圍。
盡管在此所公開的方法和裝置可能已經(jīng)參照或沒有參照具體的計算機硬件或軟件來描述，但是應當知道在此所述的方法和裝置可以通過使用常規(guī)的技術而容易地應用于計算機硬件或軟件中。
應當知道通過舉例的方式引述的上述優(yōu)選實施例，并且本發(fā)明不限于在上文中具體示出和描述的內(nèi)容。而是，本發(fā)明的精神和范圍包括在上文所述的各種特征的組合，以及本領域的普通技術人員在閱讀上文并且沒有在現(xiàn)有技術中公開的描述之后容易想到的變型和改進。
權利要求
1.一種用于估計語音信號的音調頻率的方法，其中包括確定語音信號的一個幀的譜線，該頻譜包括具有各個線幅度和線頻率的多個譜線；在所述譜線中選擇具有最高幅度的預定數(shù)目的所述譜線，其中所選擇的譜線的數(shù)目小于所述多個譜線的總數(shù)；計算在一個音調頻率范圍上的初始效用函數(shù)，從而在所述范圍中提供用于每個音調頻率的初始效用函數(shù)值，作為所述被選擇的譜線與所述音調頻率的兼容性的一個度量；至少部分地響應所述初始效用函數(shù)識別預定數(shù)目的初始音調頻率候選項，其中每個初始音調頻率候選項是所述初始效用函數(shù)的局部極大值；對于每個所述初始音調頻率候選項計算一個最后效用分數(shù)；以及至少部分地響應任何所述最后效用分數(shù)，選擇要成為所述語音信號的一個被估計的音調頻率的所述多個初始音調頻率候選項中的任何一個。
2.根據(jù)權利要求1所述的方法，其中所述計算初始效用函數(shù)的步驟包括響應每個所述被選擇的譜線計算一個影響函數(shù)，其中所述影響函數(shù)在所述譜線的頻率與任何音調頻率的比率上是周期性的；以及計算所述影響函數(shù)的重疊部分。
3.根據(jù)權利要求2所述的方法，其中所述計算影響函數(shù)的步驟包括計算具有在所述比率的整數(shù)值上的極大值和其間的極小值的所述比率的一個函數(shù)。
4.根據(jù)權利要求3所述的方法，其中所述計算影響函數(shù)的步驟包括計算一個分段線性函數(shù)c(f)，其具有在f＝0附近的第一間隔中的極大值、在f＝1/2附近的第二間隔中的極小值、以及在該第一和第二間隔之間的轉變間隔中分段線性變化的數(shù)值。
5.根據(jù)權利要求2所述的方法，其中所述影響函數(shù)是分段線性函數(shù)，并且其中所述計算重疊的步驟包括在其斷點處計算所述影響函數(shù)的數(shù)值，使得所述初始效用函數(shù)通過所述斷點之間的插值而確定。
6.根據(jù)權利要求5所述的方法，其中所述計算所述影響函數(shù)的步驟包括連續(xù)地計算用于來自所述被選擇的譜線中的第一和第二譜線的至少第一和第二影響函數(shù)，并且其中所述計算一個初始效用函數(shù)的步驟包括計算包括所述第一影響函數(shù)的一個部分效用函數(shù)；以及通過在所述初始效用函數(shù)的斷點處計算所述第二影響函數(shù)的數(shù)值并且在所述第二影響函數(shù)的斷點處計算所述初始效用函數(shù)的數(shù)值，而把所述第二影響函數(shù)與所述初始效用函數(shù)相加。
7.根據(jù)權利要求6所述的方法，其中所述確定音調頻率候選項的步驟包括優(yōu)先地選擇在頻率上接近于所述語音信號的先前幀的以前估計的音調頻率的所述初始效用函數(shù)的局部極大值。
8.根據(jù)權利要求1所述的方法，其中所述計算一個最后效用分數(shù)的步驟包括響應每個所述譜線計算一個影響函數(shù)，其中所述影響函數(shù)在所述譜線的頻率與任何音調頻率的比率上是周期性的；以及計算所述影響函數(shù)的總和。
9.根據(jù)權利要求8所述的方法，其中所述計算影響函數(shù)的步驟包括計算具有在所述比率的整數(shù)值上具有極大值以及其間的極小值的所述比率的函數(shù)。
10.根據(jù)權利要求9所述的方法，其中所述計算所述比率的函數(shù)的步驟包括計算一個分段線性函數(shù)c(f)，其具有在f＝0附近的第一間隔中的極大值、在f＝1/2附近的第二間隔中的極小值、以及在該第一和第二間隔之間的轉變間隔中分段線性變化的數(shù)值。
11.根據(jù)權利要求1所述的方法，其中所述選擇音調頻率的步驟包括優(yōu)先地選擇在具有比另一個所述初始音調頻率候選項更高的最后效用分數(shù)的所述初始音調頻率候選項之一。
12.根據(jù)權利要求1所述的方法，其中所述選擇音調頻率的步驟包括優(yōu)先地選擇具有比另一個所述初始音調頻率候選項更高的頻率的一個所述初始音調頻率候選項。
13.根據(jù)權利要求1所述的方法，其中所述選擇音調頻率的步驟包括優(yōu)先地選擇在頻率上接近于所述語音信號的先前幀的以前估計的音調頻率的所述初始效用頻率候選項之一。
14.根據(jù)權利要求1所述的方法，其中進一步包括通過把所述被估計的音調頻率的所述最后效用分數(shù)與一個預定閾值相比較而確定所述語音信號是否濁音或清音。
15.根據(jù)權利要求1所述的方法，其中進一步包括響應所述被估計的音調頻率而對所述語音信號進行編碼。
16.一種用于估計語音信號的音調頻率的裝置，其中包括用于確定語音信號的一個幀的譜線的裝置，該頻譜包括具有各個線幅度和線頻率的多個譜線；用于在所述譜線中選擇具有最高幅度的預定數(shù)目的所述譜線的裝置，其中所選擇的譜線的數(shù)目小于所述多個譜線的總數(shù)；用于計算在一個音調頻率范圍上的初始效用函數(shù)的裝置，從而在所述范圍中提供用于每個音調頻率的初始效用函數(shù)值，作為所述被選擇的譜線與所述音調頻率的兼容性的一個度量；用于至少部分地響應所述初始效用函數(shù)識別預定數(shù)目的初始音調頻率候選項的裝置，其中每個初始音調頻率候選項是所述初始效用函數(shù)的局部極大值；用于對每個所述初始音調頻率候選項計算一個最后效用分數(shù)的裝置；以及用于至少部分地響應任何所述最后效用分數(shù)，選擇要成為所述語音信號的一個被估計的音調頻率的所述多個初始音調頻率候選項中的任何一個的裝置。
17.根據(jù)權利要求16所述的裝置，其中所述計算初始效用函數(shù)的裝置用于響應每個所述被選擇的譜線計算一個影響函數(shù)，其中所述影響函數(shù)在所述譜線的頻率與任何音調頻率的比率上是周期性的；以及計算所述影響函數(shù)的重疊部分。
18.根據(jù)權利要求17所述的裝置，其中所述計算影響函數(shù)的裝置計算具有在所述比率的整數(shù)值上的極大值和其間的極小值的所述比率的一個函數(shù)。
19.根據(jù)權利要求18所述的裝置，其中所述計算影響函數(shù)的裝置計算一個分段線性函數(shù)c(f)，其具有在f＝0附近的第一間隔中的極大值、在f＝1/2附近的第二間隔中的極小值、以及在該第一和第二間隔之間的轉變間隔中分段線性變化的數(shù)值。
20.根據(jù)權利要求17所述的裝置，其中所述影響函數(shù)是分段線性函數(shù)，并且其中所述計算重疊的裝置包括在其斷點處計算所述影響函數(shù)的數(shù)值，使得所述初始效用函數(shù)通過所述斷點之間的插值而確定。
21.根據(jù)權利要求20所述的裝置，其中所述計算所述影響函數(shù)的步驟包括連續(xù)地計算用于來自所述被選擇的譜線中的第一和第二譜線的至少第一和第二影響函數(shù)，并且其中所述計算一個初始效用函數(shù)的裝置用于計算包括所述第一影響函數(shù)的一個部分效用函數(shù)；以及通過在所述初始效用函數(shù)的斷點處計算所述第二影響函數(shù)的數(shù)值并且在所述第二影響函數(shù)的斷點處計算所述初始效用函數(shù)的數(shù)值，而把所述第二影響函數(shù)與所述初始效用函數(shù)相加。
22.根據(jù)權利要求21所述的裝置，其中所述確定音調頻率候選項的裝置包括優(yōu)先地選擇在頻率上接近于所述語音信號的先前幀的以前估計的音調頻率的所述初始效用函數(shù)的局部極大值。
23.根據(jù)權利要求16所述的裝置，其中所述計算一個最后效用分數(shù)的裝置用于響應每個所述譜線計算一個影響函數(shù)，其中所述影響函數(shù)在所述譜線的頻率與任何音調頻率的比率上是周期性的；以及計算所述影響函數(shù)的總和。
24.根據(jù)權利要求23所述的裝置，其中所述計算影響函數(shù)的裝置包括計算具有在所述比率的整數(shù)值上具有極大值以及其間的極小值的所述比率的函數(shù)。
25.根據(jù)權利要求24所述的裝置，其中所述計算所述比率的函數(shù)的裝置計算一個分段線性函數(shù)c(f)，其具有在f＝0附近的第一間隔中的極大值、在f＝1/2附近的第二間隔中的極小值、以及在該第一和第二間隔之間的轉變間隔中分段線性變化的數(shù)值。
26.根據(jù)權利要求16所述的裝置，其中所述選擇音調頻率的裝置優(yōu)先地選擇在具有比另一個所述初始音調頻率候選項更高的最后效用分數(shù)的所述初始音調頻率候選項之一。
27.根據(jù)權利要求16所述的裝置，其中所述選擇音調頻率的裝置優(yōu)先地選擇具有比另一個所述初始音調頻率候選項更高的頻率的一個所述初始音調頻率候選項。
28.根據(jù)權利要求16所述的裝置，其中所述選擇音調頻率的裝置包括優(yōu)先地選擇在頻率上接近于所述語音信號的先前幀的以前估計的音調頻率的所述初始效用頻率候選項之一。
29.根據(jù)權利要求16所述的裝置，其中進一步包括通過把所述被估計的音調頻率的所述最后效用分數(shù)與一個預定閾值相比較而確定所述語音信號是否濁音或清音的裝置。
30.根據(jù)權利要求16所述的裝置，其中進一步包括響應所述被估計的音調頻率而對所述語音信號進行編碼的裝置。
31.一種體現(xiàn)在計算機可讀介質上的計算機程序，該計算機程序包括用于確定語音信號的一個幀的譜線的第一代碼段，該頻譜包括具有各個線幅度和線頻率的多個譜線；用于在所述譜線中選擇具有最高幅度的預定數(shù)目的所述譜線的第二代碼段，其中所選擇的譜線的數(shù)目小于所述多個譜線的總數(shù)；用于計算在一個音調頻率范圍上的初始效用函數(shù)的第三代碼段，從而在所述范圍中提供用于每個音調頻率的初始效用函數(shù)值，作為所述被選擇的譜線與所述音調頻率的兼容性的一個度量；用于至少部分地響應所述初始效用函數(shù)識別預定數(shù)目的初始音調頻率候選項的第四代碼段，其中每個初始音調頻率候選項是所述初始效用函數(shù)的局部極大值；用于對每個所述初始音調頻率候選項計算一個最后效用分數(shù)的第五代碼段；以及用于至少部分地響應任何所述最后效用分數(shù)，選擇要成為所述語音信號的一個被估計的音調頻率的所述多個初始音調頻率候選項中的任何一個的第六代碼段。
全文摘要
通過確定包含具有各個線幅度和頻率的譜線的語音信號幀線狀頻譜；選擇少于該譜線的總數(shù)的具有最高幅度的預定數(shù)目的譜線；計算在一個音調頻率范圍上的初始效用函數(shù)以提供用于在測量所選擇譜線與音調頻率的兼容性的范圍中的每個音調頻率的初始效用函數(shù)值；至少部分地響應所述初始效用函數(shù)識別預定數(shù)目的初始音調頻率候選項，其中每個候選項是所述初始效用函數(shù)的局部極大值；對每個所述初始音調頻率候選項計算一個最后效用分數(shù)；以及至少部分地響應任何所述最后效用分數(shù)，選擇要成為所述語音信號的一個被估計的音調頻率的任何一個候選項，以估計一個語音信號的音調頻率。
文檔編號G10L15/00GK1525435SQ200410005940
公開日2004年9月1日申請日期2004年2月23日優(yōu)先權日2003年2月24日
發(fā)明者亞歷山大·索里恩, 亞歷山大索里恩申請人:國際商業(yè)機器公司

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：亞歷山大.索里恩
技術所有人：國際商業(yè)機器公司
我是此專利的發(fā)明人

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

用于估計語音信號的音調頻率的方法和裝置的制作方法