處理丟失幀的語(yǔ)音通信系統(tǒng)及方法

文檔序號(hào)：2821226閱讀：166來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：處理丟失幀的語(yǔ)音通信系統(tǒng)及方法
參考引用在此整體結(jié)合以下美國(guó)專利申請(qǐng)以資參考并使其構(gòu)成本申請(qǐng)的一部分1998年9月18日提交的，序列號(hào)為09/156,650的美國(guó)專利申請(qǐng)“Speech Encoder Using Gain Normalization That Combines Open AndClosed Loop Gain”，Conexant文檔號(hào)為98RSS399；1999年9月22日提交的，序列號(hào)為60/155,321的美國(guó)臨時(shí)申請(qǐng)，“4kbits/s Speech Coding”，Conexant文檔號(hào)為99RSS485；以及2000年5月19日提交的，序列號(hào)為09/574,396的美國(guó)專利申請(qǐng)，“ANew Speech Gain Quantization Strategy”，Conexant文檔號(hào)為99RSS312。
背景技術(shù)：
本發(fā)明一般涉及話音通信系統(tǒng)中語(yǔ)音的編碼和解密，更具體地說(shuō)，涉及處理錯(cuò)誤幀或丟失幀的方法和設(shè)備。
為了對(duì)基本的語(yǔ)音建模，對(duì)語(yǔ)音信號(hào)按時(shí)間采樣并按幀存儲(chǔ)作為待被數(shù)字化處理的離散波形。然而，為了更有效地使用語(yǔ)音的通信帶寬，在發(fā)送之前，特別是當(dāng)語(yǔ)音要在有限帶寬約束下傳輸時(shí)要對(duì)語(yǔ)音進(jìn)行編碼。對(duì)于不同的語(yǔ)音編碼問(wèn)題已經(jīng)提出多種算法。例如，可對(duì)語(yǔ)音信號(hào)執(zhí)行合成分析的編碼方法。在編碼語(yǔ)音時(shí)，語(yǔ)音編碼算法試圖以需要最小帶寬的方式表示語(yǔ)音信號(hào)的特征。例如，語(yǔ)音編碼算法設(shè)法除去語(yǔ)音信號(hào)中的冗余性。第一步是除去短期相關(guān)性。一種信號(hào)編碼技術(shù)是線性預(yù)測(cè)編碼(LPC)。在使用LPC方法時(shí)，將任意特定時(shí)間的語(yǔ)音信號(hào)值模型化為先前值的線性函數(shù)。通過(guò)使用LPC方法，能夠降低短期相關(guān)性，并可通過(guò)估計(jì)并應(yīng)用某些預(yù)測(cè)參數(shù)表示該信號(hào)來(lái)確定有效的語(yǔ)音信號(hào)表示。作為語(yǔ)音信號(hào)中短期相關(guān)性包絡(luò)的LPC頻譜，例如可由LSF(線譜頻率)表示。在除去語(yǔ)音信號(hào)中的短期相關(guān)性之后，保留有LPC殘余信號(hào)。這種殘余信號(hào)包含需要被模型化的周期性信息。除去語(yǔ)音中的冗余性的第二步是對(duì)周期性信息建模?？墒褂靡粽{(diào)預(yù)測(cè)對(duì)周期性信息建模。語(yǔ)音的某些部分具有周期性，而其它部分則沒(méi)有。例如，聲音“aah”有周期性信息，而聲音“shhh”則沒(méi)有周期性信息。
在使用LPC技術(shù)時(shí)，傳統(tǒng)的源編碼器作用于語(yǔ)音信號(hào)，以便提取待被編碼的建模和參數(shù)信息，用于通過(guò)通信信道與傳統(tǒng)的源解碼器通信。把建模和參數(shù)信息編碼為較小信息量的一種方法是使用量化。參數(shù)的量化涉及在表或碼本中選擇最接近的項(xiàng)表示該參數(shù)。這樣，例如如果碼本包含0，0.1，0.2，0.3等，則可由0.1表示參數(shù)0.125。量化包括標(biāo)量量化和矢量量化。在標(biāo)量量化中，在表或碼本中按上述選擇最接近參數(shù)的項(xiàng)。與此相對(duì)照，矢量量化組合兩個(gè)或多個(gè)參數(shù)，并在表或碼本中選擇最接近被組合的參數(shù)的項(xiàng)。例如矢量量化可以在碼本中選擇最接近參數(shù)之間的差的項(xiàng)。用于一次矢量量化兩個(gè)參數(shù)的碼本常被稱為二維碼本。一個(gè)n-維碼本一次量化n個(gè)參數(shù)。
量化的參數(shù)可被打包為若干數(shù)據(jù)包，從編碼器發(fā)送至解碼器。換言之，一旦被編碼，表示輸入語(yǔ)音信號(hào)的參數(shù)就被發(fā)送至收發(fā)器。這樣，例如可將LSF量化，并且將對(duì)應(yīng)于碼本中的索引轉(zhuǎn)換為若干位，然后從編碼器發(fā)送至解碼器。根據(jù)該實(shí)施例，每一個(gè)包可表示該語(yǔ)音信號(hào)的一個(gè)幀的一部分，一個(gè)語(yǔ)音幀，或不止一個(gè)語(yǔ)音幀。在收發(fā)器處，解碼器接收被編碼的信息。因?yàn)榻獯a器被配置為知道語(yǔ)音信號(hào)被編碼的方式，故解碼器可對(duì)編碼的信息解碼，以便重構(gòu)用于回放人耳感覺(jué)如同原來(lái)語(yǔ)音的聲音信號(hào)。然而，至少有一個(gè)數(shù)據(jù)包在傳輸期間丟失可能是不可避免的，從而解碼器并沒(méi)有收到由編碼器發(fā)送的所有信息。例如，當(dāng)語(yǔ)音從一蜂窩式電話向另一蜂窩式電話傳輸時(shí)，在接收不良或有噪聲時(shí)數(shù)據(jù)可能丟失。因而，向解碼器發(fā)送編碼的建模和參數(shù)信息需要一種方法，該方法使得解碼器能夠校正或調(diào)整丟失的數(shù)據(jù)包。雖然現(xiàn)有技術(shù)描述了某些用于調(diào)整丟失的數(shù)據(jù)包的方法，例如通過(guò)外推試圖猜測(cè)丟失的包中是些什么信息，但這些方法受到限制，以至需要改進(jìn)的方法。
除了LSF信息之外，向解碼器發(fā)送的其它參數(shù)也可能丟失。例如在CELP(碼激勵(lì)線性預(yù)測(cè))語(yǔ)音編碼中，有兩種類型的增益也要被量化并向解碼器發(fā)送。第一種類型的增益是音調(diào)增益GP，也稱為自適應(yīng)碼本增益。自適應(yīng)碼本增益有時(shí)(包括這里)以下標(biāo)“a”而不是下標(biāo)“p”標(biāo)記。第二類增益是固定碼本增益GC。語(yǔ)音編碼算法具有包括自適應(yīng)碼本增益和固定碼本增益的量化參數(shù)。其他參數(shù)可包括例如代表話音語(yǔ)音(voiced speech)周期性的音調(diào)滯后。如果語(yǔ)音編碼器對(duì)語(yǔ)音信號(hào)分類，也可以向解碼器發(fā)送關(guān)于語(yǔ)音信號(hào)分類的信息。對(duì)于將語(yǔ)音分類并以不同模式操作的改進(jìn)的語(yǔ)音編碼器/解碼器，參見2000年5月19日提交的美國(guó)專利申請(qǐng)09/574,396，“A New Speech Gain Quantization Strategy，”Conexant文檔號(hào)為99RSS312，該文獻(xiàn)先前已被引用在此作為參考。
因?yàn)檫@些和其它參數(shù)信息是通過(guò)不完善的傳輸裝置向解碼器發(fā)送，這些參數(shù)的某些會(huì)丟失或永遠(yuǎn)不會(huì)被解碼器收到。對(duì)于每一語(yǔ)音幀傳輸一個(gè)信息包的語(yǔ)音通信系統(tǒng)，一個(gè)包的丟失就造成一幀信息的丟失。為了重構(gòu)或估計(jì)丟失的信息，現(xiàn)有技術(shù)系統(tǒng)根據(jù)參數(shù)的丟失已嘗試了不同的方法。某些方法簡(jiǎn)單地使用實(shí)際上由解碼器收到的來(lái)自先前幀的參數(shù)。這些現(xiàn)有技術(shù)方法有其不足之處，不夠精確并有問(wèn)題。這樣就需要一種改進(jìn)的方法來(lái)校正或調(diào)整丟失的信息，使得再生一個(gè)盡可能接近原來(lái)的語(yǔ)音信號(hào)的語(yǔ)音信號(hào)。
為了節(jié)省帶寬，某些現(xiàn)有技術(shù)語(yǔ)音通信系統(tǒng)不從編碼器向解碼器傳輸固定碼本激勵(lì)。這些系統(tǒng)具有本地高斯時(shí)間序列產(chǎn)生器，所述時(shí)間序列產(chǎn)生器使用初始固定種子值(seed)產(chǎn)生隨機(jī)激勵(lì)值，然后每當(dāng)系統(tǒng)遇到包含靜音或背景噪聲的幀時(shí)就更新該種子值。這樣，對(duì)于每一個(gè)噪聲幀，種子值都發(fā)生改變。因?yàn)榫幋a器和解碼器具有按相同的順序使用相同的種子值的相同的高斯時(shí)間序列產(chǎn)生器，因而它們對(duì)噪聲幀產(chǎn)生相同的隨機(jī)激勵(lì)值。然而，如果一個(gè)噪聲幀丟失而沒(méi)有被解碼器收到，則編碼器和解碼器對(duì)相同的噪聲幀使用不同的種子值，從而失去它們的同步性。這樣，就需要一種語(yǔ)音通信系統(tǒng)，它不向解碼器發(fā)送固定碼本激勵(lì)值，但是當(dāng)傳輸期間幀丟失時(shí)，能夠維持編碼器與解碼器之間的同步。

發(fā)明內(nèi)容
在使用改進(jìn)的方法處理從編碼器向解碼器傳輸期間丟失信息的語(yǔ)音通信系統(tǒng)和方法中，可發(fā)現(xiàn)本發(fā)明各個(gè)單獨(dú)的方面。特別地，該改進(jìn)的語(yǔ)音通信系統(tǒng)能夠?qū)σ粊G失的數(shù)據(jù)包中丟失的信息產(chǎn)生更精確的估計(jì)。例如，該改進(jìn)的語(yǔ)音通信系統(tǒng)能夠更精確處理丟失的信息，諸如LSF，音調(diào)滯后(或自適應(yīng)碼本激勵(lì))，固定碼本激勵(lì)和/或增益信息。在不向解碼器發(fā)送固定碼本激勵(lì)值的語(yǔ)音通信系統(tǒng)的一個(gè)實(shí)施例中，即使先前的噪聲幀在傳輸期間丟失，該改進(jìn)的編碼器/解碼器也能夠?qū)o定的噪聲幀產(chǎn)生相同的隨機(jī)激勵(lì)值。
本發(fā)明第一個(gè)單獨(dú)的方面是一種語(yǔ)音通信系統(tǒng)，該系統(tǒng)以受控的自適應(yīng)方式通過(guò)把LSF之間的最小間隔設(shè)置為一增加的值，然后對(duì)后續(xù)的幀降低該值來(lái)處理丟失的LSF信息。
本發(fā)明第二個(gè)單獨(dú)的方面是一種語(yǔ)音通信系統(tǒng)，該系統(tǒng)通過(guò)從多個(gè)先前收到的幀的音調(diào)滯后外推而估計(jì)丟失的音調(diào)滯后。
本發(fā)明第三個(gè)單獨(dú)的方面是一種語(yǔ)音通信系統(tǒng)，該系統(tǒng)接收后續(xù)收到的幀的音調(diào)滯后，并使用先前收到的幀的音調(diào)滯后與后續(xù)收到的幀的音調(diào)滯后之間的曲線擬合，微調(diào)其對(duì)丟失幀的音調(diào)滯后的估計(jì)，以便在由后續(xù)幀使用自適應(yīng)碼本緩沖器之前對(duì)其進(jìn)行調(diào)整或校正。
本發(fā)明第四個(gè)單獨(dú)的方面是一種語(yǔ)音通信系統(tǒng)，該系統(tǒng)對(duì)周期狀語(yǔ)音丟失增益參數(shù)的估計(jì)不同于其對(duì)非周期狀語(yǔ)音丟失增益參數(shù)的估計(jì)。
本發(fā)明第五個(gè)單獨(dú)的方面是一種語(yǔ)音通信系統(tǒng)，該系統(tǒng)對(duì)丟失的自適應(yīng)碼本增益參數(shù)的估計(jì)不同于其對(duì)丟失的固定碼本增益參數(shù)的估計(jì)。
本發(fā)明第六個(gè)單獨(dú)的方面是一種語(yǔ)音通信系統(tǒng)，該系統(tǒng)基于一自適應(yīng)數(shù)量的先前收到的幀的子幀的平均自適應(yīng)碼本增益參數(shù)，確定用于非周期狀語(yǔ)音的丟失幀的丟失的自適應(yīng)碼本增益參數(shù)。
本發(fā)明第七個(gè)單獨(dú)的方面是一種語(yǔ)音通信系統(tǒng)，該系統(tǒng)基于一自適應(yīng)數(shù)量的先前收到的幀的子幀的平均自適應(yīng)碼本增益參數(shù)，及自適應(yīng)碼本激勵(lì)能量對(duì)總激勵(lì)能量的比值，確定用于非周期狀語(yǔ)音的丟失幀的丟失的自適應(yīng)碼本增益參數(shù)。
本發(fā)明第八個(gè)單獨(dú)的方面是一種語(yǔ)音通信系統(tǒng)，該系統(tǒng)基于一自適應(yīng)數(shù)量的先前收到的幀的子幀的平均自適應(yīng)碼本增益參數(shù)，自適應(yīng)碼本激勵(lì)能量對(duì)總激勵(lì)能量的比值，及先前收到的幀的譜傾斜和/或先前收到的幀的能量，確定用于非周期狀語(yǔ)音的丟失幀的丟失的自適應(yīng)碼本增益參數(shù)。
本發(fā)明第九個(gè)單獨(dú)的方面是一種語(yǔ)音通信系統(tǒng)，該系統(tǒng)將用于非周期狀語(yǔ)音的一個(gè)丟失幀的丟失的自適應(yīng)碼本增益參數(shù)設(shè)置為任意高的數(shù)。
本發(fā)明第十個(gè)單獨(dú)的方面是一種語(yǔ)音通信系統(tǒng)，該系統(tǒng)對(duì)于非周期狀語(yǔ)音的一個(gè)丟失幀的所有子幀，將丟失的固定碼本增益參數(shù)設(shè)置為零。
本發(fā)明第十一個(gè)單獨(dú)的方面是一種語(yǔ)音通信系統(tǒng)，該系統(tǒng)基于先前收到的幀的能量與該丟失幀的能量的比值，確定用于該非周期狀語(yǔ)音丟失幀的當(dāng)前子幀的丟失的固定碼本增益參數(shù)。
本發(fā)明第十二個(gè)單獨(dú)的方面是一種語(yǔ)音通信系統(tǒng)，該系統(tǒng)基于先前收到的幀的能量與該丟失幀的能量的比值，確定用于該丟失幀的當(dāng)前子幀的丟失的固定碼本增益參數(shù)，然后減小該參數(shù)以設(shè)置用于該丟失幀的其余子幀的丟失的固定碼本增益參數(shù)。
本發(fā)明第十三個(gè)單獨(dú)的方面是一種語(yǔ)音通信系統(tǒng)，該系統(tǒng)對(duì)于在接收幀之后要丟失的第一個(gè)周期狀語(yǔ)音幀，將丟失的自適應(yīng)碼本增益參數(shù)設(shè)置為一任意高的數(shù)。
本發(fā)明第十四個(gè)單獨(dú)的方面是一種語(yǔ)音通信系統(tǒng)，該系統(tǒng)對(duì)于在接收幀之后要丟失的第一個(gè)周期狀語(yǔ)音幀，將丟失的自適應(yīng)碼本增益參數(shù)設(shè)置為一任意高的數(shù)，然后減小該參數(shù)，以設(shè)置用于該丟失幀的其余子幀的丟失的自適應(yīng)碼本增益參數(shù)。
本發(fā)明第十五個(gè)單獨(dú)的方面是一種語(yǔ)音通信系統(tǒng)，該系統(tǒng)在多個(gè)先前收到的幀的平均自適應(yīng)碼本增益參數(shù)超過(guò)一閾值的情況下，將用于一丟失的周期狀語(yǔ)音的固定碼本增益參數(shù)設(shè)置為零。
本發(fā)明第十六個(gè)單獨(dú)的方面是一種語(yǔ)音通信系統(tǒng)，該系統(tǒng)在多個(gè)先前收到的幀的平均自適應(yīng)碼本增益參數(shù)不超過(guò)一閾值的情況下，基于先前收到的幀的能量與丟失幀的能量的比值，確定用于該丟失的周期狀語(yǔ)音幀的當(dāng)前子幀的丟失的固定碼本增益參數(shù)。
本發(fā)明第十七個(gè)單獨(dú)的方面是一種語(yǔ)音通信系統(tǒng)，該系統(tǒng)在多個(gè)先前收到的幀的平均自適應(yīng)碼本增益參數(shù)超過(guò)一閾值的情況下，基于先前收到的幀的能量與丟失幀的能量的比值，確定用于該丟失幀的當(dāng)前子幀的丟失的固定碼本增益參數(shù)，然后減小該參數(shù)以便設(shè)置用于該丟失幀的其余子幀的丟失的固定碼本增益參數(shù)。
本發(fā)明第十八個(gè)單獨(dú)的方面是一種語(yǔ)音通信系統(tǒng)，該系統(tǒng)使用一種子值隨機(jī)產(chǎn)生一固定碼本激勵(lì)用于一給定幀，該種子值的值由該幀中的信息確定。
本發(fā)明第十九個(gè)單獨(dú)的方面是一種語(yǔ)音通信解碼器，該解碼器在估計(jì)丟失幀中的丟失參數(shù)并合成語(yǔ)音之后，使該合成的語(yǔ)音能量與先前收到的幀的能量匹配。
本發(fā)明第二十個(gè)單獨(dú)的方面是或者獨(dú)立地或者以某種方式組合的以上任何單獨(dú)方面。
在實(shí)現(xiàn)以上或者獨(dú)立地或者以某種方式組合的任何單獨(dú)方面的編碼和/或解碼語(yǔ)音信號(hào)的方法中，進(jìn)一步還能夠發(fā)現(xiàn)本發(fā)明的多個(gè)單獨(dú)的方面。
結(jié)合附圖，參考以下優(yōu)選實(shí)施例的詳細(xì)說(shuō)明，本發(fā)明的其它方面，優(yōu)點(diǎn)和新穎特性將更為明顯。

圖1是具有源編碼器和源解碼器的語(yǔ)音通信系統(tǒng)的功能框圖。
圖2是圖1的語(yǔ)音通信系統(tǒng)更詳細(xì)的功能框圖。
圖3是由圖1的語(yǔ)音通信系統(tǒng)的一實(shí)施例使用的源編碼器的示例性的第一級(jí)即語(yǔ)音預(yù)處理器的功能框圖。
圖4是一功能框圖，示例性地示出由圖1的語(yǔ)音通信系統(tǒng)的一實(shí)施例使用的源編碼器的第二級(jí)。
圖5是一功能框圖，示例性地示出由圖1的語(yǔ)音通信系統(tǒng)的一實(shí)施例使用的源編碼器的第三級(jí)。
圖6是一功能框圖，示例性地示出由圖1的語(yǔ)音通信系統(tǒng)的一實(shí)施例使用的源編碼器的第四級(jí)，用于處理非周期性語(yǔ)音(模式0)圖7是一功能框圖，示例性地示出由圖1的語(yǔ)音通信系統(tǒng)的一實(shí)施例使用的源編碼器的第四級(jí)，用于處理周期性語(yǔ)音(模式1)。
圖8是用于處理來(lái)自根據(jù)本發(fā)明建立的語(yǔ)音編碼器的編碼信息的語(yǔ)音解碼器的一實(shí)施例的框圖。
圖9表示一假設(shè)的接收幀和丟失幀的例子。
圖10表示現(xiàn)有技術(shù)系統(tǒng)中和根據(jù)本發(fā)明建立的語(yǔ)音通信系統(tǒng)中，接收幀和丟失幀以及指定給每一幀的LSF之間的最小間隔的一假設(shè)的例子。
圖11示出一假設(shè)的例子，表示現(xiàn)有技術(shù)語(yǔ)音通信系統(tǒng)如何對(duì)每一幀指定并使用音調(diào)滯后和增量音調(diào)滯后信息。
圖12示出一假設(shè)的例子，表示根據(jù)本發(fā)明建立的語(yǔ)音通信系統(tǒng)如何對(duì)每一幀指定并使用音調(diào)滯后和增量音調(diào)滯后信息。
圖13示出一假設(shè)的例子，表示當(dāng)有丟失幀時(shí)，根據(jù)本發(fā)明建立的語(yǔ)音通信系統(tǒng)如何對(duì)每一幀指定自適應(yīng)增益參數(shù)信息。
圖14示出一假設(shè)的例子，表示現(xiàn)有技術(shù)編碼器對(duì)于包含靜音或背景噪聲的每一幀如何使用種子值產(chǎn)生隨機(jī)激勵(lì)值。
圖15示出一假設(shè)的例子，表示現(xiàn)有技術(shù)解碼器對(duì)于包含靜音或背景噪聲的每一幀如何使用種子值產(chǎn)生隨機(jī)激勵(lì)值，及在有丟失幀的情況下是如何與編碼器失去同步的。
圖16是表示根據(jù)本發(fā)明的非周期狀語(yǔ)音處理的一個(gè)例子的流程圖。
圖17是表示根據(jù)本發(fā)明的周期狀語(yǔ)音處理一個(gè)例子的流程圖。
具體實(shí)施例方式
首先對(duì)整個(gè)語(yǔ)音通信系統(tǒng)進(jìn)行一般的說(shuō)明，然后對(duì)本發(fā)明的實(shí)施例進(jìn)行詳細(xì)描述。
圖1為語(yǔ)音通信系統(tǒng)的示意框圖，表示通信系統(tǒng)中語(yǔ)音編碼器和解碼器的一般使用。語(yǔ)音通信系統(tǒng)100通過(guò)通信信道103傳輸并再生語(yǔ)音。通信信道103可包括例如導(dǎo)線，光纖，或光學(xué)鏈路，但其一般至少部分包含射頻鏈路，如在蜂窩式電話中可看到的那樣，這種鏈路常常必須支持需要共享帶寬資源的多路、同時(shí)語(yǔ)音交換。
一個(gè)存儲(chǔ)裝置可連接到通信信道103以暫時(shí)存儲(chǔ)用于延遲再生或回放的語(yǔ)音信息，例如執(zhí)行應(yīng)答機(jī)功能，語(yǔ)音電子郵件等。類似地，在例如僅記錄并存儲(chǔ)語(yǔ)音用于隨后回放的通信系統(tǒng)100的單個(gè)裝置實(shí)施例中，通信信道103可由這種存儲(chǔ)裝置代替。
具體來(lái)說(shuō)，話筒111實(shí)時(shí)產(chǎn)生語(yǔ)音信號(hào)。話筒111把語(yǔ)音信號(hào)送到A/D(模擬到數(shù)字)轉(zhuǎn)換器115。A/D轉(zhuǎn)換器115把模擬語(yǔ)音信號(hào)轉(zhuǎn)換為數(shù)字形式，然后把該數(shù)字化的語(yǔ)音信號(hào)傳送到語(yǔ)音編碼器117。
語(yǔ)音編碼器117使用從多種編碼方式中選擇的一種方式對(duì)該數(shù)字化語(yǔ)音編碼。該多種編碼方式的每一種都使用特定的技術(shù)，試圖優(yōu)化得到的再生的語(yǔ)音的質(zhì)量。在工作在該多種方式中的任何一種方式時(shí)，語(yǔ)音編碼器117產(chǎn)生一系列建模和參數(shù)信息(例如“語(yǔ)音參數(shù)”)并把該語(yǔ)音參數(shù)傳送到一可選的信道編碼器119。
該可選的信道編碼器119與信道解碼器131協(xié)同工作通過(guò)通信信道103傳送語(yǔ)音參數(shù)。信道解碼器131把該語(yǔ)音參數(shù)轉(zhuǎn)發(fā)到語(yǔ)音解碼器133。語(yǔ)音解碼器133的工作方式對(duì)應(yīng)于語(yǔ)音編碼器117，其試圖盡可能精確地從所述語(yǔ)音參數(shù)再生原來(lái)的語(yǔ)音。語(yǔ)音解碼器133把再生的語(yǔ)音傳送到D/A(數(shù)字到模擬)轉(zhuǎn)換器135，使得再生的語(yǔ)音可通過(guò)揚(yáng)聲器137聽到。
圖2是表示圖1的示例性通信裝置的功能框圖。通信裝置151包括語(yǔ)音編碼器和解碼器兩者，用于同時(shí)捕獲并再生語(yǔ)音。通常在單一框架內(nèi)，通信裝置151例如可包括蜂窩式電話，便攜式電話，計(jì)算系統(tǒng)，或某些其它的通信裝置。另外，如果裝設(shè)了存儲(chǔ)器元件用于存儲(chǔ)編碼的語(yǔ)音信息，則通信裝置151可包括應(yīng)答機(jī)，錄音機(jī)，話音郵件系統(tǒng)，或其它通信存儲(chǔ)器裝置。
話筒155和A/D轉(zhuǎn)換器157把數(shù)字話音信號(hào)傳送到編碼系統(tǒng)159。編碼系統(tǒng)159進(jìn)行語(yǔ)音編碼，并把得到的語(yǔ)音參數(shù)信息傳送到通信信道。被傳送的語(yǔ)音參數(shù)信息可被指定用于在遠(yuǎn)地的另一通信裝置(未示出)。
在接收到語(yǔ)音參數(shù)信息時(shí)，解碼系統(tǒng)165進(jìn)行語(yǔ)音解碼。解碼系統(tǒng)把語(yǔ)音參數(shù)信息傳送到D/A轉(zhuǎn)換器167，在此，該模擬語(yǔ)音輸出可在揚(yáng)聲器169播放。最終結(jié)果是再生出盡可能與原來(lái)捕獲的語(yǔ)音相似的聲音。
編碼系統(tǒng)159包括執(zhí)行語(yǔ)音編碼的語(yǔ)音處理電路185，也包括執(zhí)行可選信道編碼的可選信道處理電路187。類似地，解碼系統(tǒng)165包括執(zhí)行語(yǔ)音解碼的語(yǔ)音處理電路189，以及執(zhí)行信道解碼的可選信道處理電路191。
雖然語(yǔ)音處理電路185和可選信道處理電路187是分開表示的，但它們可部分或整體地組合為單個(gè)的單元。例如，語(yǔ)音處理電路185和信道處理電路187可共享單個(gè)的DSP(數(shù)字信號(hào)處理器)和/或其它處理電路。類似地，語(yǔ)音處理電路189和可選信道處理電路191可完全分開或部分或整體組合。此外，整體或部分地組合還可用于語(yǔ)音處理電路185和189，信道處理電路187和191，處理電路185，187，189和191，或者根據(jù)情況處理。此外，每一個(gè)或所有控制解碼器和/或編碼器操作方面的電路可被稱為控制邏輯，并可通過(guò)例如微處理器，微控制器，CPU(中央處理器)，ALU(算法邏輯單元)，協(xié)處理器，ASIC(專用集成電路)，或任何其它類型電路和/或軟件實(shí)現(xiàn)。
編碼系統(tǒng)159和解碼系統(tǒng)165都使用存儲(chǔ)器161。在源編碼過(guò)程期間，語(yǔ)音處理電路185使用語(yǔ)音存儲(chǔ)器177的固定碼本181和自適應(yīng)碼本183。類似地，在源解碼過(guò)程期間，語(yǔ)音處理電路189使用固定碼本181和自適應(yīng)碼本183。
雖然所示的語(yǔ)音存儲(chǔ)器177由語(yǔ)音處理電路185與189共用，但也可以對(duì)每一處理電路185與189指定一個(gè)或多個(gè)分開的語(yǔ)音存儲(chǔ)器。存儲(chǔ)器161還包含處理電路185，187，189和191使用的軟件，以便執(zhí)行源編碼和解碼過(guò)程中所需的各種功能。
在討論語(yǔ)音編碼中改進(jìn)的實(shí)施例細(xì)節(jié)之前，在此提供對(duì)整個(gè)語(yǔ)音編碼算法的概述。本說(shuō)明書中所涉及的改進(jìn)的語(yǔ)音編碼算法例如可以是基于CELP模式的eX-CELP(擴(kuò)展的CELP)算法。eX-CELP算法的細(xì)節(jié)在轉(zhuǎn)讓給同一受讓人Conexant System，Inc.的美國(guó)專利申請(qǐng)中已討論，此前已在此引用以資參考1999年9月22日提交的，序列號(hào)為60/155,321的美國(guó)臨時(shí)申請(qǐng)“4 kbits/s Speech Coding，”Conexant文檔號(hào)為99RSS485。
為了以低位速率(諸如每秒4千位)達(dá)到通行的質(zhì)量(toll quality)，改進(jìn)的語(yǔ)音編碼算法與傳統(tǒng)的CELP算法的嚴(yán)格波形匹配標(biāo)準(zhǔn)有所偏離，且力圖捕獲輸入信號(hào)可感知的重要特征。為此，改進(jìn)的語(yǔ)音編碼算法根據(jù)一定的特征，諸如噪聲狀內(nèi)容級(jí)(degree of content)，尖銳狀內(nèi)容級(jí)，話音內(nèi)容級(jí)，非話音內(nèi)容級(jí)，幅度頻譜演變，能量輪廓的演變，周期性的演變等等，分析輸入信號(hào)，并使用這一信息來(lái)控制在編碼和量化過(guò)程期間的加權(quán)?；驹瓌t是要精確地表示感知上的重要特征，并允許較不重要特征方面有相對(duì)較大的誤差。其結(jié)果是，改進(jìn)的語(yǔ)音編碼算法集中在感知匹配，而不是波形匹配。集中在感知匹配的結(jié)果是獲得了滿意的語(yǔ)音再生，因?yàn)榧僭O(shè)在每秒4千位的位速率下，波形匹配不夠精確，無(wú)法真實(shí)的捕獲輸入信號(hào)中的所有信息。于是，改進(jìn)的語(yǔ)音編碼器進(jìn)行某些優(yōu)先性劃分以獲得改進(jìn)的結(jié)果。
在一具體的實(shí)施例中，該改進(jìn)的語(yǔ)音編碼器使用20毫秒，或每秒具有160個(gè)采樣的幀尺度，每一幀被劃分為兩個(gè)或三個(gè)子幀。子幀的數(shù)目取決于子幀處理的模式。在該具體實(shí)施例中，對(duì)每個(gè)語(yǔ)音幀可選擇兩種模式之一模式0和模式1。重要的是，處理子幀的方式取決于該模式。在該具體實(shí)施例中，模式0采用每幀兩個(gè)子幀，其中每個(gè)子幀持續(xù)時(shí)間為10毫秒，或包含80個(gè)采樣。類似地，在該示例性實(shí)施例中，模式1采用每幀三個(gè)子幀，其中第一和第二子幀持續(xù)時(shí)間為6.625毫秒，或包含53個(gè)采樣，而第三個(gè)子幀持續(xù)時(shí)間為6.75毫秒，或包含54個(gè)采樣。在這兩種模式下，均可使用15毫秒的超前(look ahead)。對(duì)于兩種模式0和1，均可使用一第十階線性預(yù)測(cè)(LP)模型來(lái)表示信號(hào)的譜包絡(luò)。LP模型例如可通過(guò)使用延遲決策，切換多級(jí)預(yù)測(cè)矢量量化方案在線性譜頻(LSF)域中編碼。
模式0使用傳統(tǒng)的語(yǔ)音編碼算法，諸如CELP算法。然而，模式0并非用于所有的語(yǔ)音幀，而是如以下更為詳細(xì)的討論，選擇模式0是要處理除了“周期狀”語(yǔ)音的所有語(yǔ)音幀。為了方便，“周期狀”語(yǔ)音在這里被稱為周期語(yǔ)音，所有其它語(yǔ)音為“非周期”語(yǔ)音。這種“非周期”語(yǔ)音包括其典型的參數(shù)諸如音調(diào)相關(guān)性和音調(diào)滯后迅速改變的過(guò)渡幀，以及其信號(hào)主要是噪聲狀的幀。模式0把每一幀分解為兩個(gè)子幀。模式0對(duì)每一子幀進(jìn)行一次音調(diào)滯后編碼，且其具有二維矢量量化器，以便對(duì)每一子幀進(jìn)行一次音調(diào)增益(即自適應(yīng)碼本增益)和固定碼本增益的聯(lián)合編碼。在該示例性例子中，固定碼本包含兩個(gè)脈沖子碼本和一個(gè)高斯子碼本；這兩個(gè)脈沖子碼本分別有兩個(gè)和三個(gè)脈沖。
模式1與傳統(tǒng)的CELP算法不同。模式1處理包含周期語(yǔ)音的幀，它們一般有高度的周期性并常常可由一平滑音調(diào)軌跡很好地表示。該具體的實(shí)施例中，模式1采用每幀三個(gè)子幀。在子幀處理之前，每出現(xiàn)一幀就對(duì)音調(diào)滯后進(jìn)行一次編碼，作為音調(diào)預(yù)處理的一部分，并從該滯后導(dǎo)出插入的音調(diào)軌跡。這些子幀的三個(gè)音調(diào)增益顯示出很好的穩(wěn)定性，并在閉環(huán)子幀處理之前基于均方誤差準(zhǔn)則使用預(yù)矢量量化被聯(lián)合量化?？蓮募訖?quán)的語(yǔ)音中導(dǎo)出非量化的這三個(gè)基準(zhǔn)音調(diào)增益，它們是基于幀的音調(diào)預(yù)處理的副產(chǎn)品。使用預(yù)量化音調(diào)增益，進(jìn)行傳統(tǒng)的CELP子幀處理，所不同在于剩下三個(gè)固定碼本增益未被量化。在基于延遲決策方法的子幀處理之后，使用能量的移動(dòng)平均預(yù)測(cè)聯(lián)合量化這三個(gè)固定碼本增益。隨后使用完全量化的參數(shù)合成這三個(gè)子幀。
基于包含在幀中的語(yǔ)音的分類對(duì)每一語(yǔ)音幀選擇處理模式的方式，以及周期語(yǔ)音處理的新穎方法，允許以顯著較少的位進(jìn)行增益量化，而在語(yǔ)音感知質(zhì)量上沒(méi)有任何明顯的損失。以下提供處理語(yǔ)音的這種方式的細(xì)節(jié)。
圖3-7是表示由圖1和2中所示語(yǔ)音編碼器的一實(shí)施例使用的多級(jí)編碼方法的功能框圖。具體來(lái)說(shuō)，圖3是表示包括多級(jí)編碼方法的第一級(jí)的語(yǔ)音預(yù)處理器193的功能框圖；圖4是表示第二級(jí)的功能框圖；圖5和6是表示第三級(jí)的模式0的功能框圖；以及圖7是表示第三級(jí)的模式1的功能框圖。包括編碼器處理電路的語(yǔ)音編碼器，一般在軟件指令下工作以便執(zhí)行以下功能。
讀取輸入的語(yǔ)音并以幀的形式緩存。轉(zhuǎn)到圖3的語(yǔ)音預(yù)處理器193，把輸入語(yǔ)音192的幀提供給靜音增強(qiáng)器195，其確定該語(yǔ)音幀是否純粹是靜音，即只有“靜音噪聲”。語(yǔ)音增強(qiáng)器195基于幀自適應(yīng)地檢測(cè)當(dāng)前幀是否是純粹的“靜音噪聲”。如果信號(hào)192是“靜音噪聲”，則語(yǔ)音增強(qiáng)器195使該信號(hào)192傾斜為其零電平。否則，如果信號(hào)192不是“靜音噪聲”，則語(yǔ)音增強(qiáng)器195不改變信號(hào)192。語(yǔ)音增強(qiáng)器195對(duì)非常低電平的噪聲清除掉干凈語(yǔ)音的靜音部分，由此提高該干凈語(yǔ)音的感知質(zhì)量。在輸入的語(yǔ)音信號(hào)來(lái)源于A-定律源時(shí)，語(yǔ)音增強(qiáng)功能的效果變得尤為明顯；就是說(shuō)，就在通過(guò)當(dāng)前語(yǔ)音編碼算法處理之前，該輸入已經(jīng)通過(guò)A-定律編碼和解碼。由于A-定律將0附近的采樣值(例如-1，0，+1)放大為-8或+8，A-定律中的放大能夠變換不可聽到的靜音噪聲為清晰可聽到的噪聲。在由語(yǔ)音增強(qiáng)器195的處理之后，語(yǔ)音信號(hào)被提供給高通濾波器197。
高通濾波器197去除低于一定截止頻率的頻率，并允許高于該截止頻率的頻率通過(guò)到達(dá)噪聲衰減器199。在該具體實(shí)施例中，高通濾波器197與ITU-T的G.729語(yǔ)音編碼標(biāo)準(zhǔn)的輸入高通濾波器相同。就是說(shuō)，它是帶有140赫茲(Hz)截止頻率的第二階極-零濾波器。當(dāng)然，高通濾波器197不必是這種濾波器，而是可構(gòu)造為本領(lǐng)域技術(shù)人員所知的任何類型的合適的濾波器。
噪聲衰減器199執(zhí)行噪聲抑制算法。在該具體實(shí)施例中，噪聲衰減器199對(duì)環(huán)境噪聲進(jìn)行最大5分貝(dB)的微弱噪聲衰減，以便通過(guò)語(yǔ)音編碼算法改進(jìn)參數(shù)的估計(jì)?？墒褂帽绢I(lǐng)域技術(shù)人員所知的多種技術(shù)中的任何一種來(lái)增強(qiáng)靜音、構(gòu)建高通濾波器197并衰減噪聲。語(yǔ)音預(yù)處理器193的輸出是被預(yù)處理的語(yǔ)音200。
當(dāng)然，靜音增強(qiáng)器195、高通濾波器197和噪聲衰減器199可按可使用本領(lǐng)域技術(shù)人員所知的適用于該特定應(yīng)用的方式以任何其它裝置代替或修改。
轉(zhuǎn)到圖4，提供了公用的基于幀的語(yǔ)音信號(hào)處理功能框圖。換言之，圖4示出基于逐幀的語(yǔ)音信號(hào)的處理。在進(jìn)行模式相關(guān)處理250之前，這種幀處理的進(jìn)行與模式(即模式0或1)無(wú)關(guān)。預(yù)處理的語(yǔ)音200由感知加權(quán)濾波器252接收，該濾波器操作用以加強(qiáng)預(yù)處理的語(yǔ)音信號(hào)200的低谷區(qū)域并減弱其尖峰區(qū)域。感知加權(quán)濾波器252可按本領(lǐng)域技術(shù)人員所知的并適用于特定應(yīng)用的方式以任何其它裝置代替或修改。
LPC分析器260接收該預(yù)處理的應(yīng)用信號(hào)200并估計(jì)語(yǔ)音信號(hào)200的短期譜包絡(luò)。LPC分析器260從定義語(yǔ)音信號(hào)200的特征中提取LPC系數(shù)。在一個(gè)實(shí)施例中，對(duì)每一幀進(jìn)行三個(gè)第十階LPC分析。它們的中心在該幀的中間三分之一，最后三分之一，及幀的超前。重復(fù)對(duì)該超前的LPC分析，用于下一個(gè)幀，作為中心為該幀的第一個(gè)三分之一的LPC分析。這樣，對(duì)于每一幀，產(chǎn)生四組LPC參數(shù)。LPC分析器260還可將LPC系數(shù)量化至，例如線譜頻率(LSF)域。LPC系數(shù)的量化可以是標(biāo)量量化或矢量量化，并可在任何適當(dāng)?shù)挠蛑幸詷I(yè)內(nèi)任何已知的方式進(jìn)行。
分類器270通過(guò)例如查看幀的絕對(duì)最大值，反射系數(shù)，預(yù)測(cè)誤差，來(lái)自LPC分析器260的LSF矢量，第十階自相關(guān)，最近的音調(diào)滯后和最近的音調(diào)增益，來(lái)獲得關(guān)于預(yù)處理語(yǔ)音200的特征信息。這些參數(shù)是本領(lǐng)域技術(shù)人員所熟知的，因此在此不再解釋。分類器270使用這些信息控制編碼器的其它方面，諸如信噪比的估計(jì)，音調(diào)的估計(jì)，分類，譜平滑，能量平滑和增益歸一化。同樣，這些方面是本領(lǐng)域技術(shù)人員所熟知的，因此這里不再解釋。以下提供分類算法的簡(jiǎn)要總結(jié)。
分類器270借助于音調(diào)預(yù)處理器254，根據(jù)幀的主要特征把每一幀分類為六類之一。這些類型是(1)靜音/背景噪聲；(2)噪聲/似非話音語(yǔ)音；(3)非話音；(4)過(guò)渡音(包括啟動(dòng))；(5)非穩(wěn)定話音；及(6)穩(wěn)定話音。分類器270可使用任何一種方法把輸入信號(hào)分類為周期信號(hào)和非周期信號(hào)。例如，分類器270可把預(yù)處理語(yǔ)音信號(hào)，該幀的后一半的音調(diào)滯后和相關(guān)性，及其它信息作為輸入?yún)?shù)。
可使用各種標(biāo)準(zhǔn)以確定是否可將語(yǔ)音認(rèn)為是周期性的。例如，如果語(yǔ)音是穩(wěn)定的話音信號(hào)，則可認(rèn)為語(yǔ)音是周期性的。某些人可能認(rèn)為周期性語(yǔ)音包含穩(wěn)定話音語(yǔ)音和非穩(wěn)定話音語(yǔ)音，但為了本說(shuō)明書的說(shuō)明，周期性語(yǔ)音包括穩(wěn)定話音語(yǔ)音。此外，周期性語(yǔ)音可以是平滑和穩(wěn)定的語(yǔ)音。當(dāng)話音信號(hào)在一幀內(nèi)的變化不大于一定量時(shí)，該語(yǔ)音信號(hào)被認(rèn)為是“穩(wěn)定”的。這種語(yǔ)音信號(hào)更可能具有良好定義的能量輪廓。如果一語(yǔ)音的自適應(yīng)碼本增益GP大于一閾值，則該語(yǔ)音信號(hào)是“穩(wěn)定”的。例如，如果閾值為0.7，則當(dāng)其自適應(yīng)碼本增益GP大于0.7時(shí)，子幀內(nèi)的語(yǔ)音信號(hào)被認(rèn)為是穩(wěn)定。非周期性語(yǔ)音，或沒(méi)有話音的語(yǔ)音，包括非話音語(yǔ)音(例如，摩擦音諸如“shhh”聲音)，過(guò)渡音(例如啟動(dòng)音(onsets)，補(bǔ)償音(offsets))，背景噪聲和靜音。
更具體地說(shuō)，在該示例性實(shí)施例中，語(yǔ)音編碼器初始地導(dǎo)出以下參數(shù)譜傾斜(每幀對(duì)第一反射系數(shù)進(jìn)行四次估計(jì))κ(k)=Σn=1L-1sk(n)·sk(n-1)Σn=0L-1sk(n)2;k=0,1,...,3,---(1)]]>其中L＝80是在其上計(jì)算反射系數(shù)的窗口，而sk(n)是由以下等式給出的第k段Sk(n)＝s(k·40-20+n)·wh(n)，n＝0，1，...79， (2)其中wh(n)為80個(gè)采樣漢明窗，而s(0)，s(1)，...，s(159)是該預(yù)處理語(yǔ)音信號(hào)的當(dāng)前幀。
絕對(duì)最大值(跟蹤絕對(duì)信號(hào)最大值，每幀進(jìn)行8次估算)χ(k)＝max{s(n)|，n＝ns(k)，ns(k)+1，...，ne(k)-1}，k＝0，1，...，7 (3)其中ns(k)和ne(k)分別是用于在該幀的第k·160/8次采樣時(shí)刻搜索第k個(gè)最大值的開始點(diǎn)和結(jié)束點(diǎn)。一般來(lái)說(shuō)，段的長(zhǎng)度是音調(diào)周期的1.5倍且這些段部分重疊。這樣，就可獲得該振幅包絡(luò)的平滑輪廓。
譜傾斜，絕對(duì)最大值和音調(diào)相關(guān)參數(shù)構(gòu)成了分類的基礎(chǔ)。然而，對(duì)這些參數(shù)的其它處理和分析是在分類決定之前進(jìn)行的。所述參數(shù)處理最初是向這三個(gè)參數(shù)加權(quán)。在某種意義上，加權(quán)是通過(guò)減去來(lái)自背景噪聲的影響來(lái)去除這些參數(shù)中的背景噪聲成分。這提供了一種“獨(dú)立”于任何背景噪聲并由此更為一致的參數(shù)空間，并改進(jìn)了分類對(duì)背景噪聲的穩(wěn)定性。
根據(jù)以下方程式即方程式4-7，對(duì)于每一幀，將噪聲的音調(diào)周期能量的連續(xù)均值、噪聲的譜傾斜、噪聲的絕對(duì)最大值、以及噪聲的音調(diào)相關(guān)性更新八次。由方程式4-7定義的以下參數(shù)每幀被估計(jì)/采樣八次，提供具有精細(xì)的參數(shù)空間時(shí)間分辨率噪聲的音調(diào)周期能量的連續(xù)均值＜EN，P(k)＞＝α1·＜EN，P(k-1)＞+(1-α1)·EP(k)，(4)其中EN，P(k)是在該幀的k·160/8次采樣時(shí)刻音調(diào)周期的歸一化能量。由于音調(diào)周期一般超過(guò)20個(gè)采樣(160采樣/8)，在其上計(jì)算能量的各段可能重疊。
噪聲的譜傾斜的連續(xù)均值＜κN(k)＞＝α1·＜κN(k-1)＞+(1-α1)·κ(k模2) (5)噪聲的絕對(duì)最大值的連續(xù)均值＜χN(k)＞＝α1·＜XN(k-1)＞+(1-α1)·χ(k) (6)噪聲的音調(diào)相關(guān)的連續(xù)均值＜RN，P(k)＞＝α1·＜RN，P(k-1)＞+(1-α1)·RP(7)其中RP是該幀的后一半的輸入音調(diào)相關(guān)值。自適應(yīng)常數(shù)α1是自適應(yīng)的，雖然典型值是α1＝0.99。
背景噪聲對(duì)信號(hào)的比值根據(jù)以下公式計(jì)算γ(k)=<EN,P(k)>Ep(k).---(8)]]>參數(shù)噪聲衰減限制為30dB，即，γ(k)＝{γ(k)＞0.968？0.968γ(k)}(9)
根據(jù)以下方程式10-12，通過(guò)去除噪聲成分獲得無(wú)噪聲參數(shù)(加權(quán)參數(shù))集加權(quán)譜傾斜的估計(jì)κw(k)＝κw(k模2)-γ(k)·＜κN(k)＞ (10)加權(quán)的絕對(duì)最大值估計(jì)χw(k)＝χw(k)-y(k)·＜χN(k)＞ (11)加權(quán)音調(diào)相關(guān)估計(jì)Rw，P(k)＝RP-γ(k)·＜RN，P(k)＞ (12)分別根據(jù)以下方程式13和14計(jì)算作為一階近似斜率的加權(quán)傾斜和加權(quán)最大值的演變，作為一階近似斜率&PartialD;κw(k)=Σl=17l·(χw(k-7+l)-χw(k-7))Σl=17l2---(13)]]>&PartialD;κw(k)=Σl=17l·(κw(k-7+l)-κw(k-7))Σl=17l2---(14)]]>一旦對(duì)幀的八個(gè)采樣點(diǎn)更新了方程式4到14的參數(shù)，從方程式4-14的參數(shù)計(jì)算以下基于幀的參數(shù)最大加權(quán)音調(diào)相關(guān)
Rw,pmax=max{Rw,p(k-7+l),l=0,1,...,7}---(15)]]>平均加權(quán)音調(diào)相關(guān)Rw,pavg=18Σl=07Rw,p(k-7+l).---(16)]]>平均加權(quán)音調(diào)相關(guān)連續(xù)均值<Rw,pavg(m)>=α2·<Rw,pavg(m-1)>+(1-α2)·Rw,pavg,---(17)]]>其中m是幀數(shù)，α2＝0.75是自適應(yīng)常數(shù)。
音調(diào)滯后的歸一化標(biāo)準(zhǔn)偏差σLP(m)=1μLP(m)Σl=02(Lp(m-2+l)-μLP(m))23---(18)]]>其中Lp(m)是輸入音調(diào)滯后，μLP(m)是以下公式給出的過(guò)去三個(gè)幀上音調(diào)滯后的均值μLP(m)=13Σl=02(Lp(m-2+1)..---(19)]]>最小加權(quán)譜傾斜Knmin=min{κw(k-7+l),l=0,1,...,7}---(20)]]>最小加權(quán)譜傾斜的連續(xù)均值<κwmin(m)>=α2·<κwmin(m-1)>+(1-α2)·κwmin.---(21)]]>
平均加權(quán)譜傾斜κwavg=18Σl=07κw(k-7+l).---(22)]]>加權(quán)譜傾斜的最小斜率&PartialD;κwmin=min{&PartialD;κw(k-7+l),l=0,1,...,7.---(23)]]>加權(quán)譜傾斜的累計(jì)斜率&PartialD;κwacc=Σl=07&PartialD;κw(k-7+l).---(24)]]>加權(quán)最大值的最大斜率&PartialD;χwmax=max{&PartialD;χw(k-7+l),l=0,1,...,7---(25)]]>加權(quán)最大值的累計(jì)斜率&PartialD;χwacc=Σl=07&PartialD;χw(k-7+l).---(26)]]>由方程式23、25和26給出的參數(shù)用來(lái)標(biāo)記一幀是否有可能包含啟動(dòng)音(onset)，由方程式16-18、20-22給出的參數(shù)用來(lái)標(biāo)記一幀是否有可能是以話音語(yǔ)音為主?；谶@些初始標(biāo)記、過(guò)去的標(biāo)記和其它信息，該幀被分類為六個(gè)類型之一。
有關(guān)分類器270對(duì)預(yù)處理語(yǔ)音200進(jìn)行分類的方式在轉(zhuǎn)讓給同一受讓人，即Conexant Systems，Inc.的美國(guó)專利申請(qǐng)中有更詳細(xì)的描述，其先前已有引用這里作為參考1999年9月22日提交的，序列號(hào)為60/155,321的美國(guó)臨時(shí)申請(qǐng)“4 kbits/s Speech Coding”，Conexant的文檔號(hào)為99RSS485。
LSF量化器267從LPC分析器260接收LPC系數(shù)，并量化LPC系數(shù)?？梢允前?biāo)量量化或矢量量化的任何已知量化方法的LSF量化的目的，是要以較少的位來(lái)表示這些系數(shù)。在這一具體實(shí)施例中，LSF量化器267對(duì)第十階LPC模型進(jìn)行量化。LSF量化器267還可以平滑LSF，以便減少LPC合成濾波器的譜包絡(luò)中不希望有的波動(dòng)。LSF量化器267把量化的系數(shù)Aq(z)268發(fā)送到語(yǔ)音編碼器的子幀處理部分250。語(yǔ)音編碼器的子幀處理部分是模式相關(guān)的。雖然最好是LSF，但量化器267能夠把LPC系數(shù)量化到LSF域以外的域中。
如果選擇了音調(diào)預(yù)處理，則加權(quán)的語(yǔ)音信號(hào)256被發(fā)送到音調(diào)預(yù)處理器254。音調(diào)預(yù)處理器254與開環(huán)的音調(diào)估計(jì)器272協(xié)作以便修改該加權(quán)的語(yǔ)音256，使得其音調(diào)信息能夠被更精確地量化。音調(diào)預(yù)處理器254使用，例如，已知的對(duì)音調(diào)周期的壓縮或擴(kuò)張技術(shù)，以便改進(jìn)語(yǔ)音編碼器量化音調(diào)增益的能力。換言之，音調(diào)預(yù)處理器254修改加權(quán)的語(yǔ)音信號(hào)256，以便更好地匹配該估計(jì)的音調(diào)軌跡，這樣當(dāng)產(chǎn)生感知上不可區(qū)分的再生語(yǔ)音時(shí)，可更精確地適配編碼模型。如果編碼器處理電路選擇音調(diào)預(yù)處理模式，則音調(diào)預(yù)處理器254進(jìn)行加權(quán)語(yǔ)音信號(hào)256的音調(diào)預(yù)處理。音調(diào)預(yù)處理器254使該加權(quán)的語(yǔ)音信號(hào)256扭曲，以便匹配將由解碼器處理電路產(chǎn)生的內(nèi)插的音調(diào)值。當(dāng)應(yīng)用音調(diào)預(yù)處理時(shí)，該扭曲的語(yǔ)音信號(hào)被稱為修正的加權(quán)語(yǔ)音信號(hào)258。如果不選擇音調(diào)預(yù)處理模式，則該加權(quán)的語(yǔ)音信號(hào)256通過(guò)音調(diào)預(yù)處理器254而不作音調(diào)預(yù)處理(并為了方便，仍然稱為“改進(jìn)的加權(quán)的語(yǔ)音信號(hào)”258)。音調(diào)預(yù)處理器254可包括一波形內(nèi)插器，其功能和實(shí)現(xiàn)是本領(lǐng)域技術(shù)人員所熟知的。波形內(nèi)插器使用已知的前向-后向波形內(nèi)插技術(shù)可改進(jìn)某些不規(guī)則的過(guò)渡段，以便提高語(yǔ)音信號(hào)的規(guī)則性并抑制不規(guī)則性。通過(guò)音調(diào)預(yù)處理器254估計(jì)該加權(quán)的信號(hào)256的音調(diào)增益和音調(diào)相關(guān)。開環(huán)音調(diào)估計(jì)器272從該加權(quán)的語(yǔ)音256提取關(guān)于音調(diào)特征的信息。音調(diào)信息包含音調(diào)滯后和音調(diào)增益信息。
音調(diào)預(yù)處理器254還通過(guò)開環(huán)音調(diào)估計(jì)器272與分類器270相互作用，以便通過(guò)語(yǔ)音信號(hào)分類器270使分類精細(xì)化。因?yàn)橐粽{(diào)預(yù)處理器254獲得關(guān)于該語(yǔ)音信號(hào)的附加信息，故分類器270可使用該附加信息精細(xì)調(diào)整其語(yǔ)音信號(hào)的分類。在進(jìn)行音調(diào)預(yù)處理之后，音調(diào)預(yù)處理器254向該語(yǔ)音編碼器的模式相關(guān)子幀處理部分250輸出音調(diào)軌跡信息284及非量化音調(diào)增益286。
一旦分類器270把該預(yù)處理的語(yǔ)音200分類為多個(gè)可能的類型之一，該預(yù)處理的語(yǔ)音信號(hào)200的分類號(hào)碼就被作為控制信息280發(fā)送到模式選擇器274及模式相關(guān)子幀處理器250。模式選擇器274使用分類號(hào)碼選擇操作模式。在該特定實(shí)施例中，分類器270把該預(yù)處理的語(yǔ)音信號(hào)200分類為六個(gè)可能的類型之一。如果預(yù)處理的語(yǔ)音信號(hào)200是穩(wěn)定的話音語(yǔ)音(例如稱為“周期性”語(yǔ)音)，則模式選擇器274將模式282設(shè)置為模式1。否則，模式選擇器274將模式282設(shè)置為模式0。模式信號(hào)282被發(fā)送到語(yǔ)音編碼器的模式相關(guān)子幀處理器部分250。模式信息282被添加到向解碼器發(fā)送的位流。
在該特定實(shí)施例中，應(yīng)當(dāng)小心解釋將語(yǔ)音標(biāo)記為“周期性”和“非周期性”。例如，使用模式1編碼的幀是那些基于每幀僅由七位導(dǎo)出的音調(diào)軌跡284在該整個(gè)幀保持高音調(diào)相關(guān)和高音調(diào)增益的幀。因而，選擇模式0而不是模式1可能是由于僅由七位表示的音調(diào)軌跡284不精確，而不一定是由于缺乏周期性。因而，使用模式0被編碼的信號(hào)可能很好包含了周期性，雖然每幀僅使用七位未能很好地表示音調(diào)軌跡。因而，模式0以每幀七位對(duì)音調(diào)軌跡進(jìn)行兩次編碼，即每幀總共14位，以便更正確地表示音調(diào)軌跡。
本說(shuō)明書中圖3-4和其它圖示上的每一功能框圖不必是分離的結(jié)構(gòu)，可以是彼此組合，或按需要具有更多的功能塊。
語(yǔ)音解碼器的模式相關(guān)子幀處理部分250以模式0和模式1兩種模式操作。圖5-6提供了模式0子幀處理的功能框圖，而圖7表示語(yǔ)音編碼器第三級(jí)的模式1子幀處理的功能框圖。圖8示出與所述改進(jìn)的語(yǔ)音編碼器一致的一語(yǔ)音解碼器的功能框圖。該語(yǔ)音解碼器執(zhí)行位流到算法參數(shù)的逆映射，隨后是模式相關(guān)合成。這些圖示及模式更為詳細(xì)的描述在轉(zhuǎn)讓給相同受讓人，即Conexant Systems，Inc.的美國(guó)專利申請(qǐng)中有述，其先前已引用在此作為參考2000年5月19日提交的，序列號(hào)為09/574,396的美國(guó)專利申請(qǐng)“A New Speech Gain Quantization Strategy，”Conexant文檔號(hào)為99RSS312。
代表語(yǔ)音信號(hào)的量化的參數(shù)可被打包，然后以數(shù)據(jù)包的形式從編碼器發(fā)送至解碼器。在以下所描述的示例性實(shí)施例中，逐幀分析該語(yǔ)音信號(hào)，其中每一幀具有至少一個(gè)子幀，且每一數(shù)據(jù)包包含一個(gè)幀的信息。這樣，在該例中，每一幀的參數(shù)信息是以信息包被發(fā)送的。換言之，對(duì)每一幀有一個(gè)數(shù)據(jù)包。當(dāng)然，其它的變形也是可能的，這與實(shí)施例有關(guān)，每一數(shù)據(jù)包可表示一幀的一部分，一個(gè)以上的語(yǔ)音幀，或多個(gè)幀。
LSFLSF(線譜頻率)是LPC譜(即語(yǔ)音譜的短期包絡(luò))的表示。LSF可被看作若干特定的頻率，在這些頻率處，對(duì)該語(yǔ)音譜進(jìn)行采樣。例如，如果系統(tǒng)使用十階LPC，則每幀將有10個(gè)LSF。在連續(xù)的LSF之間必須有一最小間隔，使得它們不會(huì)產(chǎn)生準(zhǔn)不穩(wěn)定濾波器。例如如果fi是第i個(gè)LSF，且等于100Hz，則第(i+1)個(gè)LSF fi+1必須至少是fi加最小間隔。例如，如果fi＝100Hz且最小間隔為60Hz，則fi+1必須至少為160Hz，并可以是任何大于160Hz的頻率。最小間隔是不隨幀變化的一個(gè)固定數(shù)，并且編碼器和解碼器都知道，以便它們能夠協(xié)同操作。
假設(shè)編碼器使用預(yù)測(cè)編碼對(duì)實(shí)現(xiàn)低位速率的語(yǔ)音通信所必需的LSF編碼(與非預(yù)測(cè)編碼相反)。換言之，編碼器使用先前的一個(gè)幀或多個(gè)幀的量化的LSF來(lái)預(yù)測(cè)當(dāng)前幀的LSF。編碼器從LPC譜導(dǎo)出出的當(dāng)前幀的預(yù)測(cè)LSF與真實(shí)的LSF之間的誤差被量化并發(fā)送到解碼器。解碼器按與編碼器相同的方式確定當(dāng)前幀的預(yù)測(cè)LSF。然后通過(guò)獲知由編碼器發(fā)送的誤差，解碼器能夠計(jì)算出當(dāng)前幀的真實(shí)LSF。然而，如果包含LSF信息的幀丟失會(huì)如何？轉(zhuǎn)向圖9，假設(shè)編碼器發(fā)送幀0-3，而解碼器只收到幀0，2和3。幀1是丟失或“被抹掉”的幀。如果當(dāng)前幀是丟失的幀1，則解碼器沒(méi)有計(jì)算真實(shí)的LSF所必須的誤差信息。結(jié)果是現(xiàn)有技術(shù)系統(tǒng)不能計(jì)算真實(shí)的LSF，而是把該LSF設(shè)置為前一幀的LSF，或一定數(shù)量先前幀的平均LSF。這一方法的問(wèn)題在于當(dāng)前幀的LSF可能是非常不精確的(與真實(shí)的LSF比較)，且后續(xù)幀(即圖9的例子中幀2，3)使用幀1不精確的LSF確定它們自己的LSF。于是，由丟失幀所引起的LSF外推誤差影響到后續(xù)幀的LSF的精確性。
在本發(fā)明的示例實(shí)施例中，一種改進(jìn)的語(yǔ)音解碼器包括一計(jì)數(shù)器，它對(duì)該丟失幀之后的好幀進(jìn)行計(jì)數(shù)。圖10示出與每一幀相關(guān)聯(lián)的最小LSF間隔的一例。假設(shè)解碼器收到好幀0，但幀1丟失。在現(xiàn)有技術(shù)方法之下，LSF之間的最小間隔是不變的固定數(shù)(圖10中是60Hz)。相反，當(dāng)改進(jìn)的語(yǔ)音解碼器注意到有丟失幀時(shí)，它增加該幀的最小間隔以避免生成準(zhǔn)不穩(wěn)定濾波器。這一“受控的自適應(yīng)LSF間隔”的增加量取決于對(duì)該特定情形多大的間隔增量為最佳。例如，該改進(jìn)的語(yǔ)音解碼器可能考慮信號(hào)的能量(或信號(hào)功率)如何隨時(shí)間演變，信號(hào)的頻率內(nèi)容(頻譜)如何隨時(shí)間演變，以及計(jì)數(shù)器確定丟失幀的最小間隔應(yīng)當(dāng)被設(shè)置為怎樣的值。本領(lǐng)域的技術(shù)人員能夠通過(guò)簡(jiǎn)單的實(shí)驗(yàn)確定出怎樣的最小間隔值可滿足使用。分析語(yǔ)音信號(hào)和/或其參數(shù)以導(dǎo)出適當(dāng)?shù)腖SF的優(yōu)點(diǎn)在于，得到的LSF可更接近該幀真實(shí)的(但丟失的)LSF。
自適應(yīng)碼本激勵(lì)(音調(diào)滯后)由自適應(yīng)碼本激勵(lì)和固定碼本激勵(lì)組成的總激勵(lì)eT由以下方程式描述eT＝gp*exp+gc*exc(27)其中g(shù)p和gc分別是該量化的自適應(yīng)碼本增益和固定碼本增益，exp和exc是自適應(yīng)碼本激勵(lì)和固定碼本激勵(lì)。緩存器(也稱為自適應(yīng)碼本緩沖器)保存來(lái)自前一幀的eT及其分量?；诋?dāng)前幀的音調(diào)滯后參數(shù)，語(yǔ)音通信系統(tǒng)從緩存器選擇一eT，并使用它作為當(dāng)前幀的exp。gp，gc和exc是從當(dāng)前幀獲得的。然后exp，gp，gc和exc被帶入到公式中以計(jì)算用于當(dāng)前幀的eT。將該計(jì)算的eT及其分量存儲(chǔ)在緩存器中用于當(dāng)前幀。該過(guò)程重復(fù)，由此該緩存的eT用作為下一個(gè)幀的exp。這樣，該編碼方法(它由解碼器復(fù)制)的反饋特性是明顯的。由于方程式中的信息被量化，編碼器和解碼器被同步。注意，緩存器是一種自適應(yīng)碼本類型的(但不同于用于增益激勵(lì)的自適應(yīng)碼本)。
圖11示出由現(xiàn)有技術(shù)語(yǔ)音系統(tǒng)發(fā)送的用于四個(gè)幀1-4的音調(diào)滯后信息的例子。現(xiàn)有技術(shù)的編碼器將發(fā)送用于當(dāng)前幀的音調(diào)滯后和增量值，其中該增量值是當(dāng)前幀的音調(diào)滯后與前一幀的音調(diào)滯后之間的差，EVRC(增強(qiáng)的可變速率編碼器)標(biāo)準(zhǔn)規(guī)定了對(duì)增量音調(diào)滯后的使用。這樣，例如，關(guān)于幀1的信息包將包含音調(diào)滯后L1和增量(L1-L0)，其中L0是前一幀0的音調(diào)滯后；關(guān)于幀2的信息包將包含音調(diào)滯后L2和增量(L2-L1)；關(guān)于幀3的信息包將包含音調(diào)滯后L3和增量(L3-L2)，等等。注意，相鄰幀的音調(diào)滯后可能相等，于是增量值可能為零。如果幀2丟失且不再會(huì)由解碼器收到，則在幀2時(shí)刻可得到的關(guān)于音調(diào)滯后的唯一信息是音調(diào)滯后L1，因?yàn)榍耙粠?并未丟失。音調(diào)滯后L2和增量(L2-L1)信息的丟失造成兩個(gè)問(wèn)題。第一個(gè)問(wèn)題是如何對(duì)丟失的幀2估計(jì)精確的音調(diào)滯后L2。第二個(gè)問(wèn)題是如何防止在估計(jì)音調(diào)滯后L2中出現(xiàn)的誤差在后續(xù)幀中產(chǎn)生誤差。某些現(xiàn)有技術(shù)系統(tǒng)并沒(méi)有試圖解決這兩個(gè)問(wèn)題任何一個(gè)。
為試圖解決第一個(gè)問(wèn)題，某些現(xiàn)有技術(shù)系統(tǒng)使用來(lái)自前一良好幀1的音調(diào)滯后L1作為用于丟失幀2的估計(jì)的音調(diào)滯后L2’，即便如此，該估計(jì)的音調(diào)滯后L2’與真實(shí)的音調(diào)滯后L2之間的任何差都可能是誤差。
第二個(gè)問(wèn)題是如何防止在估計(jì)音調(diào)滯后L2’中出現(xiàn)的誤差在后續(xù)幀中產(chǎn)生誤差?；叵胂惹暗挠懻摚瑤琻的音調(diào)滯后是用來(lái)更新自適應(yīng)碼本緩存器的，該自適應(yīng)碼本緩存器接著由后續(xù)幀使用。估計(jì)的音調(diào)滯后L2’與真實(shí)的音調(diào)滯后L2之間的誤差將在自適應(yīng)碼本緩存器中產(chǎn)生一個(gè)誤差，該誤差將在后續(xù)接收的幀中產(chǎn)生誤差。換言之，在估計(jì)的音調(diào)滯后L2’中產(chǎn)生的誤差可能造成編碼器的自適應(yīng)碼本緩存器與解碼器的自適應(yīng)碼本緩存器之間失去同步。作為進(jìn)一步的例子，在當(dāng)前丟失幀2的處理期間，現(xiàn)有技術(shù)解碼器將使估計(jì)的音調(diào)滯后L2’為音調(diào)滯后L1(其可能不同于真實(shí)的音調(diào)滯后L2)以得到幀2的exp。因而，使用有誤差的音調(diào)滯后造成為幀2選擇了錯(cuò)誤的exp，且這一誤差通過(guò)后續(xù)幀傳播。為了解決現(xiàn)有技術(shù)中的這一問(wèn)題，當(dāng)解碼器收到幀3時(shí)，解碼器現(xiàn)在有音調(diào)滯后L3和增量(L3-L2)，且這樣能夠逆向計(jì)算真實(shí)的音調(diào)滯后L2應(yīng)當(dāng)為何。真實(shí)的音調(diào)滯后L2簡(jiǎn)單地就是音調(diào)滯后L3減去增量(L3-L2)。這樣，現(xiàn)有技術(shù)解碼器就能夠校正由幀3使用的自適應(yīng)碼本緩存器。但由于已由該估計(jì)的音調(diào)滯后L2’對(duì)丟失的幀2進(jìn)行了處理，故修正丟失的幀2為時(shí)已晚。
圖12示出若干幀的假設(shè)的情形，表示解決因丟失音調(diào)滯后信息而造成的兩個(gè)問(wèn)題而改進(jìn)的語(yǔ)音通信系統(tǒng)的示例實(shí)施例的操作。假設(shè)幀2丟失，而收到幀0，1，3和4。在解碼器處理丟失幀2的期間，該改進(jìn)的解碼器可使用來(lái)自先前幀1的音調(diào)滯后L1。另外且最好是，該改進(jìn)的解碼器可基于先前一個(gè)(多個(gè))幀的一個(gè)(多個(gè))音調(diào)滯后進(jìn)行外推以確定一估計(jì)的音調(diào)滯后L2’，其結(jié)果可能是比音調(diào)滯后L1更為精確的估計(jì)。于是，例如，解碼器可使用音調(diào)滯后L0和L1來(lái)外推該估計(jì)的音調(diào)滯后L2’。外推方法可以是任何外推法，例如曲線擬合方法，該方法假設(shè)自過(guò)去具有一平滑的音調(diào)輪廓來(lái)估計(jì)該丟失音調(diào)滯后L2，一種方法是使用過(guò)去音調(diào)滯后的平均，或任何其它外推方法。因?yàn)椴恍枰l(fā)送增量值，該方法降低了從編碼器向解碼器發(fā)送的位數(shù)。
為了解決第二個(gè)問(wèn)題，當(dāng)改進(jìn)的解碼器收到幀3時(shí)，解碼器有正確的音調(diào)滯后L3。然而，如上所述，幀3使用的自適應(yīng)碼本緩存器由于在估計(jì)音調(diào)滯后L2’中的任何外推誤差而可能不正確。該改進(jìn)的解碼器試圖校正在幀2中估計(jì)音調(diào)滯后L2’中的誤差，以免影響幀2之后的幀，但無(wú)需發(fā)送增量音調(diào)滯后信息。一旦改進(jìn)的解碼器獲得音調(diào)滯后L3，就使用諸如曲線擬合等內(nèi)插方法調(diào)整或精細(xì)調(diào)整其先前音調(diào)滯后L2’的估計(jì)。通過(guò)獲知音調(diào)滯后L1和L3，曲線擬合方法可以比當(dāng)不知道音調(diào)滯后L3時(shí)更精確估計(jì)L2’。其結(jié)果是得到精細(xì)調(diào)整的音調(diào)滯后L2”，它用來(lái)調(diào)整或校正供幀3使用的自適應(yīng)碼本緩存器。更具體地說(shuō)，精細(xì)調(diào)整的音調(diào)滯后L2”用來(lái)調(diào)整或校正自適應(yīng)碼本緩存器中的量化的自適應(yīng)碼本激勵(lì)。于是，該改進(jìn)的解碼器減少了必須發(fā)送的位數(shù)，同時(shí)以滿足大多數(shù)情形的方式精細(xì)調(diào)整音調(diào)滯后L2’。這樣，為了降低音調(diào)滯后L2中任何誤差對(duì)后續(xù)收到的幀的影響，通過(guò)假設(shè)平滑的音調(diào)輪廓，該改進(jìn)的解碼器可使用下一個(gè)幀3的音調(diào)滯后L3和先前收到的幀1的音調(diào)滯后L1精細(xì)調(diào)整音調(diào)滯后L2的先前的估計(jì)。這一基于該丟失幀之前和之后收到的幀的音調(diào)滯的估計(jì)方法的精確性可以是非常好的，因?yàn)閷?duì)于話音語(yǔ)音，音調(diào)輪廓一般是平滑的。
增益在幀從編碼器向解碼器的傳輸期間，幀的丟失還會(huì)造成增益參數(shù)失，增益參數(shù)，諸如，自適應(yīng)碼本增益gp和固定碼本增益gc的丟。每一幀包含多個(gè)子幀，其中每一子幀均具有增益信息。這樣，幀的丟失造成該幀的每一子幀的增益信息的丟失。語(yǔ)音通信系統(tǒng)必須估計(jì)該丟失幀的每一子幀的增益信息。一個(gè)子幀的增益信息可能不同于另一子幀的增益信息。
現(xiàn)有技術(shù)系統(tǒng)采取不同方法估計(jì)該丟失幀的子幀的增益，諸如使用來(lái)自先前良好幀的最后一個(gè)子幀的增益作為該丟失幀的每一子幀的增益。另一變形是使用來(lái)自先前良好幀的最后一個(gè)子幀的增益作為該丟失幀的第一子幀的增益，并在該增益被用作該丟失幀的后續(xù)子幀的增益之前逐漸對(duì)其進(jìn)行衰減。換言之，例如，如果每一幀有四個(gè)子幀，收到幀1但幀2丟失，則收到的幀1的最后一個(gè)子幀的增益參數(shù)被用作為丟失幀2的第一子幀的增益參數(shù)，然后使該增益參數(shù)減小一定量并用作該丟失幀2的第二子幀的增益參數(shù)，再次減小該增益參數(shù)并用作丟失幀2的第三子幀的增益參數(shù)，該增益參數(shù)進(jìn)而被減小并用作丟失幀2的最后一個(gè)子幀的增益參數(shù)。另一方法是檢查一固定數(shù)量的先前收到的幀的子幀的增益參數(shù)，以計(jì)算平均增益參數(shù)，然后將其用作丟失幀2的第一子幀的增益參數(shù)，其中可逐漸減小該增益參數(shù)并將其用作該丟失幀的其余子幀的增益參數(shù)。再一方法是通過(guò)檢查一固定數(shù)量的先前收到的幀的子幀導(dǎo)出增益參數(shù)的中間值，并使用該中間值作為該丟失幀2的第一子幀的增益參數(shù)，其中可逐漸減小該增益參數(shù)并將其用作該丟失幀的其余子幀的增益參數(shù)。顯然，現(xiàn)有技術(shù)方法沒(méi)有對(duì)自適應(yīng)碼本增益和固定碼本增益執(zhí)行不同的恢復(fù)方法；它們對(duì)兩種類型的增益使用相同的恢復(fù)方法。
該改進(jìn)的語(yǔ)音通信系統(tǒng)還可處理因丟失幀而丟失的增益參數(shù)。如果語(yǔ)音通信系統(tǒng)在周期狀語(yǔ)音和非周期狀語(yǔ)音之間作出區(qū)分，則系統(tǒng)可針對(duì)每一類型的語(yǔ)音以不同的方式處理丟失的增益參數(shù)。此外，該改進(jìn)的系統(tǒng)對(duì)丟失的自適應(yīng)碼本增益的處理不同于對(duì)丟失的固定碼本增益的處理。首先考察非周期狀語(yǔ)音的情形。為了確定估計(jì)的自適應(yīng)碼本增益gp，該改進(jìn)的解碼器計(jì)算先前收到的自適應(yīng)數(shù)量的幀的子幀的平均的gp。由解碼器估計(jì)的當(dāng)前幀(即丟失幀)的音調(diào)滯后，用來(lái)確定要考察的先前收到的幀的個(gè)數(shù)。一般來(lái)說(shuō)，音調(diào)滯后越大，用來(lái)計(jì)算平均的gp的先前收到的幀的數(shù)目就越大。因而，該改進(jìn)的解碼器對(duì)非周期狀語(yǔ)音使用音調(diào)同步化平均方法來(lái)估計(jì)自適應(yīng)碼本增益gp。然后該改進(jìn)的解碼器基于以下公式計(jì)算指示gp預(yù)測(cè)良好程度的ββ＝自適應(yīng)碼本激勵(lì)能量/總激勵(lì)能量eT＝gp*exp2/(gp*exp2+gc*exc2) (28)β從0到1變化，表示自適應(yīng)碼本激勵(lì)能量與激勵(lì)能量的百分比結(jié)果。β越大，自適應(yīng)碼本激勵(lì)能量的效果就越大。雖然不是必須的，但該改進(jìn)的解碼器最好以不同方式處理非周期狀語(yǔ)音和周期狀語(yǔ)音。
圖16示出解碼器處理非周期狀語(yǔ)音的示例性流程圖。步驟1000確定當(dāng)前幀是否是接收幀(即“好”幀)之后丟失的第一幀。如果當(dāng)前幀是好幀之后第一個(gè)丟失的幀，步驟1002確定由解碼器處理的當(dāng)前子幀是否是幀的第一子幀。如果當(dāng)前子幀是第一子幀，步驟1004計(jì)算一定數(shù)目的先前子幀的平均的gp，其中所述一定數(shù)量子幀的數(shù)目取決于當(dāng)前子幀的音調(diào)滯后。在一示例實(shí)施例中，如果該音調(diào)滯后小于或等于40，則平均gp基于兩個(gè)先前子幀；如果音調(diào)滯后大于40但小于或等于80，則gp基于四個(gè)先前子幀；如果音調(diào)滯后大于80但小于或等于120，則gp基于六個(gè)先前子幀；并如果音調(diào)滯后大于120，則gp基于八個(gè)先前子幀。當(dāng)然，這些值是任意的并可設(shè)置為與子幀長(zhǎng)度相關(guān)的任意其它值。步驟1006確定最大β是否超過(guò)一定的閾值。如果最大β超過(guò)一定的閾值，步驟1008將用于該丟失幀的所有子幀的固定碼本增益gc設(shè)置為零，且將用于該丟失幀的所有子幀的gp設(shè)置為一任意高的數(shù)，諸如0.95，而不是以上確定的平均gp。該任意高的數(shù)表明一良好的話音信號(hào)。該丟失幀的當(dāng)前子幀的gp所設(shè)置的任意高的數(shù)可基于多個(gè)因素，包括但不限于一確定數(shù)目的先前幀的最大β，先前收到的幀的譜傾斜，及先前收到的幀的能量。
否則，如果最大β不超過(guò)一確定的閾值(即先前收到的幀包含語(yǔ)音的啟動(dòng)音)，則步驟1010將用于該丟失幀的當(dāng)前子幀的gp設(shè)置為(i)以上確定的平均的gp及(ii)任意選擇的高的數(shù)(例如0.95)兩者中的最小值。另一可替代方式是，基于先前收到的幀的譜傾斜，先前收到的幀的能量，和以上確定的平均的gp及任意選擇的高的數(shù)(例如0.95)中的最小值，設(shè)置該丟失幀的當(dāng)前子幀的gp。在最大值β不超過(guò)一定閾值的情形下，該固定碼本增益gc是基于先前子幀中增益標(biāo)度固定碼本激勵(lì)的能量和當(dāng)前子幀中固定碼本激勵(lì)的能量的。具體地說(shuō)，由先前子幀中增益標(biāo)度固定碼本激勵(lì)的能量除當(dāng)前子幀中固定碼本激勵(lì)的能量，對(duì)結(jié)果求平方根并乘以衰減分?jǐn)?shù)，然后設(shè)置為gc，如以下公式所示gc＝衰減因子*平方根(gp*eXC i-12/eXC i2) (29)另外，解碼器可基于先前收到的幀的能量與當(dāng)前丟失幀的能量的比值，導(dǎo)出用于該丟失幀的當(dāng)前子幀的gc。
返回步驟1002，如果當(dāng)前幀不是第一個(gè)子幀，步驟1020設(shè)置該丟失幀的當(dāng)前子幀的gp為由前一子幀的gp衰減或降低的值。其余子幀的每個(gè)gp被設(shè)置為由前一子幀的gp進(jìn)一步衰減的值。用與步驟1010及公式29中相同的方式計(jì)算當(dāng)前子幀的gc。
返回步驟1000，如果這不是好幀之后第一個(gè)丟失幀，步驟1022按與步驟1010及公式29中相同的方式計(jì)算當(dāng)前子幀的gc。步驟1022還將該丟失幀的當(dāng)前子幀的gp設(shè)置為由前一子幀的gp衰減或降低的值。因?yàn)榻獯a器以不同方式估計(jì)gp和gc，故解碼器能夠比現(xiàn)有技術(shù)系統(tǒng)更為精確地估計(jì)它們。
現(xiàn)在根據(jù)圖17中所示的示例流程圖考察周期狀語(yǔ)音的情形。由于解碼器可使用不同的方法來(lái)估計(jì)周期狀語(yǔ)音和非周期狀語(yǔ)音的gp和gc，因此，對(duì)該增益參數(shù)的估計(jì)可以比現(xiàn)有技術(shù)方法更為精確。步驟1030確定當(dāng)前幀是否是收到幀(即“良好”幀)之后丟失的第一幀。如果當(dāng)前幀是良好幀之后的第一個(gè)丟失幀，則步驟1032將當(dāng)前幀的所有子幀的gc設(shè)置為零，并將當(dāng)前幀的所有子幀的gP設(shè)置為一任意高的數(shù)，例如0.95。如果當(dāng)前幀不是良好幀之后第一個(gè)丟失幀(例如是第二丟失幀，第三丟失幀等)，步驟1034將當(dāng)前幀的所有子幀的gc設(shè)置為零，并將gP設(shè)置為由前一子幀的gP衰減的值。
圖13示出若干幀以表示該改進(jìn)的語(yǔ)音解碼器的運(yùn)行的情形。假設(shè)幀1，3和4是好(即收到的)幀，而幀2，5-8是丟失幀。如果當(dāng)前丟失幀是好幀之后第一個(gè)丟失的幀，解碼器將該丟失幀的所有子幀的gp設(shè)置為任意高的數(shù)(例如0.95)。返回圖13，這將適用于丟失幀2和5。第一丟失幀5的gp被逐漸衰減以設(shè)置其它丟失幀6-8的gp。因而，例如如果丟失幀5的gp被設(shè)置為0.95，則丟失幀6的gp被設(shè)置為0.9，且丟失幀7的gp被設(shè)置為0.85，丟失幀8的gp被設(shè)置為0.8。對(duì)于gc，解碼器自先前收到的幀計(jì)算平均的gp，且如果這一平均的gp超過(guò)一定的閾值，則將該丟失幀的所有子幀的gC設(shè)置為零。如果平均的gP沒(méi)有超過(guò)一定的閾值，解碼器使用上述設(shè)置非周期狀信號(hào)的gC相同的方法設(shè)置這里的gC。
在解碼器估計(jì)一丟失幀中的丟失幀參數(shù)(例如LSF，音調(diào)滯后，增益，分類等)并分析得到的語(yǔ)音之后，解碼器通過(guò)外推技術(shù)能夠使該丟失幀的合成語(yǔ)音的能量與收到的前一幀的能量匹配。盡管有丟失幀，這可進(jìn)一步改進(jìn)原始語(yǔ)音再生的精確性。
用于產(chǎn)生固定碼本激勵(lì)的種子值為了節(jié)省帶寬，在背景噪聲或靜音期間，語(yǔ)音編碼器不必向解碼器傳輸固定碼本激勵(lì)。而是，編碼器和解碼器兩者都能夠使用高斯時(shí)間序列產(chǎn)生器隨機(jī)地在本地產(chǎn)生激勵(lì)值。編碼器和解碼器兩者都配置為以相同的順序產(chǎn)生相同的隨機(jī)激勵(lì)值。其結(jié)果是，因?yàn)閷?duì)一給定的噪聲幀，解碼器能夠在本地與編碼器產(chǎn)生相同的激勵(lì)值，故無(wú)需從編碼器向解碼器傳輸激勵(lì)值。為了產(chǎn)生隨機(jī)激勵(lì)值，高斯時(shí)間序列產(chǎn)生器使用初始種子值產(chǎn)生第一隨機(jī)激勵(lì)值，然后該產(chǎn)生器將該種子值更新為新值。然后，該產(chǎn)生器使用該更新的種子值產(chǎn)生下一個(gè)隨機(jī)激勵(lì)值，并將該種子值更新為另一值。圖14示出假設(shè)的若干幀的情形，說(shuō)明在語(yǔ)音編碼器中的高斯時(shí)間序列產(chǎn)生器如何使用種子值產(chǎn)生隨機(jī)激勵(lì)值，并如何更新種子值以產(chǎn)生下一個(gè)隨機(jī)激勵(lì)值。假設(shè)幀0和4包含語(yǔ)音信號(hào)，而幀2，3和5包含靜音或背景噪聲。在找到第一噪聲幀(即幀2)時(shí)，解碼器使用初始種子值(稱為“種子值1”)產(chǎn)生隨機(jī)激勵(lì)值，用作該幀的固定碼本激勵(lì)。對(duì)該幀的每一采樣，種子值都被改變以產(chǎn)生新的固定碼本激勵(lì)。這樣，如果幀被采樣160次，則種子值將改變160次。這樣，在遇到下一個(gè)噪聲幀(噪聲幀3)時(shí)，編碼器使用第二個(gè)且不同的種子值(即種子值2)產(chǎn)生用于該幀的隨機(jī)激勵(lì)值。雖然從技術(shù)上，對(duì)第一幀的每一采樣該種子值均發(fā)生改變，因此用于第二幀的第一采樣的種子值不是“第二”種子值，但為了方便，這里將用于第二幀的第一采樣的種子值稱為種子值2。對(duì)于噪聲幀4，編碼器使用第三種子值(不同于第一和第二種子值)。為了對(duì)噪聲幀6產(chǎn)生隨機(jī)激勵(lì)值，高斯時(shí)間序列產(chǎn)生器既可以種子值1開始，也可使用種子值4繼續(xù)進(jìn)行，這取決于語(yǔ)音通信系統(tǒng)的實(shí)現(xiàn)。通過(guò)將編碼器和解碼器配置為以相同的方式更新種子值，編碼器和解碼器能夠產(chǎn)生相同的種子值，由此以相同的順序產(chǎn)生相同的隨機(jī)激勵(lì)值。然而，在現(xiàn)有技術(shù)語(yǔ)音通信系統(tǒng)中，丟失幀破壞了編碼器與解碼器之間這種同步。
圖15示出圖14中所示的假設(shè)的情形，但這是從解碼器的角度來(lái)看的。假設(shè)噪聲幀2丟失，而幀1和3被解碼器收到。因?yàn)樵肼晭?丟失，解碼器認(rèn)為它與前一幀1是同一類型(即為一語(yǔ)音幀)。在作出有關(guān)丟失的噪聲幀2的錯(cuò)誤的假設(shè)之后，解碼器認(rèn)為噪聲幀3是第一噪聲幀，而實(shí)際上它是解碼器遇到的第二個(gè)噪聲幀。因?yàn)閷?duì)于遇到的每一噪聲幀的每一采樣，種子值都被更新，因此解碼器將錯(cuò)誤地使用種子值1產(chǎn)生用于噪聲幀3的隨機(jī)激勵(lì)值，而此時(shí)應(yīng)當(dāng)使用種子值2。因而該丟失的幀造成編碼器與解碼器之間失去同步性。因?yàn)閹?是噪聲幀，因此解碼器使用種子值1而編碼器使用種子值2并不重要，因?yàn)榻Y(jié)果是與原始噪聲不同的噪聲。對(duì)于幀3也一樣。然而，重要的是種子值的誤差對(duì)后續(xù)收到的包含語(yǔ)音的幀的影響。例如，注意看語(yǔ)音幀4。基于種子值2而本地產(chǎn)生的高斯激勵(lì)用來(lái)繼續(xù)更新幀3的自適應(yīng)碼本緩存器。當(dāng)處理幀4時(shí)，基于諸如幀4中的音調(diào)滯后這樣的信息，從幀3的自適應(yīng)碼本緩存器提取自適應(yīng)碼本激勵(lì)。由于編碼器使用種子值3來(lái)更新幀3的自適應(yīng)碼本緩存器，而解碼器正在使用種子值2(錯(cuò)誤的種子值)更新幀3的自適應(yīng)碼本緩存器，在某些情形下，更新幀3的自適應(yīng)碼本緩存器造成的差別會(huì)給幀4造成質(zhì)量問(wèn)題。
根據(jù)本發(fā)明建立的改進(jìn)的語(yǔ)音通信系統(tǒng)不使用初始固定種子值，然后每當(dāng)系統(tǒng)遇到噪聲幀時(shí)更新該種子值。而是，該改進(jìn)的編碼器和解碼器對(duì)于給定的幀從該幀中的參數(shù)導(dǎo)出種子值。例如，可以使用當(dāng)前幀中的譜信息，能量和/或增益信息來(lái)產(chǎn)生用于該幀的種子值。例如，可以使用表示譜的若干位(例如5位b1，b2，b3，b4，b5)，及表示能量的若干位(例如3位c1，c2，c3)，形成一個(gè)串b1，b2，b3，b4，b5，c1，c2，c3，其值即為該種子值。假設(shè)譜由01101表示，能量由011表示，則種子值是01101011。當(dāng)然，從幀中的信息導(dǎo)出種子值的其它可替代的方法也是可能的，并包含在本發(fā)明的范圍之內(nèi)。因而，在圖15的噪聲幀2丟失的例子中，解碼器將能夠?qū)С龀鲇糜谠肼晭?的種子值，該種子值與由編碼器導(dǎo)出的種子值相同。這樣，一個(gè)丟失的幀便不會(huì)破壞編碼器與解碼器之間的同步性。
雖然已經(jīng)展示和描述了該主題發(fā)明的實(shí)施例和具體實(shí)現(xiàn)，但很明顯，更多的實(shí)施例與實(shí)現(xiàn)方式屬于本主題發(fā)明的范圍之內(nèi)。因而，除去依照權(quán)利要求及其等同物外，本發(fā)明不受限制。
權(quán)利要求
1.一種語(yǔ)音通信系統(tǒng)包括編碼器，處理語(yǔ)音幀并對(duì)于每一語(yǔ)音幀確定音調(diào)滯后參數(shù)；發(fā)送器，與該編碼器耦合，發(fā)送用于每一語(yǔ)音幀的音調(diào)滯后參數(shù)；接收器，從該發(fā)送器逐幀接收所述音調(diào)滯后參數(shù)；控制邏輯，與該接收器耦合，用于部分基于音調(diào)滯后參數(shù)重新合成該語(yǔ)音信號(hào)；丟失幀檢測(cè)器，檢測(cè)有一幀是否未被該接收器收到；幀恢復(fù)邏輯，當(dāng)丟失幀檢測(cè)器檢測(cè)到丟失幀時(shí)，使用多個(gè)先前收到的幀的音調(diào)滯后參數(shù)外推該丟失幀的音調(diào)滯后參數(shù)。
2.根據(jù)權(quán)利要求1的語(yǔ)音通信系統(tǒng)，其中所述幀恢復(fù)邏輯使用該丟失幀之后收到的幀的音調(diào)滯后參數(shù)設(shè)置該丟失幀的音調(diào)滯后參數(shù)。
3.根據(jù)權(quán)利要求1的語(yǔ)音通信系統(tǒng)，其中所述丟失幀檢測(cè)器和/或幀誤差邏輯是控制邏輯的一部分。
4.根據(jù)權(quán)利要求1的語(yǔ)音通信系統(tǒng)，其中當(dāng)接收器收到丟失幀之后的幀中的音調(diào)滯后參數(shù)時(shí)，幀恢復(fù)邏輯使用該丟失幀之后的該幀的音調(diào)滯后參數(shù)，調(diào)整先前設(shè)置的用于該丟失幀的音調(diào)滯后參數(shù)。
5.根據(jù)權(quán)利要求4的語(yǔ)音通信系統(tǒng)，還包括自適應(yīng)碼本緩存器，該緩存器包含用于一第一幀的總激勵(lì)，該總激勵(lì)包含量化的自適應(yīng)碼本激勵(lì)成分，其中緩存的總激勵(lì)被提取作為所述第一幀之后的幀的自適應(yīng)碼本激勵(lì)，且?guī)謴?fù)邏輯使用該丟失幀之后的該幀的音調(diào)滯后參數(shù)來(lái)調(diào)整該量化的自適應(yīng)碼本激勵(lì)。
6.根據(jù)權(quán)利要求2的語(yǔ)音通信系統(tǒng)，其中幀恢復(fù)邏輯從該丟失幀之后收到的幀的音調(diào)滯后參數(shù)外推該丟失幀的音調(diào)滯后參數(shù)。
7.根據(jù)權(quán)利要求1的語(yǔ)音通信系統(tǒng)，其中在幀恢復(fù)邏輯設(shè)置用于該丟失幀的丟失參數(shù)之后，解碼器從丟失幀重新合成語(yǔ)音并調(diào)整合成語(yǔ)音的能量以與從以前接收的幀合成的語(yǔ)音的能量匹配。
8.根據(jù)權(quán)利要求2的語(yǔ)音通信系統(tǒng)，其中在幀恢復(fù)邏輯設(shè)置用于該丟失幀的丟失參數(shù)之后，解碼器從丟失幀重新合成語(yǔ)音并調(diào)整合成語(yǔ)音的能量以與從以前接收的幀合成的語(yǔ)音的能量匹配。
9.根據(jù)權(quán)利要求3的語(yǔ)音通信系統(tǒng)，其中在幀恢復(fù)邏輯設(shè)置用于該丟失幀的丟失參數(shù)之后，解碼器從丟失幀重新合成語(yǔ)音并調(diào)整合成語(yǔ)音的能量以與從以前接收的幀合成的語(yǔ)音的能量匹配。
10.一種在通信系統(tǒng)中編碼或解碼語(yǔ)音的方法，包括下列步驟(a)基于逐幀提供語(yǔ)音信號(hào)，其中每一幀包含多個(gè)子幀；(b)基于該語(yǔ)音信號(hào)確定用于每一幀的一個(gè)參數(shù)；(c)基于逐幀發(fā)送參數(shù)；(d)基于逐幀接收參數(shù)；(e)檢測(cè)包含該參數(shù)的幀是否丟失；(f)如果幀丟失則處理用于該丟失幀的丟失參數(shù)；(g)對(duì)這些參數(shù)進(jìn)行解碼以再生該語(yǔ)音信號(hào)。
11.根據(jù)權(quán)利要求10的方法，其中該丟失參數(shù)是該丟失幀的音調(diào)滯后參數(shù)，且處理步驟至少部分基于先前收到的幀的音調(diào)滯后參數(shù)來(lái)設(shè)置該丟失幀的丟失的音調(diào)滯后參數(shù)。
12.根據(jù)權(quán)利要求11的方法，其中該處理步驟基于多個(gè)先前收到的幀的音調(diào)滯后參數(shù)來(lái)設(shè)置該丟失幀的丟失的音調(diào)滯后參數(shù)。
13.根據(jù)權(quán)利要求11的方法，其中處理步驟基于丟失幀之后收到的幀的音調(diào)滯后參數(shù)設(shè)置該丟失幀的丟失的音調(diào)滯后參數(shù)。
14.根據(jù)權(quán)利要求11的方法，還包括以下步驟在處理步驟設(shè)置該丟失幀的丟失參數(shù)之后，從該丟失幀重新合成語(yǔ)音；以及調(diào)整該合成語(yǔ)音的能量以匹配來(lái)自一先前收到的幀的合成語(yǔ)音的能量。
全文摘要
一種改進(jìn)的語(yǔ)音通信系統(tǒng)及方法，該改進(jìn)的語(yǔ)音通信系統(tǒng)能夠?qū)σ粊G失的數(shù)據(jù)包中丟失的信息產(chǎn)生更精確的估計(jì)。例如，該改進(jìn)的語(yǔ)音通信系統(tǒng)能夠更精確處理丟失的信息，諸如LSF，音調(diào)滯后(或自適應(yīng)碼本激勵(lì))，固定碼本激勵(lì)和/或增益信息。在不向解碼器發(fā)送固定碼本激勵(lì)值的語(yǔ)音通信系統(tǒng)的一個(gè)實(shí)施例中，即使先前的噪聲幀在傳輸期間丟失，該改進(jìn)的編碼器/解碼器也能夠?qū)o定的噪聲幀產(chǎn)生相同的隨機(jī)激勵(lì)值。
文檔編號(hào)G10L19/02GK1516113SQ20031012156
公開日2004年7月28日申請(qǐng)日期2001年7月9日優(yōu)先權(quán)日2000年7月14日
發(fā)明者A·拜尼亞斯恩, E·施羅默特, H－Y·蘇, A 拜尼亞斯恩, 弈申請(qǐng)人:康奈克森特系統(tǒng)公司

完整全部詳細(xì)技術(shù)資料下載