專利名稱:處理丟失幀的語(yǔ)音通信系統(tǒng)及方法
參考引用在此整體結(jié)合以下美國(guó)專利申請(qǐng)以資參考并使其構(gòu)成本申請(qǐng)的一部分1998年9月18日提交的,序列號(hào)為09/156,650的美國(guó)專利申請(qǐng)“Speech Encoder Using Gain Normalization That Combines Open AndClosed Loop Gain”,Conexant文檔號(hào)為98RSS399;1999年9月22日提交的,序列號(hào)為60/155,321的美國(guó)臨時(shí)申請(qǐng),“4kbits/s Speech Coding”,Conexant文檔號(hào)為99RSS485;以及2000年5月19日提交的,序列號(hào)為09/574,396的美國(guó)專利申請(qǐng),“ANew Speech Gain Quantization Strategy”,Conexant文檔號(hào)為99RSS312。
背景技術(shù):
本發(fā)明一般涉及話音通信系統(tǒng)中語(yǔ)音的編碼和解密,更具體地說(shuō),涉及處理錯(cuò)誤幀或丟失幀的方法和設(shè)備。
為了對(duì)基本的語(yǔ)音建模,對(duì)語(yǔ)音信號(hào)按時(shí)間采樣并按幀存儲(chǔ)作為待被數(shù)字化處理的離散波形。然而,為了更有效地使用語(yǔ)音的通信帶寬,在發(fā)送之前,特別是當(dāng)語(yǔ)音要在有限帶寬約束下傳輸時(shí)要對(duì)語(yǔ)音進(jìn)行編碼。對(duì)于不同的語(yǔ)音編碼問(wèn)題已經(jīng)提出多種算法。例如,可對(duì)語(yǔ)音信號(hào)執(zhí)行合成分析的編碼方法。在編碼語(yǔ)音時(shí),語(yǔ)音編碼算法試圖以需要最小帶寬的方式表示語(yǔ)音信號(hào)的特征。例如,語(yǔ)音編碼算法設(shè)法除去語(yǔ)音信號(hào)中的冗余性。第一步是除去短期相關(guān)性。一種信號(hào)編碼技術(shù)是線性預(yù)測(cè)編碼(LPC)。在使用LPC方法時(shí),將任意特定時(shí)間的語(yǔ)音信號(hào)值模型化為先前值的線性函數(shù)。通過(guò)使用LPC方法,能夠降低短期相關(guān)性,并可通過(guò)估計(jì)并應(yīng)用某些預(yù)測(cè)參數(shù)表示該信號(hào)來(lái)確定有效的語(yǔ)音信號(hào)表示。作為語(yǔ)音信號(hào)中短期相關(guān)性包絡(luò)的LPC頻譜,例如可由LSF(線譜頻率)表示。在除去語(yǔ)音信號(hào)中的短期相關(guān)性之后,保留有LPC殘余信號(hào)。這種殘余信號(hào)包含需要被模型化的周期性信息。除去語(yǔ)音中的冗余性的第二步是對(duì)周期性信息建模??墒褂靡粽{(diào)預(yù)測(cè)對(duì)周期性信息建模。語(yǔ)音的某些部分具有周期性,而其它部分則沒(méi)有。例如,聲音“aah”有周期性信息,而聲音“shhh”則沒(méi)有周期性信息。
在使用LPC技術(shù)時(shí),傳統(tǒng)的源編碼器作用于語(yǔ)音信號(hào),以便提取待被編碼的建模和參數(shù)信息,用于通過(guò)通信信道與傳統(tǒng)的源解碼器通信。把建模和參數(shù)信息編碼為較小信息量的一種方法是使用量化。參數(shù)的量化涉及在表或碼本中選擇最接近的項(xiàng)表示該參數(shù)。這樣,例如如果碼本包含0,0.1,0.2,0.3等,則可由0.1表示參數(shù)0.125。量化包括標(biāo)量量化和矢量量化。在標(biāo)量量化中,在表或碼本中按上述選擇最接近參數(shù)的項(xiàng)。與此相對(duì)照,矢量量化組合兩個(gè)或多個(gè)參數(shù),并在表或碼本中選擇最接近被組合的參數(shù)的項(xiàng)。例如矢量量化可以在碼本中選擇最接近參數(shù)之間的差的項(xiàng)。用于一次矢量量化兩個(gè)參數(shù)的碼本常被稱為二維碼本。一個(gè)n-維碼本一次量化n個(gè)參數(shù)。
量化的參數(shù)可被打包為若干數(shù)據(jù)包,從編碼器發(fā)送至解碼器。換言之,一旦被編碼,表示輸入語(yǔ)音信號(hào)的參數(shù)就被發(fā)送至收發(fā)器。這樣,例如可將LSF量化,并且將對(duì)應(yīng)于碼本中的索引轉(zhuǎn)換為若干位,然后從編碼器發(fā)送至解碼器。根據(jù)該實(shí)施例,每一個(gè)包可表示該語(yǔ)音信號(hào)的一個(gè)幀的一部分,一個(gè)語(yǔ)音幀,或不止一個(gè)語(yǔ)音幀。在收發(fā)器處,解碼器接收被編碼的信息。因?yàn)榻獯a器被配置為知道語(yǔ)音信號(hào)被編碼的方式,故解碼器可對(duì)編碼的信息解碼,以便重構(gòu)用于回放人耳感覺(jué)如同原來(lái)語(yǔ)音的聲音信號(hào)。然而,至少有一個(gè)數(shù)據(jù)包在傳輸期間丟失可能是不可避免的,從而解碼器并沒(méi)有收到由編碼器發(fā)送的所有信息。例如,當(dāng)語(yǔ)音從一蜂窩式電話向另一蜂窩式電話傳輸時(shí),在接收不良或有噪聲時(shí)數(shù)據(jù)可能丟失。因而,向解碼器發(fā)送編碼的建模和參數(shù)信息需要一種方法,該方法使得解碼器能夠校正或調(diào)整丟失的數(shù)據(jù)包。雖然現(xiàn)有技術(shù)描述了某些用于調(diào)整丟失的數(shù)據(jù)包的方法,例如通過(guò)外推試圖猜測(cè)丟失的包中是些什么信息,但這些方法受到限制,以至需要改進(jìn)的方法。
除了LSF信息之外,向解碼器發(fā)送的其它參數(shù)也可能丟失。例如在CELP(碼激勵(lì)線性預(yù)測(cè))語(yǔ)音編碼中,有兩種類型的增益也要被量化并向解碼器發(fā)送。第一種類型的增益是音調(diào)增益GP,也稱為自適應(yīng)碼本增益。自適應(yīng)碼本增益有時(shí)(包括這里)以下標(biāo)“a”而不是下標(biāo)“p”標(biāo)記。第二類增益是固定碼本增益GC。語(yǔ)音編碼算法具有包括自適應(yīng)碼本增益和固定碼本增益的量化參數(shù)。其他參數(shù)可包括例如代表話音語(yǔ)音(voiced speech)周期性的音調(diào)滯后。如果語(yǔ)音編碼器對(duì)語(yǔ)音信號(hào)分類,也可以向解碼器發(fā)送關(guān)于語(yǔ)音信號(hào)分類的信息。對(duì)于將語(yǔ)音分類并以不同模式操作的改進(jìn)的語(yǔ)音編碼器/解碼器,參見2000年5月19日提交的美國(guó)專利申請(qǐng)09/574,396,“A New Speech Gain Quantization Strategy,”Conexant文檔號(hào)為99RSS312,該文獻(xiàn)先前已被引用在此作為參考。
因?yàn)檫@些和其它參數(shù)信息是通過(guò)不完善的傳輸裝置向解碼器發(fā)送,這些參數(shù)的某些會(huì)丟失或永遠(yuǎn)不會(huì)被解碼器收到。對(duì)于每一語(yǔ)音幀傳輸一個(gè)信息包的語(yǔ)音通信系統(tǒng),一個(gè)包的丟失就造成一幀信息的丟失。為了重構(gòu)或估計(jì)丟失的信息,現(xiàn)有技術(shù)系統(tǒng)根據(jù)參數(shù)的丟失已嘗試了不同的方法。某些方法簡(jiǎn)單地使用實(shí)際上由解碼器收到的來(lái)自先前幀的參數(shù)。這些現(xiàn)有技術(shù)方法有其不足之處,不夠精確并有問(wèn)題。這樣就需要一種改進(jìn)的方法來(lái)校正或調(diào)整丟失的信息,使得再生一個(gè)盡可能接近原來(lái)的語(yǔ)音信號(hào)的語(yǔ)音信號(hào)。
為了節(jié)省帶寬,某些現(xiàn)有技術(shù)語(yǔ)音通信系統(tǒng)不從編碼器向解碼器傳輸固定碼本激勵(lì)。這些系統(tǒng)具有本地高斯時(shí)間序列產(chǎn)生器,所述時(shí)間序列產(chǎn)生器使用初始固定種子值(seed)產(chǎn)生隨機(jī)激勵(lì)值,然后每當(dāng)系統(tǒng)遇到包含靜音或背景噪聲的幀時(shí)就更新該種子值。這樣,對(duì)于每一個(gè)噪聲幀,種子值都發(fā)生改變。因?yàn)榫幋a器和解碼器具有按相同的順序使用相同的種子值的相同的高斯時(shí)間序列產(chǎn)生器,因而它們對(duì)噪聲幀產(chǎn)生相同的隨機(jī)激勵(lì)值。然而,如果一個(gè)噪聲幀丟失而沒(méi)有被解碼器收到,則編碼器和解碼器對(duì)相同的噪聲幀使用不同的種子值,從而失去它們的同步性。這樣,就需要一種語(yǔ)音通信系統(tǒng),它不向解碼器發(fā)送固定碼本激勵(lì)值,但是當(dāng)傳輸期間幀丟失時(shí),能夠維持編碼器與解碼器之間的同步。
發(fā)明內(nèi)容
在使用改進(jìn)的方法處理從編碼器向解碼器傳輸期間丟失信息的語(yǔ)音通信系統(tǒng)和方法中,可發(fā)現(xiàn)本發(fā)明各個(gè)單獨(dú)的方面。特別地,該改進(jìn)的語(yǔ)音通信系統(tǒng)能夠?qū)σ粊G失的數(shù)據(jù)包中丟失的信息產(chǎn)生更精確的估計(jì)。例如,該改進(jìn)的語(yǔ)音通信系統(tǒng)能夠更精確處理丟失的信息,諸如LSF,音調(diào)滯后(或自適應(yīng)碼本激勵(lì)),固定碼本激勵(lì)和/或增益信息。在不向解碼器發(fā)送固定碼本激勵(lì)值的語(yǔ)音通信系統(tǒng)的一個(gè)實(shí)施例中,即使先前的噪聲幀在傳輸期間丟失,該改進(jìn)的編碼器/解碼器也能夠?qū)o定的噪聲幀產(chǎn)生相同的隨機(jī)激勵(lì)值。
本發(fā)明第一個(gè)單獨(dú)的方面是一種語(yǔ)音通信系統(tǒng),該系統(tǒng)以受控的自適應(yīng)方式通過(guò)把LSF之間的最小間隔設(shè)置為一增加的值,然后對(duì)后續(xù)的幀降低該值來(lái)處理丟失的LSF信息。
本發(fā)明第二個(gè)單獨(dú)的方面是一種語(yǔ)音通信系統(tǒng),該系統(tǒng)通過(guò)從多個(gè)先前收到的幀的音調(diào)滯后外推而估計(jì)丟失的音調(diào)滯后。
本發(fā)明第三個(gè)單獨(dú)的方面是一種語(yǔ)音通信系統(tǒng),該系統(tǒng)接收后續(xù)收到的幀的音調(diào)滯后,并使用先前收到的幀的音調(diào)滯后與后續(xù)收到的幀的音調(diào)滯后之間的曲線擬合,微調(diào)其對(duì)丟失幀的音調(diào)滯后的估計(jì),以便在由后續(xù)幀使用自適應(yīng)碼本緩沖器之前對(duì)其進(jìn)行調(diào)整或校正。
本發(fā)明第四個(gè)單獨(dú)的方面是一種語(yǔ)音通信系統(tǒng),該系統(tǒng)對(duì)周期狀語(yǔ)音丟失增益參數(shù)的估計(jì)不同于其對(duì)非周期狀語(yǔ)音丟失增益參數(shù)的估計(jì)。
本發(fā)明第五個(gè)單獨(dú)的方面是一種語(yǔ)音通信系統(tǒng),該系統(tǒng)對(duì)丟失的自適應(yīng)碼本增益參數(shù)的估計(jì)不同于其對(duì)丟失的固定碼本增益參數(shù)的估計(jì)。
本發(fā)明第六個(gè)單獨(dú)的方面是一種語(yǔ)音通信系統(tǒng),該系統(tǒng)基于一自適應(yīng)數(shù)量的先前收到的幀的子幀的平均自適應(yīng)碼本增益參數(shù),確定用于非周期狀語(yǔ)音的丟失幀的丟失的自適應(yīng)碼本增益參數(shù)。
本發(fā)明第七個(gè)單獨(dú)的方面是一種語(yǔ)音通信系統(tǒng),該系統(tǒng)基于一自適應(yīng)數(shù)量的先前收到的幀的子幀的平均自適應(yīng)碼本增益參數(shù),及自適應(yīng)碼本激勵(lì)能量對(duì)總激勵(lì)能量的比值,確定用于非周期狀語(yǔ)音的丟失幀的丟失的自適應(yīng)碼本增益參數(shù)。
本發(fā)明第八個(gè)單獨(dú)的方面是一種語(yǔ)音通信系統(tǒng),該系統(tǒng)基于一自適應(yīng)數(shù)量的先前收到的幀的子幀的平均自適應(yīng)碼本增益參數(shù),自適應(yīng)碼本激勵(lì)能量對(duì)總激勵(lì)能量的比值,及先前收到的幀的譜傾斜和/或先前收到的幀的能量,確定用于非周期狀語(yǔ)音的丟失幀的丟失的自適應(yīng)碼本增益參數(shù)。
本發(fā)明第九個(gè)單獨(dú)的方面是一種語(yǔ)音通信系統(tǒng),該系統(tǒng)將用于非周期狀語(yǔ)音的一個(gè)丟失幀的丟失的自適應(yīng)碼本增益參數(shù)設(shè)置為任意高的數(shù)。
本發(fā)明第十個(gè)單獨(dú)的方面是一種語(yǔ)音通信系統(tǒng),該系統(tǒng)對(duì)于非周期狀語(yǔ)音的一個(gè)丟失幀的所有子幀,將丟失的固定碼本增益參數(shù)設(shè)置為零。
本發(fā)明第十一個(gè)單獨(dú)的方面是一種語(yǔ)音通信系統(tǒng),該系統(tǒng)基于先前收到的幀的能量與該丟失幀的能量的比值,確定用于該非周期狀語(yǔ)音丟失幀的當(dāng)前子幀的丟失的固定碼本增益參數(shù)。
本發(fā)明第十二個(gè)單獨(dú)的方面是一種語(yǔ)音通信系統(tǒng),該系統(tǒng)基于先前收到的幀的能量與該丟失幀的能量的比值,確定用于該丟失幀的當(dāng)前子幀的丟失的固定碼本增益參數(shù),然后減小該參數(shù)以設(shè)置用于該丟失幀的其余子幀的丟失的固定碼本增益參數(shù)。
本發(fā)明第十三個(gè)單獨(dú)的方面是一種語(yǔ)音通信系統(tǒng),該系統(tǒng)對(duì)于在接收幀之后要丟失的第一個(gè)周期狀語(yǔ)音幀,將丟失的自適應(yīng)碼本增益參數(shù)設(shè)置為一任意高的數(shù)。
本發(fā)明第十四個(gè)單獨(dú)的方面是一種語(yǔ)音通信系統(tǒng),該系統(tǒng)對(duì)于在接收幀之后要丟失的第一個(gè)周期狀語(yǔ)音幀,將丟失的自適應(yīng)碼本增益參數(shù)設(shè)置為一任意高的數(shù),然后減小該參數(shù),以設(shè)置用于該丟失幀的其余子幀的丟失的自適應(yīng)碼本增益參數(shù)。
本發(fā)明第十五個(gè)單獨(dú)的方面是一種語(yǔ)音通信系統(tǒng),該系統(tǒng)在多個(gè)先前收到的幀的平均自適應(yīng)碼本增益參數(shù)超過(guò)一閾值的情況下,將用于一丟失的周期狀語(yǔ)音的固定碼本增益參數(shù)設(shè)置為零。
本發(fā)明第十六個(gè)單獨(dú)的方面是一種語(yǔ)音通信系統(tǒng),該系統(tǒng)在多個(gè)先前收到的幀的平均自適應(yīng)碼本增益參數(shù)不超過(guò)一閾值的情況下,基于先前收到的幀的能量與丟失幀的能量的比值,確定用于該丟失的周期狀語(yǔ)音幀的當(dāng)前子幀的丟失的固定碼本增益參數(shù)。
本發(fā)明第十七個(gè)單獨(dú)的方面是一種語(yǔ)音通信系統(tǒng),該系統(tǒng)在多個(gè)先前收到的幀的平均自適應(yīng)碼本增益參數(shù)超過(guò)一閾值的情況下,基于先前收到的幀的能量與丟失幀的能量的比值,確定用于該丟失幀的當(dāng)前子幀的丟失的固定碼本增益參數(shù),然后減小該參數(shù)以便設(shè)置用于該丟失幀的其余子幀的丟失的固定碼本增益參數(shù)。
本發(fā)明第十八個(gè)單獨(dú)的方面是一種語(yǔ)音通信系統(tǒng),該系統(tǒng)使用一種子值隨機(jī)產(chǎn)生一固定碼本激勵(lì)用于一給定幀,該種子值的值由該幀中的信息確定。
本發(fā)明第十九個(gè)單獨(dú)的方面是一種語(yǔ)音通信解碼器,該解碼器在估計(jì)丟失幀中的丟失參數(shù)并合成語(yǔ)音之后,使該合成的語(yǔ)音能量與先前收到的幀的能量匹配。
本發(fā)明第二十個(gè)單獨(dú)的方面是或者獨(dú)立地或者以某種方式組合的以上任何單獨(dú)方面。
在實(shí)現(xiàn)以上或者獨(dú)立地或者以某種方式組合的任何單獨(dú)方面的編碼和/或解碼語(yǔ)音信號(hào)的方法中,進(jìn)一步還能夠發(fā)現(xiàn)本發(fā)明的多個(gè)單獨(dú)的方面。
結(jié)合附圖,參考以下優(yōu)選實(shí)施例的詳細(xì)說(shuō)明,本發(fā)明的其它方面,優(yōu)點(diǎn)和新穎特性將更為明顯。
圖1是具有源編碼器和源解碼器的語(yǔ)音通信系統(tǒng)的功能框圖。
圖2是圖1的語(yǔ)音通信系統(tǒng)更詳細(xì)的功能框圖。
圖3是由圖1的語(yǔ)音通信系統(tǒng)的一實(shí)施例使用的源編碼器的示例性的第一級(jí)即語(yǔ)音預(yù)處理器的功能框圖。
圖4是一功能框圖,示例性地示出由圖1的語(yǔ)音通信系統(tǒng)的一實(shí)施例使用的源編碼器的第二級(jí)。
圖5是一功能框圖,示例性地示出由圖1的語(yǔ)音通信系統(tǒng)的一實(shí)施例使用的源編碼器的第三級(jí)。
圖6是一功能框圖,示例性地示出由圖1的語(yǔ)音通信系統(tǒng)的一實(shí)施例使用的源編碼器的第四級(jí),用于處理非周期性語(yǔ)音(模式0)圖7是一功能框圖,示例性地示出由圖1的語(yǔ)音通信系統(tǒng)的一實(shí)施例使用的源編碼器的第四級(jí),用于處理周期性語(yǔ)音(模式1)。
圖8是用于處理來(lái)自根據(jù)本發(fā)明建立的語(yǔ)音編碼器的編碼信息的語(yǔ)音解碼器的一實(shí)施例的框圖。
圖9表示一假設(shè)的接收幀和丟失幀的例子。
圖10表示現(xiàn)有技術(shù)系統(tǒng)中和根據(jù)本發(fā)明建立的語(yǔ)音通信系統(tǒng)中,接收幀和丟失幀以及指定給每一幀的LSF之間的最小間隔的一假設(shè)的例子。
圖11示出一假設(shè)的例子,表示現(xiàn)有技術(shù)語(yǔ)音通信系統(tǒng)如何對(duì)每一幀指定并使用音調(diào)滯后和增量音調(diào)滯后信息。
圖12示出一假設(shè)的例子,表示根據(jù)本發(fā)明建立的語(yǔ)音通信系統(tǒng)如何對(duì)每一幀指定并使用音調(diào)滯后和增量音調(diào)滯后信息。
圖13示出一假設(shè)的例子,表示當(dāng)有丟失幀時(shí),根據(jù)本發(fā)明建立的語(yǔ)音通信系統(tǒng)如何對(duì)每一幀指定自適應(yīng)增益參數(shù)信息。
圖14示出一假設(shè)的例子,表示現(xiàn)有技術(shù)編碼器對(duì)于包含靜音或背景噪聲的每一幀如何使用種子值產(chǎn)生隨機(jī)激勵(lì)值。
圖15示出一假設(shè)的例子,表示現(xiàn)有技術(shù)解碼器對(duì)于包含靜音或背景噪聲的每一幀如何使用種子值產(chǎn)生隨機(jī)激勵(lì)值,及在有丟失幀的情況下是如何與編碼器失去同步的。
圖16是表示根據(jù)本發(fā)明的非周期狀語(yǔ)音處理的一個(gè)例子的流程圖。
圖17是表示根據(jù)本發(fā)明的周期狀語(yǔ)音處理一個(gè)例子的流程圖。
具體實(shí)施例方式
首先對(duì)整個(gè)語(yǔ)音通信系統(tǒng)進(jìn)行一般的說(shuō)明,然后對(duì)本發(fā)明的實(shí)施例進(jìn)行詳細(xì)描述。
圖1為語(yǔ)音通信系統(tǒng)的示意框圖,表示通信系統(tǒng)中語(yǔ)音編碼器和解碼器的一般使用。語(yǔ)音通信系統(tǒng)100通過(guò)通信信道103傳輸并再生語(yǔ)音。通信信道103可包括例如導(dǎo)線,光纖,或光學(xué)鏈路,但其一般至少部分包含射頻鏈路,如在蜂窩式電話中可看到的那樣,這種鏈路常常必須支持需要共享帶寬資源的多路、同時(shí)語(yǔ)音交換。
一個(gè)存儲(chǔ)裝置可連接到通信信道103以暫時(shí)存儲(chǔ)用于延遲再生或回放的語(yǔ)音信息,例如執(zhí)行應(yīng)答機(jī)功能,語(yǔ)音電子郵件等。類似地,在例如僅記錄并存儲(chǔ)語(yǔ)音用于隨后回放的通信系統(tǒng)100的單個(gè)裝置實(shí)施例中,通信信道103可由這種存儲(chǔ)裝置代替。
具體來(lái)說(shuō),話筒111實(shí)時(shí)產(chǎn)生語(yǔ)音信號(hào)。話筒111把語(yǔ)音信號(hào)送到A/D(模擬到數(shù)字)轉(zhuǎn)換器115。A/D轉(zhuǎn)換器115把模擬語(yǔ)音信號(hào)轉(zhuǎn)換為數(shù)字形式,然后把該數(shù)字化的語(yǔ)音信號(hào)傳送到語(yǔ)音編碼器117。
語(yǔ)音編碼器117使用從多種編碼方式中選擇的一種方式對(duì)該數(shù)字化語(yǔ)音編碼。該多種編碼方式的每一種都使用特定的技術(shù),試圖優(yōu)化得到的再生的語(yǔ)音的質(zhì)量。在工作在該多種方式中的任何一種方式時(shí),語(yǔ)音編碼器117產(chǎn)生一系列建模和參數(shù)信息(例如“語(yǔ)音參數(shù)”)并把該語(yǔ)音參數(shù)傳送到一可選的信道編碼器119。
該可選的信道編碼器119與信道解碼器131協(xié)同工作通過(guò)通信信道103傳送語(yǔ)音參數(shù)。信道解碼器131把該語(yǔ)音參數(shù)轉(zhuǎn)發(fā)到語(yǔ)音解碼器133。語(yǔ)音解碼器133的工作方式對(duì)應(yīng)于語(yǔ)音編碼器117,其試圖盡可能精確地從所述語(yǔ)音參數(shù)再生原來(lái)的語(yǔ)音。語(yǔ)音解碼器133把再生的語(yǔ)音傳送到D/A(數(shù)字到模擬)轉(zhuǎn)換器135,使得再生的語(yǔ)音可通過(guò)揚(yáng)聲器137聽到。
圖2是表示圖1的示例性通信裝置的功能框圖。通信裝置151包括語(yǔ)音編碼器和解碼器兩者,用于同時(shí)捕獲并再生語(yǔ)音。通常在單一框架內(nèi),通信裝置151例如可包括蜂窩式電話,便攜式電話,計(jì)算系統(tǒng),或某些其它的通信裝置。另外,如果裝設(shè)了存儲(chǔ)器元件用于存儲(chǔ)編碼的語(yǔ)音信息,則通信裝置151可包括應(yīng)答機(jī),錄音機(jī),話音郵件系統(tǒng),或其它通信存儲(chǔ)器裝置。
話筒155和A/D轉(zhuǎn)換器157把數(shù)字話音信號(hào)傳送到編碼系統(tǒng)159。編碼系統(tǒng)159進(jìn)行語(yǔ)音編碼,并把得到的語(yǔ)音參數(shù)信息傳送到通信信道。被傳送的語(yǔ)音參數(shù)信息可被指定用于在遠(yuǎn)地的另一通信裝置(未示出)。
在接收到語(yǔ)音參數(shù)信息時(shí),解碼系統(tǒng)165進(jìn)行語(yǔ)音解碼。解碼系統(tǒng)把語(yǔ)音參數(shù)信息傳送到D/A轉(zhuǎn)換器167,在此,該模擬語(yǔ)音輸出可在揚(yáng)聲器169播放。最終結(jié)果是再生出盡可能與原來(lái)捕獲的語(yǔ)音相似的聲音。
編碼系統(tǒng)159包括執(zhí)行語(yǔ)音編碼的語(yǔ)音處理電路185,也包括執(zhí)行可選信道編碼的可選信道處理電路187。類似地,解碼系統(tǒng)165包括執(zhí)行語(yǔ)音解碼的語(yǔ)音處理電路189,以及執(zhí)行信道解碼的可選信道處理電路191。
雖然語(yǔ)音處理電路185和可選信道處理電路187是分開表示的,但它們可部分或整體地組合為單個(gè)的單元。例如,語(yǔ)音處理電路185和信道處理電路187可共享單個(gè)的DSP(數(shù)字信號(hào)處理器)和/或其它處理電路。類似地,語(yǔ)音處理電路189和可選信道處理電路191可完全分開或部分或整體組合。此外,整體或部分地組合還可用于語(yǔ)音處理電路185和189,信道處理電路187和191,處理電路185,187,189和191,或者根據(jù)情況處理。此外,每一個(gè)或所有控制解碼器和/或編碼器操作方面的電路可被稱為控制邏輯,并可通過(guò)例如微處理器,微控制器,CPU(中央處理器),ALU(算法邏輯單元),協(xié)處理器,ASIC(專用集成電路),或任何其它類型電路和/或軟件實(shí)現(xiàn)。
編碼系統(tǒng)159和解碼系統(tǒng)165都使用存儲(chǔ)器161。在源編碼過(guò)程期間,語(yǔ)音處理電路185使用語(yǔ)音存儲(chǔ)器177的固定碼本181和自適應(yīng)碼本183。類似地,在源解碼過(guò)程期間,語(yǔ)音處理電路189使用固定碼本181和自適應(yīng)碼本183。
雖然所示的語(yǔ)音存儲(chǔ)器177由語(yǔ)音處理電路185與189共用,但也可以對(duì)每一處理電路185與189指定一個(gè)或多個(gè)分開的語(yǔ)音存儲(chǔ)器。存儲(chǔ)器161還包含處理電路185,187,189和191使用的軟件,以便執(zhí)行源編碼和解碼過(guò)程中所需的各種功能。
在討論語(yǔ)音編碼中改進(jìn)的實(shí)施例細(xì)節(jié)之前,在此提供對(duì)整個(gè)語(yǔ)音編碼算法的概述。本說(shuō)明書中所涉及的改進(jìn)的語(yǔ)音編碼算法例如可以是基于CELP模式的eX-CELP(擴(kuò)展的CELP)算法。eX-CELP算法的細(xì)節(jié)在轉(zhuǎn)讓給同一受讓人Conexant System,Inc.的美國(guó)專利申請(qǐng)中已討論,此前已在此引用以資參考1999年9月22日提交的,序列號(hào)為60/155,321的美國(guó)臨時(shí)申請(qǐng)“4 kbits/s Speech Coding,”Conexant文檔號(hào)為99RSS485。
為了以低位速率(諸如每秒4千位)達(dá)到通行的質(zhì)量(toll quality),改進(jìn)的語(yǔ)音編碼算法與傳統(tǒng)的CELP算法的嚴(yán)格波形匹配標(biāo)準(zhǔn)有所偏離,且力圖捕獲輸入信號(hào)可感知的重要特征。為此,改進(jìn)的語(yǔ)音編碼算法根據(jù)一定的特征,諸如噪聲狀內(nèi)容級(jí)(degree of content),尖銳狀內(nèi)容級(jí),話音內(nèi)容級(jí),非話音內(nèi)容級(jí),幅度頻譜演變,能量輪廓的演變,周期性的演變等等,分析輸入信號(hào),并使用這一信息來(lái)控制在編碼和量化過(guò)程期間的加權(quán)?;驹瓌t是要精確地表示感知上的重要特征,并允許較不重要特征方面有相對(duì)較大的誤差。其結(jié)果是,改進(jìn)的語(yǔ)音編碼算法集中在感知匹配,而不是波形匹配。集中在感知匹配的結(jié)果是獲得了滿意的語(yǔ)音再生,因?yàn)榧僭O(shè)在每秒4千位的位速率下,波形匹配不夠精確,無(wú)法真實(shí)的捕獲輸入信號(hào)中的所有信息。于是,改進(jìn)的語(yǔ)音編碼器進(jìn)行某些優(yōu)先性劃分以獲得改進(jìn)的結(jié)果。
在一具體的實(shí)施例中,該改進(jìn)的語(yǔ)音編碼器使用20毫秒,或每秒具有160個(gè)采樣的幀尺度,每一幀被劃分為兩個(gè)或三個(gè)子幀。子幀的數(shù)目取決于子幀處理的模式。在該具體實(shí)施例中,對(duì)每個(gè)語(yǔ)音幀可選擇兩種模式之一模式0和模式1。重要的是,處理子幀的方式取決于該模式。在該具體實(shí)施例中,模式0采用每幀兩個(gè)子幀,其中每個(gè)子幀持續(xù)時(shí)間為10毫秒,或包含80個(gè)采樣。類似地,在該示例性實(shí)施例中,模式1采用每幀三個(gè)子幀,其中第一和第二子幀持續(xù)時(shí)間為6.625毫秒,或包含53個(gè)采樣,而第三個(gè)子幀持續(xù)時(shí)間為6.75毫秒,或包含54個(gè)采樣。在這兩種模式下,均可使用15毫秒的超前(look ahead)。對(duì)于兩種模式0和1,均可使用一第十階線性預(yù)測(cè)(LP)模型來(lái)表示信號(hào)的譜包絡(luò)。LP模型例如可通過(guò)使用延遲決策,切換多級(jí)預(yù)測(cè)矢量量化方案在線性譜頻(LSF)域中編碼。
模式0使用傳統(tǒng)的語(yǔ)音編碼算法,諸如CELP算法。然而,模式0并非用于所有的語(yǔ)音幀,而是如以下更為詳細(xì)的討論,選擇模式0是要處理除了“周期狀”語(yǔ)音的所有語(yǔ)音幀。為了方便,“周期狀”語(yǔ)音在這里被稱為周期語(yǔ)音,所有其它語(yǔ)音為“非周期”語(yǔ)音。這種“非周期”語(yǔ)音包括其典型的參數(shù)諸如音調(diào)相關(guān)性和音調(diào)滯后迅速改變的過(guò)渡幀,以及其信號(hào)主要是噪聲狀的幀。模式0把每一幀分解為兩個(gè)子幀。模式0對(duì)每一子幀進(jìn)行一次音調(diào)滯后編碼,且其具有二維矢量量化器,以便對(duì)每一子幀進(jìn)行一次音調(diào)增益(即自適應(yīng)碼本增益)和固定碼本增益的聯(lián)合編碼。在該示例性例子中,固定碼本包含兩個(gè)脈沖子碼本和一個(gè)高斯子碼本;這兩個(gè)脈沖子碼本分別有兩個(gè)和三個(gè)脈沖。
模式1與傳統(tǒng)的CELP算法不同。模式1處理包含周期語(yǔ)音的幀,它們一般有高度的周期性并常常可由一平滑音調(diào)軌跡很好地表示。該具體的實(shí)施例中,模式1采用每幀三個(gè)子幀。在子幀處理之前,每出現(xiàn)一幀就對(duì)音調(diào)滯后進(jìn)行一次編碼,作為音調(diào)預(yù)處理的一部分,并從該滯后導(dǎo)出插入的音調(diào)軌跡。這些子幀的三個(gè)音調(diào)增益顯示出很好的穩(wěn)定性,并在閉環(huán)子幀處理之前基于均方誤差準(zhǔn)則使用預(yù)矢量量化被聯(lián)合量化??蓮募訖?quán)的語(yǔ)音中導(dǎo)出非量化的這三個(gè)基準(zhǔn)音調(diào)增益,它們是基于幀的音調(diào)預(yù)處理的副產(chǎn)品。使用預(yù)量化音調(diào)增益,進(jìn)行傳統(tǒng)的CELP子幀處理,所不同在于剩下三個(gè)固定碼本增益未被量化。在基于延遲決策方法的子幀處理之后,使用能量的移動(dòng)平均預(yù)測(cè)聯(lián)合量化這三個(gè)固定碼本增益。隨后使用完全量化的參數(shù)合成這三個(gè)子幀。
基于包含在幀中的語(yǔ)音的分類對(duì)每一語(yǔ)音幀選擇處理模式的方式,以及周期語(yǔ)音處理的新穎方法,允許以顯著較少的位進(jìn)行增益量化,而在語(yǔ)音感知質(zhì)量上沒(méi)有任何明顯的損失。以下提供處理語(yǔ)音的這種方式的細(xì)節(jié)。
圖3-7是表示由圖1和2中所示語(yǔ)音編碼器的一實(shí)施例使用的多級(jí)編碼方法的功能框圖。具體來(lái)說(shuō),圖3是表示包括多級(jí)編碼方法的第一級(jí)的語(yǔ)音預(yù)處理器193的功能框圖;圖4是表示第二級(jí)的功能框圖;圖5和6是表示第三級(jí)的模式0的功能框圖;以及圖7是表示第三級(jí)的模式1的功能框圖。包括編碼器處理電路的語(yǔ)音編碼器,一般在軟件指令下工作以便執(zhí)行以下功能。
讀取輸入的語(yǔ)音并以幀的形式緩存。轉(zhuǎn)到圖3的語(yǔ)音預(yù)處理器193,把輸入語(yǔ)音192的幀提供給靜音增強(qiáng)器195,其確定該語(yǔ)音幀是否純粹是靜音,即只有“靜音噪聲”。語(yǔ)音增強(qiáng)器195基于幀自適應(yīng)地檢測(cè)當(dāng)前幀是否是純粹的“靜音噪聲”。如果信號(hào)192是“靜音噪聲”,則語(yǔ)音增強(qiáng)器195使該信號(hào)192傾斜為其零電平。否則,如果信號(hào)192不是“靜音噪聲”,則語(yǔ)音增強(qiáng)器195不改變信號(hào)192。語(yǔ)音增強(qiáng)器195對(duì)非常低電平的噪聲清除掉干凈語(yǔ)音的靜音部分,由此提高該干凈語(yǔ)音的感知質(zhì)量。在輸入的語(yǔ)音信號(hào)來(lái)源于A-定律源時(shí),語(yǔ)音增強(qiáng)功能的效果變得尤為明顯;就是說(shuō),就在通過(guò)當(dāng)前語(yǔ)音編碼算法處理之前,該輸入已經(jīng)通過(guò)A-定律編碼和解碼。由于A-定律將0附近的采樣值(例如-1,0,+1)放大為-8或+8,A-定律中的放大能夠變換不可聽到的靜音噪聲為清晰可聽到的噪聲。在由語(yǔ)音增強(qiáng)器195的處理之后,語(yǔ)音信號(hào)被提供給高通濾波器197。
高通濾波器197去除低于一定截止頻率的頻率,并允許高于該截止頻率的頻率通過(guò)到達(dá)噪聲衰減器199。在該具體實(shí)施例中,高通濾波器197與ITU-T的G.729語(yǔ)音編碼標(biāo)準(zhǔn)的輸入高通濾波器相同。就是說(shuō),它是帶有140赫茲(Hz)截止頻率的第二階極-零濾波器。當(dāng)然,高通濾波器197不必是這種濾波器,而是可構(gòu)造為本領(lǐng)域技術(shù)人員所知的任何類型的合適的濾波器。
噪聲衰減器199執(zhí)行噪聲抑制算法。在該具體實(shí)施例中,噪聲衰減器199對(duì)環(huán)境噪聲進(jìn)行最大5分貝(dB)的微弱噪聲衰減,以便通過(guò)語(yǔ)音編碼算法改進(jìn)參數(shù)的估計(jì)??墒褂帽绢I(lǐng)域技術(shù)人員所知的多種技術(shù)中的任何一種來(lái)增強(qiáng)靜音、構(gòu)建高通濾波器197并衰減噪聲。語(yǔ)音預(yù)處理器193的輸出是被預(yù)處理的語(yǔ)音200。
當(dāng)然,靜音增強(qiáng)器195、高通濾波器197和噪聲衰減器199可按可使用本領(lǐng)域技術(shù)人員所知的適用于該特定應(yīng)用的方式以任何其它裝置代替或修改。
轉(zhuǎn)到圖4,提供了公用的基于幀的語(yǔ)音信號(hào)處理功能框圖。換言之,圖4示出基于逐幀的語(yǔ)音信號(hào)的處理。在進(jìn)行模式相關(guān)處理250之前,這種幀處理的進(jìn)行與模式(即模式0或1)無(wú)關(guān)。預(yù)處理的語(yǔ)音200由感知加權(quán)濾波器252接收,該濾波器操作用以加強(qiáng)預(yù)處理的語(yǔ)音信號(hào)200的低谷區(qū)域并減弱其尖峰區(qū)域。感知加權(quán)濾波器252可按本領(lǐng)域技術(shù)人員所知的并適用于特定應(yīng)用的方式以任何其它裝置代替或修改。
LPC分析器260接收該預(yù)處理的應(yīng)用信號(hào)200并估計(jì)語(yǔ)音信號(hào)200的短期譜包絡(luò)。LPC分析器260從定義語(yǔ)音信號(hào)200的特征中提取LPC系數(shù)。在一個(gè)實(shí)施例中,對(duì)每一幀進(jìn)行三個(gè)第十階LPC分析。它們的中心在該幀的中間三分之一,最后三分之一,及幀的超前。重復(fù)對(duì)該超前的LPC分析,用于下一個(gè)幀,作為中心為該幀的第一個(gè)三分之一的LPC分析。這樣,對(duì)于每一幀,產(chǎn)生四組LPC參數(shù)。LPC分析器260還可將LPC系數(shù)量化至,例如線譜頻率(LSF)域。LPC系數(shù)的量化可以是標(biāo)量量化或矢量量化,并可在任何適當(dāng)?shù)挠蛑幸詷I(yè)內(nèi)任何已知的方式進(jìn)行。
分類器270通過(guò)例如查看幀的絕對(duì)最大值,反射系數(shù),預(yù)測(cè)誤差,來(lái)自LPC分析器260的LSF矢量,第十階自相關(guān),最近的音調(diào)滯后和最近的音調(diào)增益,來(lái)獲得關(guān)于預(yù)處理語(yǔ)音200的特征信息。這些參數(shù)是本領(lǐng)域技術(shù)人員所熟知的,因此在此不再解釋。分類器270使用這些信息控制編碼器的其它方面,諸如信噪比的估計(jì),音調(diào)的估計(jì),分類,譜平滑,能量平滑和增益歸一化。同樣,這些方面是本領(lǐng)域技術(shù)人員所熟知的,因此這里不再解釋。以下提供分類算法的簡(jiǎn)要總結(jié)。
分類器270借助于音調(diào)預(yù)處理器254,根據(jù)幀的主要特征把每一幀分類為六類之一。這些類型是(1)靜音/背景噪聲;(2)噪聲/似非話音語(yǔ)音;(3)非話音;(4)過(guò)渡音(包括啟動(dòng));(5)非穩(wěn)定話音;及(6)穩(wěn)定話音。分類器270可使用任何一種方法把輸入信號(hào)分類為周期信號(hào)和非周期信號(hào)。例如,分類器270可把預(yù)處理語(yǔ)音信號(hào),該幀的后一半的音調(diào)滯后和相關(guān)性,及其它信息作為輸入?yún)?shù)。
可使用各種標(biāo)準(zhǔn)以確定是否可將語(yǔ)音認(rèn)為是周期性的。例如,如果語(yǔ)音是穩(wěn)定的話音信號(hào),則可認(rèn)為語(yǔ)音是周期性的。某些人可能認(rèn)為周期性語(yǔ)音包含穩(wěn)定話音語(yǔ)音和非穩(wěn)定話音語(yǔ)音,但為了本說(shuō)明書的說(shuō)明,周期性語(yǔ)音包括穩(wěn)定話音語(yǔ)音。此外,周期性語(yǔ)音可以是平滑和穩(wěn)定的語(yǔ)音。當(dāng)話音信號(hào)在一幀內(nèi)的變化不大于一定量時(shí),該語(yǔ)音信號(hào)被認(rèn)為是“穩(wěn)定”的。這種語(yǔ)音信號(hào)更可能具有良好定義的能量輪廓。如果一語(yǔ)音的自適應(yīng)碼本增益GP大于一閾值,則該語(yǔ)音信號(hào)是“穩(wěn)定”的。例如,如果閾值為0.7,則當(dāng)其自適應(yīng)碼本增益GP大于0.7時(shí),子幀內(nèi)的語(yǔ)音信號(hào)被認(rèn)為是穩(wěn)定。非周期性語(yǔ)音,或沒(méi)有話音的語(yǔ)音,包括非話音語(yǔ)音(例如,摩擦音諸如“shhh”聲音),過(guò)渡音(例如啟動(dòng)音(onsets),補(bǔ)償音(offsets)),背景噪聲和靜音。
更具體地說(shuō),在該示例性實(shí)施例中,語(yǔ)音編碼器初始地導(dǎo)出以下參數(shù)譜傾斜(每幀對(duì)第一反射系數(shù)進(jìn)行四次估計(jì))κ(k)=Σn=1L-1sk(n)·sk(n-1)Σn=0L-1sk(n)2;k=0,1,...,3,---(1)]]>其中L=80是在其上計(jì)算反射系數(shù)的窗口,而sk(n)是由以下等式給出的第k段Sk(n)=s(k·40-20+n)·wh(n),n=0,1,...79, (2)其中wh(n)為80個(gè)采樣漢明窗,而s(0),s(1),...,s(159)是該預(yù)處理語(yǔ)音信號(hào)的當(dāng)前幀。
絕對(duì)最大值(跟蹤絕對(duì)信號(hào)最大值,每幀進(jìn)行8次估算)χ(k)=max{s(n)|,n=ns(k),ns(k)+1,...,ne(k)-1},k=0,1,...,7 (3)其中ns(k)和ne(k)分別是用于在該幀的第k·160/8次采樣時(shí)刻搜索第k個(gè)最大值的開始點(diǎn)和結(jié)束點(diǎn)。一般來(lái)說(shuō),段的長(zhǎng)度是音調(diào)周期的1.5倍且這些段部分重疊。這樣,就可獲得該振幅包絡(luò)的平滑輪廓。
譜傾斜,絕對(duì)最大值和音調(diào)相關(guān)參數(shù)構(gòu)成了分類的基礎(chǔ)。然而,對(duì)這些參數(shù)的其它處理和分析是在分類決定之前進(jìn)行的。所述參數(shù)處理最初是向這三個(gè)參數(shù)加權(quán)。在某種意義上,加權(quán)是通過(guò)減去來(lái)自背景噪聲的影響來(lái)去除這些參數(shù)中的背景噪聲成分。這提供了一種“獨(dú)立”于任何背景噪聲并由此更為一致的參數(shù)空間,并改進(jìn)了分類對(duì)背景噪聲的穩(wěn)定性。
根據(jù)以下方程式即方程式4-7,對(duì)于每一幀,將噪聲的音調(diào)周期能量的連續(xù)均值、噪聲的譜傾斜、噪聲的絕對(duì)最大值、以及噪聲的音調(diào)相關(guān)性更新八次。由方程式4-7定義的以下參數(shù)每幀被估計(jì)/采樣八次,提供具有精細(xì)的參數(shù)空間時(shí)間分辨率噪聲的音調(diào)周期能量的連續(xù)均值<EN,P(k)>=α1·<EN,P(k-1)>+(1-α1)·EP(k),(4)其中EN,P(k)是在該幀的k·160/8次采樣時(shí)刻音調(diào)周期的歸一化能量。由于音調(diào)周期一般超過(guò)20個(gè)采樣(160采樣/8),在其上計(jì)算能量的各段可能重疊。
噪聲的譜傾斜的連續(xù)均值<κN(k)>=α1·<κN(k-1)>+(1-α1)·κ(k模2) (5)噪聲的絕對(duì)最大值的連續(xù)均值<χN(k)>=α1·<XN(k-1)>+(1-α1)·χ(k) (6)噪聲的音調(diào)相關(guān)的連續(xù)均值<RN,P(k)>=α1·<RN,P(k-1)>+(1-α1)·RP(7)其中RP是該幀的后一半的輸入音調(diào)相關(guān)值。自適應(yīng)常數(shù)α1是自適應(yīng)的,雖然典型值是α1=0.99。
背景噪聲對(duì)信號(hào)的比值根據(jù)以下公式計(jì)算γ(k)=<EN,P(k)>Ep(k).---(8)]]>參數(shù)噪聲衰減限制為30dB,即,γ(k)={γ(k)>0.968?0.968γ(k)}(9)
根據(jù)以下方程式10-12,通過(guò)去除噪聲成分獲得無(wú)噪聲參數(shù)(加權(quán)參數(shù))集加權(quán)譜傾斜的估計(jì)κw(k)=κw(k模2)-γ(k)·<κN(k)> (10)加權(quán)的絕對(duì)最大值估計(jì)χw(k)=χw(k)-y(k)·<χN(k)> (11)加權(quán)音調(diào)相關(guān)估計(jì)Rw,P(k)=RP-γ(k)·<RN,P(k)> (12)分別根據(jù)以下方程式13和14計(jì)算作為一階近似斜率的加權(quán)傾斜和加權(quán)最大值的演變,作為一階近似斜率∂κw(k)=Σl=17l·(χw(k-7+l)-χw(k-7))Σl=17l2---(13)]]>∂κw(k)=Σl=17l·(κw(k-7+l)-κw(k-7))Σl=17l2---(14)]]>一旦對(duì)幀的八個(gè)采樣點(diǎn)更新了方程式4到14的參數(shù),從方程式4-14的參數(shù)計(jì)算以下基于幀的參數(shù)最大加權(quán)音調(diào)相關(guān)
Rw,pmax=max{Rw,p(k-7+l),l=0,1,...,7}---(15)]]>平均加權(quán)音調(diào)相關(guān)Rw,pavg=18Σl=07Rw,p(k-7+l).---(16)]]>平均加權(quán)音調(diào)相關(guān)連續(xù)均值<Rw,pavg(m)>=α2·<Rw,pavg(m-1)>+(1-α2)·Rw,pavg,---(17)]]>其中m是幀數(shù),α2=0.75是自適應(yīng)常數(shù)。
音調(diào)滯后的歸一化標(biāo)準(zhǔn)偏差σLP(m)=1μLP(m)Σl=02(Lp(m-2+l)-μLP(m))23---(18)]]>其中Lp(m)是輸入音調(diào)滯后,μLP(m)是以下公式給出的過(guò)去三個(gè)幀上音調(diào)滯后的均值μLP(m)=13Σl=02(Lp(m-2+1)..---(19)]]>最小加權(quán)譜傾斜Knmin=min{κw(k-7+l),l=0,1,...,7}---(20)]]>最小加權(quán)譜傾斜的連續(xù)均值<κwmin(m)>=α2·<κwmin(m-1)>+(1-α2)·κwmin.---(21)]]>
平均加權(quán)譜傾斜κwavg=18Σl=07κw(k-7+l).---(22)]]>加權(quán)譜傾斜的最小斜率∂κwmin=min{∂κw(k-7+l),l=0,1,...,7.---(23)]]>加權(quán)譜傾斜的累計(jì)斜率∂κwacc=Σl=07∂κw(k-7+l).---(24)]]>加權(quán)最大值的最大斜率∂χwmax=max{∂χw(k-7+l),l=0,1,...,7---(25)]]>加權(quán)最大值的累計(jì)斜率∂χwacc=Σl=07∂χw(k-7+l).---(26)]]>由方程式23、25和26給出的參數(shù)用來(lái)標(biāo)記一幀是否有可能包含啟動(dòng)音(onset),由方程式16-18、20-22給出的參數(shù)用來(lái)標(biāo)記一幀是否有可能是以話音語(yǔ)音為主?;谶@些初始標(biāo)記、過(guò)去的標(biāo)記和其它信息,該幀被分類為六個(gè)類型之一。
有關(guān)分類器270對(duì)預(yù)處理語(yǔ)音200進(jìn)行分類的方式在轉(zhuǎn)讓給同一受讓人,即Conexant Systems,Inc.的美國(guó)專利申請(qǐng)中有更詳細(xì)的描述,其先前已有引用這里作為參考1999年9月22日提交的,序列號(hào)為60/155,321的美國(guó)臨時(shí)申請(qǐng)“4 kbits/s Speech Coding”,Conexant的文檔號(hào)為99RSS485。
LSF量化器267從LPC分析器260接收LPC系數(shù),并量化LPC系數(shù)??梢允前?biāo)量量化或矢量量化的任何已知量化方法的LSF量化的目的,是要以較少的位來(lái)表示這些系數(shù)。在這一具體實(shí)施例中,LSF量化器267對(duì)第十階LPC模型進(jìn)行量化。LSF量化器267還可以平滑LSF,以便減少LPC合成濾波器的譜包絡(luò)中不希望有的波動(dòng)。LSF量化器267把量化的系數(shù)Aq(z)268發(fā)送到語(yǔ)音編碼器的子幀處理部分250。語(yǔ)音編碼器的子幀處理部分是模式相關(guān)的。雖然最好是LSF,但量化器267能夠把LPC系數(shù)量化到LSF域以外的域中。
如果選擇了音調(diào)預(yù)處理,則加權(quán)的語(yǔ)音信號(hào)256被發(fā)送到音調(diào)預(yù)處理器254。音調(diào)預(yù)處理器254與開環(huán)的音調(diào)估計(jì)器272協(xié)作以便修改該加權(quán)的語(yǔ)音256,使得其音調(diào)信息能夠被更精確地量化。音調(diào)預(yù)處理器254使用,例如,已知的對(duì)音調(diào)周期的壓縮或擴(kuò)張技術(shù),以便改進(jìn)語(yǔ)音編碼器量化音調(diào)增益的能力。換言之,音調(diào)預(yù)處理器254修改加權(quán)的語(yǔ)音信號(hào)256,以便更好地匹配該估計(jì)的音調(diào)軌跡,這樣當(dāng)產(chǎn)生感知上不可區(qū)分的再生語(yǔ)音時(shí),可更精確地適配編碼模型。如果編碼器處理電路選擇音調(diào)預(yù)處理模式,則音調(diào)預(yù)處理器254進(jìn)行加權(quán)語(yǔ)音信號(hào)256的音調(diào)預(yù)處理。音調(diào)預(yù)處理器254使該加權(quán)的語(yǔ)音信號(hào)256扭曲,以便匹配將由解碼器處理電路產(chǎn)生的內(nèi)插的音調(diào)值。當(dāng)應(yīng)用音調(diào)預(yù)處理時(shí),該扭曲的語(yǔ)音信號(hào)被稱為修正的加權(quán)語(yǔ)音信號(hào)258。如果不選擇音調(diào)預(yù)處理模式,則該加權(quán)的語(yǔ)音信號(hào)256通過(guò)音調(diào)預(yù)處理器254而不作音調(diào)預(yù)處理(并為了方便,仍然稱為“改進(jìn)的加權(quán)的語(yǔ)音信號(hào)”258)。音調(diào)預(yù)處理器254可包括一波形內(nèi)插器,其功能和實(shí)現(xiàn)是本領(lǐng)域技術(shù)人員所熟知的。波形內(nèi)插器使用已知的前向-后向波形內(nèi)插技術(shù)可改進(jìn)某些不規(guī)則的過(guò)渡段,以便提高語(yǔ)音信號(hào)的規(guī)則性并抑制不規(guī)則性。通過(guò)音調(diào)預(yù)處理器254估計(jì)該加權(quán)的信號(hào)256的音調(diào)增益和音調(diào)相關(guān)。開環(huán)音調(diào)估計(jì)器272從該加權(quán)的語(yǔ)音256提取關(guān)于音調(diào)特征的信息。音調(diào)信息包含音調(diào)滯后和音調(diào)增益信息。
音調(diào)預(yù)處理器254還通過(guò)開環(huán)音調(diào)估計(jì)器272與分類器270相互作用,以便通過(guò)語(yǔ)音信號(hào)分類器270使分類精細(xì)化。因?yàn)橐粽{(diào)預(yù)處理器254獲得關(guān)于該語(yǔ)音信號(hào)的附加信息,故分類器270可使用該附加信息精細(xì)調(diào)整其語(yǔ)音信號(hào)的分類。在進(jìn)行音調(diào)預(yù)處理之后,音調(diào)預(yù)處理器254向該語(yǔ)音編碼器的模式相關(guān)子幀處理部分250輸出音調(diào)軌跡信息284及非量化音調(diào)增益286。
一旦分類器270把該預(yù)處理的語(yǔ)音200分類為多個(gè)可能的類型之一,該預(yù)處理的語(yǔ)音信號(hào)200的分類號(hào)碼就被作為控制信息280發(fā)送到模式選擇器274及模式相關(guān)子幀處理器250。模式選擇器274使用分類號(hào)碼選擇操作模式。在該特定實(shí)施例中,分類器270把該預(yù)處理的語(yǔ)音信號(hào)200分類為六個(gè)可能的類型之一。如果預(yù)處理的語(yǔ)音信號(hào)200是穩(wěn)定的話音語(yǔ)音(例如稱為“周期性”語(yǔ)音),則模式選擇器274將模式282設(shè)置為模式1。否則,模式選擇器274將模式282設(shè)置為模式0。模式信號(hào)282被發(fā)送到語(yǔ)音編碼器的模式相關(guān)子幀處理器部分250。模式信息282被添加到向解碼器發(fā)送的位流。
在該特定實(shí)施例中,應(yīng)當(dāng)小心解釋將語(yǔ)音標(biāo)記為“周期性”和“非周期性”。例如,使用模式1編碼的幀是那些基于每幀僅由七位導(dǎo)出的音調(diào)軌跡284在該整個(gè)幀保持高音調(diào)相關(guān)和高音調(diào)增益的幀。因而,選擇模式0而不是模式1可能是由于僅由七位表示的音調(diào)軌跡284不精確,而不一定是由于缺乏周期性。因而,使用模式0被編碼的信號(hào)可能很好包含了周期性,雖然每幀僅使用七位未能很好地表示音調(diào)軌跡。因而,模式0以每幀七位對(duì)音調(diào)軌跡進(jìn)行兩次編碼,即每幀總共14位,以便更正確地表示音調(diào)軌跡。
本說(shuō)明書中圖3-4和其它圖示上的每一功能框圖不必是分離的結(jié)構(gòu),可以是彼此組合,或按需要具有更多的功能塊。
語(yǔ)音解碼器的模式相關(guān)子幀處理部分250以模式0和模式1兩種模式操作。圖5-6提供了模式0子幀處理的功能框圖,而圖7表示語(yǔ)音編碼器第三級(jí)的模式1子幀處理的功能框圖。圖8示出與所述改進(jìn)的語(yǔ)音編碼器一致的一語(yǔ)音解碼器的功能框圖。該語(yǔ)音解碼器執(zhí)行位流到算法參數(shù)的逆映射,隨后是模式相關(guān)合成。這些圖示及模式更為詳細(xì)的描述在轉(zhuǎn)讓給相同受讓人,即Conexant Systems,Inc.的美國(guó)專利申請(qǐng)中有述,其先前已引用在此作為參考2000年5月19日提交的,序列號(hào)為09/574,396的美國(guó)專利申請(qǐng)“A New Speech Gain Quantization Strategy,”Conexant文檔號(hào)為99RSS312。
代表語(yǔ)音信號(hào)的量化的參數(shù)可被打包,然后以數(shù)據(jù)包的形式從編碼器發(fā)送至解碼器。在以下所描述的示例性實(shí)施例中,逐幀分析該語(yǔ)音信號(hào),其中每一幀具有至少一個(gè)子幀,且每一數(shù)據(jù)包包含一個(gè)幀的信息。這樣,在該例中,每一幀的參數(shù)信息是以信息包被發(fā)送的。換言之,對(duì)每一幀有一個(gè)數(shù)據(jù)包。當(dāng)然,其它的變形也是可能的,這與實(shí)施例有關(guān),每一數(shù)據(jù)包可表示一幀的一部分,一個(gè)以上的語(yǔ)音幀,或多個(gè)幀。
LSFLSF(線譜頻率)是LPC譜(即語(yǔ)音譜的短期包絡(luò))的表示。LSF可被看作若干特定的頻率,在這些頻率處,對(duì)該語(yǔ)音譜進(jìn)行采樣。例如,如果系統(tǒng)使用十階LPC,則每幀將有10個(gè)LSF。在連續(xù)的LSF之間必須有一最小間隔,使得它們不會(huì)產(chǎn)生準(zhǔn)不穩(wěn)定濾波器。例如如果fi是第i個(gè)LSF,且等于100Hz,則第(i+1)個(gè)LSF fi+1必須至少是fi加最小間隔。例如,如果fi=100Hz且最小間隔為60Hz,則fi+1必須至少為160Hz,并可以是任何大于160Hz的頻率。最小間隔是不隨幀變化的一個(gè)固定數(shù),并且編碼器和解碼器都知道,以便它們能夠協(xié)同操作。
假設(shè)編碼器使用預(yù)測(cè)編碼對(duì)實(shí)現(xiàn)低位速率的語(yǔ)音通信所必需的LSF編碼(與非預(yù)測(cè)編碼相反)。換言之,編碼器使用先前的一個(gè)幀或多個(gè)幀的量化的LSF來(lái)預(yù)測(cè)當(dāng)前幀的LSF。編碼器從LPC譜導(dǎo)出出的當(dāng)前幀的預(yù)測(cè)LSF與真實(shí)的LSF之間的誤差被量化并發(fā)送到解碼器。解碼器按與編碼器相同的方式確定當(dāng)前幀的預(yù)測(cè)LSF。然后通過(guò)獲知由編碼器發(fā)送的誤差,解碼器能夠計(jì)算出當(dāng)前幀的真實(shí)LSF。然而,如果包含LSF信息的幀丟失會(huì)如何?轉(zhuǎn)向圖9,假設(shè)編碼器發(fā)送幀0-3,而解碼器只收到幀0,2和3。幀1是丟失或“被抹掉”的幀。如果當(dāng)前幀是丟失的幀1,則解碼器沒(méi)有計(jì)算真實(shí)的LSF所必須的誤差信息。結(jié)果是現(xiàn)有技術(shù)系統(tǒng)不能計(jì)算真實(shí)的LSF,而是把該LSF設(shè)置為前一幀的LSF,或一定數(shù)量先前幀的平均LSF。這一方法的問(wèn)題在于當(dāng)前幀的LSF可能是非常不精確的(與真實(shí)的LSF比較),且后續(xù)幀(即圖9的例子中幀2,3)使用幀1不精確的LSF確定它們自己的LSF。于是,由丟失幀所引起的LSF外推誤差影響到后續(xù)幀的LSF的精確性。
在本發(fā)明的示例實(shí)施例中,一種改進(jìn)的語(yǔ)音解碼器包括一計(jì)數(shù)器,它對(duì)該丟失幀之后的好幀進(jìn)行計(jì)數(shù)。圖10示出與每一幀相關(guān)聯(lián)的最小LSF間隔的一例。假設(shè)解碼器收到好幀0,但幀1丟失。在現(xiàn)有技術(shù)方法之下,LSF之間的最小間隔是不變的固定數(shù)(圖10中是60Hz)。相反,當(dāng)改進(jìn)的語(yǔ)音解碼器注意到有丟失幀時(shí),它增加該幀的最小間隔以避免生成準(zhǔn)不穩(wěn)定濾波器。這一“受控的自適應(yīng)LSF間隔”的增加量取決于對(duì)該特定情形多大的間隔增量為最佳。例如,該改進(jìn)的語(yǔ)音解碼器可能考慮信號(hào)的能量(或信號(hào)功率)如何隨時(shí)間演變,信號(hào)的頻率內(nèi)容(頻譜)如何隨時(shí)間演變,以及計(jì)數(shù)器確定丟失幀的最小間隔應(yīng)當(dāng)被設(shè)置為怎樣的值。本領(lǐng)域的技術(shù)人員能夠通過(guò)簡(jiǎn)單的實(shí)驗(yàn)確定出怎樣的最小間隔值可滿足使用。分析語(yǔ)音信號(hào)和/或其參數(shù)以導(dǎo)出適當(dāng)?shù)腖SF的優(yōu)點(diǎn)在于,得到的LSF可更接近該幀真實(shí)的(但丟失的)LSF。
自適應(yīng)碼本激勵(lì)(音調(diào)滯后)由自適應(yīng)碼本激勵(lì)和固定碼本激勵(lì)組成的總激勵(lì)eT由以下方程式描述eT=gp*exp+gc*exc(27)其中g(shù)p和gc分別是該量化的自適應(yīng)碼本增益和固定碼本增益,exp和exc是自適應(yīng)碼本激勵(lì)和固定碼本激勵(lì)。緩存器(也稱為自適應(yīng)碼本緩沖器)保存來(lái)自前一幀的eT及其分量?;诋?dāng)前幀的音調(diào)滯后參數(shù),語(yǔ)音通信系統(tǒng)從緩存器選擇一eT,并使用它作為當(dāng)前幀的exp。gp,gc和exc是從當(dāng)前幀獲得的。然后exp,gp,gc和exc被帶入到公式中以計(jì)算用于當(dāng)前幀的eT。將該計(jì)算的eT及其分量存儲(chǔ)在緩存器中用于當(dāng)前幀。該過(guò)程重復(fù),由此該緩存的eT用作為下一個(gè)幀的exp。這樣,該編碼方法(它由解碼器復(fù)制)的反饋特性是明顯的。由于方程式中的信息被量化,編碼器和解碼器被同步。注意,緩存器是一種自適應(yīng)碼本類型的(但不同于用于增益激勵(lì)的自適應(yīng)碼本)。
圖11示出由現(xiàn)有技術(shù)語(yǔ)音系統(tǒng)發(fā)送的用于四個(gè)幀1-4的音調(diào)滯后信息的例子。現(xiàn)有技術(shù)的編碼器將發(fā)送用于當(dāng)前幀的音調(diào)滯后和增量值,其中該增量值是當(dāng)前幀的音調(diào)滯后與前一幀的音調(diào)滯后之間的差,EVRC(增強(qiáng)的可變速率編碼器)標(biāo)準(zhǔn)規(guī)定了對(duì)增量音調(diào)滯后的使用。這樣,例如,關(guān)于幀1的信息包將包含音調(diào)滯后L1和增量(L1-L0),其中L0是前一幀0的音調(diào)滯后;關(guān)于幀2的信息包將包含音調(diào)滯后L2和增量(L2-L1);關(guān)于幀3的信息包將包含音調(diào)滯后L3和增量(L3-L2),等等。注意,相鄰幀的音調(diào)滯后可能相等,于是增量值可能為零。如果幀2丟失且不再會(huì)由解碼器收到,則在幀2時(shí)刻可得到的關(guān)于音調(diào)滯后的唯一信息是音調(diào)滯后L1,因?yàn)榍耙粠?并未丟失。音調(diào)滯后L2和增量(L2-L1)信息的丟失造成兩個(gè)問(wèn)題。第一個(gè)問(wèn)題是如何對(duì)丟失的幀2估計(jì)精確的音調(diào)滯后L2。第二個(gè)問(wèn)題是如何防止在估計(jì)音調(diào)滯后L2中出現(xiàn)的誤差在后續(xù)幀中產(chǎn)生誤差。某些現(xiàn)有技術(shù)系統(tǒng)并沒(méi)有試圖解決這兩個(gè)問(wèn)題任何一個(gè)。
為試圖解決第一個(gè)問(wèn)題,某些現(xiàn)有技術(shù)系統(tǒng)使用來(lái)自前一良好幀1的音調(diào)滯后L1作為用于丟失幀2的估計(jì)的音調(diào)滯后L2’,即便如此,該估計(jì)的音調(diào)滯后L2’與真實(shí)的音調(diào)滯后L2之間的任何差都可能是誤差。
第二個(gè)問(wèn)題是如何防止在估計(jì)音調(diào)滯后L2’中出現(xiàn)的誤差在后續(xù)幀中產(chǎn)生誤差?;叵胂惹暗挠懻摚瑤琻的音調(diào)滯后是用來(lái)更新自適應(yīng)碼本緩存器的,該自適應(yīng)碼本緩存器接著由后續(xù)幀使用。估計(jì)的音調(diào)滯后L2’與真實(shí)的音調(diào)滯后L2之間的誤差將在自適應(yīng)碼本緩存器中產(chǎn)生一個(gè)誤差,該誤差將在后續(xù)接收的幀中產(chǎn)生誤差。換言之,在估計(jì)的音調(diào)滯后L2’中產(chǎn)生的誤差可能造成編碼器的自適應(yīng)碼本緩存器與解碼器的自適應(yīng)碼本緩存器之間失去同步。作為進(jìn)一步的例子,在當(dāng)前丟失幀2的處理期間,現(xiàn)有技術(shù)解碼器將使估計(jì)的音調(diào)滯后L2’為音調(diào)滯后L1(其可能不同于真實(shí)的音調(diào)滯后L2)以得到幀2的exp。因而,使用有誤差的音調(diào)滯后造成為幀2選擇了錯(cuò)誤的exp,且這一誤差通過(guò)后續(xù)幀傳播。為了解決現(xiàn)有技術(shù)中的這一問(wèn)題,當(dāng)解碼器收到幀3時(shí),解碼器現(xiàn)在有音調(diào)滯后L3和增量(L3-L2),且這樣能夠逆向計(jì)算真實(shí)的音調(diào)滯后L2應(yīng)當(dāng)為何。真實(shí)的音調(diào)滯后L2簡(jiǎn)單地就是音調(diào)滯后L3減去增量(L3-L2)。這樣,現(xiàn)有技術(shù)解碼器就能夠校正由幀3使用的自適應(yīng)碼本緩存器。但由于已由該估計(jì)的音調(diào)滯后L2’對(duì)丟失的幀2進(jìn)行了處理,故修正丟失的幀2為時(shí)已晚。
圖12示出若干幀的假設(shè)的情形,表示解決因丟失音調(diào)滯后信息而造成的兩個(gè)問(wèn)題而改進(jìn)的語(yǔ)音通信系統(tǒng)的示例實(shí)施例的操作。假設(shè)幀2丟失,而收到幀0,1,3和4。在解碼器處理丟失幀2的期間,該改進(jìn)的解碼器可使用來(lái)自先前幀1的音調(diào)滯后L1。另外且最好是,該改進(jìn)的解碼器可基于先前一個(gè)(多個(gè))幀的一個(gè)(多個(gè))音調(diào)滯后進(jìn)行外推以確定一估計(jì)的音調(diào)滯后L2’,其結(jié)果可能是比音調(diào)滯后L1更為精確的估計(jì)。于是,例如,解碼器可使用音調(diào)滯后L0和L1來(lái)外推該估計(jì)的音調(diào)滯后L2’。外推方法可以是任何外推法,例如曲線擬合方法,該方法假設(shè)自過(guò)去具有一平滑的音調(diào)輪廓來(lái)估計(jì)該丟失音調(diào)滯后L2,一種方法是使用過(guò)去音調(diào)滯后的平均,或任何其它外推方法。因?yàn)椴恍枰l(fā)送增量值,該方法降低了從編碼器向解碼器發(fā)送的位數(shù)。
為了解決第二個(gè)問(wèn)題,當(dāng)改進(jìn)的解碼器收到幀3時(shí),解碼器有正確的音調(diào)滯后L3。然而,如上所述,幀3使用的自適應(yīng)碼本緩存器由于在估計(jì)音調(diào)滯后L2’中的任何外推誤差而可能不正確。該改進(jìn)的解碼器試圖校正在幀2中估計(jì)音調(diào)滯后L2’中的誤差,以免影響幀2之后的幀,但無(wú)需發(fā)送增量音調(diào)滯后信息。一旦改進(jìn)的解碼器獲得音調(diào)滯后L3,就使用諸如曲線擬合等內(nèi)插方法調(diào)整或精細(xì)調(diào)整其先前音調(diào)滯后L2’的估計(jì)。通過(guò)獲知音調(diào)滯后L1和L3,曲線擬合方法可以比當(dāng)不知道音調(diào)滯后L3時(shí)更精確估計(jì)L2’。其結(jié)果是得到精細(xì)調(diào)整的音調(diào)滯后L2”,它用來(lái)調(diào)整或校正供幀3使用的自適應(yīng)碼本緩存器。更具體地說(shuō),精細(xì)調(diào)整的音調(diào)滯后L2”用來(lái)調(diào)整或校正自適應(yīng)碼本緩存器中的量化的自適應(yīng)碼本激勵(lì)。于是,該改進(jìn)的解碼器減少了必須發(fā)送的位數(shù),同時(shí)以滿足大多數(shù)情形的方式精細(xì)調(diào)整音調(diào)滯后L2’。這樣,為了降低音調(diào)滯后L2中任何誤差對(duì)后續(xù)收到的幀的影響,通過(guò)假設(shè)平滑的音調(diào)輪廓,該改進(jìn)的解碼器可使用下一個(gè)幀3的音調(diào)滯后L3和先前收到的幀1的音調(diào)滯后L1精細(xì)調(diào)整音調(diào)滯后L2的先前的估計(jì)。這一基于該丟失幀之前和之后收到的幀的音調(diào)滯的估計(jì)方法的精確性可以是非常好的,因?yàn)閷?duì)于話音語(yǔ)音,音調(diào)輪廓一般是平滑的。
增益在幀從編碼器向解碼器的傳輸期間,幀的丟失還會(huì)造成增益參數(shù)失,增益參數(shù),諸如,自適應(yīng)碼本增益gp和固定碼本增益gc的丟。每一幀包含多個(gè)子幀,其中每一子幀均具有增益信息。這樣,幀的丟失造成該幀的每一子幀的增益信息的丟失。語(yǔ)音通信系統(tǒng)必須估計(jì)該丟失幀的每一子幀的增益信息。一個(gè)子幀的增益信息可能不同于另一子幀的增益信息。
現(xiàn)有技術(shù)系統(tǒng)采取不同方法估計(jì)該丟失幀的子幀的增益,諸如使用來(lái)自先前良好幀的最后一個(gè)子幀的增益作為該丟失幀的每一子幀的增益。另一變形是使用來(lái)自先前良好幀的最后一個(gè)子幀的增益作為該丟失幀的第一子幀的增益,并在該增益被用作該丟失幀的后續(xù)子幀的增益之前逐漸對(duì)其進(jìn)行衰減。換言之,例如,如果每一幀有四個(gè)子幀,收到幀1但幀2丟失,則收到的幀1的最后一個(gè)子幀的增益參數(shù)被用作為丟失幀2的第一子幀的增益參數(shù),然后使該增益參數(shù)減小一定量并用作該丟失幀2的第二子幀的增益參數(shù),再次減小該增益參數(shù)并用作丟失幀2的第三子幀的增益參數(shù),該增益參數(shù)進(jìn)而被減小并用作丟失幀2的最后一個(gè)子幀的增益參數(shù)。另一方法是檢查一固定數(shù)量的先前收到的幀的子幀的增益參數(shù),以計(jì)算平均增益參數(shù),然后將其用作丟失幀2的第一子幀的增益參數(shù),其中可逐漸減小該增益參數(shù)并將其用作該丟失幀的其余子幀的增益參數(shù)。再一方法是通過(guò)檢查一固定數(shù)量的先前收到的幀的子幀導(dǎo)出增益參數(shù)的中間值,并使用該中間值作為該丟失幀2的第一子幀的增益參數(shù),其中可逐漸減小該增益參數(shù)并將其用作該丟失幀的其余子幀的增益參數(shù)。顯然,現(xiàn)有技術(shù)方法沒(méi)有對(duì)自適應(yīng)碼本增益和固定碼本增益執(zhí)行不同的恢復(fù)方法;它們對(duì)兩種類型的增益使用相同的恢復(fù)方法。
該改進(jìn)的語(yǔ)音通信系統(tǒng)還可處理因丟失幀而丟失的增益參數(shù)。如果語(yǔ)音通信系統(tǒng)在周期狀語(yǔ)音和非周期狀語(yǔ)音之間作出區(qū)分,則系統(tǒng)可針對(duì)每一類型的語(yǔ)音以不同的方式處理丟失的增益參數(shù)。此外,該改進(jìn)的系統(tǒng)對(duì)丟失的自適應(yīng)碼本增益的處理不同于對(duì)丟失的固定碼本增益的處理。首先考察非周期狀語(yǔ)音的情形。為了確定估計(jì)的自適應(yīng)碼本增益gp,該改進(jìn)的解碼器計(jì)算先前收到的自適應(yīng)數(shù)量的幀的子幀的平均的gp。由解碼器估計(jì)的當(dāng)前幀(即丟失幀)的音調(diào)滯后,用來(lái)確定要考察的先前收到的幀的個(gè)數(shù)。一般來(lái)說(shuō),音調(diào)滯后越大,用來(lái)計(jì)算平均的gp的先前收到的幀的數(shù)目就越大。因而,該改進(jìn)的解碼器對(duì)非周期狀語(yǔ)音使用音調(diào)同步化平均方法來(lái)估計(jì)自適應(yīng)碼本增益gp。然后該改進(jìn)的解碼器基于以下公式計(jì)算指示gp預(yù)測(cè)良好程度的ββ=自適應(yīng)碼本激勵(lì)能量/總激勵(lì)能量eT=gp*exp2/(gp*exp2+gc*exc2) (28)β從0到1變化,表示自適應(yīng)碼本激勵(lì)能量與激勵(lì)能量的百分比結(jié)果。β越大,自適應(yīng)碼本激勵(lì)能量的效果就越大。雖然不是必須的,但該改進(jìn)的解碼器最好以不同方式處理非周期狀語(yǔ)音和周期狀語(yǔ)音。
圖16示出解碼器處理非周期狀語(yǔ)音的示例性流程圖。步驟1000確定當(dāng)前幀是否是接收幀(即“好”幀)之后丟失的第一幀。如果當(dāng)前幀是好幀之后第一個(gè)丟失的幀,步驟1002確定由解碼器處理的當(dāng)前子幀是否是幀的第一子幀。如果當(dāng)前子幀是第一子幀,步驟1004計(jì)算一定數(shù)目的先前子幀的平均的gp,其中所述一定數(shù)量子幀的數(shù)目取決于當(dāng)前子幀的音調(diào)滯后。在一示例實(shí)施例中,如果該音調(diào)滯后小于或等于40,則平均gp基于兩個(gè)先前子幀;如果音調(diào)滯后大于40但小于或等于80,則gp基于四個(gè)先前子幀;如果音調(diào)滯后大于80但小于或等于120,則gp基于六個(gè)先前子幀;并如果音調(diào)滯后大于120,則gp基于八個(gè)先前子幀。當(dāng)然,這些值是任意的并可設(shè)置為與子幀長(zhǎng)度相關(guān)的任意其它值。步驟1006確定最大β是否超過(guò)一定的閾值。如果最大β超過(guò)一定的閾值,步驟1008將用于該丟失幀的所有子幀的固定碼本增益gc設(shè)置為零,且將用于該丟失幀的所有子幀的gp設(shè)置為一任意高的數(shù),諸如0.95,而不是以上確定的平均gp。該任意高的數(shù)表明一良好的話音信號(hào)。該丟失幀的當(dāng)前子幀的gp所設(shè)置的任意高的數(shù)可基于多個(gè)因素,包括但不限于一確定數(shù)目的先前幀的最大β,先前收到的幀的譜傾斜,及先前收到的幀的能量。
否則,如果最大β不超過(guò)一確定的閾值(即先前收到的幀包含語(yǔ)音的啟動(dòng)音),則步驟1010將用于該丟失幀的當(dāng)前子幀的gp設(shè)置為(i)以上確定的平均的gp及(ii)任意選擇的高的數(shù)(例如0.95)兩者中的最小值。另一可替代方式是,基于先前收到的幀的譜傾斜,先前收到的幀的能量,和以上確定的平均的gp及任意選擇的高的數(shù)(例如0.95)中的最小值,設(shè)置該丟失幀的當(dāng)前子幀的gp。在最大值β不超過(guò)一定閾值的情形下,該固定碼本增益gc是基于先前子幀中增益標(biāo)度固定碼本激勵(lì)的能量和當(dāng)前子幀中固定碼本激勵(lì)的能量的。具體地說(shuō),由先前子幀中增益標(biāo)度固定碼本激勵(lì)的能量除當(dāng)前子幀中固定碼本激勵(lì)的能量,對(duì)結(jié)果求平方根并乘以衰減分?jǐn)?shù),然后設(shè)置為gc,如以下公式所示gc=衰減因子*平方根(gp*eXC i-12/eXC i2) (29)另外,解碼器可基于先前收到的幀的能量與當(dāng)前丟失幀的能量的比值,導(dǎo)出用于該丟失幀的當(dāng)前子幀的gc。
返回步驟1002,如果當(dāng)前幀不是第一個(gè)子幀,步驟1020設(shè)置該丟失幀的當(dāng)前子幀的gp為由前一子幀的gp衰減或降低的值。其余子幀的每個(gè)gp被設(shè)置為由前一子幀的gp進(jìn)一步衰減的值。用與步驟1010及公式29中相同的方式計(jì)算當(dāng)前子幀的gc。
返回步驟1000,如果這不是好幀之后第一個(gè)丟失幀,步驟1022按與步驟1010及公式29中相同的方式計(jì)算當(dāng)前子幀的gc。步驟1022還將該丟失幀的當(dāng)前子幀的gp設(shè)置為由前一子幀的gp衰減或降低的值。因?yàn)榻獯a器以不同方式估計(jì)gp和gc,故解碼器能夠比現(xiàn)有技術(shù)系統(tǒng)更為精確地估計(jì)它們。
現(xiàn)在根據(jù)圖17中所示的示例流程圖考察周期狀語(yǔ)音的情形。由于解碼器可使用不同的方法來(lái)估計(jì)周期狀語(yǔ)音和非周期狀語(yǔ)音的gp和gc,因此,對(duì)該增益參數(shù)的估計(jì)可以比現(xiàn)有技術(shù)方法更為精確。步驟1030確定當(dāng)前幀是否是收到幀(即“良好”幀)之后丟失的第一幀。如果當(dāng)前幀是良好幀之后的第一個(gè)丟失幀,則步驟1032將當(dāng)前幀的所有子幀的gc設(shè)置為零,并將當(dāng)前幀的所有子幀的gP設(shè)置為一任意高的數(shù),例如0.95。如果當(dāng)前幀不是良好幀之后第一個(gè)丟失幀(例如是第二丟失幀,第三丟失幀等),步驟1034將當(dāng)前幀的所有子幀的gc設(shè)置為零,并將gP設(shè)置為由前一子幀的gP衰減的值。
圖13示出若干幀以表示該改進(jìn)的語(yǔ)音解碼器的運(yùn)行的情形。假設(shè)幀1,3和4是好(即收到的)幀,而幀2,5-8是丟失幀。如果當(dāng)前丟失幀是好幀之后第一個(gè)丟失的幀,解碼器將該丟失幀的所有子幀的gp設(shè)置為任意高的數(shù)(例如0.95)。返回圖13,這將適用于丟失幀2和5。第一丟失幀5的gp被逐漸衰減以設(shè)置其它丟失幀6-8的gp。因而,例如如果丟失幀5的gp被設(shè)置為0.95,則丟失幀6的gp被設(shè)置為0.9,且丟失幀7的gp被設(shè)置為0.85,丟失幀8的gp被設(shè)置為0.8。對(duì)于gc,解碼器自先前收到的幀計(jì)算平均的gp,且如果這一平均的gp超過(guò)一定的閾值,則將該丟失幀的所有子幀的gC設(shè)置為零。如果平均的gP沒(méi)有超過(guò)一定的閾值,解碼器使用上述設(shè)置非周期狀信號(hào)的gC相同的方法設(shè)置這里的gC。
在解碼器估計(jì)一丟失幀中的丟失幀參數(shù)(例如LSF,音調(diào)滯后,增益,分類等)并分析得到的語(yǔ)音之后,解碼器通過(guò)外推技術(shù)能夠使該丟失幀的合成語(yǔ)音的能量與收到的前一幀的能量匹配。盡管有丟失幀,這可進(jìn)一步改進(jìn)原始語(yǔ)音再生的精確性。
用于產(chǎn)生固定碼本激勵(lì)的種子值為了節(jié)省帶寬,在背景噪聲或靜音期間,語(yǔ)音編碼器不必向解碼器傳輸固定碼本激勵(lì)。而是,編碼器和解碼器兩者都能夠使用高斯時(shí)間序列產(chǎn)生器隨機(jī)地在本地產(chǎn)生激勵(lì)值。編碼器和解碼器兩者都配置為以相同的順序產(chǎn)生相同的隨機(jī)激勵(lì)值。其結(jié)果是,因?yàn)閷?duì)一給定的噪聲幀,解碼器能夠在本地與編碼器產(chǎn)生相同的激勵(lì)值,故無(wú)需從編碼器向解碼器傳輸激勵(lì)值。為了產(chǎn)生隨機(jī)激勵(lì)值,高斯時(shí)間序列產(chǎn)生器使用初始種子值產(chǎn)生第一隨機(jī)激勵(lì)值,然后該產(chǎn)生器將該種子值更新為新值。然后,該產(chǎn)生器使用該更新的種子值產(chǎn)生下一個(gè)隨機(jī)激勵(lì)值,并將該種子值更新為另一值。圖14示出假設(shè)的若干幀的情形,說(shuō)明在語(yǔ)音編碼器中的高斯時(shí)間序列產(chǎn)生器如何使用種子值產(chǎn)生隨機(jī)激勵(lì)值,并如何更新種子值以產(chǎn)生下一個(gè)隨機(jī)激勵(lì)值。假設(shè)幀0和4包含語(yǔ)音信號(hào),而幀2,3和5包含靜音或背景噪聲。在找到第一噪聲幀(即幀2)時(shí),解碼器使用初始種子值(稱為“種子值1”)產(chǎn)生隨機(jī)激勵(lì)值,用作該幀的固定碼本激勵(lì)。對(duì)該幀的每一采樣,種子值都被改變以產(chǎn)生新的固定碼本激勵(lì)。這樣,如果幀被采樣160次,則種子值將改變160次。這樣,在遇到下一個(gè)噪聲幀(噪聲幀3)時(shí),編碼器使用第二個(gè)且不同的種子值(即種子值2)產(chǎn)生用于該幀的隨機(jī)激勵(lì)值。雖然從技術(shù)上,對(duì)第一幀的每一采樣該種子值均發(fā)生改變,因此用于第二幀的第一采樣的種子值不是“第二”種子值,但為了方便,這里將用于第二幀的第一采樣的種子值稱為種子值2。對(duì)于噪聲幀4,編碼器使用第三種子值(不同于第一和第二種子值)。為了對(duì)噪聲幀6產(chǎn)生隨機(jī)激勵(lì)值,高斯時(shí)間序列產(chǎn)生器既可以種子值1開始,也可使用種子值4繼續(xù)進(jìn)行,這取決于語(yǔ)音通信系統(tǒng)的實(shí)現(xiàn)。通過(guò)將編碼器和解碼器配置為以相同的方式更新種子值,編碼器和解碼器能夠產(chǎn)生相同的種子值,由此以相同的順序產(chǎn)生相同的隨機(jī)激勵(lì)值。然而,在現(xiàn)有技術(shù)語(yǔ)音通信系統(tǒng)中,丟失幀破壞了編碼器與解碼器之間這種同步。
圖15示出圖14中所示的假設(shè)的情形,但這是從解碼器的角度來(lái)看的。假設(shè)噪聲幀2丟失,而幀1和3被解碼器收到。因?yàn)樵肼晭?丟失,解碼器認(rèn)為它與前一幀1是同一類型(即為一語(yǔ)音幀)。在作出有關(guān)丟失的噪聲幀2的錯(cuò)誤的假設(shè)之后,解碼器認(rèn)為噪聲幀3是第一噪聲幀,而實(shí)際上它是解碼器遇到的第二個(gè)噪聲幀。因?yàn)閷?duì)于遇到的每一噪聲幀的每一采樣,種子值都被更新,因此解碼器將錯(cuò)誤地使用種子值1產(chǎn)生用于噪聲幀3的隨機(jī)激勵(lì)值,而此時(shí)應(yīng)當(dāng)使用種子值2。因而該丟失的幀造成編碼器與解碼器之間失去同步性。因?yàn)閹?是噪聲幀,因此解碼器使用種子值1而編碼器使用種子值2并不重要,因?yàn)榻Y(jié)果是與原始噪聲不同的噪聲。對(duì)于幀3也一樣。然而,重要的是種子值的誤差對(duì)后續(xù)收到的包含語(yǔ)音的幀的影響。例如,注意看語(yǔ)音幀4。基于種子值2而本地產(chǎn)生的高斯激勵(lì)用來(lái)繼續(xù)更新幀3的自適應(yīng)碼本緩存器。當(dāng)處理幀4時(shí),基于諸如幀4中的音調(diào)滯后這樣的信息,從幀3的自適應(yīng)碼本緩存器提取自適應(yīng)碼本激勵(lì)。由于編碼器使用種子值3來(lái)更新幀3的自適應(yīng)碼本緩存器,而解碼器正在使用種子值2(錯(cuò)誤的種子值)更新幀3的自適應(yīng)碼本緩存器,在某些情形下,更新幀3的自適應(yīng)碼本緩存器造成的差別會(huì)給幀4造成質(zhì)量問(wèn)題。
根據(jù)本發(fā)明建立的改進(jìn)的語(yǔ)音通信系統(tǒng)不使用初始固定種子值,然后每當(dāng)系統(tǒng)遇到噪聲幀時(shí)更新該種子值。而是,該改進(jìn)的編碼器和解碼器對(duì)于給定的幀從該幀中的參數(shù)導(dǎo)出種子值。例如,可以使用當(dāng)前幀中的譜信息,能量和/或增益信息來(lái)產(chǎn)生用于該幀的種子值。例如,可以使用表示譜的若干位(例如5位b1,b2,b3,b4,b5),及表示能量的若干位(例如3位c1,c2,c3),形成一個(gè)串b1,b2,b3,b4,b5,c1,c2,c3,其值即為該種子值。假設(shè)譜由01101表示,能量由011表示,則種子值是01101011。當(dāng)然,從幀中的信息導(dǎo)出種子值的其它可替代的方法也是可能的,并包含在本發(fā)明的范圍之內(nèi)。因而,在圖15的噪聲幀2丟失的例子中,解碼器將能夠?qū)С龀鲇糜谠肼晭?的種子值,該種子值與由編碼器導(dǎo)出的種子值相同。這樣,一個(gè)丟失的幀便不會(huì)破壞編碼器與解碼器之間的同步性。
雖然已經(jīng)展示和描述了該主題發(fā)明的實(shí)施例和具體實(shí)現(xiàn),但很明顯,更多的實(shí)施例與實(shí)現(xiàn)方式屬于本主題發(fā)明的范圍之內(nèi)。因而,除去依照權(quán)利要求及其等同物外,本發(fā)明不受限制。
權(quán)利要求
1.一種語(yǔ)音通信系統(tǒng)包括編碼器,處理語(yǔ)音幀并對(duì)于每一語(yǔ)音幀確定音調(diào)滯后參數(shù);發(fā)送器,與該編碼器耦合,發(fā)送用于每一語(yǔ)音幀的音調(diào)滯后參數(shù);接收器,從該發(fā)送器逐幀接收所述音調(diào)滯后參數(shù);控制邏輯,與該接收器耦合,用于部分基于音調(diào)滯后參數(shù)重新合成該語(yǔ)音信號(hào);丟失幀檢測(cè)器,檢測(cè)有一幀是否未被該接收器收到;幀恢復(fù)邏輯,當(dāng)丟失幀檢測(cè)器檢測(cè)到丟失幀時(shí),使用多個(gè)先前收到的幀的音調(diào)滯后參數(shù)外推該丟失幀的音調(diào)滯后參數(shù)。
2.根據(jù)權(quán)利要求1的語(yǔ)音通信系統(tǒng),其中所述幀恢復(fù)邏輯使用該丟失幀之后收到的幀的音調(diào)滯后參數(shù)設(shè)置該丟失幀的音調(diào)滯后參數(shù)。
3.根據(jù)權(quán)利要求1的語(yǔ)音通信系統(tǒng),其中所述丟失幀檢測(cè)器和/或幀誤差邏輯是控制邏輯的一部分。
4.根據(jù)權(quán)利要求1的語(yǔ)音通信系統(tǒng),其中當(dāng)接收器收到丟失幀之后的幀中的音調(diào)滯后參數(shù)時(shí),幀恢復(fù)邏輯使用該丟失幀之后的該幀的音調(diào)滯后參數(shù),調(diào)整先前設(shè)置的用于該丟失幀的音調(diào)滯后參數(shù)。
5.根據(jù)權(quán)利要求4的語(yǔ)音通信系統(tǒng),還包括自適應(yīng)碼本緩存器,該緩存器包含用于一第一幀的總激勵(lì),該總激勵(lì)包含量化的自適應(yīng)碼本激勵(lì)成分,其中緩存的總激勵(lì)被提取作為所述第一幀之后的幀的自適應(yīng)碼本激勵(lì),且?guī)謴?fù)邏輯使用該丟失幀之后的該幀的音調(diào)滯后參數(shù)來(lái)調(diào)整該量化的自適應(yīng)碼本激勵(lì)。
6.根據(jù)權(quán)利要求2的語(yǔ)音通信系統(tǒng),其中幀恢復(fù)邏輯從該丟失幀之后收到的幀的音調(diào)滯后參數(shù)外推該丟失幀的音調(diào)滯后參數(shù)。
7.根據(jù)權(quán)利要求1的語(yǔ)音通信系統(tǒng),其中在幀恢復(fù)邏輯設(shè)置用于該丟失幀的丟失參數(shù)之后,解碼器從丟失幀重新合成語(yǔ)音并調(diào)整合成語(yǔ)音的能量以與從以前接收的幀合成的語(yǔ)音的能量匹配。
8.根據(jù)權(quán)利要求2的語(yǔ)音通信系統(tǒng),其中在幀恢復(fù)邏輯設(shè)置用于該丟失幀的丟失參數(shù)之后,解碼器從丟失幀重新合成語(yǔ)音并調(diào)整合成語(yǔ)音的能量以與從以前接收的幀合成的語(yǔ)音的能量匹配。
9.根據(jù)權(quán)利要求3的語(yǔ)音通信系統(tǒng),其中在幀恢復(fù)邏輯設(shè)置用于該丟失幀的丟失參數(shù)之后,解碼器從丟失幀重新合成語(yǔ)音并調(diào)整合成語(yǔ)音的能量以與從以前接收的幀合成的語(yǔ)音的能量匹配。
10.一種在通信系統(tǒng)中編碼或解碼語(yǔ)音的方法,包括下列步驟(a)基于逐幀提供語(yǔ)音信號(hào),其中每一幀包含多個(gè)子幀;(b)基于該語(yǔ)音信號(hào)確定用于每一幀的一個(gè)參數(shù);(c)基于逐幀發(fā)送參數(shù);(d)基于逐幀接收參數(shù);(e)檢測(cè)包含該參數(shù)的幀是否丟失;(f)如果幀丟失則處理用于該丟失幀的丟失參數(shù);(g)對(duì)這些參數(shù)進(jìn)行解碼以再生該語(yǔ)音信號(hào)。
11.根據(jù)權(quán)利要求10的方法,其中該丟失參數(shù)是該丟失幀的音調(diào)滯后參數(shù),且處理步驟至少部分基于先前收到的幀的音調(diào)滯后參數(shù)來(lái)設(shè)置該丟失幀的丟失的音調(diào)滯后參數(shù)。
12.根據(jù)權(quán)利要求11的方法,其中該處理步驟基于多個(gè)先前收到的幀的音調(diào)滯后參數(shù)來(lái)設(shè)置該丟失幀的丟失的音調(diào)滯后參數(shù)。
13.根據(jù)權(quán)利要求11的方法,其中處理步驟基于丟失幀之后收到的幀的音調(diào)滯后參數(shù)設(shè)置該丟失幀的丟失的音調(diào)滯后參數(shù)。
14.根據(jù)權(quán)利要求11的方法,還包括以下步驟在處理步驟設(shè)置該丟失幀的丟失參數(shù)之后,從該丟失幀重新合成語(yǔ)音;以及調(diào)整該合成語(yǔ)音的能量以匹配來(lái)自一先前收到的幀的合成語(yǔ)音的能量。
全文摘要
一種改進(jìn)的語(yǔ)音通信系統(tǒng)及方法,該改進(jìn)的語(yǔ)音通信系統(tǒng)能夠?qū)σ粊G失的數(shù)據(jù)包中丟失的信息產(chǎn)生更精確的估計(jì)。例如,該改進(jìn)的語(yǔ)音通信系統(tǒng)能夠更精確處理丟失的信息,諸如LSF,音調(diào)滯后(或自適應(yīng)碼本激勵(lì)),固定碼本激勵(lì)和/或增益信息。在不向解碼器發(fā)送固定碼本激勵(lì)值的語(yǔ)音通信系統(tǒng)的一個(gè)實(shí)施例中,即使先前的噪聲幀在傳輸期間丟失,該改進(jìn)的編碼器/解碼器也能夠?qū)o定的噪聲幀產(chǎn)生相同的隨機(jī)激勵(lì)值。
文檔編號(hào)G10L19/02GK1516113SQ20031012156
公開日2004年7月28日 申請(qǐng)日期2001年7月9日 優(yōu)先權(quán)日2000年7月14日
發(fā)明者A·拜尼亞斯恩, E·施羅默特, H-Y·蘇, A 拜尼亞斯恩, 弈 申請(qǐng)人:康奈克森特系統(tǒng)公司