專利名稱:嵌入式靜默和背景噪聲壓縮的制作方法
技術(shù)領(lǐng)域:
本發(fā)明一般地涉及語音編碼領(lǐng)域,具體地說,涉及嵌入式靜默和背景噪聲壓縮。
背景技術(shù):
現(xiàn)代電話系統(tǒng)使用數(shù)字語音通信技術(shù)。在數(shù)字語音通信系統(tǒng)中,語音信號被采樣并作為數(shù)字信號來傳輸,與普通老式電話系統(tǒng)(POTS)中的模擬傳輸相反。數(shù)字語音通信系統(tǒng)的實(shí)例包括公共交換電話網(wǎng)絡(luò)(PSTN)、已很好地建立的蜂窩網(wǎng)絡(luò),以及新興的基于網(wǎng)際協(xié)議的話音傳輸(VoIP)網(wǎng)絡(luò)。在數(shù)字語音通信系統(tǒng)中可以使用各種語音壓縮(或編碼) 技術(shù),如ITU-T建議G. 723. I或G. 729,以便減小傳輸語音信號所需的帶寬。通過為語音信號的沒有實(shí)際語音的部分(如當(dāng)某人傾聽其他談話者并且未說話時存在的靜默時段)使用較低比特率編碼方案,可以實(shí)現(xiàn)進(jìn)一步的帶寬減小。語音信號的包括實(shí)際語音的部分稱為“活動語音”,并且語音信號的不包含實(shí)際語音的部分稱為“非活動語音”。通常,非活動語音信號包含接聽者位置處由麥克風(fēng)拾取的周圍背景噪聲。在非常安靜的環(huán)境中,此周圍噪聲將非常低并且非活動語音將被感知為靜默,而在嘈雜環(huán)境中 (例如在機(jī)動車中),非活動語音包括環(huán)境背景噪聲。通常,周圍噪聲幾乎不傳達(dá)信息,并且因此可以以非常低的比特率來編碼和傳輸。周圍噪聲的低比特率編碼的一種方案僅采用噪聲信號的參數(shù)表示,如噪聲信號的能量(級別)和頻譜內(nèi)容。另一種用于帶寬減小的常見方案(其利用背景噪聲的靜態(tài)特性)是僅發(fā)送背景噪聲參數(shù)的間斷更新,而不是發(fā)送連續(xù)更新。如果傳輸?shù)谋忍亓骶哂星度胧浇Y(jié)構(gòu),則也可以在網(wǎng)絡(luò)中實(shí)現(xiàn)帶寬減小。嵌入式結(jié)構(gòu)意味著比特流包括核心和增強(qiáng)層。可以僅使用核心比特解碼和合成語音,而使用增強(qiáng)層比特將提高解碼的語音質(zhì)量。例如,2006年5月的標(biāo)題為“G. 729-based embedded variable bit-rate coder An 8_32kbit/s scalable wideband coder bitstream interoperable with G. 729”的ITU-T建議G. 729. I使用核心窄帶層以及若干窄帶和寬帶增強(qiáng)層,其全部內(nèi)容在此引入作為參考。處理非常大量的語音信道的網(wǎng)絡(luò)中的業(yè)務(wù)擁塞取決于每個編解碼器使用的平均比特率而不是每個編解碼器使用的最大比特率。例如,假設(shè)這樣的語音編解碼器,其最大比特率為32Kbps,但是平均比特率為16Kbps。帶寬為1600Kbps的網(wǎng)絡(luò)可以處理約100個話音信道,因?yàn)槠骄运?00個信道將僅使用100 * 16Kbps = 1600Kbps。顯然,在小概率中,傳輸所有信道的總體所需比特率可能超過1600Kbps,但是如果該編解碼器還采用嵌入式結(jié)構(gòu),則網(wǎng)絡(luò)可以通過丟棄多個信道的某些嵌入層來容易地解決此問題。當(dāng)然,如果網(wǎng)絡(luò)的規(guī)劃/運(yùn)行基于每個信道的最大比特率,在不考慮平均比特率和嵌入式結(jié)構(gòu)的情況下,網(wǎng)絡(luò)將只能夠處理50個信道。
發(fā)明內(nèi)容
根據(jù)在此概括地描述的本發(fā)明的目的,提供了嵌入式語音編碼系統(tǒng)中的靜默/背景噪聲壓縮。在本發(fā)明的一個示意性方面中,披露了一種能夠生成嵌入式活動語音比特流和嵌入式非活動語音比特流兩者的語音編碼器。所述語音編碼器接收輸入語音并且使用話音活動檢測器(VAD)來判定所述輸入語音是活動語音還是非活動語音。如果所述輸入語音是活動語音,則所述語音編碼器使用活動語音編碼模式來生成活動語音嵌入式比特流,后者包含窄帶部分和寬帶部分。如果所述輸入語音是非活動語音,則所述語音編碼器使用非活動語音編碼模式來生成非活動語音嵌入式比特流,后者可以包含窄帶部分和寬帶部分。 此外,如果所述輸入語音是非活動語音,則所述語音編碼器調(diào)用其中僅發(fā)送靜默/背景噪聲信息的間斷更新的不連續(xù)傳輸(DTX)模式。在解碼器側(cè),接收所述活動和非活動比特流并且根據(jù)如所述比特流的大小所指示的比特率類型來調(diào)用解碼器的不同部分。通過確保平滑地改變帶寬來為非活動語音保持帶寬連續(xù)性,即使非活動語音分組信息指示帶寬變化也是如此。通過進(jìn)一步參考以下附圖和說明書,本發(fā)明的這些和其他方面將變得顯而易見。 所有此類附加的系統(tǒng)、方法、特性以及優(yōu)點(diǎn)都旨在包括在此說明書內(nèi)、在本發(fā)明的范圍之內(nèi)以及由所附權(quán)利要求來保護(hù)。
在詳細(xì)查看以下具體說明和附圖之后,本發(fā)明的特性和優(yōu)點(diǎn)對于本領(lǐng)域技術(shù)人員將變得更加顯而易見,這些附圖是圖I示出了根據(jù)本發(fā)明的一個實(shí)施例的G. 729. I比特流的嵌入式結(jié)構(gòu);圖2示出了根據(jù)本發(fā)明的一個實(shí)施例的G. 729. I編碼器的結(jié)構(gòu);圖3示出了根據(jù)本發(fā)明的一個實(shí)施例的具有窄帶編碼的G. 729. I編碼器的備選操作;圖4示出了根據(jù)本發(fā)明的一個實(shí)施例的G. 729. I的靜默/背景噪聲編碼模式;圖5示出了根據(jù)本發(fā)明的一個實(shí)施例的具有嵌入式結(jié)構(gòu)的靜默/背景噪聲編碼器;圖6示出了根據(jù)本發(fā)明的一個實(shí)施例的靜默/背景噪聲嵌入式比特流;圖7示出了根據(jù)本發(fā)明的一個實(shí)施例的備選靜默/背景噪聲嵌入式比特流;圖8示出了根據(jù)本發(fā)明的一個實(shí)施例的沒有可選層的靜默/背景噪聲嵌入式比特流;圖9示出了根據(jù)本發(fā)明的一個實(shí)施例的G. 729. I的窄帶工作模式的窄帶VAD ;圖10示出了根據(jù)本發(fā)明的一個實(shí)施例的具有窄帶VAD的G. 729. I的靜默/背景
噪聲編碼模式;圖11示出了根據(jù)本發(fā)明的一個實(shí)施例的具有窄帶VAD和單獨(dú)抽取元件的G. 729. I的靜默/背景噪聲編碼模式;圖12示出了根據(jù)本發(fā)明的一個實(shí)施例的具有DTX模塊的靜默/背景噪聲編碼器;圖13示出了根據(jù)本發(fā)明的一個實(shí)施例的G. 729. I解碼器的結(jié)構(gòu);圖14示出了根據(jù)本發(fā)明的一個實(shí)施例的具有靜默/背景噪聲壓縮的G. 729. I解碼器;圖15示出了根據(jù)本發(fā)明的一個實(shí)施例的具有嵌入式靜默/背景噪聲壓縮的 G. 729.I解碼器;圖16示出了根據(jù)本發(fā)明的一個實(shí)施例的具有嵌入式靜默/背景噪聲壓縮以及共享的上采樣-濾波元件的G. 729. I解碼器;圖17示出了根據(jù)本發(fā)明的一個實(shí)施例的基于比特率的解碼器控制流程圖操作;圖18示出了根據(jù)本發(fā)明的一個實(shí)施例的基于帶寬歷史的解碼器控制流程圖操作;圖19示出了根據(jù)本發(fā)明的一個實(shí)施例的通用化的話音活動檢測器;以及圖20示出了具有解碼器帶寬擴(kuò)展的窄帶靜默/背景噪聲傳輸。
具體實(shí)施例方式在此可以根據(jù)功能塊組件和各種處理步驟來描述本發(fā)明。應(yīng)理解的是,可以由任何數(shù)量的配置為執(zhí)行所指定功能的硬件組件和/或軟件組件來實(shí)現(xiàn)此類功能塊。例如,本發(fā)明可以采用各種集成電路組件,如存儲器元件、數(shù)字信號處理元件、邏輯元件等,它們可以在一個或多個微處理器或其他控制設(shè)備的控制下執(zhí)行各種功能。此外,應(yīng)指出的是,本發(fā)明可以采用任何數(shù)量的用于數(shù)據(jù)傳輸、信令、信號處理和調(diào)節(jié)、音調(diào)生成和檢測等的常規(guī)技術(shù)。在此未詳細(xì)描述可能對本領(lǐng)域技術(shù)人員公知的此類一般技術(shù)。應(yīng)理解的是,在此示出和描述的特定實(shí)施方式只是示意性的并且并非旨在以任何方式限制本發(fā)明的范圍。實(shí)際上,為了簡潔,在此可能未詳細(xì)描述常規(guī)的數(shù)據(jù)傳輸、信令和信號處理以及通信系統(tǒng)的其他功能和技術(shù)方面(以及系統(tǒng)的單個工作組件的組件)。此外, 在此包含的各個附圖中示出的連接線旨在表示各個元件之間的示意性功能關(guān)系和/或物理耦合。應(yīng)指出的是,實(shí)際通信系統(tǒng)中可以存在許多備選或附加的功能關(guān)系或物理連接。在分組網(wǎng)絡(luò)(如蜂窩或VoIP)中,可以在用戶終端(例如,蜂窩手機(jī)、軟電話、SIP 電話或WiFi/WiMax終端)處執(zhí)行語音信號的編碼和解碼。在此類應(yīng)用中,網(wǎng)絡(luò)服務(wù)器僅用于傳送包含已編碼語音信號信息的分組。分組網(wǎng)絡(luò)中語音的傳輸消除了對語音頻譜帶寬的限制,該限制存在于從POTS模擬傳輸技術(shù)繼承的PSTN中。由于語音信息在分組比特流 (其提供了原始語音的數(shù)字壓縮后的表示)中傳輸,所以此分組比特流既可以表示窄帶語音也可以表示寬帶語音。麥克風(fēng)獲取語音信號以及耳機(jī)或揚(yáng)聲器在最終終端處再現(xiàn)語音信號(作為窄帶或?qū)拵П硎?僅取決于此類最終終端的能力。例如,在當(dāng)前的蜂窩電話中,窄帶蜂窩電話獲得窄帶語音的數(shù)字表示并使用窄帶編解碼器(如自適應(yīng)多速率(AMR)編解碼器)經(jīng)由蜂窩分組網(wǎng)絡(luò)與其他類似蜂窩電話進(jìn)行窄帶語音通信。類似地,能夠使用寬帶的蜂窩電話獲得語音的寬帶表示并使用寬帶語音編解碼器(如自適應(yīng)多速率寬帶(AMR-WB)) 經(jīng)由蜂窩分組網(wǎng)絡(luò)與其他能夠使用寬帶的蜂窩電話進(jìn)行寬帶語音通信。顯然,由寬帶語音編解碼器(如AMR-WB)提供的較寬頻譜內(nèi)容較之窄帶語音編解碼器(如AMR)將改進(jìn)語音的質(zhì)量、自然性以及可識度。最新采納的ITU-T建議G. 729. I針對分組網(wǎng)絡(luò)并且采用嵌入式結(jié)構(gòu)以實(shí)現(xiàn)窄帶和寬帶語音壓縮。所述嵌入式結(jié)構(gòu)使用用于語音的基本質(zhì)量傳輸?shù)摹昂诵摹闭Z音編解碼器以及借助每個附加層改進(jìn)語音質(zhì)量的附加編碼層。G. 729. I的核心基于ITU-T建議G. 729, 后者以8Kbps編碼窄帶語音。此核心非常類似于G. 729,具有與G. 729比特流兼容的比特流。比特率兼容性意味著由G. 729編碼器生成的比特流可以被G. 729. I解碼器解碼并且由 G. 729. I編碼器生成的比特流可以被G. 729解碼器解碼,兩者都沒有任何質(zhì)量下降。在8Kbps的核心之上的G. 729. I的第一增強(qiáng)層是速率為12Kbps的窄帶層。其次的增強(qiáng)層是十(10)個從14Kbps到32Kbps的寬帶層。圖I示出了具有核心以及11個附加層的G. 729. I嵌入式比特流的結(jié)構(gòu),其中塊101表示核心8Kbps層,塊102表示12Kbps的第一窄帶增強(qiáng)層,并且塊103-112表示十(10)個寬帶增強(qiáng)層,分別從14Kbps到32Kbps,步長為2Kbps。G. 729. I的編碼器生成包括所有12個層的比特流。G. 729. I的解碼器能夠解碼任何比特流,從8Kbps核心編解碼器的比特流開始,直到32Kbps的包括所有層的比特流。顯然,在接收較高的層時,解碼器將產(chǎn)生更佳質(zhì)量的語音。解碼器還允許從一個幀到下一個幀改變比特率,且?guī)缀鯖]有由于切換人工因素造成的質(zhì)量下降。G. 729. I的此嵌入式結(jié)構(gòu)使得網(wǎng)絡(luò)能夠解決業(yè)務(wù)擁塞問題而無需操縱或操作比特流的實(shí)際內(nèi)容。通過丟棄比特流的某些嵌入層部分并且僅傳送比特流的其余嵌入層部分來實(shí)現(xiàn)擁塞控制。圖2示出了根據(jù)本發(fā)明的一個實(shí)施例的G. 729. I編碼器的結(jié)構(gòu)。以16KHz采樣輸入語音201并使其通過低通濾波器(LPF) 202和高通濾波器(HPF) 210,在分別由抽取元件 203和211下采樣后生成窄帶語音204和基帶處的高頻帶語音212。注意,以8KHz采樣速率來采樣窄帶語音204和基帶處的高頻帶語音212兩者。窄帶語音204然后被CELP編碼器205編碼以生成窄帶比特流206。窄帶比特流被CELP解碼器207解碼以生成已解碼窄帶語音208,從窄帶語音204減去已解碼窄帶語音208以生成窄帶殘差編碼信號209。窄帶殘差編碼信號和基帶處的高頻帶語音212被時域混疊消除(TDAC)編碼器213編碼以生成寬帶比特流214。(對于編碼高頻帶信號212的模塊使用了術(shù)語“TDAC編碼器”,盡管對于 14Kbps層,所使用的技術(shù)通常稱為時域帶寬擴(kuò)展(TD-BWE)。)窄帶比特流204包括8Kbps 層101和12Kbps層102,而寬帶比特流214包括層103-112,分別從14Kbps到32Kbps。為了簡化陳述,圖2未示出生成14Kbps層的G. 729. I的操作的特殊TD-BWE模式。還未示出封裝元件,其接收窄帶比特流206和寬帶比特流214以產(chǎn)生圖I中示出的嵌入式比特流結(jié)構(gòu)。例如,在標(biāo)題為“RTP Payload Format for the G. 729. I Audio Codec”的互聯(lián)網(wǎng)工程任務(wù)組(IETF)請求評注4749號(RFC4749)中描述了此類封裝元件,其全部內(nèi)容在此引入作為參考。圖3中示出了 G. 729. I編碼器的備選操作模式,其中僅執(zhí)行窄帶編碼。將現(xiàn)在以 8KHz采樣的輸入語音301輸入CELP編碼器305,后者生成窄帶比特流306。類似于圖2,窄帶比特流306包括如圖I所示的8Kbps層101和12Kbps層102。圖4提供了根據(jù)本發(fā)明的一個實(shí)施例的具有靜默/背景噪聲編碼模式的G.729. I 的一個實(shí)施例。為了簡潔,將圖2中的若干元件合并成圖4中的單個元件。例如,LPF 202 和抽取元件203被合并成LP-抽取元件403,并且HPF 210和抽取元件211被合并成HP-抽取元件410。類似地,圖2中的CELP編碼器205、CELP解碼器207以及加法器元件被合并成CELP編碼器405。窄帶語音404類似于窄帶語音204,高頻帶語音412類似于212,TDAC 編碼器413與213相同,窄帶殘差編碼信號409與209相同,窄帶比特流406與206相同, 并且寬帶比特流414與214相同。圖4與圖2的主要不同是增加了靜默/背景噪聲編碼器,其由寬帶語音活動檢測器(WB-VAD)模塊416控制,模塊416根據(jù)本發(fā)明的一個實(shí)施例接收輸入語音401并且操作開關(guān)402。使用術(shù)語WB-VAD是因?yàn)檩斎胝Z音401是以16KHz 采樣的寬帶語音。如果WB-VAD模塊416檢測到實(shí)際語音(“活動語音”),則輸入語音401 通過開關(guān)402被導(dǎo)向到典型的G. 729. I編碼器,后者在此被稱為“活動語音編碼器”。如果 WB-VAD模塊416未檢測到實(shí)際語音,其意味著輸入語音401是靜默或背景噪聲(“非活動語音”),則輸入語音401被導(dǎo)向到靜默/背景噪聲編碼器416,后者生成靜默/背景噪聲比特流417。圖4中未示出比特流多路復(fù)用和封裝模塊,后者基本上類似于由諸如G. 729的附件B或G. 723. I的附件A之類的其他靜默/背景噪聲壓縮算法使用的多路復(fù)用和封裝模塊并且是本領(lǐng)域技術(shù)人員公知的??梢允褂迷S多方法來使靜默/背景噪聲比特流417代表語音的非活動部分。在一種方法中,所述比特流可以在沒有任何頻帶分離和/或增強(qiáng)層的情況下代表非活動語音信號。此方法將不允許網(wǎng)絡(luò)元件操縱靜默/背景噪聲比特流用于擁塞控制,但是這可能不是嚴(yán)重的缺陷,因?yàn)閭鬏旍o默/背景噪聲比特流所需的帶寬非常小。但是,主要的缺點(diǎn)將是使解碼器實(shí)現(xiàn)帶寬控制功能作為靜默/背景噪聲解碼器的一部分以在活動語音信號與非活動語音信號之間保持帶寬兼容性。圖5描述了本發(fā)明的一個實(shí)施例,其包括靜默/背景噪聲(非活動語音)編碼器,該編碼器具有適合于G. 729. I的操作的嵌入式結(jié)構(gòu),其解決了這些問題。輸入非活動語音501被饋送到LP-抽取元件503和HP-抽取元件510以分別生成窄帶非活動語音504和基帶處的高頻帶非活動語音512。窄帶靜默/背景噪聲編碼器505 接收窄帶非活動語音504并且產(chǎn)生窄帶靜默/背景噪聲比特流506。由于靜默/背景噪聲編碼器的G. 729. I最小限度操作必須符合G. 729的附件B,所以窄帶靜默/背景噪聲比特流 506必須至少部分地符合G. 729的附件B。窄帶靜默/背景噪聲編碼器505可以與G. 729 的附件B中描述的窄帶靜默/背景噪聲編碼器相同,但也可以不同,只要其產(chǎn)生與G. 729的附件B(至少部分)符合的比特流即可。窄帶靜默/背景噪聲編碼器505還可以產(chǎn)生低到高輔助信號509。低到高輔助信號509包含幫助寬帶靜默/背景噪聲編碼器513編碼基帶中的高頻帶非活動語音512的信息。所述信息可以是窄帶重構(gòu)的靜默/背景噪聲自身或諸如能量(級別)或頻譜表示之類的參數(shù)。寬帶靜默/背景噪聲編碼器513同時接收基帶中的高頻帶非活動語音512和輔助信號509并產(chǎn)生寬帶靜默/背景噪聲比特流514。寬帶靜默/背景噪聲編碼器513還可以產(chǎn)生高到低輔助信號508,后者包含幫助窄帶靜默/背景噪聲編碼器505編碼窄帶語音504的信息。類似于圖4,圖5未示出本領(lǐng)域技術(shù)人員公知的比特流多路復(fù)用和封裝模塊。圖6提供了根據(jù)本發(fā)明的一個實(shí)施例的可以由圖5的靜默/背景噪聲編碼器產(chǎn)生的靜默/背景噪聲嵌入式比特流的描述。靜默/背景噪聲嵌入式比特流600包括0.8Kbps 的G. 729附件B(G. 729B)比特流601、可選的嵌入式窄帶增強(qiáng)比特流602、寬帶基礎(chǔ)層比特流603,以及可選的嵌入式寬帶增強(qiáng)比特流604。相對于圖5,窄帶靜默/背景噪聲比特流 506包括G. 729B比特流601和可選的窄帶嵌入式比特流602。此外,圖5中的寬帶靜默/背景噪聲比特流514包括寬帶基礎(chǔ)層比特流603和可選的寬帶嵌入式比特流604。G. 729B比特流601的結(jié)構(gòu)由G. 729附件B定義。其包括10個用于表示頻譜的位和5個用于表示能量(級別)的位。可選的窄帶嵌入式比特流602包括頻譜和能量的改進(jìn)量化表示(例如, 頻譜表示的附加碼本級或能量量化的改進(jìn)的時間分辨率)、隨機(jī)種子信息,或?qū)嶋H量化波形信息。寬帶基礎(chǔ)層比特流603包含高頻帶靜默/背景噪聲信號的表示的量化信息。該信息可以包括能量信息以及頻譜信息,格式為線性預(yù)測編碼(LPC)格式、子帶格式,或其他線性變換系數(shù),如離散傅立葉變換(DFT)、離散余弦變換(DCT)或小波變換。寬帶基礎(chǔ)層比特流 603還可以例如包含隨機(jī)種子信息或?qū)嶋H量化波形信息??蛇x的寬帶嵌入式比特流604可以包括寬帶基礎(chǔ)層比特流603中未包括的附加信息,或包括寬帶基礎(chǔ)層比特流603中包括的相同信息的改進(jìn)的分辨率。圖7提供了根據(jù)本發(fā)明的一個實(shí)施例的靜默/背景噪聲嵌入式比特流的一個備選實(shí)施例。在此備選實(shí)施例中,位字段的順序不同于圖6示出的實(shí)施例,但是各位中的實(shí)際信息在兩個實(shí)施例中是相同的。類似于圖6,靜默/背景噪聲嵌入式比特流700的第一部分是 G. 729B比特流701,但是第二部分是寬帶基礎(chǔ)層比特流703,隨后是可選的嵌入式窄帶增強(qiáng)比特流702,然后是可選的嵌入式寬帶增強(qiáng)比特流704。圖6中的實(shí)施例與圖7中的備選實(shí)施例的主要不同是網(wǎng)絡(luò)的比特流截斷的影響。 對于圖6中描述的實(shí)施例,網(wǎng)絡(luò)的比特流截斷將除去所有寬帶字段,然后才除去任何窄帶字段。另一方面,對于圖7中描述的備選實(shí)施例,比特流截斷將除去寬帶和窄帶兩者的附加嵌入式增強(qiáng)字段,然后才除去任何基礎(chǔ)層字段(窄帶或?qū)拵?。如果未將可選的增強(qiáng)層結(jié)合到G. 729. I的靜默/背景噪聲嵌入式比特流中,則比特流600和700變?yōu)橄嗤D8示出了此類比特流,其僅包括G. 729B比特流801和寬帶基礎(chǔ)層比特流803。盡管此比特流不包括可選的嵌入式層,但是其仍保持嵌入式結(jié)構(gòu),其中網(wǎng)絡(luò)元件可以除去寬帶基礎(chǔ)層比特流803,同時保留G.729B比特流801。在另一選擇中, G. 729B比特流801可以是非活動語音的編碼器傳輸?shù)奈ㄒ槐忍亓?,即使在活動語音編碼器傳輸了包括窄帶和寬帶信息兩者的嵌入式比特流時也是如此。在此情況下,如果解碼器接收到活動語音的完整嵌入式比特流,但是僅接收到非活動語音的窄帶比特流,則其可以執(zhí)行合成后的非活動語音的帶寬擴(kuò)展,以便針對合成后的輸出信號實(shí)現(xiàn)平滑的感知質(zhì)量。根據(jù)圖4運(yùn)行靜默/背景噪聲編碼模式的主要問題之一在于到WB-VAD 416的輸入是寬帶輸入語音401。因此,如果希望僅使用G. 279. I的窄帶操作模式(如圖3所述), 但是具有靜默/背景噪聲編碼模式,則應(yīng)使用可以針對窄帶信號進(jìn)行操作的另一 VAD。一種可能的解決方案是針對G. 279. I的特定窄帶操作模式使用特殊的窄帶 VAD(NB-VAD)。圖9描述了根據(jù)本發(fā)明的一個實(shí)施例的此類解決方案,其中窄帶輸入語音 901是到控制開關(guān)902的NB-VAD 916的輸入。無論NB-VAD 916檢測到活動語音還是非活動語音,輸入語音901都分別被路由到CELP編碼器905或窄帶靜默/背景噪聲編碼器916。 CELP編碼器905生成窄帶比特流906并且窄帶靜默/背景噪聲編碼器916生成窄帶靜默/ 背景噪聲比特流917。G. 729. I的此模式的總體操作非常類似于G. 729的附件B,并且窄帶靜默/背景噪聲比特流917應(yīng)部分地或完全地兼容G. 729的附件B。此方案的主要缺點(diǎn)是需要將WB-VAD 416和NB-VAD 916都結(jié)合在G. 729. I靜默/背景噪聲壓縮模式的標(biāo)準(zhǔn)和代碼中。
在頻譜的窄帶部分(最高到4KHz)以及在頻譜的高頻帶部分(從4KHz到7KHz) 中,活動語音對非活動語音的特征和特性是明顯的。此外,多數(shù)能量和其他典型語音特性 (如諧波結(jié)構(gòu))更多地支配窄帶部分而不是高頻帶部分。因此,可以完全使用語音的窄帶部分執(zhí)行語音活動檢測。圖10示出了根據(jù)本發(fā)明的一個實(shí)施例的具有窄帶VAD的G. 729. I的靜默/背景噪聲編碼模式。LP-抽取1002和HP-抽取1010元件接收輸入語音1001以分別生成窄帶語音1003和基帶處的高頻帶語音1012。窄帶VAD 1004使用窄帶語音1003來生成控制開關(guān)1008的話音活動檢測信號1005。如果話音活動信號1005指示活動語音,則窄帶信號1003被路由到CELP編碼器1006并且基帶中的高頻帶信號1012被路由到TDAC編碼器1016。CELP編碼器1006生成窄帶比特流1007和窄帶殘差編碼信號1009。窄帶殘差編碼信號1009用作到生成寬帶比特流1014的TDAC編碼器1016的第二輸入。如果話音活動信號1005指示非活動語音,則窄帶信號1003被路由到窄帶靜默/背景噪聲編碼器1017 并且基帶中的高頻帶信號1012被路由到寬帶靜默/背景噪聲編碼器1020。窄帶靜默/背景噪聲編碼器1017生成窄帶靜默/背景噪聲比特流1016并且寬帶靜默/背景噪聲編碼器 1020生成寬帶靜默/背景噪聲比特流1019。雙向輔助信號1018代表在窄帶靜默/背景噪聲編碼器1017與寬帶靜默/背景噪聲編碼器1020之間交換的輔助信息。圖10中示出的系統(tǒng)的基礎(chǔ)假設(shè)是分別由LP-抽取1002和HP-抽取1010元件生成的窄帶信號1003和高頻帶信號1012適合于活動語音編碼和非活動語音編碼兩者。圖11 描述了與圖10中提供的系統(tǒng)類似的系統(tǒng),但是使用不同的LP-抽取和HP-抽取元件用于活動語音編碼和非活動語音編碼的語音的預(yù)處理。例如,如果活動語音編碼器的截止頻率不同于非活動語音編碼器的截止頻率,則會出現(xiàn)這種情況。活動語音LP-抽取元件1003接收輸入語音1101以產(chǎn)生窄帶語音1109。窄帶VAD 1105使用窄帶語音1109來生成控制開關(guān) 1113的話音活動檢測信號1102。如果話音活動信號1102指示活動語音,則輸入信號1101 被路由到活動語音LP-抽取元件1103和活動語音HP-抽取元件1108以分別生成活動語音窄帶信號1109和活動語音基帶中的高頻帶信號1110。如果話音活動信號1102指示非活動語音,則輸入信號1101被路由到非活動語音LP-抽取元件1113和非活動語音HP-抽取元件1118以生成非活動語音窄帶信號1115和非活動語音基帶中的高頻帶信號1120。應(yīng)指出的是,將開關(guān)1113示為作用于輸入信號1101只是為了圖11的簡潔和簡化。實(shí)際上, 輸入語音1101可以被連續(xù)饋送到所有四個抽取單元(1103、1108、1113以及1118)并且針對四個輸出信號(1109、1110、1115以及1120)執(zhí)行實(shí)際切換。NB-VAD 1105可以使用活動語音窄帶信號1109(如圖11所示),也可以使用非活動語音窄帶信號1115。類似于圖10, 活動語音窄帶信號1109被路由到CELP編碼器1106,后者生成窄帶比特流1107和窄帶殘差編碼信號1111。TDAC編碼器1116接收活動語音基帶中的高頻帶信號1110和窄帶殘差編碼信號1111以生成寬帶比特流1112。此外,非活動語音窄帶信號1115被路由到生成窄帶靜默/背景噪聲比特流1117的窄帶靜默/背景噪聲編碼器1119。寬帶靜默/背景噪聲編碼器1123接收非活動語音高頻帶信號1120并且生成寬帶靜默/背景噪聲編碼器1122。 雙向輔助信號1121代表在窄帶靜默/背景噪聲編碼器1119與寬帶靜默/背景噪聲編碼器 1123之間交換的信息。由于非活動語音(其包括靜默或背景噪聲)保存的信息遠(yuǎn)少于活動語音,所以表示非活動語音所需的位數(shù)遠(yuǎn)小于用于描述活動語音的位數(shù)。例如,G. 729使用80個位描述10毫秒的活動語音幀,但是僅使用16個位描述10毫秒的非活動語音幀。此減少的位數(shù)有助于減小傳輸比特流所需的帶寬。對于某些非活動語音幀,如果根本不發(fā)送信息,則進(jìn)一步的減小是可能的。此方法被稱為不連續(xù)傳輸(DTX)并且其中不傳輸信息的幀被簡單地稱為非傳輸(NT)幀。如果NT幀中的輸入語音特征與先前發(fā)送的信息(其可以是過去的若干幀)相比沒有顯著變化,則這是可能的。在此類情況下,解碼器可以根據(jù)先前接收的信息生成NT幀的輸出非活動語音信號。圖12示出了根據(jù)本發(fā)明的一個實(shí)施例的具有DTX模塊的靜默/背景噪聲編碼器。該靜默/背景噪聲編碼器的結(jié)構(gòu)和操作非常類似于作為圖11的一部分描述的靜默/背景噪聲編碼器。輸入非活動語音1201被路由到非活動語音LP-抽取 1203和非活動語音HP-抽取1216元件以分別生成窄帶非活動語音1205和基帶中的高頻帶非活動語音1218。此外,窄帶非活動語音1205被路由到窄帶靜默/背景噪聲編碼器1206, 后者生成窄帶靜默/背景噪聲比特流1207。寬帶靜默/背景噪聲編碼器1220接收基帶中的高頻帶非活動語音1218并且生成寬帶靜默/背景噪聲比特流1222。雙向輔助信號1214 代表在窄帶靜默/背景噪聲編碼器1206與寬帶靜默/背景噪聲編碼器1220之間交換的信息。主要不同在于引入了生成DTX控制信號1213的DTX元件1212。窄帶靜默/背景噪聲編碼器1206和寬帶靜默/背景噪聲編碼器1220接收DTX控制信號1213,后者指示何時發(fā)送窄帶靜默/背景噪聲比特流1207和寬帶靜默/背景噪聲比特流1222。圖12中未示出的更高級的DTX元件可以產(chǎn)生指示何時發(fā)送窄帶靜默/背景噪聲比特流1207的窄帶DTX控制信號,以及產(chǎn)生指示何時發(fā)送寬帶靜默/背景噪聲比特流1222的單獨(dú)的寬帶DTX控制信號。在此實(shí)例實(shí)施例中,DTX元件1212可以使用若干輸入,包括輸入非活動語音1201、窄帶非活動語音1205、基帶中的高頻帶非活動語音1218以及時鐘1210。DTX元件1212還可以使用由VAD模塊(圖11中示出,但是圖12中省略)計(jì)算的語音參數(shù),以及使用由系統(tǒng)中的任何編碼元件(活動語音編碼元件或者非活動語音編碼元件)計(jì)算的參數(shù)(為了簡單和清晰,圖12省略了這些參數(shù)路徑)。DTX元件1212中實(shí)現(xiàn)的DTX算法決定何時需要靜默/背景信息的更新??梢岳缁谌魏蜠TX輸入?yún)?shù)(例如,輸入非活動語音1201的電平)或基于時鐘1210測量的時間間隔來做出所述決定。針對靜默/背景信息的更新發(fā)送的比特流被稱為靜默插入描述(SID)。DTX方法還可以用于圖4中示出的非嵌入式靜默壓縮。類似地,DTX方法還可以用于圖9中示出的G. 729. I的窄帶操作模式。用于封裝比特流并從編碼器側(cè)向解碼器側(cè)傳輸比特流以及用于由解碼器側(cè)接收和解封裝比特流的通信系統(tǒng)是本領(lǐng)域技術(shù)人員公知的并且因此不在此進(jìn)行詳細(xì)描述。圖13示出了 G. 729. I的典型解碼器,其解碼圖2中呈現(xiàn)的比特流。CELP解碼器 1303接收窄帶比特流1301并且TDAC解碼器1316接收寬帶比特流1314。TDAC解碼器1316 生成基帶處的高頻帶信號1317以及生成由CELP解碼器1303接收的重構(gòu)加權(quán)差分信號 1312。CELP解碼器1303生成窄帶信號1304。上采樣元件1305和低通濾波器1307處理窄帶信號1304以生成窄帶重構(gòu)語音1309。上采樣元件1318和高通濾波器1320處理基帶處的高頻帶信號1317以生成高頻帶重構(gòu)語音1322。將窄帶重構(gòu)語音1309和高頻帶重構(gòu)語音1322相加以生成輸出重構(gòu)語音1324。類似于以上對編碼器的討論,為解碼寬帶比特流 1314的模塊使用術(shù)語“TDAC解碼器”,盡管對于14Kbps層,使用的技術(shù)通常稱為時域帶寬擴(kuò)展(TD-BWE)。
圖14提供了根據(jù)本發(fā)明的一個實(shí)施例的具有靜默/背景噪聲壓縮的G. 729. I解碼器的描述,該解碼器適于接收和解碼具有如圖4所示的靜默/背景噪聲壓縮的G. 729. I 編碼器生成的比特流。圖14的頂部(其描述了活動語音解碼器)與圖13相同且上采樣和濾波元件合二為一。CELP解碼器1403接收窄帶比特流1401并且TDAC解碼器1416接收寬帶比特流1414。TDAC解碼器1416生成基帶處的高頻帶活動語音1417以及生成由CELP解碼器1403接收的重構(gòu)加權(quán)差分信號1412。CELP解碼器1403生成窄帶活動語音1404。上采樣-LP元件1405處理窄帶活動語音1404以生成窄帶重構(gòu)活動語音1409。上采樣-HP元件1418處理基帶處的高頻帶活動語音1417以生成高頻帶重構(gòu)活動語音1422。將窄帶重構(gòu)活動語音1409和高頻帶重構(gòu)活動語音1422相加以生成重構(gòu)活動語音1424。圖14的底部提供了靜默/背景噪聲(非活動語音)解碼的描述。靜默/背景噪聲比特流1431被靜默/背景噪聲解碼器1433接收,后者生成寬帶重構(gòu)非活動語音1434。由于活動語音解碼器既可以生成寬帶信號也可以生成窄帶信號(取決于網(wǎng)絡(luò)保留的嵌入層的數(shù)量),所以確保在最終重構(gòu)輸出語音1429中不會聽到帶寬切換造成的感知人工因素很重要。因此,寬帶重構(gòu)非活動語音1434被饋送到帶寬(BW)自適應(yīng)模塊1436,后者通過將其帶寬與重構(gòu)活動語音1429的帶寬相匹配來生成重構(gòu)非活動語音1438??梢酝ㄟ^比特流解封裝模塊(未示出)或通過例如在CELP解碼器1403和TDAC解碼器1416的操作內(nèi)可從活動語音解碼器提供的信息,將活動語音帶寬信息提供給BW自適應(yīng)模塊1436。還可以在重構(gòu)活動語音1424 上直接測量活動語音帶寬信息。在最后的步驟,根據(jù)VAD信息1426,該信息指示是接收到活動比特流(包括窄帶比特流1401和寬帶比特流1414)還是靜默/背景噪聲比特流,開關(guān) 1427分別在重構(gòu)活動語音1424和重構(gòu)非活動語音1438之間進(jìn)行選擇,以便形成重構(gòu)輸出語首1429 ο圖15提供了根據(jù)本發(fā)明的一個實(shí)施例的具有嵌入式靜默/背景噪聲壓縮的 G. 729. I解碼器的描述,該解碼器適于接收和解碼具有例如如圖10和11所示的嵌入式靜默/背景噪聲壓縮的G. 729. I編碼器生成的比特流。圖15的頂部(其描述了活動語音解碼器)與圖13和14相同且上采樣和濾波元件合二為一。活動語音CELP解碼器1503接收窄帶比特流1501并且活動語音TDAC解碼器1516接收寬帶比特流1514?;顒诱Z音TDAC解碼器1516生成基帶處的高頻帶活動語音1517以及生成由活動語音CELP解碼器1503接收的活動語音重構(gòu)加權(quán)差分信號1512?;顒诱Z音CELP解碼器1503生成窄帶活動語音1504。 活動語音上采樣-LP元件1505處理窄帶活動語音1504以生成窄帶重構(gòu)活動語音1509?;顒诱Z音上采樣-HP元件1518處理基帶處的高頻帶活動語音1517以生成高頻帶重構(gòu)活動語音1522。將窄帶重構(gòu)活動語音1509和高頻帶重構(gòu)活動語音1522相加以生成重構(gòu)活動語音 1524。圖15的底部描述了非活動語音解碼器。窄帶靜默/背景噪聲解碼器1533接收窄帶靜默/背景噪聲比特流1531并且寬帶靜默/背景噪聲解碼器1536接收靜默/背景噪聲寬帶比特流1534。窄帶靜默/背景噪聲解碼器1533生成靜默/背景噪聲窄帶信號1534并且寬帶靜默/背景噪聲解碼器1536生成靜默/背景噪聲基帶處的高頻帶信號1537。雙向輔助信號1532代表在窄帶靜默/背景噪聲解碼器1533與寬帶靜默/背景噪聲解碼器1536之間交換的信息。靜默/背景噪聲上采樣-LP元件1535處理靜默/背景噪聲窄帶信號1534 以生成靜默/背景噪聲窄帶重構(gòu)信號1539。靜默/背景噪聲上采樣-HP元件1538處理靜默/背景噪聲基帶處的高頻帶信號1537以生成靜默/背景噪聲高頻帶重構(gòu)信號1542。將靜默/背景噪聲窄帶重構(gòu)信號1539與靜默/背景噪聲高頻帶重構(gòu)信號1542相加以生成重構(gòu)非活動語音1544。根據(jù)VAD信息1526,該信息指示是接收到活動比特流(包括窄帶比特流1501和寬帶比特流1514)還是非活動比特流(包括窄帶靜默/背景噪聲比特流1531和靜默/背景噪聲寬帶比特流1534),開關(guān)1527分別在重構(gòu)活動語音1524和重構(gòu)非活動語音 1544之間進(jìn)行選擇,以便形成重構(gòu)輸出語音1529。顯然,切換的順序和相加的順序是可互換的,并且另一實(shí)施例可以是一個開關(guān)在窄帶信號之間進(jìn)行選擇而另一個開關(guān)在寬帶信號之間進(jìn)行選擇,同時信號相加元件組合開關(guān)的輸出。在圖15中,假設(shè)需要不同的處理(例如,不同的截止頻率),則活動語音和非活動語音的上采樣-LP和上采樣-HP元件是不同的。如果在活動語音和非活動語音之間,上采樣-LP和上采樣-HP元件中的處理是相同的,則可以為兩種類型的語音使用相同的元件。 圖16描述了具有嵌入式靜默/背景噪聲壓縮的G. 729. I解碼器,其中在活動語音和非活動語音之間共享上采樣-LP和上采樣-HP元件?;顒诱Z音CELP解碼器1603接收窄帶比特流 1601并且活動語音TDAC解碼器1616接收寬帶比特流1614?;顒诱Z音TDAC解碼器1616 生成基帶處的高頻帶活動語音1617以及生成由活動語音CELP解碼器1603接收的活動語音重構(gòu)加權(quán)差分信號1612?;顒诱Z音CELP解碼器1603生成窄帶活動語音1604。窄帶靜默/背景噪聲解碼器1633接收窄帶靜默/背景噪聲比特流1631并且寬帶靜默/背景噪聲解碼器1636接收靜默/背景噪聲寬帶比特流1635。窄帶靜默/背景噪聲解碼器1633生成靜默/背景噪聲窄帶信號1634并且寬帶靜默/背景噪聲解碼器1636生成靜默/背景噪聲基帶處的高頻帶信號1637。雙向輔助信號1632代表在窄帶靜默/背景噪聲解碼器1633與寬帶靜默/背景噪聲解碼器1636之間交換的信息。根據(jù)VAD信息1641,開關(guān)1619將窄帶活動語音1604或靜默/背景噪聲窄帶信號1634導(dǎo)向到上采樣-LP元件1642,后者產(chǎn)生窄帶輸出信號1643。類似地,根據(jù)VAD信息1641,開關(guān)1640將基帶處的高頻帶活動語音1617 或靜默/背景噪聲基帶處的高頻帶信號1637導(dǎo)向到上采樣-HP元件1644,后者產(chǎn)生高頻帶輸出信號1645。將窄帶輸出信號1643和高頻帶輸出信號1645相加以產(chǎn)生重構(gòu)輸出語音 1646。圖14、15和16中描述的靜默/背景噪聲解碼器可以備選地結(jié)合根據(jù)本發(fā)明的備選實(shí)施例的DTX解碼算法,其中從先前接收的參數(shù)外推用于生成重構(gòu)非活動語音的參數(shù)。 外推過程對于本領(lǐng)域技術(shù)人員是公知的并且不在此進(jìn)行詳細(xì)描述。但是,如果編碼器針對窄帶非活動語音使用一種DTX模式并且編碼器針對高頻帶非活動語音使用另一種DTX模式,則窄帶靜默/背景噪聲解碼器處的更新和外推將不同于寬帶靜默/背景噪聲解碼器處的更新和外推。根據(jù)所接收的比特流的類型,具有靜默/背景噪聲壓縮的G. 729. I解碼器以多種不同的模式工作。所接收的比特流中的比特數(shù)(大小)確定了接收的嵌入式層的結(jié)構(gòu)(即, 比特率),但是所接收的比特流中的比特數(shù)還形成解碼器處的VAD信息。例如,如果G. 729. I 分組(其代表20毫秒的語音)擁有640比特,則解碼器將確定其是32Kbps的活動語音分組并且將調(diào)用完整的活動語音寬帶解碼算法。另一方面,如果該分組擁有240比特來代表 20毫秒的語音,則解碼器將確定其是12Kbps的活動語音分組并且將僅調(diào)用活動語音窄帶解碼算法。對于帶有靜默/背景壓縮的G. 729. 1,如果分組的大小為32比特,則解碼器將確定其是僅帶有窄帶信息的非活動語音分組并且將調(diào)用非活動語音窄帶解碼算法,但是如果分組的大小為O比特(S卩,沒有到達(dá)的分組),則其將被視為NT幀并且將使用適當(dāng)?shù)耐馔扑惴?。比特流大小的變化是由語音編碼器(其根據(jù)輸入信號使用活動或非活動語音編碼)或網(wǎng)絡(luò)元件(其通過截斷某些嵌入式層來減小擁塞)造成的。圖17提供了基于比特率(如接收的分組中的比特流的大小所確定的)的解碼器控制操作的流程圖。假設(shè)活動語音比特流的結(jié)構(gòu)如圖I所示并且非活動語音比特流的結(jié)構(gòu)如圖8所示。接收模塊1700接收比特流。 活動/非活動語音比較器1706首先測試比特流大小,如果比特率大于或等于8Kbps (160比特的大小),則比較器1706確定其為活動語音比特流,否則,確定其為非活動語音比特流。 如果比特流為活動語音比特流,則活動語音窄帶/寬帶比較器1708進(jìn)一步比較其大小,比較器1708確定是應(yīng)由模塊1716僅調(diào)用窄帶解碼器,還是應(yīng)由模塊1718調(diào)用完整的寬帶解碼器。如果比較器1706指示非活動語音比特流,則NT/SID比較器1704檢查比特流的大小是等于O (NT幀)還是大于O (SID幀)。如果比特流是SID幀,則非活動語音窄帶/寬帶比較器1702進(jìn)一步測試比特流的大小,以便確定SID信息是包括完整的寬帶信息還是僅包括窄帶信息,以及是應(yīng)由模塊1712調(diào)用完整的非活動語音寬帶解碼器還是應(yīng)由模塊1710僅調(diào)用非活動窄帶解碼器。如果比特流的大小為0,即沒有接收到信息,則由模塊1714調(diào)用非活動語音外推解碼器。應(yīng)指出的是,比較器的順序?qū)τ谒惴ǖ牟僮鞑⒉恢匾⑶覂H作為示意性實(shí)施例提供比較操作的所述順序。還可能的是網(wǎng)絡(luò)元件將截斷活動語音分組的寬帶嵌入式層,同時保持非活動語音分組的寬帶嵌入式層不變。這是因?yàn)槌セ顒诱Z音分組的寬帶嵌入式層中的大量比特可以顯著有助于擁塞減小,而截斷非活動語音分組的寬帶嵌入式層將只是少量地有助于擁塞減小。因此,非活動語音解碼器的操作還依賴于活動語音解碼器的操作歷史。具體地說,如果當(dāng)前接收的分組中的寬帶信息不同于先前接收的分組,則需要特別注意。圖18提供了示出在非活動語音解碼中使用先前和當(dāng)前帶寬信息的算法的步驟的流程圖。決策模塊1800測試先前的比特流信息是否為寬帶。如果先前比特流為寬帶,則決策模塊1804測試當(dāng)前非活動語音比特流。如果當(dāng)前非活動語音比特流為寬帶,則調(diào)用非活動語音寬帶解碼器。如果當(dāng)前非活動語音比特流為窄帶,則執(zhí)行寬帶擴(kuò)展以便避免輸出靜默/背景噪聲信號上的突然帶寬變化。此外,如果對于預(yù)定數(shù)量的分組,接收的帶寬保持窄帶,則可以執(zhí)行適度的寬帶減小。如果決策模塊1800確定先前比特流為窄帶,則決策模塊1802測試當(dāng)前非活動語音比特流。如果非活動語音比特流為窄帶,則調(diào)用非活動語音窄帶非活動語音解碼器。如果當(dāng)前非活動語音比特流為寬帶,則截斷非活動語音比特流的寬帶部分并且調(diào)用窄帶非活動語音解碼器,避免輸出靜默/背景噪聲信號上的突然帶寬變化。此外,如果對于預(yù)定數(shù)量的分組,接收的帶寬保持寬帶,則可以執(zhí)行適度的寬帶增加。應(yīng)指出的是,非活動語音外推解碼器(盡管未在圖18中隱含地指定)被視為非活動語音解碼器的一部分并且始終遵循先前接收的帶寬。圖4、9、10和11中示出的VAD模塊區(qū)分活動語音和非活動語音,后者被定義為靜默或周圍背景噪聲。許多當(dāng)前通信應(yīng)用除話音信號外還使用音樂信號,如在中斷時的音樂中或在個性化回鈴音中。音樂信號既不是活動語音也不是非活動語音,但是如果為音樂信號的片段調(diào)用非活動語音編碼器,則會嚴(yán)重降低音樂信號的質(zhì)量。因此,設(shè)計(jì)為處理音樂信號的通信系統(tǒng)中的VAD檢測音樂信號并且提供音樂檢測指示很重要。音樂信號的檢測和處理在使用寬帶語音的語音通信系統(tǒng)中甚至更加重要,因?yàn)獒槍σ魳沸盘柕幕顒诱Z音編解碼器的內(nèi)在質(zhì)量相對較高,并且因此由針對音樂信號使用非活動語音編解碼器導(dǎo)致的質(zhì)量下降可能具有較強(qiáng)的感知影響。圖19示出了接收輸入語音1902的通用化的話音活動檢測器 1901。輸入語音1902被饋送到活動/非活動語音檢測器1905(其類似于圖4、9、10和11 中提供的VAD模塊)和饋送到音樂檢測器1906?;顒?非活動語音檢測器1905生成活動 /非活動話音指示1908并且音樂檢測器1906生成音樂指示1909??梢砸远喾N方式使用音樂指示。其主要目的是避免使用非活動語音編碼器并且對于該任務(wù),可以通過忽略不正確的非活動語音決策來將其與活動/非活動語音指示符相結(jié)合。其還可以控制專用或標(biāo)準(zhǔn)的噪聲抑制算法(未示出),后者在輸入語音到達(dá)編碼器之前預(yù)處理輸入語音。音樂指示還可以控制活動語音編碼器的操作,例如其音高輪廓線平滑算法或其他模塊。網(wǎng)絡(luò)截斷非活動語音的寬帶增強(qiáng)層可能需要解碼器擴(kuò)展帶寬以維持活動語音片段與非活動語音片段之間的帶寬連續(xù)性。類似地,還可以使編碼器僅發(fā)送窄帶信息以及使解碼器在活動語音是寬帶語音的情況下執(zhí)行寬帶擴(kuò)展。圖20示出了非活動語音編碼器 2000,其接收輸入非活動語音2002并將靜默/背景噪聲比特流2006傳輸?shù)椒腔顒诱Z音解碼器2001,后者生成重構(gòu)非活動語音2024。注意,輸入非活動語音2002和重構(gòu)非活動語音 2024都是以16KHz采樣的寬帶信號。LP-抽取元件2003接收輸入非活動語音2002并且生成非活動語音窄帶信號2004,后者被窄帶靜默/背景噪聲編碼器2005接收以生成窄帶靜默/背景噪聲比特流2006。窄帶靜默/背景噪聲比特流2006被窄帶靜默/背景噪聲解碼器2007接收以生成窄帶非活動語音2009和輔助信號2014。輔助信號2014可以包括能量和頻譜參數(shù)以及窄帶非活動語音2009本身。寬帶擴(kuò)展模塊2016使用輔助信號2014來生成基帶中的高頻帶非活動語音2018。所述生成可以使用頻譜擴(kuò)展,其應(yīng)用于具有能量輪廓線匹配和平滑的寬帶隨機(jī)激勵。上采樣-LP 2010接收窄帶非活動語音2009并且生成低頻帶輸出非活動語音2012。上采樣-HP 2020接收基帶中的高頻帶非活動語音2018并且生成高頻帶輸出非活動語音2022。將低頻帶輸出非活動語音2012和高頻帶輸出非活動語音 2022相加以產(chǎn)生重構(gòu)非活動語音2024。以上提供的方法和系統(tǒng)可以存在于軟件、硬件或器件上的固件中,后者可以在微處理器、數(shù)字信號處理器、專用集成電路、現(xiàn)場可編程門陣列(FPGA)或它們的任意組合中實(shí)現(xiàn)而不脫離本發(fā)明的精神。此外,本發(fā)明可以體現(xiàn)在其他特定形式中而不脫離其精神或本質(zhì)特性。所述實(shí)施例在所有方面都將被視為只是示例性的而非限制性的。
權(quán)利要求
1.一種用于生成非活動語音的解碼窄帶非活動語音和寬帶非活動語音的方法,所述方法包括接收所述窄帶非活動語音;接收所述寬帶非活動語音;由窄帶非激活語音解碼器根據(jù)所述窄帶非活動語音生成第一輔助信號;由寬帶非激活語音解碼器根據(jù)所述寬帶非活動語音生成第二輔助信號;使用所述窄帶非激活語音解碼器解碼所述窄帶非活動語音,以根據(jù)所述第二輔助信號生成已解碼窄帶非活動語音;使用所述寬帶非激活語音解碼器解碼所述寬帶非活動語音,以根據(jù)所述第一輔助信號生成已解碼寬帶非活動語音;以及使用所述已解碼窄帶非活動語音和所述已解碼寬帶非活動語音構(gòu)成所述非活動語音。
2.根據(jù)權(quán)利要求I的方法,其中所述窄帶非活動語音是根據(jù)ITU-TG.729附件B建議的 G. 729B比特流,以及所述寬帶非活動語音是所述G. 729B比特流之后的寬帶基礎(chǔ)層比特流。
3.根據(jù)權(quán)利要求2的方法,還包括在所述寬帶基礎(chǔ)層比特流之后接收所述窄帶非活動語音中編碼的增強(qiáng)的窄帶基礎(chǔ)層比特流;以及解碼所述窄帶非活動語音以生成所述增強(qiáng)的窄帶基礎(chǔ)層比特流。
4.根據(jù)權(quán)利要求3的方法,還包括在所述增強(qiáng)的窄帶基礎(chǔ)層比特流之后接收所述寬帶非活動語音中編碼的增強(qiáng)的寬帶基礎(chǔ)層比特流;以及解碼所述寬帶非活動語音以生成所述增強(qiáng)的寬帶基礎(chǔ)層比特流。
5.根據(jù)權(quán)利要求3的方法,還包括在所述寬帶基礎(chǔ)層比特流之后接收所述寬帶非活動語音中編碼的增強(qiáng)的寬帶基礎(chǔ)層比特流;以及解碼所述寬帶非活動語音信號以生成所述增強(qiáng)的寬帶基礎(chǔ)層比特流。
6.根據(jù)權(quán)利要求5的方法,還包括在所述增強(qiáng)的寬帶基礎(chǔ)層比特流之后接收所述窄帶非活動語音中編碼的增強(qiáng)的窄帶基礎(chǔ)層比特流;以及解碼所述窄帶非活動語音信號以生成所述增強(qiáng)的窄帶基礎(chǔ)層比特流。
7.一種適用于生成非活動語音的解碼窄帶非活動語音和寬帶非活動語音的語音解碼器,所述語音解碼器包括微處理器,配置為接收所述窄帶非活動語音;接收所述寬帶非活動語音;由窄帶非激活語音解碼器根據(jù)所述窄帶非活動語音生成第一輔助信號;由寬帶非激活語音解碼器根據(jù)所述寬帶非活動語音生成第二輔助信號;使用所述窄帶非激活語音解碼器解碼所述窄帶非活動語音,以根據(jù)所述第二輔助信號生成已解碼窄帶非活動語音;使用所述寬帶非激活語音解碼器解碼所述寬帶非活動語音,以根據(jù)所述第一輔助信號生成已解碼寬帶非活動語音;以及使用所述已解碼窄帶非活動語音和所述已解碼寬帶非活動語音構(gòu)成所述非活動語音。
8.根據(jù)權(quán)利要求7的語音解碼器,其中所述窄帶非活動語音是根據(jù)ITU-TG. 729附件 B建議的G. 729B比特流,以及所述寬帶非活動語音是所述G. 729B比特流之后的寬帶基礎(chǔ)層比特流。
9.根據(jù)權(quán)利要求7的語音解碼器,其中所述微處理器配置為在所述寬帶基礎(chǔ)層比特流之后接收所述窄帶非活動語音中編碼的增強(qiáng)的窄帶基礎(chǔ)層比特流;以及解碼所述窄帶非活動語音以生成所述增強(qiáng)的窄帶基礎(chǔ)層比特流。
10.根據(jù)權(quán)利要求9的語音解碼器,其中所述微處理器配置為在所述增強(qiáng)的窄帶基礎(chǔ)層比特流之后接收所述寬帶非活動語音中編碼的增強(qiáng)的寬帶基礎(chǔ)層比特流;以及解碼所述寬帶非活動語音以生成所述增強(qiáng)的寬帶基礎(chǔ)層比特流。
11.根據(jù)權(quán)利要求9的語音解碼器,其中所述微處理器配置為在所述寬帶基礎(chǔ)層比特流之后接收所述寬帶非活動語音中編碼的增強(qiáng)的寬帶基礎(chǔ)層比特流;以及解碼所述寬帶非活動語音信號以生成所述增強(qiáng)的寬帶基礎(chǔ)層比特流。
12.根據(jù)權(quán)利要求11的語音解碼器,其中所述微處理器配置為在所述增強(qiáng)的寬帶基礎(chǔ)層比特流之后接收所述窄帶非活動語音中編碼的增強(qiáng)的窄帶基礎(chǔ)層比特流;以及解碼所述窄帶非活動語音信號以生成所述增強(qiáng)的窄帶基礎(chǔ)層比特流。
全文摘要
本發(fā)明涉及的嵌入式靜默和背景噪聲壓縮,提供了一種用于生成非活動語音的解碼窄帶非活動語音和寬帶非活動語音的方法,所述方法包括接收所述窄帶非活動語音;接收所述寬帶非活動語音;由窄帶非激活語音解碼器根據(jù)所述窄帶非活動語音生成第一輔助信號;由寬帶非激活語音解碼器根據(jù)所述寬帶非活動語音生成第二輔助信號;使用所述窄帶非激活語音解碼器解碼所述窄帶非活動語音,以根據(jù)所述第二輔助信號生成已解碼窄帶非活動語音;使用所述寬帶非激活語音解碼器解碼所述寬帶非活動語音,以根據(jù)所述第一輔助信號生成已解碼寬帶非活動語音;以及使用所述已解碼窄帶非活動語音和所述已解碼寬帶非活動語音構(gòu)成所述非活動語音。
文檔編號G10L19/00GK102592600SQ20121002264
公開日2012年7月18日 申請日期2008年2月1日 優(yōu)先權(quán)日2007年2月14日
發(fā)明者A·拜尼亞斯恩, E·施羅默特, Y·高 申請人:曼德斯必德技術(shù)公司