可升級(jí)的音頻編碼器和解碼器的制作方法

文檔序號(hào)：7586291閱讀：260來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>電子通信裝置的制造及其應(yīng)用技術(shù)

專利名稱：可升級(jí)的音頻編碼器和解碼器的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種用于壓縮數(shù)字信號(hào)的系統(tǒng)和方法，具體地說(shuō)，涉及一種能夠升級(jí)數(shù)字音頻信號(hào)的編碼和解碼的系統(tǒng)和方法。
現(xiàn)在，數(shù)字音頻表示在許多應(yīng)用中是很平常的。例如，音樂(lè)光盤(CD)、互聯(lián)網(wǎng)音頻剪輯、衛(wèi)星電視、數(shù)字化視頻光盤(DVD)和依靠數(shù)字音頻技術(shù)的電話機(jī)(有線的或蜂窩的)。通過(guò)使用模數(shù)(A/D)轉(zhuǎn)換器將模擬音頻信號(hào)變換成數(shù)字信號(hào)實(shí)現(xiàn)音頻信號(hào)的數(shù)字表示。然后，數(shù)字表示可以被編碼、壓縮、存儲(chǔ)、傳輸和使用等。如果需要，然后可以使用數(shù)模(D/A)轉(zhuǎn)換器將數(shù)字信號(hào)轉(zhuǎn)換回模擬信號(hào)。A/D和D/A轉(zhuǎn)換器定期抽樣模擬信號(hào)，通常以下述標(biāo)準(zhǔn)頻率之一8kHz，用于電話機(jī)、互聯(lián)網(wǎng)、視頻會(huì)議；11.025kHz，用于互聯(lián)網(wǎng)、只讀光盤驅(qū)動(dòng)器；16kHz，用于視頻會(huì)議、遠(yuǎn)距離音頻廣播、互聯(lián)網(wǎng)、未來(lái)電話機(jī)；22.05kHz，用于只讀光盤驅(qū)動(dòng)器、互聯(lián)網(wǎng)；32kHz，用于只讀光盤驅(qū)動(dòng)器、視頻會(huì)議、ISDN音頻；44.1kHz，用于音頻光盤；和48kHz，用于播音室音頻再生。
典型地，如果在轉(zhuǎn)換之后編碼或壓縮音頻信號(hào)，由A/D生成的原始比特通常以每音頻抽樣16比特被格式化。對(duì)于音頻光盤，例如，原始比特速率是44.1kHz×16比特/抽樣=705.6kbps(千比特/秒)。對(duì)于電話機(jī)，原始比特速率是8kHz×8比特/抽樣=64kbps。對(duì)于音頻光盤，在存儲(chǔ)容量大約是700兆字節(jié)(5600兆比特)的地方，可以存儲(chǔ)原始比特，并且不需要壓縮。然而，小型光盤僅能存儲(chǔ)大約140兆字節(jié)，所以需要大約4∶1的壓縮以將30分鐘到1小時(shí)的音頻裝入2.5英寸小型光盤。
對(duì)于互聯(lián)網(wǎng)電話和大多數(shù)其它應(yīng)用，原始比特速率對(duì)于大多數(shù)的當(dāng)前信道容量太高。因而，使用能夠進(jìn)行有效壓縮的高效編碼/解碼器(通常稱作編碼器/解碼器或編解碼器)。例如，對(duì)于互聯(lián)網(wǎng)電話機(jī)，原始比特速率是64kHz，但所需的信道速率在5至10kbps之間變化。因此，編解碼器需要以5至15之間的因子壓縮比特速率，帶有最小的可覺(jué)察的音頻信號(hào)質(zhì)量損失。
隨著當(dāng)前處理芯片的發(fā)展，編解碼器可以以專用硬件，通常用可編程數(shù)字信號(hào)處理器(DSP)芯片實(shí)現(xiàn)，或者以通用計(jì)算機(jī)的軟件來(lái)實(shí)現(xiàn)。因此，希望使編解碼器可以實(shí)現(xiàn)，例如1)低計(jì)算復(fù)雜性(編碼復(fù)雜性對(duì)于所存儲(chǔ)的音頻通常不是問(wèn)題)；2)優(yōu)良的再生保真度(不同的應(yīng)用將具有不同的質(zhì)量要求)；3)對(duì)信號(hào)變化的強(qiáng)壯性(音頻信號(hào)可以是清楚的話音、嘈雜的話音、多個(gè)談話者、音樂(lè)等等，編解碼器可以處理的這種信號(hào)的范圍越廣越好)；4)低延遲(在諸如電話機(jī)和視頻會(huì)議的實(shí)時(shí)應(yīng)用中)；5)可升級(jí)性(適應(yīng)不同信號(hào)抽樣速率和不同信道容量的容易程度-尤其希望編碼之后的可升級(jí)性，即轉(zhuǎn)換成不同抽樣速率或信道速率而不需要重新編碼)；和6)壓縮域中的信號(hào)修改(如果編解碼器允許在壓縮域中處理，或者至少不需要完全解碼和重新編碼，諸如多個(gè)信道混合、干擾壓縮和其它的操作可以更快)。
當(dāng)前，商業(yè)系統(tǒng)使用多種不同的數(shù)字音頻技術(shù)。一些例子包括ITU-T標(biāo)準(zhǔn)G.711,G.726,G.722,G.728,G.723.1和G.729；其它電話標(biāo)準(zhǔn)GSM、半速率GSM、蜂窩CDMA(IS-733)；高保真音頻杜比AC-2和AC-3、MPEG LⅡ和LⅢ、索尼小型光盤；互聯(lián)網(wǎng)音頻ACELP-Net、DolbyNet、PictureTel Siren、RealAudio；和軍事應(yīng)用LPC-10和USFS-1016聲碼器。
然而，當(dāng)前的這些編解碼器具有多種限制。即，當(dāng)前編解碼器的計(jì)算復(fù)雜性不夠低。例如，當(dāng)編解碼器被集成在一個(gè)操作系統(tǒng)中時(shí)，希望使編解碼器以低CPU使用與其它應(yīng)用同時(shí)運(yùn)行。另一問(wèn)題是中等延遲。希望使編解碼器允許整個(gè)音頻獲取/重放系統(tǒng)以低于100毫秒的延遲操作，例如，能夠?qū)崟r(shí)通信。
另一問(wèn)題是對(duì)信號(hào)變換的強(qiáng)壯性級(jí)別。希望使編解碼器不僅能夠處理清楚話音，而且能夠處理被混響、辦公室噪聲、電子噪聲和背景音樂(lè)等影響的話音，并且還能夠處理音樂(lè)、撥號(hào)音和其它聲音。而且，大多數(shù)現(xiàn)有編解碼器的缺點(diǎn)是它們有限的可升級(jí)性和支持信號(hào)抽樣頻率和信道數(shù)據(jù)速率的狹窄范圍。例如，多種當(dāng)前應(yīng)用通常需要支持多個(gè)不同的編解碼器。這是因?yàn)槎喾N編解碼器被設(shè)計(jì)僅能處理某一范圍的抽樣速率。一種相關(guān)的期望是使編解碼器可以允許修改抽樣或數(shù)據(jù)速率而不需要重新編碼。
另一問(wèn)題是多方電話會(huì)議，服務(wù)器必須混合來(lái)自各參與者的的音頻信號(hào)。多個(gè)編解碼器要求在混合之前解碼所有數(shù)據(jù)流。需要的是編解碼器支持在編碼或壓縮域中混合而不需要在混合之前解碼所有數(shù)據(jù)流。
還有一個(gè)問(wèn)題出現(xiàn)在與信號(hào)增強(qiáng)功能的集成中。例如，由當(dāng)前編解碼器使用的音頻路徑在編解碼器處理之前可以包括信號(hào)增強(qiáng)模塊。舉一個(gè)例子，在免提電話會(huì)議中，來(lái)自揚(yáng)聲器的信號(hào)被麥克風(fēng)捕獲，被本地人員的話音干擾。因此，通常使用回波消除算法來(lái)消除揚(yáng)聲器對(duì)麥克風(fēng)的反饋。其它增強(qiáng)操作部分可以包括自動(dòng)增益控制、降噪器。那些增強(qiáng)操作部分導(dǎo)致將被增加給編碼/解碼延遲的處理延遲。因而，所需要的是能夠?qū)⒃鰪?qiáng)處理和編解碼器較簡(jiǎn)單集成的編解碼器，以便可以執(zhí)行所有這些信號(hào)增強(qiáng)而不產(chǎn)生除編解碼器延遲之外的任何延遲。
與編解碼器相關(guān)的另一個(gè)問(wèn)題是缺少對(duì)比特和分組損失的強(qiáng)壯性。在大多數(shù)實(shí)際實(shí)時(shí)應(yīng)用中，通信信道不能免于錯(cuò)誤。無(wú)線信道可能具有明顯的誤比特率，并且分組交換信道(例如互聯(lián)網(wǎng))可能具有明顯的分組損失。因而，所需要的是編解碼器允許具有小信號(hào)降級(jí)的壓縮比特流損失，例如最高5％。
不管上述系統(tǒng)和方法的優(yōu)點(diǎn)如何，它們不能實(shí)現(xiàn)本發(fā)明的優(yōu)點(diǎn)。
為了克服上述現(xiàn)有技術(shù)中的限制，并克服其它的限制，閱讀和理解本發(fā)明之后這將變得很明顯，在使用新編碼器/解碼器(編解碼器)能夠可升級(jí)地編碼和解碼音頻信號(hào)的一種系統(tǒng)和方法中實(shí)施本發(fā)明。
本發(fā)明的編解碼器系統(tǒng)包括一個(gè)編碼器和一個(gè)解碼器。編碼器包括多分辨率變換處理器，例如調(diào)制重疊變換(MLT)變換處理器、加權(quán)處理器、均勻量化器、屏蔽閾值頻譜處理器、熵編碼器和一個(gè)通信設(shè)備，例如復(fù)用器(MUX)，用于復(fù)用(組合)從上述部件接收的信號(hào)以在單一介質(zhì)上傳輸。解碼器包括與編碼器相反的部件，例如反多分辨率變換處理器、反加權(quán)處理器、反均勻量化器、反屏蔽閾值頻譜處理器、反熵編碼器和解復(fù)用器。使用這些部件，本發(fā)明能夠執(zhí)行分辨率轉(zhuǎn)換、頻譜加權(quán)、數(shù)字編碼和參數(shù)建模。
本發(fā)明的一些特征和優(yōu)點(diǎn)包括低計(jì)算復(fù)雜性。當(dāng)本發(fā)明的編解碼器集成在一個(gè)操作系統(tǒng)中時(shí)，它可以以低CPU使用率與其它應(yīng)用同時(shí)運(yùn)行。這個(gè)編解碼器允許整個(gè)音頻捕獲/回放系統(tǒng)以低于例如100毫秒的延遲操作從而能夠進(jìn)行實(shí)時(shí)通信。這個(gè)編解碼器具有對(duì)信號(hào)變化的高級(jí)別強(qiáng)壯性，并且它不僅能夠處理清楚話音，能夠處理受混響、辦公室噪聲、電噪聲、背景音樂(lè)等的影響下降的話音，而且能夠處理音樂(lè)、撥號(hào)音和其它聲音。另外，該編解碼器能夠升級(jí)，并支持大范圍的信號(hào)抽樣頻率和信道數(shù)據(jù)速率。一個(gè)相關(guān)特征是這個(gè)編解碼器允許修改抽樣或數(shù)據(jù)速率而不需要重新編碼。例如，這個(gè)編解碼器可以將32kbps數(shù)據(jù)流轉(zhuǎn)換成16kbps數(shù)據(jù)流而不需要完全解碼和重新編碼。這使服務(wù)器能夠僅存儲(chǔ)高保真度的音頻剪輯，在需要時(shí)將它們迅速轉(zhuǎn)換成較低的保真度。
而且，對(duì)于多方電話會(huì)議，這個(gè)編解碼器支持在不需要在混合之前解碼所有數(shù)據(jù)流的情況下在編碼或壓縮域中的混合。這顯著地影響服務(wù)器可以處理的音頻流數(shù)量。而且，這個(gè)編解碼器能夠以這種方式進(jìn)行增強(qiáng)處理的較簡(jiǎn)單的集成，可以在沒(méi)有除編解碼器延遲之外的任何延遲的情況下執(zhí)行信號(hào)增強(qiáng)。而且，這個(gè)編解碼器的另一特征是它對(duì)比特和分組損失的強(qiáng)壯性。例如，在大多數(shù)實(shí)際實(shí)時(shí)應(yīng)用中，通信信道無(wú)法免于錯(cuò)誤。因?yàn)闊o(wú)線信道可能具有明顯的誤比特率，分組交換信道(例如互聯(lián)網(wǎng))可能具有明顯的分組損失，這個(gè)編解碼器允許壓縮比特流損失，例如最高5％，較低地降低信號(hào)質(zhì)量。
通過(guò)研究下述本發(fā)明的詳細(xì)說(shuō)明和附圖及權(quán)利要求書(shū)，本發(fā)明的上述和其它特征和優(yōu)點(diǎn)以及對(duì)其更完整的理解將更明顯。
現(xiàn)在參考附圖，其中在所有附圖中相同的參考數(shù)字表示相應(yīng)的部件

圖1是一個(gè)方框圖，表示用于執(zhí)行本發(fā)明的一種設(shè)備；圖2是一個(gè)普通方框/流程圖，表示根據(jù)本發(fā)明用于編碼/解碼音頻信號(hào)的一種系統(tǒng)和方法；圖3是一個(gè)總結(jié)構(gòu)方框圖，表示根據(jù)本發(fā)明用于編碼音頻信號(hào)的一個(gè)系統(tǒng)；圖4是一個(gè)總流程圖，表示根據(jù)本發(fā)明用于編碼音頻信號(hào)的方法；圖5是一個(gè)普通方框/流程圖，表示根據(jù)本發(fā)明用于編碼音頻信號(hào)的一個(gè)系統(tǒng)；圖6是一個(gè)普通方框/流程圖，表示根據(jù)本發(fā)明用于編碼音頻信號(hào)的一個(gè)系統(tǒng)；圖7是一個(gè)流程圖，表示根據(jù)本發(fā)明的一種調(diào)制重疊變換；圖8是一個(gè)流程圖，表示根據(jù)本發(fā)明的一種調(diào)制重疊雙正交變換；圖9是一個(gè)簡(jiǎn)化方框圖，表示根據(jù)本發(fā)明的一種不均勻調(diào)制重疊雙正交變換；圖10表示不均勻調(diào)制重疊雙正交變換分析基本函數(shù)的一個(gè)例子；圖11表示不均勻調(diào)制重疊雙正交變換分析基本函數(shù)的另一個(gè)例子；圖12是一個(gè)流程圖，表示根據(jù)本發(fā)明用于執(zhí)行分辨率轉(zhuǎn)換的系統(tǒng)和方法；圖13是一個(gè)流程圖，表示根據(jù)本發(fā)明用于執(zhí)行加權(quán)函數(shù)計(jì)算和部分白化的一種系統(tǒng)和方法；圖14是一個(gè)流程圖，表示根據(jù)本發(fā)明用于執(zhí)行簡(jiǎn)化Bark閾值計(jì)算的一種系統(tǒng)和方法；
圖15是一個(gè)流程圖，表示根據(jù)本發(fā)明用于執(zhí)行熵編碼的一種系統(tǒng)和方法；圖16是一個(gè)方框圖，表示根據(jù)本發(fā)明用于執(zhí)行參數(shù)建模的一種系統(tǒng)和方法。
在本發(fā)明的下述說(shuō)明中，參考構(gòu)成本發(fā)明一部分的附圖，利用在其中可以實(shí)施本發(fā)明的一個(gè)具體例子的例圖進(jìn)行圖示。應(yīng)當(dāng)理解在不脫離本發(fā)明范圍的情況下可以使用其它實(shí)施例，并可以進(jìn)行結(jié)構(gòu)上的改變。
引言在許多現(xiàn)代音頻編碼標(biāo)準(zhǔn)中使用變換或子帶編碼器，通常以32kbps和更高的比特率，和以2比特/抽樣或更高。在低速率上，大約和低于1比特/抽樣，諸如G.729和G.723.1的話音編解碼器在電話會(huì)議應(yīng)用中使用。這種編解碼器以清楚的話音生成模型為基礎(chǔ)，因此它們的性能隨著其它信號(hào)，例如多個(gè)說(shuō)話者，噪聲環(huán)境，尤其是音樂(lè)信號(hào)而快速地降低。
隨著調(diào)制解調(diào)器可用速率的提高，許多應(yīng)用可以為窄帶(3.4kHz帶寬)音頻負(fù)擔(dān)高達(dá)8-12kbps，并且對(duì)于更高保真度的材料可以是更高的速率。這提高了在對(duì)信號(hào)變化更強(qiáng)壯的編碼器上的興趣，該編碼器速率例如類似或略高于G.729。
本發(fā)明是帶有轉(zhuǎn)換編碼器的編碼器/解碼器系統(tǒng)(編解碼器)，所述轉(zhuǎn)換編碼器可以以合理的質(zhì)量工作在低到1比特/抽樣(例如以8kHz抽樣的8kpbs)的速率上。為了在清晰的話音條件下提高性能，使用頻譜加權(quán)和帶有參數(shù)建模的行程長(zhǎng)度和熵編碼器。結(jié)果，改善了有聲話音的周期頻譜結(jié)構(gòu)的編碼。
本發(fā)明為包括話音的準(zhǔn)周期信號(hào)產(chǎn)生改善的性能。根據(jù)少量參數(shù)計(jì)算量化參數(shù)表，考慮了在不增加量化表存儲(chǔ)的情況下高度的適用性。為了提高瞬變信號(hào)的性能，本發(fā)明使用帶有可變分辨率沒(méi)有輸入窗口切換的不均勻調(diào)制重疊雙正交變換。實(shí)驗(yàn)結(jié)果表明本發(fā)明可以被用于以接近于1比特/抽樣的速率的高質(zhì)量信號(hào)再生，以2比特/抽樣的準(zhǔn)透明再生，和以3比特/抽樣或者更高的速率的可覺(jué)察的透明再生。
示范操作環(huán)境圖1和下述討論將用于提供在其中可以實(shí)施本發(fā)明的合適計(jì)算環(huán)境的簡(jiǎn)要說(shuō)明。盡管不需要，但將在計(jì)算機(jī)可執(zhí)行指令，例如由個(gè)人計(jì)算機(jī)執(zhí)行的程序模塊的普通環(huán)境下描述本發(fā)明。通常，程序模塊包括執(zhí)行特殊任務(wù)或?qū)崿F(xiàn)特定摘要數(shù)據(jù)類型的例行程序、程序、對(duì)象、組件和數(shù)據(jù)結(jié)構(gòu)等。而且，本領(lǐng)域的技術(shù)人員將認(rèn)識(shí)到可以用其它計(jì)算機(jī)系統(tǒng)配置實(shí)現(xiàn)本發(fā)明，包括手持式設(shè)備、多處理器系統(tǒng)、基于微處理器或可編程用戶電子設(shè)備、網(wǎng)絡(luò)個(gè)人計(jì)算機(jī)、小型計(jì)算機(jī)、大型計(jì)算機(jī)等。本發(fā)明也可以在由通過(guò)通信網(wǎng)絡(luò)鏈接的遠(yuǎn)程處理設(shè)備執(zhí)行任務(wù)的分布式計(jì)算環(huán)境中實(shí)施。在分布式計(jì)算機(jī)環(huán)境中，程序模塊可以被設(shè)置于本地和遠(yuǎn)程存儲(chǔ)設(shè)備上。
參見(jiàn)圖1，用于實(shí)現(xiàn)本發(fā)明的示范性系統(tǒng)包括形式為常規(guī)個(gè)人計(jì)算機(jī)100的通用計(jì)算設(shè)備，包括處理單元102、系統(tǒng)存儲(chǔ)器104和將包括系統(tǒng)存儲(chǔ)器104的各種系統(tǒng)組件連接到處理單元102的系統(tǒng)總線106。系統(tǒng)總線106可以是多種總線類型中的任何一種總線，包括存儲(chǔ)器總線或存儲(chǔ)器控制器、外圍總線和使用多種總線結(jié)構(gòu)中的任何一種的本地總線。系統(tǒng)存儲(chǔ)器包括只讀存儲(chǔ)器(ROM)110和隨機(jī)訪問(wèn)存儲(chǔ)器(RAM)112。在ROM110中存儲(chǔ)基本輸入/輸出系統(tǒng)114(BIOS)，包含協(xié)助在個(gè)人計(jì)算機(jī)100中在組件之間傳輸信息的基本例行程序，例如在啟動(dòng)時(shí)。個(gè)人計(jì)算機(jī)100還包括用于讀取和寫(xiě)入硬盤的硬盤驅(qū)動(dòng)器116，用于讀取或?qū)懭牖顒?dòng)磁盤120的磁盤驅(qū)動(dòng)器118，和用于讀取或?qū)懭胫T如CD-ROM或其它光介質(zhì)的活動(dòng)光盤124的光盤驅(qū)動(dòng)器122。硬盤驅(qū)動(dòng)器116、磁盤驅(qū)動(dòng)器128和光盤驅(qū)動(dòng)器122分別通過(guò)硬盤驅(qū)動(dòng)器接口126、磁盤驅(qū)動(dòng)器接口128和光盤驅(qū)動(dòng)器接口130連接到系統(tǒng)總線106。驅(qū)動(dòng)器和它們的相關(guān)計(jì)算機(jī)可讀介質(zhì)為個(gè)人計(jì)算機(jī)100提供計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊和其它數(shù)據(jù)的非易失性存儲(chǔ)。盡管在此所述的示范性環(huán)境使用硬盤、活動(dòng)磁盤120和活動(dòng)光盤130，本領(lǐng)域的普通技術(shù)人員將理解可以存儲(chǔ)可由計(jì)算機(jī)訪問(wèn)的數(shù)據(jù)的其它類型的計(jì)算機(jī)可讀介質(zhì)也可以在示范性操作環(huán)境中使用，例如磁帶、快閃存儲(chǔ)卡、數(shù)字視頻光盤、貝努里盒式磁盤、隨機(jī)訪問(wèn)存儲(chǔ)器(RAM)、只讀存儲(chǔ)器(ROM)等。
多個(gè)程序模塊可以被存儲(chǔ)在硬盤、磁盤120、光盤124、ROM110或RAM112上，包括操作系統(tǒng)132、一個(gè)或多個(gè)應(yīng)用程序134、其它程序模塊136和程序數(shù)據(jù)138。用戶可以通過(guò)諸如鍵盤140和指示設(shè)備142的輸入設(shè)備將命令和信息輸入個(gè)人計(jì)算機(jī)100。其它輸入設(shè)備(未圖示)可以包括麥克風(fēng)、控制桿、游戲小鍵盤、衛(wèi)星反射器、掃描儀等。這些或其它輸入設(shè)備通常通過(guò)連接到系統(tǒng)總線106的串行接口144連接到處理單元102，但是也可以通過(guò)其它接口連接，例如并口、游戲口或通用串行總線(USB)。監(jiān)視器146或其它類型的顯示設(shè)備也通過(guò)諸如視頻適配器148的接口連接到系統(tǒng)總線106。除了監(jiān)視器146之外，個(gè)人計(jì)算機(jī)通常包括其它外圍輸出設(shè)備(未圖示)，例如揚(yáng)聲器和打印機(jī)。
個(gè)人計(jì)算機(jī)100可以使用到諸如遠(yuǎn)程計(jì)算機(jī)150的一個(gè)或多個(gè)遠(yuǎn)程計(jì)算機(jī)的邏輯連接工作在網(wǎng)絡(luò)環(huán)境中。遠(yuǎn)程計(jì)算機(jī)150可以是另外一個(gè)個(gè)人計(jì)算機(jī)、服務(wù)器、路由器、網(wǎng)絡(luò)PC、對(duì)等設(shè)備或其它普通網(wǎng)絡(luò)節(jié)點(diǎn)，并且一般包括上述與個(gè)人計(jì)算機(jī)100相關(guān)的多個(gè)或所有組件，盡管僅在圖1中圖示存儲(chǔ)器存儲(chǔ)設(shè)備152。圖1所示的邏輯連接包括局域網(wǎng)(LAN)154和廣域網(wǎng)(WAN)156。這些網(wǎng)絡(luò)環(huán)境在辦公室、大企業(yè)計(jì)算機(jī)網(wǎng)絡(luò)、內(nèi)部網(wǎng)和因特網(wǎng)中是常見(jiàn)的。
當(dāng)在LAN網(wǎng)絡(luò)環(huán)境中使用時(shí)，個(gè)人計(jì)算機(jī)100通過(guò)網(wǎng)絡(luò)接口或適配器158連接到本地網(wǎng)154。當(dāng)在WAN網(wǎng)絡(luò)環(huán)境中使用時(shí)，個(gè)人計(jì)算機(jī)100一般包括調(diào)制解調(diào)器160或其它裝置，用于在諸如因特網(wǎng)的廣域網(wǎng)156上建立通信?？梢允莾?nèi)置或外置的調(diào)制解調(diào)器160通過(guò)串口接口144連接到系統(tǒng)總線106。在網(wǎng)絡(luò)環(huán)境中，與個(gè)人計(jì)算機(jī)100或它的一部分相關(guān)描述的程序模塊可以被存儲(chǔ)在遠(yuǎn)程存儲(chǔ)器存儲(chǔ)設(shè)備中。顯然所示的網(wǎng)絡(luò)連接是示范性的，可以使用在計(jì)算機(jī)之間建立通信鏈路的其它裝置。
概述圖2是一個(gè)普通方框/流程圖，說(shuō)明根據(jù)本發(fā)明用于編碼/解碼一個(gè)音頻信號(hào)的系統(tǒng)和方法。首先，由模數(shù)(A/D)轉(zhuǎn)換器210接收和處理一個(gè)信號(hào)源的模擬音頻輸入信號(hào)。A/D轉(zhuǎn)換器210生成原始數(shù)據(jù)比特。原始數(shù)據(jù)比特被發(fā)送給數(shù)字編碼器212，并根據(jù)本發(fā)明處理以生成一個(gè)編碼比特流(下文提供對(duì)編碼器的詳細(xì)說(shuō)明)。編碼比特流被使用、存儲(chǔ)、傳輸?shù)?方框204)，然后發(fā)送給數(shù)字編碼器216和處理以再生原先的原始數(shù)據(jù)比特。數(shù)模(D/A)轉(zhuǎn)換器218接收原始數(shù)據(jù)比特以轉(zhuǎn)換成輸出音頻信號(hào)。所生成的輸出音頻信號(hào)與輸入音頻信號(hào)基本匹配。
圖3是一個(gè)總結(jié)構(gòu)方框圖，圖示根據(jù)本發(fā)明用于編碼音頻信號(hào)的一個(gè)系統(tǒng)。本發(fā)明的編碼器300(圖2的編碼器212)包括多分辨率變換處理器310、加權(quán)處理器312、均勻量化器314、屏蔽閾值頻譜處理器316、編碼器318和通信設(shè)備320。
多分辨率變換處理器310最好是雙分辨率調(diào)制重疊變換(MLT)變換處理器。變換處理器接收初始信號(hào)并根據(jù)初始信號(hào)生成變換系數(shù)。加權(quán)處理器312和屏蔽閾值頻譜處理器316為盡可能地屏蔽量化噪聲執(zhí)行頻譜加權(quán)和部分白化。均勻量化器314用于將連續(xù)值變換成離散值。編碼器318最好是用于編碼變換系數(shù)的熵編碼器。通信設(shè)備320最好是復(fù)用器(MUX)，用于復(fù)用(組合)從上述組件接收的信號(hào)以在單一介質(zhì)上傳輸。
解碼器(未圖示)包括編碼器300的相反組件，例如反多分辨率變換處理器(未圖示)、反加權(quán)處理器(未圖示)、反均勻量化器(未圖示)、反屏蔽閾值頻譜處理器(未圖示)、反編碼器(未圖示)和反MUX(未圖示)。
組件概述圖4是一個(gè)總流程圖，表示根據(jù)本發(fā)明用于編碼音頻信號(hào)的方法。將討論圖7-16中操作的具體細(xì)節(jié)。一般來(lái)說(shuō)，首先，執(zhí)行一個(gè)MLT計(jì)算(方框400)以生成變換系數(shù)，繼之以修改MLT系數(shù)(方框410)的分辨率切換(方框405)。分辨率轉(zhuǎn)換被用于提高瞬變信號(hào)的性能。
然后，通過(guò)下述步驟執(zhí)行頻譜加權(quán)(方框412):a)根據(jù)下面將要描述的本發(fā)明的聽(tīng)覺(jué)屏蔽技術(shù)加權(quán)變換系數(shù)(方框414)；b)計(jì)算簡(jiǎn)化Bark閾值頻譜(方框416)；c)執(zhí)行加權(quán)函數(shù)的部分白化(方框418)；和d)執(zhí)行標(biāo)量量化(方框420)。根據(jù)本發(fā)明執(zhí)行頻譜加權(quán)以盡可能多的屏蔽量化噪聲。目的是生成盡可能接近清晰的的重建信號(hào)。
第三，執(zhí)行編碼和參數(shù)建模(方框422)，通過(guò)建立由編碼器使用的概率分布模型(步驟424)，所述編碼器例如用于熵編碼量化系數(shù)的熵編碼器(方框426)，然后為量化步長(zhǎng)優(yōu)化執(zhí)行二進(jìn)制搜索(方框428)。標(biāo)量量化(方框420)將浮點(diǎn)系數(shù)轉(zhuǎn)換成量化系數(shù)，它由一組離散數(shù)中最接近的值給出。離散值之間的距離等于步長(zhǎng)。其中熵編碼和參數(shù)建模提高清晰話音環(huán)境下的性能。熵編碼生成在一個(gè)消息中用一個(gè)碼元表示的信息的平均數(shù)量，并且是用于生成該消息的概率模型(參數(shù)建模)的函數(shù)。增加模型的復(fù)雜性以便模型可以更好地反映信源碼元在始發(fā)消息中的實(shí)際分布從而減小消息。這個(gè)技術(shù)能夠提高有聲話音周期頻譜結(jié)構(gòu)的編碼。
圖5是一個(gè)總方框/流程圖，表示根據(jù)本發(fā)明用于編碼音頻信號(hào)的系統(tǒng)。圖6是一個(gè)總方框/流程圖，表示根據(jù)本發(fā)明用于解碼音頻信號(hào)的系統(tǒng)。一般來(lái)說(shuō)，輸入信號(hào)x(n)的重疊塊由編碼器500通過(guò)非均勻調(diào)制重疊雙正交轉(zhuǎn)換(NMLBT)510轉(zhuǎn)換到頻域。NMLBT510本質(zhì)上是帶有不同分析和合成窗口的調(diào)制重疊轉(zhuǎn)換(MLT)，其中為了更好的時(shí)間分辨率組合高頻子帶。根據(jù)信號(hào)頻譜，高頻子帶的組合可以被打開(kāi)或關(guān)閉，并且一個(gè)比特的標(biāo)記被作為圖6解碼器的輔助信息發(fā)送。如下面更加詳細(xì)的討論，不修改NMLBT分析和合成窗口。
如圖5所示，利用均勻量化器512量化變換系數(shù)X(k)。在速率失真的意義上，均勻量化器512非常接近于最佳，如果它們的輸出被例如用行程長(zhǎng)度和Tunstall編碼器514進(jìn)行熵編碼(下文進(jìn)行詳細(xì)描述)?？梢允褂檬噶苛炕?VQ)，但與熵編碼器514相比性能增加較小。盡管雙VQ或其它結(jié)構(gòu)的VQ可以用于降低復(fù)雜性，它們比標(biāo)量量化依然復(fù)雜得多。
在任意給定比特率上最小化失真的最佳速率分配規(guī)則將為子帶/轉(zhuǎn)化系數(shù)指定相同的步長(zhǎng)，生成量化白噪聲。這生成最大的信噪比(SNR)，但不是最佳聽(tīng)覺(jué)質(zhì)量。加權(quán)函數(shù)計(jì)算516在量化之前用X(k)/w(k)替換X(k),k=0,1,…,M-1，其中M是子帶數(shù)，通常是256和1024之間2的冪。在圖6的解碼器上，加權(quán)通過(guò)X^(k)&LeftArrow;X^(k)w(k)]]>重新構(gòu)建的變換系數(shù)。因而，量化噪聲將跟隨通過(guò)加權(quán)函數(shù)定義的頻譜w(k)。下面的段落描述w(k)的詳細(xì)計(jì)算。利用熵編碼器514熵編碼變換系數(shù)。執(zhí)行參數(shù)建模并由熵編碼器514使用結(jié)果以增加熵編碼器514的效率。而且，步長(zhǎng)調(diào)整518被用于調(diào)整步長(zhǎng)。
可以從圖5推出圖6解碼器的操作。除了對(duì)應(yīng)于量化變換系數(shù)的編碼比特之外，圖6的解碼器還需要圖5所示的輔助信息，以便它可以確定用于反NMLBT的單/多分辨率標(biāo)志、熵解碼表、量化步長(zhǎng)、和加權(quán)函數(shù)w(k)。
組件細(xì)節(jié)和操作再次參考圖3和圖5，通過(guò)諸如重疊轉(zhuǎn)換處理器的轉(zhuǎn)換處理器將輸入音頻信號(hào)分解成頻率分量。這時(shí)因?yàn)楸M管諸如離散余弦轉(zhuǎn)換(DCT和DCT-Ⅳ)的其它轉(zhuǎn)換處理器是用于頻域信號(hào)分解的有用工具，它們受塊人工噪聲的影響。例如，由DCT和DCT-Ⅳ轉(zhuǎn)換處理器以一些指定方式量化、濾波、降噪等處理變換系數(shù)X(k)。
通過(guò)對(duì)這些修改后系數(shù)施加逆轉(zhuǎn)換獲得重建的信號(hào)塊。當(dāng)這些重建的信號(hào)塊被一起傳遞以構(gòu)成重建信號(hào)(例如解碼音頻或視頻信號(hào))時(shí)，在塊邊界上將存在不連續(xù)性。與此相反，調(diào)制重疊轉(zhuǎn)換(MLT)通過(guò)將基本函數(shù)的長(zhǎng)度擴(kuò)展為塊大小的兩倍即2M來(lái)消除這種不連續(xù)性。圖7是表示根據(jù)本發(fā)明的調(diào)制重疊轉(zhuǎn)換的流程圖。
通過(guò)以下述方式擴(kuò)展DCT-Ⅳ函數(shù)并將它們乘以一個(gè)合適的窗口獲得MLT的基本函數(shù)，ank=h(n)cos[(n+M+12)(k+12)πM]]]>其中k從0變化到M-1，而n從0變化到2M-1。
因此，最好使用MLT，因?yàn)樗鼈兛赡墚a(chǎn)生正交或雙正交基礎(chǔ)，并可以將信號(hào)的短期分解實(shí)現(xiàn)為重疊窗口余弦函數(shù)的疊加。這種函數(shù)為信號(hào)的定位頻率分解提供比DCT或DCT-Ⅳ更加有效的工具。MLT是允許理想重建的余弦調(diào)制濾波器組的特殊形式。例如，根據(jù)信號(hào)的MLT系數(shù)可以精確地恢復(fù)信號(hào)。而且，MLT并不具有塊人工噪聲，即MLT提供在其邊界上平滑衰變到零的重建信號(hào)，避免了沿塊邊界的不連續(xù)性。另外，從速率/失真意義上說(shuō)，對(duì)于各種信號(hào)的轉(zhuǎn)換編碼，MLT具有幾乎最佳的性能。
具體地說(shuō)，MLT基于奇數(shù)棧式時(shí)域混疊消除(TDAC)濾波器組。一般來(lái)說(shuō)，用于包含輸入信號(hào)x(n),n=0,1,2,…,2M-1的2M個(gè)抽樣的一個(gè)矢量(通過(guò)移位輸入信號(hào)最后M個(gè)抽樣，并將它們與先前獲取的M個(gè)抽樣組合來(lái)確定)的標(biāo)準(zhǔn)MLT轉(zhuǎn)換被轉(zhuǎn)換成包含M個(gè)系數(shù)X(k),k=0,1,2,…,M-1的另一個(gè)矢量。該轉(zhuǎn)換可以用標(biāo)準(zhǔn)MLT計(jì)算來(lái)重新定義X(k)&equiv;2MΣn=02M-1x(n)h(n)cos[(n+M+12)(k+12)πM]]]>其中h(n)是MLT窗口。
窗口函數(shù)主要為降低塊效應(yīng)而使用。例如，使用重疊轉(zhuǎn)換的信號(hào)處理(Signal Processing with Lapped Transforms),H.S.Malvar,Boston:Artech出版社1992年，在此引用作為參考，論證了以下述形式通過(guò)余弦調(diào)制平滑窗口算子獲取其基本函數(shù)Pa(n,k)=ha(n)2Mcos[(n+M+12)(k+12)πM]]]>Ps(n,k)=hs(n)2Mcos[(n+M+12)(k+12)πM]---(1)]]>其中pa(n,k)和ps(n,k)是用于直接(分析)和反向(合成)轉(zhuǎn)換的基本函數(shù)，ha(n)和hs(n)分別是分析和合成窗口。時(shí)間索引n從0變化到2M-1和頻率索引k從0變化到M-1，其中M是塊大小。MLT是TDAC，為其窗口生成具有最大DC密度的重疊轉(zhuǎn)換，即ha(n)=hs(n)=sin[(n+12)π2M]---(2)]]>直接轉(zhuǎn)換矩陣Pa在第n行k列具有項(xiàng)目pa(n,k)。類似地，逆變換矩陣具有項(xiàng)目ps(n,k)。對(duì)于信號(hào)x(n)的2M輸入抽樣的塊x，通過(guò)X=PaTx計(jì)算其變換系數(shù)的相應(yīng)矢量X。對(duì)于處理變換系數(shù)的矢量Y，通過(guò)y=PsY給出重建的2M抽樣矢量y。重建矢量y與M抽樣重疊疊加，生成重建信號(hào)y(n)。
可以比較MLT與DCT-Ⅳ。對(duì)于信號(hào)u(n)，其長(zhǎng)度-M正交DCT-Ⅳ通過(guò)下式定義U(k)&equiv;2MΣn=0M-1u(n)cos[(n+12)(k+12)πM]---(3)]]>構(gòu)成DCT-Ⅳ基礎(chǔ)的余弦函數(shù)的頻率是(k+1/2)π/M，與MLT的相同。因此，存在兩個(gè)轉(zhuǎn)換之間的簡(jiǎn)單關(guān)系。例如對(duì)于具有MLT系數(shù)X(k)的信號(hào)X(n)，它可以被表示為X(k)=U(k)，如果u(n)涉及x(n),n=0,1,…,M/2-1，通過(guò)u(n+M/2)=ΔM{x(M-1-n)ha(M-1-n)-x(n)ha(n)}u(M/2-1-n)=x(M-1-n)ha(n)+x(n)ha(M-1-n)其中ΔM{·}是M-抽樣(一塊)延遲算子。為了說(shuō)明性的目的，通過(guò)組合DCT-Ⅳ與上述，可以根據(jù)標(biāo)準(zhǔn)DCT-Ⅳ計(jì)算MLT?？梢砸灶愃频姆绞将@取一個(gè)反向MLT。例如，如果Y(k)=X(k)，即沒(méi)有任何變換系數(shù)(或子帶信號(hào))的修改，則級(jí)聯(lián)直接和反向MLT處理信號(hào)產(chǎn)生y(n)=x(n-2M)，其中M個(gè)延遲抽樣來(lái)自塊算子，另外M個(gè)抽樣來(lái)自MLT的內(nèi)部重疊算子(z-M算子)。
調(diào)制重疊雙正交轉(zhuǎn)換在本發(fā)明中，實(shí)際的最佳轉(zhuǎn)換是調(diào)制重疊雙正交轉(zhuǎn)換(MLBT)。圖7是表示根據(jù)本發(fā)明的調(diào)制重疊雙正交轉(zhuǎn)換的流程圖。MLBT是調(diào)制重疊轉(zhuǎn)換(MLT)的變型。與MLT類似，MLBT窗口長(zhǎng)度是塊大小的兩倍。它產(chǎn)生最大編碼增益，但它的形狀針對(duì)初始MLT正弦窗口進(jìn)行了稍微修改。為了生成在等式(1)中用公式表示的雙正交MLT，需要放松相同分析和合成窗口的限制。假設(shè)一個(gè)對(duì)稱合成窗口，并將雙正交條件應(yīng)用于等式(1)，等式(1)生成調(diào)制重疊雙正交轉(zhuǎn)換(MLBT)，如果分析窗口滿足一般化條件ha(n)=hs(n)hs2(n)+hs2(n+M),n=0,1,...,M-1---(4)]]>和ha(n)=ha(2M-1-n)。
可以為最大轉(zhuǎn)換編碼增益最佳化該窗口，結(jié)果是最佳窗口收斂到等式(2)的MLT窗口。這允許MBLT改善合成基本函數(shù)響應(yīng)的頻率選擇性，并被用作非均勻MLT的標(biāo)準(zhǔn)塊(在下文進(jìn)行詳細(xì)說(shuō)明)。MBLT可以被定義為帶有合成窗口的等式(1)的調(diào)制重疊轉(zhuǎn)換hs(n)=1-cos[(n+12M)απ]+β2+β,n=0,1,...,M-1---(5)]]>和分析窗口用等式(4)定義。
參數(shù)α主要控制窗口寬度，而β控制它的結(jié)果值。MLBT與MLT相比的主要優(yōu)點(diǎn)是合成函數(shù)阻帶衰減的增加，以分析函數(shù)阻帶衰減的降低為代價(jià)。
NMLBT和分辨率切換典型轉(zhuǎn)換編碼器的子帶數(shù)M必須足夠大以提供足夠的頻率分辨率，這經(jīng)常導(dǎo)致塊大小在20-80毫秒的范圍內(nèi)變化。這導(dǎo)致對(duì)瞬變信號(hào)很差的響應(yīng)，帶有延續(xù)整個(gè)塊的噪聲模式，包括前回聲。在這種瞬變信號(hào)過(guò)程中不需要很好的頻率分辨率，因此，減輕該問(wèn)題的一種方式是為這種聲音使用較小的M。為調(diào)制重疊轉(zhuǎn)換切換塊大小并不困難，但是可能引入附加的編碼延遲。一種可選方法是使用分級(jí)轉(zhuǎn)換或樹(shù)形結(jié)構(gòu)濾波器組，類似于離散小波變換。這種分解實(shí)現(xiàn)一個(gè)新的非均勻子帶結(jié)構(gòu)，帶有用于高頻子帶的小塊和用于低頻子帶的大塊。分級(jí)(或級(jí)聯(lián))變換具有塊之間理想的時(shí)域分離，但是很差的頻域分離。例如，如果在子帶上QMF濾波器組繼之以MLT，位于QMF過(guò)渡帶附近的子帶可能具有低達(dá)10dB的阻帶抑制，一個(gè)在樹(shù)形結(jié)構(gòu)變換上也發(fā)生的問(wèn)題。
創(chuàng)建一個(gè)新的非均勻變換結(jié)構(gòu)以降低MLT/MLTBT的振鈴人工噪聲的可選和最佳方法可以通過(guò)修改時(shí)間-頻率分辨率實(shí)現(xiàn)。變換的時(shí)間-頻率分辨率的修改可以通過(guò)將附加變換算子應(yīng)用于變換系數(shù)組以生成一個(gè)變換系數(shù)的新組合，它生成一個(gè)特定的非均勻變換MLBT(NMLBT)。圖7是表示根據(jù)本發(fā)明的非均勻調(diào)制重疊雙正交變換的簡(jiǎn)化方框圖。
圖8是表示根據(jù)本發(fā)明的非均勻調(diào)制重疊雙正交變換的操作的簡(jiǎn)化方框圖。具體地說(shuō)，通過(guò)線性地組合一些子帶系數(shù)X(k)可以生成一種非均勻MBLT，并且新子帶的濾波器具有降低時(shí)間寬度的脈沖響應(yīng)。一個(gè)例子是X′(2r)=X(2r)+X(2r+1)X′(2r+1)=X′(2r)-X(2r+1)其中以頻率(2r+1/2)π/M和(2r+3/2)π/M為中心的子帶信號(hào)X(2r)和X(2r+1)被組合以生成兩個(gè)新的子帶信號(hào)X’(2r)和X’(2r+1)。這兩個(gè)新的子帶信號(hào)都以(r+1)π/M為中心，但是一個(gè)具有以塊左側(cè)為中心的脈沖響應(yīng)，而另一個(gè)具有以塊右側(cè)為中心的脈沖響應(yīng)。因此，我們舍棄頻率分辨率來(lái)增加時(shí)間分辨率。圖9圖示非均勻調(diào)制重疊雙正交變換合成基本函數(shù)的一個(gè)例子。
這種通過(guò)組合變換系數(shù)的分辨率轉(zhuǎn)換的方法的主要優(yōu)點(diǎn)在于時(shí)間分辨率更窄的新的子帶信號(hào)可以在計(jì)算輸入信號(hào)的MLT之后計(jì)算。因此，不需要轉(zhuǎn)換MLT窗口函數(shù)或塊大小M。它還允許信號(hào)增強(qiáng)算子，例如降噪器或回波消除器，以在子帶合并算子之前對(duì)初始變換/子帶系數(shù)進(jìn)行操作。這允許將這些信號(hào)增強(qiáng)器集成到編解碼器中。
可以選擇地，并且最好是，如果通過(guò)因子4提高時(shí)間分辨率可以實(shí)現(xiàn)更好的結(jié)果。這導(dǎo)致有效寬度為四分之一塊大小的子帶濾波器脈沖響應(yīng)，具有結(jié)構(gòu) 其中參數(shù)的最佳選擇是a=0.5412, c=a2,r=M0,M0+1,…，并且M0一般被設(shè)置為M/16(這意味著分辨率轉(zhuǎn)換被應(yīng)用于子帶的75％-從頻率0.25π到π)。圖10和圖11表示與這種結(jié)構(gòu)對(duì)應(yīng)的合成基本函數(shù)的曲線。可以看出時(shí)間分離不理想，但是它降低了瞬變信號(hào)的錯(cuò)誤擴(kuò)散。
上述子帶組合矩陣的自動(dòng)轉(zhuǎn)換可以通過(guò)分析輸入塊波形在編碼器上進(jìn)行。如果塊中的概率級(jí)別顯著地變化，組合矩陣被打開(kāi)。轉(zhuǎn)換標(biāo)志作為輔助信息被發(fā)送給接收機(jī)，所以它可以使用逆4×4算子來(lái)恢復(fù)MLT系數(shù)。一種可選的轉(zhuǎn)換方法是分析MLT系數(shù)X(k)之間的功率分配，并在檢測(cè)到高頻類噪聲模型時(shí)轉(zhuǎn)換組合矩陣。
圖12是表示根據(jù)本發(fā)明執(zhí)行分辨率轉(zhuǎn)換的最佳系統(tǒng)和方法的流程圖。如圖12所示，在每個(gè)塊上確定分辨率轉(zhuǎn)換，并將輔助信息的一個(gè)比特發(fā)送給解碼器以通知開(kāi)關(guān)是接通還是斷開(kāi)。在最佳實(shí)施中，當(dāng)用于給定塊的高頻能量超過(guò)低頻能量預(yù)定閾值時(shí)，編碼器將開(kāi)關(guān)接通?；旧?，編碼器通過(guò)測(cè)量在高頻和低頻上的信號(hào)功率來(lái)控制分辨率轉(zhuǎn)換。如果高頻功率(PH)與低頻功率(PL)之比超過(guò)預(yù)定閾值，使用步驟2中所述的子帶組合矩陣，如圖12所示。
頻譜加權(quán)圖13是表示根據(jù)本發(fā)明用于執(zhí)行加權(quán)函數(shù)計(jì)算和部分白化的系統(tǒng)和方法的流程圖。再次參考圖3、圖5和圖13，圖示一種用于執(zhí)行頻譜加權(quán)的簡(jiǎn)單技術(shù)。根據(jù)本發(fā)明，可以執(zhí)行頻譜加權(quán)以盡可能多地屏蔽量化噪聲。目的是生成盡可能清晰的重建信號(hào)，即無(wú)法區(qū)分解碼信號(hào)和原始信號(hào)。這可以通過(guò)用函數(shù)w(k)加權(quán)變換系數(shù)來(lái)實(shí)現(xiàn)，該函數(shù)依靠人耳的屏蔽特性。這種加權(quán)的意義是形成人耳覺(jué)察程度最低的量化噪聲，因而屏蔽了量化噪聲。而且，簡(jiǎn)化聽(tīng)覺(jué)加權(quán)函數(shù)的計(jì)算以避免通常使用的耗費(fèi)時(shí)間的卷積。
對(duì)于給定的輸入頻譜{X(k)}，加權(quán)函數(shù)w(k)理論上沿著一個(gè)聽(tīng)覺(jué)屏蔽閾值曲線。最好以Bark標(biāo)度計(jì)算屏蔽閾值。Bark標(biāo)度(scale)是模擬人耳臨界頻帶的準(zhǔn)對(duì)數(shù)標(biāo)度。在高編碼率上，例如3比特/抽樣，對(duì)于所有的Bark子帶，結(jié)果量化噪聲可能低于量化閾值從而生成清晰的重建。然而，在低編碼速率上，例如1比特/抽樣，在屏蔽閾值下隱藏所有的量化噪聲是困難的。在這種情況下，最好防止量化噪聲在所有子帶中被抬高得高于屏蔽閾值相同的分貝數(shù)(dB)，因?yàn)榈皖l未屏蔽噪聲通常更加有害。這可以通過(guò)用新的函數(shù)W(k)α替換初始加權(quán)函數(shù)W(k)來(lái)實(shí)現(xiàn)，其中α是通常被設(shè)置得低于1的參數(shù)，以建立加權(quán)函數(shù)的部分白化。
一般來(lái)說(shuō)，參考圖13、圖3、圖4和圖5，圖13表示聽(tīng)覺(jué)閾值曲線的簡(jiǎn)單計(jì)算，以及用于計(jì)算步長(zhǎng)的部分白化效應(yīng)。圖13是圖3的方框312和316、圖4的方框414、416、418和圖5的方框516的詳細(xì)方框圖。參考圖13，在MLT計(jì)算和NMLBT修改之后，變換系數(shù)X(k)首先被平方模塊接收以將變換系數(shù)平方(方框1310)。接著，閾值模塊計(jì)算Bark頻譜閾值(方框1312)，該閾值由擴(kuò)展模塊用于執(zhí)行Bark閾值擴(kuò)展(方框1314)和生成聽(tīng)覺(jué)閾值。然后，調(diào)整模塊將聽(tīng)覺(jué)閾值調(diào)整為絕對(duì)閾值以生成一個(gè)理想加權(quán)函數(shù)(方框1316)。最后，執(zhí)行部分白化效應(yīng)以便將理想加權(quán)函數(shù)提高到第α功率從而生成最終的加權(quán)函數(shù)(方框1318)。
具體地說(shuō)，平方模塊生成P(i)，在第i頻帶上的瞬時(shí)功率，它由閾值模塊接收用于計(jì)算屏蔽閾值wMT(k)，(如圖13的方框1310所示)。這可以下述方式實(shí)現(xiàn)一開(kāi)始定義Bark頻譜頻率上限Bh(i),i=1,2,…,25(可以使用的常規(guī)數(shù)學(xué)策略)，以便Bark子帶上限是(單位Hz)Bh=[100 200 300 400 510 630 770 920 1080 1270 1480 1720 2000]；Bh=[Bh 2320 2700 31 50 3700 4400 5300 6400 7700 9500 1200015500 22200]；接著，通過(guò)平均落入第i Bark頻帶的所有子帶的信號(hào)功率來(lái)計(jì)算第i Bark頻譜功率Pas(i)。然后通過(guò)Tr(i)=Pas(i)-Rfac計(jì)算帶內(nèi)屏蔽閾值Tr(i)(所有數(shù)值的單位都是dB)。參數(shù)Rfac，它最好被設(shè)置為7dB，確定帶內(nèi)屏蔽閾值級(jí)。這可以通過(guò)一個(gè)數(shù)學(xué)循環(huán)程序來(lái)實(shí)現(xiàn)以生成Bark功率頻譜和Bark中央閾值。
如圖13的方框1314所示，隨后計(jì)算一個(gè)簡(jiǎn)化Bark閾值頻譜。圖14圖示根據(jù)本發(fā)明的簡(jiǎn)化Bark閾值計(jì)算。最好通過(guò)考慮穿越臨界頻帶的橫向屏蔽來(lái)計(jì)算“頻譜Bark閾值”。即，并不如前面的方法所建議的利用矩陣算子執(zhí)行一個(gè)完整卷積，本發(fā)明使用通過(guò)卷積所有Bark頻譜值與三角衰變生成的曲線中的最大閾值曲線。三角衰變對(duì)于左側(cè)是-25dB/Bark(擴(kuò)展到低頻)和對(duì)于右側(cè)是+10dB/Bark(擴(kuò)展到高頻)。用于Bark頻譜閾值擴(kuò)展的本發(fā)明的方法具有復(fù)雜度O(Lsb)，其中Lsb是由信號(hào)帶寬覆蓋的Bark子帶數(shù)目，而前面的方法一般具有復(fù)雜度O(Lsb2)。
如圖13的方框1316所示，然后通過(guò)比較擴(kuò)展Bark閾值與絕對(duì)Fletcher-Munson閾值，并將兩者中的較高者用于所有的Bark子帶，調(diào)整聽(tīng)覺(jué)閾值。這可以通過(guò)一個(gè)簡(jiǎn)單程序來(lái)實(shí)現(xiàn)，例如通過(guò)調(diào)整考慮絕對(duì)屏蔽的閾值。在一個(gè)程序中，閾值向量(多達(dá)25個(gè)每塊)被量化成預(yù)定精度級(jí)別，一般設(shè)置為2.5dB，并且2至4比特/閾值被差分編碼。
對(duì)于加權(quán)函數(shù)的部分白化，如圖13的方框1318所示，以較低的速率，例如1比特/抽樣，不可能將所有的量化噪聲隱藏在屏蔽閾值之下。在這種特定情況下，最好不要將量化噪聲在所有子帶提高得高于屏蔽閾值相同的db值，因?yàn)榈皖l未屏蔽噪聲通常更加有害。因此，假設(shè)wMT(k)是如上計(jì)算的加權(quán)，本發(fā)明的編碼器使用最終的加權(quán)
w(k)=[wMT(k)]α其中α是可以從低速率上的0.5變化到高速率上的1的參數(shù)，并最好使用屏蔽閾值的分?jǐn)?shù)冪。在先前的聽(tīng)覺(jué)編碼器中，在所有頻率上相等地將量化噪聲提高得高于屏蔽閾值，如同降低比特率。相反，使用本發(fā)明，例如，可以將部分白化參數(shù)α設(shè)置為0至1之間的一個(gè)數(shù)(優(yōu)選地，α=0.5)。這導(dǎo)致噪聲頻譜在其原先較低的頻率上被提得很高。換句話說(shuō)，當(dāng)α＜1時(shí)噪聲頻譜峰值被衰減。
接著，用于表示w′(k)的輔助信息(side frequency)的數(shù)值取決于抽樣頻率fs。例如，對(duì)于fs=8kHz，需要大約17Bark譜值，對(duì)于fs=44.1kHz，需要大約25Bark譜值。假設(shè)-10dB/Bark頻帶的到更高子帶的段間擴(kuò)展和用2.5dB精度的差分編碼，需要大約3比特/Bark系數(shù)。可以利用標(biāo)量量化器量化加權(quán)變換系數(shù)(從連續(xù)值變換成離散值)。
具體地說(shuō)，對(duì)于標(biāo)量量化，最終加權(quán)函數(shù)w(k)確定將最不容易覺(jué)察的量化噪聲的頻譜形狀，根據(jù)上面討論的模型。因此，每個(gè)子帶頻率系數(shù)X(k)應(yīng)當(dāng)用與w(k)成比例的步長(zhǎng)量化。一個(gè)等效程序?qū)⑺械腦(k)除以加權(quán)函數(shù)，然后對(duì)所有系數(shù)X(k)以相同步長(zhǎng)進(jìn)行均勻量化。一個(gè)典型的實(shí)現(xiàn)是執(zhí)行下述Xr=round(X/dt)；％quantize(量化)Xqr=(Xr+Rqnoise)*dt；％scale back,adding pseudo-randomnoise(量化回歸，加入偽隨機(jī)噪聲)其中dt是量化步長(zhǎng)。向量Rqnoise由均勻分布在[-γ,γ]之間的偽隨機(jī)變量組成，其中γ是最好在0.1和0.5倍量化步長(zhǎng)dt之間選擇。通過(guò)相加少量噪聲和重建系數(shù)(一個(gè)解碼器操作)，可以減少因頻譜分量丟失導(dǎo)致的人工噪聲。這可以被稱為攔動(dòng)、偽隨機(jī)量化或噪聲填充。
編碼在信息理論中典型的離散信源編碼問(wèn)題是以最經(jīng)濟(jì)的編碼表示信源碼元的問(wèn)題。例如，假設(shè)信源在每個(gè)瞬間i上發(fā)送碼元si，并且碼元si屬于字母表Z。并且，假設(shè)碼元si和si是統(tǒng)計(jì)獨(dú)立的，具有概率分布Prob{si=zn}=Pn，其中n=0,1,…,N-1，并且N是字母表大小，即可能的碼元數(shù)。因此，編碼設(shè)計(jì)問(wèn)題是發(fā)現(xiàn)利用信道碼元通常是比特來(lái)表示碼元si的方法。
可以使用普通編碼為每個(gè)可能碼元值z(mì)n分配一個(gè)M比特模式，如下表所示
在這種情況下，編碼使用M/碼元。顯然一個(gè)唯一的表示需要M≥log2(N)。
更好的編碼是給每個(gè)信源碼元分配長(zhǎng)度可變的碼字。較短的碼字被分配給概率高的碼元；較長(zhǎng)的碼字被分配給概率較低所碼元。舉一個(gè)例子，假設(shè)一個(gè)信源具有字母表Z={a,b,c,d}和概率pa=1/2,pb=pc=pd=1/6。用于該信源的一個(gè)可能的長(zhǎng)度可變編碼將是
對(duì)于長(zhǎng)消息，預(yù)期編碼長(zhǎng)度L由L=∑pnln給出，以比特/信源碼元，在此ln是編碼碼元zn的長(zhǎng)度。相對(duì)于將需要2比特/碼元的直接二進(jìn)制編碼的編碼長(zhǎng)度，這樣更好。
在上述例子中，使用公知的哈夫曼算法生成碼字。最終的碼字分配被稱為用于該信源的哈夫曼編碼。在最小化在所有可能的長(zhǎng)度可變碼字中預(yù)期編碼長(zhǎng)度L的意義上，哈夫曼編碼是最佳的。熵是信源內(nèi)部信息內(nèi)容的測(cè)量值。通過(guò)E=-∑pnlog2(pn)以比特每碼元來(lái)測(cè)量熵。編碼理論規(guī)定用于任一編碼的預(yù)期編碼長(zhǎng)度不能少于信源熵。例如上述信源，熵是E=-(1/2)log2(1/2)-(1/2)log2(1/6)=1.793比特/碼元?？梢钥闯龉蚵幋a長(zhǎng)度非常接近于最佳。
另一種可能編碼是將固定長(zhǎng)度的碼字分配給信源碼元串。這種串具有可變長(zhǎng)度，并且編碼效率得自頻繁出現(xiàn)的長(zhǎng)串可以僅用一個(gè)碼字來(lái)替代。一個(gè)例子是下表中的編碼。對(duì)于該編碼，碼字始終具有四個(gè)比特，但它被用于表示不同長(zhǎng)度的串。根據(jù)上表中的概率能夠輕易地計(jì)算出平均信源串長(zhǎng)度，將是K=25/12=2.083。因?yàn)檫@些串用四個(gè)比特表示，比特速率是4*12/25=1.92比特/碼元。
在上述例子中，使用B.P.Tunstall的標(biāo)題為“無(wú)噪聲壓縮編碼合成”(博士論文，喬治亞州大學(xué)，Technol，喬治亞州亞特蘭大市，1967年)參考文獻(xiàn)中的技術(shù)確定用每個(gè)碼字(即字符串表)映射字符串的選擇。使用該表的編碼稱作Tunstall編碼。在最小化在所有可能的長(zhǎng)度可變到固定編碼中的預(yù)期編碼長(zhǎng)度L的意義上，可以看出Tunstall編碼是最佳的，Tunstall編碼可以被視為雙哈夫曼編碼。
在這個(gè)例子中，Tunstall編碼可能沒(méi)有哈夫曼編碼有效，然而，可以表明Tunstall編碼的性能隨著編碼長(zhǎng)度的增加即隨著字符串表長(zhǎng)度的增加將接近信源的熵。根據(jù)本發(fā)明，Tunstall編碼具有相對(duì)于哈夫曼編碼的優(yōu)點(diǎn)即更快的解碼。這是因?yàn)槊總€(gè)碼字始終具有相同的比特?cái)?shù)，因此更容易分析(在下文詳細(xì)討論)。
因此，如圖15所示，本發(fā)明最好使用熵編碼器，它可以是行程編碼器和Tunstall編碼器。即，圖15是表示根據(jù)本發(fā)明用于執(zhí)行熵編碼的系統(tǒng)和方法的流程圖。參考圖15和圖13，根據(jù)本發(fā)明，圖15表示最好是可變長(zhǎng)度熵編碼器的一個(gè)編碼器。
熵是由諸如概率模型的模型提供的信息表示(換句話說(shuō)，在消息中所包含信息的測(cè)量值)。最佳熵編碼器生成在一個(gè)消息中用一個(gè)碼元表示的平均信息量，并且是用于生成消息的概率模型的函數(shù)(在下文更詳細(xì)地說(shuō)明)。增加模型的復(fù)雜性以便模型更好地反映信源碼元在始發(fā)消息中的實(shí)際分配以減少消息。最佳熵編碼器利用行程編碼器繼之以諸如常規(guī)Tunstall編碼器的可變-固定長(zhǎng)度編碼器編碼量化系數(shù)。
行程編碼器為零序列降低碼元速率?？勺?固定長(zhǎng)度編碼器從信源輸出的可變長(zhǎng)度字符串的一個(gè)字典中映射到一組給定長(zhǎng)度的碼字?？勺?給定長(zhǎng)度編碼使用與信源輸出相關(guān)的統(tǒng)計(jì)。Tunstall編碼器使用可變-固定長(zhǎng)度編碼器為離散、無(wú)后效的信源最大化每字典字符串的信源字母預(yù)期數(shù)。換句話說(shuō)，輸入序列被劃分長(zhǎng)可變長(zhǎng)度塊以最大化平均消息長(zhǎng)度，并將每塊分配給固定長(zhǎng)度編碼。
先前的編碼器，例如ASPEC，使用對(duì)變換系數(shù)子集的行程編碼，并用諸如哈夫曼編碼器的矢量固定-可變長(zhǎng)度編碼器編碼非零系數(shù)。相反，本發(fā)明最好使用行程編碼器，它對(duì)由所有量化變換系數(shù)構(gòu)成的矢量執(zhí)行操作，實(shí)質(zhì)上是建立一個(gè)新碼元信源，其中量化零值的游程被用定義游程長(zhǎng)度的碼元替代。當(dāng)游程中零的數(shù)量在范圍[Rmin,Rmax]中時(shí)，本發(fā)明的行程編碼器用特定碼元替代零的游程。某種情況下，例如通過(guò)簡(jiǎn)單地設(shè)置Rmax＜Rmin可以關(guān)閉行程編碼器。
Tunstall編碼器沒(méi)有被廣泛地使用，因?yàn)榫幋a器的效率與信源碼元的概率模型直接相關(guān)。例如，當(dāng)設(shè)計(jì)用于壓縮的編碼時(shí)，如果對(duì)于信源有好的模型可以進(jìn)行更有效的編碼，即模型越好，壓縮越好。結(jié)果，為了有效地編碼，需要好的概率分布模型以為編碼器建立一個(gè)合適的字符串字典。如下所述，本發(fā)明使用一個(gè)充分概率模型，它使Tunstall編碼切實(shí)可行和有效。
一般來(lái)說(shuō)，如上所述，量化系數(shù)被用行程編碼器繼之以可變-固定長(zhǎng)度塊編碼器進(jìn)行編碼。具體地說(shuō)，首先，由計(jì)算模塊作為一個(gè)數(shù)據(jù)塊接收量化變換系數(shù)q(k)，用于為該塊計(jì)算最大絕對(duì)值(方框1510)。即，掃描所有量化值以確定最大幅值A(chǔ)=max｜Xr(k)｜。然后，由近似模塊量化A(方框1512)，該近似模塊用于使用vr≥A來(lái)近似A,vr是[4,512]范圍內(nèi)的2的冪。從而用3個(gè)比特編碼vr的值并發(fā)送解碼器。接著，替換模塊接收q(k)并連接到近似模塊，用表示游程長(zhǎng)度的可變-固定長(zhǎng)度編碼字典中定義(圖16的方框1610，將在下文詳細(xì)描述)的新碼元替代范圍[Rmin,Rmax]中零的游程(方框1514)。利用根據(jù)本發(fā)明的參數(shù)建模技術(shù)計(jì)算這個(gè)字典，如下文在圖16中描述中。隨后，用于諸如Tunstall編碼器的可變-固定長(zhǎng)度編碼器編碼結(jié)果值s(k)(方框1516)，以生成信道碼元(信息比特)。另外，因?yàn)殪鼐幋a器的效率直接取決于所用的概率模型，需要結(jié)合根據(jù)本發(fā)明的好的參數(shù)模型，如下文將詳細(xì)討論的。
參數(shù)建模圖16是表示根據(jù)本發(fā)明用于使用概率建模執(zhí)行熵編碼的系統(tǒng)和方法的流程圖。如上所述，熵編碼器的效率與概率模型的質(zhì)量直接相關(guān)。如圖16所示，編碼器需要一個(gè)輸入字符串的字典，它可以用簡(jiǎn)單算法來(lái)建立以根據(jù)碼元概率編輯一個(gè)輸入字符串字典(下文詳細(xì)說(shuō)明)。盡管可以使用算術(shù)編碼器或哈夫曼編碼器，諸如上述Tunstall編碼器的可變-固定長(zhǎng)度編碼器可以使用本發(fā)明的參數(shù)模型和簡(jiǎn)化解碼實(shí)現(xiàn)接近算術(shù)編碼器的效率。這是因?yàn)樗械腡unstall碼字具有相同的長(zhǎng)度，例如它可以被設(shè)置為一個(gè)字節(jié)。
而且，與諸如清晰話音的簡(jiǎn)單信號(hào)相比，當(dāng)前的變換編碼器通常對(duì)諸如音樂(lè)的復(fù)雜信號(hào)可以更加有效地執(zhí)行。這是因?yàn)榕c這種信號(hào)相關(guān)的更高的屏蔽級(jí)別和由當(dāng)前變換編碼器使用的熵編碼類型。因此，對(duì)于清晰話音，以低比特率工作的當(dāng)前變換編碼器可能不能再生優(yōu)良的諧波結(jié)構(gòu)。即對(duì)于有聲話音和以大約1比特/抽樣的速率，量化步長(zhǎng)足夠大以使大多數(shù)變換系數(shù)量化為零，除了基本聲域頻率的諧波之外。然而，使用上述熵編碼器和下述的參數(shù)建模，與諸如一階編碼器的當(dāng)前熵編碼系統(tǒng)所推算的結(jié)果相比，本發(fā)明能夠生成更好的結(jié)果。
一般來(lái)說(shuō)，本發(fā)明的參數(shù)建模使用量化和游程長(zhǎng)度編碼變換參數(shù)的概率分布函數(shù)(PDF)的模型。通常，使用熵編碼(一般是哈夫曼編碼)的編解碼器從音頻抽樣集中獲取的頻率分布圖中得出PDF(和它們相應(yīng)的量化表)。相反，本發(fā)明使用適合每個(gè)輸入塊的改進(jìn)拉普拉斯算子+指數(shù)概率密度，它允許更好的編碼性能。本發(fā)明的PDF模型的一個(gè)優(yōu)點(diǎn)是它的形狀由單個(gè)參數(shù)控制，該參數(shù)與量化系數(shù)的峰值直接相關(guān)。這導(dǎo)致不需要模型選擇的計(jì)算開(kāi)銷，并且實(shí)際上不需要給解碼器指定模型的開(kāi)銷。最后，本發(fā)明使用二進(jìn)制搜索程序確定最佳量化步長(zhǎng)。如下所述的二進(jìn)制搜索程序比先前的方法簡(jiǎn)單得多，先前的方法例如在每次迭代中執(zhí)行與屏蔽閾值相關(guān)的附加計(jì)算的方法。
具體地說(shuō)，本發(fā)明的概率分布模型最好使用一個(gè)改進(jìn)拉普拉斯算子+指數(shù)概率密度函數(shù)(PDF)以適合每個(gè)輸入塊的量化變換系數(shù)的頻率分布圖。PDF模型由在上述圖15的方框1510中所述的參數(shù)A控制(注意A用vr近似，如圖15的方框1512所示)。因此，PDF模型由下式定義
其中變換和游程編碼碼元s屬于下述字母表
對(duì)于用于步長(zhǎng)優(yōu)化的二進(jìn)制搜索，如上所述在標(biāo)量量化中使用的量化步長(zhǎng)dt控制創(chuàng)建保真度和比特速率之間的權(quán)衡。較小的量化步長(zhǎng)產(chǎn)生較好的保真度和較高的比特速率。對(duì)于固定速率應(yīng)用，需要重復(fù)調(diào)整量化步長(zhǎng)直到碼元編碼器(Tunstall)輸出上的比特速率盡可能地匹配希望的速率(而不超過(guò)它)。
幾種技術(shù)可用于調(diào)整步長(zhǎng)。一種技術(shù)包括1)開(kāi)始于量化步長(zhǎng)，用dB表示，dt=dt0，其中dt0是根據(jù)輸入定標(biāo)的一個(gè)參數(shù)。2)設(shè)置kdd=16，并檢查用dt獲得的速率。如果超過(guò)預(yù)算，通過(guò)dt=dt+kdd改變步長(zhǎng)，或者通過(guò)dt=dt-kdd改變它。3)重復(fù)上述步驟，在每次迭代時(shí)將kdd除以2(二進(jìn)制搜索)，直到kdd=1，即以1dB內(nèi)的精度確定最佳步長(zhǎng)。很容易看出這個(gè)程序可以生成最多64個(gè)不同步長(zhǎng)，因此，最佳步長(zhǎng)用7個(gè)比特表示并發(fā)送給解碼器。
再次參考圖6，表示根據(jù)本發(fā)明用于解碼音頻信號(hào)的系統(tǒng)的總方框/流程圖。該解碼器使用合適的相反處理步驟，如圖6所示。可變-固定長(zhǎng)度解碼器(例如Tunstall解碼器)和游程解碼模塊接收編碼比特流和與PDF范圍參數(shù)相關(guān)的輔助信息，用于恢復(fù)量化變換系數(shù)。連接到可變-固定游程長(zhǎng)度解碼器的均勻去量化模塊和游程長(zhǎng)度解碼模塊從均勻量化重建，用于恢復(fù)加權(quán)NMLBT變換系數(shù)的近似值。一個(gè)反加權(quán)模塊執(zhí)行反加權(quán)，用于使變換系數(shù)返回它們用于反變換的合適的標(biāo)度范圍。反NMLBT變換模塊將近似值恢復(fù)到初始信號(hào)塊?？捎眯诺辣忍芈试酱螅炕介L(zhǎng)越小，因而重建的保真度越好。
應(yīng)當(dāng)注意到因?yàn)閮蓚€(gè)原因使解碼器的計(jì)算復(fù)雜性比編碼器低。第一，諸如Tunstall解碼的可變-固定長(zhǎng)度解碼(僅需要表查找)比它的對(duì)應(yīng)編碼(需要串查找)快。第二，因?yàn)橐阎介L(zhǎng)，僅使用一次去量化(不需要循環(huán)，與編碼器不同)。然而，無(wú)論如何，對(duì)于編碼器和解碼器，在NMLBT中有大量的計(jì)算，它可以通過(guò)快速付立葉變換來(lái)有效地計(jì)算。
已經(jīng)為說(shuō)明和描述目的進(jìn)行了本發(fā)明的上述說(shuō)明。它將不是窮盡的，也不是將本發(fā)明限制到所公開(kāi)的具體形式。在上述教導(dǎo)的啟示下可以進(jìn)行多種修改和變化。本發(fā)明的范圍將由權(quán)利要求書(shū)而非詳細(xì)說(shuō)明來(lái)限制。
權(quán)利要求
1．一種在處理輸入信號(hào)的系統(tǒng)中用于編碼輸入信號(hào)的方法，包括接收輸入信號(hào)和通過(guò)第一分析和合成窗口計(jì)算一個(gè)調(diào)制的重疊變換以生成變換系數(shù)(400)；將調(diào)制的重疊交換轉(zhuǎn)換為一個(gè)非均勻的調(diào)制的重疊變換，具有高頻子帶和不同于第一分析和合成窗口的第二分析和合成窗口(410)；組合各高頻子帶(410)；根據(jù)預(yù)定的信號(hào)頻譜信息選擇性地開(kāi)關(guān)組合的高頻子帶以改善瞬態(tài)信號(hào)的性能(405)。
2．根據(jù)權(quán)利要求1的方法，還包括根據(jù)調(diào)制的重疊變換生成頻率分量(400)，其中將調(diào)制的重疊變換轉(zhuǎn)換為非均勻調(diào)制的重疊變換包括組合頻率分量以生成非均勻調(diào)制的重疊變換(410)。
3．根據(jù)權(quán)利要求1的方法，其中有選擇地開(kāi)關(guān)包括組合至少四個(gè)變換系數(shù)(405)。
4．根據(jù)權(quán)利要求1的方法，有選擇地開(kāi)關(guān)增強(qiáng)了時(shí)間分辨率(405)。
5．根據(jù)權(quán)利要求1的方法，其中調(diào)制的重疊變換包括第一時(shí)間分辨率信息(405)，其中該方法進(jìn)一步包括計(jì)算具有比第一時(shí)間分辨率信息窄的第二時(shí)間分辨率信息的第二子帶信號(hào)。
6．根據(jù)權(quán)利要求1的方法，其中有選擇地開(kāi)關(guān)包括分析調(diào)制的重疊變換中的功率分布，并當(dāng)檢測(cè)到高頻噪聲模型時(shí)接通開(kāi)關(guān)，當(dāng)未檢測(cè)到高頻噪聲模型時(shí)斷開(kāi)開(kāi)關(guān)(405)。
7．一種在處理輸入信號(hào)的系統(tǒng)中用于編碼輸入信號(hào)的方法，包括根據(jù)輸入信號(hào)生成變換系數(shù)(406)；頻譜加權(quán)和部分白化(418)該變換系數(shù)以屏蔽量化噪聲(412)；量化變換系數(shù)(420)；編碼量化的變換系數(shù)(422)；根據(jù)編碼的變換系數(shù)生成可能的輸入串的字典(424)；和利用可能的輸入串字典以增強(qiáng)量化的變換系數(shù)的編碼(422)。
8．根據(jù)權(quán)利要求7的方法，其中根據(jù)輸入信號(hào)生成變換系數(shù)進(jìn)一步包括生成和組合高頻子帶(410)，并且其中該方法還包括根據(jù)預(yù)定的信號(hào)頻譜信息有選擇地接通和斷開(kāi)組合的高頻子帶以改善瞬態(tài)信號(hào)的性能(405)。
9．根據(jù)權(quán)利要求7的方法，其中量化變換系數(shù)將連續(xù)值轉(zhuǎn)換為具有高適應(yīng)性的量化表的離散值(420)。
10．根據(jù)權(quán)利要求7的方法，還包括利用編碼的輸入信號(hào)(214)；和接收和去量化編碼的變換系數(shù)(216)以生成一個(gè)表示輸入信號(hào)的再生的輸出信號(hào)。
全文摘要
一種處理音頻信號(hào)和包括可升級(jí)音頻編碼器(300)和解碼器的系統(tǒng)和方法。編碼器(300)包括一個(gè)多分辨率變換處理器(310),例如調(diào)制重疊變換(MLT)變換處理器、加權(quán)處理器(312)、均勻量化器(314)、屏蔽閾值頻譜處理器(316)、熵編碼器(318)和通信設(shè)備(320),例如用于復(fù)用(組合)從上述組件接收的信號(hào)以在單一介質(zhì)上傳輸?shù)亩嗦窂?fù)用器(MUX)。編碼器(300)通過(guò)分辨率轉(zhuǎn)換、頻譜加權(quán)和數(shù)字編碼來(lái)編碼音頻信號(hào)。而且,執(zhí)行數(shù)字編碼信號(hào)的參數(shù)建模以增強(qiáng)編碼。解碼器包括用于解碼已編碼音頻信號(hào)的與編碼器(300)相反的組件。
文檔編號(hào)H04L12/20GK1312977SQ99809013
公開(kāi)日2001年9月12日申請(qǐng)日期1999年5月27日優(yōu)先權(quán)日1998年5月27日
發(fā)明者亨里克·S·馬瓦申請(qǐng)人:微軟公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：亨里克.S.馬瓦
技術(shù)所有人：微軟公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、王老師：1.數(shù)字信號(hào)處理 2.傳感器技術(shù)及應(yīng)用 3.機(jī)電一體化產(chǎn)品開(kāi)發(fā) 4.機(jī)械工程測(cè)試技術(shù) 5.逆向工程技術(shù)研究
2、王老師：1.機(jī)器人 2.嵌入式控制系統(tǒng)開(kāi)發(fā)
3、孫老師：1.振動(dòng)信號(hào)時(shí)頻分析理論與測(cè)試系統(tǒng)設(shè)計(jì) 2.汽車檢測(cè)系統(tǒng)設(shè)計(jì) 3.汽車電子控制系統(tǒng)設(shè)計(jì)
4、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
5、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

編碼器和解碼器的區(qū)別相關(guān)技術(shù)

編碼器和解碼器相關(guān)技術(shù)

視頻編碼器和解碼器相關(guān)技術(shù)

編碼器與解碼器相關(guān)技術(shù)

視頻編碼器與解碼器相關(guān)技術(shù)

音頻編碼器相關(guān)技術(shù)

音視頻編碼器相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

可升級(jí)的音頻編碼器和解碼器的制作方法