專利名稱:使用相位更新進(jìn)行正弦音頻編碼的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及音頻信號編碼和解碼。
背景技術(shù):
PCT專利申請No.WO00/79519-A1(律師案卷號PHN 017502)和2001年4月18日提交的PCT專利申請No.IB/02/01297(律師案卷號PHNL010252)中描述了一種參數(shù)編碼方案、尤其是一種正弦編碼器。在該編碼器中,音頻片斷或幀是由正弦編碼器使用用振幅、頻率和相位參數(shù)表示的許多正弦波來模擬。一旦表示片斷的正弦波被估計,那么就開始跟蹤算法。該算法試圖在逐片斷的基礎(chǔ)上將正弦波互相鏈接起來。從來自連續(xù)片斷的合適正弦波得到的正弦參數(shù)因此被鏈接起來從而獲得所謂的音軌。鏈接標(biāo)準(zhǔn)是基于兩個連續(xù)片斷的頻率,也可以使用振幅和/或相位信息。該信息被結(jié)合到確定要鏈接的正弦波的成本函數(shù)中。因此該跟蹤算法導(dǎo)致開始于特定時間點(diǎn)、在多個時間段上發(fā)展一定時間、然后停止的正弦音軌。
在這樣的現(xiàn)有技術(shù)的編碼器的實(shí)際實(shí)施中,對于正弦音軌,只有初始相位通過編碼器傳送并且在解碼器中,根據(jù)始發(fā)正弦波的相位和中間正弦波的頻率計算正弦音軌中的正弦波的連續(xù)相位。因此,例如,音軌中正弦波k的連續(xù)相位 可以由下式計算φ~k=mod2π(φ~k-1+L2(fk+fk-1))]]>等式1其中L是頻率的更新間隔(以秒為單位),典型地是以10毫秒的數(shù)量級,fk和fk-1分別是幀k和k-1的量化頻率(以rad/s為單位)。函數(shù)mod表示映射到-π和π之間的區(qū)間上的模運(yùn)算。另外,初始相位(k=1)是φ~1=φ1]]>,其中φ1是音軌中的始發(fā)正弦波的測量的和量化的相位。也可以是像在2001年10月26日提交的歐洲專利申請NO.01204062.2(律師案卷號PHNL010787)所顯示的其他相位連續(xù)函數(shù),其中卷積因子可以由編碼器確定并且在鏈接音軌時使用以及在解碼器中在連續(xù)相位的計算中使用。
但是,尤其對于長的音軌,很可能連續(xù)相位 會偏離所測量的相位φk直到它們彼此不再相像的程度。該偏離可能是由頻率估計、頻率量化和初始相位或者相位的線性連續(xù)的不精確而引入的。對于獨(dú)立的正弦音軌,該偏離或許聽不見。然而,在自然音頻中,正弦音軌之間的相位關(guān)系可能是非常重要的。同樣,音軌之間相位同步的丟失會引入如雙揚(yáng)聲器效應(yīng)、金屬聲音等等人工噪聲。
音軌之間相位同步的丟失在圖4中進(jìn)行了定量的顯示。在讀圖中,上面的記錄線表示了德國男性說話者產(chǎn)生的波形的一部分。中間的記錄線表示了使用現(xiàn)有技術(shù)的編/解碼器產(chǎn)生的相應(yīng)正弦信號的波形,而最底下的一條記錄線表示原始信號和正弦信號之間的差值。正如從誤差信號可以看到,正弦信號與原始信號不匹配。
本發(fā)明目的在于緩解該問題。
發(fā)明內(nèi)容
根據(jù)本發(fā)明提供一種根據(jù)權(quán)利要求1的方法。
在現(xiàn)有技術(shù)中,尤其在只使用連續(xù)相位信息解碼的長音軌情況下,連續(xù)相位和最初測量的相位之間的偏離將很大。根據(jù)本發(fā)明的相位更新方法大大消除了由使用連續(xù)相位進(jìn)行編碼和解碼的音軌所引入的人工噪聲。
圖1顯示了根據(jù)本發(fā)明的音頻編碼器的一個實(shí)施例;圖2顯示了根據(jù)本發(fā)明的音頻播放器的一個實(shí)施例;圖3顯示了根據(jù)本發(fā)明的包括音頻編碼器和音頻播放器的系統(tǒng);圖4顯示了與利用現(xiàn)有技術(shù)的編/解碼器產(chǎn)生的具有連續(xù)相位的正弦信號(中間的記錄線)相比的原始波形(最上面的記錄線)和誤差信號(最底下的記錄線);圖5顯示了與利用本發(fā)明優(yōu)選實(shí)施例的編/解碼器產(chǎn)生的具有相位更新的正弦信號(中間的記錄線)相比的原始波形(最上面的記錄線)和誤差信號(最底下的記錄線);和圖6顯示了德國男性說話者語音片斷的相位差(Δ)的分布。
優(yōu)選實(shí)施例詳述在本發(fā)明的一個優(yōu)選實(shí)施例、即圖1中,編碼器是WO01/69593-A1(律師案卷號PH-NL000120)中描述的那種類型的正弦編碼器。該編碼器的運(yùn)行和它的相應(yīng)的解碼器已經(jīng)有詳細(xì)的描述,這里僅僅提供與本發(fā)明有關(guān)的描述。
在之前的情況下和在該優(yōu)選實(shí)施例中,音頻編碼器1以某一采樣率對輸入音頻信號進(jìn)行采樣,結(jié)果產(chǎn)生音頻信號的數(shù)字表示法x(t)。然后編碼器1將采樣后的輸入信號分為3個分量瞬時信號分量、持續(xù)的確定性分量,和持續(xù)的隨機(jī)分量。音頻編碼器1包括瞬時編碼器11、正弦編碼器13和噪聲編碼器14。音頻編碼器任選地包括一個增益壓縮機(jī)制(GC)12。
瞬時編碼器11包括瞬時檢測器(TD)110,瞬時分析器(TA)111和瞬時合成器(TS)112。首先,信號x(t)進(jìn)入瞬時檢測器110。該檢測器110估計是否有瞬時信號分量及其位置。該信息被饋送到瞬時分析器111。如果確定了瞬時信號分量的位置,那么瞬時分析器111試圖提取瞬時信號分量(的主要部分)。瞬時分析器111使形狀函數(shù)與優(yōu)選地開始于所估計的起始位置的信號片斷相匹配,并通過使用諸如(少量)許多正弦分量來確定在形狀函數(shù)形式下的內(nèi)容。該信息被包含在瞬時編碼CT中,關(guān)于產(chǎn)生瞬時編碼CT的更詳細(xì)內(nèi)容在WO01/69593-A1中提供。
瞬時編碼CT被提供到瞬時合成器112。合成的瞬時信號分量在減法器16中從輸入信號x(t)中減去,結(jié)果產(chǎn)生信號x1。在省略GC12的情況下,x1=x2。
信號x2被提供到正弦編碼器13,在正弦編碼器13處信號在正弦分析器(SA)130中被分析,該正弦分析器確定(確定性的)正弦分量。因此可以看到雖然希望存在瞬時分析器,但這并不是必須的,而且本發(fā)明能夠在沒有這樣的分析器的情況下實(shí)現(xiàn)。在任何情況下,正弦編碼的最終結(jié)果是正弦代碼CS,說明示例性正弦代碼CS的傳統(tǒng)產(chǎn)生方法的更加詳細(xì)的例子在PCT專利申請NO.WO00/79519-A1(律師案卷號PHN 017502)中提供。
然而,簡而言之,這樣的正弦編碼器對作為從一個幀片斷鏈接到下一個幀片斷的正弦分量的音軌的輸入信號x2進(jìn)行編碼。從利用正弦編碼器產(chǎn)生的正弦代碼CS,該正弦信號分量通過正弦合成器(SS)131被重建。該信號在減法器17中從到正弦編碼器13的輸入x2中被減去,結(jié)果產(chǎn)生沒有(大的)瞬時信號分量和(主要的)確定性正弦分量的剩余信號x3。
音軌最初由在給定的片斷中開始的正弦波的起始頻率、起始振幅和起始相位表示(產(chǎn)生(birth))。如在2002年7月8日提交的歐洲專利申請NO.02077727.2(律師案卷號PHNL020598)中所公開的,起始相位對于非常短的音軌來說可能下降。在這種情況下,當(dāng)合成短音軌的開始片斷時,解碼器使用隨機(jī)起始相位。
在任何情況下,在產(chǎn)生之后,音軌在連續(xù)片斷中由頻率差和振幅差(連續(xù))表示,直到音軌結(jié)束(消滅)的片斷。在現(xiàn)有技術(shù)的編碼器的實(shí)際實(shí)施中,對于長的或短的音軌,相位信息根本不被編碼成連續(xù)的,并且使用連續(xù)相位重建重新產(chǎn)生相位信息。因為相位信息的傳輸大大地增加比特率,所以這能夠?qū)崿F(xiàn)。
根據(jù)本發(fā)明,為了限制當(dāng)分析信號時由正弦分析器130測量的相位(φk)和當(dāng)合成信號時由編碼合成器131和相應(yīng)的解碼合成器32產(chǎn)生的連續(xù)相位 之間的偏離,對于音軌中的每第n個幀,正弦分析器130產(chǎn)生相位更新。在該優(yōu)選實(shí)施例中,n是4。(如果音軌短于n幀,就不應(yīng)用相位更新并且只可以發(fā)送第一相位。)因此,在合成器131、32中,相位只能夠在這n個幀中偏離,之后相位又被恢復(fù)。
在第一實(shí)施例中,在音軌的生存期中,分析器130周期地量化所測量的相位(φk)并在傳送給解碼器的正弦代碼(CS)中包括該值。典型地,相位能夠用5比特被精確地和均勻地量化。公認(rèn)的,相位更新需要附加的信息來傳送給解碼器。對于典型的一組測試信號(音頻和語音),根據(jù)語音片斷,對于24kbit/s正弦編碼器來說,具有n=4的相位更新的比特率將增加1-3kbit/s。
將可以看到,有幾種方法能夠發(fā)送信息更新到解碼器。在第一實(shí)施例中,以和用來確定音軌中第一正弦波的相位相同的方式量化所測量的相位。對于發(fā)生相位更新的正弦波,即每n個幀,該量化后的相位(φk)被傳送。
發(fā)送相位更新到編碼器的第二種方法是為每個更新點(diǎn)量化相位差。這樣,用Δk表示的所測量的相位和連續(xù)相位之間的差值由下式計算Δk=mod2π(φk-φ~k)]]>等式(2)其中 由等式1定義,k是音軌中的幀號,φk表示量化后的相位。例如,當(dāng)k-1是n的倍數(shù)時,計算差值Δk。對于n=4,這就表示相位更新發(fā)生在相位差Δk被發(fā)送到解碼器的幀1,5,9等等。
在圖6中,顯示了德國男性說話者的第二實(shí)施例的Δ的分布。由于峰值分布在Δ值的小范圍附近,所以可以使用非均勻量化(熵編碼),這樣每次更新小于5bit能夠被用來提供與第一實(shí)施例相同的精確性。另外,可以使用與那些在自適應(yīng)差分脈沖編碼調(diào)制(PCM)中使用的方法相似的量化方法。在ADPCM中,代替在每一個采樣點(diǎn)上對絕對測量值進(jìn)行編碼,而對樣值之間的差值進(jìn)行編碼并且能動態(tài)地切換編碼范圍來補(bǔ)償振幅和頻率的變化。這樣,在該情況下,自適應(yīng)預(yù)測器(基于相位連續(xù))能夠用來改變相位或相位差量化范圍。此外,也能夠使由n表示的相位的更新率依賴于頻率。對于高頻,與較低頻率(較高的n)相比,能夠使用更高的所更新的相位(較小的n)。
在任何情況下,假設(shè)在包括考慮到相位更新的正弦分析后剩余的信號x3主要包括噪聲,并且優(yōu)選實(shí)施例的噪聲分析器14產(chǎn)生代表該噪聲的噪聲編碼CN,諸如在PCT專利申請WO01/89086-A1(律師案卷號PHNL000287)中所描述的。另外,可以看到這種分析器的使用對于實(shí)現(xiàn)本發(fā)明來說不是必要的,但仍然是該使用的補(bǔ)充。
最后,在復(fù)用器15中,組成包括編碼CT、CS和CN的音頻流AS。音頻流AS被提供到諸如數(shù)據(jù)總線、天線系統(tǒng)、存儲介質(zhì)等等。
圖2顯示了根據(jù)本發(fā)明的音頻播放器3。音頻流AS′,諸如由圖1的編碼器產(chǎn)生的,從數(shù)據(jù)總線、天線系統(tǒng)、存儲媒介等等獲得。音頻流AS在解復(fù)用器30中被解復(fù)用以獲得編碼CT、CS和CN。這些編碼被分別提供到瞬時合成器31、正弦合成器32和噪聲合成器33。根據(jù)瞬時編碼CT,瞬時信號分量在瞬時合成器31中被計算。如果瞬時編碼顯示形狀函數(shù),那么基于接收到的參數(shù)計算形狀。另外,基于正弦分量的頻率和振幅計算形狀內(nèi)容。如果瞬時編碼CT顯示了一個步驟,那么不計算瞬時值??偹矔r信號yT是所有瞬時值的總和。
正弦代碼CS用來產(chǎn)生信號yS,該信號被描述為給定片斷上的正弦波的總和。在現(xiàn)有技術(shù)的解碼器中,為了解碼頻率,正弦音軌中的正弦波的連續(xù)相位僅僅從始發(fā)正弦波的相位和中間正弦波的頻率中被計算。
在優(yōu)選實(shí)施例的解碼器中,或者使用發(fā)送的量化后的相位φk來計算相位差Δk,或者從比特流中直接獲得相位差Δk。
優(yōu)選實(shí)施例的合成器131,32也考慮了“相位跳變”的可能性。如果音軌中的兩個連續(xù)的相位之間的差值很大,那么就發(fā)生相位跳變。這可能會導(dǎo)致例如滴答聲的人工噪聲。因此,在優(yōu)選實(shí)施例中,合成器131,32在n幀上分配所測量的相位和連續(xù)相位之間的差值,因此在這種情況下,只進(jìn)行每個正弦波的小相位校正,這樣可以避免大的相位跳變。
因此,然后Δk在當(dāng)前幀和n-1個以前的幀上展開。這可以用例如線性的方式完成Δk′=ΔKn]]>等式3其中,K-n<k≤K。其中,K是發(fā)生相位更新的音軌中幀的數(shù)量。其他方法也是可能的。例如Δk′=(K-k+n)·ΔK(n+1)·n/2]]>等式4其中,K-n<k≤K。在這種情況下,更多相位校正被應(yīng)用在更靠近于相位更新點(diǎn)的正弦波上。
因此,當(dāng)根據(jù)本發(fā)明的優(yōu)選實(shí)施例合成信號的正弦分量時,通過考慮來自更新相位所需的等式4或5的插值后的相位差Δ′來計算連續(xù)相位φ~k-1=φ~k-1+L2(fk+fk-1)+Δk′]]>等式5通過在規(guī)則基礎(chǔ)上更新相位和對音軌中的正弦波進(jìn)行相位差插值,原始信號和帶有相位更新(這里n=4)的正弦信號之間的匹配被改善了。這在圖5中有所顯示,在圖5中可以看到相對于圖4,原始信號(最上面的記錄線)和正弦信號(中間的記錄線)之間的誤差信號(最底下的記錄線)被大大地減小。
同時,當(dāng)信號的正弦分量正被合成時,噪聲編碼CN被饋送到噪聲合成器NS33,該噪聲合成器NS33主要是濾波器,其具有近似于噪聲頻譜的頻率響應(yīng)。NS33通過使用噪聲編碼CN濾波白噪聲信號來產(chǎn)生重建后的噪聲yN。
總信號y(t)包括瞬時信號yT的總和和任何幅度解壓的產(chǎn)物(product)(g),以及正弦信號yS和噪聲信號yN的總和。音頻播放器包括2個加法器36和37,用來將相應(yīng)的信號相加??傂盘柋惶峁┑捷敵鰡卧?5,該輸出單元例如是揚(yáng)聲器。
在上述優(yōu)選實(shí)施例中,相位更新被描述為應(yīng)用到在更新之前所接收的n個幀上。然而,可以看到,本發(fā)明可以同樣地應(yīng)用到在n個幀的開始處包括相位更新信息,其中更新應(yīng)用于這n個幀。以這種方式,由于接收到該幀的信息,所以可以使用與等式5相似的等式確定相位。
進(jìn)一步的變化也可能包括,例如,發(fā)送關(guān)于絕對相位值或相位差是否將被作為相位更新信息來發(fā)送的指示符。以相似的方法,自適應(yīng)更新(變化的n)的使用可以在比特流中用信號通知。另外,可能希望在比特流中指示對于某些頻率范圍來說將不提供相位更新信息,因為可能會發(fā)現(xiàn)使用相位更新信息只有益于特定頻率范圍的聲音質(zhì)量。
圖3顯示了根據(jù)本發(fā)明的音頻系統(tǒng),該系統(tǒng)包括如圖1所示的音頻編碼器1和如圖2所示的音頻播放器3。這樣的系統(tǒng)提供播放和記錄特征。音頻流AS被從音頻編碼器通過通信信道2提供到音頻播放器,該通信信道2可以是無線連接、數(shù)據(jù)20總線或者存儲介質(zhì)。如果通信信道2是存儲介質(zhì),那么存儲介質(zhì)可以被固定在系統(tǒng)中或者也可以是可移動的磁盤、記憶棒等等。通信信道2可以是音頻系統(tǒng)的一部分,但通常在音頻系統(tǒng)之外。
本發(fā)明可以用在任何使用連續(xù)相位的正弦音頻編碼器中。同樣地,本發(fā)明可以用在任何使用該編碼器的地方。
應(yīng)當(dāng)指出,上述實(shí)施例是為了解釋本發(fā)明而不是為了限制本發(fā)明,本領(lǐng)域的普通技術(shù)人員將能夠設(shè)計出許多不偏離附帶的權(quán)利要求的范圍的替換實(shí)施例。在權(quán)利要求中,任何放置在圓括號中的參考符號不應(yīng)被理解為限制權(quán)利要求。單詞“包括”不排除權(quán)利要求中所列的那些之外的其他元件或步驟。本發(fā)明可以通過包括幾個不同元件的硬件以及通過適當(dāng)編程的計算機(jī)來實(shí)現(xiàn)。在列舉了幾個裝置的裝置權(quán)利要求中,這些裝置中的幾個可以通過同一個硬件被實(shí)現(xiàn)。起碼的事實(shí)就是在相互不同的獨(dú)立權(quán)利要求中所引用的裝置沒有顯示這些裝置的組合不能用來產(chǎn)生良好的效果。
權(quán)利要求
1.一種對音頻信號進(jìn)行編碼的方法,該方法包括以下步驟為多個連續(xù)的片斷中的每一個提供相應(yīng)的一組采樣信號值;分析該采樣信號值從而為多個連續(xù)的片斷中的每一個產(chǎn)生一個或更多正弦分量;產(chǎn)生包括所鏈接的正弦分量的音軌的正弦代碼;確定相位更新信息,該相位更新信息指示音軌中所選擇的正弦分量的相位值;和產(chǎn)生編碼音頻流,該音頻流包括所述正弦代碼和所述相位更新信息。
2.如權(quán)利要求1所述的方法,其中,所述相位更新信息包括所選正弦分量的相位值。
3.如權(quán)利要求1所述的方法,其中,所述相位更新信息包括所選正弦分量的相位值和通過音軌中所鏈接的正弦分量從前面的相位信息中外推的所述所選正弦分量的連續(xù)相位值之間的差值。
4.如權(quán)利要求1所述的方法,其中,所述相位更新信息提供給音軌中的每個第n片斷。
5.如權(quán)利要求4所述的方法,其中,n=4。
6.如權(quán)利要求4所述的方法,其中,n按照所述鏈接的正弦分量的頻率變化。
7.如權(quán)利要求1所述的方法,其中,所述相位更新信息是根據(jù)均勻或非均勻比例被量化的。
8.如權(quán)利要求1所述的方法,其中,每個音軌包括音軌起始片斷中的正弦分量的頻率、振幅和相位,和所述音軌的接下來的連續(xù)片斷中的每個正弦分量的頻率和振幅差值。
9.如權(quán)利要求1所述的方法,進(jìn)一步包括,使用所述正弦代碼和所述相位更新信息合成所述正弦分量;從所述采樣信號值減去所述合成信號值以便提供一組代表所述音頻信號的剩余分量的值;通過確定參數(shù)和估計剩余分量來模擬音頻信號的剩余分量;和在所述音頻流中包括所述參數(shù)。
10.如權(quán)利要求1所述的方法,其中,所述采樣信號值代表瞬時分量已經(jīng)被去除的音頻信號。
11.一種對音頻流進(jìn)行解碼的方法,該方法包括以下步驟讀取包括正弦代碼的編碼音頻流,該正弦代碼包括所鏈接的正弦分量的音軌和指示音軌中所選正弦分量的相位值的相位更新信息;和使用所述正弦代碼來合成所述音頻信號,包括在多個連續(xù)片斷上重建正弦分量作為連續(xù)相位信息的函數(shù),該連續(xù)相位信息通過音軌中的所鏈接的正弦分量和所述相位更新信息從前面的相位信息中外推得知。
12.如權(quán)利要求11的方法,其中,片斷k中的所述正弦分量的相位按照下式重建φ~k=φ~k+1+L2(fk+fk+1)+Δk′]]>其中L是頻率的更新間隔,Δ′k是從所選正弦分量之間的所述相位更新信息插值得到的。
13.如權(quán)利要求12的方法,其中,Δk′=Δkn]]>或Δk′=(K-k+n)·Δk(n+1)·n/2,]]>其中n是所選片斷之間的片斷的數(shù)量,其中K-n<k≤K,K是被提供相位更新信息的音軌中的所選片斷的數(shù)量,以及其中Δk包括所選正弦分量的所測量的相位值和通過音軌中所鏈接的正弦分量從前面的相位信息外推得到的所選正弦分量的連續(xù)相位值之間的差值。
14.一種用來為音頻信號(x)的多個連續(xù)片斷中的每一個處理相應(yīng)的一組采樣信號值的音頻編碼器,所述編碼器包括用來分析采樣信號值從而為多個連續(xù)片斷中的每一個產(chǎn)生一個或多個正弦分量的分析器;用來產(chǎn)生包括所鏈接的正弦分量的音軌的正弦代碼的元件;用來確定指示音軌中所選正弦分量的相位值的相位更新信息的裝置;用來產(chǎn)生包括所述正弦代碼和所述相位更新信息的編碼音頻流的比特流產(chǎn)生器。
15.一種音頻播放器,包括用來讀取包括正弦代碼的編碼音頻流的裝置,該正弦代碼含有所鏈接的正弦分量的音軌和指示音軌中所選正弦分量的相位值的相位更新信息;和用來使用所述正弦代碼來合成所述音頻信號的合成器,合成該音頻信號包括在多個連續(xù)的片斷上重建正弦分量,該正弦分量作為從前面的相位信息通過音軌的所鏈接的正弦分量和所述相位更新信息外推得到的連續(xù)相位信息的函數(shù)。
16.一種音頻系統(tǒng),包括如權(quán)利要求14所述的音頻編碼器和如權(quán)利要求15所述的音頻播放器。
17.一種音頻流,該音頻流包括代表音頻信號的至少一個分量的正弦代碼,所述編碼包括所鏈接的正弦分量的音軌和指示音軌中所選正弦分量的相位值的相位更新信息。
18.一種存儲介質(zhì),其上已存儲了如權(quán)利要求17所述的音頻流。
全文摘要
本發(fā)明公開了一種由多個連續(xù)片斷中的每一個的相應(yīng)的一組采樣信號值表示的音頻信號(x)的編碼。分析(130)該采樣信號值,從而為多個連續(xù)片斷中的每一個產(chǎn)生一個或多個正弦分量(f
文檔編號G10L19/02GK1689071SQ03824254
公開日2005年10月26日 申請日期2003年9月19日 優(yōu)先權(quán)日2002年10月17日
發(fā)明者A·J·格里特斯, A·C·登布林克, G·H·霍索 申請人:皇家飛利浦電子股份有限公司