本發(fā)明涉及使用在濾波器組域中操作的生成式深度神經(jīng)網(wǎng)絡(luò)的高頻重構(gòu)。
背景技術(shù):
1、對于非常低比特率的音頻編碼系統(tǒng),用于音頻傳輸?shù)默F(xiàn)有編碼器無法對全帶寬的信號進(jìn)行編碼,因此被迫僅對較低頻率范圍進(jìn)行編碼。例如,對于由例如mp3(iso/mpeg-ii層3)編碼的32kbps立體聲,編解碼器帶寬可以低至4至6khz。雖然對于一些使用情況這可能是足夠的,但是通常期望在音頻輸出中也傳送更高的頻率。
2、根據(jù)一種稱為“盲帶寬擴(kuò)展”的方法,僅基于較低頻帶中的信息來生成較高頻帶。這樣的處理方案可以成功地為特定的孤立信號類別(例如,語音和鋼琴音樂)提供帶寬擴(kuò)展,其中很好地確定信號統(tǒng)計數(shù)據(jù),但對于更復(fù)雜的信號類型(例如,包含混合音樂和語音的一般音頻或其他信號類別)則不行。
3、在被稱為“高頻重構(gòu)”(hfr)的更復(fù)雜的方法中,描述較高頻率(hfr)頻帶的性質(zhì)(例如,頻譜包絡(luò)、音調(diào)噪聲比或高頻帶的其他特性)的輔助信息被用于重構(gòu)hfr頻帶。已知由輔助信息引導(dǎo)的這種高頻重構(gòu)對于大多數(shù)信號類別工作良好。示例包括ac-4(由杜比實驗室開發(fā))中的a-spx和he-aac(iso/mpeg標(biāo)準(zhǔn))中的sbr。
4、在這樣的hfr系統(tǒng)中,編碼比特流包括波形編碼的低頻帶和參數(shù)化hfr頻帶的hfr輔助信息。僅將可用比特率的一部分分配給hfr輔助信息。hfr范圍開始的頻率被稱為“交叉”頻率。在解碼器側(cè),低頻帶由解碼器解碼,并且hfr輔助信息由hfr模塊用于正確地重構(gòu)hfr頻帶。
5、在hfr模塊中,被稱為“轉(zhuǎn)置器”的單元首先生成初始高頻帶近似。然后,在由比特流中的輔助信息引導(dǎo)的過程中,以各種方式修改該近似,使其類似于原始高頻帶。一種轉(zhuǎn)置方法是“向上復(fù)制”方法(例如,ac-4和he-aac中所使用的),其中來自解碼的低頻帶的頻率組塊(一組連續(xù)的子帶樣本)被復(fù)制到hfr頻率范圍。雖然這是一種具有極低計算復(fù)雜性的穩(wěn)健方法,但是當(dāng)交叉頻率較低時,其通常會出現(xiàn)單邊帶(ssb)失真。通常在低比特率編碼時會出現(xiàn)這種情況,因為可用比特僅允許由波形核心編碼器對有限的頻率范圍進(jìn)行編碼。另一種轉(zhuǎn)置方法是在例如mpeg?usac標(biāo)準(zhǔn)中使用的諧波轉(zhuǎn)置器,其中相位聲碼器用于從低頻帶生成2階、3階和甚至4階諧波。雖然這種類型的轉(zhuǎn)置避免了ssb失真,但是所生成的高頻帶有時被感知為金屬和合成的。
技術(shù)實現(xiàn)思路
1、本發(fā)明的目的是提供一種改進(jìn)的高頻重構(gòu)方法,該方法通過使用基于濾波器組的神經(jīng)網(wǎng)絡(luò)在給定解碼的低頻帶和輔助信息的情況下生成高頻帶。
2、根據(jù)本發(fā)明的第一方面,該目的通過一種用于重構(gòu)音頻信號的方法來實現(xiàn),該方法包括:接收包括編碼的低頻帶音頻信號表示和一組高頻重構(gòu)hfr參數(shù)的比特流;對低頻帶音頻信號表示進(jìn)行解碼以在濾波器組域中提供低頻帶音頻信號;使用被訓(xùn)練為在給定濾波器組域低頻帶信號的樣本和hfr參數(shù)的情況下預(yù)測濾波器組域中的高頻帶音頻信號的樣本的神經(jīng)網(wǎng)絡(luò)系統(tǒng)來重構(gòu)濾波器組域高頻帶音頻信號;以及從濾波器組域低頻帶信號和重構(gòu)的濾波器組域高頻帶信號合成時域輸出音頻信號。
3、通過使用呈神經(jīng)網(wǎng)絡(luò)系統(tǒng)形式的生成式模型來重構(gòu)高頻范圍,可以實現(xiàn)感知上改善的音頻輸出。
4、所謂的“濾波器組域”中的表示,意指包括(隱式或顯式)相位信息(或者換句話說,促進(jìn)具有正確相位的信號合成)的時頻表示。它可以涉及實數(shù)或復(fù)數(shù)系數(shù)。眾所周知的濾波器組表示的示例是mdct(修改離散余弦變換)、qmf(正交鏡像濾波器)和stft(短期傅里葉變換)。應(yīng)當(dāng)注意的是,在當(dāng)前上下文中,頻譜圖或梅爾頻譜不被認(rèn)為是濾波器組表示(因為這些表示僅基于幅度譜并且因此已經(jīng)丟棄了關(guān)于相位的信息)。
5、在一些實施例中,神經(jīng)網(wǎng)絡(luò)系統(tǒng)被訓(xùn)練為預(yù)測具有降低的信號動態(tài)的濾波器組域樣本。在這種情況下,該方法進(jìn)一步包括恢復(fù)重構(gòu)的濾波器組域高頻帶信號的信號動態(tài)。經(jīng)驗已經(jīng)表明,在具有降低的信號動態(tài)的信號上訓(xùn)練神經(jīng)網(wǎng)絡(luò)系統(tǒng)可以使訓(xùn)練模型更快地收斂并具有更好的性能。
6、在本公開中,降低和恢復(fù)信號動態(tài)的過程被稱為“平坦化”和“逆平坦化”,但也可以使用如“壓縮/擴(kuò)展”或“白化/去白化”等表達(dá)。
7、在一些實施例中,該方法進(jìn)一步包括:使用被訓(xùn)練為在給定濾波器組域低頻帶信號的解碼樣本的情況下預(yù)測濾波器組域中的低頻帶信號的樣本的神經(jīng)網(wǎng)絡(luò)系統(tǒng)來重構(gòu)改進(jìn)的濾波器組域低頻帶音頻信號,其中,該合成是基于重構(gòu)的濾波器組域低頻帶信號和重構(gòu)的濾波器組域高頻帶信號的。
8、在該實施方式中,神經(jīng)網(wǎng)絡(luò)系統(tǒng)(或可能是兩個不同的神經(jīng)網(wǎng)絡(luò)系統(tǒng))提供兩個益處:
9、1)它使用解碼樣本作為條件來“清理”(改善)低頻帶范圍,以及
10、2)它在給定解碼的低頻帶和輔助信息作為條件的情況下重構(gòu)高頻帶(與上述類似)。
11、例如,解碼的低頻帶樣本可以被粗量化(由于低頻帶樣本的有限比特率),在這種情況下,除了重構(gòu)丟失的高頻帶樣本之外,神經(jīng)網(wǎng)絡(luò)系統(tǒng)還將用于重構(gòu)(預(yù)測)增強(qiáng)的低頻帶樣本。
12、在又其他應(yīng)用中,低頻帶音頻信號表示包括量化的濾波器組域系數(shù)和相關(guān)聯(lián)的控制數(shù)據(jù),并且該方法進(jìn)一步包括使用被訓(xùn)練為在給定量化的濾波器組域系數(shù)的情況下預(yù)測濾波器組域樣本的神經(jīng)網(wǎng)絡(luò)系統(tǒng)來對所述低頻帶音頻信號表示進(jìn)行解碼。
13、根據(jù)本發(fā)明的第二方面,上述目的通過一種解碼器系統(tǒng)來實現(xiàn),該解碼器系統(tǒng)包括:解復(fù)用器,用于將比特流分離為編碼低頻帶音頻信號表示和一組高頻重構(gòu)hfr參數(shù);解碼器,用于對低頻帶音頻信號表示進(jìn)行解碼以在濾波器組域中提供低頻帶音頻信號;生成式模型,用于使用被訓(xùn)練為在給定濾波器組域低頻帶信號的樣本和hfr參數(shù)的情況下預(yù)測濾波器組域中的高頻帶音頻信號的樣本的神經(jīng)網(wǎng)絡(luò)系統(tǒng)來重構(gòu)濾波器組域高頻帶信號;以及合成濾波器組,用于從濾波器組域低頻帶信號和重構(gòu)的濾波器組域高頻帶信號合成時域音頻信號。
14、本發(fā)明的又一方面涉及一種神經(jīng)網(wǎng)絡(luò)系統(tǒng),該神經(jīng)網(wǎng)絡(luò)系統(tǒng)用于自回歸地生成音頻信號的濾波器組表示的當(dāng)前時隙的當(dāng)前樣本,該當(dāng)前樣本包括多個值,每個值對應(yīng)于濾波器組的通道,該系統(tǒng)包括第一子模型和第二子模型,每個子模型包括:1)處理層,其被訓(xùn)練為生成當(dāng)前樣本的條件信息,以及2)輸出層,其被細(xì)分為多個順序地執(zhí)行的子層,每個子層被訓(xùn)練為在給定來自處理層的條件信息和由任何先前執(zhí)行的子層生成的樣本的情況下生成當(dāng)前樣本的值的子集。第一子模型被訓(xùn)練為在給定先前生成的濾波器組表示的樣本并以濾波器組表示的量化樣本為條件的情況下生成與低頻帶頻率范圍相對應(yīng)的當(dāng)前樣本的值,并且第二子模型被訓(xùn)練為在給定先前生成的濾波器組表示的樣本并以濾波器組表示的量化樣本和以一組高頻重構(gòu)參數(shù)為條件的情況下生成與高頻帶頻率范圍相對應(yīng)的當(dāng)前樣本的值。
15、應(yīng)當(dāng)注意的是,本發(fā)明的該方面可以獨立于本發(fā)明的第一方面和第二方面形成可申請專利的主題。
16、在配備有這種神經(jīng)網(wǎng)絡(luò)系統(tǒng)的解碼器系統(tǒng)中,經(jīng)過適當(dāng)?shù)挠?xùn)練,第一子模型可以部分地代替解碼器。這種解碼器系統(tǒng)將與現(xiàn)有的傳統(tǒng)編碼器(例如由ac-4(或he-aac)語法定義的編碼器)兼容,但與傳統(tǒng)解碼器相比,將提供更優(yōu)的重構(gòu)。
17、子模型可以在不同的濾波器組域中操作。例如,第一子模型可以在mdct域中操作,這在比特流包括編碼的mdct樣本時特別有利。