專利名稱:可擴(kuò)展的數(shù)字音頻編碼框架及其擴(kuò)展方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種音視頻編碼技術(shù),具體說(shuō),涉及一種可擴(kuò)展的數(shù)字音頻 編碼框架及其擴(kuò)展方法。
背景技術(shù):
AVS標(biāo)準(zhǔn)是"信息技術(shù)先進(jìn)音視頻編碼"(Audio and Video coding Standard Workgroup of China)系列標(biāo)準(zhǔn)的簡(jiǎn)稱,其核心是把數(shù)字視頻 和音頻數(shù)據(jù)壓縮為原來(lái)的幾十分之一甚至百分之一以下,AVS包括系統(tǒng)、 視頻、音頻等三個(gè)主要標(biāo)準(zhǔn)和一致性測(cè)試等支撐標(biāo)準(zhǔn),這是基于我國(guó)創(chuàng)新技 術(shù)和公開技術(shù)制定的開放標(biāo)準(zhǔn),旨在為中國(guó)的音視頻產(chǎn)業(yè)提供完整的信源編 碼技術(shù)方案。無(wú)論AVS標(biāo)準(zhǔn)還是其它標(biāo)準(zhǔn),其物理實(shí)現(xiàn)都是一塊解碼芯片 或者編碼芯片。
在很多的通用數(shù)字音頻編碼框架中,只定義了單獨(dú)的音頻編碼方法,不 具備可擴(kuò)展性,存在通用部分和擴(kuò)展部分兼容性、統(tǒng)一性不夠的問(wèn)題,特別 是在需要進(jìn)行音頻編碼框架擴(kuò)展時(shí),例如從通用音頻應(yīng)用擴(kuò)展到移動(dòng)音頻應(yīng) 用時(shí),需要定義特定的數(shù)字音頻編碼框架。
發(fā)明內(nèi)容
本發(fā)明所解決的技術(shù)問(wèn)題是提供一種可擴(kuò)展的數(shù)字音頻編碼框架,解決 了通用部分和擴(kuò)展部分兼容性和統(tǒng)一性不夠的問(wèn)題,使得語(yǔ)音和音樂(lè)得到較 好的編碼質(zhì)量。
4支術(shù)方案如下
可擴(kuò)展的數(shù)字音頻編碼框架包括
核心編碼器,接收PCM流,對(duì)所述PCM流中的音頻信號(hào)或者語(yǔ)音信號(hào)進(jìn)行單聲道和編碼,并發(fā)送;
帶寬擴(kuò)展模塊,接收PCM流中的噪聲信號(hào),所述帶寬擴(kuò)展模塊利用噪 聲信號(hào)中的低頻分量來(lái)重建高頻分量,將引導(dǎo)信息加載到編碼后的碼流中, 發(fā)送到碼流格式器;
立體聲模塊,接收PCM流中的立體聲信號(hào),從所述立體聲信號(hào)中提取 立體聲參數(shù),形成輔助的比特流,發(fā)送到碼流格式器;
碼流格式器,接收核心編碼器、帶寬擴(kuò)展模塊、立體聲模塊的信號(hào),形 成輸出碼流。
優(yōu)選的,所述核心編碼器包括
語(yǔ)音非語(yǔ)音鑒別模塊,接收PCM流,鑒別和區(qū)分PCM流中的語(yǔ)音信 號(hào)、音頻信號(hào),并將語(yǔ)音信號(hào)或者音頻信號(hào)選擇發(fā)送;
通用音頻編碼器,接收所述音頻信號(hào),對(duì)所述音頻信號(hào)進(jìn)行編碼并發(fā)送;
語(yǔ)音編碼器,接收所述語(yǔ)音信號(hào),對(duì)所述語(yǔ)音信號(hào)進(jìn)行編碼并發(fā)送;
第一開關(guān)元件,選擇導(dǎo)通語(yǔ)音非語(yǔ)音鑒別模塊和通用音頻編碼器,或者 選擇導(dǎo)通語(yǔ)音非語(yǔ)音鑒別模塊和語(yǔ)音編碼器;
第二開關(guān)元件,選擇導(dǎo)通碼流格式器和通用音頻編碼器,或者選擇導(dǎo)通 碼流格式器和語(yǔ)音編碼器。
優(yōu)選的,立體聲模塊在編碼時(shí),立體聲信號(hào)經(jīng)左右聲道混合得到的單聲 道信號(hào)。
本發(fā)明所解決的另一個(gè)技術(shù)問(wèn)題是提供一種數(shù)字音頻編碼的擴(kuò)展方法, 使得語(yǔ)音和音樂(lè)得到較好的編碼質(zhì)量。
才支術(shù)方案如下
數(shù)字音頻編碼的擴(kuò)展方法包括如下步驟
(1) 在帶寬擴(kuò)展模塊中,利用接收到的PCM流中的噪聲信號(hào)進(jìn)行帶 寬擴(kuò)展,并發(fā)送;
(2) 在立體聲模塊中,利用接收到的PCM流中的立體聲信號(hào),從所 述立體聲信號(hào)中提取立體聲參數(shù),形成輔助的比特流,并發(fā)送;(3) 在核心編碼器中,將接收到的PCM流中的音頻信號(hào)或者語(yǔ)音信 號(hào)進(jìn)行編碼,并發(fā)送;
(4) 碼流格式器接收帶寬擴(kuò)展模塊、立體聲模塊、核心編碼器的輸入 信號(hào),進(jìn)行組合編碼形成輸出流。
進(jìn)一步,步驟(3)具體為
(31) 語(yǔ)音非語(yǔ)音鑒別模塊接收PCM流,鑒別和區(qū)分PCM流中的語(yǔ) 音信號(hào)、音頻信號(hào),并將語(yǔ)音信號(hào)或者音樂(lè)信號(hào)選擇發(fā)送;
(32) 當(dāng)語(yǔ)音非語(yǔ)音鑒別模塊發(fā)送音頻信號(hào)時(shí),第一開關(guān)元件選擇導(dǎo)通 語(yǔ)音非語(yǔ)音鑒別模塊和通用音頻編碼器;當(dāng)語(yǔ)音非語(yǔ)音鑒別模塊發(fā)送語(yǔ)音信 號(hào)時(shí),第一開關(guān)元件選擇導(dǎo)通語(yǔ)音非語(yǔ)音鑒別模塊和語(yǔ)音編碼器;
(33 )通用音頻編碼器對(duì)接收到的音頻信號(hào)進(jìn)行編碼,經(jīng)第二開關(guān)元件 發(fā)送到所述碼流格式器;或者,語(yǔ)音編碼器對(duì)接收到的語(yǔ)音信號(hào)進(jìn)行編碼, 經(jīng)第二開關(guān)元件發(fā)送到所述碼流格式器。
本發(fā)明解決了通用部分和擴(kuò)展部分兼容性和統(tǒng)一性不夠的問(wèn)題,,帶寬 擴(kuò)展和立體聲技術(shù)可以方便的與核心編碼器融合,使得語(yǔ)音和音頻得到較好 的編碼質(zhì)量。同時(shí),繼承了通用音頻的優(yōu)點(diǎn),使得碼流的兼容性和統(tǒng)一性得 到保證。
圖l是可擴(kuò)展的數(shù)字音頻編碼框架的結(jié)構(gòu)框圖2是通過(guò)復(fù)制產(chǎn)生高頻的頻率-能量曲線圖3是對(duì)高頻部分進(jìn)行包絡(luò)調(diào)整的頻率-能量曲線圖4是立體聲信號(hào)的輸入生產(chǎn)波形圖。
具體實(shí)施例方式
下面參照附圖,對(duì)本發(fā)明的優(yōu)選實(shí)施例作詳細(xì)描述。
如圖1所示,可擴(kuò)展的數(shù)字音頻編碼框架整體上包括核心編碼器iio、
帶寬擴(kuò)展模塊120、立體聲模塊130、碼流格式器140。 PCM流同時(shí)進(jìn)入核 心編碼器IIO、帶寬擴(kuò)展模塊120、立體聲模塊130。
核心編碼器110對(duì)進(jìn)入的PCM流中的音樂(lè)信號(hào)或者語(yǔ)音信號(hào)進(jìn)行單聲 道和編碼,并發(fā)送到碼流格式器140,在碼流格式器140中形成輸出碼流。 核心編碼器110包括三個(gè)子模塊,分別是語(yǔ)音非語(yǔ)音鑒別模塊111、通用音 頻編碼器112、語(yǔ)音編碼器113。
隨著移動(dòng)通信的發(fā)展,語(yǔ)音通信向音頻通信發(fā)展,音頻通信媒體除了語(yǔ) 音信號(hào),還有音樂(lè)信號(hào)。這樣,原有的語(yǔ)音通信編解碼器不能滿足新的需求, 同時(shí)語(yǔ)音激活檢測(cè)必須演變成語(yǔ)音/非語(yǔ)音鑒別,即必須能夠區(qū)分音樂(lè)、語(yǔ) 音、噪聲,以便下一步分別處理。
語(yǔ)音非語(yǔ)音鑒別模塊111接收PCM流,鑒別和區(qū)分PCM流中的語(yǔ)音信 號(hào)、音頻信號(hào),并將語(yǔ)音信號(hào)或者音頻信號(hào)選擇發(fā)送到通用音頻編碼器112 或者語(yǔ)音編碼器113。
通用音頻編碼器112和語(yǔ)音編碼器113是通用音頻擴(kuò)展框架的核心編碼 器,用來(lái)進(jìn)行單聲道和一定帶寬條件下的語(yǔ)音和音頻信號(hào)編碼。按照信號(hào)的 形式和提供的數(shù)據(jù)率,能夠建立不同的源模型和感覺模型。語(yǔ)言編碼方法主 要是充分利用了在人類發(fā)聲中語(yǔ)言產(chǎn)生的特殊模型,任意音頻信號(hào)的編碼方 法主要充分利用了人耳的掩蔽效應(yīng)。
通用音頻編碼器112接收音頻信號(hào),對(duì)音頻信號(hào)進(jìn)行編碼并發(fā)送到碼流 格式器140。語(yǔ)音編碼器113接收語(yǔ)音信號(hào),對(duì)語(yǔ)音信號(hào)進(jìn)行編碼并發(fā)送到 碼流格式器140。
當(dāng)語(yǔ)音非語(yǔ)音鑒別模塊111發(fā)送音頻信號(hào)時(shí),第一開關(guān)元件114導(dǎo)通語(yǔ) 音非語(yǔ)音鑒別模塊111和通用音頻編碼器112,第二開關(guān)元件115選擇導(dǎo)通 碼流格式器140和通用音頻編碼器112;當(dāng)語(yǔ)音非語(yǔ)音鑒別模塊111發(fā)送語(yǔ) 音信號(hào)時(shí),第一開關(guān)元件114導(dǎo)通語(yǔ)音非語(yǔ)音鑒別模塊111和語(yǔ)音編碼器 113,第二開關(guān)元件115選擇導(dǎo)通碼流格式器140和語(yǔ)音編碼器113。
如圖2和圖3所示,帶寬擴(kuò)展模塊120將頻譜從低頻到高頻直接復(fù)制, 然后,利用原來(lái)高頻包絡(luò)信息對(duì)復(fù)制的高頻進(jìn)行調(diào)整。
帶寬擴(kuò)展模塊120接收音頻信號(hào)中的噪聲信號(hào),帶寬擴(kuò)展模塊120利用 噪聲信號(hào)中的低頻分量來(lái)重建高頻分量,將引導(dǎo)信息加載到編碼后的碼流 中,發(fā)送到碼流格式器140。
在低于每通道64Kbps的碼率下,各種感知編碼器都不同程度地出現(xiàn)了 質(zhì)量的下降,或產(chǎn)生帶限。為克服先前的感知編碼器的這一缺陷,帶寬擴(kuò)展 模塊120改善了在低碼率下語(yǔ)音和音頻編碼器的表現(xiàn),提高了音頻感知編碼 器在低碼率下的帶限上限使得其能夠達(dá)到或超過(guò)15KHz,并且能夠改進(jìn)窄帶 語(yǔ)音編碼器的質(zhì)量使得能夠原先只能用于廣播語(yǔ)音的通道能夠傳輸12KHz
頻帶范圍的音樂(lè)。
帶寬擴(kuò)展模塊120 4吏得在壓縮算法中高效地對(duì)音頻中的高頻部分編碼 成為可能。帶寬擴(kuò)展模塊120利用分析低頻分量來(lái)重建高頻分量,為了能夠 準(zhǔn)確重建, 一些引導(dǎo)信息以極低的碼率被加載到編碼后的碼流中。這種高頻 分量的重建對(duì)于諧波和類噪聲成分非常有效,并且他還允許進(jìn)行時(shí)域和頻域 的修整。這樣對(duì)全頻帶進(jìn)行處理,就可以明顯地提高幾乎兩倍的編碼器效率。
帶寬擴(kuò)展技術(shù)利用分析低頻分量來(lái)重建高頻分量,為了能夠準(zhǔn)確重建, 需要進(jìn)行以下處理
立體聲模塊130接收PCM流中的立體聲信號(hào),從立體聲信號(hào)中提取立 體聲參數(shù),形成輔助的比特流,發(fā)送到所述碼流格式器140。
立體聲模塊130通過(guò)提取表述輸入信號(hào)立體聲聲像的參數(shù),可以同樣提 高兩倍左右的編碼效率。在編碼時(shí),只有一個(gè)從立體聲信號(hào)經(jīng)降混音的單聲 道信號(hào)被編碼,從立體聲信號(hào)中提取的立體聲參數(shù)和帶寬擴(kuò)展參數(shù)一樣,嵌 入為一個(gè)輔助的比特流。在解碼時(shí),首先單聲道的信號(hào)被解碼出來(lái),立體聲 信號(hào)通過(guò)嵌入的立體聲參數(shù)來(lái)重構(gòu)。
如圖4所示,在編碼時(shí),立體聲信號(hào)經(jīng)左右聲道混合得到單聲道信號(hào), 從立體聲信號(hào)中提取立體聲參數(shù),嵌入為 一個(gè)極低的輔助比特流。在解碼時(shí), 混合單聲道的信號(hào)首先被解碼出來(lái),立體聲信號(hào)通過(guò)立體聲參數(shù)來(lái)重構(gòu)。
下列指標(biāo)用來(lái)描述立體聲聲像
1、通道間強(qiáng)度差異,主要描述左右通道的能量強(qiáng)度差異。
2、 通道間互相關(guān),主要描述左右通道的互相關(guān)或相干。
3、 通道間相位差異,主要描述左右通道的相位差異。
當(dāng)有PCM流進(jìn)入可擴(kuò)展的數(shù)字音頻編碼框架時(shí),工作過(guò)程如下
在帶寬擴(kuò)展模塊120中,利用接收到的噪聲信號(hào)進(jìn)行帶寬擴(kuò)展,并發(fā)送 碼流格式器115;在立體聲模塊130中,利用接收到的立體聲信號(hào),從立體 聲信號(hào)中提取立體聲參數(shù),形成輔助的比特流,并發(fā)送到碼流格式器115。
在核心編碼器110中,將接收到的信號(hào)中的音頻信號(hào)或者語(yǔ)音信號(hào)進(jìn)行 編碼,并發(fā)送到碼流格式器115,具體如下
(1 )語(yǔ)音非語(yǔ)音鑒別模塊111接收PCM流,鑒別和區(qū)分PCM流中的 語(yǔ)音信號(hào)、音頻信號(hào),并將語(yǔ)音信號(hào)或者音樂(lè)信號(hào)選擇發(fā)送。
(2) 當(dāng)語(yǔ)音非語(yǔ)音鑒別模塊111發(fā)送音頻信號(hào)時(shí),第一開關(guān)元件114 選擇導(dǎo)通語(yǔ)音非語(yǔ)音鑒別模塊111和通用音頻編碼器112;當(dāng)語(yǔ)音非語(yǔ)音鑒 別模塊發(fā)送的音頻信號(hào)為語(yǔ)音信號(hào)時(shí),第一開關(guān)元件114選擇導(dǎo)通語(yǔ)音非語(yǔ) 音鑒別模塊111和語(yǔ)音編碼器113。
(3) 通用音頻編碼器112對(duì)接收到的音頻信號(hào)進(jìn)行編碼,經(jīng)第二開關(guān) 元件115發(fā)送到碼流格式器140;語(yǔ)音編碼器113對(duì)接收到的語(yǔ)音信號(hào)進(jìn)行 編碼,經(jīng)第二開關(guān)元件115發(fā)送到碼流格式器140。
(4) 碼流格式器140接收帶寬擴(kuò)展模塊、立體聲模塊、核心編碼器的 輸入信號(hào),進(jìn)行組合編碼形成輸出流。
權(quán)利要求
1、一種可擴(kuò)展的數(shù)字音頻編碼框架,包括核心編碼器,接收PCM流,對(duì)所述PCM流中的音頻信號(hào)或者語(yǔ)音信號(hào)進(jìn)行單聲道和編碼,并發(fā)送;其特征在于,還包括帶寬擴(kuò)展模塊,接收PCM流中的噪聲信號(hào),所述帶寬擴(kuò)展模塊利用噪聲信號(hào)中的低頻分量來(lái)重建高頻分量,將引導(dǎo)信息加載到編碼后的碼流中,發(fā)送到碼流格式器;立體聲模塊,接收PCM流中的立體聲信號(hào),從所述立體聲信號(hào)中提取立體聲參數(shù),形成輔助的比特流,發(fā)送到碼流格式器;碼流格式器,接收核心編碼器、帶寬擴(kuò)展模塊、立體聲模塊的信號(hào),形成輸出碼流。
2、 根據(jù)權(quán)利要求1所述的可擴(kuò)展的數(shù)字音頻編碼框架,其特征在于, 所述核心編碼器包括語(yǔ)音非語(yǔ)音鑒別模塊,接收PCM流,鑒別和區(qū)分PCM流中的語(yǔ)音信 號(hào)、音頻信號(hào),并將語(yǔ)音信號(hào)或者音頻信號(hào)選擇發(fā)送;通用音頻編碼器,接收所述音頻信號(hào),對(duì)所述音頻信號(hào)進(jìn)行編碼并發(fā)送;語(yǔ)音編碼器,接收所述語(yǔ)音信號(hào),對(duì)所述語(yǔ)音信號(hào)進(jìn)行編碼并發(fā)送;第一開關(guān)元件,選擇導(dǎo)通語(yǔ)音非語(yǔ)音鑒別模塊和通用音頻編碼器,或者 選擇導(dǎo)通語(yǔ)音非語(yǔ)音鑒別模塊和語(yǔ)音編碼器;第二開關(guān)元件,選擇導(dǎo)通碼流格式器和通用音頻編碼器,或者選擇導(dǎo)通 碼流格式器和語(yǔ)音編碼器。
3、 根據(jù)權(quán)利要求1所述的可擴(kuò)展的數(shù)字音頻編碼框架,其特征在于,立體聲模塊在編碼時(shí),立體聲信號(hào)經(jīng)左右聲道混合得到的單聲道信號(hào)。
4、 一種數(shù)字音頻編碼的擴(kuò)展方法,包括如下步驟(1 )在帶寬擴(kuò)展模塊中,利用接收到的PCM流中的噪聲信號(hào)進(jìn)行帶寬 擴(kuò)展并發(fā)送;(2)在立體聲模塊中,利用接收到的PCM流中的立體聲信號(hào),從所述 立體聲信號(hào)中提取立體聲參數(shù),形成輔助的比特流,并發(fā)送;(3 )在核心編碼器中,將接收到的PCM流中的音頻信號(hào)或者語(yǔ)音信號(hào) 進(jìn)4亍編碼,并發(fā)送;(4)碼流格式器接收帶寬擴(kuò)展模塊、立體聲模塊、核心編碼器的輸入 信號(hào),進(jìn)行組合編碼形成輸出流。
5、 根據(jù)權(quán)利要求4所述的數(shù)字音頻編碼的擴(kuò)展方法,其特征在于,步 驟(3)具體為(31 )語(yǔ)音非語(yǔ)音鑒別模塊接收PCM流,鑒別和區(qū)分PCM流中的語(yǔ) 音信號(hào)、音頻信號(hào),并將語(yǔ)音信號(hào)或者音樂(lè)信號(hào)選擇發(fā)送;(32)當(dāng)語(yǔ)音非語(yǔ)音鑒別模塊發(fā)送音頻信號(hào)時(shí),第一開關(guān)元件選擇導(dǎo)通 語(yǔ)音非語(yǔ)音鑒別模塊和通用音頻編碼器;當(dāng)語(yǔ)音非語(yǔ)音鑒別模塊發(fā)送語(yǔ)音信 號(hào)時(shí),第一開關(guān)元件選擇導(dǎo)通語(yǔ)音非語(yǔ)音鑒別模塊和語(yǔ)音編碼器;(33 )通用音頻編碼器對(duì)接收到的音頻信號(hào)進(jìn)行編碼,經(jīng)第二開關(guān)元件 發(fā)送到所述碼流格式器;或者,語(yǔ)音編碼器對(duì)接收到的語(yǔ)音信號(hào)進(jìn)行編碼, 經(jīng)第二開關(guān)元件發(fā)送到所述碼流格式器。
全文摘要
本發(fā)明公開了一種可擴(kuò)展的數(shù)字音頻編碼框架,包括核心編碼器,接收PCM流,對(duì)所述PCM流中的音頻信號(hào)或者語(yǔ)音信號(hào)進(jìn)行單聲道和編碼,并發(fā)送;帶寬擴(kuò)展模塊,接收PCM流中的噪聲信號(hào),所述帶寬擴(kuò)展模塊利用噪聲信號(hào)中的低頻分量來(lái)重建高頻分量,將引導(dǎo)信息加載到編碼后的碼流中,發(fā)送到碼流格式器;立體聲模塊,接收PCM流中的立體聲信號(hào),從所述立體聲信號(hào)中提取立體聲參數(shù),形成輔助的比特流,發(fā)送到碼流格式器;碼流格式器,接收核心編碼器、帶寬擴(kuò)展模塊、立體聲模塊的信號(hào),形成輸出碼流。本發(fā)明還公開了一種數(shù)字音頻編碼的擴(kuò)展方法。
文檔編號(hào)G10L19/00GK101202042SQ20061016586
公開日2008年6月18日 申請(qǐng)日期2006年12月14日 優(yōu)先權(quán)日2006年12月14日
發(fā)明者睿 陳 申請(qǐng)人:中興通訊股份有限公司