可擴(kuò)展的數(shù)字音頻編碼框架及其擴(kuò)展方法

文檔序號(hào)：2829746閱讀：315來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：可擴(kuò)展的數(shù)字音頻編碼框架及其擴(kuò)展方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種音視頻編碼技術(shù)，具體說(shuō)，涉及一種可擴(kuò)展的數(shù)字音頻編碼框架及其擴(kuò)展方法。
背景技術(shù)：
AVS標(biāo)準(zhǔn)是"信息技術(shù)先進(jìn)音視頻編碼"(Audio and Video coding Standard Workgroup of China)系列標(biāo)準(zhǔn)的簡(jiǎn)稱，其核心是把數(shù)字視頻和音頻數(shù)據(jù)壓縮為原來(lái)的幾十分之一甚至百分之一以下，AVS包括系統(tǒng)、視頻、音頻等三個(gè)主要標(biāo)準(zhǔn)和一致性測(cè)試等支撐標(biāo)準(zhǔn)，這是基于我國(guó)創(chuàng)新技術(shù)和公開技術(shù)制定的開放標(biāo)準(zhǔn)，旨在為中國(guó)的音視頻產(chǎn)業(yè)提供完整的信源編碼技術(shù)方案。無(wú)論AVS標(biāo)準(zhǔn)還是其它標(biāo)準(zhǔn)，其物理實(shí)現(xiàn)都是一塊解碼芯片或者編碼芯片。
在很多的通用數(shù)字音頻編碼框架中，只定義了單獨(dú)的音頻編碼方法，不具備可擴(kuò)展性，存在通用部分和擴(kuò)展部分兼容性、統(tǒng)一性不夠的問(wèn)題，特別是在需要進(jìn)行音頻編碼框架擴(kuò)展時(shí)，例如從通用音頻應(yīng)用擴(kuò)展到移動(dòng)音頻應(yīng) 用時(shí)，需要定義特定的數(shù)字音頻編碼框架。

發(fā)明內(nèi)容
本發(fā)明所解決的技術(shù)問(wèn)題是提供一種可擴(kuò)展的數(shù)字音頻編碼框架，解決了通用部分和擴(kuò)展部分兼容性和統(tǒng)一性不夠的問(wèn)題，使得語(yǔ)音和音樂(lè)得到較好的編碼質(zhì)量。
4支術(shù)方案如下
可擴(kuò)展的數(shù)字音頻編碼框架包括
核心編碼器，接收PCM流，對(duì)所述PCM流中的音頻信號(hào)或者語(yǔ)音信號(hào)進(jìn)行單聲道和編碼，并發(fā)送；
帶寬擴(kuò)展模塊，接收PCM流中的噪聲信號(hào)，所述帶寬擴(kuò)展模塊利用噪聲信號(hào)中的低頻分量來(lái)重建高頻分量，將引導(dǎo)信息加載到編碼后的碼流中，發(fā)送到碼流格式器；
立體聲模塊，接收PCM流中的立體聲信號(hào)，從所述立體聲信號(hào)中提取立體聲參數(shù)，形成輔助的比特流，發(fā)送到碼流格式器；
碼流格式器，接收核心編碼器、帶寬擴(kuò)展模塊、立體聲模塊的信號(hào)，形成輸出碼流。
優(yōu)選的，所述核心編碼器包括
語(yǔ)音非語(yǔ)音鑒別模塊，接收PCM流，鑒別和區(qū)分PCM流中的語(yǔ)音信號(hào)、音頻信號(hào)，并將語(yǔ)音信號(hào)或者音頻信號(hào)選擇發(fā)送；
通用音頻編碼器，接收所述音頻信號(hào)，對(duì)所述音頻信號(hào)進(jìn)行編碼并發(fā)送；
語(yǔ)音編碼器，接收所述語(yǔ)音信號(hào)，對(duì)所述語(yǔ)音信號(hào)進(jìn)行編碼并發(fā)送；
第一開關(guān)元件，選擇導(dǎo)通語(yǔ)音非語(yǔ)音鑒別模塊和通用音頻編碼器，或者選擇導(dǎo)通語(yǔ)音非語(yǔ)音鑒別模塊和語(yǔ)音編碼器；
第二開關(guān)元件，選擇導(dǎo)通碼流格式器和通用音頻編碼器，或者選擇導(dǎo)通碼流格式器和語(yǔ)音編碼器。
優(yōu)選的，立體聲模塊在編碼時(shí)，立體聲信號(hào)經(jīng)左右聲道混合得到的單聲道信號(hào)。
本發(fā)明所解決的另一個(gè)技術(shù)問(wèn)題是提供一種數(shù)字音頻編碼的擴(kuò)展方法，使得語(yǔ)音和音樂(lè)得到較好的編碼質(zhì)量。
才支術(shù)方案如下
數(shù)字音頻編碼的擴(kuò)展方法包括如下步驟
(1) 在帶寬擴(kuò)展模塊中，利用接收到的PCM流中的噪聲信號(hào)進(jìn)行帶寬擴(kuò)展，并發(fā)送；
(2) 在立體聲模塊中，利用接收到的PCM流中的立體聲信號(hào)，從所述立體聲信號(hào)中提取立體聲參數(shù)，形成輔助的比特流，并發(fā)送；(3) 在核心編碼器中，將接收到的PCM流中的音頻信號(hào)或者語(yǔ)音信號(hào)進(jìn)行編碼，并發(fā)送；
(4) 碼流格式器接收帶寬擴(kuò)展模塊、立體聲模塊、核心編碼器的輸入信號(hào)，進(jìn)行組合編碼形成輸出流。
進(jìn)一步，步驟(3)具體為
(31) 語(yǔ)音非語(yǔ)音鑒別模塊接收PCM流，鑒別和區(qū)分PCM流中的語(yǔ) 音信號(hào)、音頻信號(hào)，并將語(yǔ)音信號(hào)或者音樂(lè)信號(hào)選擇發(fā)送；
(32) 當(dāng)語(yǔ)音非語(yǔ)音鑒別模塊發(fā)送音頻信號(hào)時(shí)，第一開關(guān)元件選擇導(dǎo)通語(yǔ)音非語(yǔ)音鑒別模塊和通用音頻編碼器；當(dāng)語(yǔ)音非語(yǔ)音鑒別模塊發(fā)送語(yǔ)音信號(hào)時(shí)，第一開關(guān)元件選擇導(dǎo)通語(yǔ)音非語(yǔ)音鑒別模塊和語(yǔ)音編碼器；
(33 )通用音頻編碼器對(duì)接收到的音頻信號(hào)進(jìn)行編碼，經(jīng)第二開關(guān)元件發(fā)送到所述碼流格式器；或者，語(yǔ)音編碼器對(duì)接收到的語(yǔ)音信號(hào)進(jìn)行編碼，經(jīng)第二開關(guān)元件發(fā)送到所述碼流格式器。
本發(fā)明解決了通用部分和擴(kuò)展部分兼容性和統(tǒng)一性不夠的問(wèn)題，，帶寬擴(kuò)展和立體聲技術(shù)可以方便的與核心編碼器融合，使得語(yǔ)音和音頻得到較好的編碼質(zhì)量。同時(shí)，繼承了通用音頻的優(yōu)點(diǎn)，使得碼流的兼容性和統(tǒng)一性得到保證。

圖l是可擴(kuò)展的數(shù)字音頻編碼框架的結(jié)構(gòu)框圖2是通過(guò)復(fù)制產(chǎn)生高頻的頻率-能量曲線圖3是對(duì)高頻部分進(jìn)行包絡(luò)調(diào)整的頻率-能量曲線圖4是立體聲信號(hào)的輸入生產(chǎn)波形圖。
具體實(shí)施例方式
下面參照附圖，對(duì)本發(fā)明的優(yōu)選實(shí)施例作詳細(xì)描述。
如圖1所示，可擴(kuò)展的數(shù)字音頻編碼框架整體上包括核心編碼器iio、
帶寬擴(kuò)展模塊120、立體聲模塊130、碼流格式器140。 PCM流同時(shí)進(jìn)入核心編碼器IIO、帶寬擴(kuò)展模塊120、立體聲模塊130。
核心編碼器110對(duì)進(jìn)入的PCM流中的音樂(lè)信號(hào)或者語(yǔ)音信號(hào)進(jìn)行單聲道和編碼，并發(fā)送到碼流格式器140，在碼流格式器140中形成輸出碼流。核心編碼器110包括三個(gè)子模塊，分別是語(yǔ)音非語(yǔ)音鑒別模塊111、通用音頻編碼器112、語(yǔ)音編碼器113。
隨著移動(dòng)通信的發(fā)展，語(yǔ)音通信向音頻通信發(fā)展，音頻通信媒體除了語(yǔ) 音信號(hào)，還有音樂(lè)信號(hào)。這樣，原有的語(yǔ)音通信編解碼器不能滿足新的需求，同時(shí)語(yǔ)音激活檢測(cè)必須演變成語(yǔ)音/非語(yǔ)音鑒別，即必須能夠區(qū)分音樂(lè)、語(yǔ) 音、噪聲，以便下一步分別處理。
語(yǔ)音非語(yǔ)音鑒別模塊111接收PCM流，鑒別和區(qū)分PCM流中的語(yǔ)音信號(hào)、音頻信號(hào)，并將語(yǔ)音信號(hào)或者音頻信號(hào)選擇發(fā)送到通用音頻編碼器112 或者語(yǔ)音編碼器113。
通用音頻編碼器112和語(yǔ)音編碼器113是通用音頻擴(kuò)展框架的核心編碼器，用來(lái)進(jìn)行單聲道和一定帶寬條件下的語(yǔ)音和音頻信號(hào)編碼。按照信號(hào)的形式和提供的數(shù)據(jù)率，能夠建立不同的源模型和感覺模型。語(yǔ)言編碼方法主要是充分利用了在人類發(fā)聲中語(yǔ)言產(chǎn)生的特殊模型，任意音頻信號(hào)的編碼方法主要充分利用了人耳的掩蔽效應(yīng)。
通用音頻編碼器112接收音頻信號(hào)，對(duì)音頻信號(hào)進(jìn)行編碼并發(fā)送到碼流格式器140。語(yǔ)音編碼器113接收語(yǔ)音信號(hào)，對(duì)語(yǔ)音信號(hào)進(jìn)行編碼并發(fā)送到碼流格式器140。
當(dāng)語(yǔ)音非語(yǔ)音鑒別模塊111發(fā)送音頻信號(hào)時(shí)，第一開關(guān)元件114導(dǎo)通語(yǔ) 音非語(yǔ)音鑒別模塊111和通用音頻編碼器112,第二開關(guān)元件115選擇導(dǎo)通碼流格式器140和通用音頻編碼器112;當(dāng)語(yǔ)音非語(yǔ)音鑒別模塊111發(fā)送語(yǔ) 音信號(hào)時(shí)，第一開關(guān)元件114導(dǎo)通語(yǔ)音非語(yǔ)音鑒別模塊111和語(yǔ)音編碼器 113,第二開關(guān)元件115選擇導(dǎo)通碼流格式器140和語(yǔ)音編碼器113。
如圖2和圖3所示，帶寬擴(kuò)展模塊120將頻譜從低頻到高頻直接復(fù)制，然后，利用原來(lái)高頻包絡(luò)信息對(duì)復(fù)制的高頻進(jìn)行調(diào)整。
帶寬擴(kuò)展模塊120接收音頻信號(hào)中的噪聲信號(hào)，帶寬擴(kuò)展模塊120利用噪聲信號(hào)中的低頻分量來(lái)重建高頻分量，將引導(dǎo)信息加載到編碼后的碼流中，發(fā)送到碼流格式器140。
在低于每通道64Kbps的碼率下，各種感知編碼器都不同程度地出現(xiàn)了質(zhì)量的下降，或產(chǎn)生帶限。為克服先前的感知編碼器的這一缺陷，帶寬擴(kuò)展模塊120改善了在低碼率下語(yǔ)音和音頻編碼器的表現(xiàn)，提高了音頻感知編碼器在低碼率下的帶限上限使得其能夠達(dá)到或超過(guò)15KHz,并且能夠改進(jìn)窄帶語(yǔ)音編碼器的質(zhì)量使得能夠原先只能用于廣播語(yǔ)音的通道能夠傳輸12KHz
頻帶范圍的音樂(lè)。
帶寬擴(kuò)展模塊120 4吏得在壓縮算法中高效地對(duì)音頻中的高頻部分編碼成為可能。帶寬擴(kuò)展模塊120利用分析低頻分量來(lái)重建高頻分量，為了能夠準(zhǔn)確重建，一些引導(dǎo)信息以極低的碼率被加載到編碼后的碼流中。這種高頻分量的重建對(duì)于諧波和類噪聲成分非常有效，并且他還允許進(jìn)行時(shí)域和頻域的修整。這樣對(duì)全頻帶進(jìn)行處理，就可以明顯地提高幾乎兩倍的編碼器效率。
帶寬擴(kuò)展技術(shù)利用分析低頻分量來(lái)重建高頻分量，為了能夠準(zhǔn)確重建，需要進(jìn)行以下處理
立體聲模塊130接收PCM流中的立體聲信號(hào)，從立體聲信號(hào)中提取立體聲參數(shù)，形成輔助的比特流，發(fā)送到所述碼流格式器140。
立體聲模塊130通過(guò)提取表述輸入信號(hào)立體聲聲像的參數(shù)，可以同樣提高兩倍左右的編碼效率。在編碼時(shí)，只有一個(gè)從立體聲信號(hào)經(jīng)降混音的單聲道信號(hào)被編碼，從立體聲信號(hào)中提取的立體聲參數(shù)和帶寬擴(kuò)展參數(shù)一樣，嵌入為一個(gè)輔助的比特流。在解碼時(shí)，首先單聲道的信號(hào)被解碼出來(lái)，立體聲信號(hào)通過(guò)嵌入的立體聲參數(shù)來(lái)重構(gòu)。
如圖4所示，在編碼時(shí)，立體聲信號(hào)經(jīng)左右聲道混合得到單聲道信號(hào)，從立體聲信號(hào)中提取立體聲參數(shù)，嵌入為一個(gè)極低的輔助比特流。在解碼時(shí)，混合單聲道的信號(hào)首先被解碼出來(lái)，立體聲信號(hào)通過(guò)立體聲參數(shù)來(lái)重構(gòu)。
下列指標(biāo)用來(lái)描述立體聲聲像
1、通道間強(qiáng)度差異，主要描述左右通道的能量強(qiáng)度差異。
2、通道間互相關(guān)，主要描述左右通道的互相關(guān)或相干。
3、通道間相位差異，主要描述左右通道的相位差異。
當(dāng)有PCM流進(jìn)入可擴(kuò)展的數(shù)字音頻編碼框架時(shí)，工作過(guò)程如下
在帶寬擴(kuò)展模塊120中，利用接收到的噪聲信號(hào)進(jìn)行帶寬擴(kuò)展，并發(fā)送碼流格式器115;在立體聲模塊130中，利用接收到的立體聲信號(hào)，從立體聲信號(hào)中提取立體聲參數(shù)，形成輔助的比特流，并發(fā)送到碼流格式器115。
在核心編碼器110中，將接收到的信號(hào)中的音頻信號(hào)或者語(yǔ)音信號(hào)進(jìn)行編碼，并發(fā)送到碼流格式器115,具體如下
(1 )語(yǔ)音非語(yǔ)音鑒別模塊111接收PCM流，鑒別和區(qū)分PCM流中的語(yǔ)音信號(hào)、音頻信號(hào)，并將語(yǔ)音信號(hào)或者音樂(lè)信號(hào)選擇發(fā)送。
(2) 當(dāng)語(yǔ)音非語(yǔ)音鑒別模塊111發(fā)送音頻信號(hào)時(shí)，第一開關(guān)元件114 選擇導(dǎo)通語(yǔ)音非語(yǔ)音鑒別模塊111和通用音頻編碼器112;當(dāng)語(yǔ)音非語(yǔ)音鑒別模塊發(fā)送的音頻信號(hào)為語(yǔ)音信號(hào)時(shí)，第一開關(guān)元件114選擇導(dǎo)通語(yǔ)音非語(yǔ) 音鑒別模塊111和語(yǔ)音編碼器113。
(3) 通用音頻編碼器112對(duì)接收到的音頻信號(hào)進(jìn)行編碼，經(jīng)第二開關(guān) 元件115發(fā)送到碼流格式器140;語(yǔ)音編碼器113對(duì)接收到的語(yǔ)音信號(hào)進(jìn)行編碼，經(jīng)第二開關(guān)元件115發(fā)送到碼流格式器140。
(4) 碼流格式器140接收帶寬擴(kuò)展模塊、立體聲模塊、核心編碼器的輸入信號(hào)，進(jìn)行組合編碼形成輸出流。
權(quán)利要求
1、一種可擴(kuò)展的數(shù)字音頻編碼框架，包括核心編碼器，接收PCM流，對(duì)所述PCM流中的音頻信號(hào)或者語(yǔ)音信號(hào)進(jìn)行單聲道和編碼，并發(fā)送；其特征在于，還包括帶寬擴(kuò)展模塊，接收PCM流中的噪聲信號(hào)，所述帶寬擴(kuò)展模塊利用噪聲信號(hào)中的低頻分量來(lái)重建高頻分量，將引導(dǎo)信息加載到編碼后的碼流中，發(fā)送到碼流格式器；立體聲模塊，接收PCM流中的立體聲信號(hào)，從所述立體聲信號(hào)中提取立體聲參數(shù)，形成輔助的比特流，發(fā)送到碼流格式器；碼流格式器，接收核心編碼器、帶寬擴(kuò)展模塊、立體聲模塊的信號(hào)，形成輸出碼流。
2、根據(jù)權(quán)利要求1所述的可擴(kuò)展的數(shù)字音頻編碼框架，其特征在于，所述核心編碼器包括語(yǔ)音非語(yǔ)音鑒別模塊，接收PCM流，鑒別和區(qū)分PCM流中的語(yǔ)音信號(hào)、音頻信號(hào)，并將語(yǔ)音信號(hào)或者音頻信號(hào)選擇發(fā)送；通用音頻編碼器，接收所述音頻信號(hào)，對(duì)所述音頻信號(hào)進(jìn)行編碼并發(fā)送；語(yǔ)音編碼器，接收所述語(yǔ)音信號(hào)，對(duì)所述語(yǔ)音信號(hào)進(jìn)行編碼并發(fā)送；第一開關(guān)元件，選擇導(dǎo)通語(yǔ)音非語(yǔ)音鑒別模塊和通用音頻編碼器，或者選擇導(dǎo)通語(yǔ)音非語(yǔ)音鑒別模塊和語(yǔ)音編碼器；第二開關(guān)元件，選擇導(dǎo)通碼流格式器和通用音頻編碼器，或者選擇導(dǎo)通碼流格式器和語(yǔ)音編碼器。
3、根據(jù)權(quán)利要求1所述的可擴(kuò)展的數(shù)字音頻編碼框架，其特征在于，立體聲模塊在編碼時(shí)，立體聲信號(hào)經(jīng)左右聲道混合得到的單聲道信號(hào)。
4、一種數(shù)字音頻編碼的擴(kuò)展方法，包括如下步驟(1 )在帶寬擴(kuò)展模塊中，利用接收到的PCM流中的噪聲信號(hào)進(jìn)行帶寬擴(kuò)展并發(fā)送；(2)在立體聲模塊中，利用接收到的PCM流中的立體聲信號(hào)，從所述立體聲信號(hào)中提取立體聲參數(shù)，形成輔助的比特流，并發(fā)送；(3 )在核心編碼器中，將接收到的PCM流中的音頻信號(hào)或者語(yǔ)音信號(hào) 進(jìn)4亍編碼，并發(fā)送；(4)碼流格式器接收帶寬擴(kuò)展模塊、立體聲模塊、核心編碼器的輸入信號(hào)，進(jìn)行組合編碼形成輸出流。
5、根據(jù)權(quán)利要求4所述的數(shù)字音頻編碼的擴(kuò)展方法，其特征在于，步驟(3)具體為(31 )語(yǔ)音非語(yǔ)音鑒別模塊接收PCM流，鑒別和區(qū)分PCM流中的語(yǔ) 音信號(hào)、音頻信號(hào)，并將語(yǔ)音信號(hào)或者音樂(lè)信號(hào)選擇發(fā)送；(32)當(dāng)語(yǔ)音非語(yǔ)音鑒別模塊發(fā)送音頻信號(hào)時(shí)，第一開關(guān)元件選擇導(dǎo)通語(yǔ)音非語(yǔ)音鑒別模塊和通用音頻編碼器；當(dāng)語(yǔ)音非語(yǔ)音鑒別模塊發(fā)送語(yǔ)音信號(hào)時(shí)，第一開關(guān)元件選擇導(dǎo)通語(yǔ)音非語(yǔ)音鑒別模塊和語(yǔ)音編碼器；(33 )通用音頻編碼器對(duì)接收到的音頻信號(hào)進(jìn)行編碼，經(jīng)第二開關(guān)元件發(fā)送到所述碼流格式器；或者，語(yǔ)音編碼器對(duì)接收到的語(yǔ)音信號(hào)進(jìn)行編碼，經(jīng)第二開關(guān)元件發(fā)送到所述碼流格式器。
全文摘要
本發(fā)明公開了一種可擴(kuò)展的數(shù)字音頻編碼框架，包括核心編碼器，接收PCM流，對(duì)所述PCM流中的音頻信號(hào)或者語(yǔ)音信號(hào)進(jìn)行單聲道和編碼，并發(fā)送；帶寬擴(kuò)展模塊，接收PCM流中的噪聲信號(hào)，所述帶寬擴(kuò)展模塊利用噪聲信號(hào)中的低頻分量來(lái)重建高頻分量，將引導(dǎo)信息加載到編碼后的碼流中，發(fā)送到碼流格式器；立體聲模塊，接收PCM流中的立體聲信號(hào)，從所述立體聲信號(hào)中提取立體聲參數(shù)，形成輔助的比特流，發(fā)送到碼流格式器；碼流格式器，接收核心編碼器、帶寬擴(kuò)展模塊、立體聲模塊的信號(hào)，形成輸出碼流。本發(fā)明還公開了一種數(shù)字音頻編碼的擴(kuò)展方法。
文檔編號(hào)G10L19/00GK101202042SQ20061016586
公開日2008年6月18日申請(qǐng)日期2006年12月14日優(yōu)先權(quán)日2006年12月14日
發(fā)明者睿陳申請(qǐng)人:中興通訊股份有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：陳睿
技術(shù)所有人：中興通訊股份有限公司
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

數(shù)字音頻編碼器相關(guān)技術(shù)

數(shù)字音頻編碼相關(guān)技術(shù)

hevc編碼框架相關(guān)技術(shù)

混合編碼框架相關(guān)技術(shù)

視頻編碼框架相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

可擴(kuò)展的數(shù)字音頻編碼框架及其擴(kuò)展方法