專利名稱:一種音頻混音處理方法及其裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及音頻信號(hào)處理領(lǐng)域,具體地說(shuō),涉及一種音頻混音處理方法及其裝置。
背景技術(shù):
隨著視訊會(huì)議的越來(lái)越廣泛的應(yīng)用,對(duì)視訊會(huì)議系統(tǒng)MCU(多點(diǎn)控制單元)的處理資源要求越來(lái)越高。而在有限網(wǎng)絡(luò)帶寬資源和不降低音頻質(zhì)量的前提下,音頻處理資源的減少可以更好的滿足高質(zhì)量視音頻協(xié)議處理或者同樣的音頻處理資源實(shí)現(xiàn)更多的音頻處理接入的要求。在傳統(tǒng)視訊會(huì)議中MCU的音頻混音處理中,很多情況下大部分接入的終端聽(tīng)到的聲音都是一樣的,即可以對(duì)這部分的終端進(jìn)行統(tǒng)一處理代替單獨(dú)處理,這就給節(jié)省音頻處理資源提供了很大的空間。
傳統(tǒng)視訊會(huì)議中,如圖1所示,MCU主要是對(duì)視音頻媒體進(jìn)行處理,使參加會(huì)議的終端之間能夠互相聽(tīng)到聲音和看到圖像,其中音頻部分處理主要實(shí)現(xiàn)各接入會(huì)場(chǎng)之間混音的功能,即使到會(huì)議中會(huì)場(chǎng)能聽(tīng)到發(fā)言會(huì)場(chǎng)的聲音,發(fā)言會(huì)場(chǎng)之間也能互相聽(tīng)到聲音,從而實(shí)現(xiàn)遠(yuǎn)程交流的目的。
現(xiàn)有的解決方案一音頻處理主要包括三部分解碼處理、混音處理和編碼處理。其中解碼處理是對(duì)所有的接入會(huì)場(chǎng)進(jìn)行音頻解碼,目的是得到所有會(huì)場(chǎng)原始的音頻數(shù)據(jù);混音處理首先對(duì)這些會(huì)場(chǎng)數(shù)據(jù)進(jìn)行包絡(luò)計(jì)算和比較得到會(huì)議中發(fā)言的幾方會(huì)場(chǎng)(此處約定為最大三方,即只有在會(huì)議中各會(huì)場(chǎng)終端采集到的發(fā)言音量最大的三方,能被其他會(huì)場(chǎng)聽(tīng)見(jiàn)),然后對(duì)會(huì)議中的最大三方會(huì)場(chǎng)的聲音進(jìn)行混音,就是把音量最大三方會(huì)場(chǎng)的聲音數(shù)據(jù)疊加起來(lái)送給會(huì)議中最大三方以外的其他所有會(huì)場(chǎng),即其他會(huì)場(chǎng)均能聽(tīng)到音量最大的三方會(huì)場(chǎng)的聲音,音量最大的三方會(huì)場(chǎng)中兩兩疊加的數(shù)據(jù)送給另外一個(gè)音量最大的會(huì)場(chǎng),即音量最大三方中的任一方能聽(tīng)到其他兩方的聲音;編碼處理主要是對(duì)每個(gè)會(huì)場(chǎng)的已經(jīng)過(guò)解碼和混音處理的聲音數(shù)據(jù)進(jìn)行編碼,并輸出至?xí)?chǎng)。
如圖2所示,假設(shè)一個(gè)會(huì)議中有終端1、2、3、4、5…N,并且音量最大三方對(duì)應(yīng)的是終端1、2、3,音頻處理時(shí),首先會(huì)把收到所有終端的數(shù)據(jù)進(jìn)行解碼。然后,在混音處理中,首先對(duì)所有會(huì)場(chǎng)的包絡(luò)計(jì)算、比較得到音量最大三方終端1、2、3,所以輸出給終端1的數(shù)據(jù)為會(huì)場(chǎng)2和3的數(shù)據(jù)疊加,輸出給終端2的數(shù)據(jù)為會(huì)場(chǎng)1和3的數(shù)據(jù)疊加,輸出給終端3的數(shù)據(jù)為會(huì)場(chǎng)2和3的數(shù)據(jù)疊加,其他終端輸出終端1、2和3疊加后的數(shù)據(jù),如果下一時(shí)刻的最大三方變成了終端2、3、5,那么終端2就聽(tīng)到終端3和5的聲音,終端3就聽(tīng)到終端2和5的聲音,終端5聽(tīng)到終端2和3的聲音,其他終端聽(tīng)到終端2、3和5的聲音,其他情況依此類推。最后編碼處理部分對(duì)各終端的數(shù)據(jù)進(jìn)行編碼后輸出給對(duì)應(yīng)的終端。這樣就完成了一個(gè)會(huì)議的語(yǔ)音混音功能。
現(xiàn)有解決方案一的缺點(diǎn)在上述技術(shù)中,很多情況下一個(gè)會(huì)議中參加發(fā)言的會(huì)場(chǎng)相對(duì)固定,特別是在開(kāi)大會(huì)議的情況下,這樣終端大部分情況下聽(tīng)到的都是最大三方的聲音,如果為每個(gè)終端分配一個(gè)編碼器的資源對(duì)同樣的數(shù)據(jù)進(jìn)行編碼輸出,,需要的編碼器資源為接入終端的個(gè)數(shù)N,當(dāng)接入終端個(gè)數(shù)N值較大時(shí),就會(huì)造成資源浪費(fèi),從而增加成本。
現(xiàn)有的解決方案二技術(shù)二是在現(xiàn)有技術(shù)一的基礎(chǔ)上改進(jìn)而來(lái),其核心思想就是盡量合并相同處理的編碼器,使到資源利用率達(dá)到最高。如圖3所示,終端1、2、3作為音量最大三方并能保持一段時(shí)間(假設(shè)為2s以上),則終端4、5…N編碼需要輸出終端1、2和3產(chǎn)生的音頻數(shù)據(jù)疊加后的數(shù)據(jù),所以只需要用一個(gè)編碼器對(duì)終端1、2和3產(chǎn)生的音頻數(shù)據(jù)進(jìn)行疊加,就可以滿足終端4、5…N的輸出,而另外三個(gè)編碼器分別對(duì)輸出給發(fā)言音量最大三方即終端1、2、3的數(shù)據(jù)進(jìn)行編碼,即編碼器C1、C2、C3對(duì)應(yīng)編碼給會(huì)議中音量最大的三方會(huì)場(chǎng),編碼器C4對(duì)應(yīng)編碼給音量最大的三方以外的會(huì)場(chǎng)。在這種情況下,需要的編碼器資源為1+3=4個(gè),當(dāng)接入終端個(gè)數(shù)N值較大時(shí),本方案可節(jié)省很大部分資源。
現(xiàn)有技術(shù)二的缺點(diǎn)上面的情況是假設(shè)音量最大三方在一種情況下的處理,如果在會(huì)議中發(fā)言的會(huì)場(chǎng)發(fā)生變化,即對(duì)應(yīng)混音處理中的音量最大三方發(fā)生變化,如音量最大三方變化為終端1、4、5,此時(shí)終端1輸出終端4和5產(chǎn)生的音頻疊加后的數(shù)據(jù),終端4輸出終端1和5產(chǎn)生的音頻疊加后的數(shù)據(jù),終端5輸出終端1和4產(chǎn)生的音頻疊加后的數(shù)據(jù),其他終端輸出終端1、4和5產(chǎn)生的音頻疊加后的數(shù)據(jù)。
然而在這種會(huì)議中的最大三方發(fā)生變化,造成發(fā)送給終端的編碼器發(fā)生切換時(shí),由于編碼器的狀態(tài)是前后相關(guān)的,直接切換會(huì)影響聲音效果,從而導(dǎo)致終端聽(tīng)到的聲音效果變差。例如在上述圖3中,音量最大的三方從原來(lái)的1、2、3變化成1、4、5,則對(duì)終端2來(lái)說(shuō),原來(lái)是編碼器C2對(duì)發(fā)送給終端2的數(shù)據(jù)進(jìn)行編碼,最大三方切換成1、4、5后,發(fā)送給終端2的數(shù)據(jù)變?yōu)橛镁幋a器C4編碼,則在終端2聽(tīng)到的聲音就會(huì)在切換的一段時(shí)間內(nèi)變差。對(duì)于終端3、4、5也會(huì)出現(xiàn)同樣的問(wèn)題。
發(fā)明內(nèi)容
為解決以上問(wèn)題,本發(fā)明提供一種音頻混音處理方法和裝置,避免會(huì)議中的音量最大三方發(fā)生變化時(shí),在終端聽(tīng)到的聲音效果變差的問(wèn)題。
本發(fā)明提供的一種音頻混音處理方法,包括在音量最大的終端發(fā)生變化時(shí),對(duì)輸出給發(fā)生變化之前和之后的音量最大的終端的音頻信號(hào)分別進(jìn)行的編碼控制。
其中,所述的分別進(jìn)行的編碼控制包括對(duì)發(fā)生變化之前和之后的音量最大的終端各自分配獨(dú)立的編碼器來(lái)對(duì)所述的音頻信號(hào)進(jìn)行編碼控制。
本發(fā)明還進(jìn)一步包括,音量最大的終端保持時(shí)間超過(guò)一定閾值后,合并相同處理過(guò)程的編碼器。
其中所述的相同處理過(guò)程包括有相同的輸入和輸出信號(hào)。
并且所述的音量最大的終端是指輸入到多點(diǎn)控制單元MCU的音頻信號(hào)最強(qiáng)的一方或一方以上對(duì)應(yīng)的終端。
本發(fā)明公開(kāi)的音頻混音處理裝置,包括解碼器、混音模塊、編碼器和編碼器切換處理模塊;其中解碼器對(duì)接收到的音頻進(jìn)行音頻解碼,得到原始的音頻數(shù)據(jù);混音模塊對(duì)所述的經(jīng)過(guò)解碼器處理的音頻數(shù)據(jù)進(jìn)行包絡(luò)計(jì)算,對(duì)音量最大的幾方進(jìn)行混音處理;編碼器對(duì)已經(jīng)經(jīng)過(guò)混音處理后的音頻數(shù)據(jù)進(jìn)行編碼;編碼器切換處理模塊對(duì)進(jìn)行編碼處理的編碼器的數(shù)量和切換過(guò)程進(jìn)行控制。
其中,所述的對(duì)編碼器的數(shù)量和切換過(guò)程進(jìn)行控制的過(guò)程為在音量最大的終端發(fā)生變化時(shí),在音量最大的終端發(fā)生變化時(shí),對(duì)輸出給發(fā)生變化之前和之后的音量最大的終端的音頻信號(hào)分別分配獨(dú)立的編碼器進(jìn)行的編碼控制;一定時(shí)間后,合并相同處理過(guò)程的編碼器。并且在音量最大的終端發(fā)生變化時(shí),所述的編碼器切換處理模塊控制所述終端對(duì)應(yīng)的編碼器的信息交換,使編碼器的信息和狀態(tài)保持連續(xù)。
利用本發(fā)明,音量最大的終端發(fā)生變化時(shí),在對(duì)接入終端的音頻數(shù)據(jù)進(jìn)行解碼和混音處理后,對(duì)發(fā)生變化前后的音量最大的終端各自分配獨(dú)立的編碼器,對(duì)其輸出的音頻信號(hào)進(jìn)行編碼控制處理后送給對(duì)應(yīng)的終端。在控制了編碼器的數(shù)量的同時(shí),保證了通話質(zhì)量。
圖1為視訊會(huì)議組網(wǎng)圖;圖2為音頻部分處理示意圖;圖3為音頻合并編碼器的處理示意圖;
圖4為本發(fā)明的音頻處理系統(tǒng)框架圖;圖5為本發(fā)明實(shí)施例音頻處理流程圖。
具體實(shí)施例方式
本發(fā)明的核心思想就是在盡量合并相同處理的編碼器,同時(shí)在音量最大的幾方發(fā)生變化時(shí),對(duì)發(fā)送給終端的音頻信號(hào)進(jìn)行處理的編碼器的數(shù)量和切換過(guò)程進(jìn)行控制,在節(jié)省編碼器數(shù)量的同時(shí)保證終端音頻輸出質(zhì)量。
本發(fā)明提供的音頻混音處理系統(tǒng),對(duì)接收到的終端數(shù)據(jù)解碼后進(jìn)行混音,然后控制編碼器對(duì)混音信號(hào)進(jìn)行編碼后輸出。該系統(tǒng)包括解碼模塊、混音模塊、編碼模塊和編碼器切換處理模塊。如圖4所示,其中解碼模塊對(duì)接收到的音頻進(jìn)行音頻解碼,得到原始的音頻數(shù)據(jù);混音模塊對(duì)音頻數(shù)據(jù)進(jìn)行包絡(luò)計(jì)算,對(duì)音量最大的幾方進(jìn)行混音處理;編碼模塊對(duì)已經(jīng)經(jīng)過(guò)混音處理后原始的音頻數(shù)據(jù)進(jìn)行編碼;編碼器切換處理模塊對(duì)發(fā)送給終端的編碼器的數(shù)量和切換過(guò)程進(jìn)行控制。
本發(fā)明采用的編碼器切換方法,在音量最大的終端發(fā)生變化時(shí),對(duì)輸出給發(fā)生變化之前和之后的音量最大的終端的音頻信號(hào)分別進(jìn)行的編碼控制。保持一段時(shí)間后,合并相同處理的編碼器。
下面以一具體實(shí)施例對(duì)本發(fā)明進(jìn)行具體說(shuō)明,如圖5所示假設(shè)一會(huì)議有會(huì)場(chǎng)1、2、3、4、5、6、7、8、9、10,某時(shí)刻的音量最大三方的終端是1、2、3,下一時(shí)刻音量最大三方的終端是1、5、6,且保持2s以上。
在音量最大三方為終端1、2、3的時(shí)候,使用了4個(gè)編碼器,其中3個(gè)分別給會(huì)議中的音量最大三方,即C1編碼器分配給終端1,編碼終端2和3疊加的數(shù)據(jù);C2編碼器分配給終端2,編碼終端1和3疊加的數(shù)據(jù);C3編碼器分配給終端3,編碼終端1和2疊加的數(shù)據(jù);另外一個(gè)給其他音量最大的三方以外的終端,即終端4、5、6、7、8、9、10共用一個(gè)編碼器C4,編碼終端1、2和3疊加的數(shù)據(jù)。
在音量最大三方變化為1、5、6的時(shí)候,為了保持編碼器的連續(xù),分別給新參加混音的終端5和6另外分配了編碼器C5、C6,同時(shí)拷貝終端5和6之前的編碼器C4的信息給C5和C6,使終端5和6中的編碼信息及其編碼狀態(tài)保持連續(xù)。另外對(duì)于終端2和3,雖然送給終端2和3的數(shù)據(jù)和送給終端4、7、8、9、10的數(shù)據(jù)一樣,但為了使編碼器切換對(duì)聲音的影響減少,所以暫時(shí)保留終端2和3的編碼器,其他終端4、7、8、9、10使用的編碼器不變,用編碼器C4。終端1原來(lái)使用的編碼器C1也不改變。這樣,在音量最大三方改變?yōu)榻K端1、5、6的時(shí)候,共使用的編碼器的個(gè)數(shù)為6個(gè)。
若音量最大三方為終端1、5、6的狀態(tài)維持2s以上(假設(shè)為2s,目的是保證編碼器的切換盡量不影響聲音效果),對(duì)于終端2和3來(lái)說(shuō),其編碼器C2和C3編碼的數(shù)據(jù)和編碼器C4編碼的數(shù)據(jù)一樣,經(jīng)過(guò)一段時(shí)間(2s)的同步后,可以認(rèn)為編碼器C2和C3的狀態(tài)基本和編碼器C4的狀態(tài)一致,這樣就可以回收編碼器C2和C3,而編碼器C4編碼的數(shù)據(jù)同時(shí)送給終端2和3,即終端2、3、4、7、8、9、10共用一個(gè)編碼器C4,音量最大三方的終端分別使用各自的編碼器,此時(shí)的編碼器個(gè)數(shù)又變?yōu)?個(gè)。
如果在2s的時(shí)間內(nèi)音量最大三方終端又發(fā)生變化,如果音量最大三方的終端原來(lái)沒(méi)有獨(dú)立的編碼器,則為其分配新的編碼器,否則不需要新增編碼器。對(duì)于音量最大的三方以外的終端對(duì)應(yīng)的編碼器,如果編碼的數(shù)據(jù)與共用編碼器C4編碼的數(shù)據(jù)一樣且持續(xù)時(shí)間達(dá)到2s以上時(shí),可以回收終端對(duì)應(yīng)的編碼器,而用共用編碼器C4編碼的數(shù)據(jù)輸出。其他情況依此類推。
綜上所述,視訊會(huì)議中的音頻混音處理系統(tǒng)可以分為解碼、混音、編碼器切換、編碼等幾個(gè)部分,在對(duì)接入終端的音頻數(shù)據(jù)進(jìn)行解碼和混音處理后,根據(jù)上述編碼器切換的方法輸出需要編碼的數(shù)據(jù),然后對(duì)這些進(jìn)行編碼處理后送給對(duì)應(yīng)的終端。在保證了通話質(zhì)量的同時(shí),控制了編碼器的數(shù)量。
以上所述,僅為本發(fā)明較佳的具體實(shí)施方式
,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到的變化或替換,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)該以權(quán)利要求的保護(hù)范圍為準(zhǔn)。
權(quán)利要求
1.一種音頻混音處理方法,其特征在于,在音量最大的終端發(fā)生變化時(shí),對(duì)輸出給發(fā)生變化之前和之后的音量最大的終端的音頻信號(hào)分別獨(dú)立進(jìn)行的編碼控制。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述的分別進(jìn)行的編碼控制包括對(duì)發(fā)生變化之前和之后的音量最大的終端各自分配獨(dú)立的編碼器來(lái)對(duì)所述的音頻信號(hào)進(jìn)行編碼控制。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,音量最大的終端保持時(shí)間超過(guò)一定閾值后,合并相同處理過(guò)程的編碼器。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述的相同處理過(guò)程包括有相同的輸入和輸出信號(hào)。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述的音量最大的終端是指輸入到多點(diǎn)控制單元MCU的音頻信號(hào)最強(qiáng)的一方或一方以上對(duì)應(yīng)的終端。
6.一種音頻混音處理裝置,其特征在于,該裝置包括解碼器、混音模塊、編碼器和編碼器切換處理模塊;其中解碼器對(duì)接收到的音頻進(jìn)行音頻解碼,得到原始的音頻數(shù)據(jù);混音模塊對(duì)所述的經(jīng)過(guò)解碼器處理的音頻數(shù)據(jù)進(jìn)行包絡(luò)計(jì)算,對(duì)音量最大的幾方進(jìn)行混音處理;編碼器對(duì)已經(jīng)經(jīng)過(guò)混音處理后的音頻數(shù)據(jù)進(jìn)行編碼;編碼器切換處理模塊對(duì)進(jìn)行編碼處理的編碼器的數(shù)量和切換過(guò)程進(jìn)行控制。
7.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述的對(duì)編碼器的數(shù)量和切換過(guò)程進(jìn)行控制的過(guò)程為在音量最大的終端發(fā)生變化時(shí),對(duì)輸出給發(fā)生變化之前和之后的音量最大的終端的音頻信號(hào)分別分配獨(dú)立的編碼器進(jìn)行的編碼控制;一定時(shí)間后,合并相同處理過(guò)程的編碼器。
8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述的相同處理過(guò)程包括有相同的輸入和輸出信號(hào)。
9.根據(jù)權(quán)利要求7所述的裝置,其特征在于,在音量最大的終端發(fā)生變化時(shí),所述的編碼器切換處理模塊控制所述終端對(duì)應(yīng)的編碼器的信息交換,使編碼器的信息和狀態(tài)保持連續(xù)。
全文摘要
本發(fā)明公開(kāi)了一種音頻混音處理方法,包括在音量最大的終端發(fā)生變化時(shí),對(duì)輸入到發(fā)生變化之前和之后的音量最大的終端的音頻信號(hào)分別進(jìn)行的編碼控制。同時(shí)公開(kāi)了一種音頻混音處理裝置,包括解碼模塊、混音模塊、編碼模塊和編碼器切換處理模塊。利用本發(fā)明,音量最大的終端發(fā)生變化時(shí),在對(duì)接入終端的音頻數(shù)據(jù)進(jìn)行解碼和混音處理后,對(duì)發(fā)生變化前后的音量最大的終端各自分配獨(dú)立的編碼器,對(duì)其輸出的音頻信號(hào)進(jìn)行編碼控制處理后送給對(duì)應(yīng)的終端。在控制了編碼器的數(shù)量的同時(shí),保證了通話質(zhì)量。
文檔編號(hào)H04M3/56GK1941891SQ20061006295
公開(kāi)日2007年4月4日 申請(qǐng)日期2006年9月29日 優(yōu)先權(quán)日2006年9月29日
發(fā)明者梁麗燕 申請(qǐng)人:華為技術(shù)有限公司