專利名稱:一種用于多媒體會議的快速實時混音方法
技術領域:
本發(fā)明涉及一種多媒體會議通信技術,確切地說,涉及一種用于多媒體會議的快速實時混音方法,屬于多媒體會議通信中的混音技術領域。
背景技術:
近年來,多媒體會議已經(jīng)成為多媒體通信發(fā)展的熱點之一。在多媒體會議系統(tǒng)中,混音處理是其中的關鍵環(huán)節(jié),直接影響用戶之間的相互交流。因為作為多媒體會議中最基本的要素-音頻交流最為頻繁,其對實時性的要求也遠遠高于視頻及數(shù)據(jù)。為了能夠有更好的會議臨場感,與會者希望能同時聽到多個發(fā)言者的聲音,在分散控制會議模式下,每個發(fā)言者的語音信號都單獨傳送給與會者,在終端處進行混音后再播放。這種方式需要占用大量的網(wǎng)絡帶寬,影響語音信號的質(zhì)量,并對終端設備的要求較高。
為此,ITU-T提出了集中控制會議模式,在MCU(Multipoint Control Unit)中對來自各個發(fā)言者的語音信號進行混音處理后,再將處理結果傳送給與會者,這樣就大大降低了網(wǎng)絡的傳輸負擔和終端的處理能力。其中對語音信號進行混音處理是集中控制會議模式的關鍵技術。
目前,人們已經(jīng)研制出來了多種混音方法,但是它們存在一個共同缺點在混音過程中音量發(fā)生忽大忽小的變化。其原因是現(xiàn)有的各種混音算法中的每路音頻輸入的混音權重是時間t的函數(shù),這樣隨著時間的變化,其混音權重也會隨之發(fā)生變化,進而導致各路音頻流的音量會隨著時間不同而有不同程度的縮放,進而造成音量在混音過程中發(fā)生忽大忽小的變化,嚴重影響了語音的識別。因此如何尋找一個與時間t無關的權重進行混音處理,就成為業(yè)內(nèi)人士關注的焦點。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明的目的是提供一種用于多媒體會議的快速實時混音方法,即采用非均勻混音波形的收縮計算方法,又稱AWS算法(AsymmetricalWave-Shrinking audio mixing algorithm),本發(fā)明基于在語音信號中低強度信號比高強度信號出現(xiàn)幾率更高的事實,使用與時間和混音輸入無關的恒定混音權重,來解決混音過程中的音量忽大忽小的變化問題,該方法混音速度快、容易采用硬件實現(xiàn),可以廣泛應用于大規(guī)模的多媒體會議系統(tǒng)中。
為了達到上述目的,本發(fā)明提供了一種用于多媒體會議的快速實時混音方法,其特征在于先對輸入信號進行線性疊加,再對該疊加信號進行分段收縮處理,使得混音后的輸出信號值處于正常范圍內(nèi);在分段收縮處理過程中,使用與時間和混音輸入無關的分段收縮因子,且各分段收縮因子構成一等比級數(shù),即采用數(shù)值大的收縮因子對該疊加信號低強度部分進行較小壓縮,采用按比例縮小的數(shù)值小的收縮因子對該疊加信號高強度部分進行較大壓縮,以解決混音過程中音量忽大忽小變化的問題。
所述方法包括下列步驟(A)先計算系統(tǒng)在t時刻將全部M路音頻輸入信號進行線性疊加后得到的疊加信號bM+1(t)=Σi=1Mai(t),]]>式中,ai(t)是在t時刻解碼后的第i路音頻輸入信號;再計算系統(tǒng)在t時刻將所有M路音頻輸入信號的疊加信號bM+1(t)中減去其中第j路的音頻輸入信號aj(t)后,得到除去aj(t)外的其他M-1路音頻輸入的疊加信號bj(t)=bM+1(t)-aj(t);(B)先計算上述步驟求得的疊加信號的絕對值,再按照每段的標準長度數(shù)值2Q-1進行均勻分段,得到下述各個均勻分段區(qū)間區(qū)間1
,…,區(qū)間n((n-1)2Q-1,n2Q-1],區(qū)間(n+1)(n2Q-1,(n+1)2Q-1],…;若疊加信號的絕對值大小落入?yún)^(qū)間n((n-1)2Q-1,n2Q-1],則稱其為(n-1)級強度信號;然后計算疊加信號bj(t)的強度等級nj=[|bj(t)|/2Q-1],即不包括剩余的不夠標準長度的尾段的整段區(qū)間數(shù);式中,函數(shù)[x]表示取不大于x的最大整數(shù),函數(shù)|x|表示取x的絕對值;Q是音頻信號進行量化的量化精度,在該量化精度下,每一路音頻輸入信號的取值范圍在區(qū)間[-2Q-1,2Q-1-1]內(nèi);(C)分別計算第j路音頻的混音輸出信號b′j(t)=sgn(bj(t))(Σi=0nj-1k-1k(1k)i2Q-1+k-1k(1k)nj(|bj(t)|mod2Q-1)),]]>式中,基本收縮因子k為大于1的正整數(shù),函數(shù)sgn(x)表示取x的符號,運算符mod表示模運算,其中尾段數(shù)值是把疊加信號的絕對值|bj(t)|以值2Q-1為模進行模運算得到的,即|bj(t)|mod2Q-1;當全部M+1路混音輸出信號計算完畢后,操作結束。
所述步驟(C)進一步包括下列操作步驟在步驟(B)對疊加信號的絕對值大小進行分段的基礎上,先把包括整段和尾段的各段區(qū)間的信號絕對值分別進行收縮處理,且每個區(qū)間采用不同的收縮因子區(qū)間1的收縮因子為 區(qū)間2的收縮因子為 區(qū)間3的收縮因子為 依次類推,區(qū)間(n+1)的收縮因子為 把各個整段和尾段的各段區(qū)間信號絕對值都收縮后,進行疊加處理,再乘以原疊加信號的正負號,即獲得原疊加信號的壓縮信號-每路音頻混音輸出信號b’j(t),該壓縮信號b’j(t)的取值范圍仍保持在區(qū)間[-2Q-1,2Q-1-1]內(nèi);由于各區(qū)間的收縮因子是與時間t無關的常數(shù),所以疊加信號收縮后能夠避免音量的忽大忽小變化。
所述步驟(C)中,實際應用時基本收縮因子k的值選擇2的整數(shù)次冪,以方便二進制運算;推薦值為8或16。
本發(fā)明是一種用于多媒體會議的快速實時混音方法,通過對目前現(xiàn)有的混音算法的分析研究,人們得出的結論是變化的混音權重是導致音量忽大忽小的主要原因。本發(fā)明方法采用與時間和混音輸入無關的恒定混音權重的非均勻波形收縮混音算法,較好地解決了混音過程中音量忽大忽小變化的問題,混音后的語音自然、清楚、流暢,沒有噪音,避免了音量突變;同時該混音方法中的全部計算,都可以通過二進制的加、減、移位、與等操作快速完成,不需要進行乘除法操作,也沒有浮點運算,容易采用硬件實現(xiàn),因此,本發(fā)明具有很好的應用前景,能夠廣泛應用于大規(guī)模的多媒體會議系統(tǒng)中。
圖1是本發(fā)明用于多媒體會議的快速實時混音方法操作步驟方框圖。
具體實施例方式
為使本發(fā)明的目的、技術方案和優(yōu)點更加清楚,下面結合附圖對本發(fā)明作進一步的詳細描述。
假設在多媒體會議中,一共有M位代表參加發(fā)言,則共有M路音頻輸入信號參與混音,且這些參與混音的輸入信號都是已經(jīng)經(jīng)過采樣、量化、濾波等處理后的數(shù)字信號。這樣,一位參與會議并發(fā)言的代表就要接收其他M-1路音頻混音后的輸出信號,即除去自己一路后的其余各路音頻混音后的輸出信號。另外,混音后的輸出信號共有M+1路,該第M+1路混音輸出信號是將全部M路輸入信號進行混音后的輸出信號,可供不參與發(fā)言的與會代表收聽使用。
參見圖1,介紹本發(fā)明用于多媒體會議的快速實時混音方法,其包括下列步驟(一)先計算系統(tǒng)在t時刻將全部M路音頻輸入信號進行線性疊加后得到的疊加信號bM+1(t)=Σi=1Mai(t),]]>式中,ai(t)是在t時刻解碼后的第i路音頻輸入信號;再計算系統(tǒng)在t時刻將所有M路音頻輸入信號的疊加信號bM+1(t)中減去其中第j路的音頻輸入信號aj(t)后,得到除去aj(t)外的其他M-1路音頻輸入的疊加信號bj(t)=bM+1(t)-aj(t);(二)先計算上述步驟求得的疊加信號的絕對值,再按照每段的標準長度數(shù)值2Q-1進行均勻分段,得到下述各個均勻分段區(qū)間區(qū)間1
,…,區(qū)間n((n-1)2Q-1,n2Q-1],區(qū)間(n+1)(n2Q-1,(n+1)2Q-1],…;若疊加信號的絕對值大小落入?yún)^(qū)間n((n-1)2Q-1,n2Q-1],則稱其為(n-1)級強度信號;然后計算疊加信號bj(t)的強度等級nj=[|bj(t)|/2Q-1],即不包括剩余的不夠標準長度的尾段的整段區(qū)間數(shù);式中,函數(shù)[x]表示取不大于x的最大整數(shù),函數(shù)|x|表示取x的絕對值;Q是音頻信號進行量化的量化精度,在該量化精度下,每一路音頻輸入信號的取值范圍在區(qū)間[-2Q-1,2Q-1-1]內(nèi);(三)分別計算第j路音頻的混音輸出信號b′j(t)=sgn(bj(t))(Σi=0nj-1k-1k(1k)i2Q-1+k-1k(1k)nj(|bj(t)|mod2Q-1)),]]>式中,基本收縮因子k為大于1的正整數(shù),函數(shù)sgn(x)表示取x的符號,運算符mod表示模運算,其中尾段數(shù)值是把疊加信號的絕對值|bj(t)|以值2Q-1為模進行模運算得到的,即|bj(t)|mod2Q-1;當全部M+1路混音輸出信號計算完畢后,操作結束。
該步驟的物理含義是在步驟(B)對疊加信號的絕對值大小進行分段的基礎上,先把包括整段和尾段的各段區(qū)間的信號絕對值分別進行收縮處理,即把疊加信號按區(qū)間分別進行壓縮處理,且每個區(qū)間采用不同的收縮因子區(qū)間1的收縮因子為 區(qū)間2的收縮因子為 區(qū)間3的收縮因子為 依次類推,區(qū)間(n+1)的收縮因子為 把各個整段和尾段的各段區(qū)間信號絕對值都收縮后,進行疊加處理,再乘以原疊加信號的正負號,即獲得原疊加信號的壓縮信號-每路音頻混音輸出信號b’j(t),該壓縮信號b’j(t)的取值范圍仍保持在區(qū)間[-2Q-1,2Q-1-1]內(nèi);由于各區(qū)間的收縮因子是與時間t無關的常數(shù),所以疊加信號收縮后能夠避免音量的忽大忽小變化。
在本發(fā)明方法的實際應用中,首要考慮是基本收縮因子k的取值,為了方便二進制運算,通常k取2的整數(shù)次冪。根據(jù)計算的特點,k值太小會對較大的收縮波形造成整體失真,太大又會導致高強度信號嚴重失真,所以推薦取k=8或16。
下面介紹本發(fā)明方法的一個實施例此時,根據(jù)ITU-T G.7xx系列規(guī)范,取Q=16。由于在實施過程中,要大量計算區(qū)間收縮因子 的值,下面分別以k=8和Q=16為例,說明如何快速計算區(qū)間收縮因子 的值。
由于7=4+2+1,所以7x=4x+2x+x=(x<<2)+(x<<1)+x,式中運算符<<表示二進制的左移位運算,進而78(78)njx=((x<<2)+(x<<1)+x)>>(3×(nj+1)),]]>式中運算符>>表示二進制的右移位運算,同時注意到 對于固定的nj、k和Q來說是常數(shù),并且當n=5,k=8和Q=16時,k-1k(1k)n2Q-1=78(18)5215=0.875]]>已經(jīng)小于1,所以可以忽略掉nj>5以后的數(shù)值.于是得到下述表1 這樣在實際應用中,可以直接查詢表1來快速獲得 的值。
此外,對于前述公式中的模(mod)運算,可以用二進制的與(&)操作完成,即|bj(t)|mod2Q-1=|bj(t)|&(2Q-1-1)。所以,本發(fā)明混音方法中的全部計算都可以通過二進制的加、減、移位、與等操作快速完成,不需要進行乘除法操作,沒有浮點運算,容易采用硬件實現(xiàn),具有很好的應用前景。
權利要求
1.一種用于多媒體會議的快速實時混音方法,其特征在于先對輸入信號進行線性疊加,再對該疊加信號進行分段收縮處理,使得混音后的輸出信號值處于正常范圍內(nèi);在分段收縮處理過程中,使用與時間和混音輸入無關的分段收縮因子,且各分段收縮因子構成一等比級數(shù),即采用數(shù)值大的收縮因子對該疊加信號低強度部分進行較小壓縮,采用按比例縮小的數(shù)值小的收縮因子對該疊加信號高強度部分進行較大壓縮,以解決混音過程中音量忽大忽小變化的問題。
2.根據(jù)權利要求1所述的用于多媒體會議的快速實時混音方法,其特征在于所述方法包括下列步驟(A)先計算系統(tǒng)在t時刻將全部M路音頻輸入信號進行線性疊加后得到的疊加信號bM+1(t)=Σi=1Mai(t),]]>式中,ai(t)是在t時刻解碼后的第i路音頻輸入信號;再計算系統(tǒng)在t時刻將所有M路音頻輸入信號的疊加信號bM+1(t)中減去其中第j路的音頻輸入信號aj(t)后,得到除去aj(t)外的其他M-1路音頻輸入的疊加信號bj(t)=bM+1(t)-aj(t);(B)先計算上述步驟求得的疊加信號的絕對值,再按照每段的標準長度數(shù)值2Q-1進行均勻分段,得到下述各個均勻分段區(qū)間區(qū)間1
,...,區(qū)間n((n-1)2Q-1,n2Q-1],區(qū)間(n+1)(n2Q-1,(n+1)2Q-1],...;若疊加信號的絕對值大小落入?yún)^(qū)間n((n-1)2Q-1,n2Q-1],則稱其為(n-1)級強度信號;然后計算疊加信號bj(t)的強度等級nj=[|bj(t)|/2Q-1],即不包括剩余的不夠標準長度的尾段的整段區(qū)間數(shù);式中,函數(shù)[x]表示取不大于x的最大整數(shù),函數(shù)|x|表示取x的絕對值;Q是音頻信號進行量化的量化精度,在該量化精度下,每一路音頻輸入信號的取值范圍在區(qū)間[-2Q-1,2Q-1-1]內(nèi);(C)分別計算第j路音頻的混音輸出信號b′j(t)=sgn(bj(t))(Σi=0nj-1k-1k(1k)i2Q-1+k-1k(1k)nj(|bj(t)|mod2Q-1)),]]>式中,基本收縮因子k為大于1的正整數(shù),函數(shù)sgn(x)表示取x的符號,運算符mod表示模運算,其中尾段數(shù)值是把疊加信號的絕對值|bj(t)|以值2Q-1為模進行模運算得到的,即|bj(t)|mod2Q-1;當全部M+1路混音輸出信號計算完畢后,操作結束。
3.根據(jù)權利要求1所述的用于多媒體會議的快速實時混音方法,其特征在于所述步驟(C)進一步包括下列操作步驟在步驟(B)對疊加信號的絕對值大小進行分段的基礎上,先把包括整段和尾段的各段區(qū)間的信號絕對值分別進行收縮處理,且每個區(qū)間采用不同的收縮因子區(qū)間1的收縮因子為 區(qū)間2的收縮因子為 區(qū)間3的收縮因子為 依次類推,區(qū)間(n+1)的收縮因子為 把各個整段和尾段的各段區(qū)間信號絕對值都收縮后,進行疊加處理,再乘以原疊加信號的正負號,即獲得原疊加信號的壓縮信號-每路音頻混音輸出信號b’j(t),該壓縮信號b’j(t)的取值范圍仍保持在區(qū)間[-2Q-1,2Q-1-1]內(nèi);由于各區(qū)間的收縮因子是與時間t無關的常數(shù),所以疊加信號收縮后能夠避免音量的忽大忽小變化。
4.根據(jù)權利要求3所述的用于多媒體會議的快速實時混音方法,其特征在于所述步驟(C)中,實際應用時基本收縮因子k的值選擇2的整數(shù)次冪,以方便二進制運算;推薦值為8或16。
全文摘要
一種用于多媒體會議的快速實時混音方法,是先對輸入信號進行線性疊加,再對該疊加信號進行分段收縮處理,使得混音后的輸出信號值處于正常范圍內(nèi);在分段收縮處理過程中,使用與時間和混音輸入無關的分段收縮因子,且各分段收縮因子構成一等比級數(shù),即采用數(shù)值大的收縮因子對疊加信號低強度部分進行較小壓縮,采用按比例縮小的數(shù)值小的收縮因子對疊加信號高強度部分進行較大壓縮,以便解決混音過程中的音量忽大忽小變化的問題。該方法混音速度快,混音后的語音自然、清楚、流暢,沒有噪音,避免了音量突變;所有計算可通過二進制的加、減、移位、與等操作快速完成,沒有乘除法和浮點運算,容易采用硬件實現(xiàn),可廣泛應用于大規(guī)模多媒體會議系統(tǒng)中。
文檔編號H04L12/18GK1805006SQ20061000156
公開日2006年7月19日 申請日期2006年1月24日 優(yōu)先權日2006年1月24日
發(fā)明者廖建新, 王晶, 王純, 李煒, 王文林, 朱曉民, 武家春, 張磊, 樊利民, 程莉 申請人:北京郵電大學