專利名稱:聲道轉(zhuǎn)換的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及音頻信號(hào)處理。特別是,本發(fā)明涉及表示一個(gè)聲場(chǎng)的M個(gè)輸入聲道至表示同一聲場(chǎng)的N個(gè)輸出聲道的轉(zhuǎn)換,其中每個(gè)聲道是表示由一個(gè)方向抵達(dá)的聲頻的單個(gè)音頻流,M和N是正整數(shù),且M至少為2。
背景技術(shù):
雖然人類只有兩只耳朵,但我們能聽(tīng)出實(shí)際三維的聲音,這依賴于多個(gè)定位提示,例如頭部相關(guān)的轉(zhuǎn)換函數(shù)(HRTF)和頭部運(yùn)動(dòng)。所以完全逼真的聲音再現(xiàn)要求保留并再現(xiàn)全三維聲場(chǎng),或者至少需要被感覺(jué)的提示。不幸的是,聲音記錄技術(shù)不適應(yīng)于獲取三維聲場(chǎng),也不適應(yīng)二維平面聲音的獲取,甚至不適應(yīng)一維直線聲音的獲取。當(dāng)前的聲音記錄技術(shù)只適合于獲取、保存和表現(xiàn)零維的離散聲道。
自從Edison發(fā)明聲音記錄以來(lái)關(guān)于改進(jìn)逼真度的努力大多集中于克服其原始的模擬式紋道受調(diào)的圓柱體/圓盤媒體的缺陷。這些缺陷包括有限且不平坦的頻率響應(yīng),噪聲,失真,抖晃,速度精度,磨損,污垢和復(fù)制損害。雖然已有一些對(duì)于局部改進(jìn)的零散努力,包括電子放大,磁帶記錄,減小噪音以及價(jià)格比某些汽車還高的放音機(jī),但是各聲道質(zhì)量的傳統(tǒng)問(wèn)題在直到研發(fā)了一般的數(shù)字記錄,尤其是引入音頻光盤(CD)之前證明沒(méi)有最終解決。自研發(fā)了數(shù)字記錄特別是CD以來(lái),除了進(jìn)一步擴(kuò)展數(shù)字記錄的質(zhì)量到24比特/96kHz(千赫茲)取樣的一些努力之外,在聲音再現(xiàn)研究方面的主要努力集中于降低為保持各聲道質(zhì)量所需之?dāng)?shù)據(jù)量—大都采用感知編碼器,以及提高空間逼真度。這后一個(gè)問(wèn)題是本文的主題。
改進(jìn)空間逼真度的努力已沿著兩條路線進(jìn)行試圖傳送整個(gè)聲場(chǎng)的感知提示,以及試圖傳送實(shí)際的原始聲場(chǎng)的一個(gè)近似。采用前一方法的系統(tǒng)實(shí)例包括雙聲道記錄和基于兩個(gè)揚(yáng)聲器的虛擬環(huán)繞聲系統(tǒng)。這些系統(tǒng)存在多個(gè)不幸的缺陷,尤其是在可靠地定位某些方向上的聲音方面,以及要求使用耳機(jī)或在單個(gè)的固定的聽(tīng)位置上收聽(tīng)方面。
無(wú)論是在一間居室中還是諸如電影院這樣的營(yíng)業(yè)場(chǎng)所,為了再現(xiàn)立體聲給多位聽(tīng)眾,唯一可行的方法是嘗試來(lái)近似實(shí)際的原始聲場(chǎng)。如果給定聲音記錄的離散信道特性,這是不會(huì)令人驚奇的目前大多數(shù)努力包括可謂保守地增加再現(xiàn)聲道的數(shù)量。表示性系統(tǒng)包括50年代早期的移動(dòng)-單聲道三揚(yáng)聲器電影膠片音軌,常規(guī)立體聲,60年代的四聲道立體聲,70毫米電影膠片上的五聲道離散磁性音軌,70年代采用矩陣的杜比環(huán)繞聲,90年代的AC-3 5.1聲道環(huán)繞聲和近來(lái)的環(huán)繞-EX6.1聲道環(huán)繞聲?!癉olby”(杜比)、“Pro Logic”和“Surround EX”(環(huán)繞-EX)是Dolby實(shí)驗(yàn)室特許公司的商標(biāo)。在不同程度上,這些系統(tǒng)提供比單聲道再現(xiàn)改善了的空間再現(xiàn)。然而大量聲道的混音導(dǎo)致更多時(shí)間和費(fèi)用負(fù)擔(dān)在內(nèi)容制作者身上,并且導(dǎo)致的感受典型的是幾個(gè)分散的離散聲道中的一個(gè),而不是一個(gè)連續(xù)的聲場(chǎng)。Dolby的Pro Logic解碼被描述在美國(guó)專利4,799,260中,該專利全部?jī)?nèi)容在此作為參考。AC-3的詳細(xì)內(nèi)容描述在先進(jìn)電視系統(tǒng)委員會(huì)(ATSC)1995年12月20日公布的文檔A/52“數(shù)字音頻壓縮標(biāo)準(zhǔn)(AC-3)”中(可在互聯(lián)網(wǎng)的萬(wàn)維網(wǎng)網(wǎng)址www.atsc.org/Standards/A52/a-52.doc得到)。也可見(jiàn)1999年7月22日的勘誤表(可在互聯(lián)網(wǎng)的萬(wàn)維網(wǎng)網(wǎng)址www.dolby.com/tech/ATSC err.pdf得到)。
本發(fā)明的基礎(chǔ)概述在一個(gè)無(wú)信源的波介質(zhì)中重建一個(gè)任意分布的基礎(chǔ)由一個(gè)高斯定理提供,此定理規(guī)定在某個(gè)區(qū)域內(nèi)的波場(chǎng)完全由沿區(qū)域邊界的壓力分布確定。這意味著,在一間居室的范圍內(nèi)重建音樂(lè)廳中的聲場(chǎng)原理上可如此實(shí)現(xiàn)在音樂(lè)廳內(nèi)設(shè)置居室,墻是隔音的,然后通過(guò)在墻的外側(cè)配置無(wú)限個(gè)極小話筒而使墻變成聲學(xué)上透明的,每個(gè)話筒信號(hào)經(jīng)適當(dāng)放大后連接到一個(gè)在居室墻內(nèi)的對(duì)應(yīng)揚(yáng)聲器。通過(guò)在話筒和揚(yáng)聲器之間插入一個(gè)適當(dāng)?shù)挠涗浢襟w,一個(gè)圓滿的—可能是不切實(shí)際的—精確三維聲音再現(xiàn)系統(tǒng)被實(shí)現(xiàn)了。剩下的設(shè)計(jì)工作是使此系統(tǒng)變?yōu)閷?shí)用的。
邁向?qū)嵱没牡谝徊娇赏ㄟ^(guò)注意到感興趣的信號(hào)是頻帶受限的—上限約20kHz,并應(yīng)用空間取樣定理來(lái)完成,空間取樣定理是更常用的時(shí)域取樣定理的變型。后者是說(shuō),如果一個(gè)連續(xù)的限帶的時(shí)域波形以至少兩倍于信源最高頻率的速率被離散地取樣,則不丟失信息??臻g取樣定理出于相同的考慮,它規(guī)定空間取樣間隔必須至少為最短波長(zhǎng)密度的兩倍密度,以避免信息的丟失。因?yàn)?0kHz的波長(zhǎng)在空氣中約為3/8英寸,這意味著一個(gè)精確的三維聲音系統(tǒng)可用間隔不大于3/16英寸的話筒和揚(yáng)聲器的陣列實(shí)現(xiàn)。擴(kuò)展到一個(gè)典型的9英尺×12英尺房間的所有表面,這產(chǎn)生大約2.5百萬(wàn)個(gè)聲道,這對(duì)于無(wú)限個(gè)而言是明顯的改進(jìn),但目前仍是不實(shí)際的。可是,它建立了利用作為空間取樣的離散聲道陣列的基本方法,根據(jù)該方法,應(yīng)用適當(dāng)?shù)膬?nèi)插可以再生聲場(chǎng)。
一旦聲場(chǎng)被表征,原理上這是可能的一個(gè)解碼器產(chǎn)生最佳信號(hào)饋給任一輸出揚(yáng)聲器。饋送到這樣一個(gè)解碼器的聲道在本文件不同地方被稱為“基本”、“被傳送的”和“輸入”聲道,并且位置不對(duì)應(yīng)于基本的聲道中的一個(gè)聲道的位置的任何輸出信道將被稱為一個(gè)“中間”聲道。一個(gè)輸出聲道也可以有一個(gè)與一個(gè)基本輸入聲道相一致的位置。
所以要求減少離散聲道空間取樣或基本聲道的數(shù)目。實(shí)現(xiàn)這一點(diǎn)可以基于以下事實(shí)在1500Hz(赫茲)以上聽(tīng)覺(jué)不再跟隨各個(gè)周期,而只跟隨臨界頻帶包絡(luò)。這允許聲道間隔與1500Hz相對(duì)應(yīng),大約為3英寸。這將減小9英尺×12英尺房間的聲道總數(shù)到大約6000個(gè),相比于前面的配置,有效地減少了約2.49百萬(wàn)個(gè)聲道。
在任何情況下,理論上可借助于心理聲學(xué)的定位極限而進(jìn)一步縮減空間取樣聲道數(shù)。對(duì)于居中的聲音,水平的分辨力極限約為1度的弧,對(duì)應(yīng)的垂直分辨力極限約為5度。如果這個(gè)密度適當(dāng)?shù)財(cái)U(kuò)展在一個(gè)球面上,結(jié)果將仍然是數(shù)百到數(shù)千個(gè)聲道。
發(fā)明內(nèi)容
按照本發(fā)明,一個(gè)處理將表示一個(gè)聲場(chǎng)的M個(gè)輸入聲道轉(zhuǎn)換為表示同一聲場(chǎng)的N個(gè)輸出聲道,其中每個(gè)聲道是表示由一個(gè)方向抵達(dá)的聲音的單個(gè)音頻流,M和N是正整數(shù),且M至少為2。一組或多組輸出聲道被產(chǎn)生,每一組有一個(gè)或多個(gè)輸出聲道。每一組與兩個(gè)或更多的空間上相鄰的輸入聲道相聯(lián)系,并且一組中的每個(gè)輸出聲道由一個(gè)處理產(chǎn)生,此處理包括確定兩個(gè)或更多個(gè)輸入聲道的相關(guān)性度量和兩個(gè)或更多個(gè)輸入聲道的電平相互關(guān)系。
在本發(fā)明的一個(gè)方面,多組輸出聲道被聯(lián)系于多于兩個(gè)的輸入聲道,并且其處理按照分級(jí)次序確定與每組輸出聲道聯(lián)系的那些輸入聲道的相關(guān)性,使得每組或多組按照輸入聲道的個(gè)數(shù)被排序,這些輸入聲道被聯(lián)系于這組輸出聲道(一個(gè)或多個(gè))。輸入聲道的最大數(shù)目對(duì)應(yīng)最高階次,處理過(guò)程根據(jù)其分級(jí)次序依序處理各組。此外按照本發(fā)明的一個(gè)方面,處理過(guò)程考慮對(duì)較高階次的組處理的結(jié)果。
本發(fā)明的放音或解碼方面假設(shè)M個(gè)表示由一個(gè)方向抵達(dá)的聲音的輸入聲道中每一個(gè)由每個(gè)源方向的一個(gè)被動(dòng)-矩陣的最近-相鄰的幅度-跟隨編碼產(chǎn)生(即一個(gè)源方向是被假設(shè)主要映射最鄰近的基本聲道(一個(gè)或多個(gè))),而不需要附加側(cè)鏈信息(側(cè)鏈或輔助信息的利用是可選的),從而它與現(xiàn)有混音的技術(shù)、控制臺(tái)和格式兼容。雖然這些源信號(hào)可以通過(guò)直接使用一個(gè)被動(dòng)編碼矩陣產(chǎn)生,大多數(shù)常用的記錄方法固有產(chǎn)生這些源信號(hào)(所以,構(gòu)成一個(gè)“有效編碼矩陣”)。本發(fā)明的放音或解碼方面也與自然記錄的源信號(hào)大都兼容,例如用5個(gè)實(shí)際的定向話筒記錄的信號(hào),因?yàn)樵试S某些可能的時(shí)延,從中間方向抵達(dá)的聲音傾向于主要映射到最鄰近的話筒(在一個(gè)水平陣列中,明確地映射到最鄰近的一對(duì)話筒中)。
按照本發(fā)明的一個(gè)解碼器或解碼處理可以被實(shí)現(xiàn)為相連的處理模塊或模塊功能(以后稱為“解碼模塊”)的網(wǎng)格,每一個(gè)解碼模塊被用于從與該解碼模塊相聯(lián)的兩個(gè)或更多的空間上最鄰近的基本聲道產(chǎn)生一個(gè)或多個(gè)輸出聲道(或者產(chǎn)生可用于產(chǎn)生一個(gè)或多個(gè)輸出聲道的控制信號(hào))。輸出聲道體現(xiàn)關(guān)聯(lián)到具體解碼模塊的空間上最鄰近的基本信道中音頻信號(hào)的相對(duì)比例。如下面更詳細(xì)解釋的那樣,在模塊共享節(jié)點(diǎn)和存在解碼模塊分級(jí)的意義上解碼模塊互相松散耦合。模塊按照與其相聯(lián)系的基本聲道的數(shù)目被分級(jí)排序(具有最多數(shù)目相關(guān)基本聲道的一個(gè)模塊或多個(gè)模塊有最高階次)。一個(gè)管理程序功能如此管理這些模塊公共節(jié)點(diǎn)信號(hào)被公平地共享,并且較高階次的解碼器模塊可以影響較低階次模塊的輸出。
每個(gè)解碼器模塊可以有效地包括一個(gè)矩陣,使得它直接產(chǎn)生輸出信號(hào),或者每個(gè)解碼器模塊可產(chǎn)生控制信號(hào),這些控制信號(hào)與其它解碼器模塊產(chǎn)生的控制信號(hào)一起被用于改變一個(gè)可變矩陣的系數(shù)或改變輸入到一個(gè)固定矩陣的或從一個(gè)固定矩陣輸出的比例因子,以產(chǎn)生所有的輸出信號(hào)。
解碼器模塊模仿人耳的工作,力求給出感覺(jué)透明的再現(xiàn)。每個(gè)解碼器模塊可被實(shí)現(xiàn)為或者寬頻帶的或者多頻帶的結(jié)構(gòu)或功能,在后者情況下或者用一個(gè)連續(xù)的濾波器組,或者用一個(gè)塊結(jié)構(gòu),例如采用諸如在每個(gè)頻帶上做相同實(shí)質(zhì)處理的一個(gè)基于變換的處理器。
雖然基礎(chǔ)發(fā)明一般涉及M個(gè)輸入聲道至N個(gè)輸出聲道的空間轉(zhuǎn)換,其中M和N是正整數(shù),且M至少為2,該發(fā)明的另一內(nèi)容是通過(guò)合宜地依靠虛擬映像,接收N個(gè)輸出聲道的揚(yáng)聲器數(shù)量可減小到一個(gè)實(shí)用的數(shù)值,即在未放置揚(yáng)聲器的空間位置上形成感覺(jué)到的聲像。虛擬映像最普通的應(yīng)用是通過(guò)在聲道之間移動(dòng)一個(gè)單聲信號(hào)立體再現(xiàn)兩個(gè)揚(yáng)聲器之間的一個(gè)映像的軌跡。虛擬映像對(duì)于具有少量聲道的群再現(xiàn)來(lái)說(shuō)不被認(rèn)為是一種可行的方法,因?yàn)樗笫章?tīng)者與兩個(gè)揚(yáng)聲器等距離或近似等距。例如,在電影院中左前方和右前方的揚(yáng)聲器對(duì)于大多數(shù)聽(tīng)眾獲得一個(gè)中央聲像的有用的幻像而言相距太遠(yuǎn)了,因此作為許多對(duì)話源的中央聲道是重要的,一個(gè)物理的中央揚(yáng)聲器被使用。
然而,當(dāng)揚(yáng)聲器的密度被增大時(shí),對(duì)大多數(shù)聽(tīng)眾來(lái)說(shuō),至少對(duì)于平滑移動(dòng)的范圍,可在任何一對(duì)揚(yáng)聲器之間出現(xiàn)虛擬映像的位置將可達(dá)到;揚(yáng)聲器足夠時(shí),揚(yáng)聲器之間的間隙不再能被感知。這樣的一個(gè)陣列具有對(duì)比前面推出的二百萬(wàn)的陣列幾乎不能區(qū)分的潛力。
為了測(cè)試本發(fā)明的效果,我們開(kāi)發(fā)了一個(gè)水平陣列,每面墻上5個(gè)揚(yáng)聲器,考慮公用的角落揚(yáng)聲器,總共16個(gè),加上以大約45度的垂直角置于收聽(tīng)者上方的一圈6個(gè)揚(yáng)聲器,再加上直接在收聽(tīng)者上方的單個(gè)揚(yáng)聲器,共23個(gè),加上一個(gè)超重低音揚(yáng)聲器(LFE聲道),總計(jì)24個(gè),所有聲道都由用于24聲道放音的一臺(tái)PC(個(gè)人計(jì)算機(jī))饋給。雖然按現(xiàn)在的說(shuō)法這個(gè)系統(tǒng)可被叫作23.1聲道系統(tǒng),為了簡(jiǎn)單,這里它將被稱為一個(gè)24聲道系統(tǒng)。
圖1是一個(gè)頂視圖,它簡(jiǎn)示出符合上面所述測(cè)試安排的一個(gè)理想化的解碼結(jié)構(gòu)。5個(gè)水平廣范圍的基本聲道作為外國(guó)上的方塊1’、3’、5’、9和13’被示出。一個(gè)垂直聲道被示作中心處的虛線方塊23’,該聲道可能由5個(gè)廣范圍的基本聲道通過(guò)相關(guān)或所產(chǎn)生的混響而導(dǎo)出,或者單獨(dú)提供。23個(gè)寬范圍輸出聲道由相應(yīng)數(shù)字1-23標(biāo)出的實(shí)心圓示出。外圓上16個(gè)輸出聲道在一個(gè)水平面上,內(nèi)圓上6個(gè)輸出聲道在水平面上方45度。輸出聲道23直接在一個(gè)或多個(gè)聽(tīng)眾上方。5個(gè)兩輸入解碼模塊由外圓上箭頭24-28示出,它們連接在每一對(duì)水平基本聲道之間。5個(gè)附加的兩輸入垂直解碼模塊由箭頭29-33示出,連接垂直聲道到水平聲道中的每一個(gè)。被升高的中央靠后的聲道即輸出聲道21由一個(gè)三輸入解碼模塊導(dǎo)出,它由輸出聲道21與基本聲道9、13和23之間的箭頭示出。所以每個(gè)模塊與相應(yīng)的一對(duì)或三個(gè)空間上最鄰近的基本聲道相關(guān)聯(lián)。雖然圖1中示出的解碼模塊有3個(gè)、4個(gè)或5個(gè)輸出聲道,但一個(gè)解碼模塊可有任意合理個(gè)數(shù)的輸出聲道。一個(gè)輸出聲道可定位于一個(gè)或多個(gè)基本聲道中間或在與一個(gè)基本聲道相同的位置上。所以在圖1例中,每一個(gè)基本聲道位置上也有一個(gè)輸出聲道。每個(gè)輸入聲道被兩個(gè)或三個(gè)解碼模塊共享。
如將要討論的,本發(fā)明的設(shè)計(jì)目標(biāo)是放音處理器應(yīng)能原則上工作于任意個(gè)數(shù)的揚(yáng)聲器及其排列結(jié)構(gòu),24聲道的陣列將用來(lái)作為一個(gè)說(shuō)明例,但不是按照本發(fā)明取得一個(gè)令人信服的連續(xù)被感知的聲場(chǎng)所需要的密度和排列結(jié)構(gòu)的唯一例子。
能夠應(yīng)用大的且可以由用戶選擇的放音聲道個(gè)數(shù)這一要求提出了離散聲道個(gè)數(shù)問(wèn)題和/或其它信息,這些必須被傳達(dá)給放音處理器,以便它至少作為一個(gè)選項(xiàng)導(dǎo)出上面描述的24個(gè)聲道。顯然,一種可能的方法是簡(jiǎn)單地傳送24個(gè)離散信道,但除了信息生產(chǎn)者必須混合這樣多個(gè)獨(dú)立的聲道可能是很麻煩的,并且傳送如此多的聲道對(duì)于傳輸媒體也可能是麻煩的之外,最好不這樣,因?yàn)?4聲道結(jié)構(gòu)只是許多可能中的一種,并且需要能由一個(gè)公共的傳送信號(hào)陣列產(chǎn)生較多或較少的放音聲道。
再生輸出聲道的一個(gè)途徑是應(yīng)用正式的空間內(nèi)插,為每個(gè)輸出產(chǎn)生一個(gè)被傳送聲道的固定加權(quán)和,假設(shè)這些聲道的密度足夠大,大到能夠允許這樣做。然而,這將需要數(shù)以千計(jì)到數(shù)以百萬(wàn)計(jì)的被傳送聲道,相當(dāng)于用數(shù)百個(gè)抽頭的FIR濾波器實(shí)現(xiàn)單個(gè)信號(hào)的時(shí)域內(nèi)插。被傳送聲道減少到實(shí)用數(shù)量需要應(yīng)用心理聲學(xué)原理和由足夠少的聲道更積極的動(dòng)態(tài)內(nèi)插,但仍然沒(méi)有回答以下問(wèn)題為了產(chǎn)生一個(gè)完好的聲場(chǎng)感覺(jué)需要多個(gè)聲道。
這個(gè)問(wèn)題被幾年前本發(fā)明人完成的、并最近被其它人重復(fù)的一個(gè)實(shí)驗(yàn)回答了。至少較早實(shí)驗(yàn)的基礎(chǔ)是觀察到傳統(tǒng)的兩聲道雙耳記錄能再現(xiàn)真實(shí)的左/右聲像分布,但是導(dǎo)致不穩(wěn)定的前/后位置確定,部分因?yàn)樗肏RTF的不完善,并且沒(méi)有頭部運(yùn)動(dòng)提示。為避開(kāi)此缺陷,一個(gè)雙-雙耳(4聲道)記錄被實(shí)現(xiàn),它用相距對(duì)應(yīng)人頭部尺寸的兩對(duì)定向話筒。一對(duì)話筒面朝前,另一對(duì)面朝后。得到的記錄在靠近頭部隔開(kāi)的4個(gè)揚(yáng)聲器上放音,以減輕聲學(xué)交叉耦合效應(yīng)。此結(jié)構(gòu)從每一對(duì)揚(yáng)聲器給出真實(shí)的左/右定時(shí)和幅度定位提示,話筒和揚(yáng)聲器的對(duì)應(yīng)的離散位置給出清楚的前/后信息。此結(jié)果是一個(gè)非常令人信服的環(huán)繞聲放音,只是缺少高度信息的適當(dāng)表現(xiàn)。最近其它人的實(shí)驗(yàn)加進(jìn)一個(gè)中央正前聲道和兩個(gè)高度聲道,給出了同樣的真實(shí)感,甚至可能由于加進(jìn)了高度信息而改善了。
所以,從心理聲學(xué)考慮和實(shí)驗(yàn)提供的證據(jù)兩方面,看來(lái)相關(guān)的感覺(jué)信息可以在大概4至5個(gè)“類似雙耳”的水平聲道,再加上一個(gè)或多個(gè)垂直聲道中被傳遞。然而,雙耳聲道對(duì)的信號(hào)交叉饋送特性使得它們不適合于直接給一組揚(yáng)聲器放音,因?yàn)樵谥虚g頻率范圍和在低頻只有非常小的隔離度。因而與在編碼器引入交叉饋送(像對(duì)一個(gè)雙耳對(duì)所做的那樣)以只需在解碼器取消它相比,這是更為簡(jiǎn)單的和更加直接的保持聲道相互隔離并從最近的被傳送聲道混合輸出聲道信號(hào)。這樣做不僅可以通過(guò)同樣個(gè)數(shù)的揚(yáng)聲器而不用解碼器來(lái)直接放音,如果需要,還對(duì)少數(shù)聲道用一個(gè)被動(dòng)矩陣解碼器進(jìn)行可選用的下混,而且它基本對(duì)應(yīng)于現(xiàn)有的5.1聲道的標(biāo)準(zhǔn)排列結(jié)構(gòu),至少在水平面上是對(duì)應(yīng)的。它也廣泛兼容于自然記錄,例如可用5個(gè)實(shí)際的定向話筒實(shí)施的記錄,因?yàn)樵试S某些可能的時(shí)延,由中間方向抵達(dá)的聲音將傾向于主要映射到最近的話筒(在水平陣列中,尤其是映射到最近的一對(duì)話筒)。
所以,從感覺(jué)的角度看,這應(yīng)是可能的一個(gè)聲道轉(zhuǎn)換解碼器接受一個(gè)標(biāo)準(zhǔn)的5.1聲道節(jié)目,并通過(guò)任意個(gè)數(shù)的水平排列的揚(yáng)聲器—包括前述24聲道陣列中的16個(gè)水平揚(yáng)聲器—實(shí)現(xiàn)有說(shuō)服力的放音。通過(guò)附加一個(gè)垂直聲道,就像有時(shí)為一個(gè)數(shù)字電影系統(tǒng)所建議的那樣,可以對(duì)全部24聲道陣列饋送分別導(dǎo)出的、感覺(jué)有效的信號(hào),這些信號(hào)一起產(chǎn)生一個(gè)在大多數(shù)收聽(tīng)位置上感覺(jué)到的連續(xù)聲場(chǎng)。當(dāng)然,如果在編碼現(xiàn)場(chǎng)可以得到精細(xì)結(jié)構(gòu)的源聲道,關(guān)于它們的附加信息可被用來(lái)有效地改變編碼矩陣定標(biāo)因子,以預(yù)補(bǔ)償解碼器的局限性,或者可以簡(jiǎn)單地包括進(jìn)來(lái)作為附加的側(cè)鏈(輔助)信息,可能類似于用在AC-3(Dolby Digital)多聲道編碼中的耦合坐標(biāo),但是在感覺(jué)上這樣的附加信息應(yīng)是不必要的;并且實(shí)際上,包含這種信息的要求是不需要的。聲道轉(zhuǎn)換解碼器的所需工作不局限于用5.1聲道的信源工作,并可以用較少或較多的聲道,但是至少有理由相信,可靠的性能可從5.1聲道信源獲得。
剩下的未回簽的一個(gè)問(wèn)題是如何由被傳送聲道的稀疏陣列提取中間的輸出聲道。本發(fā)明的一個(gè)方面所建議的解決方案是再利用虛擬映象的概念,但是稍微作些變化。先前已注意到,虛擬映像對(duì)于用稀疏的揚(yáng)聲器陣列進(jìn)行群放音是不適用的,因?yàn)樗笫章?tīng)者與每個(gè)揚(yáng)聲器的距離近似相等。但是它經(jīng)過(guò)改造可對(duì)不規(guī)則地就座的一個(gè)收聽(tīng)者給出中間幻像聲道的感覺(jué),這是對(duì)于那些振幅已經(jīng)在最近的實(shí)際輸出聲道之間移動(dòng)的信號(hào)。所以在本發(fā)明的一個(gè)方面中建議聲道轉(zhuǎn)換解碼器包括一系列模塊化的內(nèi)插信號(hào)處理器,每個(gè)處理器有效模仿一個(gè)最佳就座的收聽(tīng)者,并且每個(gè)以模仿人類聽(tīng)覺(jué)系統(tǒng)的方法工作,以由振幅移動(dòng)的信號(hào)提取那些將形成虛擬映像的成份,并將它們饋給實(shí)際的揚(yáng)聲器;揚(yáng)聲器最好足夠密地排列,使得自然的虛擬映象能充滿在揚(yáng)聲器之間剩余的間隙中。
一般,每個(gè)解碼模塊由最鄰近的被傳送基本聲道導(dǎo)出其輸入,例如,對(duì)于一個(gè)天幕式(在頂上的)揚(yáng)聲器陣列,可以是3個(gè)或更多的基本聲道。產(chǎn)生與多于兩個(gè)的基本聲道有關(guān)系的輸出聲道的一種方法可以是進(jìn)行一系列成對(duì)的操作,例如,某些成對(duì)解碼模塊的輸出饋給其它模塊的輸入。然而,這有兩個(gè)缺點(diǎn)。一個(gè)缺點(diǎn)是級(jí)聯(lián)解碼模塊引入多個(gè)級(jí)聯(lián)的時(shí)間常數(shù),導(dǎo)致某些輸出聲道比其它聲道反應(yīng)更快,從而引起聲音位置假象。第二個(gè)缺點(diǎn)是成對(duì)相關(guān)只能沿著一對(duì)聲道之間直線安插中間的或?qū)С龅妮敵雎暤?;三個(gè)或更多基本聲道的應(yīng)用超出了這個(gè)限制。因此,通常成對(duì)相關(guān)的一個(gè)擴(kuò)展已被開(kāi)發(fā),用于相關(guān)三個(gè)或更多的輸出信號(hào),這個(gè)技術(shù)在下面被說(shuō)明。
人耳中的水平定位主要基于兩個(gè)定位提示兩耳間振幅差和兩耳間時(shí)間差。后者僅對(duì)于時(shí)間上近似對(duì)準(zhǔn)的—差+600微秒左右—信號(hào)對(duì)有效。實(shí)際效果是幻像的中間映像將只出現(xiàn)在對(duì)應(yīng)于一個(gè)具體的左/右振幅差的位置上,假定在兩個(gè)真實(shí)聲道中公共的信號(hào)成份是相關(guān)的或者近似相關(guān)的(注兩個(gè)信號(hào)可以有+1到-1之間的交叉相關(guān)值。完全相關(guān)的信號(hào)(相關(guān)值=1)有相同波形且時(shí)間上對(duì)準(zhǔn),但是可以有不同的幅度,對(duì)應(yīng)于偏離中心的映像位置)。當(dāng)一個(gè)信號(hào)對(duì)的相關(guān)值低于1時(shí),感覺(jué)到的映像將展寬,直到對(duì)于兩個(gè)不相關(guān)的信號(hào),將不存在中間映像,只有分離的且不同的左和右映像。負(fù)的相關(guān)通常被耳朵處理為類似于不相關(guān)的信號(hào)對(duì),雖然這兩個(gè)映像可在更寬范圍內(nèi)擴(kuò)展。相關(guān)被實(shí)現(xiàn)在一個(gè)臨界頻帶基礎(chǔ)上,且在約1500Hz以上,臨界頻帶信號(hào)包絡(luò)被用來(lái)代替信號(hào)本身,以節(jié)省人類計(jì)算需求(MIPS)。
垂直定位更復(fù)雜一點(diǎn),依賴于HRTF頂提示和水平提示隨頭部運(yùn)動(dòng)的動(dòng)態(tài)調(diào)制,但是最終的效應(yīng)類似于水平定位相對(duì)于移動(dòng)的振幅、交叉相關(guān)以及相應(yīng)感覺(jué)到的映像位置和匯合。然而垂直空間分辨力精度低于水平分辨力,并且為了適當(dāng)?shù)膬?nèi)插性能,不需要那么密的基本聲道陣列。
利用定向的處理器—它模仿人耳的工作—的好處是信號(hào)處理的任何不完善或限制應(yīng)能通過(guò)人耳的類似的不完善和限制在感覺(jué)上掩飾掉,從而允許下述可能性系統(tǒng)被感覺(jué)與原來(lái)的完全連續(xù)的放音幾乎沒(méi)有區(qū)別。
雖然本發(fā)明被設(shè)計(jì)能有效地應(yīng)用于不管多或少的輸出聲道可用的情形(包括不解碼而由與輸入聲道同樣多的揚(yáng)聲器進(jìn)行的放音,以及被動(dòng)的下混到較少的聲道,包括單聲,立體聲和兼容Lt/Rt的環(huán)繞聲),最好力求使用多的和有點(diǎn)隨意的、然而實(shí)用的個(gè)數(shù)的放音聲道/揚(yáng)聲器,并且使用類似或更少個(gè)數(shù)的編碼聲道,包括現(xiàn)有的5.1聲道環(huán)繞聲道,以及可能的下一代11或12聲道數(shù)字電影聲道作為源材料。
本發(fā)明的實(shí)施要求體現(xiàn)四個(gè)原理誤差遏制,優(yōu)勢(shì)保持,恒定功率和同步平滑。
誤差遏制的概念是在給定的解碼錯(cuò)誤可能性下,每個(gè)源的解碼后位置應(yīng)該在合理的意義下接近其真實(shí)的預(yù)期方向。這規(guī)定了解碼策略中一定程度的保守性。存在更為積極的解碼,它們伴隨著錯(cuò)誤事件中可能更大的空間上的不一致,通常推薦接受較小精度的解碼,以換取確保的空間遏制。甚至在更高精度的解碼有把握被應(yīng)用的情況下,如果存在著動(dòng)態(tài)信號(hào)條件要求解碼器在積極的和保守的方式之間接合以生成人造聲像的可能,應(yīng)用更高精度的解碼可能是不明智的。
優(yōu)勢(shì)保持是誤差遏制的一個(gè)更為有約束力的變種,它要求單個(gè)的良好確定的優(yōu)勢(shì)信號(hào)應(yīng)能被解碼器只移動(dòng)到最鄰近的那些輸出聲道中。這個(gè)條件對(duì)于保持優(yōu)勢(shì)信號(hào)的映像匯合是必要的,并且有利于感覺(jué)出矩陣解碼器的離散性。當(dāng)一個(gè)信號(hào)是占優(yōu)勢(shì)的時(shí)候,它被從其它輸出聲道中抑制掉,方法是或者從相關(guān)基本信號(hào)中減去它,或者直接使其它輸出聲道的矩陣系數(shù)互補(bǔ)于用于產(chǎn)生優(yōu)勢(shì)信號(hào)的矩陣系數(shù)(“反優(yōu)勢(shì)系數(shù)/信號(hào)”)。
恒定功率解碼不僅要求總的解碼輸出功率等于輸入功率,而且要求在傳送的基本陣列中被編碼的每個(gè)聲道和定向信號(hào)的輸入/輸出功率相等。這使增益變化產(chǎn)生的假象最小。
同步平滑意味著對(duì)系統(tǒng)施加與信號(hào)相關(guān)的平滑時(shí)間常數(shù),并且要求如果一個(gè)解碼模塊中的任一平滑網(wǎng)絡(luò)被切換到快速時(shí)間常數(shù)模式,在此模塊中的所有其它平滑網(wǎng)絡(luò)同樣被切換。這是為了避免新占優(yōu)的定向信號(hào)呈現(xiàn)緩慢衰落/離開(kāi)以前的優(yōu)勢(shì)方向。
圖1是一個(gè)示意圖,示出一個(gè)理想化的解碼器安排結(jié)構(gòu)的俯視圖。
具體實(shí)施例方式
解碼模塊因?yàn)榫幋a任一源方向被假設(shè)為主要映射到最鄰近的聲道上,聲道轉(zhuǎn)換解碼是基于一系列半自動(dòng)的解碼模塊,它們?cè)谕ǔ5囊饬x上再生輸出聲道,尤其是中間輸出聲道,每一個(gè)輸出聲道通常由所有被傳送聲道的一個(gè)子集,以類似于人耳的方法求出。
以類似于人耳的方法,解碼模塊的工作基于幅度比和交叉相關(guān)的結(jié)合,幅度比用于確定標(biāo)稱的當(dāng)前主方向,交叉相關(guān)用于確定映像的相對(duì)寬度。
應(yīng)用由幅度比和交叉相關(guān)求出的控制信號(hào),處理器產(chǎn)生輸出聲道的聲音信號(hào)。因?yàn)檫@最好基于線性關(guān)系實(shí)現(xiàn),以避免產(chǎn)生失真,解碼器形成包含有感興趣信號(hào)的基本聲道的加權(quán)和。(像下面解釋的那樣,也可要求在計(jì)算加權(quán)和中也包括非鄰近的基本聲道)。這個(gè)有限的但動(dòng)態(tài)的內(nèi)插方式更常被稱為矩陣化。如果在信源中,需要的信號(hào)被映射(振幅移動(dòng))到最鄰近的M個(gè)基本聲道中,則是一個(gè)M:N矩陣解碼的問(wèn)題。換言之,輸出聲道表示輸入聲道相對(duì)比例。
特別是在兩輸入解碼模塊的情況中,它很象有源的2:N矩陣解碼器涉及的問(wèn)題,例如新型號(hào)的Dolby Pro Logic矩陣解碼器,它具有成對(duì)的解碼模塊輸入端對(duì)應(yīng)于Lt/Rt編碼信號(hào)。
注意2:N矩陣解碼器的輸出有時(shí)稱為基本聲道。然而在本文中用“基本”來(lái)稱呼聲道轉(zhuǎn)換解碼器的輸入聲道。
然而,在現(xiàn)有技術(shù)的自主2:N解碼器與本發(fā)明解碼模塊的工作之間至少有一個(gè)有意義的區(qū)別。前者除了用左/右幅度指示左/右位置,這一點(diǎn)也是聲道轉(zhuǎn)換解碼器的假設(shè),它們還用相互聲道的相位指示前/后位置,特別是基于Lt/Rt編碼聲道的和/差比。
這種自主2:N解碼器結(jié)構(gòu)有兩個(gè)問(wèn)題。一個(gè)問(wèn)題是,例如完全相關(guān)的(前方的),但是偏離中心的信號(hào)將導(dǎo)致和/差比小于無(wú)限大,從而不正確地指示一個(gè)不完全在前方的位置(類似于完全反相關(guān)的偏離中心的背后信號(hào))。結(jié)果是一個(gè)有點(diǎn)變形的解碼空間。第二個(gè)缺點(diǎn)是,位置映射是多對(duì)一的,引入固有的解碼錯(cuò)誤。例如在一個(gè)4:2:4矩陣系統(tǒng)中,一對(duì)沒(méi)有前-入或背-入的非相關(guān)的左-入和右-入信號(hào)將映射與信號(hào)相同的純凈的,非相關(guān)的Lt/Rt對(duì),也可映射一個(gè)沒(méi)有左-入/右-入的非相關(guān)的前-入/后-入對(duì),或者映射所有4個(gè)不相關(guān)輸入的內(nèi)容。解碼器面對(duì)一個(gè)不相關(guān)的Lt/Rt對(duì)沒(méi)有選擇,而“放松此矩陣”,即用一個(gè)被動(dòng)矩陣分配聲音到所有輸出聲道上。不可能解碼為一個(gè)同時(shí)只有左-出/右-出,或只有前-出/背-出的信號(hào)陣列。
根本的問(wèn)題在于,在N:2:N矩陣系統(tǒng)中應(yīng)用相互聲道的相位來(lái)編碼前/后位置,這不同于人耳的工作,人耳不用相位來(lái)判別前/后位置。本發(fā)明最好用至少三個(gè)不在一條直線上的基本聲道來(lái)工作,使得前/后位置由基本聲道的設(shè)定方向指示,而不是根據(jù)它們的相對(duì)相位或極性給出不同的方向,這樣,一對(duì)不相關(guān)的或反-相關(guān)的聲道轉(zhuǎn)換的基本信號(hào)明確地解碼為分離的基本-輸出聲道信號(hào),沒(méi)有中間信號(hào),也沒(méi)有“后方的”方向被指示。(此外,這避免了自主2:N解碼器中令人遺憾的“中心聚集”效應(yīng),其中不相關(guān)的左-入和右-入信號(hào)以減小了的分離度被放音,因?yàn)榻獯a器饋送這兩個(gè)信號(hào)的和及差給中心和周圍的聲道。)當(dāng)然,原則上可以通過(guò)用一個(gè)N:M聲道轉(zhuǎn)換系統(tǒng)與一個(gè)2:N解碼器-N=4或5-級(jí)聯(lián)來(lái)在空間上擴(kuò)展一個(gè)Lt/Rt信號(hào),但是在此情況下,2:N解碼器的任何局限性—例如中心聚集—將被帶到倍增的聲道輸出上,也可以組合這些功能到一個(gè)設(shè)計(jì)來(lái)接收2聲道Lt/Rt信號(hào)的聲道轉(zhuǎn)換解碼器,并且在此情況下改變其特性以解釋負(fù)的相關(guān)信號(hào)為具有后方的定向,保持其它的處理不變。然而,甚至在此情況下仍然存在由只有兩個(gè)被傳送的聲道所導(dǎo)致的解碼模糊。
所以,每個(gè)解碼模塊,尤其是具有兩個(gè)輸入聲道的解碼模塊類似于現(xiàn)有有源2:N解碼器,具有前/后檢測(cè)禁用或變更的,任意個(gè)數(shù)的輸出聲道。當(dāng)然數(shù)字上不可能用矩陣從較少個(gè)數(shù)的聲道唯一地產(chǎn)生較多個(gè)數(shù)的聲道,因?yàn)檫@基于解N個(gè)具有M個(gè)未知數(shù)的線性方程,而M大于N。所以期望的是,解碼模塊在存在多個(gè)自主的源方向信號(hào)時(shí)可能有時(shí)呈現(xiàn)不太好的聲道復(fù)原。然而人類聽(tīng)覺(jué)系統(tǒng)受使用兩耳的局限,將承受同樣的,允許系統(tǒng)被感覺(jué)為離用的極限,甚至用所有聲道工作時(shí)也如此。當(dāng)其它聲道被靜音時(shí)分離的聲道質(zhì)量仍然是要考慮的,這是為了照顧到坐在一個(gè)揚(yáng)聲器近處的收聽(tīng)者。
人耳的工作肯定是與頻率有關(guān)的,但是大多數(shù)聲像在所有頻率上被相關(guān),而且根據(jù)作為寬帶系統(tǒng)的Pro logic解碼器成功的經(jīng)驗(yàn)性實(shí)驗(yàn),可以預(yù)期一個(gè)寬頻帶的聲道轉(zhuǎn)換系統(tǒng)可能在某些應(yīng)用中也有令人滿意的性能。多頻帶聲道轉(zhuǎn)換解碼器應(yīng)該也是可能的,采用在逐個(gè)頻帶的基礎(chǔ)上類似的處理,并在每個(gè)情況下應(yīng)用相同的編碼信號(hào),單個(gè)頻帶的個(gè)數(shù)和帶寬可作為一個(gè)自由參數(shù)留給解碼器實(shí)現(xiàn)者。雖然多頻帶處理可能比寬帶處理要求更高的MIPS,如果輸入信號(hào)被分成數(shù)據(jù)塊,并且處理基于塊實(shí)現(xiàn),則計(jì)算需求量可能不太高。
在說(shuō)明可被本發(fā)明解碼模塊使用的算法之前,首先給出對(duì)共享節(jié)點(diǎn)的考慮。
共享節(jié)點(diǎn)如果解碼模塊所用的基本聲道組都是獨(dú)立的,則解碼模塊本身應(yīng)是獨(dú)立的,自主的實(shí)體。然而通常不是這種情況。一個(gè)給定的被傳遞聲道通常將與兩個(gè)或更多的相鄰基本聲道一起被分離的輸出信號(hào)享用。如果獨(dú)立的解碼模塊被用來(lái)解碼此陣列,每一個(gè)將被相鄰聲道的輸出信號(hào)影響,導(dǎo)致可能是嚴(yán)重的錯(cuò)誤。在功能上,兩個(gè)相鄰解碼模塊的輸出信號(hào)將“拉”向—或移向—另一個(gè),因?yàn)楣不竟?jié)點(diǎn)包含兩個(gè)信號(hào),使電平增加。如果—這里經(jīng)常發(fā)生的情況—信號(hào)是動(dòng)態(tài)的,互作用的量將大到導(dǎo)致與信號(hào)有關(guān)的動(dòng)態(tài)定位誤差大到令人不愉快。這個(gè)問(wèn)題在ProLogic和其它有源的2:N解碼中不存在,因?yàn)樗鼈冎挥袉蝹€(gè)的分離的聲道對(duì)作為解碼器輸入。
所以,補(bǔ)償“共享節(jié)點(diǎn)”效應(yīng)是必要的。一個(gè)可能的方法是,在試圖再生一個(gè)共享公共節(jié)點(diǎn)的相鄰解碼模塊的輸出信號(hào)之前,從公共節(jié)點(diǎn)中減去一個(gè)已再生的信號(hào)。這通常是不可能的,因而改用以下方法每個(gè)解碼模塊預(yù)測(cè)出現(xiàn)在共輸入聲道上的公共輸出信號(hào)能量,并且一個(gè)管理程序通知每個(gè)模塊它的相鄰模塊的輸出信號(hào)能量估計(jì)。
公共能量的成對(duì)計(jì)算例如,假設(shè)基本聲道對(duì)A/B包含一個(gè)公共信號(hào)X以及單獨(dú)的不相關(guān)的信號(hào)Y和ZA=0.707X+YR=0.707X+Z其中定標(biāo)因子0.707=0.5]]>提供了一個(gè)功率對(duì)最鄰近基本聲道保持映射。
RMS能量(A)=∫A2∂t=A2‾=(0.707X+Y)2‾=(0.5X2+0.707XY+Y2)‾]]>=0.5X2‾+0.707XY‾+Y2‾]]>因?yàn)閄和Y不相關(guān),XY=0,所以A2‾=0.5X2‾+Y2‾.]]>即,因?yàn)閄和Y不相關(guān),基本聲道A中的總能量是信號(hào)X和Y的能量和。類似地B2‾=0.5X2‾+Z2‾]]>因?yàn)閄,Y和Z是不相關(guān)的,A和B的平均交叉乘積為AB‾=0.5X2‾]]>這樣,在一個(gè)輸出信號(hào)被兩個(gè)相鄰的基本聲道—它們也可包含獨(dú)立的,不相關(guān)的信號(hào)—均分享用的情況下,信號(hào)的平均交叉一乘積等于公共信號(hào)分量在每個(gè)聲道中的能量。如果公共信號(hào)不是均分地被共享,即它偏向一個(gè)基本聲道,平均交叉乘積將是A和B中公共分量的能量之間的幾何平均,由此,單獨(dú)聲道公共能量估計(jì)能通過(guò)用聲道振幅比的平方根進(jìn)行歸一化而求出。實(shí)時(shí)的時(shí)間平均用一個(gè)具有適當(dāng)?shù)南陆禃r(shí)間常數(shù)的有漏泄積分器計(jì)算,以反映前進(jìn)中的活動(dòng)性。時(shí)間常數(shù)平滑可用非線性的上升和下降時(shí)間選件來(lái)精心完善,并且在多頻帶系統(tǒng)中,可用頻率來(lái)定標(biāo)。
更高階的公共能量計(jì)算為了求出具有三個(gè)或更多個(gè)輸入的解碼模塊的公共能量,必須形成所有輸入信號(hào)的平均交叉-乘積。簡(jiǎn)單地進(jìn)行輸入的成對(duì)處理將不能區(qū)分每對(duì)輸入與所有輸入公共的信號(hào)之間的分離的輸出信號(hào)。
例如,考慮三個(gè)基本聲道A,B和C,它們分別由不相關(guān)的信號(hào)W,Y,Z和公共的信號(hào)X組成A=X+WB=X+YC=X+Z如果平均交叉乘積被計(jì)算,像在第二階計(jì)算中那樣,所有包含W,Y和Z的組合的項(xiàng)將被消去,剩下X3的平均ABC‾=X3‾]]>不幸的是,如果X是平均值為零的時(shí)間信號(hào),則其立方的平均也是零。不像X2的平均,對(duì)任何非零的X值,X2均為正數(shù),X3與X有相同的符號(hào),從而正和負(fù)的貢獻(xiàn)部分將抵消掉。顯然,這對(duì)于X的任何奇次冪同樣成立,X的奇次冪對(duì)應(yīng)于奇數(shù)個(gè)模塊輸入,但是指數(shù)大于2的偶指數(shù)也能導(dǎo)致錯(cuò)誤的結(jié)果;例如具有分量(X,X,-X,-X)的4個(gè)輸入與(X,X,X,X)將有相同的乘積/平均值。
上述問(wèn)題可以用變形的平均乘積技術(shù)解決。在做平均之前,每個(gè)乘積的符號(hào)通過(guò)取乘積的絕對(duì)值而去除。乘積的每一項(xiàng)的符號(hào)被檢查。如果它們都相同,乘積的絕對(duì)值被送去進(jìn)行平均,如果任一符號(hào)不同于其它的,乘積的絕對(duì)值的負(fù)值被平均。因?yàn)榭赡艿耐?hào)組合的個(gè)數(shù)不等于可能的不同符號(hào)組合的個(gè)數(shù),一個(gè)加權(quán)因子被施加于變負(fù)的絕對(duì)值乘積進(jìn)行補(bǔ)償,此加權(quán)因子由同符號(hào)組合個(gè)數(shù)與不同符號(hào)組合個(gè)數(shù)的比值構(gòu)成。例如一個(gè)三輸入模塊在8個(gè)可能中有兩個(gè)同符號(hào)的可能情況,剩下的六個(gè)可能情況是不同符號(hào)的,因此定標(biāo)因子為2/6=1/3。此補(bǔ)償當(dāng)而且僅當(dāng)一個(gè)解碼模塊的所有輸入存在公共的信號(hào)分量時(shí)才導(dǎo)致積分的或相加的乘積增大。
然而,為了不同階模塊的平均可以比較,它們?nèi)w必須有相同的量綱。一個(gè)常規(guī)的二階相關(guān)包含兩輸入乘法的平均,因而量綱為能量或功率。所以在更高階相關(guān)中被平均的項(xiàng)必須也改變?yōu)橛泄β柿烤V。對(duì)于一個(gè)第K階相關(guān),各個(gè)乘積絕對(duì)值必須在平均之前變?yōu)槠渲笖?shù)為2/k的冪。
當(dāng)然,與階次無(wú)關(guān),如果需要,模塊的各個(gè)輸入節(jié)點(diǎn)的能量可計(jì)算為相應(yīng)節(jié)點(diǎn)信號(hào)的平方的平均,并且不需要首先提升到其k次冪,再減小到一個(gè)二階量。
共享的節(jié)點(diǎn)相鄰電平通過(guò)應(yīng)用基本聲道信號(hào)的平均平方和變形的交叉乘積,可以估計(jì)出公共的輸出聲道信號(hào)能量大小,上面的例子涉及單個(gè)內(nèi)插處理器,但是如果A/B(/C)節(jié)點(diǎn)的一個(gè)或多個(gè)是與另一個(gè)具有其自已的與任何其它信號(hào)不相關(guān)的公共信號(hào)分量的另一個(gè)模塊共同的,則上面計(jì)算的平均交叉-乘積應(yīng)不受影響,使得計(jì)算固有地不存在聲像率引應(yīng)效。(注如果兩個(gè)輸出信號(hào)不是相關(guān)的,它們將傾向于拉近解碼器,但是在人耳中會(huì)有一類似的效應(yīng),重新使系統(tǒng)工作對(duì)人類聽(tīng)覺(jué)仍保持忠實(shí)。)一旦每個(gè)解碼模塊已計(jì)算出在其每一基本聲道上的估計(jì)的公共輸出聲道信號(hào),管理程序功能可告知相鄰模塊每個(gè)其它的公共能量,在那一點(diǎn)處,輸出聲道信號(hào)的產(chǎn)生像下面所述那樣進(jìn)行。由一個(gè)模塊在一個(gè)節(jié)點(diǎn)上所應(yīng)用的公共能量的計(jì)算必須考慮不同階模塊可能重疊的多層結(jié)構(gòu),并且從共享同一節(jié)點(diǎn)的任一低階模塊估計(jì)的公共能量中減去一個(gè)高階模塊的公共能量。
例如,假設(shè)有兩個(gè)相鄰的表示兩個(gè)水平方向的基本聲道A和B,以及一個(gè)表示垂直方向的基本聲道C,并進(jìn)一步假設(shè)存在一個(gè)表示一個(gè)在內(nèi)部的方向(即在A,B和C的限制內(nèi)的一個(gè)方向)的信號(hào)能量為X2的中間的或?qū)С龅妮敵雎暤?。輸入?A,B,C)的三輸入模塊的公共能量將是X2,但是兩輸入模塊(A,B),(B,C)和(A,C)的公共能量也應(yīng)是X2。如果A所連接的模塊(A,B,C),(A,B)和(A,C)的公共能量簡(jiǎn)單地相加,將得到3X2,而不是X2。為了正確地計(jì)算公共節(jié)點(diǎn)能量,每個(gè)高階模塊的公共能量首先從每個(gè)重疊的低階模塊估計(jì)的公共能量中減去,從而高階模塊(A,B,C)的公共能量X2從兩個(gè)兩輸入模塊的公共能量估計(jì)中被減去,在每個(gè)情況下得到0,并且得到節(jié)點(diǎn)A處的凈公共能量估計(jì)等于X2+0+0=X2。
輸出聲道信號(hào)產(chǎn)生如前所述,以一個(gè)線性方法由傳送的聲道再生輸出聲道全體的處理基本上是一個(gè)矩陣方法,即形成基本聲道的加權(quán)和,以求出輸出聲道信號(hào)。矩陣定標(biāo)因子的最佳選擇一般是與信號(hào)無(wú)關(guān)的。確實(shí),如果當(dāng)前活動(dòng)的輸出聲道的個(gè)數(shù)等于被傳送聲道(但表示不同的方向)的個(gè)數(shù),使得系統(tǒng)是嚴(yán)格受制約的,則數(shù)學(xué)上可以計(jì)算出有效編碼矩陣的逆矩陣并還原分離的源信號(hào)原型。甚至于如果活動(dòng)的輸出聲道個(gè)數(shù)大于基本聲道個(gè)數(shù),可能仍然可以計(jì)算出一個(gè)偽逆矩陣。
不幸的是,此方法存在問(wèn)題,計(jì)算量需求—特別是基于多頻帶處理,并且面向高精度浮點(diǎn)實(shí)現(xiàn)—并是一個(gè)最重要的因素。即使中間信號(hào)被假設(shè)是位于最鄰近的基本聲道間,有效編碼矩陣的數(shù)學(xué)逆陣或偽-逆矩陣一般對(duì)每個(gè)輸出聲道有來(lái)自所有基本聲道的貢獻(xiàn),這是由于節(jié)點(diǎn)共享效應(yīng)。如果在解碼中有任何不完善—實(shí)際上這是不可避免的,一個(gè)基本聲道信號(hào)可能由一個(gè)空間上與它相距較遠(yuǎn)的輸出聲道再生,這是非常不合乎要求的。此外,偽逆矩陣計(jì)算傾向于產(chǎn)生最小RMS能量解,這大大擴(kuò)展了聲音范圍,給出最小的分離度;這是與本發(fā)明相當(dāng)不相容的。
因此,為了實(shí)現(xiàn)一個(gè)實(shí)用的容錯(cuò)解碼器—在其中有固有的空間解碼誤差,與用于信號(hào)檢測(cè)的相同模塊結(jié)構(gòu)被用于信號(hào)產(chǎn)生。
下面詳述一個(gè)解碼模塊再生輸出信號(hào)的產(chǎn)生過(guò)程。注意連接于模塊的每個(gè)輸出聲道的有效位置被假設(shè)由振幅比確定,這些振幅是定位信號(hào)到其物理位置所需的,即對(duì)應(yīng)于比方向的有效矩陣編碼系數(shù)的比值。為了避開(kāi)被零除的問(wèn)題,比值被典型地計(jì)算為一個(gè)聲道的矩陣系數(shù)除以此輸入聲道的矩陣系數(shù)(通常為1)全體的RMS和得到的商。例如,在一個(gè)輸入為L(zhǎng)和R的兩輸入模塊中所用的能量比應(yīng)是L能量除以L和R能量之和(“L-比值”),它有0至1的取值范圍。如果兩輸入解碼模塊具有5個(gè)輸出聲道,有效編碼矩陣系數(shù)對(duì)為(1.0,0)、(0.89,0.45)、(0.71,0.71)、(0.45,0.89)和(0,0.1),相應(yīng)的L-比值是1.0,0.89,0.71,0.45和0,因?yàn)槊繉?duì)定標(biāo)固子有一個(gè)1.0的RMS和。
從解碼模塊的每個(gè)輸入節(jié)點(diǎn)(基本聲道)的信號(hào)能量中減去被相鄰解碼模塊取走的任何節(jié)點(diǎn)共離信號(hào),得到歸一化的輸入信號(hào)功率電平,用于計(jì)算的余數(shù)。
優(yōu)勢(shì)方向指示被計(jì)算為基本方向被相對(duì)能量加權(quán)的矢量和。對(duì)于一個(gè)兩輸入模塊,它簡(jiǎn)化為歸一化輸入信號(hào)功率電平的L-比值。
包括優(yōu)勢(shì)方向在其中的輸出聲道通過(guò)將上一步驟中的優(yōu)勢(shì)方向L-比值與輸出聲道的L-比值進(jìn)行比較而確定。例如,如果上述五輸出解碼模塊輸入的L-比值為0.75,則第二和第三輸出聲道包括了優(yōu)勢(shì)方向,因?yàn)?.89>0.75>0.71。
映射優(yōu)勢(shì)信號(hào)到最鄰近的涵蓋聲道的移動(dòng)定標(biāo)因子由聲道的反-優(yōu)勢(shì)信號(hào)電平的比值計(jì)算得到。與特定輸出聲道相聯(lián)系的反-優(yōu)勢(shì)信號(hào)是當(dāng)對(duì)應(yīng)的解碼模塊輸入信號(hào)用輸出聲道的反-優(yōu)勢(shì)矩陣定標(biāo)因子變換的結(jié)果。一個(gè)輸出聲道的反-優(yōu)勢(shì)矩陣定標(biāo)因子是RMS和等于1的那些定標(biāo)因子,它們?cè)趩蝹€(gè)優(yōu)勢(shì)信號(hào)被定位到該輸出聲道上時(shí)導(dǎo)致零輸出。如果輸出聲道的編碼矩陣定標(biāo)因子為(A,B),則此聲道的反-優(yōu)勢(shì)定標(biāo)因子是(B,-A)。
證明如果單個(gè)優(yōu)勢(shì)信號(hào)被定位于具有編碼定標(biāo)因子(A,B)的輸出聲道上,則信號(hào)必須有振幅(KA,KB),其中K是信號(hào)的總振幅,于是,對(duì)于此聲道,反-優(yōu)勢(shì)信號(hào)是(KA*B-KB*A)=0。
因此,如果一個(gè)優(yōu)勢(shì)信號(hào)由兩輸入模塊輸入信號(hào)(x(t),y(t))組成,它具有歸一化為RMS=1的輸入振幅(X,Y),產(chǎn)生的優(yōu)勢(shì)信號(hào)為dom(t)=Xx(t)+Yy(t)。如果這個(gè)信號(hào)的位置被包括在矩陣定標(biāo)因子分別為(A,B)和(C,D)的輸出聲道之間,對(duì)于矩陣定標(biāo)因子為(A,B)的聲道定標(biāo)dom(t)的優(yōu)勢(shì)信號(hào)定標(biāo)因子是SF(A,B)=sqrt((DX-CY)/((DX-CY)+(BX-AY))),而對(duì)于矩陣定標(biāo)因子為(C,D)的聲道,相應(yīng)的優(yōu)勢(shì)信號(hào)定標(biāo)因子為
SF(C,D)=sqrt((BX-AY)/((DX-CY)+(BX-AY))),當(dāng)優(yōu)勢(shì)方向從一個(gè)輸出聲道向另一輸出聲道移去時(shí),這兩個(gè)定標(biāo)因子以相反方向在0與1之間移去,且具有不變的功率和。
反-優(yōu)勢(shì)信號(hào)用適當(dāng)?shù)膶?duì)所有非-優(yōu)勢(shì)聲道定標(biāo)的增蓋被計(jì)算和定位。反-優(yōu)勢(shì)信號(hào)是一個(gè)沒(méi)有任何優(yōu)勢(shì)信號(hào)的矩陣變換信號(hào)。如果解碼模塊的輸入為(x(t),y(t)),其歸一化振幅為(X,Y),優(yōu)勢(shì)信號(hào)是Xx(t)+Yy(t),反-優(yōu)勢(shì)信號(hào)是Yx(t)-Xy(t),與非-優(yōu)勢(shì)輸出聲道的位置無(wú)關(guān)。
除了優(yōu)勢(shì)/反-優(yōu)勢(shì)信號(hào)分布外,第二個(gè)信號(hào)分布用“被動(dòng)”矩陣計(jì)算,它基于已經(jīng)討論過(guò)的,被定標(biāo)以維持功率的輸出聲道矩陣定標(biāo)因子。
解碼模塊輸入信號(hào)的交叉相關(guān)被計(jì)算為輸入信號(hào)的平均交叉乘積除以歸一化輸入電平的乘積的平方根。
現(xiàn)在回到產(chǎn)生過(guò)程的說(shuō)明,最終輸出被計(jì)算為優(yōu)勢(shì)信號(hào)和被動(dòng)信號(hào)分布的一個(gè)加權(quán)的交叉衰落和,其中用解碼模塊的輸入信號(hào)交叉相關(guān)推出交叉衰落因子。對(duì)于相關(guān)值=1,只使用優(yōu)勢(shì)/反-優(yōu)勢(shì)分布。當(dāng)相關(guān)值減小時(shí),輸出信號(hào)陣列通過(guò)對(duì)被動(dòng)分布的交叉衰減被展寬,以實(shí)現(xiàn)在一個(gè)低的正相關(guān)值上,典型地為0.2至0.4,取決于連接到解碼模塊的輸出信道個(gè)數(shù)。當(dāng)相關(guān)值進(jìn)一步減小,趨于零時(shí),被動(dòng)振幅輸出分布逐漸向外彎曲,減小輸出信號(hào)電平,以模仿人耳對(duì)這些信號(hào)的響應(yīng)。
垂直處理至今所描述的用以從相鄰基本聲道產(chǎn)生輸出聲道信號(hào)的大多數(shù)處理與輸出和基本聲道的方向無(wú)關(guān)。然而由于人耳的水平定向性,人類聽(tīng)覺(jué)定位傾向于在垂直方向上比水平方向上有較小的對(duì)相互聲道相關(guān)性的敏感度。為保持人耳工作的真實(shí)感,這可能是需要的在用垂直一定向的輸入聲道內(nèi)插處理器中削弱相關(guān)約束,例如在使用它之前用一個(gè)彎曲函數(shù)處理相關(guān)信號(hào)。然而有可能用與水平聲道相同的處理將不帶來(lái)任何聽(tīng)覺(jué)的惡化,這樣將簡(jiǎn)化整個(gè)解碼器的結(jié)構(gòu)。
嚴(yán)格講,垂直信號(hào)包括從上方和下方來(lái)的聲音,并且所描述的解碼器結(jié)構(gòu)應(yīng)同樣好地對(duì)它們工作,但是實(shí)際中通常沒(méi)有自然聲來(lái)自下方,因而其處理和聲道可被消去而不損害所感覺(jué)的系統(tǒng)空間保真度。
此概念在應(yīng)用聲道轉(zhuǎn)換到現(xiàn)有5.1聲道環(huán)繞聲材料時(shí)可能有實(shí)際意義,當(dāng)然此材料沒(méi)有垂直聲道。然而,它可以包含垂直信息,例如飄在頭頂上的,它們的記錄跨在多個(gè)或全部水平聲道。所以,應(yīng)該可以從這些源材料中提取一個(gè)虛擬的垂直聲道,方法是考慮非-相鄰聲道或聲道組之間的相關(guān)性。如果存在上述相關(guān)性,它們通常將表示來(lái)自收聽(tīng)者上方,而不是下方的垂直信息的存在。在某些情況下,也可以由一個(gè)混響發(fā)生器導(dǎo)出虛擬的垂直信息,可能關(guān)鍵在于所用收聽(tīng)環(huán)境模型。一旦虛擬的垂直聲道從5.1聲道信源被提取或?qū)С觯凛^大個(gè)數(shù)聲道-例如前面描述的24聲道結(jié)構(gòu)—的擴(kuò)展可以象提供了一個(gè)真實(shí)的垂直聲道那樣進(jìn)行。
定向記憶關(guān)于解碼模塊控制產(chǎn)生的操作,如上所述,它類似于諸如Pro Logic的解碼器的一個(gè)2N自主解碼器的工作,本發(fā)明的一個(gè)方面是在處理中唯一的“記憶”是在平滑網(wǎng)絡(luò)中,此網(wǎng)絡(luò)產(chǎn)生基本控制信號(hào)。在任一時(shí)刻,只存在一個(gè)優(yōu)勢(shì)方向和一個(gè)輸入相關(guān)值,而信號(hào)產(chǎn)生直接根據(jù)這些信號(hào)進(jìn)行。
然而,特別是在復(fù)雜的聲學(xué)環(huán)境下(如原型的雞尾酒會(huì)),人耳呈現(xiàn)出一定程度的位置記憶,或者慣性,一個(gè)短暫的來(lái)自某給定方向的被明確定位的優(yōu)勢(shì)聲音將導(dǎo)致其它的來(lái)自非專一的方向的不能明確定位的那些聲音被感覺(jué)到來(lái)自同一個(gè)源。
可在解碼模塊中(實(shí)際上同樣在Pro Logic解碼中)模仿這個(gè)效應(yīng),方法是增加一個(gè)顯式機(jī)構(gòu)來(lái)保存最新的優(yōu)勢(shì)方向軌跡,并在方向上模糊的信號(hào)條件期間,加權(quán)輸出信號(hào)分布,使其指向最新的優(yōu)勢(shì)方向。這可以改進(jìn)由復(fù)雜信號(hào)陣列所感覺(jué)到的再生離散性和穩(wěn)定性。
修改的相關(guān)和選擇的聲道混合如前所述,每個(gè)解碼模塊的輸出分布確定是基于其輸入信號(hào)的同時(shí)的交叉相關(guān),這可能在某些情況下低估了輸出信號(hào)內(nèi)容量。例如,這將隨一個(gè)自然記錄的信號(hào)出現(xiàn),在此信號(hào)中非-中心方向有略微不同的抵達(dá)時(shí)間和不相等的振幅,這導(dǎo)致相關(guān)值減小。如果應(yīng)用大間距的話筒,相應(yīng)有更大的聲道間時(shí)延,上述效應(yīng)可能更嚴(yán)重。為了補(bǔ)償此效應(yīng),相關(guān)性計(jì)算可擴(kuò)展到覆蓋信道間時(shí)延的一個(gè)范圍,這以略為更高的處理MIPS要求為代價(jià)。因?yàn)槁?tīng)覺(jué)神經(jīng)細(xì)胞絕沒(méi)有約1毫秒的有效時(shí)間常數(shù),更加真實(shí)的相關(guān)值可以通過(guò)首先用一個(gè)具有1毫秒時(shí)間常數(shù)的平滑器對(duì)被檢測(cè)聲音進(jìn)行平滑來(lái)獲得。
此外,如果一個(gè)信息生產(chǎn)者有一個(gè)具有強(qiáng)不相關(guān)聲道的現(xiàn)有5.1聲道節(jié)目,通過(guò)輕微混合相鄰聲道,從而增加相關(guān)性,可以在用聲道轉(zhuǎn)換解碼器進(jìn)行處理時(shí)提高分布的均勻性,此方法將導(dǎo)致聲道轉(zhuǎn)換解碼模塊在其中間輸出聲道之間提供更均勻的分布。這種混音也可做成有選擇性的,例如保留中心前方聲道信號(hào)不被混音,以保持對(duì)話音軌的緊致性。
音量壓縮/擴(kuò)展當(dāng)編碼處理包括混合較大個(gè)數(shù)的聲道為較小個(gè)數(shù)聲道時(shí),如果不提供某些形式的增益補(bǔ)償,則編碼后信號(hào)有可能被限幅。這個(gè)問(wèn)題對(duì)于傳統(tǒng)的矩陣編碼同樣存在,但是對(duì)聲道轉(zhuǎn)換有更大的可能出現(xiàn),因?yàn)楸换旌蠟橐粋€(gè)給定輸出聲道的聲道數(shù)更大。為避免在這種情況下的限幅,由編碼器給出一個(gè)總的增益定標(biāo)因子,并在已編碼的比特流中傳送到解碼器。通常這個(gè)值為0dB,但是它可以被編碼器設(shè)置為一個(gè)非零的衰減值,以避免限幅,解碼器提供一個(gè)等效的補(bǔ)償增益量。
如果解碼器被用來(lái)處理一個(gè)現(xiàn)有的多聲道,它沒(méi)有這個(gè)定標(biāo)因子節(jié)目(例如,一個(gè)現(xiàn)有的5.1聲道軌跡),它應(yīng)該選用固定的定標(biāo)因子為一個(gè)假設(shè)的值(大約0dB),或者基于信號(hào)電平和/或動(dòng)態(tài)范圍應(yīng)用一個(gè)擴(kuò)展函數(shù),或應(yīng)用可能利用的元數(shù)據(jù),例如一個(gè)對(duì)話規(guī)范值,來(lái)調(diào)節(jié)解碼器增益。
本發(fā)明及其各個(gè)方面可以實(shí)現(xiàn)在模擬電路中,或者更可能作為軟件功能實(shí)現(xiàn)在數(shù)字信號(hào)處理器、編程的通用數(shù)字計(jì)算機(jī)和/或?qū)S脭?shù)字計(jì)算機(jī)中。模擬與數(shù)字信號(hào)流之間的接口可實(shí)現(xiàn)在合適的硬件中和/或作為功能實(shí)現(xiàn)在軟件和/或固件中。
權(quán)利要求
1.將表示一個(gè)聲場(chǎng)的M個(gè)輸入聲道轉(zhuǎn)換為表示同一聲場(chǎng)的N個(gè)輸出聲道的方法,其中每個(gè)聲道是表示由一個(gè)方向抵達(dá)的聲音的單個(gè)音頻流,M和N是正整數(shù),且M至少為2,該方法包括產(chǎn)生一組或多組輸出聲道,每組有一個(gè)或多個(gè)輸出聲道,其中每一組被聯(lián)系于兩個(gè)或更多的空間上相鄰的輸入聲道,并且一組中的每個(gè)輸出聲道由一個(gè)處理產(chǎn)生,此處理包括確定兩個(gè)或更多輸入聲道的相關(guān)性度量和兩個(gè)或更多輸入聲道的電平相互關(guān)系。
2.如權(quán)利要求1所述的方法,其特征在于,有一組輸出聲道聯(lián)系于兩個(gè)輸入聲道。
3.如權(quán)利要求1所述的方法,其特征在于,一個(gè)或多個(gè)所述輸出聲道組被聯(lián)系于多于兩個(gè)的輸入聲道。
4.如權(quán)利要求1所述的方法,其特征在于,一個(gè)或多個(gè)輸出聲道組比一個(gè)或多個(gè)其它輸出聲道組聯(lián)系于更多的輸入聲道,并且所述的處理按照一個(gè)分級(jí)次序確定每組輸出聲道相聯(lián)系的輸入聲道的相關(guān)性,使得每個(gè)組或多個(gè)組按照其輸出聲道所聯(lián)系的輸入聲道的個(gè)數(shù)被排序,最多的輸入聲道個(gè)數(shù)具有最高的階次,并且所述處理按照這些組的分級(jí)次序順序處理它們。
5.如權(quán)利要求4所述的方法,其特征在于,所述處理考慮對(duì)較高階次的組的處理結(jié)果。
6.如權(quán)利要求1所述的方法,其特征在于,所述的確定兩個(gè)或更多輸入聲道的相關(guān)性度量和兩個(gè)或更多輸入聲道的電平相互關(guān)系在頻率域中實(shí)現(xiàn)。
7.如權(quán)利要求1所述的方法,其特征在于,所述處理采用非線性的時(shí)間常數(shù)。
8.如權(quán)利要求1或3至8中任一項(xiàng)所述的方法,其特征在于,有三個(gè)或更多的輸入聲道表示不在一條直線上的方向。
全文摘要
本發(fā)明涉及將表示一個(gè)聲場(chǎng)的M個(gè)輸入聲道轉(zhuǎn)換為表示同一聲場(chǎng)的N個(gè)輸出聲道的方法,其中每個(gè)聲道是表示由一個(gè)方向抵達(dá)的聲音的單個(gè)音頻流,M和N是正整數(shù),且M至少為2,該方法產(chǎn)生一組或多組輸出聲道,每組有一個(gè)或多個(gè)輸出聲道。每一組被聯(lián)系于兩個(gè)或更多的空間上相鄰的輸入聲道,并且一組中的每個(gè)輸出聲道由一個(gè)處理產(chǎn)生,此處理包括確定兩個(gè)或更多輸入聲道的相關(guān)性度量和兩個(gè)或更多輸入聲道的電平相互關(guān)系。
文檔編號(hào)H04S7/00GK1524399SQ02804662
公開(kāi)日2004年8月25日 申請(qǐng)日期2002年2月7日 優(yōu)先權(quán)日2001年2月7日
發(fā)明者馬克·富蘭克林·戴維斯, 馬克 富蘭克林 戴維斯 申請(qǐng)人:多爾拜實(shí)驗(yàn)特許公司