專利名稱:處理音頻數(shù)據(jù)的方法和實行這個方法的聲音獲取設備的制作方法
技術領域:
本發(fā)明涉及音頻數(shù)據(jù)的處理。
關于三維空間中的聲波的傳播并且涉及特定的專門聲音模擬和/或重放的技術執(zhí)行被應用于聲學和音質(zhì)現(xiàn)象的模擬的各種音頻信號處理方法。這類處理方法規(guī)定聲場的空間編碼、其在擴音器集上或在立體聲頭戴式耳機的受話器上的傳輸和空間化再現(xiàn)。
在這些空間化聲音技術之中,可區(qū)別互補的、但通常都在同一個系統(tǒng)內(nèi)加以執(zhí)行的兩種處理類別。
一方面,第一種處理類別涉及用于合成室內(nèi)效應或(更一般地說)周圍效應的各種方法。從一個或多個聲源(被發(fā)射的信號、位置、方位、方向性或類似物)的說明中,并且根據(jù)室內(nèi)效應模型(涉及室內(nèi)幾何學、要不就是所需的聽覺),可以計算并描述一套基本聲學現(xiàn)象(直射波、反射波或繞射波)、要不就是宏觀聲學現(xiàn)象(反響與擴散場),從而可以在三維空間中傳達位于選擇的聽知覺點處的收聽者的那個層面的空間效應。然后,可以計算通常與這些反射(“二次”聲源,通過被接收的主波的再發(fā)射而活動,具有空間位置屬性)相關聯(lián)并且/或者與遲反響(對于擴散場的相互無關的信號)相關聯(lián)的信號集。
另一方面,第二種方法類別涉及聲源的位置或方向再現(xiàn)。這些方法被應用于通過以上所述的第一種類別的方法(涉及主聲源和二次聲源)來加以確定的信號,作為與它們關聯(lián)的該空間說明(該聲源的位置)的函數(shù)。特別是,通過根據(jù)該第二種類別的這類方法,可以獲得將要在擴音器或受話器上被散布的信號,以便最終給收聽者留下位于該收聽者周圍的預定的各自位置處的聲源的聽覺印象。由于收聽者對于這些聲源的位置的認識的三維空間中的分布,根據(jù)該第二種類別的這些方法被授予“三維聲像的創(chuàng)建者”的稱號。根據(jù)該第二種類別的方法通常包括這些基本聲學事件的空間編碼的第一個步驟,它會產(chǎn)生三維空間中的該聲場的表示。在第二個步驟中,這個表示被傳送或被存儲,供隨后使用。在解碼的第三個步驟中,在重放設備的擴音器或受話器上傳遞這些解碼信號。
本發(fā)明被包含在上述第二種類別內(nèi)。它尤其涉及聲源的該空間編碼和這些聲源的該三維聲音表示的規(guī)范。在一個或多個三維陣列的話筒執(zhí)行聲音捕捉的期間,它同樣也應用于“虛擬”聲源的編碼(在那里模擬聲源的應用程序,例如,游戲、空間化會議或類似物),如同應用于自然聲場的“聲學”編碼。
在聲音空間化的這各種想得到的技術之中,該“立體混響聲”途徑是較佳的。立體混響聲編碼(將進一步加以詳細地描述)存在于在球諧函數(shù)的基中(在尤其涉及仰角和方位角的球坐標中,從而體現(xiàn)了這個或這些聲音的方向的特征)表示關于一個或多個聲波的信號。關于在近場中被發(fā)射的這些波,表示這些信號并且在球諧函數(shù)的這個基數(shù)中被加以表達的這些分量也取決于發(fā)射這個場的該聲源與對應于該球諧函數(shù)基的該原點的點之間的距離。更具體地說,對于該距離的這個依靠性被表達為該聲音頻率的函數(shù),這一點將會進一步看到。
這個立體混響聲途徑尤其在虛擬聲源的模擬方面提供了大量可能的函數(shù)性,并且,按一般的方式顯示出以下各個優(yōu)點-它按合理的方式傳達該聲學現(xiàn)象的真實性,并給予逼真、動聽和陶醉的空間聽覺再現(xiàn);-該聲學現(xiàn)象的表示是可升級的它提供可以適合各種情況的空間分辨率。明確地說,在這些編碼信號的傳輸和/或該重放設備的限制期間,這個表示可以被傳送并被用作吞吐量約束的函數(shù);-該立體混響聲表示是靈活的,并且,可以模擬該聲場的旋轉,要不然,在重放時,可以使這些立體混響聲信號的解碼適應不同的幾何圖形的任何重放設備。
在該已知的立體混響聲途徑中,這些虛擬聲源的編碼本質(zhì)上是有方向的。這些編碼函數(shù)相當于是計算取決于該聲波的入射角的增益,該入射角由這些球諧函數(shù)來表達,這些球諧函數(shù)取決于球面坐標中的該仰角和該方位角。特別是,在解碼時,假設在重放時,遠遠地移走這些擴音器。這會導致這些重建波前的形狀的畸變(或扭曲)。明確地說,如上文中所指出的,對于近場,該球諧函數(shù)基中的該聲音信號的這些分量實際上也取決于該聲源與該聲音頻率的距離。更精確地說,可以以多項式的形式在數(shù)學上表達這些分量,該多項式的變量與上述距離成反比,與該聲音頻率成反比。這樣,從其理論表達式的意義上說,這些立體混響聲分量在低頻中發(fā)散,并且,特別是,當該聲音頻率減小到零時,當它們表示位于有限長的距離處的聲源所發(fā)射的近場聲音時,這些立體混響聲分量趨向于無窮大。在立體混響聲表示的領域中,這個數(shù)學現(xiàn)象(已關于階1)被稱作“低音提升”,特別是通過-M.A.GERZON,《聽覺定位的一般元理論》,第92個AES條約的預印本3306,1992年,第52頁。
對于涉及高冪的多項式的高球面諧波階而言,這個現(xiàn)象變得特別緊要。
以下文檔SONTACCHI和HLDRICH,《使用距離編碼的、關于3D聲場的進一步調(diào)查》(關于數(shù)字音頻效應(DAFX-01)的成本G-6會議的會議錄,Limerick,愛爾蘭,2001年12月6-8日),揭示了用于考慮立體混響聲表示的近表示內(nèi)的這些波前的扭曲的技術,該技術的原理在于-將(高階的)立體混響聲編碼應用于WFS類型(代表“波場合成”)的、產(chǎn)生于(被模擬的)虛擬聲音捕捉的那些信號;-根據(jù)區(qū)域邊界上的其值而在區(qū)域上重建該聲場,因此基于該HUYGENS-FRESNEL原理。
但是,雖然由于“它使用到高階的立體混響聲表示”的事實而允諾,但這個文檔中所呈現(xiàn)的該技術提出一定數(shù)量的問題-所有這些表面的計算(使“應用該HUYGENS-FRESNEL原理”成為可能)所要求的這些計算機資源、以及所要求的這些計算時間過多;-由于這些話筒之間的該距離,會出現(xiàn)被稱作“空間混疊”的處理人工制品,除非選擇被緊密隔開的虛擬話筒格柵,從而使該處理更加麻煩;-若存在真實聲源,那么,一當獲取,這項技術就難以調(diào)換到將要被布置在陣列中的傳感器的真實情況;-關于重放,該三維聲音表示被含蓄地約束于該重放設備的固定半徑,因為這里必須在與那個最初的話筒陣列相同尺度的擴音器陣列上執(zhí)行該立體混響聲解碼,這個文檔沒有提議使該編碼或該解碼適應其他尺寸的重放設備的方法。
首先,這個文檔呈現(xiàn)傳感器的水平陣列,從而假設正被討論的該聲學現(xiàn)象在這里只在水平方向上傳播,從而排除任何其他的傳播方向,并因此不表示普通聲場的物理真實性。
更一般的情況是,通過當前技術,無法令人滿意地處理任何類型的聲源(尤其是近場源),而是可以處理被遠遠地移走的聲源(平面波),這對應于眾多應用中的限制性和人工情況。
本發(fā)明的目的是提供一種方法,用于通過編碼、傳輸和重放來處理任何類型的聲場,尤其是該近場中的聲源的該效應。
本發(fā)明的另一個目的是提供一種允許虛擬聲源的編碼的方法——不僅以方向方式,而且以距離方式;并且,定義能適應任何重放設備的解碼。
本發(fā)明的另一個目的是在話筒的三維陣列的幫助下,尤其為自然聲場的聲音捕捉來提供一種魯棒性方法,用于處理任何聲音頻率(包括低頻)的聲音。
為此目的,本發(fā)明提議一種處理聲音數(shù)據(jù)的方法,其中a)表現(xiàn)出在三維空間中傳播并且產(chǎn)生于離參考點有第一距離的聲源的至少一個聲音的信號被進行編碼,以便獲得對應于所述參考點的原點的、在球諧函數(shù)的基中被加以表達的分量所作出的該聲音的表示;以及,b)通過取決于第二距離的過濾,近場效應的補償被應用于所述分量,該第二距離實質(zhì)上為重放設備所執(zhí)行的該聲音的重放來定義重放點與聽知覺點之間的距離。
在第一個實施例中,所述聲源正被遠遠移離該參考點,-為球諧函數(shù)的所述基中的該聲音的該表示來獲得連續(xù)階m的分量;以及,-應用濾波器,其各個系數(shù)(每個被應用于階m的分量)以冪m的多項式的顛倒的形式來加以分析上的表達,其變量與該聲頻率成反比,與所述第二距離成反比,以便補償該重放設備的該層面處的近場效應。
在第二個實施例中,所述聲源是設想在所述第一距離處的虛擬聲源,-為球諧函數(shù)的所述基數(shù)中的該聲音的該表示來獲得連續(xù)階m的分量;以及,-應用全局濾波器,其各個系數(shù)(每個被應用于階m的分量)以分數(shù)的形式來加以分析上的表達,其中-該分子是冪m的多項式,其變量與該聲音頻率成反比,與所述第一距離成反比,以便模擬該虛擬聲源的近場效應;以及,-該分母是冪m的多項式,其變量與該聲音頻率成反比,與所述第二距離成反比,以便補償這些低聲音頻率中的該虛擬聲源的該近場效應。
較佳的是,利用表示所述第二距離的參數(shù),來向該重放設備傳送在步驟a)和b)中被編碼和過濾的該數(shù)據(jù)。
作為補充或變體該重放設備包括用于讀取存儲介質(zhì)的裝置,利用表示所述第二距離的參數(shù),在存儲介質(zhì)上存儲意在由該重放設備讀取的在步驟a)和b)中被編碼和過濾的該數(shù)據(jù)。
有利的是,在包括被布置成離所述聽知覺點第三距離的多個擴音器的重放設備執(zhí)行聲音重放之前,其系數(shù)取決于所述第二和第三距離的自適應濾波器被應用于該被編碼和過濾的數(shù)據(jù)。
在特定實施例中,所述自適應濾波器的這些系數(shù)(每個被應用于階m的分量)以分數(shù)的形式被解析表達,其中-該分子是冪m的多項式,其變量與該聲音頻率成反比,與所述第二距離成反比;以及,-該分母是冪m的多項式,其變量與該聲音頻率成反比,與所述第三距離成反比。
有利的是,關于步驟b)的實施,提供-關于偶數(shù)階m的這些分量,是采取二階的單元級聯(lián)的形式的音頻數(shù)字濾波器;以及,-關于奇數(shù)階m的這些分量,是采取二階單元級聯(lián)和一階的附加單元的形式的音頻數(shù)字濾波器。
在這個實施例中,對于階m的分量,根據(jù)冪m的所述多項式的這些根的各個數(shù)值來定義音頻數(shù)字濾波器的這些系數(shù)。
在特定實施例中,所述多項式是貝塞耳多項式。
一獲取這些聲音信號,就有利地提供包括實質(zhì)上被排列在球體(它的中心實質(zhì)上對應于所述參考點)表面上的聲換能器陣列的話筒,以便獲得表示在該三維空間中傳播的至少一個聲音的所述信號。
在這個實施例中,在步驟b)中應用全局濾波器,以便一方面,補償近場效應,作為所述第二距離的函數(shù);另一方面,使產(chǎn)生于這些變換器的各個信號均衡,以補償所述變換器的方向性的加權。
較佳的是,根據(jù)被選擇用于表示球諧函數(shù)的所述基中的該聲音的分量的總數(shù),來提供變換器的數(shù)量。
根據(jù)有利的特征,在步驟a)中,從該球諧函數(shù)基中選擇分量的總數(shù),以便在重放的情況下獲得該知覺點周圍的該空間的區(qū)域——其中,該聲音的重放正確可靠,并且,其尺度隨分量的該總數(shù)而增加。
較佳的是,此外提供包括至少等同于所述分量總數(shù)的擴音器數(shù)量的重放設備。
作為變體,在具有兩路立體聲或聽覺傳播(transaural)合成重放的該框架內(nèi)-提供至少包括被布置成離收聽者被選擇的距離的第一和第二擴音器的重放設備;-為用于應用所謂的“聽覺傳播”或“兩路立體聲合成”技術的這位收聽者來獲得離該收聽者有預定參考距離的聲源的空間中的該位置的預期認識線索;以及,-利用實質(zhì)上作為第二距離的所述參考距離,來應用步驟b)中的該補償。
在變體中——其中,自適應被引入具有兩個受話器的該重放設備-提供至少包括被布置成離收聽者被選擇的距離的第一和第二擴音器的重放設備;-為這位收聽者來獲得離該收聽者有預定參考距離的聲源的空間中的該位置的認識線索;以及,-在該重放設備執(zhí)行聲音重放之前,一自適應濾波器(其系數(shù)取決于該第二距離,并且實質(zhì)上取決于該參考距離)被應用于在步驟a)和b)中被編碼和過濾的該數(shù)據(jù)。
特別是,在具有兩路立體聲合成的重放的該框架內(nèi)-該重放設備包括頭戴式耳機,該頭戴式耳機具有用于該收聽者的各個耳朵的兩個受話器;以及,-較佳的是,分別對于每個受話器,利用作為第一距離的、分別是將每個耳朵與將要在該重放空間中被重放的聲源的位置隔開來的距離,并根據(jù)意在被饋送到每個受話器的各自的信號來應用步驟a)和b)中的編碼和過濾。
較佳的是,在步驟a)和b)中,形成矩陣系統(tǒng),所述系統(tǒng)至少包括-包括該球諧函數(shù)基中的所述分量的矩陣;以及,-其系數(shù)對應于步驟b)中的過濾系數(shù)的對角矩陣;以及,使所述矩陣相乘,以獲得補償分量的結果矩陣。
首先,在重放的情況下-該重放設備包括實質(zhì)上被布置成離該聽知覺點一段相同的距離的多個擴音器;以及,-對在步驟a)和b)中被編碼和過濾的所述數(shù)據(jù)進行解碼,并且形成適用于饋送所述擴音器的信號*針對該重放設備,形成矩陣系統(tǒng)——包括補償分量的所述結果矩陣和預定的解碼矩陣,以及*通過將該結果矩陣乘以所述解碼矩陣,來獲得矩陣——包括表示這些擴音器饋送信號的系數(shù)。
本發(fā)明也針對聲音獲取設備——包括安裝有實質(zhì)上被布置在球體表面上的聲換能器陣列的話筒。根據(jù)本發(fā)明,該設備另外包括處理單元,該處理單元被加以安排,以便-接收信號,每個信號從變換器那里發(fā)出;-將編碼應用于所述信號,以獲得對應于所述球體的該中心的原點的、在球諧函數(shù)的基中被加以表達的分量所作出的該聲音的表示;以及,-將過濾應用于所述分量,該過濾一方面取決于對應于該球體的該半徑的距離,另一方面取決于參考距離。
較佳的是,該處理單元所執(zhí)行的該過濾一方面在于使產(chǎn)生于這些變換器的這些信號均衡(作為該球體的該半徑的函數(shù)),以便補償所述變換器的方向性的加權;另一方面在于補償近場效應,作為所述參考距離的函數(shù)。
通過閱讀下文中的詳細說明,并通過檢查其附圖,本發(fā)明的其他優(yōu)點和特征將變得一目了然。在這些附圖中-
圖1用圖表展示了一種系統(tǒng),用于通過虛擬聲源、聲音信號的模擬并利用空間化重放設備所執(zhí)行的編碼、傳輸、解碼和重放來進行獲取和創(chuàng)建;-圖2更精確地表現(xiàn)了以強度方式和根據(jù)信號產(chǎn)生于那里的聲源的該位置來加以定義的信號的編碼;-圖3展示了球坐標中的、涉及該立體混響聲表示的各個參數(shù);-圖4展示了各種階的球諧函數(shù)Yσmn的、球坐標的參考系中的三維量度所作出的表示;-圖5是關于階m的連續(xù)值的半徑函數(shù)jm(kr)(它們是球面貝塞耳函數(shù))的這些模數(shù)的各個變更的圖表,這些半徑函數(shù)進入聲壓場的該立體混響聲表示;-圖6表現(xiàn)了尤其在低頻的情況下由于關于各種連續(xù)階m的該近場效應而產(chǎn)生的放大;-圖7利用上述聽知覺點(參考P)、上述第一距離(參考ρ)和上述第二距離(參考R)來用圖表表示包括多個擴音器HPi的重放設備;-圖8利用方向編碼、以及根據(jù)本發(fā)明的距離編碼來用圖表表示涉及該立體混響聲編碼的各個參數(shù);-圖9表現(xiàn)了關于虛擬聲源ρ=1m的第一距離和位于第二距離R=1.5m處的擴音器的預補償而加以模擬的該補償和近場濾波器的能量譜;-圖10表現(xiàn)了關于該虛擬聲源ρ=3m的第一距離和位于距離R=1.5m處的擴音器的預補償而加以模擬的該補償和近場濾波器的能量譜;-圖11A表現(xiàn)了從本發(fā)明的意義上說具有關于該水平面中的球面波的補償?shù)脑摻鼒龅闹亟ǎ?與圖11A相比較,圖11B表現(xiàn)了產(chǎn)生于聲源S的該初始波前;-圖12用圖表表示過濾模塊,用于使被接收和被預補償?shù)倪@些立體混響聲分量適應關于作為第二距離的參考距離R的編碼、并適應包括被布置成離聽知覺點第三距離R2的多個擴音器的重放設備;-圖13A利用在該近場中發(fā)射的聲源來用圖表表示在重放的情況下關于收聽者的聲源M的布置,該收聽者使用應用兩路立體聲合成的重放設備;-圖13B利用圖13A中的該兩路立體聲合成的該框架中的近場效應來用圖表表示編碼和解碼的各個步驟,立體混響聲編碼/解碼與該近場效應結合;-圖14通過從本發(fā)明的意義上說的立體混響聲編碼、均衡和近場補償來用圖表表示(舉例說明來講)產(chǎn)生于話筒的這些信號的處理,該話筒包括被排列在球體上的多個壓力傳感器。
首先參考圖1,圖1通過舉例說明來表現(xiàn)用于聲音空間化的全局系統(tǒng)。用于模擬虛擬場景的模塊1a利用三維空間中的被選擇的位置來將聲音對象定義為信號的虛擬聲源(例如,單聲道的),并且,它定義該聲音的方向??梢粤硗馓峁┨摂M房間的幾何圖形的規(guī)范,以便模擬該聲音的反響。處理模塊11應用關于收聽者的這些聲源中的一個或多個聲源的管理(關于這位收聽者的這些聲源的虛擬位置的定義)。它執(zhí)行室內(nèi)效應處理器,用于通過應用延遲和/或標準過濾來模擬反響或類似物。這樣構建的這些信號被傳送到模塊2a,用于這些聲源的各項基本貢獻的空間編碼。
與此同時,通過按關于這些真實聲源(模塊1b)的被選擇的方式來加以布置的一個或多個話筒,可以在聲音記錄的該構架內(nèi)執(zhí)行聲音的自然捕捉。這些話筒拾起的這些信號由模塊2b來編碼。在通過模塊2來與由模塊1a生成的和由模塊2a編碼的這些信號(產(chǎn)生于這些虛擬聲源)相混合之前,被獲取和被編碼的這些信號可以根據(jù)中間表示格式(模塊3b)來加以變換。其后,這些混合信號被傳送,要不然為以后重放起見(箭頭TR)而被存儲在介質(zhì)上。其后,為包括擴音器的重放設備6上的重放起見,它們被應用于解碼模塊5??辞闆r,例如,通過旋轉,并依靠在該解碼模塊5的上游提供的處理模塊4,“操作該聲場”的步驟可能在解碼步驟5前面。
該重放設備可以采取被排列在(例如)三維(全向聲系統(tǒng)的)配置中的球體表面上的多種多樣的擴音器的形式,以便在重放的情況下尤其確保三維空間中的該聲音的方向認識。為此目的,收聽者通常讓自己位于由該擴音器陣列構成的該球體的中心處,這個中心對應于上述聽知覺點。作為變體,該重放設備的這些擴音器可以被排列在平面(二維全景配置)中,這些擴音器被特別布置在圓圈上,該收聽者通常位于這個圓圈的中心。在另一個變體中,該重放設備可以采取“環(huán)繞”類型(5.1)的設備的形式。最后,在有利的變體中,該重放設備可以采取具有用于被重放的該聲音的兩路立體聲合成的兩個受話器的頭戴式耳機的形式,這允許該收聽者認識三維空間中的這些聲源的方向,這一點將會進一步加以詳細的了解。具有兩個擴音器的這種重放設備(用于三維空間中的認識)也可以采取聽覺傳播重放設備的形式——具有被布置成離收聽者有被選擇的距離的兩個擴音器。
現(xiàn)在參考圖2,以描述基本聲源的、關于三維聲音重放的空間編碼和解碼。產(chǎn)生于聲源1~N的該信號及其位置(真實的或虛擬的)被傳送到空間編碼模塊2。其位置可以按照入射角(從該收聽者那里觀看的該聲源的方向)或按照這個聲源與收聽者之間的距離來同樣地加以定義。通過這樣被編碼的這多個信號,可以獲得全局聲場的多通道表示。如上文參照圖1而指出的,將被編碼的這些信號傳送(箭頭TR)到聲音重放設備6,用于三維空間中的聲音重放。
現(xiàn)在參考圖3,以便在下文中描述聲場的、三維空間中的球諧函數(shù)所作出的該立體混響聲表示。我們考慮缺乏任何聲源的、原點O周圍的區(qū)域(半徑為R的球體)。我們采用球坐標系——其中,從該原點O到該球體的一個點的每個向量r由方位角θr、仰角δr和半徑r(對應于離該原點O的那段距離)來描述。
這個球體內(nèi)的該壓力場p(r)(r<R,其中的R是該球體的半徑)可以在該頻率域內(nèi)被寫為一個系列,其項是角函數(shù)Yσmn(θ,δ)和半徑函數(shù)jm(kr)的加權乘積,它們因此取決于傳播項——其中,k=2πf/c,其中的f是該聲音頻率,c是該傳播介質(zhì)中的聲速。
然后,該壓力場可以被表達為p(r→)=Σm=0∞jmjm(kr)Σ0≤n≤m,σ=±1BmnσYmnσ(N3D)(θr,δr)----[A1]]]>該加權因數(shù)集Bσmn(隱含地取決于頻率),因此描述被考慮的這個區(qū)域內(nèi)的該壓力場。由于這個原因,這些因數(shù)被稱作“球諧函數(shù)分量”,并且在球諧函數(shù)Yσmn的該基中表示關于該聲音(或關于該壓力場)的頻率表達式。
這些角函數(shù)被稱作“球諧函數(shù)”,并通過以下公式來加以定義Ymnσ(θ,δ)=2m+1(2-δ0;n)(m-n)!(m+n)!Pmn(sinδ)×cosnθifσ=+1sinnθifσ=-1----[A2]]]>其中,Pmn(sin δ)是階m和級n的勒讓德函數(shù);δp,q是Krnecker符號(如果p=q和0,則等于1)。
球諧函數(shù)構成正交規(guī)范化基——其中,諧波分量之間、以及按一般方式的兩個函數(shù)F與G之間的這些標量積分別通過以下公式來加以定義⟨Ymnσ|Ym′n′σ′⟩4π=δmm′δnn′δσσ′----[A′2]]]> 如圖4中所表示的,球諧函數(shù)是有界的實函數(shù),作為階m以及指數(shù)n和σ的函數(shù)。這些明亮的和黑暗的部分分別對應于這些球諧函數(shù)的正、負值。該階m越高,該角頻率(和(因而)各個函數(shù)之間的辨別力)就越高。這些半徑函數(shù)jm(kr)是球面貝塞耳函數(shù),在圖5中為該階m的一些值而展示其模數(shù)。
球諧函數(shù)的基所作出的該立體混響聲表示的解釋可以如下所述。相似階m的這些立體混響聲分量最終在該原點O(圖3中所表示的該球體的中心)的鄰域中表達該壓力場的階m的“導數(shù)”或“動量”。
特別是,B+100=W描述該壓力的標量幅度,而B+111=X、B111=Y、B+110=Z與該原點O處的這些壓力梯度(或該特定速度)有關。在全向話筒(關于0階的分量W)和雙向話筒(關于隨后的其他三個分量)的幫助下,在聲音的自然捕捉期間獲得這前四個分量W、X、Y和Z。通過使用更多數(shù)量的聲換能器,適當?shù)奶幚?特別是通過均衡)可以使“獲得更多的立體混響聲分量(比1更大的更高階m)”成為可能。
通過考慮更高階(大于1)的這些附加的分量,因此通過增加該立體混響聲說明的角分辨率,可以在該原點O周圍的關于該聲波的波長的更廣闊的鄰域上獲得對該壓力場的近似值的訪問。這樣,將會理解該角分辨率(該球諧函數(shù)的階)與可以被表示的該半徑范圍(半徑r)之間存在緊密的關系。簡而言之,當在空間上離開圖3中的該原點O時,立體混響聲分量的數(shù)量越大(階m高),這些立體混響聲分量的這個集合所作出的該聲音的表示就越好。也將會理解但是,當離開該原點O時,該聲音的該立體混響聲表示會不太令人滿意。特別對于(短波長的)高聲音頻率而言,這個效應變得至關重要。所以,重要的是獲得可能的最大數(shù)量的立體混響聲分量,從而使“在該知覺點的周圍創(chuàng)建空間區(qū)域”成為可能,并且,其中,該聲音的重放正確可靠,其尺度隨該分量總數(shù)而增加。
下文描述了對空間化聲音編碼/傳輸/重放系統(tǒng)的應用。
在實踐中,如上文所描述的,立體混響聲系統(tǒng)考慮球諧函數(shù)分量的子集。當后者考慮指數(shù)m<M的立體混響聲分量時,談及階m的系統(tǒng)。當處理具有擴音器的重放設備所執(zhí)行的重放時,將會理解如果這些擴音器被布置在水平面中,那么,只利用這些指數(shù)m=n的諧波函數(shù)。另一方面,當該重放設備包括被布置在球體的表面上的擴音器(“periphony”)時,原則上可以利用與存在的擴音器一樣多的諧波函數(shù)。
該參考S指定由平面波攜帶并且在對應于圖3中的該球體的中心的該原點O(球面坐標中的該基的原點)處被拾起的該壓力信號。該波的該入射角由方位角θ和仰角δ來描述。關于與這個平面波關聯(lián)的該場所的這些分量的該表達式由以下關系式給出Bmnσ=S.Ymnσ(θ,δ)----[A3]]]>為了對離該原點O距離ρ的近場源進行編碼(模擬),通過考慮“近場以一級近似發(fā)射球面波”,可應用濾波器Fm(ρ/c),以便使這些波前的形狀“彎曲”。該場的這些編碼分量變成Bmnσ=S.Fm(ρ/c)(ω)Ymnσ(θ,δ)----[A4]]]>并且,關于上述濾波器Fm(ρ/c)的該表達式由以下關系式給出Fm(ρ/c)(ω)=Σn=0m(m+n)!(m-n)!n!(2jωρ/c)-n----[A5]]]>其中,ω=2πf是該波的角頻率,f是該聲音頻率。
這后兩個關系[A4]和[A5]最終示出關于虛擬聲源(被模擬的)以及該近場中的真實聲源,該立體混響聲表示中的該聲音的各個分量以冪m的多項式(這里是貝塞耳多項式)的形式來加以數(shù)學上(特別是解析上)的表達,其變量(c/2jωρ)與該聲音頻率成反比。
這樣,將會理解-在平面波的情況中,該編碼產(chǎn)生的信號與該原始信號的不同之處只在于真實、有限的增益,這對應于純粹的方向編碼(關系式[A3]);-在球面波(近場源)的情況中,如關系式[A5]中所表達的,通過將取決于頻率的復振幅比引入關于這些立體混響聲分量的該表達式,該附加的濾波器Fm(ρ/c)(ω)為該距離線索編碼。
應該注意,這個額外的濾波器屬于“積分器”類型——具有隨著這些聲音頻率向零減小而增加和發(fā)散(是無限制的)的放大效應。圖6表現(xiàn)了在每個階m之前的、處于低頻的該增益中的增加(這里,該第一距離ρ=1m)。所以,當企圖將不穩(wěn)定的發(fā)散濾波器應用于任何音頻信號時,正在處理它們。對于具有高值的階m而言,這個發(fā)散更加關鍵。
從關系式[A3]、[A4]和[A5]中,特別是,將會理解如圖6中所表示的,該近場中的虛擬聲源的建模按對于高階m而言尤其關鍵的方式來顯示出處于低頻的發(fā)散的立體混響聲分量。在這些低頻中,這個發(fā)散對應于上文陳述的“低音提升”的現(xiàn)象。對于真實聲源,它也在聲音獲取中表明自身。
特別由于這個原因,尤其關于高階m的該立體混響聲途徑在該技術狀態(tài)中還沒有經(jīng)歷該聲音處理中的具體應用(除了在理論上以外)。
特別是,會理解該近場的補償是必要的,以便在重放的情況下服從在該立體混響聲表示中被編碼的這些波前的形狀。參考圖7,重放設備包括多個擴音器HPi,它們被布置成(在所描述的那個例子中)離聽知覺點P同一距離R。在該圖7中-擴音器HPi所在的每個點對應于上文陳述的重放點;-這些點是上述聽知覺點;-這些點被上文陳述的該第二距離R分開;而在上文所描述的圖3中-該點O對應于上文陳述的該參考點,它形成該球諧函數(shù)基的該原點;-該點M對應于離該參考點O有上文所陳述的第一距離ρ的聲源(真實的或虛擬的)的該位置。
根據(jù)本發(fā)明,在該實際的編碼階段引入該近場的預補償,這個補償涉及該解析形式 的濾波器,它們被應用于上述的立體混響聲分量Bσmn。
根據(jù)本發(fā)明所提供的優(yōu)點之一,通過在該編碼 之后被應用的該濾波器的衰減,來補償其效應出現(xiàn)在圖6中的該放大Fm(ρ/c)(ω)。特別是,這個補償濾波器 的系數(shù)隨聲音頻率而增加;并且,特別是,關于低頻,這些系數(shù)趨向于零。有利的是,直接從該編碼中被執(zhí)行的這個預補償確保被傳送的該數(shù)據(jù)對于低頻而言不發(fā)散。
為了指出進入該補償濾波器的該距離R的物理重要性,一獲取這些聲音信號,就可通過舉例說明來考慮初始的、真實的平面波。如關系式[A4]中所指出的,為了模擬這個遠處的聲源的近場效應,可應用關系式[A5]的該第一濾波器。然后,該距離ρ表示附近的虛擬聲源M與該點O之間的距離,該點O表示圖3中的該球面基的該原點。用于近場模擬的第一濾波器因此被應用,來模擬在上述距離ρ處的虛擬聲源的存在。然而,一方面,如上文所指出的,這個濾波器的該系數(shù)的各個項在這些低頻中發(fā)散(圖6);并且,另一方面,上述距離ρ將不一定表示重放設備的擴音器與知覺點P之間的該距離(圖7)。根據(jù)本發(fā)明,如圖7中所表示的,在編碼的情況下,應用預補償,涉及如上文所指出的該類型 的濾波器,從而一方面使“傳送有界信號”成為可能,另一方面使“直接從該編碼中選擇該距離R”成為可能,用于使用這些擴音器HPi來重放該聲音。特別是,將會理解如果在獲取時已模擬離該原點O該距離ρ的虛擬聲源,那么,在重放的情況下(圖7),位于該聽知覺點P處(離這些擴音器HPi有距離R)的收聽者在收聽時將會認識到聲源S的存在,該聲源S離該知覺點P有該距離ρ,并且,它對應于在獲取期間被模擬的該虛擬聲源。
這樣,在該編碼階段,這些擴音器(位于該距離R處)的該近場的預補償可以與位于距離ρ處的虛擬聲源的被模擬的近場效應相結合。在編碼的情況下,一方面產(chǎn)生于該近場的模擬的、另一方面產(chǎn)生于該近場的補償?shù)目傮w濾波器最終發(fā)揮作用,這個濾波器的各個系數(shù)可以由以下關系式來加以分析上的表達HmHFC(ρ/c,R/c)(ω)=Fm(ρ/c)(ω)Fm(R/c)(ω)----[A11]]]>如圖8中所表示的,由關系式[A11]給出的該總體濾波器是穩(wěn)定的,并且構成根據(jù)本發(fā)明的該空間立體混響聲編碼中的該“距離編碼”部分。這些濾波器的各個系數(shù)對應于關于該頻率的單調(diào)傳遞函數(shù),它們趨向于處于高頻的該值1,并趨向于處于低頻的該值(R/ρ)m。通過參考圖9,利用擴音器(位于距離R=1.5m處)的該場的預補償,這些濾波器HmNFC(ρ/c,R/c)(ω)的能量譜傳達了由該虛擬聲源(這里位于距離ρ=1m處)的該場效應引起的這些編碼分量的放大。所以,當ρ<R時(圖9中的情況),用分貝表示的該放大是正的;當ρ>R時(圖10中的情況,其中,ρ=3m,R=1.5m),它是負的。在空間化重放設備中,聽知覺點與這些擴音器HPi之間的該距離R實際上是大約一米或幾米的數(shù)量級。再參考圖8,將會理解除這些慣例的方向參數(shù)θ和δ之外,將傳送關于涉及該編碼的那些距離的線索。這樣,為該方向編碼而保留對應于該球諧函數(shù)Ymnσ(θ,δ)的這些角函數(shù)。
但是,如圖8中所表示的,在本發(fā)明的意義以內(nèi),另外供應被應用于這些立體混響聲分量的全體濾波器(近場補償、以及視情況可以是近場的模擬)HmNFC(ρ /c,R/c)(ω),作為其階m的函數(shù),以實現(xiàn)該距離編碼。以后將詳細地描述該音頻數(shù)字域內(nèi)的這些濾波器的實施例。
將特別注意,可以直接從每個距離編碼(r)中并且甚至在該方向編碼(θ,δ)之前應用這些濾波器。這樣,將會理解上文中的步驟a)和b)可以被集合成一個相同的全局步驟,或甚至被交換(利用距離編碼和補償過濾,隨后是方向編碼)。所以,根據(jù)本發(fā)明的方法不局限于步驟a)和b)的連續(xù)的暫時實施。
圖11A在該水平面(具有與圖9中的參數(shù)相同的距離參數(shù))中表示球面波的、具有補償?shù)慕鼒龅闹亟ǖ目梢暬瘓D(從上方觀看),用于總的階M=15的系統(tǒng)和32個擴音器上的重放。在圖11B中,表示來自離該獲取空間的點有距離ρ的近場源的該初始聲波的傳播;在該重放空間中,那個獲取空間的點對應于圖7中的該聽知覺點P。在圖11A中注意,這些收聽者(由示意圖頭部來象征)可以查明離圖11B中的該知覺點P有該距離ρ的同一個地理位置處的該虛擬聲源。
這樣,的確驗證在解碼和重放之后,服從該編碼波前的形狀。但是,該點P(例如,圖11A中所表示的)右邊的干擾顯而易見,這個干擾歸因于該事實對于由這些擴音器定界限的該整個表面上所涉及的該波前的完美重建而言,(被考慮在內(nèi)的立體混響聲分量的)擴音器數(shù)量不夠。
下文通過舉例來描述用于在本發(fā)明的意義上的該方法的實施的音頻數(shù)字濾波器的獲得。
如上文所指出的,如果正企圖模擬近場效應(直接從編碼中加以補償),那么,以下形式的濾波器HmNFC(ρ/c,R/c)(ω)=Fm(ρ/c)(ω)Fm(R/c)(ω)----[A11]]]>被應用于該聲音的各個立體混響聲分量。
從關于由關系式[A5]給出的近場的模擬的該表達式中,顯而易見關于遠處聲源(ρ=∞),關系式[A11]只變成1Fm(R/c)(ω)=HmNFC(∞,R/c)(ω)----[A12]]]>所以,從這后一個關系式[A12]中可見在“將要被模擬的該聲源在該遠場(遠處聲源)中發(fā)射”的情況下,它只是關于該濾波器的該一般表達式的特定情況,關系式[A11]中闡明了這一點。
在音頻數(shù)字處理的領域內(nèi),“根據(jù)該持續(xù)時間模擬域中的這個濾波器的該解析表達式來定義數(shù)字濾波器”的有利方法包括“雙線性變換”。
首先以拉普拉斯變換的形式來表達關系式[A5],這對應于Fm(τ)(p)=Σn=0m(m+n)!(m-n)!n!(2τp)-n----[A13]]]>其中,τ=ρ/c(c是該介質(zhì)中的聲速,在空中通常是340m/s)。
該雙線性變換在于關于抽樣率fs,呈現(xiàn)采取以下形式的關系式[A11]Hm(z)=Πq=1m/2b0q+b1qz-1+b2qz-2a0q+a1qz-1+a2qz-2×b0(m+1)/2+b1(m+1)/2z-1a0(m+1)/2+a1(m+1)/2z-1----[A14]]]>
如果m是奇數(shù),并且Hm(z)=Πq=1m/2b0q+b1qz-1+b2qz-2a0q+a1qz-1+a2qz-2]]>如果m是偶數(shù),其中,對于以上關系式[A13],z由p=2fs1-z-11+z-1]]>來定義,并且利用x0=1-2Re(Xm,q)α+|Xm,q|2α2,x1=-2(1-|Xm,q|2α2)]]>以及x2=1+2Re(Xm,q)α+|Xm,q|2α2]]>x0(m+1)/2=1-Xm,qα]]>和x1(m+1)/2=-(1+Xm,qα)]]>其中,對于x=a,α=4fsR/c以及,對于x=b,α=4fsρ/cXm,q是該貝塞耳多項式的q個連續(xù)根Fm(x)=Σn=0m(m+n)!(m-n)!n!Xm-n]]>=Πq=1m(X-Xm,q)]]>并且,當m是奇數(shù)時,它們在下文關于各種階m的表格1中以其真實部分、其模數(shù)(被逗點分開)和其(真實的)值的各自的形式來加以表達。
表格1如在MATLAB計算軟件的幫助下所計算的貝塞耳多項式的各個值Re[Xm,q]、|Xm,q|(和當m是奇數(shù)時的Re[Xm,m])。
這樣,通過使用表格1中的這些值,通過提供階2(對于m為偶數(shù))的單元級聯(lián)和附加的單元(對于m奇數(shù)),通過使用上文給出的關系式[A14],來部署這些數(shù)字濾波器。
數(shù)字濾波器因此以無限脈沖響應形式來加以具體表現(xiàn);如下文所示,該無限脈沖響應形式可以容易地用參數(shù)來表示。應該注意,采取有限脈沖響應形式的實施可以被設想,并在于根據(jù)該解析公式來計算該傳遞函數(shù)的復數(shù)譜,然后是通過反向傅立葉變換來從中推導出有限沖激響應。其后,卷積運算被應用于該過濾。
這樣,通過在編碼的情況下引入該近場的這個預補償,來定義被修改的立體混響聲表示(圖8),采用為可傳送表示,信號在該頻率域內(nèi)加以表達,采取以下形式B~mnσ(R/c)=1FmR/c(ω)Bmnσ----[A15]]]>如上文所指出的,R是與被補償?shù)慕鼒鲂P聯(lián)的參考距離,c是聲速(在空氣中通常是340m/s)。這個被修改的立體混響聲表示擁有相同的規(guī)??勺冃詫傩?由接近圖1中的該箭頭TR的傳送數(shù)據(jù)“被環(huán)繞的”來用圖表表示),并服從與該慣例的立體混響聲表示相同的場旋轉變換(圖1中的模塊4)。
下文指出將要被執(zhí)行的這些操作,用于被接收的這些立體混響聲信號的解碼。
首先指出該解碼運算可適應于半徑為R2(不同于上文中的該參考距離R)的任何重放設備。為此目的,應用該類型HmNFC(ρ/c,R/c)(ω)的濾波器(例如,先前所描述的)——但利用距離參數(shù)R和R2,而不是ρ和R。特別是,應該注意,只有該參數(shù)R/c需要在該編碼與該解碼之間被存儲(并且/或者被傳送)。
參考圖12,例如在重放設備的處理單元中提供其中所表示的該過濾模塊。在關于作為第二距離的參考距離R1的編碼的情況下,已預補償被接收的這些立體混響聲分量。但是,該重放設備包括被布置成離聽知覺點P第三距離R2的多個擴音器,該第三距離R2不同于上述第二距離R1。采取該形式HmNFC(R1/c,R2/c)(ω)的、圖12中的該過濾模塊然后在接收該數(shù)據(jù)時使該預補償適應該距離R1,用于該距離R2處的重放。當然,如上文中所指出的,該重放設備也接收該參數(shù)R1/c。
應該注意,通過本發(fā)明,還可以混合聲場(真實的和/或虛擬的聲源)的幾個立體混響聲表示,其參考距離R是不同的(看情況可能具有對應于遠處聲源的無限參考距離)。較佳的是,在混合這些立體混響聲信號之前,將過濾該最短參考距離處的所有這些聲源的預補償,從而使“在重放的情況下獲得該聲音減輕的正確定義”成為可能。
在所謂的“聲音聚焦”處理的該框架內(nèi)——在重放的情況下,具有關于空間中的被選擇的方向的聲音富集效應(按“投光器在被選擇的光學方向上照明”的方式),涉及聲音聚焦的矩陣處理(具有這些立體混響聲分量的加權);有利地按與該聚焦處理相結合的方式并利用近場預補償來應用該距離編碼。
在下文中,在重放的情況下,利用擴音器的該近場的補償來描述立體混響聲解碼方法。
為了從這些分量Bσmn中并通過使用重放設備(提供了收聽者的“理想的”放置,該放置對應于圖7中的該重放點P)的擴音器來重建根據(jù)該立體混響聲體系而加以編碼的聲場,每個擴音器所發(fā)射的波由位于該重放設備的中心的該立體混響聲場的原先的“再編碼”處理來加以定義,這如下所述。
在這個“再編碼”上下文中,為簡單起見,最初認為這些聲源在該遠場中發(fā)射。
再次參考圖7,指數(shù)為i、入射角為(θi和δi)的、擴音器所發(fā)射的該波被用信號Si饋送。通過其貢獻Si·Yσmn(θi,δi),這個擴音器參與該分量B‘mn的重建。
與指數(shù)為i的這些擴音器相關聯(lián)的這些編碼系數(shù)的向量ci由以下關系式來表達ci=Y00+1(θi,δi)Y11+1(θi,δi)Y11-1(θi,δi)···Ymnδ(θi,δi)···----[B1]]]>從N個擴音器的集合發(fā)出的信號的向量S由以下表達式來給出S=S1S2···SN----[B2]]]>關于這N個擴音器的該編碼矩陣(最終對應于“再編碼”矩陣)由以下關系式來表達C=[c1C2…CN] [B3]其中,每個項ci表示根據(jù)以上關系式[B1]的向量。
這樣,該立體混響聲場B’的重建由以下關系式來定義B~=B′00+1B′11+1B′11-1···B′mnσ···=C.S---[B4]]]>因此,在重放之前,關系式[B4]定義再編碼運算。最終,該解碼照此在于將采取以下形式的、由該重放設備接收的這些原始立體混響聲信號B=B00+1B11+1B11-1···Bmnσ···----[B5]]]>與這些被再編碼的信號~B進行比較,以便定義該一般關系式B′=B[B6]
這特別涉及確定滿足以下關系式的解碼矩陣D的各個系數(shù)S=D.B [B7]較佳的是,擴音器的數(shù)量大于或等于將要被解碼的立體混響聲分量的數(shù)量,并且,該解碼矩陣D可以按以下形式來加以表達,作為該再編碼矩陣C的函數(shù)D=CT.(C.CT)-1[B8]其中,該符號CT對應于該矩陣C的轉置。
應該注意,可能存在滿足關于每個頻帶的不同準則的解碼的定義,從而使“在重放期間作為這些收聽條件的函數(shù)提供優(yōu)化重放”成為可能,特別是關于定位在圖3中的該球體的中心O處的約束。為此目的,在每個立體混響聲分量處,通過階躍式的頻率均衡,來有利地供應簡單過濾。
但是,為了獲得原始編碼波的重建,有必要糾正關于這些擴音器的遠場假設,也就是說,在上文中的該再編碼矩陣C內(nèi)表達其近場的效應,并逆轉這個新系統(tǒng),以定義該解碼器。為此目的,假設這些擴音器同心(被布置成離圖7中的該點P有一段相同的距離R),在該類型B’σmn的每個立體混響聲分量上,所有這些擴音器具有相同的近場效應Fm(R/c)(ω)。通過引入采取對角矩陣的形式的這些近場項,上文中的關系式[B4]變成B′=Diag(1F1R/c(ω)F1R/c(ω)···FmR/c(ω)FmR/c(ω)···).C.S----[B9]]]>上文中的關系式[B7]變成S=D.Diag(11F1R/c(ω)1F1R/c(ω)···1FmR/c(ω)1FmR/c(ω)···).B----[B10]]]>這樣,過濾操作在該矩陣化操作前面,該過濾操作補償每個分量Bσmn上的該近場,并且,如上文所述,參照關系式[A14],它可以按數(shù)字形式來加以執(zhí)行。
將會想起在實踐中,該“再編碼”矩陣C針對該重放設備。它的系數(shù)最初可以通過對預定激勵作出反應的該重放設備的參數(shù)化和聲音表征來加以確定。同樣,該解碼矩陣D針對該重放設備。它的系數(shù)可以由關系式[B8]來確定。繼續(xù)來看這個先前的符號——其中, 是被預補償?shù)牧Ⅲw混響聲分量的矩陣。后面各項可以利用以下公式并按矩陣式 而被傳送到該重放設備
B~=Diag(11F1R/c(ω)1F1R/c(ω)···1FmR/c(ω)1FmR/c(ω)···).B]]>其后,通過將該解碼矩陣D應用于這些被預補償?shù)牧Ⅲw混響聲分量,該重放設備對按矩陣式 (被傳送的這些分量的列向量)而被接收的該數(shù)據(jù)進行解碼,以便利用一些公式來形成意在用于饋送該擴音器HPi的這些信號SiS=S1SiSN=D.B~----[B11]]]>再次參考圖12,如果解碼操作必須適應具有不同于該參考距離R1的半徑R2的重放設備,那么,在上文所述的適當解碼之前,自適應模塊使“過濾每個立體混響聲分量 ”成為可能,以便使它適應半徑為R2的重放設備。如上文所述,其后參照關系式[B11]來執(zhí)行該適當?shù)慕獯a操作。
下文描述本發(fā)明對兩路立體聲合成的應用。
參考圖13A,其中表示了具有兩路立體聲合成設備的頭戴式耳機的收聽者,該頭戴式耳機具有兩個受話器。該收聽者的兩耳被布置在空間中的各自的點OL(左耳)和OR(右耳)處。該收聽者的頭部的中心被布置在該點O處,并且,該收聽者的頭部的半徑的值是a。必須在空間中的點M處按聽覺方式來察覺聲源,該點M離該收聽者的頭部的中心有距離r(分別離右耳有距離rR,離左耳有距離rL)。此外,位于該點M處的該聲源的方向由這些向量r、rR和rL來定義。
按一般的方式,該兩路立體聲合成被定義如下。
每位收聽者擁有其自己特殊的耳朵形狀。自從出生后,這位收聽者通過學習來感知空間中的聲音,作為針對這位收聽者的這雙耳朵的形狀的函數(shù)(特別是這雙外耳的形狀和該頭部的各個尺度)。尤其通過“聲音在另一只耳朵之前到達一只耳朵”的事實,來表明空間中的該聲音的感知,這引起應用該兩路立體聲合成的該重放設備的每個受話器所發(fā)射的這些信號之間的延遲τ。
通過掃描其頭部周圍的聲源,最初為同一位收聽者來對該重放設備進行參數(shù)化;該聲源離其頭部的中心有一段相同的距離R。這樣,將會理解這段距離R可以被認為是如上文所陳述的“重放點”與聽知覺點(這里是該收聽者的頭部的該中心O)之間的距離。
在下文中,該指數(shù)L與跟該左耳毗連的該受話器將要重放的該信號相關聯(lián),并且,該指數(shù)R與跟該右耳毗連的該受話器將要重放的該信號相關聯(lián)。參考圖13B,延遲可以被應用于關于每個路徑的該初始信號S,意在為一不同的受話器產(chǎn)生信號。這些延遲τL和τR取決于最大延遲τMAX,該最大延遲τMAX在這里對應于該比率a/c——其中,如先前所指出的,a對應于該收聽者的頭部的半徑,c對應于該聲速。特別是,這些延遲被定義為從該點O(該頭部的中心)到該點M(在圖13A中是將要重放其聲音的該聲源的位置)和從每個耳朵到這個點M的距離中的差異的函數(shù)。有利的是,各自的增益gL和gR另外被應用于每個路徑,它們?nèi)Q于從該點O到該點M的距離和從每個耳朵到該點M的距離的比率。在立體混響聲表示中,被應用于每個路徑2L和2R的各自的模塊利用本發(fā)明的意義以內(nèi)的近場預補償NFC(代表“近場補償”)來對每個路徑的這些信號進行編碼。這樣,將會理解通過本發(fā)明的意義以內(nèi)的該方法的實施,可以定義產(chǎn)生于該聲源M的這些信號——這不僅通過其方向(方位角θL和θR、以及仰角δL和δR),而且作為將每個耳朵rL和rR跟該聲源M分開的該距離的函數(shù)。關于每個路徑5L和5R,這樣被編碼的這些信號被傳送到包括立體混響聲解碼模塊的該重放設備。這樣,關于具有兩路立體聲合成(這里屬于“B-FORMAT”類型)的該重放中的每個路徑(左受話器、右受話器),并采取復制的形式,利用近場補償來應用立體混響聲編碼/解碼。關于每個路徑,利用每個耳朵與將要被重放的該聲源的該位置M之間的距離rL和rR(作為第一距離ρ),來執(zhí)行該近場補償。
在立體混響聲表示中的聲音獲取的該上下文內(nèi),下文描述本發(fā)明的意義以內(nèi)的該補償?shù)膽谩?br>
參考圖14,其中,話筒141包括多個變換器封殼,它們能夠拾取聲壓并重建電信號S1、…、SN。這些封殼CAPi被排列在預定半徑為r的球體(這里是剛性的球體(例如,乒乓球))上。這些封殼被該球體上的整齊間隔分開。在實踐中,封殼的數(shù)量N被選為該立體混響聲表示的該所需階m的函數(shù)。
在下文中,在包括被排列在剛性的球體上的封殼的話筒的上下文內(nèi),直接從該立體混響聲上下文中的該編碼那里指出補償該近場效應的方式。這樣,將會示出如上文所指出的,不僅可以為虛擬聲源模擬來應用該近場的該預補償;而且,通過將該近場預補償與涉及立體混響聲表示的所有類型的處理結合起來,可以在獲取時按更一般的方式來應用該近場的該預補償。
當存在剛性的球體時(易于引入被接收的這些聲波的衍射),上文給出的關系式[A1]變成
Pr(u‾i)=Σm=0∞jm-1(kr)2hm-′(kr)Σ0≤n≤mσ=±1BmnσYmnσ(u‾i)----[C1]]]>這些球面Hankel函數(shù)h-m的各個導數(shù)服從該遞歸定律(2m+1)hm-′(x)=mhm-1-(x)-(x+1)hm+1-(x)----[C2]]]>通過執(zhí)行以下關系式給出的投影和均衡操作,從該球體表面處的該壓力場中推導出該初始場的立體混響聲分量BσmnBmnσ=EQm<pr|Ymnσ>4π----[C3]]]>在這個表達式中,EQm是補償加權Wm的均衡濾波器,該加權Wm與這些封殼的方向性有關,并且另外包括該由剛性的球體所造成的衍射。
關于這個濾波 EQm的該表達式由以下關系式給出EQm=1Wm=(kr)2hm-′(kr)j-m+1----[C4]]]>這個均衡濾波器的這些系數(shù)不穩(wěn)定,并且,以很低的頻率來獲得無限增益。而且,應當注意,當該聲場不局限于平面波(即產(chǎn)生于遠處聲源的波)的傳播時,這些球諧函數(shù)分量本身不具備有限振幅,如先前所見的。
此外,如果供應心形線類型封殼,而不是提供被嵌入固體球體中的封殼——具有由以下表達式給出的遠場方向性G(θ)=α+(1-α)cosθ [C5]通過考慮被安裝在“在聲學上透明的”支撐物上的這些封殼,將要被補償?shù)脑摷訖囗椬兂蒞m=jm(αjm(kr)-j(1-α)jm'(kr)) [C6]又顯而易見,與關系式[C6]給出的這個加權的該解析倒數(shù)相對應的均衡濾波器的這些系數(shù)對于很低的頻率而言是發(fā)散的。
一般而言,指出關于傳感器的任何類型的方向性,用于補償與這些傳感器的該方向性有關的該加權Wm的該濾波器EQm的該增益對于低聲音頻率而言是無限的。參考圖14,在關于以下關系式給出的該均衡濾波器EQm的該實際表達式中,有利地應用近場預補償EQmNFC(R/c)(ω)=EQm(r,ω)Fm(R/c)(ω)----[C7]]]>
這樣,從話筒141那里重新恢復信號S1~SN。適當?shù)淖龇ㄊ怯商幚砟K142來應用這些信號的預均衡。通過模塊143,可以以矩陣形式來表達該立體混響聲上下文中的這些信號。模塊144將關系式[C7]的該濾波器應用于被表達為該話筒141的該球體的半徑r的函數(shù)的這些立體混響聲分量。為作為第二距離的參考距離R來執(zhí)行該近場補償??辞闆r,可以利用表示該參考距離R/c的該參數(shù)來傳送這樣被該模塊144過濾的這些編碼信號。
這樣,在分別有關于近場虛擬聲源的創(chuàng)建、產(chǎn)生于真實聲源的聲音信號的獲取、或甚至重放(以補償這些擴音器的近場效應)的各個實施例中,顯而易見在本發(fā)明的意義上的該近場補償可以被應用于涉及立體混響聲表示的所有類型的處理。通過這個近場補償,可以將該立體混響聲表示應用于在“必須考慮聲源的方向和(有利地)它的距離”的情況下的多種多樣的聲音上下文。而且,由于對這些立體混響聲分量的有限實值的限制,這個預補償可確保該立體混響聲上下文內(nèi)的所有類型(近場或遠場)的聲音現(xiàn)象的該表示的可能性。
當然,本發(fā)明不局限于上文通過舉例而描述的該實施例;它擴展到其他變體。
這樣,將會理解對于附近聲源跟對于遠處聲源一樣,在編碼的情況下,該近場預補償可能是綜合的。在后一種情況(遠處聲源以及平面波的接收)中,上文所表達的該距離ρ將被認為是無限的,而無須實質(zhì)上修改關于上文給出過的濾波器Hm的該表達式。這樣,使用室內(nèi)效應處理器的該處理可以與近場預補償結合起來,這些室內(nèi)效應處理器一般提供可用來模仿該遲擴散域(遲反響)的相互無關的信號。這些信號可以被認為具有相似的能量,并對應于擴散域共享,該擴散域共享對應于全向分量W=B+100(圖4)。然后,通過應用關于每個立體混響聲分量的增益糾正,可以構建這各種球諧函數(shù)分量(具有被選擇的階m);并且,應用這些擴音器的近場補償(如圖7中所表示的,利用參考距離R,它將這些擴音器與該聽知覺點分開)。
當然,本發(fā)明的意義以內(nèi)的該編碼原理可推廣為除單極聲源(真實的或虛擬的)以外的輻射模型和/或擴音器。明確地說,基本點源的連續(xù)分布的積分可以表達任何形狀的輻射(特別是擴散的聲源通過空間)。
另外,在重放的上下文中,可以使該近場補償適應任何重放上下文。為此目的,可以進行供應,以計算傳遞函數(shù)(對于每個擴音器的這些近場球諧函數(shù)分量的再編碼,注意到在那里重放該聲音的該房間內(nèi)的真實傳播)、以及這個再編碼的逆,來重新定義該解碼。
上文描述了解碼方法——其中,應用涉及這些立體混響聲分量的矩陣系統(tǒng)。在變體中,可以供應快速傅立葉變換(圓形的或球面的)所執(zhí)行的廣義處理,以限制該解碼處理所要求的這些計算時間和計算資源(就內(nèi)存來說)。
如上文參照圖9和圖10而指出的,注意關于該近場源的該距離ρ的參考距離R的該選擇引入關于該聲音頻率的各個值的增益中的差異??芍赋隼妙A補償來編碼的該方法可以與音頻數(shù)字補償耦合,從而可以量化和調(diào)整關于每個子頻帶的該增益。
有利的是,本發(fā)明應用于所有類型的聲音空間化系統(tǒng)——特別是關于“虛擬真實性”類型的應用(通過三維空間中的虛擬場景的導航、具有三維聲音空間化的游戲、在因特網(wǎng)上發(fā)聲的“聊天”類型的交談),應用于界面的聲音裝配,應用于用于記錄、混合和重放音樂的音頻編輯軟件,而且應用于關于音樂的或電影的聲音捕捉或關于因特網(wǎng)上的聲音語氣的傳輸(例如,關于聲音裝配的“網(wǎng)絡攝影”)的、基于三維話筒的使用的獲取。
權利要求
1.一種處理聲音數(shù)據(jù)的方法,其特征在于其中a)對表示至少一個聲音的信號進行編碼,該至少一個聲音在三維空間中傳播并產(chǎn)生于離參考點(O)第一距離(ρ)的聲源,以便獲得對應于所述參考點(O)的原點的、在球諧函數(shù)的基中被表達的分量(Bmnσ)所作出的該聲音的表示;以及,b)近場效應的補償通過過濾而被應用于所述分量(Bmnσ),該過濾取決于第二距離(R),對于重放設備所執(zhí)行的該聲音的重放,該第二距離(R)實質(zhì)上定義了在重放點(HPj)與聽知覺點(P)之間的距離。
2.如權利要求1中所述的方法,其特征在于其中,所述聲源遠離該參考點(O),-對于球諧函數(shù)的所述基中的該聲音的表示來獲得連續(xù)階m的分量;以及,-應用濾波器(1/Fm),它的每個系數(shù)被應用于階m的分量,這些系數(shù)以冪m的多項式的倒數(shù)的形式來加以分析上的表達,其變量與該聲音頻率成反比,與所述第二距離(R)成反比,以便補償該重放設備的那個層面處的近場效應。
3.如權利要求1中所述的方法,其特征在于其中,所述聲源是設想在所述第一距離(ρ)處的虛擬聲源,-對于球諧函數(shù)的所述基中的該聲音的表示來獲得連續(xù)階m的分量;以及,-應用全局濾波器(Hm),它的每個系數(shù)被應用于階m的分量,這些系數(shù)以分數(shù)的形式來以解析方式表達,其中-該分子是冪m的多項式,其變量與該聲音頻率成反比,與所述第一距離(ρ)成反比,以便模擬該虛擬聲源的近場效應,以及,-該分母是冪m的多項式,其變量與該聲音頻率成反比,與所述第二距離(R)成反比,以便補償這些低聲音頻率中的該虛擬聲源的該近場的該效應。
4.如前述權利要求之一中所述的方法,其特征在于其中,用表示所述第二距離(R/c)的參數(shù),將在步驟a)和b)中被編碼和過濾的該數(shù)據(jù)傳送到該重放設備。
5.如權利要求1-3之一中所述的方法,其特征在于其中,該重放設備包括用于讀取存儲介質(zhì)的裝置,用表示所述第二距離(R/c)的參數(shù),將在步驟a)和b)中被編碼和過濾的該數(shù)據(jù)存儲在意在由該重放設備來讀取的存儲介質(zhì)上。
6.如權利要求4和5之一中所述的方法,其特征在于其中,在包括被布置成離所述聽知覺點(P)有第三距離(R2)的多個擴音器的重放設備執(zhí)行聲音重放之前,其系數(shù)取決于所述第二距離(R1)和第三距離(R2)的適應濾波器(Hm(R1/c,R2/c))被應用于該被編碼和過濾的數(shù)據(jù)。
7.如權利要求6中所述的方法,其特征在于其中,所述自適應濾波器(Hm(R1/c,R2/c))的這些系數(shù)以分數(shù)的形式來以解析方式表達,每個系數(shù)被應用于階m的分量,其中-該分子是冪m的多項式,其變量與該聲音頻率成反比,與所述第二距離(R)成反比;以及,-該分母是冪m的多項式,其變量與該聲音頻率成反比,與所述第三距離(R2)成反比。
8.如權利要求2、3和7之一中所述的方法,其特征在于其中,關于步驟b)的實施,提供-關于偶數(shù)階m的這些分量,是采取二階單元級聯(lián)的形式的音頻數(shù)字濾波器;以及,-關于奇數(shù)階m的這些分量,是采取二階單元和一階的附加單元的級聯(lián)形式的音頻數(shù)字濾波器。
9.如權利要求8中所述的方法,其特征在于其中,從冪m的所述多項式的這些根的各個數(shù)字值,來定義對于階m的分量的、音頻數(shù)字濾波器的這些系數(shù)。
10.如權利要求2、3、7、8和9之一中所述的方法,其特征在于其中,所述多項式是貝塞耳多項式。
11.如權利要求1、2和4-10之一中所述的方法,其特征在于其中,提供話筒,該話筒包括實質(zhì)上被排列在球體表面上的聲換能器陣列,該球體的中心實質(zhì)上對應于所述參考點(O),以便獲得表示在該三維空間中傳播的至少一個聲音的所述信號。
12.如權利要求11中所述的方法,其特征在于其中,在步驟b)中應用全局濾波器,以便一方面補償作為所述第二距離(R)的函數(shù)的近場效應,另一方面使產(chǎn)生于這些變換器的這些信號均衡,以補償所述變換器的方向性的加權。
13.如權利要求11和12之一中所述的方法,其特征在于其中,提供變換器的數(shù)量,該數(shù)量取決于被選擇來在球諧函數(shù)的所述基中表示該聲音的分量總數(shù)。
14.如前述權利要求之一中所述的方法,其特征在于其中,在步驟a)中,從球諧函數(shù)的該基中選擇分量總數(shù),以便在重放的情況下獲得該知覺點(P)周圍的該空間的區(qū)域——其中,該聲音的該重放正確可靠,其維度隨該分量總數(shù)而增加。
15.如權利要求14中所述的方法,其特征在于其中,提供重放設備,該重放設備包括至少等于所述分量總數(shù)的擴音器數(shù)量。
16.如權利要求1-5和8-13之一中所聲明的方法,其特征在于其中-提供重放設備,該重放設備至少包括被布置成離收聽者有被選擇的距離的第一和第二個擴音器;-為這位收聽者來獲得離該收聽者預定參考距離(R)的聲源的空間中的該位置的認識線索;以及,-用實質(zhì)上作為第二距離的所述參考距離,來應用步驟b)的該補償。
17.如與權利要求4和5之一相結合的、權利要求1-3和8-13之一中所聲明的方法,其特征在于其中-提供重放設備,該重放設備至少包括被布置成離收聽者有被選擇的距離的第一和第二個擴音器;-為這位收聽者來獲得離該收聽者預定參考距離(R2)的聲源的空間中的該位置的認識線索;以及,-在該重放設備執(zhí)行聲音重放之前,自適應濾波器(Hm(R/c,R2/c))被應用于在步驟a)和b)中被編碼和過濾的該數(shù)據(jù),該自適應濾波器的系數(shù)取決于該第二距離(R),并且實質(zhì)上取決于該參考距離(R2)。
18.如權利要求16和17之一中所述的方法,其特征在于其中-該重放設備包括頭戴式耳機,該頭戴式耳機具有用于該收聽者的各個耳朵的兩個受話器;以及,-分別關于每個受話器,利用作為第一距離(ρ)的、分別是將每個耳朵與將要被重放的聲源的位置(M)分開的距離(rR,rL),來根據(jù)意在被饋送到每個受話器的各自的信號而應用步驟a)和b)的該編碼和該過濾。
19.如前述權利要求之一中所述的方法,其特征在于其中,在步驟a)和b)中,形成矩陣系統(tǒng),所述系統(tǒng)至少包括-矩陣(B),它包括球諧函數(shù)的該基中的所述分量;以及,-對角矩陣(Diag(1/Fm)),其系數(shù)對應于步驟b)的過濾系數(shù),并且,使所述矩陣相乘,以獲得補償分量的結果矩陣
20.如權利要求19中所述的方法,其特征在于其中-該重放設備包括實質(zhì)上被布置成離該聽知覺點(P)有一段相同的距離(R)的多個擴音器;以及,-對在步驟a)和b)中被編碼和過濾的所述數(shù)據(jù)進行解碼,并且形成適用于饋送所述擴音器的信號;*針對該重放設備,形成矩陣系統(tǒng),它包括所述結果矩陣 和預定的解碼矩陣(D),以及,*通過將這些補償分量的該矩陣 乘以所述解碼矩陣(D),來獲得矩陣(S),它包括表示這些擴音器饋送信號的系數(shù)。
21.一種聲音獲取設備,它包括話筒,該話筒安裝有實質(zhì)上被布置在球體表面上的聲換能器陣列,其特征在于它另外包括處理單元,該處理單元被加以安排,以便-接收信號,每個信號從變換器那里發(fā)出;-將編碼應用于所述信號,以便獲得對應于所述球體的該中心(O)的原點的、在球諧函數(shù)的基中被表達的分量(Bmnσ)所作出的該聲音的表示;以及,-將過濾應用于所述分量(Bmnσ),其過濾一方面取決于對應于該球體的該半徑(r)的距離,另一方面取決于參考距離(R)。
22.如權利要求21中所述的設備,其特征在于所述過濾一方面在于作為該球體的該半徑的函數(shù),使產(chǎn)生于這些變換器的這些信號均衡,以便補償所述變換器的方向性的加權;另一方面在于作為被選擇的參考距離(R)的函數(shù),補償近場效應,對于該聲音的重放,該參考距離(R)實質(zhì)上定義了重放點(HPj)與聽知覺點(P)之間的距離。
全文摘要
本發(fā)明涉及音頻數(shù)據(jù)的處理。本發(fā)明的特征體現(xiàn)在它在于(a)為表示聲音的信號編碼,該聲音在三維空間中傳播并源自離參考點第一距離(P)的聲源,以獲得對應于所述參考點的原點的、通過在球諧函數(shù)基中被表達的分量的該聲音的表示;(b)以及,通過基于第二距離(R)的過濾,來應用于近場效應的所述分量補償,對于聲音再現(xiàn),該第二距離(R)定義再現(xiàn)點(HP
文檔編號G10H1/00GK1735922SQ200380108602
公開日2006年2月15日 申請日期2003年11月13日 優(yōu)先權日2002年11月19日
發(fā)明者J·丹尼爾 申請人:法國電信局