專利名稱:一種處理虛擬聲音環(huán)境的方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種可以對(duì)聽眾創(chuàng)造相應(yīng)于某種場(chǎng)所的人工聽覺感受的方法和系統(tǒng)。具體地本發(fā)明涉及在一種以數(shù)字形式對(duì)要提交給用戶的信息進(jìn)行傳遞、處理和/或壓縮的系統(tǒng)中對(duì)這樣一種聽覺感受的傳遞。
虛擬聲音環(huán)境歸屬于一種聽覺感受,由此一個(gè)收聽電氣復(fù)現(xiàn)聲音的人可以想象自己處于某種場(chǎng)所中。一種創(chuàng)造虛擬聲音環(huán)境的簡(jiǎn)單裝置是將混響相加,由此收聽者得到某種場(chǎng)所的感受。復(fù)雜的虛擬聲音環(huán)境通常試圖模仿某種真實(shí)的場(chǎng)所,由此通常被稱為所述場(chǎng)所的伴音。這種概念描述在,例如,下文中M.Kleiner,B.-I.Dalenback,P.Svensson,“Auralization-An Overview”,1993,J.Audio Eng.SocVo1.41,No.11,pp.861-875。利用自然的方法,將伴音可與創(chuàng)造虛擬可視環(huán)境組合起來,由此有適當(dāng)?shù)娘@示設(shè)備和揚(yáng)聲器或耳機(jī)的用戶可以觀察到一種所希望的真實(shí)的或想象的場(chǎng)所,甚至在所述的場(chǎng)所中“移動(dòng)”,這樣他的視聽感受是不同的,這要取決于他選擇所述的環(huán)境中哪一點(diǎn)作為他的觀察點(diǎn)。
將虛擬聲音環(huán)境的創(chuàng)造分成三個(gè)因素,它們是聲源模擬,場(chǎng)所模擬,收聽者模擬。本發(fā)明具體涉及場(chǎng)所模擬,因此目的就是創(chuàng)立一種關(guān)于聲音如何傳播,如何在所述的場(chǎng)所中反射和衰減的思路,并把這種思路以電的形式傳送供收聽者使用。模擬一個(gè)場(chǎng)所的音質(zhì)的已知方法是所謂的射線追蹤及映象源方法。在前一種方法中,將由聲源產(chǎn)生的聲音分成包括實(shí)質(zhì)上以直線方式傳播的“聲波射線”的三維波束,然后計(jì)算每條射線在所處理的場(chǎng)所中是如何傳播的。收聽者所獲得的聽覺感受是在一定的周期內(nèi),通過某個(gè)最大的反射數(shù)目,到達(dá)由聽收者選取的觀察點(diǎn)的那些射線代表的聲音相加產(chǎn)生的。在映象源方法中,為原來的聲源產(chǎn)生多個(gè)虛擬映象源,因此這些虛擬源是關(guān)于所查看的反射表面的聲源的鏡象映象在每個(gè)所查看的反射表面后面安放一個(gè)映象源,到達(dá)觀察點(diǎn)的直接距離等于通過反射測(cè)量到的原來的聲源和觀察點(diǎn)之間的距離。而且,來自映象源的聲音從與真實(shí)的反射聲音相同的方向到達(dá)觀察點(diǎn)。通過將由映象源產(chǎn)生的聲音相加來獲得該聽覺感受。
現(xiàn)有技術(shù)的方法提出非常繁重的計(jì)算負(fù)擔(dān)。如果我們假定虛擬環(huán)境是通過,例如無線電廣播或通過數(shù)據(jù)網(wǎng)絡(luò)傳送給用戶,那末用戶的接收機(jī)應(yīng)該連續(xù)跟蹤多達(dá)萬條聲波射線或者將成千個(gè)映象源產(chǎn)生的聲音相加。而且,當(dāng)用戶決定改變觀察點(diǎn)位置時(shí)計(jì)算的基礎(chǔ)一直在改變。利用目前的設(shè)備和現(xiàn)有技術(shù)的方法實(shí)際上不可能傳送伴音的聲音環(huán)境。
本發(fā)明的目的是提供一種以合理的計(jì)算負(fù)荷傳送虛擬聲音環(huán)境給用戶的方法和系統(tǒng)。
通過將要模擬的環(huán)境劃分成幾個(gè)部分,對(duì)這些部分建立參數(shù)化的反射和/或吸收模型以及傳輸模型,并在數(shù)據(jù)傳輸中通過主要處理模型的參數(shù)來達(dá)到本發(fā)明的目的。
依據(jù)本發(fā)明的方法的特征在于,由參數(shù)化的濾波器來表示各個(gè)表面。
本發(fā)明還涉及一種系統(tǒng),其特征在于包括用于組成濾波器組的裝置,該濾波器組包括用于模擬表面的參數(shù)化濾波器。
依據(jù)本發(fā)明一種場(chǎng)所的音質(zhì)特征在于用這樣的方式模擬,其原理如同從表面的可見模型所知。在此一個(gè)表面通常意味著一個(gè)所查看的場(chǎng)所的對(duì)象,因此對(duì)象的特征相對(duì)于為該場(chǎng)所建立的模型是比較單一的,對(duì)于每個(gè)所查看的表面,規(guī)定了多個(gè)系數(shù)(如果模型包含可視特性,其可視特性除外),這些系數(shù)代表該表面的聲學(xué)特征,因此這樣一些系數(shù)是,例如,反射系數(shù),吸收系數(shù)和傳輸系數(shù)。更一般些,我們可以說為該表面規(guī)定某種參數(shù)化的傳遞函數(shù)。在為該場(chǎng)所建立的模型中,所述的表面由實(shí)現(xiàn)所述的傳遞函數(shù)的濾波器來表示。當(dāng)來自聲源的聲音被用作系統(tǒng)的輸入時(shí),由傳遞函數(shù)產(chǎn)生的響應(yīng)代表碰撞所述的表面后的聲音。該場(chǎng)所的聲學(xué)模型由多個(gè)濾波器組成,其中每個(gè)濾波器代表在此場(chǎng)所中的某個(gè)表面。
如果代表此表面的聲學(xué)特征的濾波器設(shè)計(jì),和由此濾波器實(shí)現(xiàn)的參數(shù)化傳遞函數(shù)是已知的,那末為了表示某個(gè)表面,給出表征所述的表面的傳遞函數(shù)參數(shù)是足夠的。在打算作為數(shù)據(jù)流傳送虛擬環(huán)境的系統(tǒng)中有一臺(tái)接收機(jī)和/或一臺(tái)重現(xiàn)設(shè)備,在它的存貯器中存貯著此系統(tǒng)所采用的濾波器和傳遞函數(shù)的一種或多種類型。此設(shè)備得到作為其輸入數(shù)據(jù)的數(shù)據(jù)流,例如,通過無線電或電視接收機(jī)接收,通過從數(shù)據(jù)網(wǎng),如互聯(lián)網(wǎng)下載,或從記錄裝置本地讀出。在操作開始,該設(shè)備在數(shù)據(jù)流中得到用于在要建立的虛擬環(huán)境內(nèi)模擬各個(gè)表面的那些參數(shù)。藉助于這些數(shù)據(jù)以及所存貯的濾波器類型和傳遞函數(shù)類型,該設(shè)備建立相應(yīng)于要建立的虛擬環(huán)境的聲學(xué)特征的濾波器組。在操作期間該設(shè)備在數(shù)據(jù)流內(nèi)得到必須復(fù)現(xiàn)給用戶的聲音,因此將聲音供給已經(jīng)建立的濾波器組,并作為一個(gè)結(jié)果,得到已處理的聲音,收聽此聲音的用戶覺察到所希望的虛擬環(huán)境的感受。
所需的發(fā)送數(shù)據(jù)量可通過組成數(shù)據(jù)庫(kù)進(jìn)一步減少,數(shù)據(jù)庫(kù)包括一定的標(biāo)準(zhǔn)表面并存貯在接收機(jī)/復(fù)現(xiàn)設(shè)備的存貯器中。該數(shù)據(jù)庫(kù)含有參數(shù),利用這些參數(shù)能夠描述由數(shù)據(jù)庫(kù)規(guī)定的標(biāo)準(zhǔn)表面。如果要建立的虛擬環(huán)境只包括標(biāo)準(zhǔn)表面,那末只有數(shù)據(jù)庫(kù)中的標(biāo)準(zhǔn)表面的標(biāo)識(shí)符必須在數(shù)據(jù)流中被傳送,因此對(duì)應(yīng)于這些標(biāo)識(shí)符的傳遞函數(shù)的參數(shù)可從數(shù)據(jù)庫(kù)中讀出,不需要將它們分開傳送到接收機(jī)/復(fù)現(xiàn)設(shè)備。數(shù)據(jù)庫(kù)也可包含有關(guān)這樣的復(fù)濾波器類型和/或傳遞函數(shù)的信息,它們與通常在系統(tǒng)中使用的那些濾波器類型和傳遞函數(shù)并不相似,如果需要它們用數(shù)據(jù)流發(fā)送的話,將不合理的消耗許多系統(tǒng)的數(shù)據(jù)傳輸容量。
以下將參考作為例子提出的最佳實(shí)施方案和附圖作更詳細(xì)的描述,其中
圖1示出要模擬的聲音環(huán)境;圖2示出參數(shù)化濾波器;圖3a示出由參數(shù)化濾波器組成的濾波器組;圖3b示出圖3a方案的修改;圖4示出應(yīng)用本發(fā)明的系統(tǒng);圖5a更詳細(xì)地示出圖4的一部分;圖5b更詳細(xì)地示出圖5a的一部分;和圖6示出應(yīng)用本發(fā)明的另一個(gè)系統(tǒng)。
對(duì)于相應(yīng)的部分使用相同的參考號(hào)碼。
圖1示出一個(gè)聲音環(huán)境,包含聲源100,反射表面101和102,和觀察點(diǎn)103。而且,干擾聲源104屬于聲音環(huán)境。從聲源傳播到觀察點(diǎn)的聲音由箭頭表示。聲音105直接從聲源100傳播到觀察點(diǎn)103。聲音106從墻面101反射出,聲音107從窗戶102反射出。聲音108是由干擾聲源104產(chǎn)生的聲音,這種聲音通過窗戶102到達(dá)觀察點(diǎn)103。除了在反射瞬間及通過窗玻璃時(shí)以外,所有的聲音在由被查看的聲音環(huán)境占據(jù)的空氣中傳播。
考慮到場(chǎng)所的模擬,在圖中所示的所有聲音表現(xiàn)不同,直接傳播的聲音105受由聲源和觀察點(diǎn)之間的距離與空氣中聲音的速度引起的延時(shí),以及由空氣引起的衰減的影響。從墻面反射的聲音106除了由延時(shí)與空氣衰減引起的影響以外,也受聲音衰減和碰撞障礙物時(shí)可能的相移的影響。同樣的因素影響到從窗戶反射的聲音107,但是由于墻面和窗玻璃的材料在聲學(xué)上講是不同的,在這些反射中以不同的方式反射,衰減和相移。來自干擾聲源的聲音108穿過窗玻璃,因此在觀察點(diǎn)檢測(cè)到它的可能性除了空氣引起的延時(shí)和衰減的影響以外,還受窗玻璃傳輸特性的影響。在本例中可以假定墻面具有良好的隔音特性,由干擾聲源104產(chǎn)生的聲音并不穿過墻到觀察點(diǎn)。
圖2示出一個(gè)濾波器,也就是帶有某個(gè)傳遞函數(shù)H并打算用于處理時(shí)間有關(guān)信號(hào)的設(shè)備200。時(shí)間有關(guān)的脈沖函數(shù)X(t)在濾波器200中被變換成時(shí)間有關(guān)的響應(yīng)函數(shù)Y(t)。如果時(shí)間有關(guān)函數(shù)由稱為它們的Z變換來表示,則傳遞函數(shù)的Z變換H(z)可表達(dá)為比值H(z)=Y(z)X(z)=Σk=0Mbkz-k1+Σk=1Nakz-k··········(1)]]>因此,為了傳送一個(gè)隨意的參數(shù)形式的傳遞函數(shù),傳送在它的Z變換表達(dá)式中使用的系數(shù)[b0b1a1b2a2…]就足夠了。
在應(yīng)用數(shù)字信號(hào)處理的系統(tǒng)中,濾波器200可以是,例如,一個(gè)IIR濾波器(無限脈沖響應(yīng)),或者是一個(gè)FIR濾波器(有限脈沖響應(yīng))。關(guān)于本發(fā)明,濾波器200可被規(guī)定為一個(gè)參數(shù)化濾波器是必要的。一種比以上提出的傳遞函數(shù)的定義簡(jiǎn)單的替代方案是規(guī)定為在濾波器200中脈沖信號(hào)乘以一組代表所希望的表面的特性的系數(shù),因此濾波器參數(shù)是,例如,信號(hào)的反射和/或吸收系數(shù),信號(hào)通過期間的信號(hào)衰減系數(shù),信號(hào)延時(shí),和信號(hào)的相移。參數(shù)化濾波器可以實(shí)現(xiàn)始終是相同類型的傳遞函數(shù),但是傳遞函數(shù)不同部分的相對(duì)份額在響應(yīng)中是不同的,取決于給濾波器的參數(shù)。如果只用參數(shù)定義的一個(gè)濾波器200的用途是代表特別良好反射聲音的一個(gè)表面,并且如果脈沖X(t)是某個(gè)聲音信號(hào),則濾波器作為參數(shù)被給出,反射系數(shù)接近1,吸收系數(shù)接近零。濾波器的傳遞函數(shù)的參數(shù)可以是頻率有關(guān)的,因?yàn)楦咭艉偷鸵舫3R圆煌绞奖环瓷渑c吸收。
依據(jù)本發(fā)明的最佳實(shí)施方案,一個(gè)被模擬的場(chǎng)所的表面被分成許多節(jié)點(diǎn),一個(gè)自身的濾波器模型由所有必要的節(jié)點(diǎn)組成,其中濾波器的傳遞函數(shù)取決于給于濾波器的參數(shù),以不同的比例表示被反射,吸收和傳輸?shù)穆曇簟D1所示被模擬的場(chǎng)所可由只有幾個(gè)節(jié)點(diǎn)的簡(jiǎn)單模型來表示。圖3a示出包括三個(gè)濾波器的濾波器組;其中每個(gè)濾波器代表被模擬的場(chǎng)所的一個(gè)表面。第一濾波器301的傳遞函數(shù)可以代表反射,在圖2中未分開示出,第二濾波器302的傳遞函數(shù)可以代表聲音從墻面反射,第三濾波器303的傳遞函數(shù)既可代表聲音從窗玻璃反射,也可代表聲音穿過窗玻璃。當(dāng)來自聲源100的聲音作為脈沖函數(shù)X(t)時(shí),則濾波器301,302和303的參數(shù)r(反射系數(shù)),a(吸收系數(shù))和t(傳輸系數(shù))被設(shè)置,使得由濾波器301提供的響應(yīng)代表由圖2未示出的表面反射的聲音,由濾波器302提供的響應(yīng)代表從墻面反射的聲音,濾波器303的響應(yīng)代表從窗玻璃反射的聲音。如果,例如,我們假定墻是高吸收材料,窗玻璃是高反射材料,那末在該圖的實(shí)施方案中,反射系數(shù)r2接近零,窗玻璃的反射系數(shù)r3相應(yīng)地接近1。通常可以指出,某個(gè)表面的吸收系數(shù)和反射系數(shù)互相關(guān)連吸收越低,反射越高,反過來也一樣(在數(shù)學(xué)上這種關(guān)連的形式為r=1-a]]>)。由濾波器給出的響應(yīng)在相加器304中相加。
當(dāng)希望用圖3a的濾波器組模擬圖1所示的干擾聲音108時(shí),濾波器301和302的吸收系數(shù)a1和a2被設(shè)置為1,因此沒有形成干擾聲音的任何反射分量。在濾波器303中,傳輸系數(shù)t3被設(shè)置為一個(gè)值,以此濾波器303可被構(gòu)成代表通過窗玻璃傳輸?shù)穆曇簟?br>
圖3a也示出延時(shí)部件305,產(chǎn)生沿不同路徑傳播到吸收點(diǎn)的聲音分量的相互時(shí)差。直接傳播的聲音將以最短時(shí)間到達(dá)吸收點(diǎn),只在延時(shí)部件的第一級(jí)305a中被延時(shí)。通過墻面反射的聲音在延時(shí)部件的頭兩級(jí)305a和305b中被延時(shí),通過窗戶反射的聲音在延時(shí)部件的全部級(jí)305a,305b和305c中被延時(shí)。因?yàn)樵趫D1中由聲音覆蓋的距離通過墻與通過窗是幾乎相同的,在延時(shí)裝置305中不同級(jí)代表不同大小的延時(shí)是可導(dǎo)出的第三級(jí)305c不可能非常多地延時(shí)聲音,作為一種替代的實(shí)施方案,我們可以按照?qǐng)D3b設(shè)想解答,其中延時(shí)裝置的所有級(jí)是相同大小的,但從延時(shí)裝置到濾波器的輸出可在不同點(diǎn)得到,取決于各自所希望的延時(shí)。
圖4示出具有發(fā)送設(shè)備401和接收設(shè)備402的一個(gè)系統(tǒng)。發(fā)送設(shè)備401組成含有至少一個(gè)聲源和至少一個(gè)場(chǎng)所的音質(zhì)特征的某種虛擬聲音環(huán)境,并將它以某種形式傳送到接收設(shè)備402。這種傳送可以數(shù)字形式完成例如作為無線電或電視廣播或通過數(shù)據(jù)網(wǎng)絡(luò)。這種傳送也可意味著在由發(fā)送設(shè)備401產(chǎn)生的虛擬聲音環(huán)境的基礎(chǔ)上產(chǎn)生記錄,例如DVD盤(數(shù)字多功能盤),由接收設(shè)備的用戶完成。作為記錄被傳送的一種典型應(yīng)用是音樂會(huì),其中聲源是包括虛擬樂器的管弦樂隊(duì),場(chǎng)所是電模擬的想象的或真實(shí)的音樂廳,由此接收設(shè)備的用戶可用他的設(shè)備收聽在大廳的不同點(diǎn)上表演聽起來怎樣,如果這樣的一種虛擬環(huán)境是視聽型式的,那末,也包含由計(jì)算機(jī)圖形實(shí)現(xiàn)的可視部分。本發(fā)明并不需要發(fā)送與接收設(shè)備是分離的設(shè)備,但用戶可在一個(gè)設(shè)備中創(chuàng)造某種虛擬聲音環(huán)境,使用相同的設(shè)備查看他的創(chuàng)造結(jié)果。
在圖4所示的實(shí)施方案中,發(fā)送設(shè)備的用戶用計(jì)算機(jī)圖形工具403創(chuàng)造像音樂廳那樣的某種可視環(huán)境,并用相應(yīng)的工具404創(chuàng)造出像音樂家和虛擬管弦樂隊(duì)的樂器那樣的視頻動(dòng)畫片。進(jìn)一步,他用鍵盤405輸入用于他所創(chuàng)造的環(huán)境表面的聲學(xué)特性,例如反射系數(shù)r,吸收系數(shù)a和傳輸系數(shù)t,或者更一般性地,代表表面的傳遞函數(shù),從數(shù)據(jù)庫(kù)406加載虛擬樂器的聲音。發(fā)送設(shè)備將由用戶給出的信息處理或在塊407、408,409和410中的位流,并在多路轉(zhuǎn)換器411中將位流組合成一個(gè)數(shù)據(jù)流。數(shù)據(jù)流以某種形式傳送到接收設(shè)備402,其中逆多路轉(zhuǎn)換器412從數(shù)據(jù)流中插出并提供代表環(huán)境的視頻部分到塊413中,時(shí)間有關(guān)的視頻部分或動(dòng)畫到塊414中,時(shí)間有關(guān)的聲音到塊415中,代表表面的系統(tǒng)到塊416中。視頻部分被組合到顯示驅(qū)動(dòng)器塊417中并供給顯示器418。代表由聲源發(fā)生的聲音的信號(hào)由塊415引向?yàn)V波器組419,其中濾波器已被給于從塊416獲得的參數(shù),代表表面的特征。濾波器組419提供包括不同反射和衰減并被引向耳機(jī)420的聲音。
圖5a和5b更詳細(xì)地示出接收設(shè)備的濾波器方案,可以按照本發(fā)明的方式實(shí)現(xiàn)一種虛擬聲音環(huán)境。延時(shí)裝置305相應(yīng)于圖3a和3b所示的延時(shí)裝置,產(chǎn)生不同聲音分量(例如沿不同路徑反射的聲音)的相互時(shí)差,濾波器301,302和303是參數(shù)化濾波器,按本發(fā)明的方式給于某些參數(shù),因此濾波器301,302和303以及圖中僅用點(diǎn)表示的其它相應(yīng)濾波器中每一個(gè)提供虛擬環(huán)境某個(gè)表面的一個(gè)模型。由所述的濾波器提供的信號(hào)被分支,一方面到濾波器501,502和503,另一方面通過相加器和放大器504到相加器505,它們和回聲分支506,507,508和509和相加器510以及和放大器511,512,513和514一起組成稱為原本(per se)的電路,因此可在某個(gè)信號(hào)中產(chǎn)生混響,濾波器501,502和503是稱為原本(per se)的方向?yàn)V波器,用以考慮,例如依據(jù)HRTF模型(Head-Related Transfer Function),在不同方向中收聽者聽覺感受的差別。最優(yōu)先的做法是,濾波器501,502和503也包含所謂的ITD延時(shí)(Interaural Time Difference),代表從不同方向到達(dá)的聲音分量的相互時(shí)差。
在濾波器501,502和503中,每個(gè)信號(hào)分量被分成左和右通道,或者在多通道系統(tǒng)中更一般而言分成N個(gè)通道。屬于某個(gè)通道的所有信號(hào)在相加器515或516中被組裝并供給相加器517或518,其中各自的混響被加到每個(gè)通道的信號(hào)上,線路519和520引到揚(yáng)聲器或耳機(jī)。在圖5a中在濾波器302和303之間以及濾波器502和503之間的點(diǎn)意味著本發(fā)明對(duì)于在接收機(jī)設(shè)備的濾波器組中有多少濾波器并未施加限制,可以有甚至幾百或幾千個(gè)濾波器,這取決于被模擬的虛擬聲音環(huán)境的復(fù)雜性。
圖5b更詳細(xì)地示出實(shí)現(xiàn)這樣一種代表反射表面的參數(shù)化濾波器的可能性。在圖5b中濾波器301包括三個(gè)相繼的濾波器級(jí)530,531和532,其中第一級(jí)530代表在介質(zhì)(通常是空氣)中的傳播衰減,第二級(jí)531代表在反射材料中產(chǎn)生的吸收,第三級(jí)532考慮聲源的方向性。在第一級(jí)530中,既考慮聲音在介質(zhì)中從聲源通過反射表面到達(dá)觀察點(diǎn)經(jīng)過的距離,又考慮介質(zhì)的特性如空氣的濕度,壓力和溫度是可能的。為了計(jì)算距離,級(jí)530從發(fā)送設(shè)備獲得關(guān)于在要模擬的場(chǎng)所的座標(biāo)系中聲源的位置的信息和從接收設(shè)備獲得關(guān)于用戶已選作觀察點(diǎn)的座標(biāo)信息。描述介質(zhì)特性的信息由第一級(jí)530或者從發(fā)送設(shè)備或者從接收設(shè)備獲得(接收設(shè)備的用戶可能有能力設(shè)置所希望的介質(zhì)特性)。作為一種常設(shè)方案,第二級(jí)531從發(fā)送設(shè)備獲得代表反射表面吸收的系數(shù),雖然在這種情況下,接收設(shè)備的用戶也有可能改變被模擬場(chǎng)所的特性。第三級(jí)532考慮由聲源發(fā)送的聲音在要模擬的場(chǎng)所中是如何從聲源指向不同方向的,由濾波器301模擬的反射表面被定位在某個(gè)方向。
以上我們已一般性地討論了可如何處理一個(gè)虛擬聲音環(huán)境并利用參數(shù)從一個(gè)設(shè)備傳送到另一個(gè)。接著我們討論本發(fā)明對(duì)一種特定的數(shù)據(jù)傳輸形式的應(yīng)用?!岸嗝襟w”意味著對(duì)用戶同步表演視聽目標(biāo)?;プ饔枚嗝襟w表演被認(rèn)為在將來有廣闊的用途,例如作為一種娛樂和遠(yuǎn)距離會(huì)議的形式。在先前技術(shù)中已知有許多標(biāo)準(zhǔn),規(guī)定以電的形式傳送多媒體節(jié)目的不同方法。在本專利申請(qǐng)中,我們特別論述所謂的MPEG標(biāo)準(zhǔn)(Motion Picture Experts Group),其中尤其是MPEG-4標(biāo)準(zhǔn),當(dāng)這份專利申請(qǐng)被遞交時(shí)該標(biāo)準(zhǔn)還在準(zhǔn)備中,作為一個(gè)目標(biāo)是被傳送的多媒體表演可以包含真實(shí)的和虛擬的對(duì)象,它們一起組成某種視聽環(huán)境。本發(fā)明可進(jìn)一步用于,例如依據(jù)VRML標(biāo)準(zhǔn)(Virtual RealityModelling Language)的場(chǎng)合。
依據(jù)MPEG-4標(biāo)準(zhǔn)的數(shù)據(jù)流包括多路復(fù)用的視聽對(duì)象,兩者可包含時(shí)間上連續(xù)的部分(例如某個(gè)合成的聲音),和參數(shù)(例如在要模擬的場(chǎng)所中聲源的位置)。對(duì)象可被規(guī)定為等級(jí)型的,因此所謂的原始對(duì)象位于等級(jí)的較低層。除了對(duì)象以外,依據(jù)MPEG-4標(biāo)準(zhǔn)的多媒體節(jié)目包含所謂的情景描述,包含涉及對(duì)象相互關(guān)系的信息和涉及節(jié)目一般合成方案的信息,最優(yōu)先的做法是與真實(shí)的對(duì)象分開編碼與解碼,情景描述也稱為BIFS部分(BInary Format for Scenedescription)。依據(jù)本發(fā)明的虛擬聲音環(huán)境的傳送是便于實(shí)現(xiàn)的,這樣和它有關(guān)的一部分信息是在BIFS部分中傳送,一部分是用由MPEG-4標(biāo)準(zhǔn)規(guī)定的Structured Audio Orchestra Language/Structured AudioScore Language(SAOL/SASL)傳送的。
在已知的方法中,BIFS部分包含規(guī)定的表面描述(材料節(jié)點(diǎn)),包含用于可視地傳送代表表面的參數(shù)的區(qū),例如SFFloat ambientIntensity,SFColor diffuse Color,SFColor emissive Color,SFFloatshininess,SFColor SpeanlarColor和SFFloat transparency。本發(fā)明通過加上這種描述可應(yīng)用于以下的用于傳送聲學(xué)參數(shù)的區(qū)。
SFFloat diffuseSound在本區(qū)中傳送的值是一個(gè)系數(shù),規(guī)定從表面聲音反射的擴(kuò)散率,系數(shù)的值在0到1的范圍內(nèi)。
MFFloat reffuncSound本區(qū)傳送一個(gè)或多個(gè)參數(shù),規(guī)定從所談及的表面模擬聲音反射的傳遞函數(shù)。如果采用一種簡(jiǎn)單的系數(shù)模型,那末為了清楚起見,可以傳送名字不同的refcoeffSound區(qū)來代替本區(qū),其中被傳送的參數(shù),最優(yōu)先的做法,是與上面提到的反射系數(shù)r,或者一組系數(shù)是相同的,一組系數(shù)中每個(gè)代表在某個(gè)預(yù)先規(guī)定的頻段中的反射。如果采用一種比較復(fù)雜的傳遞函數(shù),那末我們?cè)诖擞幸惶滓?guī)定傳遞函數(shù)的參數(shù),例如以上與公式(1)連同提出的方法相同。
MFFloat transfunc Sound本區(qū)傳送一個(gè)或多個(gè)參數(shù),規(guī)定以與以上參數(shù)(一個(gè)系數(shù)或每個(gè)頻段一個(gè)系數(shù),因此,為了清楚起見,區(qū)的名字可以是transCoeffSound;或者確定傳遞函數(shù)的系數(shù))可比較的方式模擬通過所述的表面的聲音傳輸?shù)膫鬟f函數(shù)。
SFInt MaterialIDSound本區(qū)傳送一個(gè)標(biāo)識(shí)符,識(shí)別在數(shù)據(jù)庫(kù)中某個(gè)標(biāo)準(zhǔn)的材料,數(shù)據(jù)庫(kù)的使用在上面描述過。如果由本區(qū)描述的表面不是一種標(biāo)準(zhǔn)材料,那末在本區(qū)中傳送的參數(shù)值可以是,例如,-1,或者另一個(gè)商定好的值。
本區(qū)以上作為對(duì)已知材料節(jié)點(diǎn)的潛在補(bǔ)充作了描述。一種替代的實(shí)施方案是規(guī)定一個(gè)新節(jié)點(diǎn),為了舉例的目的我們可以稱它為聲學(xué)材料節(jié)點(diǎn),利用以上描述過的區(qū)或某個(gè)類似的且功能相等的區(qū)作為聲學(xué)材料(A Coustic Material)節(jié)點(diǎn)的部分,這樣的一種實(shí)施方案將已知的材料節(jié)點(diǎn)留作只用于圖形目的。
以上提到的參數(shù)總是與某個(gè)表面有關(guān)的。因?yàn)榭紤]一種場(chǎng)所的聲學(xué)模擬。給出關(guān)于整個(gè)場(chǎng)所的某些參數(shù)也是有利的,將ACoustic Scene節(jié)點(diǎn)加到已知的BIFS部分是可能的,因此,A Coustic Scene節(jié)點(diǎn)是參數(shù)目錄的形式,并可包含傳送,例如,以下參數(shù)的區(qū)MFAudioNode本區(qū)是一個(gè)表,它的內(nèi)容告訴那些其它節(jié)點(diǎn)受由ACoustic Scene節(jié)點(diǎn)中給出的定義的影響。
MFFloat reverbtime本區(qū)傳送一個(gè)或一組參數(shù)以便指明混響時(shí)間。
SFBool useairabs一種是/否型的區(qū),告知在虛擬聲音環(huán)境的模擬中由空氣引起的衰減是否被應(yīng)用。
SFBool usematerial一種是/否型的區(qū),告知在虛擬聲音環(huán)境的模擬中由BIFS部分中給出的表面特性是否被應(yīng)用。
指明混響時(shí)間的區(qū)MFFloat reverbtime,可以,例如,用以下方法規(guī)定如果在此區(qū)中只給出一個(gè)值,代表在所有頻率上使用的混響時(shí)間。如果有2n個(gè)值,那末相繼的值(第一和第二值,第三和第四值,等)組成對(duì),其中第一值指明頻段,第二值指明在所述頻段上的混響時(shí)間。
從MPEG-4標(biāo)準(zhǔn)草案中我們知道Listening Point節(jié)點(diǎn)一般代表聲音處理并代表在要模擬的場(chǎng)所中收聽者的位置。當(dāng)本發(fā)明被應(yīng)用于此節(jié)點(diǎn)時(shí),我們可以補(bǔ)充以下的區(qū)SFInt spatialize ID在本區(qū)中給出的參數(shù)指明標(biāo)識(shí)符,利用它我們識(shí)別一種連到與特定的應(yīng)用或用戶有關(guān)的功能,例如HRTF模型。
SFInt dirsoundrender在本區(qū)中傳送的值指明對(duì)于直接從聲源到收聽點(diǎn)沒有任何反射的聲音應(yīng)用哪一級(jí)聲音處理。作為一個(gè)例子,我們可以設(shè)想三個(gè)可能的等級(jí),因此在最低等級(jí)上應(yīng)用一種所謂的幅度掃視技術(shù),在中等級(jí)上進(jìn)一步觀察ITD延時(shí),在最高等級(jí)上應(yīng)用最復(fù)雜的計(jì)算(如HRTF模型)。
SFInt reflsoundrender本區(qū)傳送代表等級(jí)選擇的參數(shù),對(duì)應(yīng)于以上提到的區(qū),但涉及通過反射來到的聲音。
當(dāng)在依據(jù)MPEG-4或VRML標(biāo)準(zhǔn)的數(shù)據(jù)流中或用依據(jù)本發(fā)明的方法在其它連接中傳送虛擬聲音環(huán)境時(shí),定標(biāo)仍然是一個(gè)可被考慮的特點(diǎn)。所有的接收設(shè)備不可能必定使用由發(fā)送設(shè)備產(chǎn)生的整個(gè)虛擬聲音環(huán)境,因?yàn)樗梢园绱硕嘁岩?guī)定的表面,以致接收設(shè)備不可能組成相同數(shù)量的濾波器或者在接收設(shè)備中的模型處理在計(jì)算方面將太繁重。為了考慮這點(diǎn),代表表面的參數(shù)可被安排成這樣,使得接收設(shè)備可以分離出聲學(xué)上最重要的表面(例如這些表面被規(guī)定在目錄中,其中表面的次序?qū)?yīng)于聲學(xué)上的重要性),因此具有有限容量的接收設(shè)備可以處理按其重要性的次序盡可能多的表面。
以上提出的區(qū)和參數(shù)的標(biāo)記當(dāng)然只是示范性的,并不打算將它們限于本發(fā)明的規(guī)定。
作為結(jié)束,我們將描述本發(fā)明對(duì)電話連接的應(yīng)用,或者更準(zhǔn)確地說,對(duì)于在公共遠(yuǎn)程通信網(wǎng)絡(luò)上的電視電話連接的應(yīng)用。參考圖6,其中有一個(gè)發(fā)送電話設(shè)備601,一個(gè)接收電話設(shè)備602和在它們之間通過公共遠(yuǎn)程通信網(wǎng)絡(luò)603的通信連接。為了舉例的目的,我們將假定兩個(gè)電話設(shè)備均裝備成用于電視電話,意思是,它們包括一個(gè)話筒604,一個(gè)聲音復(fù)現(xiàn)系統(tǒng)605,一個(gè)攝象機(jī)606和顯示器607。另外,兩個(gè)電話設(shè)備包括一個(gè)鍵盤608,用于輸入命令和消息。聲音復(fù)現(xiàn)系統(tǒng)可以是一個(gè)揚(yáng)聲器,一組揚(yáng)聲器,耳機(jī)(如圖6)或者它們的組合。術(shù)語“發(fā)送電話設(shè)備”和“接收電話設(shè)備”是在以下的在一個(gè)方向中視聽傳輸?shù)暮?jiǎn)化描述;典型的電視電話連接自然是雙向的,公共遠(yuǎn)程通信網(wǎng)603可以是數(shù)字蜂窩網(wǎng),公共交換電話網(wǎng),集成服務(wù)數(shù)字網(wǎng)(ISDN),互聯(lián)網(wǎng),局域網(wǎng)(LAN),廣域網(wǎng)(WAN)或者它們的某種組合。
將本發(fā)明應(yīng)用于圖6系統(tǒng)的目的是給接收電話設(shè)備602的用戶一種發(fā)送電話設(shè)備601的用戶的視聽感受,使得這種視聽感受盡可能接近自然,或盡可能接近某種虛構(gòu)的目標(biāo)感受。應(yīng)用本發(fā)明意味著發(fā)送電話設(shè)備601構(gòu)成一個(gè)當(dāng)前所在的聲音環(huán)境的模型,或者發(fā)送電話設(shè)備的用戶想象的聲音環(huán)境的模型,所述的模型由許多被模擬為參數(shù)化傳遞函數(shù)的反射表面組成,在組成模型中,發(fā)送電話設(shè)備可以通過發(fā)出許多測(cè)試信號(hào)和測(cè)量當(dāng)前的工作環(huán)境對(duì)它們的響應(yīng)使用它自己的話筒和聲音復(fù)現(xiàn)系統(tǒng)。在建立通信連接期間,發(fā)送電話設(shè)備發(fā)送描述所組成的模型的參數(shù)到接收電話設(shè)備。作為對(duì)接收這些參數(shù)的響應(yīng),接收電話設(shè)備構(gòu)成由帶有各自的參數(shù)化傳遞函數(shù)的濾波器組成的濾波器組。然后來自發(fā)送電話設(shè)備的所有聲頻信號(hào)在接收電話設(shè)備的聲音復(fù)現(xiàn)系數(shù)中復(fù)現(xiàn)相應(yīng)的聲音信號(hào)以前被指向通過所構(gòu)成的濾波器組,這樣產(chǎn)生所需要的視聽感受的聲音部分。
在構(gòu)成聲音環(huán)境的模型中,可做若干基本的假定。參與個(gè)人對(duì)個(gè)人電視電話連接的用戶通常在他的面孔和顯示器之間有大約40-80cm的距離。因此,在打算描述面對(duì)面談話的用戶的虛擬聲音環(huán)境中。在聲源和收聽點(diǎn)之間的自然距離是80和160cm之間。也可以做若干有關(guān)用戶和他的電視電話設(shè)備所在的房間大小的基本假定,這樣可以計(jì)算來自房間墻面的反射。自然也可以人工編排對(duì)發(fā)送和/或接收電話設(shè)備所希望的聲音環(huán)境的參數(shù)。
權(quán)利要求
1.一種用于處理包括表面的虛擬聲音環(huán)境的方法,其特征在于在虛擬聲音環(huán)境中包含的表面由濾波器進(jìn)行處理,濾波器對(duì)聲音信號(hào)的影響取決于與每個(gè)濾波器有關(guān)的參數(shù)。
2.依據(jù)權(quán)利要求1的方法,其特征在于所述的與每個(gè)濾波器有關(guān)的參數(shù)是代表表面的聲音反射和/或吸收和/或傳輸特性的系數(shù)。
3.依據(jù)權(quán)利要求1的方法,其特征在于所述的與每個(gè)濾波器有關(guān)的參數(shù)是表示為比值H(z)=Y(z)X(z)=Σk=0Mbkz-k1+Σk=1Nakz-k]]>的濾波器傳遞函數(shù)Z變換的系數(shù)[b0b1a1b2a2…]。
4.依據(jù)權(quán)利要求1的方法,其特征在于包括以下步驟-發(fā)送設(shè)備利用由濾波器代表的表面產(chǎn)生某種虛擬聲音環(huán)境,濾波器對(duì)聲音信號(hào)的影響取決于與每個(gè)濾波器有關(guān)的參數(shù),-發(fā)送設(shè)備將關(guān)于所述的與每個(gè)濾波器有關(guān)的參數(shù)的信息傳送到接收設(shè)備,-為了重建虛擬聲音環(huán)境接收設(shè)備建立濾波器組,包括對(duì)聲音信號(hào)的影響取決于與每個(gè)濾波器有關(guān)的參數(shù)的濾波器,并根據(jù)由發(fā)送設(shè)備傳送的信息產(chǎn)生與每個(gè)濾波器有關(guān)的參數(shù)。
5.依據(jù)權(quán)利要求4的方法,其特征在于發(fā)送設(shè)備將關(guān)于與每個(gè)濾波器有關(guān)的參數(shù)的信息作為依據(jù)MPEG-4標(biāo)準(zhǔn)的數(shù)據(jù)流的一部分傳送到接收設(shè)備。
6.一種用于處理包括表面的虛擬聲音環(huán)境的系統(tǒng),其特征在于包括用于建立濾波器組的裝置,包括用于模擬在虛擬聲音環(huán)境中所包含的表面的參數(shù)化濾波器。
7.依據(jù)權(quán)利要求6的系統(tǒng),其特征在于包括發(fā)送設(shè)備和接收設(shè)備以及用于實(shí)現(xiàn)在發(fā)送設(shè)備與接收設(shè)備之間電數(shù)據(jù)傳輸?shù)难b置。
8.依據(jù)權(quán)利要求7的系統(tǒng),其特征在于包括發(fā)送設(shè)備中的多路轉(zhuǎn)換裝置,以便把代表參數(shù)化濾波器特性的參數(shù)放在依據(jù)MPEG-4標(biāo)準(zhǔn)的數(shù)據(jù)流中,和接收設(shè)備中的逆多路轉(zhuǎn)換裝置,以便從依據(jù)MPEG-4標(biāo)準(zhǔn)的數(shù)據(jù)流中找出代表參數(shù)化濾波器特性的參數(shù)。
全文摘要
一種虛擬聲音環(huán)境包括反射,吸收和傳輸聲音的表面,參數(shù)化濾波器被用于代表表面,規(guī)定濾波器傳遞函數(shù)的參數(shù)被提出以便代表參數(shù)化濾波器。
文檔編號(hào)G10K15/02GK1282444SQ98812451
公開日2001年1月31日 申請(qǐng)日期1998年10月19日 優(yōu)先權(quán)日1997年10月20日
發(fā)明者J·霍帕尼米 申請(qǐng)人:諾基亞有限公司