音頻的屏幕相對呈現(xiàn)和用于這樣的呈現(xiàn)的音頻的編碼和解碼的制作方法
【專利說明】音頻的屏幕相對呈現(xiàn)和用于這樣的呈現(xiàn)的音頻的編碼和解碼
[0001]相關(guān)申請的交叉引用
[0002]本申請要求2013年11月14日提交的美國臨時專利申請?zhí)?1/904,233的優(yōu)先權(quán)益,其通過整體引用而并入本文。
技術(shù)領(lǐng)域
[0003]本發(fā)明涉及具有對應(yīng)的視頻內(nèi)容的音頻節(jié)目(例如電影或者其它視聽節(jié)目的聲軌)的編碼、解碼以及呈現(xiàn)。在一些實施例中,該節(jié)目是基于對象的音頻節(jié)目,該基于對象的音頻節(jié)目包括至少一個音頻對象聲道、屏幕相關(guān)的元數(shù)據(jù)以及通常還包括揚(yáng)聲器聲道。屏幕相關(guān)的元數(shù)據(jù)支持屏幕相對呈現(xiàn),在屏幕相對呈現(xiàn)中,由節(jié)目指示的聲源(例如,由對象聲道指示的對象)在相對于回放系統(tǒng)的顯示屏幕的(至少部分地由屏幕相關(guān)的元數(shù)據(jù)確定的)位置處呈現(xiàn)。
【背景技術(shù)】
[0004]本發(fā)明的實施例涉及音頻內(nèi)容創(chuàng)建和分發(fā)管道(pipeline)(例如,用于創(chuàng)建和分發(fā)視聽節(jié)目的音頻內(nèi)容的管道)的一個或多個方面。
[0005]這樣的管道實現(xiàn)音頻節(jié)目(通常是指示音頻內(nèi)容和與音頻內(nèi)容對應(yīng)的元數(shù)據(jù)的經(jīng)編碼的音頻節(jié)目)的生成。音頻節(jié)目的生成可以包括音頻制作活動(音頻的捕獲和記錄)以及可選地還包括“后制作”活動(記錄音頻的操縱)?,F(xiàn)場直播必然需要所有創(chuàng)作決定在音頻制作期間做出。在電影和其它非實時節(jié)目的生成中,許多創(chuàng)作決定可以在后制作期間做出。
[0006]音頻內(nèi)容創(chuàng)建和分發(fā)管道可選地實現(xiàn)節(jié)目的再混合和/或再灌制(remaster)。在一些情況下,節(jié)目在內(nèi)容創(chuàng)建之后可能需要附加處理以使內(nèi)容重新用于替代的使用情況。例如,針對在電影院中回放而最初創(chuàng)建的節(jié)目可以被修改(例如再混合)以更適合于在家庭環(huán)境中回放。
[0007]音頻內(nèi)容創(chuàng)建和分發(fā)管道通常包括編碼階段。音頻節(jié)目可能需要編碼以使得能夠進(jìn)行分發(fā)。例如,預(yù)期用于在家庭中回放的節(jié)目通常將是被壓縮以允許更高效的分發(fā)的數(shù)據(jù)。編碼處理可以包括以下步驟:降低空間音頻場景的復(fù)雜度、和/或節(jié)目的單個音頻流的數(shù)據(jù)率降低、和/或?qū)⒁纛l內(nèi)容(例如壓縮的音頻內(nèi)容)的多個聲道和對應(yīng)的元數(shù)據(jù)打包為具有期望的格式的比特流。
[0008]音頻內(nèi)容創(chuàng)建和分發(fā)管道包括解碼和呈現(xiàn)級(通常由包括解碼器的回放系統(tǒng)來實現(xiàn))。最終節(jié)目通過基于回放設(shè)備和環(huán)境將音頻描述呈現(xiàn)為喇叭信號來展現(xiàn)給終端消費(fèi)者。
[0009]本發(fā)明的典型實施例允許音頻節(jié)目(例如電影或者具有音頻和圖像內(nèi)容的其它節(jié)目的聲軌)再生使得聽覺圖像的位置以與對應(yīng)的視覺圖像的位置一致的方式可靠地展現(xiàn)。
[0010]傳統(tǒng)上,在電影混合房間(或者其它視聽節(jié)目創(chuàng)作環(huán)境)中,顯示屏幕(在本文中稱為“參考”屏幕,以將它與視聽節(jié)目回放屏幕區(qū)分開)的位置和大小與混合環(huán)境的前壁重合并且參考屏幕的左邊緣和右邊緣與左和右主屏幕喇叭的位置重合。附加的中心屏幕聲道通常位于參考屏幕/墻壁的中間。因此,前壁范圍、前面喇叭位置以及屏幕位置一致地共置(co-locate)。通常,參考屏幕大致與房間一樣寬,并且左、中心以及右喇叭靠近參考屏幕的左邊緣、中心以及右邊緣。該布置與期望的電影院回放位置中的屏幕和前面喇叭的典型布置類似。例如,圖1是這樣的電影院的前壁(W)的示圖,其中顯示屏幕S、左和右前揚(yáng)聲器(L和R)以及前中(front center)揚(yáng)聲器(C)安裝至(或者靠近)前壁。在電影的回放期間,視覺圖像B可以顯示在屏幕S上,而關(guān)聯(lián)的聲音“A”從回放系統(tǒng)的揚(yáng)聲器(包括揚(yáng)聲器L、R以及C)發(fā)出。例如,圖像B可以是聲源(例如鳥或者直升機(jī))的圖像并且聲音“A”可以是預(yù)期被感知為從聲源發(fā)出的聲音。我們假設(shè)電影已被創(chuàng)作和呈現(xiàn)使得當(dāng)前面揚(yáng)聲器與屏幕S共面地定位(其中左前和右前揚(yáng)聲器(L和R)在屏幕S的左和右邊緣處,并且中前揚(yáng)聲器靠近屏幕S的中心)時,聲音A被感知為從聲源位置發(fā)出,該聲源位置與圖像B被顯示的屏幕S上的位置重合(或者幾乎重合)。圖1假設(shè)屏幕S至少基本上聲學(xué)穿透的,并且揚(yáng)聲器L、C以及R安裝在屏幕S后面(但是至少基本上在屏幕S的平面中)。
[0011]然而,在消費(fèi)者的家庭中(或者通過移動用戶的便攜式回放設(shè)備)進(jìn)行回放期間,回放系統(tǒng)的前面揚(yáng)聲器(或者耳機(jī)揚(yáng)聲器)相對于彼此和相對于回放系統(tǒng)的顯示屏幕的大小和位置不需要匹配節(jié)目創(chuàng)作環(huán)境(例如電影混合房間)的顯示屏幕和前面揚(yáng)聲器的大小和位置。在這樣的回放情況下,回放屏幕的寬度通常顯著小于分隔左和右主揚(yáng)聲器(左和右前揚(yáng)聲器、或者耳機(jī)的揚(yáng)聲器,例如一對頭戴式耳機(jī))的距離。還可能的是,屏幕不在中心或者甚至在相對于主揚(yáng)聲器的固定位置處(例如,在佩帶頭戴式耳機(jī)和拿著顯示設(shè)備的移動用戶的情況下)。這可以創(chuàng)建感知的音頻和視覺之間的明顯不協(xié)調(diào)。
[0012]例如,圖2是房間的前壁(W’)的示圖,其中,家庭影院系統(tǒng)的顯示屏幕(S’)、左和右前揚(yáng)聲器(L’和R’)以及前中揚(yáng)聲器(C’)安裝至(或者靠近)前壁。在圖1的示例中所描述的相同電影的(通過圖2的系統(tǒng))回放期間,視覺圖像B顯示在屏幕S’上,而關(guān)聯(lián)的聲音A從回放系統(tǒng)的揚(yáng)聲器(包括揚(yáng)聲器L’、R’以及C’)發(fā)出。我們已假設(shè)該電影已被創(chuàng)作以用于呈現(xiàn)和回放(通過電影院回放系統(tǒng)),其中聲音A被感知為從與圖像B被顯示的電影院屏幕上的位置重合(或者幾乎重合)的聲源位置發(fā)出。然而,當(dāng)電影由圖2的家庭影院系統(tǒng)播放時,聲音A將被感知為從靠近左前揚(yáng)聲器L’的聲源位置發(fā)出,該聲源位置與圖像B被顯示的家庭影院屏幕S’上的位置既不重合也不幾乎重合。這是因為,家庭影院系統(tǒng)的前面揚(yáng)聲器L’、C’以及R’具有相對于屏幕S’的、與節(jié)目創(chuàng)作系統(tǒng)的前面揚(yáng)聲器具有相對于節(jié)目創(chuàng)作系統(tǒng)的參考屏幕的不同的大小和位置。
[0013]在圖1和2的示例中,期望的電影回放系統(tǒng)被假設(shè)在它的揚(yáng)聲器和屏幕之間具有很好地定義的關(guān)系,并且因此對于顯示圖像和對應(yīng)的音頻源的內(nèi)容創(chuàng)建者的期望的相對位置可以可靠地再現(xiàn)(在電影院中的回放期間)。對于在其它環(huán)境中(例如在家庭音視頻房間中)的回放,揚(yáng)聲器和屏幕之間的假設(shè)關(guān)系通常不保留,并且因此顯示圖像和對應(yīng)的音頻源的相對位置(其由內(nèi)容創(chuàng)建者期望)通常不被很好地再現(xiàn)。在回放期間(除了在具有揚(yáng)聲器和屏幕之間的假設(shè)關(guān)系的電影院中之外)實際實現(xiàn)的顯示圖像和對應(yīng)的音頻源的相對位置基于回放系統(tǒng)的喇叭和顯示屏幕的實際相對位置和大小。
[0014]在視聽節(jié)目的回放期間,對于被呈現(xiàn)以在屏幕上位置處被感知的聲音,最佳聽覺圖像位置與收聽者位置無關(guān)。對于被呈現(xiàn)以在屏幕外位置處(在與屏幕的平面垂直的方向上的非零距離處)被感知的聲音,取決于收聽者位置,在聲源的聽覺上感知的位置中存在視差的可能。已提出了試圖基于已知的或者假設(shè)的收聽者位置減小或消除這樣的視差的方法。
[0015]已知的是利用高端回放系統(tǒng)(例如在電影院中)來呈現(xiàn)基于對象的音頻節(jié)目(例如,指示電影聲軌的基于對象的節(jié)目)。例如,作為電影聲軌的基于對象的音頻節(jié)目可以指示與屏幕上的圖像、對話、噪音以及聲音效果(從屏幕上的(或者相對于屏幕的)不同位置發(fā)射出)、以及背景音樂和周圍環(huán)境效果(其可以由節(jié)目的揚(yáng)聲器聲道指示)對應(yīng)的許多不同的聲音元素(音頻對象),以創(chuàng)建預(yù)期的總體聽覺體驗。這樣的節(jié)目的準(zhǔn)確回放需要聲音以關(guān)于音頻對象大小、位置、強(qiáng)度、移動以及深度盡可能緊密地與由內(nèi)容創(chuàng)建者所預(yù)期的對應(yīng)的方式再現(xiàn)。
[0016]基于對象的音頻節(jié)目代表相對于傳統(tǒng)的基于揚(yáng)聲器聲道的音頻節(jié)目的顯著改進(jìn),因為基于揚(yáng)聲器聲道的音頻關(guān)于特定音頻對象的空間回放比基于對象聲道的音頻更受限。基于揚(yáng)聲器聲道的音頻節(jié)目的音頻聲道僅由揚(yáng)聲器聲道(不由對象聲道)組成,并且每一個揚(yáng)聲器聲道通常確定收聽環(huán)境中的特定的單個揚(yáng)聲器的揚(yáng)聲器饋送。
[0017]已提出了用于生成和呈現(xiàn)基于對象的音頻節(jié)目的各種方法和系統(tǒng)。在基于對象的音頻節(jié)目的生成期間,通常假設(shè)任意數(shù)量的揚(yáng)聲器將被用于節(jié)目的回放,并且要被用于回放(通常,在電影院中)的揚(yáng)聲器將位于回放環(huán)境中的任意位置;不必在(標(biāo)稱)水平面中或者在節(jié)目生成時已知的任何其它預(yù)定的布置中。通常,包括在節(jié)目中的對象相關(guān)的元數(shù)據(jù)指示在表觀空間位置處或者沿軌跡(trajectory)(在三維體中)(例如使用三維揚(yáng)聲器陣列)呈現(xiàn)該節(jié)目的至少一個對象的呈現(xiàn)參數(shù)。例如,節(jié)目的對象聲道可以具有指示對象(由對象聲道指示)要被呈現(xiàn)的表觀空間位置的三維軌跡的對應(yīng)的元數(shù)據(jù)。該軌跡可以包括一系列“地面(floor)”位置(在回放環(huán)境的假設(shè)位于地面上的揚(yáng)聲器的子集的平面中、或者另一個水平面中)和一系列“地面上”(每個位置通過驅(qū)動假設(shè)位于回放環(huán)境的至少一個其它水平面中的揚(yáng)聲器的子集來確定)。基于對象的音頻節(jié)目的呈現(xiàn)的示例例如在PCT國際申請?zhí)朠CT/US2011/028783(2011年9月29日根據(jù)國際公布號W02011/119401A2公布,并且轉(zhuǎn)讓給本申請的受讓人)中描述。
[0018]基于對象的音頻節(jié)目呈現(xiàn)的出現(xiàn)已顯著增加必須由呈現(xiàn)系統(tǒng)執(zhí)行的呈現(xiàn)的復(fù)雜度和所處理的音頻數(shù)據(jù)量,部分地因為基于對象的音頻節(jié)目可以指示許多對象(每個具有對應(yīng)的元數(shù)據(jù))并且可以被呈現(xiàn)以供由包括許多喇叭的系統(tǒng)來回放。已提出限制包括在基于對象的音頻節(jié)目中的對象聲道的數(shù)量,使得預(yù)期的呈現(xiàn)系統(tǒng)具有呈現(xiàn)該節(jié)目的能力。例如,2012年 12月 21 日提交的、指定Brett Crockett、Alan Seefeldt、Nicolas Tsingos、Rhonda Wilson以及Jeroen Breebaart為發(fā)明人、并且轉(zhuǎn)讓給本發(fā)明的受讓人的題為“Scene Simplificat1n and Object Clustering for Rendering Object based Aud1Content”的美國臨時專利申請?zhí)?1/745,401描述用于通過聚類(cluster)輸入對象聲道以生成包括在節(jié)目中的聚類對象聲道和/或通過將輸入對象聲道的音頻內(nèi)容與揚(yáng)聲器聲道混合以生成包括在節(jié)目中的經(jīng)混合的揚(yáng)聲器聲道來這樣限制基于對象的音頻節(jié)目的對象聲道的數(shù)量的方法和裝置??梢钥紤]的是,本發(fā)明的一些實施例可以與這樣的聚類(例如在混合或者再混合裝置中)相結(jié)合來執(zhí)行以生成基于對象的節(jié)目,以用于(與屏幕相關(guān)的元數(shù)據(jù)一起)傳送至回放系統(tǒng)或者用于在生成用于傳送至回放系統(tǒng)的基于揚(yáng)聲器聲道的節(jié)目中使用。
【發(fā)明內(nèi)容】
[0019]貫穿本公開(包括在權(quán)利要求中),音頻節(jié)目的至少一個聲道(例如對象聲道或者揚(yáng)聲器聲道)的“扭曲(warp)”假設(shè)該節(jié)目具有對應(yīng)的視頻內(nèi)容(例如,該節(jié)目可以是電影或者其它視聽節(jié)目的聲軌)并且表示每一所述聲道的音頻內(nèi)容(音頻數(shù)據(jù))的處理以生成扭曲的音頻內(nèi)容(或者利用指示扭曲的音頻內(nèi)容的至少一個其它音頻聲道代替每個所述聲道),使得當(dāng)扭曲的音頻內(nèi)容被呈現(xiàn)以生成揚(yáng)聲器饋送并且該揚(yáng)聲器饋送被利用以驅(qū)動回放揚(yáng)聲器時,從揚(yáng)聲器發(fā)出的聲音指示具有感知的扭曲位置(其可以是固定的或者可以隨時間而變化)的至少一個音頻元素(內(nèi)容創(chuàng)建者預(yù)期該至少一個音頻元素在相對于參考屏幕(例如電影院屏幕)的至少一個預(yù)定位置被感知)。扭曲位置在它是相對于回放系統(tǒng)的顯示屏幕(而不是相對于由內(nèi)容創(chuàng)建者假設(shè)的參考屏幕)的預(yù)定位置的意義上是“扭曲的”。通常,每個扭曲位置通過被提供有音頻節(jié)目(例如被包括在音頻節(jié)目中)的元數(shù)據(jù)(在本文中稱為“屏幕相關(guān)的”元數(shù)據(jù))(至少部分地)相對于回放系統(tǒng)的顯示屏幕(有時稱為“回放屏幕”)確定。每個扭曲位置可以由屏幕相關(guān)的元數(shù)據(jù)和指示回放系統(tǒng)配置的其它數(shù)據(jù)(例如,指示回放系統(tǒng)的顯示屏幕與揚(yáng)聲器的位置、或者位置和大小、和/或大小和/或位置之間的關(guān)系的數(shù)據(jù))來確定。扭曲位置可以但不需要與實際的回放屏幕重合。本發(fā)明的一些實施例允許處于屏幕上和/或屏幕外(off-screen)(相對于回放屏幕)并且在回放期間改變的扭曲位置之間的平滑轉(zhuǎn)變(transit1n)。
[0020]在本文中,表述節(jié)目的至少一個聲道的“屏幕外扭曲”表示所述至少一個聲道的其中至少一個對應(yīng)音頻元素(由所述至少一個聲道的音頻內(nèi)容確定)的扭曲位置相對于回放屏幕處于非零深度(即,在與回放屏幕的平面至少基本上垂直的方向上離回放屏幕具有非零距離)的類型的“扭曲”。
[0021]在第一類實施例中,本發(fā)明是用于呈現(xiàn)音頻節(jié)目(例如基于對象的音頻節(jié)目)的方法,包括以下步驟:(a)確定至少一個扭曲程度參數(shù)(例如,通過解析節(jié)目以識別由該節(jié)目的屏幕相關(guān)的元數(shù)據(jù)所指示的至少一個所述一個扭曲程度參數(shù)、或者包括通過將至少一個所述一個扭曲程度參數(shù)指定至回放系統(tǒng)來配置該回放系統(tǒng)以執(zhí)行呈現(xiàn));以及(b)對該節(jié)目的至少一個聲道的音頻內(nèi)容執(zhí)行扭曲到至少部分地由與所述聲道對應(yīng)的扭曲程度參數(shù)所確定的程度,其中,每個所述扭曲程度參數(shù)指示要通過回放系統(tǒng)對該節(jié)目的對應(yīng)的音頻內(nèi)容所執(zhí)行的扭曲的最大程度(每個所述扭曲程度參數(shù)例如是指示該最大程度的非二進(jìn)制值)。在第一類的一些實施例中,步驟(a)包括確定至少一個屏幕外扭曲參數(shù)(例如,通過解析節(jié)目以識別由該節(jié)目的屏幕相關(guān)的元數(shù)據(jù)所指示的至少一個所述一個屏幕外扭曲參數(shù))的步驟,其中,屏幕外扭曲參數(shù)指示通過回放系統(tǒng)對節(jié)目的對應(yīng)的音頻內(nèi)容的屏幕外扭曲的至少一個特性,并且其中,在步驟(b)中執(zhí)行的扭曲包括至少部分地由至少一個所述屏幕外扭曲參數(shù)所確定的屏幕外扭曲。例如,屏幕外扭曲參數(shù)可以控制作為深度(在與回放屏幕的平面至少基本上垂直的方向上離回放屏幕的距離)的函數(shù)的音頻元素的扭曲位置的最大扭曲或者扭曲(在與回放屏幕的平面至少基本上平行的方向上)的程度或者方式。在一些實施例中,在步驟(a)中所確定的扭曲程度參數(shù)指示要在與回放屏幕的平面至少基本上平行的平面中(在與回放屏幕至少基本上垂直的深度處)對節(jié)目的對應(yīng)的音頻內(nèi)容所執(zhí)行的扭曲的最大程度,并且因此是屏幕外扭曲參數(shù)。在其它實施例中,步驟(a)包括確定至少一個扭曲程度參數(shù)和還確定不是扭曲程度參數(shù)的至少一個屏幕外扭曲參數(shù)。在一些實施例中,節(jié)目指示至少兩個對象,步驟(a)包括獨立地確定用于對象中的至少兩個中的每一個的至少一個扭曲程度參數(shù)的步驟,并且步驟(b)包括對指示對象中的每一個的音頻內(nèi)容獨立地執(zhí)行扭曲到至少部分地由與該對象中的所述每一個對應(yīng)的所述至少一個扭曲程度參數(shù)所確定的程度的步驟。
[0022]在第二類的實施例中,本發(fā)明是用于生成(或者解碼)基于對象的音頻節(jié)目的方法。該方法包括以下步驟:確定用于至少一個音頻對象的至少一個扭曲程度參數(shù),和在節(jié)目中包括對象聲道(指示對象)和指示用于該對象的每個所述扭曲程度參數(shù)的屏幕相關(guān)的元數(shù)據(jù)。每個所述扭曲程度參數(shù)指示要通過回放系統(tǒng)對對應(yīng)的對象所執(zhí)行的扭曲(例如在與回放屏幕的平面平行的平面中)的最大程度(每個所述扭曲程度參數(shù)例如是指示該最大程度的非二進(jìn)制值(例如具有預(yù)定范圍中的許多值的任何一個的標(biāo)量值))。例如,扭曲程度參數(shù)可以是在從最小值(指示沒有扭曲應(yīng)當(dāng)被執(zhí)行)至指示完全扭曲應(yīng)當(dāng)被執(zhí)行(例如,以將由節(jié)目定義為處于參考屏幕的右邊緣處的音頻元素位置扭曲到回放屏幕的右邊緣處的扭曲位置)的最大值的范圍中的浮點值,其中,該范圍包括指示中間程度的扭曲(例如完全扭曲的50% )應(yīng)當(dāng)被執(zhí)行(例如,以將由節(jié)目定義為處于參考屏幕的右邊緣處的音頻元素位置扭曲到回放房間的右邊緣與回放屏幕的右邊緣之間中間的扭曲位置)的至少一個中間值(大于最小值但小于最大值)。在該上下文中,完全扭曲可以表示回放屏幕的平面中音頻元素的感知位置的扭曲使得扭曲位置與回放屏幕重合,而中間扭曲的程度(或者小于完全扭曲)可以表示回放屏幕的平面中音頻元素的感知位置的扭曲使得扭曲位置與大于(并且包括)回放屏幕的區(qū)域重合。
[0023]在第二類的一些實施例中,屏幕相關(guān)的元數(shù)據(jù)指示用于節(jié)目的至少兩個對象中的每一個的至少一個所述扭曲程度參數(shù),每一個所述扭