音頻內(nèi)容的空間誤差度量的制作方法
【專(zhuān)利摘要】確定存在于一個(gè)或多個(gè)幀中的輸入音頻內(nèi)容中的音頻對(duì)象。還確定存在于所述一個(gè)或多個(gè)幀中的輸出音頻內(nèi)容中的輸出聚類(lèi)。這里,輸入音頻內(nèi)容中的音頻對(duì)象被轉(zhuǎn)換成輸出音頻內(nèi)容中的輸出聚類(lèi)。至少部分基于音頻對(duì)象的位置元數(shù)據(jù)和輸出聚類(lèi)的位置元數(shù)據(jù)來(lái)計(jì)算一個(gè)或多個(gè)空間誤差度量。
【專(zhuān)利說(shuō)明】
音頻內(nèi)容的空間誤差度量
[0001] 相關(guān)申請(qǐng)的交叉引用
[0002] 本申請(qǐng)要求在2014年1月9日提交的西班牙專(zhuān)利申請(qǐng)No.P201430016和在2014年3 月11日提交的美國(guó)臨時(shí)專(zhuān)利申請(qǐng)No. 61 /951048的優(yōu)先權(quán),每個(gè)申請(qǐng)的全部?jī)?nèi)容都通過(guò)引用 并入于此。
技術(shù)領(lǐng)域
[0003] 本發(fā)明一般涉及音頻信號(hào)處理,更具體地涉及確定與音頻對(duì)象的格式轉(zhuǎn)換、渲染、 聚類(lèi)(cluster)、再混合或組合相關(guān)聯(lián)的空間誤差度量和音頻質(zhì)量劣化。
【背景技術(shù)】
[0004] 諸如原始創(chuàng)作/制作的音頻內(nèi)容等之類(lèi)的輸入音頻內(nèi)容可能包括分別以音頻對(duì)象 格式表示的大量音頻對(duì)象。輸入音頻內(nèi)容中的大量音頻對(duì)象可以被用來(lái)創(chuàng)建空間多樣化 的、沉浸式的、準(zhǔn)確的音頻體驗(yàn)。
[0005] 然而,對(duì)包括大量音頻對(duì)象的輸入音頻內(nèi)容的編碼、解碼、傳輸、回放等可能需要 高帶寬、大存儲(chǔ)緩沖區(qū)、高處理能力等。按照某些方法,輸入音頻內(nèi)容可以被變換為包括較 少音頻對(duì)象的輸出音頻內(nèi)容。同一個(gè)輸入音頻內(nèi)容可以被用來(lái)產(chǎn)生與許多不同的音頻內(nèi)容 分發(fā)、傳輸和回放設(shè)置對(duì)應(yīng)的許多不同的輸出音頻內(nèi)容版本,諸如與藍(lán)光盤(pán)、廣播(例如,有 線(xiàn)的、衛(wèi)星的、地面站的,等等)、移動(dòng)(例如,3G、4G等)、互聯(lián)網(wǎng)等相關(guān)的輸出首頻內(nèi)容版本。 每個(gè)輸出音頻內(nèi)容版本可以特別地適合于相應(yīng)設(shè)置,以解決該設(shè)置中對(duì)于一般性地導(dǎo)出的 音頻內(nèi)容的高效率表示、處理、傳輸和渲染的特別挑戰(zhàn)。
[0006] 本部分中所描述的方法是可以尋求的方法,但不一定是之前已經(jīng)設(shè)想或?qū)で筮^(guò)的 方法。因此,除非另有指示,否則不應(yīng)僅僅因?yàn)樵诒静糠种刑岬搅司驼J(rèn)為本部分中所述的任 何方法是現(xiàn)有技術(shù)。類(lèi)似地除非另有指示,否則針對(duì)一種或多種方法認(rèn)定的問(wèn)題不應(yīng)基于 本部分就認(rèn)為在任何現(xiàn)有技術(shù)中已經(jīng)認(rèn)識(shí)到。
【附圖說(shuō)明】
[0007] 在附圖中以舉例的方式而非限制的方式例示了本發(fā)明,在附圖中相似的附圖標(biāo)記 指代相似的要素,其中:
[0008] 圖1例示了音頻對(duì)象聚類(lèi)中所涉及的示例性的、由計(jì)算機(jī)實(shí)現(xiàn)的模塊;
[0009] 圖2例示了示例性的空間復(fù)雜度分析器;
[0010] 圖3A至圖3D例示了用于可視化一個(gè)或多個(gè)幀的空間復(fù)雜度的示例性用戶(hù)界面;
[0011] 圖4例示了兩個(gè)示例性的視覺(jué)復(fù)雜度計(jì)量器實(shí)例;
[0012] 圖5例示了用于計(jì)算增益流的示例性場(chǎng)景;
[0013] 圖6例示了示例性的處理流程;以及
[0014] 圖7例示了在其上可以實(shí)現(xiàn)本文中所描述的計(jì)算機(jī)或計(jì)算裝置的示例性硬件平 臺(tái)。
【具體實(shí)施方式】
[0015] 本文中描述了與確定有關(guān)于音頻對(duì)象聚類(lèi)的空間誤差度量和音頻質(zhì)量劣化相關(guān) 的示例性實(shí)施例。在以下描述中,為了說(shuō)明的目的,闡述了許多具體細(xì)節(jié)以便提供對(duì)本發(fā)明 的透徹理解。然而,顯而易見(jiàn)的是本發(fā)明可以在沒(méi)有這些具體細(xì)節(jié)的情況下實(shí)施。在其他情 況下,未詳盡地描述公知的結(jié)構(gòu)和設(shè)備,以避免不必要地封閉、模糊或混淆本發(fā)明。
[0016] 在本文中根據(jù)以下大綱來(lái)描述示例性實(shí)施例:
[0017] 1.總體概述
[0018] 2.音頻對(duì)象聚類(lèi)
[0019] 3.空間復(fù)雜度分析器
[0020] 4.空間誤差度量
[0021] 4.1幀內(nèi)對(duì)象位置誤差
[0022] 4.2幀內(nèi)對(duì)象平移誤差
[0023] 4.3重要度加權(quán)的誤差度量
[0024] 4.4規(guī)范化的誤差度量
[0025] 4.5幀間空間誤差
[0026] 5.主觀音頻質(zhì)量的預(yù)測(cè)
[0027] 6.空間誤差和空間復(fù)雜度的可視化
[0028] 7.示例性的處理流程
[0029] 8.實(shí)現(xiàn)機(jī)制--硬件概述
[0030] 9.等同、擴(kuò)展、替代及其他 [0031] 1 ?總體概述
[0032] 本概述呈現(xiàn)了本發(fā)明的實(shí)施例的一些方面的基本描述。應(yīng)注意,本概述不是對(duì)實(shí) 施例的各方面的全面的或詳盡的總結(jié)。另外,應(yīng)注意,本概述并非意在被理解為認(rèn)定實(shí)施例 的任何特別重要的方面或要素,也不被理解為特別地?cái)⑹鰧?shí)施例的任何范圍或概括地?cái)⑹?本發(fā)明。本概述僅僅以扼要且簡(jiǎn)化的格式呈現(xiàn)了與示例性實(shí)施例相關(guān)的一些構(gòu)思,并且應(yīng) 被理解為僅僅是以下對(duì)示例性實(shí)施例的更詳細(xì)的描述的概念性前言。
[0033] 可能存在各種各樣的基于音頻對(duì)象的音頻格式,這些基于音頻對(duì)象的音頻格式可 以從一種格式變換、下混、轉(zhuǎn)換、轉(zhuǎn)碼成另一種格式。在一個(gè)不例中,一種格式可以利用笛卡 爾坐標(biāo)系來(lái)描述音頻對(duì)象或輸出聚類(lèi)的位置,而其他格式可以利用可能隨距離增加的角度 方法。在另一個(gè)示例中,為了高效地存儲(chǔ)和傳輸基于對(duì)象的音頻內(nèi)容,可以對(duì)輸入音頻對(duì)象 集合執(zhí)行音頻對(duì)象聚類(lèi)以使相對(duì)較多的輸入音頻對(duì)象減少至相對(duì)較少的輸出音頻對(duì)象或 輸出聚類(lèi)。
[0034] 本文中所描述的技術(shù)可以被用來(lái)確定與構(gòu)成輸入音頻內(nèi)容的(例如,動(dòng)態(tài)的、靜態(tài) 的等)音頻對(duì)象集合到構(gòu)成輸出音頻內(nèi)容的另一個(gè)音頻對(duì)象集合的格式轉(zhuǎn)換、渲染、聚類(lèi)、 再混合或組合等相關(guān)聯(lián)的空間誤差度量和/或空間質(zhì)量劣化。僅僅為了說(shuō)明的目的,輸入音 頻內(nèi)容中的音頻對(duì)象或輸入音頻對(duì)象有時(shí)被簡(jiǎn)稱(chēng)為"音頻對(duì)象"。輸出音頻內(nèi)容中的音頻對(duì) 象或輸出音頻對(duì)象一般可被稱(chēng)為"輸出聚類(lèi)"。應(yīng)注意,在各種實(shí)施例中,術(shù)語(yǔ)"音頻對(duì)象"和 "輸出聚類(lèi)"是與將音頻對(duì)象轉(zhuǎn)換到輸出聚類(lèi)的特定轉(zhuǎn)換操作相關(guān)地使用的。例如,一個(gè)轉(zhuǎn) 換操作中的輸出聚類(lèi)很可能是后一轉(zhuǎn)換操作中的輸入音頻對(duì)象;類(lèi)似地,當(dāng)前轉(zhuǎn)換操作中 的輸入音頻對(duì)象很可能是前一轉(zhuǎn)換操作中的輸出聚類(lèi)。
[0035] 如果輸入音頻對(duì)象相對(duì)較少或稀疏,則從輸入音頻對(duì)象到輸出聚類(lèi)的一對(duì)一映射 對(duì)于輸入音頻對(duì)象中的至少一些輸入音頻對(duì)象是可能的。
[0036] 在一些實(shí)施例中,音頻對(duì)象可以表示固定位置處的一個(gè)或多個(gè)聲音元素(例如,音 頻床(audio bed)或音頻床的一部分、物理聲道等)。在一些實(shí)施例中,輸出聚類(lèi)也可以表示 固定位置處的一個(gè)或多個(gè)聲音元素(例如,音頻床或音頻床的一部分、物理聲道等)。在一些 實(shí)施例中,具有動(dòng)態(tài)位置(或非固定位置)的輸入音頻對(duì)象可以被聚類(lèi)成具有固定地點(diǎn)的輸 出聚類(lèi)。在一些實(shí)施例中,具有固定位置的輸入音頻對(duì)象(例如,音頻床、音頻床的一部分 等)可以被映射到具有固定位置的輸出聚類(lèi)(例如,音頻床、音頻床的一部分等)。在一些實(shí) 施例中,所有輸出聚類(lèi)都具有固定位置。在一些實(shí)施例中,輸出聚類(lèi)中的至少一個(gè)輸出聚類(lèi) 具有動(dòng)態(tài)位置。
[0037] 當(dāng)輸入音頻內(nèi)容中的輸入音頻對(duì)象被轉(zhuǎn)換成輸出音頻內(nèi)容中的輸出聚類(lèi)時(shí),輸出 聚類(lèi)的數(shù)量可以少于或者可以不少于音頻對(duì)象的數(shù)量。輸入音頻內(nèi)容中的音頻對(duì)象可以被 分配到輸出音頻內(nèi)容中的多于一個(gè)的輸出聚類(lèi)中。音頻對(duì)象也可以?xún)H被分配到可以或者可 以不位于與該音頻對(duì)象所在的位置相同的位置處的輸出聚類(lèi)。音頻對(duì)象的位置到輸出聚類(lèi) 的位置的移位引起空間誤差。本文中所描述的技術(shù)可以被用來(lái)確定與由于從輸入音頻內(nèi)容 中的音頻對(duì)象到輸出音頻內(nèi)容中的輸出聚類(lèi)的轉(zhuǎn)換而導(dǎo)致的空間誤差相關(guān)的空間誤差度 量和/或音頻質(zhì)量劣化。
[0038] 按照如本文所描述的技術(shù)確定的空間誤差度量和/或音頻質(zhì)量劣化可以作為測(cè)量 由有損編解碼器引起的編碼誤差、量化誤差等的其他質(zhì)量度量(例如,PEAQ等)的附加或替 代而被使用。在示例中,空間誤差度量、音頻質(zhì)量劣化等可以與音頻對(duì)象或輸出聚類(lèi)中的位 置元數(shù)據(jù)和其他元數(shù)據(jù)一起用于視覺(jué)地傳達(dá)多聲道的基于多對(duì)象的音頻內(nèi)容中的音頻內(nèi) 容的空間復(fù)雜度。
[0039] 附加地、可選地或可替代地,在一些實(shí)施例中,音頻質(zhì)量劣化可以以基于一個(gè)或多 個(gè)空間誤差度量而生成的預(yù)測(cè)測(cè)試得分的形式被提供。預(yù)測(cè)測(cè)試得分可以被用作輸出音頻 內(nèi)容或輸出音頻內(nèi)容的部分(例如,在一個(gè)幀中,等等)相對(duì)于輸入音頻內(nèi)容的感知音頻質(zhì) 量劣化的指示,而無(wú)需實(shí)際進(jìn)行對(duì)輸入音頻內(nèi)容和輸出音頻內(nèi)容的感知音頻質(zhì)量的任何用 戶(hù)調(diào)查。預(yù)測(cè)測(cè)試得分可以與諸如MUSHRA(隱藏參考和基準(zhǔn)的多刺激)測(cè)試、M0S(平均意見(jiàn) 得分)測(cè)試等主觀音頻質(zhì)量測(cè)試有關(guān)。在一些實(shí)施例中,一個(gè)或多個(gè)空間誤差度量通過(guò)使用 根據(jù)一個(gè)或多個(gè)代表性的訓(xùn)練音頻內(nèi)容數(shù)據(jù)集合確定/優(yōu)化的預(yù)測(cè)參數(shù)(例如,相關(guān)因子 等)而被轉(zhuǎn)換為一個(gè)或多個(gè)預(yù)測(cè)測(cè)試得分。
[0040] 例如,訓(xùn)練音頻內(nèi)容數(shù)據(jù)集合中的每個(gè)元素(或摘錄)可以在該元素(或摘錄)中的 輸入音頻對(duì)象被轉(zhuǎn)換或映射成對(duì)應(yīng)的輸出聚類(lèi)之前和之后經(jīng)受感知音頻質(zhì)量的主觀用戶(hù) 調(diào)查。根據(jù)用戶(hù)調(diào)查確定的測(cè)試得分可以與基于該元素(或摘錄)中的輸入音頻對(duì)象和對(duì)應(yīng) 的輸出聚類(lèi)計(jì)算的空間誤差度量相關(guān),以用于確定或優(yōu)化預(yù)測(cè)參數(shù)的目的,預(yù)測(cè)參數(shù)然后 可以被用來(lái)對(duì)不一定在訓(xùn)練數(shù)據(jù)集合中的音頻內(nèi)容預(yù)測(cè)測(cè)試得分。
[0041] 按照如本文所描述的技術(shù)的系統(tǒng)可以被配置為以客觀的方式將空間誤差度量和/ 或音頻質(zhì)量劣化提供給指導(dǎo)將輸入音頻內(nèi)容(中的音頻對(duì)象)轉(zhuǎn)換成輸出音頻內(nèi)容(中的輸 出聚類(lèi))的處理、操作、算法等的音頻工程師。出于減輕或防止音頻質(zhì)量劣化的目的,該系統(tǒng) 可以被配置為接受用戶(hù)輸入或者從音頻工程師接收反饋,以?xún)?yōu)化該處理、操作、算法等,從 而使得顯著地影響輸出音頻內(nèi)容的音頻質(zhì)量的空間誤差最小化,等等。
[0042] 在一些實(shí)施例中,對(duì)象重要度是針對(duì)單個(gè)的音頻對(duì)象或輸出聚類(lèi)估計(jì)或確定的, 并且被用于估計(jì)空間復(fù)雜度和空間誤差。例如,就相對(duì)響度和位置接近度而言為靜默的或 者被其他音頻對(duì)象遮掩的音頻對(duì)象可能由于為這種音頻對(duì)象分配較低的對(duì)象重要度而經(jīng) 受較大的空間誤差。由于較不重要的音頻對(duì)象與在場(chǎng)景中更為主導(dǎo)的其他音頻對(duì)象截然相 比是相對(duì)安靜的,所以較不重要的音頻對(duì)象的較大空間誤差可能造成很小的聽(tīng)得見(jiàn)的噪聲 (artifact)〇
[0043] 如本文所描述的技術(shù)可以被用來(lái)計(jì)算幀內(nèi)空間誤差度量以及幀間空間誤差度量。 幀內(nèi)空間誤差度量的示例包括但不限于以下中的任何一個(gè):對(duì)象位置誤差度量、對(duì)象平移 誤差、以對(duì)象重要度加權(quán)的空間誤差度量、經(jīng)規(guī)范化的以對(duì)象重要度加權(quán)的空間誤差度量 等。在一些實(shí)施例中,幀內(nèi)空間誤差度量可以基于以下方面被計(jì)算為客觀質(zhì)量度量:(i)音 頻對(duì)象中的音頻樣本數(shù)據(jù),包括但不限于音頻對(duì)象在它們各自的上下文下的個(gè)體對(duì)象重要 度;以及(ii)轉(zhuǎn)換之前的音頻對(duì)象的原始位置和轉(zhuǎn)換之后的音頻對(duì)象的重構(gòu)位置之間的差 異。
[0044] 幀間空間誤差度量的示例包括但不限于:與(在時(shí)間上)相鄰幀中的輸出聚類(lèi)的增 益系數(shù)差值和位置差值的乘積相關(guān)的幀間空間誤差度量、與(在時(shí)間上)相鄰幀中的增益系 數(shù)流相關(guān)的幀間空間誤差度量。幀間空間誤差度量對(duì)于指示(在時(shí)間上)相鄰幀中的不一致 性可能特別有用;例如,由于在從一個(gè)幀到下一個(gè)幀的插值期間造成的幀間空間誤差,在時(shí) 間上相鄰的幀之間的音頻對(duì)象到輸出聚類(lèi)分派/分配的變化可能導(dǎo)致聽(tīng)得見(jiàn)的噪聲。
[0045] 在一些實(shí)施例中,可以基于以下項(xiàng)來(lái)計(jì)算幀間空間誤差度量:(i)隨著時(shí)間(例如, 兩個(gè)相鄰幀之間,等等)的與輸出聚類(lèi)相關(guān)的增益系數(shù)差值;(ii)輸出聚類(lèi)隨著時(shí)間的位置 變化(例如,當(dāng)音頻對(duì)象被平移到聚類(lèi)中時(shí),音頻對(duì)象至輸出聚類(lèi)的相應(yīng)平移矢量改變); (iii)音頻對(duì)象的相對(duì)響度;等等。在一些實(shí)施例中,可以至少部分基于輸出聚類(lèi)之間的增 益系數(shù)流來(lái)計(jì)算幀間空間誤差度量。
[0046] 如本文所描述的空間誤差度量和/或音頻質(zhì)量劣化可以被用來(lái)驅(qū)動(dòng)一個(gè)或多個(gè)用 戶(hù)界面與用戶(hù)交互。在一些實(shí)施例中,在用戶(hù)界面中提供視覺(jué)復(fù)雜度計(jì)量器以顯示出音頻 對(duì)象集合相對(duì)于這些音頻對(duì)象被轉(zhuǎn)換成的輸出聚類(lèi)集合的空間復(fù)雜度(例如,高質(zhì)量/低空 間復(fù)雜度、低質(zhì)量/高空間復(fù)雜度等)。在一些實(shí)施例中,視覺(jué)空間復(fù)雜度計(jì)量器顯示音頻質(zhì) 量劣化的指示(例如,與感知M0S測(cè)試、MUSHRA測(cè)試相關(guān)的預(yù)測(cè)測(cè)試得分,等等)以作為將輸 入音頻對(duì)象轉(zhuǎn)換到輸出聚類(lèi)的相應(yīng)轉(zhuǎn)換處理的反饋??臻g誤差度量和/或音頻質(zhì)量劣化的 值可以通過(guò)使用VU計(jì)量器、條形圖、夾燈(clip light)、數(shù)值指示符、其他視覺(jué)部件等而被 可視化在顯示器上的用戶(hù)界面中,以視覺(jué)地傳達(dá)與轉(zhuǎn)換處理相關(guān)聯(lián)的空間復(fù)雜度和/或空 間誤差度量。
[0047] 在一些實(shí)施例中,如本文所描述的機(jī)制形成媒體處理系統(tǒng)的一部分,所述媒體處 理系統(tǒng)包括但不限于以下中的任何一個(gè):手持裝置、游戲機(jī)、電視、家庭影院系統(tǒng)、機(jī)頂盒、 平板、移動(dòng)裝置、膝上型計(jì)算機(jī)、上網(wǎng)本計(jì)算機(jī)、蜂窩無(wú)線(xiàn)電電話(huà)、電子書(shū)閱讀器、銷(xiāo)售點(diǎn)終 端、臺(tái)式計(jì)算機(jī)、計(jì)算機(jī)工作站、計(jì)算機(jī)亭、各種其他種類(lèi)的終端和媒體處理單元等。
[0048] 對(duì)于本領(lǐng)域技術(shù)人員來(lái)說(shuō),本文中所描述的優(yōu)選實(shí)施例的各種變型以及一般性原 理和特征將是容易明白的。因此,本公開(kāi)并非意在限于所示出的實(shí)施例,而應(yīng)被賦予與本文 中所描述的原理和特征一致的最寬泛的范圍。
[0049] 如本文所描述的任何實(shí)施例可以單獨(dú)使用或者按任何組合與另一個(gè)實(shí)施例一起 使用。盡管各種實(shí)施例可能是由在本說(shuō)明書(shū)中的一個(gè)或多個(gè)地方可能討論或暗示的現(xiàn)有技 術(shù)的各種缺陷驅(qū)使的,但是實(shí)施例不一定解決這些缺陷中的任何缺陷。換句話(huà)說(shuō),不同實(shí)施 例可以解決在本說(shuō)明書(shū)中可能討論的不同缺陷。一些實(shí)施例可以?xún)H部分解決在本說(shuō)明書(shū)中 可能討論的一些缺陷或者僅僅一個(gè)缺陷,并且一些實(shí)施例可能不解決這些缺陷中的任何缺 陷。
[0050] 2.音頻對(duì)象聚類(lèi)
[0051] 音頻對(duì)象可以被認(rèn)為是可以被感知為源自于收聽(tīng)空間(或環(huán)境)中的特定物理地 點(diǎn)或多個(gè)特定物理地點(diǎn)的單個(gè)聲音元素或聲音元素集。音頻對(duì)象的示例包括但不僅限于以 下中的任何一個(gè):音頻制作會(huì)話(huà)中的音軌等。音頻對(duì)象可以是靜態(tài)的(例如,靜止的)或動(dòng)態(tài) 的(例如,運(yùn)動(dòng)的)。音頻對(duì)象包括與表示一個(gè)或多個(gè)聲音元素的音頻樣本數(shù)據(jù)分開(kāi)的元數(shù) 據(jù)。該元數(shù)據(jù)包括定義聲音元素中的一個(gè)或多個(gè)聲音元素在給定時(shí)間點(diǎn)(例如,在一個(gè)或多 個(gè)幀中、在幀的一個(gè)或多個(gè)部分中、等等)的一個(gè)或多個(gè)位置(例如,動(dòng)態(tài)的或固定的形心 (centroid)位置、揚(yáng)聲器在收聽(tīng)空間中的固定位置、一組表示周?chē)Ч囊粋€(gè)、兩個(gè)或更多 個(gè)動(dòng)態(tài)的或固定的位置等)。在一些實(shí)施例中,當(dāng)音頻對(duì)象被回放時(shí),它是通過(guò)使用存在于 實(shí)際回放環(huán)境中的揚(yáng)聲器并根據(jù)其位置元數(shù)據(jù)被渲染的,而不是一定被輸出到由上游音頻 編碼器采取的參考音頻聲道配置的預(yù)定義物理聲道,所述上游音頻編碼器將音頻對(duì)象編碼 為有利于下游音頻解碼器的音頻信號(hào)。
[0052]圖1例示了用于音頻對(duì)象聚類(lèi)的示例性的、由計(jì)算機(jī)實(shí)現(xiàn)的模塊。如圖1中所示,共 同表示輸入音頻內(nèi)容的輸入音頻對(duì)象102通過(guò)音頻對(duì)象聚類(lèi)處理106被轉(zhuǎn)換成輸出聚類(lèi) 104。在一些實(shí)施例中,輸出聚類(lèi)104共同表示輸出音頻內(nèi)容并且構(gòu)成輸入音頻內(nèi)容的比輸 入音頻對(duì)象更緊湊的表示(例如,更少的音頻對(duì)象等),從而使得可以降低存儲(chǔ)要求和傳輸 要求并且降低用于再現(xiàn)輸入音頻內(nèi)容的計(jì)算要求和存儲(chǔ)器要求,尤其對(duì)于具有有限處理能 力、有限電池功率、有限通信能力、有限再現(xiàn)能力等的消費(fèi)者領(lǐng)域裝置。然而,音頻對(duì)象聚類(lèi) 導(dǎo)致一定量的空間誤差,因?yàn)椴⒎撬休斎胍纛l對(duì)象在與其他音頻對(duì)象聚合時(shí)都可以保持 空間保真度,尤其是在存在大量稀疏分布的輸入音頻對(duì)象的實(shí)施例中。
[0053]在一些實(shí)施例中,音頻對(duì)象聚類(lèi)處理106至少部分基于根據(jù)輸入音頻對(duì)象的樣本 數(shù)據(jù)、音頻對(duì)象元數(shù)據(jù)等中的一個(gè)或多個(gè)產(chǎn)生的對(duì)象重要度108來(lái)對(duì)輸入音頻對(duì)象102進(jìn)行 聚類(lèi)。樣本數(shù)據(jù)、音頻對(duì)象元數(shù)據(jù)等被輸入到對(duì)象重要度估計(jì)器110,對(duì)象重要度估計(jì)器110 產(chǎn)生供音頻對(duì)象聚類(lèi)處理106使用的對(duì)象重要度108。
[0054]如本文所描述的,對(duì)象重要度估計(jì)器110和音頻對(duì)象聚類(lèi)處理106可以作為時(shí)間的 函數(shù)執(zhí)行。在一些實(shí)施例中,用輸入音頻對(duì)象102編碼的音頻信號(hào)或者用根據(jù)輸入音頻對(duì)象 102產(chǎn)生的輸出聚類(lèi)104編碼的相應(yīng)音頻信號(hào)可以被分割為單個(gè)的幀(例如,持續(xù)時(shí)間為諸 如20毫秒的單元,等)。這種分割可以被應(yīng)用于時(shí)域波形上,但是也是通過(guò)使用濾波器組,或 者可以應(yīng)用于任何其他的變換域上。對(duì)象重要度估計(jì)器(110)可以被配置為產(chǎn)生輸入音頻 對(duì)象(102)關(guān)于輸入音頻對(duì)象(102)的一個(gè)或多個(gè)特性上的各個(gè)對(duì)象重要度,所述特性包括 但不限于內(nèi)容類(lèi)型、局部響度等。
[0055] 如本文所描述的局部響度可以表示音頻對(duì)象在一組、一批、一群、多個(gè)、一簇音頻 對(duì)象等的上下文下根據(jù)心理聲學(xué)原理的(相對(duì))響度。音頻對(duì)象的局部響度可以用于確定音 頻對(duì)象的對(duì)象重要度,以便當(dāng)渲染系統(tǒng)不具有足以單個(gè)地渲染所有音頻對(duì)象的能力時(shí)選擇 性地渲染音頻對(duì)象,等等。
[0056] 音頻對(duì)象在給定時(shí)間(例如,逐個(gè)幀地、在一個(gè)或多個(gè)幀中、在幀的一個(gè)或多個(gè)部 分中,等等)可以被分類(lèi)為若干種(例如,定義的)內(nèi)容類(lèi)型之一,諸如對(duì)話(huà)、音樂(lè)、周?chē)h(huán)境、 特殊效果等。音頻對(duì)象可以在其整個(gè)持續(xù)時(shí)間期間改變內(nèi)容類(lèi)型。(例如,一個(gè)或多個(gè)幀、幀 的一個(gè)或多個(gè)部分等中的)音頻對(duì)象可以被分配該音頻對(duì)象在幀中為特定內(nèi)容類(lèi)型的概 率。在示例中,持續(xù)對(duì)話(huà)類(lèi)型的音頻對(duì)象可以被表示為百分之百的概率。在另一個(gè)示例中, 從對(duì)話(huà)類(lèi)型變換為音樂(lè)類(lèi)型的音頻對(duì)象可以被表示為50%對(duì)話(huà)/50%音樂(lè)、或者對(duì)話(huà)和音 樂(lè)類(lèi)型的不同百分比組合。
[0057]音頻對(duì)象聚類(lèi)處理106或按音頻對(duì)象聚類(lèi)處理106操作的模塊可以被配置為逐個(gè) 幀地確定音頻對(duì)象的內(nèi)容類(lèi)型(例如,被表示為具有含布爾值的分量的矢量等)以及音頻對(duì) 象的內(nèi)容類(lèi)型的概率(例如,被表示為具有百分比值的分量的矢量等)?;谝纛l對(duì)象的內(nèi) 容類(lèi)型,音頻對(duì)象聚類(lèi)處理106可以被配置為:逐個(gè)幀地、在一個(gè)或多個(gè)幀中、在幀的一個(gè)或 多個(gè)部分中,將音頻對(duì)象聚類(lèi)到特定輸出聚類(lèi)中,分配音頻對(duì)象和輸出聚類(lèi)之間的相互一 對(duì)一映射等。
[0058] 出于例示的目的,存在于第m幀中的多個(gè)音頻對(duì)象(例如,輸入音頻對(duì)象102等)當(dāng) 中的第i音頻對(duì)象可以用相應(yīng)的函數(shù)xi (n,m)表示,其中,n是表示第m幀中的多個(gè)音頻數(shù)據(jù) 樣本當(dāng)中的第n音頻數(shù)據(jù)樣本的索引。諸如第m幀等的幀中的音頻數(shù)據(jù)樣本的總數(shù)取決于音 頻信號(hào)被采樣以創(chuàng)建音頻數(shù)據(jù)樣本的采樣速率(例如,48kHz等)。
[0059] 在一些實(shí)施例中,如以下表達(dá)式中所示,(例如,在音頻對(duì)象聚類(lèi)處理中,等等)第m 幀中的多個(gè)音頻對(duì)象基于線(xiàn)性運(yùn)算而被聚類(lèi)成多個(gè)輸出聚類(lèi)yXn,!!!):
[0060] yj(n,m) = EigijXi(n,m) (1)
[0061] 其中,glj(m)表示對(duì)象i到聚類(lèi)j的增益系數(shù)。為了避免輸出聚類(lèi)yj(n,m)中的不連 續(xù),可以在加窗的、部分重疊的幀上執(zhí)行聚類(lèi)操作以對(duì)跨幀的g^(m)的變化進(jìn)行插值。如本 文所使用的,增益系數(shù)表示特定輸入音頻對(duì)象的一部分到特定輸出聚類(lèi)的分配。在一些實(shí) 施例中,音頻對(duì)象聚類(lèi)處理(106)被配置為產(chǎn)生用于根據(jù)表達(dá)式(1)將輸入音頻對(duì)象映射成 輸出聚類(lèi)的多個(gè)增益系數(shù)??商娲亍⒏郊拥鼗蚩蛇x地,增益系數(shù)g^(m)可以跨樣本(n個(gè))進(jìn) 行插值以創(chuàng)建插值增益系數(shù)g^(m,n)??商娲兀鲆嫦禂?shù)可以是頻率相關(guān)的。在這種實(shí)施 例中,輸入音頻也通過(guò)使用合適的濾波器組被劃分為頻帶,并且可能不同的增益系數(shù)集合 被應(yīng)用于每個(gè)劃分的音頻。
[0062] 3.空間復(fù)雜度分析器
[0063]圖2例示了示例性的空間復(fù)雜度分析器200,空間復(fù)雜度分析器200包括若干個(gè)由 計(jì)算機(jī)實(shí)現(xiàn)的模塊,諸如幀內(nèi)空間誤差分析器204、幀間空間誤差分析器206、音頻質(zhì)量分析 器208、用戶(hù)界面模塊210等。如圖2中所示,空間復(fù)雜度分析器200被配置為接收/收集音頻 對(duì)象數(shù)據(jù)202,將針對(duì)關(guān)于輸入音頻對(duì)象集合(例如,圖1的102,等等)和這些輸入音頻對(duì)象 被轉(zhuǎn)換成的輸出聚類(lèi)集合(例如,圖1的104,等等)的空間誤差和音頻質(zhì)量劣化來(lái)分析所述 音頻對(duì)象數(shù)據(jù)202。音頻對(duì)象數(shù)據(jù)202包括以下中的一個(gè)或多個(gè):用于輸入音頻對(duì)象(102)的 元數(shù)據(jù)、用于輸出聚類(lèi)(104)的元數(shù)據(jù)、如表達(dá)式(1)中所示的將輸入音頻對(duì)象(102)映射到 輸出聚類(lèi)(104)的增益系數(shù)、輸入音頻對(duì)象(102)的局部響度、輸入音頻對(duì)象(102)的對(duì)象重 要度、輸入音頻對(duì)象(102)的內(nèi)容類(lèi)型、輸入音頻對(duì)象(102)的內(nèi)容類(lèi)型的概率等。
[0064]在一些實(shí)施例中,幀內(nèi)空間誤差分析器(204)被配置為逐個(gè)幀地基于音頻對(duì)象數(shù) 據(jù)(202)確定一種或多種類(lèi)型的幀內(nèi)空間誤差度量。在一些實(shí)施例中,對(duì)于每個(gè)幀,幀內(nèi)空 間誤差分析器(204)被配置為:(i)從音頻對(duì)象數(shù)據(jù)(202)提取增益系數(shù)、輸入音頻對(duì)象 (102)的位置元數(shù)據(jù)、輸出聚類(lèi)(102)的位置元數(shù)據(jù)等;(ii)基于從幀中的輸入音頻對(duì)象中 的音頻對(duì)象數(shù)據(jù)(202)提取的數(shù)據(jù),針對(duì)幀中的每個(gè)輸入音頻對(duì)象分別計(jì)算所述一種或多 種類(lèi)型的幀內(nèi)空間誤差度量中的每個(gè)幀內(nèi)空間誤差度量;等等。
[0065]幀內(nèi)空間誤差分析器(204)可以被配置為基于針對(duì)輸入音頻對(duì)象(102)分別計(jì)算 的空間誤差來(lái)對(duì)所述一種或多種類(lèi)型的幀內(nèi)空間誤差度量中的對(duì)應(yīng)類(lèi)型計(jì)算總體每幀空 間誤差度量等??傮w每幀空間誤差度量可以通過(guò)用權(quán)重因子對(duì)單個(gè)音頻對(duì)象的空間誤差進(jìn) 行加權(quán)來(lái)計(jì)算,所述權(quán)重因子諸如是幀中的輸入音頻對(duì)象(102)的各自的對(duì)象重要度等。附 加地、可選地或可替代地,總體每幀空間誤差度量可以用與權(quán)重因子之和相關(guān)的規(guī)范化因 子來(lái)規(guī)范化,所述權(quán)重因子之和諸如是指示幀中的輸入音頻對(duì)象(102)的各自的對(duì)象重要 度等的值之和。
[0066] 在一些實(shí)施例中,幀間空間誤差分析器(206)被配置為基于兩個(gè)或更多個(gè)相鄰幀 的音頻對(duì)象數(shù)據(jù)(202)來(lái)確定一種或多種類(lèi)型的幀間空間誤差度量。在一些實(shí)施例中,對(duì)于 兩個(gè)相鄰幀,幀間空間誤差分析器(206)被配置為:(i)從音頻對(duì)象數(shù)據(jù)(202)提取增益系 數(shù)、輸入音頻對(duì)象(102)的位置元數(shù)據(jù)、輸出聚類(lèi)(102)的位置元數(shù)據(jù)等;(ii)基于從幀中的 輸入音頻對(duì)象中的音頻對(duì)象數(shù)據(jù)(202)提取的數(shù)據(jù),針對(duì)幀中的每個(gè)輸入音頻對(duì)象分別計(jì) 算所述一種或多種類(lèi)型的幀間空間誤差度量中的每個(gè)幀間空間誤差度量;等等。
[0067] 幀間空間誤差分析器(206)可以被配置為對(duì)于兩個(gè)或更多個(gè)相鄰幀,基于針對(duì)幀 中的輸入音頻對(duì)象(102)分別計(jì)算的空間誤差來(lái)對(duì)所述一種或多種類(lèi)型的幀間空間誤差度 量中的對(duì)應(yīng)類(lèi)型計(jì)算總體空間誤差度量等??傮w空間誤差度量可以通過(guò)用權(quán)重因子對(duì)單個(gè) 的音頻對(duì)象的空間誤差進(jìn)行加權(quán)來(lái)計(jì)算得到,所述權(quán)重因子諸如是幀中的輸入音頻對(duì)象 (102)的各自的對(duì)象重要度等。附加地、可選地或可替代地,總體空間誤差度量可以用規(guī)范 化因子(例如,與幀中的輸入音頻對(duì)象(102)的各自的對(duì)象重要度相關(guān)的規(guī)范化因子)來(lái)規(guī) 范化。
[0068] 在一些實(shí)施例中,音頻質(zhì)量分析器(208)被配置為基于例如由幀內(nèi)空間誤差分析 器(204)或幀間空間誤差分析器(206)產(chǎn)生的幀內(nèi)空間誤差度量或幀間空間誤差度量中的 一個(gè)或多個(gè)來(lái)確定感知音頻質(zhì)量。在一些實(shí)施例中,感知音頻質(zhì)量由基于所述一個(gè)或多個(gè) 空間誤差度量產(chǎn)生的一個(gè)或多個(gè)預(yù)測(cè)測(cè)試得分指示。在一些實(shí)施例中,預(yù)測(cè)測(cè)試得分中的 至少一個(gè)與對(duì)音頻質(zhì)量的主觀評(píng)估測(cè)試(諸如MUSHRA測(cè)試、M0S測(cè)試等)相關(guān)。音頻質(zhì)量分析 器(208)可以用根據(jù)一個(gè)或多個(gè)訓(xùn)練數(shù)據(jù)集合等預(yù)先確定的預(yù)測(cè)參數(shù)(例如,相關(guān)因子等) 來(lái)配置。在一些實(shí)施例中,音頻質(zhì)量分析器(208)被配置為基于預(yù)測(cè)參數(shù)來(lái)將所述一個(gè)或多 個(gè)空間誤差度量轉(zhuǎn)換為一個(gè)或多個(gè)預(yù)測(cè)測(cè)試得分。
[0069] 在一些實(shí)施例中,空間復(fù)雜度分析器(200)被配置為將根據(jù)本文所描述的技術(shù)確 定的空間誤差度量、音頻質(zhì)量劣化、空間復(fù)雜度等中的一個(gè)或多個(gè)作為輸出數(shù)據(jù)212提供給 用戶(hù)或其他裝置。附加地、可選地或可替代地,在一些實(shí)施例中,空間復(fù)雜度分析器(200)可 以被配置為接收用戶(hù)輸入214,用戶(hù)輸入214向在將輸入音頻內(nèi)容轉(zhuǎn)換為輸出音頻內(nèi)容時(shí)使 用的處理、算法、操作參數(shù)等提供反饋或改變。這種反饋的示例是對(duì)象重要度。附加地、可選 地或可替代地,在一些實(shí)施例中,空間復(fù)雜度分析器(200)可以被配置為例如基于在用戶(hù)輸 入214中接收到的反饋或改變或者基于估計(jì)的空間音頻質(zhì)量來(lái)將控制數(shù)據(jù)216發(fā)送給在將 輸入音頻內(nèi)容轉(zhuǎn)換為輸出音頻內(nèi)容時(shí)使用的處理、算法、操作參數(shù)等。
[0070]在一些實(shí)施例中,用戶(hù)界面模塊(210)被配置為通過(guò)一個(gè)或多個(gè)用戶(hù)界面與用戶(hù) 交互。用戶(hù)界面模塊(210)可以被配置為通過(guò)用戶(hù)界面向用戶(hù)呈現(xiàn)或者使得向用戶(hù)顯示描 繪輸出數(shù)據(jù)212中的一些或全部的用戶(hù)界面部件。用戶(hù)界面模塊(210)可以被進(jìn)一步配置為 通過(guò)所述一個(gè)或多個(gè)用戶(hù)界面接收用戶(hù)輸入214中的一些或全部。
[0071] 4.空間誤差度量
[0072] 可以基于單個(gè)幀或多個(gè)相鄰幀中的總體空間誤差來(lái)計(jì)算多個(gè)空間誤差度量。在確 定/估計(jì)總體空間誤差度量和/或總體音頻質(zhì)量劣化時(shí),對(duì)象重要度可以起到主要作用。相 比于在當(dāng)前場(chǎng)景中占主導(dǎo)的音頻對(duì)象,(例如,就響度、空間鄰近度等而言)靜默的、相對(duì)靜 默的或者被其他音頻對(duì)象(部分)遮掩的音頻對(duì)象可以經(jīng)受更大的空間誤差,直到音頻對(duì)象 聚類(lèi)的噪聲變得可聽(tīng)見(jiàn)。出于例示的目的,在一些實(shí)施例中,具有索引i的音頻對(duì)象具有各 自的對(duì)象重要度(其被表示為K)。該對(duì)象重要度可以由對(duì)象重要度估計(jì)器(圖1的110)基于 若干個(gè)性質(zhì)產(chǎn)生,所述性質(zhì)包括但不僅限于以下中的任何一個(gè):根據(jù)感知響度模型的相對(duì) 于音頻床和其他音頻對(duì)象的局部響度的音頻對(duì)象的局部響度、語(yǔ)義信息(諸如是對(duì)話(huà)的概 率)等??紤]到音頻內(nèi)容的動(dòng)態(tài)本性,第i音頻對(duì)象的對(duì)象重要度Ni(m)典型地作為時(shí)間的函 數(shù)而變化,例如,作為幀索引m的函數(shù)(幀索引m邏輯地表示或者映射到諸如媒體回放時(shí)間等 之類(lèi)的時(shí)間)而變化。另外,對(duì)象重要度度量可以依賴(lài)于對(duì)象的元數(shù)據(jù)。這種依賴(lài)性的示例 是基于對(duì)象的位置或運(yùn)動(dòng)速度而對(duì)對(duì)象重要度進(jìn)行的修改。
[0073] 對(duì)象重要度可以被定義為時(shí)間和頻率的函數(shù)。如本文所描述的,轉(zhuǎn)碼、重要度估 計(jì)、音頻對(duì)象聚類(lèi)等可以通過(guò)使用任何合適的變換(諸如離散傅立葉變換(DFT)、正交鏡像 濾波器(QMF)組、(修正)離散余弦變換(MDCT)、聽(tīng)覺(jué)濾波器組、類(lèi)似的變換處理等)而在頻帶 中執(zhí)行。不失一般性地,第m幀(或者具有幀索引m的幀)包括在時(shí)域中的或者在合適的變換 域中的音頻樣本集合。
[0074] 4.1幀內(nèi)對(duì)象位置誤差
[0075] 幀內(nèi)空間誤差度量中的一個(gè)幀內(nèi)空間誤差度量與對(duì)象位置誤差相關(guān),并且可以被 表不為幀內(nèi)對(duì)象位置誤差度量。
[0076] 表達(dá)式(1)中的每個(gè)音頻對(duì)象(例如,第i音頻對(duì)象等)對(duì)于每個(gè)幀(例如,m等)具有 相關(guān)聯(lián)的位置矢量(例如,兵等)。類(lèi)似地,表達(dá)式(1)中的每個(gè)輸出聚類(lèi)(例如,第j輸出 聚類(lèi)等)也具有相關(guān)聯(lián)的位置矢量(例如,等)。這些位置矢量可以由空間復(fù)雜度分析 器(例如,200等)基于音頻對(duì)象數(shù)據(jù)(202)中的位置元數(shù)據(jù)來(lái)確定。音頻對(duì)象的位置誤差可 以用該音頻對(duì)象的位置和被分配到輸出聚類(lèi)的該音頻對(duì)象的質(zhì)心的位置之間的距離表示。 在一些實(shí)施例中,第i音頻對(duì)象的質(zhì)心的位置被確定為該音頻對(duì)象被分配到的輸出聚類(lèi)的 位置與充當(dāng)權(quán)重因子的增益系數(shù)g^(m)的加權(quán)和。音頻對(duì)象的位置和被分配到輸出聚類(lèi)的 (2) 該音頻對(duì)象的質(zhì)心的位置之間的距離的平方可以用如下表達(dá)式計(jì)算:
[0078] 表達(dá)式右側(cè)(RHS)的輸出聚類(lèi)的位置的加權(quán)和表示第i音頻對(duì)象的被感知位置。Ei (m)可以被稱(chēng)為第i音頻對(duì)象在幀m中的幀內(nèi)對(duì)象位置誤差。
[0079] 在示例性實(shí)現(xiàn)中,增益系數(shù)(例如,gu(m)等)通過(guò)優(yōu)化用于每個(gè)音頻對(duì)象(例如,第 i音頻對(duì)象等)的成本函數(shù)而被確定。被用來(lái)獲得表達(dá)式(1)中的增益系數(shù)的成本函數(shù)的示 例包括但不限于以下中的任何一個(gè)dKm)、不同于Edm)的L2范數(shù)。應(yīng)注意,本文所描述的技 術(shù)可以被配置為使用通過(guò)用不同于Edm)的其他類(lèi)型的成本函數(shù)進(jìn)行優(yōu)化而獲得的增益系 數(shù)。
[0080] 在一些實(shí)施例中,由Edm)表示的幀內(nèi)對(duì)象位置誤差僅對(duì)于位置在輸出聚類(lèi)的凸 包外部的音頻對(duì)象才會(huì)很大,而對(duì)于位置在凸包內(nèi)部的音頻對(duì)象為零。
[0081 ] 4.2幀內(nèi)對(duì)象平移誤差
[0082] 即使在如表達(dá)式(2)中表示的音頻對(duì)象的位置誤差為零(例如,在輸出聚類(lèi)的凸包 內(nèi),等等)的情況下,與在沒(méi)有聚類(lèi)的情況下直接渲染該音頻對(duì)象相比,該音頻對(duì)象在聚類(lèi) 和渲染之后也仍可能聽(tīng)起來(lái)顯著不同。如果聚類(lèi)形心的地點(diǎn)都不在音頻對(duì)象的位置附近, 則這種情況可能會(huì)出現(xiàn),因此音頻對(duì)象(例如,樣本數(shù)據(jù)部分、表示音頻對(duì)象的信號(hào)等)被分 布在各種輸出聚類(lèi)之間。與第i音頻對(duì)象在幀m中的幀內(nèi)對(duì)象平移誤差相關(guān)的誤差度量可以 用如下表達(dá)式表示:
[0083] ff (m) = Zj gfj (m^Pi (m) ~ pj (m) |2 (3)
[0084] 在通過(guò)質(zhì)心優(yōu)化來(lái)計(jì)算表達(dá)式(1)中的增益系數(shù)gij(m)的一些實(shí)施例中,如果輸出 聚類(lèi)之一(例如,第j輸出聚類(lèi)等)的位置g與對(duì)象位置ft重合,則表達(dá)式(3)中的誤差度量 為零。然而,在沒(méi)有這種重合的情況下,將對(duì)象平移到輸出聚類(lèi)的形心導(dǎo)致 (m)為非零值。
[0085] 4.3重要度加權(quán)的誤差度量
[0086]在一些實(shí)施例中,空間復(fù)雜度分析器(200)被配置為用(例如,基于局部響度^等 確定的)各自的對(duì)象重要度來(lái)對(duì)場(chǎng)景中的每個(gè)音頻對(duì)象的單個(gè)對(duì)象誤差度量(例如,Ei、Fi 等)進(jìn)行加權(quán)。對(duì)象重要度、局部響度K等可以由空間復(fù)雜度分析器(200)根據(jù)接收的音頻 對(duì)象數(shù)據(jù)(202)來(lái)估計(jì)或確定。用各自的對(duì)象重要度加權(quán)的對(duì)象誤差度量可以被總計(jì),以產(chǎn) 生如以下表達(dá)式中所示的關(guān)于所有音頻對(duì)象的總體誤差度量:
[0087] ~(m) = [A (爪M(饑)
[0088] AFi (m) == Zi Fi (m)Ni (m) (4)
[0089] 可替代地、附加地或可選地,場(chǎng)景中的每個(gè)音頻對(duì)象的單個(gè)誤差度量(例如AnFi 等)可以被總計(jì),以產(chǎn)生如以下表達(dá)式中所示的關(guān)于場(chǎng)景中的所有音頻對(duì)象的在平方域中 (5) 的總體誤差度量:
[0092] 4.4規(guī)范化的誤差度量
[0093]如以下表達(dá)式中所示,表達(dá)式(4)和(5)中的未規(guī)范化的誤差度量可以用總體響度 或?qū)ο笾匾葋?lái)規(guī)范化:
(6) (7)
[0098]其中,No是用于防止當(dāng)局部響度之和或經(jīng)平方的局部響度之和接近零時(shí)(例如,當(dāng) 音頻內(nèi)容的一部分是安靜的或近乎安靜的時(shí),等等)可能出現(xiàn)的數(shù)值不穩(wěn)定的數(shù)值穩(wěn)定因 子??刂茝?fù)雜度分析器(200)可以用針對(duì)局部響度之和或經(jīng)平方的局部響度之和的特定閾 值(例如,最小安靜程度等)來(lái)配置。如果所述和處于或低于該特定閾值,則穩(wěn)定因子可以被 插入到表達(dá)式(7)中。應(yīng)注意,本文所描述的技術(shù)也可以被配置為在計(jì)算未規(guī)范化的或規(guī)范 化的誤差度量時(shí)與防止數(shù)值不穩(wěn)定的其他方式(諸如減幅等)一起工作。
[0099] 在一些實(shí)施例中,空間誤差度量針對(duì)每個(gè)幀m被計(jì)算,隨后被低通濾波(例如,利用 具有諸如500ms等之類(lèi)的時(shí)間常數(shù)的一階低通濾波器);空間誤差度量的最大值、均值、中間 值等可以被用作幀的音頻質(zhì)量的指示。
[0100] 4.5幀間空間誤差
[0101] 在一些實(shí)施例中,與相鄰幀的在時(shí)間上的變化相關(guān)的空間誤差度量可以被計(jì)算, 并且在本文中可以被稱(chēng)為幀間空間誤差度量。這些幀間空間誤差可以但不限于被用在相鄰 幀中的每個(gè)幀中的空間誤差(例如,幀內(nèi)空間誤差)可能非常小或者甚至為零的情況中。即 使幀內(nèi)空間誤差很小,跨幀的對(duì)象到聚類(lèi)分配的變化仍也可能例如由于在從一個(gè)幀到下一 個(gè)幀的插值期間造成的空間誤差而導(dǎo)致聽(tīng)得見(jiàn)的噪聲。
[0102] 在一些實(shí)施例中,如本文所描述的音頻對(duì)象的幀間空間誤差基于一個(gè)或多個(gè)空間 誤差相關(guān)因子而產(chǎn)生,所述空間誤差相關(guān)因子包括但不僅限于以下中的任何一個(gè):音頻對(duì) 象被聚類(lèi)或平移到的輸出聚類(lèi)形心的位置變化、相對(duì)于音頻對(duì)象被聚類(lèi)或平移到的輸出聚 類(lèi)的增益系數(shù)變化、音頻對(duì)象的位置變化、音頻對(duì)象的相對(duì)或局部響度等。
[0103] 如以下表達(dá)式中所示,示例性的幀間空間誤差可以基于音頻對(duì)象的增益系數(shù)的變 化以及音頻對(duì)象被聚類(lèi)或平移到的輸出聚類(lèi)的位置變化而產(chǎn)生:
[0104] Ey丨仍八爪)-歷八饑+】)1|郎爪)-朽(饑+ 1)1 ⑶
[0105]如果(1)音頻對(duì)象的增益系數(shù)顯著地變化,和/或(2)音頻對(duì)象被聚類(lèi)或平移到的 輸出聚類(lèi)的位置顯著地變化,則以上度量提供大的誤差。此外,如以下表達(dá)式中所示,以上 度量可以用音頻對(duì)象的特定對(duì)象重要度(諸如局部響度等)進(jìn)行加權(quán):
[0106] Af(jn m H- 1) = I,- N^myNiim +- l)|a^ (m) - gu (m + 1)|^;(?71) - pj(m + 1)1 (9)
[0107] 因?yàn)樵摱攘可婕皬囊粋€(gè)幀到另一個(gè)幀的轉(zhuǎn)變,所以可以使用兩個(gè)幀的響度值的乘 積,以使得如果第m幀或第(m+1)幀中的對(duì)象的響度為零,則所得到的以上誤差度量的值也 將為零。這可以被用來(lái)處理音頻對(duì)象在這兩個(gè)幀中的后一個(gè)幀中開(kāi)始存在或不再存在的情 況;這種音頻對(duì)象對(duì)以上誤差度量的貢獻(xiàn)為零。
[0108] 針對(duì)音頻對(duì)象,另一個(gè)示例性的幀間空間誤差可以不僅基于音頻對(duì)象的增益系數(shù) 的變化和音頻對(duì)象被聚類(lèi)或平移到的輸出聚類(lèi)的位置變化而且還基于該音頻對(duì)象在第一 幀(例如,第m幀等)中被渲染成的輸出聚類(lèi)的第一配置和該音頻對(duì)象在第二幀(例如,第(m+ 1)幀等)中被渲染成的輸出聚類(lèi)的第二配置之間的差異或距離而產(chǎn)生,如圖5中所示。在圖5 所描繪的示例中,輸出聚類(lèi)2的形心跳到或移到新的位置;結(jié)果,音頻對(duì)象(被表示為三角 形)的渲染矢量和增益系數(shù)(或增益系數(shù)分布)相應(yīng)地變化。然而,在這個(gè)示例中,即使輸出 聚類(lèi)2的形心跳過(guò)很長(zhǎng)距離,對(duì)于特定音頻對(duì)象(三角形)來(lái)說(shuō),它仍可以通過(guò)使用輸出聚類(lèi) 3的4的兩個(gè)形心而被很好地表示/渲染。僅考慮輸出聚類(lèi)的位置變化(或形心變化)的跳躍 或差異可能過(guò)高估計(jì)幀間空間誤差或者在與相鄰幀(例如,第m幀和第(m+1)幀,等等)相關(guān) 的變化之間引起的潛在噪聲。這種過(guò)高估計(jì)可以通過(guò)在確定與相鄰幀相關(guān)的幀間空間誤差 時(shí)計(jì)算并且考慮作為相鄰幀的增益系數(shù)分布的變化的基礎(chǔ)的增益流來(lái)減輕。
[0109] 在一些實(shí)施例中,音頻對(duì)象在第m幀中的增益系數(shù)可以用增益矢量[gl(m),g2 (m),...,gN(m)]表示,其中,該增益矢量的每個(gè)分量(例如,1、2、……N等)對(duì)應(yīng)于被用來(lái)將 音頻對(duì)象渲染到多個(gè)輸出聚類(lèi)(例如,N個(gè)輸出聚類(lèi)等)中的相應(yīng)輸出聚類(lèi)(例如,第1個(gè)輸出 聚類(lèi)、第2個(gè)輸出聚類(lèi)、……、第N個(gè)輸出聚類(lèi)等)中的增益系數(shù)。僅僅出于例示的目的,在增 益矢量的分量中忽略了音頻對(duì)象在增益系數(shù)中的索引。音頻對(duì)象在第(m+1)幀中的增益系 數(shù)可以用增益矢量[ gl(m+l),g2(m+l),. . .,gN(m+l)]表示。類(lèi)似地,第m幀中的多個(gè)輸出聚類(lèi) 的形心的位置可以用矢量[仏,吞2 (m),(m)]表示。第(m+1)幀中的多個(gè)輸出聚 類(lèi)的形心的位置可以用矢+ 1), ;p2(m + 1),+ 1)]表示。音頻對(duì)象的 從第m幀到第(m+1)幀的幀間空間誤差可以如以下表達(dá)式中所示那樣計(jì)算得到(音頻對(duì)象的 響度、對(duì)象重要度等目前被忽略,并且稍后可以被應(yīng)用):
[0110] D(m^m+1) = E i E jgi-^jdi-^j (10)
[0111] 其中,i是第m幀中的輸出聚類(lèi)的形心的索引,j是第(m+1)幀中的輸出聚類(lèi)的形心 的索引是從第m幀中的第i輸出聚類(lèi)的形心到第(m+1)幀中的第j輸出聚類(lèi)的形心的增 益流的值。cU^是第m幀中的第i輸出聚類(lèi)的形心和第(m+1)幀中的第j輸出聚類(lèi)的形心之間 的距離(例如,增益流等),并且可以如以下表達(dá)式中所示的那樣直接計(jì)算:
[0112] + (11)
[0113]在一些實(shí)施例中,增益流值gl^用包括以下步驟的方法估計(jì):
[0114] 1.將gi-j初始化為零。如果gi(m)和gj(m+l)大于零(0),則針對(duì)每對(duì)(i,j)計(jì)算di叫。 按升序?qū)U^進(jìn)行排序。
[0115] 2.選擇具有最小距離的形心對(duì)(i',),其中,形心對(duì)(i',)在之前未被選擇過(guò)。
[0116] 3?按照免%廣=沒(méi)廣)計(jì)算增益流值。
[0117] 4.更新價(jià)=此-免%/%沒(méi)廣=一
[0118] 5.如果經(jīng)更新的gl、幻全都為零,則停止。否則,跳到上面的步驟2。
[0119] 在圖5中所描繪的示例中,通過(guò)應(yīng)用以上方法而獲得的非零增益流為:guiO. 5, g2-3 = 0.2,g2-4 = 0.2,并且g2-1 = 0.1。因此,音頻對(duì)象(在圖5中被表示為三角形)的幀間空 間誤差可以如下計(jì)算:
[0120] D(m^m+1) =gi^i 氺 di^i+g2-3 氺 d2^3+g2^4 氺 cb-4+gPi 氺 dpi
[0121 ] =0 ? 5*dn+0 ? 2*d2^3+0 ? 2*d2-4+0 ? l*d2~^i
[0122] (12)
[0123]
[0124] 相比之下,基于表達(dá)式(8)計(jì)算的幀間空間誤差如下:
[0125] D(ni m-r 1) - \g2〇n) - g2(^ + 1)1 * - p2(m + ^)1 = 〇 ^ * \P 2CO ~p2(i + 1)1 (13)
[0126] 在表達(dá)式(12)和(13)中可以看出,表達(dá)式(13)中計(jì)算的僅取決于 l/Km)-盧2(m + 1)1的幀間空間誤差可能過(guò)高估計(jì)實(shí)際的空間誤差,因?yàn)檩敵鼍垲?lèi)2 的形心的運(yùn)動(dòng)由于鄰近的輸出聚類(lèi)3和4的存在而不會(huì)引起音頻對(duì)象上的大空間誤差,鄰近 的輸出聚類(lèi)3和4可以容易地(并且就空間誤差而言相對(duì)精確地)占據(jù)增益系數(shù)的之前被渲 染到第m幀中的輸出聚類(lèi)2的部分(或增益流)。
[0127] 音頻對(duì)象k的幀間空間誤差可以被表示為Dk。在一些實(shí)施例中,總體幀間空間誤差 可以如下計(jì)算:
[0128] E inter (m^m+1) = E kDk (m^m+1) (14)
[0129] 通過(guò)考慮音頻對(duì)象的各自的對(duì)象重要度(諸如局部響度等),總體幀間空間誤差可 以如下進(jìn)一步計(jì)算:
[0130] Einter(m^m+1) = EkNk(m)Nk(m+l )Dk(m^m+l) (15)其中,Nk(m)和 Nk(m+1)分別是 音頻對(duì)象k在第m幀和第(m+1)幀中的對(duì)象重要度,諸如局部響度等。
[0131] 在一些實(shí)施例中,在音頻對(duì)象還在運(yùn)動(dòng)的情況下,音頻對(duì)象的運(yùn)動(dòng)在計(jì)算幀間空 間誤差時(shí)被補(bǔ)償,例如,如以下表達(dá)式中所示:
[0132] Einter(m^m+1) = EkNk(m)Nk(m+1 )max{Dk(m^m+l)-〇k(m^m+1) ,0} (16)
[0133] 其中,0k(m-m+1)是音頻對(duì)象從第m幀到第(m+1)幀的實(shí)際運(yùn)動(dòng)。
[0134] 5.主觀音頻質(zhì)量的預(yù)測(cè)
[0135] 在一些實(shí)施例中,如本文所描述的空間誤差度量中的一個(gè)、一些或全部可以被用 來(lái)預(yù)測(cè)用于計(jì)算空間誤差度量的一個(gè)或多個(gè)幀的感知音頻質(zhì)量(例如,與諸如MUSHRA測(cè)試、 M0S測(cè)試等之類(lèi)的感知音頻質(zhì)量測(cè)試相關(guān))。訓(xùn)練數(shù)據(jù)集(例如,代表性的音頻內(nèi)容元素或摘 錄的集合,等等)可以被用來(lái)確定空間誤差度量和從多個(gè)用戶(hù)收集的主觀音頻質(zhì)量的測(cè)量 結(jié)果之間的相關(guān)性(例如,反映空間誤差越高導(dǎo)致利用用戶(hù)測(cè)量的主觀音頻質(zhì)量越低的負(fù) 值)?;谟?xùn)練數(shù)據(jù)集確定的相關(guān)性可以被用來(lái)確定預(yù)測(cè)參數(shù)。這些預(yù)測(cè)參數(shù)可以被用來(lái)基 于從一個(gè)或多個(gè)幀(例如,非訓(xùn)練數(shù)據(jù)等)計(jì)算的空間誤差度量產(chǎn)生所述一個(gè)或多個(gè)幀的感 知音頻質(zhì)量的一個(gè)或多個(gè)指示。在其中多個(gè)空間誤差度量(例如,幀內(nèi)對(duì)象位置誤差、幀內(nèi) 對(duì)象平移誤差等)被用來(lái)預(yù)測(cè)主觀音頻質(zhì)量的一些實(shí)施例中,與(例如,基于訓(xùn)練數(shù)據(jù)集通 過(guò)針對(duì)多個(gè)用戶(hù)進(jìn)行MUSHRA測(cè)試而測(cè)量得到的,等等)主觀音頻質(zhì)量的相關(guān)性相對(duì)較高的 空間誤差度量(例如,幀內(nèi)對(duì)象平移誤差度量等)(例如,具有相對(duì)較大量值的負(fù)值等)可以 被給予所述多個(gè)空間誤差度量(例如,幀內(nèi)對(duì)象位置誤差、幀內(nèi)對(duì)象平移誤差等)當(dāng)中的相 對(duì)較高的權(quán)重。應(yīng)注意,本文中所描述的技術(shù)可以被配置為與基于通過(guò)這些技術(shù)確定的一 個(gè)或多個(gè)空間誤差度量來(lái)預(yù)測(cè)音頻質(zhì)量的其他方式一起工作。
[0136] 6.空間誤差和空間復(fù)雜度的可視化
[0137] 在一些實(shí)施例中,根據(jù)本文中所描述的技術(shù)針對(duì)一個(gè)或多個(gè)幀確定的一個(gè)或多個(gè) 空間誤差度量可以與所述一個(gè)或多個(gè)幀中的音頻對(duì)象和/或輸出聚類(lèi)的性質(zhì)(例如,響度、 位置等)一起用于提供所述一個(gè)或多個(gè)幀中的音頻內(nèi)容的空間復(fù)雜度在顯示器(例如,計(jì)算 機(jī)屏幕、網(wǎng)頁(yè)等)上的可視化??梢暬梢酝ㄟ^(guò)多種多樣的圖形用戶(hù)界面部件(諸如VU計(jì)量 器(例如,2D、3D等))、音頻對(duì)象和/或輸出聚類(lèi)的可視化、條形圖、其他合適的手段等來(lái)提 供。在一些實(shí)施例中,例如當(dāng)空間創(chuàng)作或轉(zhuǎn)換處理正在被執(zhí)行時(shí)、在這種處理被執(zhí)行之后、 等等,空間復(fù)雜度的總體指示被提供在顯示器上。
[0138] 圖3A至圖3D例示了用于可視化一個(gè)或多個(gè)幀中的空間復(fù)雜度的示例性用戶(hù)界面。 用戶(hù)界面可以由空間復(fù)雜度分析器(例如,圖2的200等)或用戶(hù)界面模塊(例如,圖2的210 等)、混合工具、格式轉(zhuǎn)換工具、音頻對(duì)象聚類(lèi)工具、獨(dú)立分析工具等提供。用戶(hù)界面可以被 用來(lái)當(dāng)輸入音頻內(nèi)容中的音頻對(duì)象被壓縮成輸出音頻內(nèi)容中的數(shù)量更少的(例如,少得多 的,等等)輸出聚類(lèi)時(shí)提供可能的音頻質(zhì)量劣化和其他相關(guān)信息的可視化??赡艿囊纛l質(zhì)量 劣化和其他相關(guān)信息的可視化可以與從同一源音頻內(nèi)容生成一個(gè)或多個(gè)版本的基于對(duì)象 的音頻內(nèi)容同時(shí)提供。
[0139] 在一些實(shí)施例中,如圖3A中所示,用戶(hù)界面包括3D顯示部件302,該3D顯示部件302 可視化音頻對(duì)象和輸出聚類(lèi)在示例性的3D收聽(tīng)空間中的位置。如用戶(hù)界面中所描繪的音頻 對(duì)象或輸出聚類(lèi)中的零個(gè)、一個(gè)或多個(gè)可以具有收聽(tīng)環(huán)境中的動(dòng)態(tài)位置或固定位置。
[0140] 在一些實(shí)施例中,用戶(hù)或收聽(tīng)者在3D收聽(tīng)空間的地平面的中間。在一些實(shí)施例中, 如圖3B中所示,用戶(hù)界面包括3D收聽(tīng)空間的不同的2D視圖,諸如表示3D收聽(tīng)空間的不同投 影的頂視圖、側(cè)視圖、后視圖等。
[0141] 在一些實(shí)施例中,如圖3C中所示,用戶(hù)界面還包括條形圖304和306,這些條形圖分 別對(duì)(例如,基于響度、語(yǔ)義對(duì)話(huà)概率等確定/估計(jì)的)對(duì)象重要度和對(duì)象響度L(以方為單 位)進(jìn)行可視化。"輸入索引"表示音頻對(duì)象(或輸出聚類(lèi))的索引。輸入索引的每個(gè)值處的豎 條的高度指示語(yǔ)音或?qū)υ?huà)的概率??v軸"L"表示可被用作確定對(duì)象重要度等的基礎(chǔ)的局部 響度??v軸"P"表示語(yǔ)音或?qū)υ?huà)內(nèi)容的概率。條形圖304和306中的豎條(表示音頻對(duì)象或輸 出聚類(lèi)的語(yǔ)音或?qū)υ?huà)內(nèi)容的單個(gè)的局部響度和概率)可以隨著幀不同而起伏。
[0142] 在一些實(shí)施例中,如圖3D中所示,用戶(hù)界面包括與幀內(nèi)空間誤差相關(guān)的第一空間 復(fù)雜度計(jì)量器308和與幀間空間誤差相關(guān)的第二空間復(fù)雜度計(jì)量器310。在一些實(shí)施例中, 音頻內(nèi)容的空間復(fù)雜度可以由根據(jù)幀內(nèi)空間誤差度量、幀間空間誤差度量等中的一個(gè)或多 個(gè)(例如,不同的組合等)產(chǎn)生的空間誤差度量或預(yù)測(cè)音頻質(zhì)量測(cè)試得分來(lái)量化或表示。在 一些實(shí)施例中,基于訓(xùn)練數(shù)據(jù)確定的預(yù)測(cè)參數(shù)可以被用來(lái)基于一個(gè)或多個(gè)空間誤差度量預(yù) 測(cè)音頻質(zhì)量劣化。所預(yù)測(cè)的感知音頻質(zhì)量劣化可以由參照主觀感知音頻質(zhì)量測(cè)試(諸如 MUSHRA測(cè)試、M0S測(cè)試等)的一個(gè)或多個(gè)預(yù)測(cè)的感知測(cè)試得分來(lái)表示。在一些實(shí)施例中,可以 分別至少部分基于幀內(nèi)空間誤差和幀間空間誤差來(lái)預(yù)測(cè)兩組感知測(cè)試得分。至少部分基于 幀內(nèi)空間誤差產(chǎn)生的第一組感知測(cè)試得分可以被用來(lái)驅(qū)動(dòng)第一空間復(fù)雜度計(jì)量器308的顯 示。至少部分基于幀間空間誤差產(chǎn)生的第二組感知測(cè)試得分可以被用來(lái)驅(qū)動(dòng)第二空間復(fù)雜 度計(jì)量器310的顯示。
[0143] 在一些實(shí)施例中,"聽(tīng)得見(jiàn)的誤差"指示器燈可以被描繪在用戶(hù)界面中,以指示由 空間復(fù)雜度計(jì)量器(例如,308、310等)中的一個(gè)或多個(gè)表示的所預(yù)測(cè)的音頻質(zhì)量劣化(例 如,在0至10的值范圍內(nèi),等等)已經(jīng)越過(guò)了所配置的"令人討厭的"閾值(例如,10,等等)。在 一些實(shí)施例中,如果空間復(fù)雜度計(jì)量器(例如,308、310等)均未越過(guò)所配置的"令人討厭的" 閾值(例如,其數(shù)值為10,等等),則"聽(tīng)得見(jiàn)的誤差"指示器燈不被描繪,但是可以在空間復(fù) 雜度計(jì)量器之一越過(guò)所配置的"令人討厭的"閾值時(shí)被觸發(fā)。在一些實(shí)施例中,空間復(fù)雜度 計(jì)量器(例如,308、310等)中的所預(yù)測(cè)的音頻質(zhì)量劣化的不同子范圍可以由不同顏色帶表 示(例如,0-3的子范圍被映射到指示極小的音頻質(zhì)量劣化的綠色帶,8-10的子范圍被映射 到指示嚴(yán)重的音頻質(zhì)量劣化的紅色帶,等等)。
[0144] 音頻對(duì)象在圖3A和圖3B中被描繪為圓圈。然而,在各種實(shí)施例中,音頻對(duì)象或輸出 聚類(lèi)可以使用不同的形狀描繪。在一些實(shí)施例中,表示音頻對(duì)象或輸出聚類(lèi)的形狀的大小 可以指示(例如,可以與下述項(xiàng)成比例,等等)音頻對(duì)象的對(duì)象重要度、音頻對(duì)象或輸出聚類(lèi) 的絕對(duì)或相對(duì)響度等。不同的顏色編碼方案可以被用來(lái)給用戶(hù)界面中的用戶(hù)界面部件上 色。例如,音頻對(duì)象可以被上綠色,而輸出聚類(lèi)可以被上非綠色。相同顏色的不同形狀可以 被用來(lái)區(qū)分音頻對(duì)象的性質(zhì)的不同值。音頻對(duì)象的顏色可以基于音頻對(duì)象的性質(zhì)、音頻對(duì) 象的空間誤差、音頻對(duì)象相對(duì)于該音頻對(duì)象被分配或分配到的輸出聚類(lèi)的距離等而改變。
[0145] 圖4例示了 VU計(jì)量器形式的視覺(jué)復(fù)雜度計(jì)量器的兩個(gè)示例性實(shí)例402和404 JU計(jì) 量器可以是圖3A至圖3D中所描繪的用戶(hù)界面的一部分或者是與圖3A至圖3D中所描繪的用 戶(hù)界面不同的用戶(hù)界面(例如,由圖2的用戶(hù)界面模塊210等提供)。視覺(jué)復(fù)雜度計(jì)量器的第 一實(shí)例402指示與低空間誤差對(duì)應(yīng)的高音頻質(zhì)量和低空間復(fù)雜度。視覺(jué)復(fù)雜度計(jì)量器的第 二實(shí)例404指示與高空間誤差對(duì)應(yīng)的低音頻質(zhì)量和高空間復(fù)雜度。在VU計(jì)量器中指示的復(fù) 雜度度量值可以是幀內(nèi)空間誤差、幀間空間誤差、基于幀內(nèi)空間誤差預(yù)測(cè)/確定的感知音頻 質(zhì)量測(cè)試得分、基于幀間空間誤差預(yù)測(cè)/確定的預(yù)測(cè)音頻質(zhì)量測(cè)試得分等。附加地、可選地 或可替代地,VU計(jì)量器可以包括/實(shí)現(xiàn)"峰值保持"函數(shù),該函數(shù)被配置為顯示在某個(gè)(例如, 過(guò)去的,等等)時(shí)間間隔內(nèi)出現(xiàn)的最低質(zhì)量和最高復(fù)雜度。該時(shí)間間隔可以是固定的(例如, 最后10秒,等等),或者可以是可變的且是相對(duì)于正被處理的音頻內(nèi)容的開(kāi)頭的。此外,復(fù)雜 度度量值的數(shù)值顯示可以與VU計(jì)量器顯示結(jié)合使用,或者替代VU計(jì)量器顯示使用。
[0146] 如圖4中所示,復(fù)雜度夾燈可以被顯示在表示復(fù)雜度計(jì)量器的垂直標(biāo)度的下面。如 果復(fù)雜度值已經(jīng)達(dá)到/越過(guò)某個(gè)臨界閾值,則該夾燈可以變?yōu)楣ぷ?。這可以通過(guò)點(diǎn)亮、改變 顏色、可以被視覺(jué)地感知的任何其他變化來(lái)可視化。在一些實(shí)施例中,作為顯示復(fù)雜度標(biāo)簽 (例如,高、良好、中等和低質(zhì)量等)的替代或附加,垂直標(biāo)度也可以是數(shù)值的(例如,從〇至10 等)以指示復(fù)雜度或音頻質(zhì)量。
[0147] 7.示例性的處理流程
[0148] 圖6例示了示例性的處理流程。在一些實(shí)施例中,一個(gè)或多個(gè)計(jì)算裝置或單元(例 如,圖2的空間復(fù)雜度分析器200等)可以執(zhí)行該處理流程。
[0149] 在塊602中,空間復(fù)雜度分析器200(例如,如圖2等中所示)確定存在于一個(gè)或多個(gè) 幀中的輸入音頻內(nèi)容中的多個(gè)音頻對(duì)象。
[0150] 在塊604中,空間復(fù)雜度分析器(200)確定存在于所述一個(gè)或多個(gè)幀中的輸出音頻 內(nèi)容中的多個(gè)輸出聚類(lèi)。這里,輸入音頻內(nèi)容中的所述多個(gè)音頻對(duì)象被轉(zhuǎn)換成輸出音頻內(nèi) 容中的所述多個(gè)輸出聚類(lèi)。
[0151] 在塊606中,空間復(fù)雜度分析器(200)至少部分基于所述多個(gè)音頻對(duì)象的位置元數(shù) 據(jù)和所述多個(gè)輸出聚類(lèi)的位置元數(shù)據(jù)來(lái)計(jì)算一個(gè)或多個(gè)空間誤差度量。
[0152] 在實(shí)施例中,所述多個(gè)音頻對(duì)象中的至少一個(gè)音頻對(duì)象被分配到所述多個(gè)輸出聚 類(lèi)中的兩個(gè)或更多個(gè)輸出聚類(lèi)。
[0153] 在實(shí)施例中,所述多個(gè)音頻對(duì)象中的至少一個(gè)音頻對(duì)象被分配到所述多個(gè)輸出聚 類(lèi)中的一個(gè)輸出聚類(lèi)。
[0154] 在實(shí)施例中,空間復(fù)雜度分析器(200)被進(jìn)一步配置為基于所述一個(gè)或多個(gè)空間 誤差度量來(lái)確定通過(guò)將輸入音頻內(nèi)容中的多個(gè)音頻對(duì)象轉(zhuǎn)換到輸出聚類(lèi)中的多個(gè)輸出聚 類(lèi)而引起的感知音頻質(zhì)量劣化。
[0155] 在實(shí)施例中,感知音頻質(zhì)量劣化由與感知音頻質(zhì)量測(cè)試相關(guān)的一個(gè)或多個(gè)預(yù)測(cè)測(cè) 試得分表不。
[0156] 在實(shí)施例中,所述一個(gè)或多個(gè)空間誤差度量包括以下中的至少一個(gè):幀內(nèi)空間誤 差度量、幀間空間誤差度量。
[0157] 在實(shí)施例中,幀內(nèi)空間誤差度量包括以下中的至少一個(gè):幀內(nèi)對(duì)象位置誤差度量、 幀內(nèi)對(duì)象平移誤差度量、重要度加權(quán)的幀內(nèi)對(duì)象位置誤差度量、重要度加權(quán)的幀內(nèi)對(duì)象平 移誤差度量、規(guī)范化的幀內(nèi)對(duì)象位置誤差度量、規(guī)范化的幀內(nèi)對(duì)象平移誤差度量等。
[0158] 在實(shí)施例中,幀間空間誤差度量包括以下中的至少一個(gè):基于增益系數(shù)流的幀間 空間誤差度量、不基于增益系數(shù)流的幀間空間誤差度量等。
[0159] 在實(shí)施例中,每個(gè)幀間空間誤差度量是關(guān)于兩個(gè)不同的幀而被計(jì)算的。
[0160] 在實(shí)施例中,所述多個(gè)音頻對(duì)象經(jīng)由多個(gè)增益系數(shù)而與所述多個(gè)輸出聚類(lèi)相關(guān)。 [0161 ]在實(shí)施例中,每個(gè)幀對(duì)應(yīng)于輸入音頻內(nèi)容中的時(shí)間段和輸出音頻內(nèi)容中的第二時(shí) 間段;存在于輸入音頻內(nèi)容中的第一時(shí)間段中的音頻對(duì)象被映射到存在于輸出音頻內(nèi)容中 的第二時(shí)間段中的輸出聚類(lèi)。
[0162] 在實(shí)施例中,所述一個(gè)或多個(gè)幀包括兩個(gè)連續(xù)的幀。
[0163] 在實(shí)施例中,空間復(fù)雜度分析器(200)被進(jìn)一步配置為執(zhí)行:重構(gòu)一個(gè)或多個(gè)用戶(hù) 界面部件,該一個(gè)或多個(gè)用戶(hù)界面部件表示以下中的一個(gè)或多個(gè):所述多個(gè)音頻對(duì)象中的 音頻對(duì)象、收聽(tīng)空間中的所述多個(gè)輸出聚類(lèi)中的輸出聚類(lèi),等等;并且使所述一個(gè)或多個(gè)用 戶(hù)界面部件被顯示給用戶(hù)。
[0164] 在實(shí)施例中,所述一個(gè)或多個(gè)用戶(hù)界面部件中的用戶(hù)界面部件表示所述多個(gè)音頻 對(duì)象中的音頻對(duì)象;音頻對(duì)象被映射到所述多個(gè)輸出聚類(lèi)中的一個(gè)或多個(gè)輸出聚類(lèi);并且 用戶(hù)界面部件的至少一個(gè)視覺(jué)特性表示與將音頻對(duì)象映射到所述一個(gè)或多個(gè)輸出聚類(lèi)相 關(guān)的一個(gè)或多個(gè)空間誤差的總量。
[0165] 在實(shí)施例中,所述一個(gè)或多個(gè)用戶(hù)界面部件包括收聽(tīng)空間的3維(3D)形式的表示。
[0166] 在實(shí)施例中,所述一個(gè)或多個(gè)用戶(hù)界面部件包括收聽(tīng)空間的2維(2D)形式的表示。
[0167] 在實(shí)施例中,空間復(fù)雜度分析器(200)被進(jìn)一步配置為執(zhí)行:構(gòu)造一個(gè)或多個(gè)用戶(hù) 界面部件,該一個(gè)或多個(gè)用戶(hù)界面部件表示以下中的一個(gè)或多個(gè):所述多個(gè)音頻對(duì)象中的 音頻對(duì)象的各自的對(duì)象重要度、所述多個(gè)輸出聚類(lèi)中的輸出聚類(lèi)的各自的對(duì)象重要度、所 述多個(gè)音頻對(duì)象中的音頻對(duì)象的各自的響度、所述多個(gè)輸出聚類(lèi)中的輸出聚類(lèi)的各自的響 度、所述多個(gè)音頻對(duì)象中的音頻對(duì)象的語(yǔ)音或?qū)υ?huà)內(nèi)容的各自的概率、所述多個(gè)輸出聚類(lèi) 中的輸出聚類(lèi)的語(yǔ)音或?qū)υ?huà)內(nèi)容的概率等;并且使所述一個(gè)或多個(gè)用戶(hù)界面部件被顯示給 用戶(hù)。
[0168] 在實(shí)施例中,空間復(fù)雜度分析器(200)被進(jìn)一步配置為執(zhí)行:構(gòu)造一個(gè)或多個(gè)用戶(hù) 界面部件,該一個(gè)或多個(gè)用戶(hù)界面部件表示以下中的一個(gè)或多個(gè):一個(gè)或多個(gè)空間誤差度 量、至少部分基于一個(gè)或多個(gè)空間誤差度量而確定的一個(gè)或多個(gè)預(yù)測(cè)的測(cè)試得分等;并且 使所述一個(gè)或多個(gè)用戶(hù)界面部件被顯示給用戶(hù)。
[0169] 在實(shí)施例中,轉(zhuǎn)換處理將存在于輸入音頻內(nèi)容中的時(shí)間相關(guān)的音頻對(duì)象轉(zhuǎn)換成構(gòu) 成輸出聚類(lèi)的時(shí)間相關(guān)的輸出聚類(lèi);并且所述一個(gè)或多個(gè)用戶(hù)界面部件包括在包含并且長(zhǎng) 至一個(gè)或多個(gè)幀的過(guò)去時(shí)間間隔內(nèi)在轉(zhuǎn)換處理中出現(xiàn)最差音頻質(zhì)量劣化的視覺(jué)指示。
[0170] 在實(shí)施例中,所述一個(gè)或多個(gè)用戶(hù)界面部件包括在包含并且長(zhǎng)至一個(gè)或多個(gè)幀的 過(guò)去時(shí)間間隔內(nèi)在轉(zhuǎn)換處理中出現(xiàn)的音頻質(zhì)量劣化已經(jīng)超過(guò)音頻質(zhì)量劣化閾值的視覺(jué)指 不。
[0171] 在實(shí)施例中,所述一個(gè)或多個(gè)用戶(hù)界面部件包括其高度指示所述一個(gè)或多個(gè)幀中 的音頻質(zhì)量劣化的豎條,并且其中,該豎條基于所述一個(gè)或多個(gè)幀中的音頻質(zhì)量劣化而被 顏色編碼。
[0172] 在實(shí)施例中,所述多個(gè)輸出聚類(lèi)中的輸出聚類(lèi)包括所述多個(gè)音頻對(duì)象中的兩個(gè)或 更多個(gè)音頻對(duì)象所映射到的部分。
[0173] 在實(shí)施例中,所述多個(gè)音頻對(duì)象中的音頻對(duì)象或所述多個(gè)輸出聚類(lèi)中的輸出聚類(lèi) 中的至少一個(gè)具有隨著時(shí)間變化的動(dòng)態(tài)位置。
[0174] 在實(shí)施例中,所述多個(gè)音頻對(duì)象中的音頻對(duì)象或所述多個(gè)輸出聚類(lèi)中的輸出聚類(lèi) 中的至少一個(gè)具有不隨著時(shí)間變化的固定位置。
[0175] 在實(shí)施例中,輸入音頻內(nèi)容和輸出音頻內(nèi)容中的至少一個(gè)是僅音頻信號(hào)和視聽(tīng)信 號(hào)之一的一部分。
[0176] 在實(shí)施例中,空間復(fù)雜度分析器(200)被進(jìn)一步配置為執(zhí)行:接收指定對(duì)于將輸入 音頻內(nèi)容轉(zhuǎn)換為輸出音頻內(nèi)容的轉(zhuǎn)換處理的改變的用戶(hù)輸入;并且響應(yīng)于接收到該用戶(hù)輸 入,引起對(duì)于將輸入音頻內(nèi)容轉(zhuǎn)換為輸出音頻內(nèi)容的轉(zhuǎn)換處理的所述改變。
[0177] 在實(shí)施例中,如上所述的方法中的任何一個(gè)是在轉(zhuǎn)換處理將輸入音頻內(nèi)容轉(zhuǎn)換為 輸出音頻內(nèi)容時(shí)同時(shí)執(zhí)行的。
[0178] 實(shí)施例包括一種被配置為執(zhí)行本文中所描述的方法中的任何一個(gè)的媒體處理系 統(tǒng)。
[0179] 實(shí)施例包括一種設(shè)備,該設(shè)備包括處理器并且被配置為執(zhí)行前述方法中的任何一 個(gè)。
[0180]實(shí)施例包括存儲(chǔ)有軟件指令的非暫時(shí)性計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),這些軟件指令當(dāng)被 一個(gè)或多個(gè)處理器執(zhí)行時(shí)引起執(zhí)行前述方法中的任何一個(gè)。注意,盡管本文中討論了單獨(dú) 的實(shí)施例,但是本文中所討論的實(shí)施例和/或部分實(shí)施例的任何組合可以被組合來(lái)形成另 外的實(shí)施例。
[0181] 8.實(shí)現(xiàn)機(jī)制--硬件概述
[0182] 根據(jù)一個(gè)實(shí)施例,本文中所描述的技術(shù)由一個(gè)或多個(gè)專(zhuān)用計(jì)算裝置實(shí)現(xiàn)。專(zhuān)用計(jì) 算裝置可以被硬連線(xiàn)以執(zhí)行這些技術(shù),或者可以包括被持久性地編程為執(zhí)行這些技術(shù)的數(shù) 字電子裝置(諸如一個(gè)或多個(gè)專(zhuān)用集成電路(ASIC)或現(xiàn)場(chǎng)可編程門(mén)陣列(FPGA)),或者可以 包括按照固件、存儲(chǔ)器、其他儲(chǔ)存器或組合中的程序指令執(zhí)行這些技術(shù)的一個(gè)或多個(gè)通用 硬件處理器。這種專(zhuān)用計(jì)算裝置還可以結(jié)合具有自定義編程的自定義的硬連線(xiàn)邏輯、ASIC、 或FPGA來(lái)實(shí)現(xiàn)這些技術(shù)。專(zhuān)用計(jì)算裝置可以是臺(tái)式計(jì)算機(jī)系統(tǒng)、便攜式計(jì)算機(jī)系統(tǒng)、手持裝 置、聯(lián)網(wǎng)裝置、或包含硬連線(xiàn)邏輯和/或程序邏輯來(lái)實(shí)現(xiàn)這些技術(shù)的任何其他裝置。
[0183] 例如,圖7是例示了在其上可以實(shí)現(xiàn)本發(fā)明的實(shí)施例的計(jì)算機(jī)系統(tǒng)700的框圖。計(jì) 算機(jī)系統(tǒng)700包括用于傳送信息的總線(xiàn)702或其他通信機(jī)制、以及與總線(xiàn)702耦接的用于對(duì) 信息進(jìn)行處理的硬件處理器704。硬件處理器704可以是例如專(zhuān)用微處理器。
[0184] 計(jì)算機(jī)系統(tǒng)700還包括耦接到總線(xiàn)702的用于存儲(chǔ)信息和將由處理器704執(zhí)行的指 令的主存儲(chǔ)器706,諸如隨機(jī)存取存儲(chǔ)器(RAM)或其他動(dòng)態(tài)存儲(chǔ)裝置。主存儲(chǔ)器706還可以用 于在將由處理器704執(zhí)行的指令的執(zhí)行期間存儲(chǔ)臨時(shí)變量或其他中間信息。這種指令在被 存儲(chǔ)在處理器704可訪(fǎng)問(wèn)的非暫時(shí)性存儲(chǔ)介質(zhì)中時(shí)使得計(jì)算機(jī)系統(tǒng)700成為裝置特定于執(zhí) 行這些指令中所指定的操作的專(zhuān)用機(jī)器。
[0185] 計(jì)算機(jī)系統(tǒng)700還包括耦接到總線(xiàn)702的用于存儲(chǔ)用于處理器704的靜態(tài)信息和指 令的只讀存儲(chǔ)器(ROM) 708或其他靜態(tài)存儲(chǔ)裝置。存儲(chǔ)裝置710 (諸如磁盤(pán)或光學(xué)盤(pán))被提供 并且耦接到總線(xiàn)702,以用于存儲(chǔ)信息和指令。
[0186] 計(jì)算機(jī)系統(tǒng)700可以經(jīng)由總線(xiàn)702耦接到用于向計(jì)算機(jī)用戶(hù)顯示信息的顯示器 712,諸如液晶顯示器(IXD)。包括字母數(shù)字鍵和其他鍵的輸入裝置714耦接到總線(xiàn)702,以用 于將信息和命令選擇傳送給處理器704。另一種類(lèi)型的用戶(hù)輸入裝置是用于將方向信息和 命令選擇傳送給處理器704并且用于控制顯示器712上的光標(biāo)移動(dòng)的光標(biāo)控制器716,諸如 鼠標(biāo)、軌跡球、或光標(biāo)方向鍵。該輸入裝置典型地具有兩個(gè)軸(第一軸(例如,x)和第二軸(例 如,y))上的兩個(gè)自由度,這允許裝置可以指定平面中的位置。
[0187] 計(jì)算機(jī)系統(tǒng)700可以使用與該計(jì)算機(jī)系統(tǒng)組合使計(jì)算機(jī)系統(tǒng)700成為專(zhuān)用機(jī)器或 者將計(jì)算機(jī)系統(tǒng)700編程為專(zhuān)用機(jī)器的裝置特定的硬連線(xiàn)邏輯、一個(gè)或多個(gè)ASIC或FPGA、固 件和/或程序邏輯來(lái)實(shí)現(xiàn)本文中所描述的技術(shù)。根據(jù)一個(gè)實(shí)施例,本文中的技術(shù)由計(jì)算機(jī)系 統(tǒng)700響應(yīng)于執(zhí)行主存儲(chǔ)器706中包含的一個(gè)或多個(gè)指令的一個(gè)或多個(gè)序列的處理器704來(lái) 執(zhí)行。這種指令可以從另一個(gè)存儲(chǔ)介質(zhì)(諸如存儲(chǔ)裝置710)讀取到主存儲(chǔ)器706中。主存儲(chǔ) 器706中包含的指令序列的執(zhí)行使處理器704執(zhí)行本文中所描述的處理步驟。在替代實(shí)施例 中,硬連線(xiàn)的電路系統(tǒng)可以被用來(lái)代替軟件指令或者與軟件指令組合使用。
[0188] 本文中所使用的術(shù)語(yǔ)"存儲(chǔ)介質(zhì)"是指存儲(chǔ)使機(jī)器以特定方式運(yùn)行的數(shù)據(jù)和/或指 令的任何非暫時(shí)性介質(zhì)。這種存儲(chǔ)介質(zhì)可以包括非易失性介質(zhì)和/或易失性介質(zhì)。非易失性 介質(zhì)例如包括光學(xué)盤(pán)或磁性盤(pán),諸如存儲(chǔ)裝置710。易失性介質(zhì)包括動(dòng)態(tài)存儲(chǔ)器,諸如主存 儲(chǔ)器706。存儲(chǔ)介質(zhì)的常見(jiàn)形式例如包括軟盤(pán)、柔性盤(pán)、硬盤(pán)、固態(tài)驅(qū)動(dòng)器、磁帶或任何其他 磁性數(shù)據(jù)存儲(chǔ)介質(zhì)、CD-ROM、任何其他光學(xué)數(shù)據(jù)存儲(chǔ)介質(zhì)、具有孔圖案的任何物理介質(zhì)、 RAM、PR0M、以及EPROM、FLASH-EPR0M、NVRAM、任何其他存儲(chǔ)器芯片或盒。
[0189] 存儲(chǔ)介質(zhì)不同于傳輸介質(zhì),但是可以與傳輸介質(zhì)結(jié)合使用。傳輸介質(zhì)參與在存儲(chǔ) 介質(zhì)之間傳遞信息。例如,傳輸介質(zhì)包括同軸電纜、銅線(xiàn)和光纖,包括包含總線(xiàn)702的電線(xiàn)。 傳輸介質(zhì)還可以采取聲波或光波的形式,諸如在無(wú)線(xiàn)電波和紅外數(shù)據(jù)通信期間產(chǎn)生的聲波 或光波。
[0190]在將一個(gè)或多個(gè)指令的一個(gè)或多個(gè)序列傳載到處理器704以便執(zhí)行時(shí)可以涉及各 種形式的介質(zhì)。例如,指令可以首先承載在遠(yuǎn)程計(jì)算機(jī)的磁盤(pán)或固態(tài)驅(qū)動(dòng)器上。遠(yuǎn)程計(jì)算機(jī) 可以將指令加載到其動(dòng)態(tài)存儲(chǔ)器中,并且使用調(diào)制解調(diào)器通過(guò)電話(huà)線(xiàn)發(fā)送這些指令。計(jì)算 機(jī)系統(tǒng)700本地的調(diào)制解調(diào)器可以接收電話(huà)線(xiàn)上的數(shù)據(jù),并且使用紅外發(fā)射器來(lái)將該數(shù)據(jù) 轉(zhuǎn)換為紅外信號(hào)。紅外探測(cè)器可以接收紅外信號(hào)中所承載的數(shù)據(jù),并且適當(dāng)?shù)碾娐废到y(tǒng)可 以將該數(shù)據(jù)放置在總線(xiàn)702上??偩€(xiàn)702將數(shù)據(jù)傳載到主存儲(chǔ)器706,處理器704從主存儲(chǔ)器 706取得并執(zhí)行這些指令。主存儲(chǔ)器706接收的指令可選地可以在被處理器704執(zhí)行之前或 之后存儲(chǔ)在存儲(chǔ)裝置710上。
[0191] 計(jì)算機(jī)系統(tǒng)700還包括耦接到總線(xiàn)702的通信接口 718。通信接口 718提供耦接到網(wǎng) 絡(luò)鏈路720的雙向數(shù)據(jù)通信,網(wǎng)絡(luò)鏈路720連接到本地網(wǎng)絡(luò)722。例如,通信接口 718可以是綜 合服務(wù)數(shù)字網(wǎng)絡(luò)(ISDN)卡、電纜調(diào)制解調(diào)器、衛(wèi)星調(diào)制解調(diào)器、或者用于提供與相應(yīng)類(lèi)型的 電話(huà)線(xiàn)的數(shù)據(jù)通信連接的調(diào)制解調(diào)器。作為另一個(gè)示例,通信接口 718可以是用于提供與可 兼容局域網(wǎng)(LAN)的數(shù)據(jù)通信連接的LAN卡。還可以實(shí)現(xiàn)無(wú)線(xiàn)鏈接。在任何這種實(shí)現(xiàn)中,通信 接口 718發(fā)送和接收承載有表示各種類(lèi)型的信息的數(shù)字?jǐn)?shù)據(jù)流的電信號(hào)、電磁信號(hào)或光學(xué) 信號(hào)。
[0192] 網(wǎng)絡(luò)鏈接720典型地通過(guò)一個(gè)或多個(gè)網(wǎng)絡(luò)提供與其他數(shù)據(jù)裝置的數(shù)據(jù)通信。例如, 網(wǎng)絡(luò)鏈接720可以通過(guò)局域網(wǎng)722提供與主機(jī)724或由互聯(lián)網(wǎng)服務(wù)提供商(ISP)726運(yùn)營(yíng)的數(shù) 據(jù)設(shè)備的連接。ISP 726繼而通過(guò)全球分組數(shù)據(jù)通信網(wǎng)絡(luò)(現(xiàn)在通常被稱(chēng)為"因特網(wǎng)"728)提 供數(shù)據(jù)通信服務(wù)。本地網(wǎng)絡(luò)722和互聯(lián)網(wǎng)728都使用承載數(shù)字?jǐn)?shù)據(jù)流的電信號(hào)、電磁信號(hào)或 光學(xué)信號(hào)。通過(guò)各種網(wǎng)絡(luò)的信號(hào)、以及網(wǎng)絡(luò)鏈接720上的通過(guò)通信接口718的信號(hào)是傳輸介 質(zhì)的示例形式,這些信號(hào)承載了來(lái)去計(jì)算機(jī)系統(tǒng)700的數(shù)字?jǐn)?shù)據(jù)。
[0193] 計(jì)算機(jī)系統(tǒng)700可以通過(guò)網(wǎng)絡(luò)、網(wǎng)絡(luò)鏈接720和通信接口 718來(lái)發(fā)送消息和接收包 括程序代碼的數(shù)據(jù)。在因特網(wǎng)示例中,服務(wù)器730可以通過(guò)因特網(wǎng)728、ISP 726、本地網(wǎng)絡(luò) 722和通信接口 718發(fā)送被請(qǐng)求的應(yīng)用程序代碼。
[0194] 所接收的代碼可以在其被接收時(shí)被執(zhí)行、和/或被存儲(chǔ)在存儲(chǔ)裝置710或其他非易 失性?xún)?chǔ)存器中以供以后執(zhí)行。
[0195] 9.等同、擴(kuò)展、替代及其他
[0196] 在前面的說(shuō)明書(shū)中,已經(jīng)參照隨著實(shí)現(xiàn)不同而有所變化的許多特定細(xì)節(jié)描述了本 發(fā)明的實(shí)施例。因此,本發(fā)明是什么、
【申請(qǐng)人】意圖本發(fā)明是什么的唯一且排他的指示是從本 申請(qǐng)發(fā)表的特定形式的一套權(quán)利要求,包括任何后續(xù)修正,這樣的權(quán)利要求以該特定形式 發(fā)布。在本文中對(duì)于這種權(quán)利要求中所包含的術(shù)語(yǔ)明確闡述的任何定義應(yīng)決定這樣的術(shù)語(yǔ) 在權(quán)利要求中所使用的意義。因此,在權(quán)利要求中沒(méi)有明確記載的限制、元件、性質(zhì)、特征、 優(yōu)點(diǎn)或?qū)傩跃坏靡匀魏畏绞较拗七@種權(quán)利要求的范圍。說(shuō)明書(shū)和附圖因此要從例示性而 非限制性的意義上來(lái)看待。
【主權(quán)項(xiàng)】
1. 一種方法,包括: 確定存在于一個(gè)或多個(gè)幀中的輸入音頻內(nèi)容中的多個(gè)音頻對(duì)象; 確定存在于所述一個(gè)或多個(gè)幀中的輸出音頻內(nèi)容中的多個(gè)輸出聚類(lèi),所述輸入音頻內(nèi) 容中的所述多個(gè)音頻對(duì)象被轉(zhuǎn)換成所述輸出音頻內(nèi)容中的所述多個(gè)輸出聚類(lèi);以及 至少部分基于所述多個(gè)音頻對(duì)象的位置元數(shù)據(jù)和所述多個(gè)輸出聚類(lèi)的位置元數(shù)據(jù)來(lái) 計(jì)算一個(gè)或多個(gè)空間誤差度量; 其中,所述方法由一個(gè)或多個(gè)計(jì)算裝置執(zhí)行。2. 根據(jù)權(quán)利要求1所述的方法,其中,所述一個(gè)或多個(gè)空間誤差度量至少部分取決于對(duì) 象重要度。3. 根據(jù)權(quán)利要求2所述的方法,其中,所述對(duì)象重要度是通過(guò)對(duì)以下中的一個(gè)或多個(gè)進(jìn) 行分析而獲得的:所述多個(gè)音頻對(duì)象中的音頻數(shù)據(jù)、所述多個(gè)輸出聚類(lèi)中的音頻數(shù)據(jù)、所述 多個(gè)音頻對(duì)象中的元數(shù)據(jù)、所述多個(gè)輸出聚類(lèi)中的元數(shù)據(jù)。4. 根據(jù)權(quán)利要求2所述的方法,其中,所述對(duì)象重要度的至少一部分基于用戶(hù)輸入而被 確定。5. 根據(jù)權(quán)利要求1所述的方法,其中,所述多個(gè)音頻對(duì)象中的至少一個(gè)音頻對(duì)象被分配 到所述多個(gè)輸出聚類(lèi)中的兩個(gè)或更多個(gè)輸出聚類(lèi)。6. 根據(jù)權(quán)利要求1所述的方法,其中,所述多個(gè)音頻對(duì)象中的至少一個(gè)音頻對(duì)象被分配 到所述多個(gè)輸出聚類(lèi)中的輸出聚類(lèi)。7. 根據(jù)權(quán)利要求1所述的方法,還包括: 基于所述一個(gè)或多個(gè)空間誤差度量來(lái)確定通過(guò)將所述輸入音頻內(nèi)容中的所述多個(gè)音 頻對(duì)象轉(zhuǎn)換成所述輸出聚類(lèi)中的所述多個(gè)輸出聚類(lèi)引起的感知音頻質(zhì)量劣化。8. 根據(jù)權(quán)利要求7所述的方法,其中,所述感知音頻質(zhì)量劣化由與感知音頻質(zhì)量測(cè)試相 關(guān)的一個(gè)或多個(gè)預(yù)測(cè)測(cè)試得分表示。9. 根據(jù)權(quán)利要求1所述的方法,其中,所述一個(gè)或多個(gè)空間誤差度量包括以下中的至少 一個(gè):幀內(nèi)空間誤差度量、幀間空間誤差度量。10. 根據(jù)權(quán)利要求9所述的方法,其中,所述幀內(nèi)空間誤差度量包括以下中的至少一個(gè): 幀內(nèi)對(duì)象位置誤差度量、幀內(nèi)對(duì)象平移誤差度量、重要度加權(quán)的幀內(nèi)對(duì)象位置誤差度量、重 要度加權(quán)的幀內(nèi)對(duì)象平移誤差度量、規(guī)范化的幀內(nèi)對(duì)象位置誤差度量、規(guī)范化的幀內(nèi)對(duì)象 平移誤差度量。11. 根據(jù)權(quán)利要求9所述的方法,其中,所述幀間空間誤差度量包括以下中的至少一個(gè): 基于增益系數(shù)流的幀間空間誤差度量、不基于增益系數(shù)流的幀間空間誤差度量。12. 根據(jù)權(quán)利要求9所述的方法,其中,每個(gè)幀間空間誤差度量是關(guān)于兩個(gè)或更多個(gè)不 同的幀計(jì)算的。13. 根據(jù)權(quán)利要求1所述的方法,其中,所述多個(gè)音頻對(duì)象經(jīng)由多個(gè)增益系數(shù)與所述多 個(gè)輸出聚類(lèi)相關(guān)。14. 根據(jù)權(quán)利要求1所述的方法,其中,每個(gè)幀對(duì)應(yīng)于所述輸入音頻內(nèi)容中的時(shí)間段和 所述輸出音頻內(nèi)容中的第二時(shí)間段;并且其中,存在于所述輸出音頻內(nèi)容中的第二時(shí)間段 中的輸出聚類(lèi)被存在于所述輸入音頻內(nèi)容中的第一時(shí)間段中的音頻對(duì)象映射到。15. 根據(jù)權(quán)利要求1所述的方法,其中,所述一個(gè)或多個(gè)幀包括兩個(gè)連續(xù)的幀。16. 根據(jù)權(quán)利要求1所述的方法,還包括: 重構(gòu)一個(gè)或多個(gè)用戶(hù)界面部件,所述一個(gè)或多個(gè)用戶(hù)界面部件表示以下中的一個(gè)或多 個(gè):所述多個(gè)音頻對(duì)象中的音頻對(duì)象、收聽(tīng)空間中的所述多個(gè)輸出聚類(lèi)中的輸出聚類(lèi); 使所述一個(gè)或多個(gè)用戶(hù)界面部件被顯示給用戶(hù)。17. 根據(jù)權(quán)利要求16所述的方法,其中,所述一個(gè)或多個(gè)用戶(hù)界面部件中的用戶(hù)界面部 件表示所述多個(gè)音頻對(duì)象中的音頻對(duì)象;其中,該音頻對(duì)象被映射到所述多個(gè)輸出聚類(lèi)中 的一個(gè)或多個(gè)輸出聚類(lèi);并且其中,該用戶(hù)界面部件的至少一個(gè)視覺(jué)特性表示與將該音頻 對(duì)象映射到所述一個(gè)或多個(gè)輸出聚類(lèi)相關(guān)的一個(gè)或多個(gè)空間誤差的總量。18. 根據(jù)權(quán)利要求16所述的方法,其中,所述一個(gè)或多個(gè)用戶(hù)界面部件包括所述收聽(tīng)空 間的3維(3D)形式的表示。19. 根據(jù)權(quán)利要求16所述的方法,其中,所述一個(gè)或多個(gè)用戶(hù)界面部件包括所述收聽(tīng)空 間的2維(2D)形式的表示。20. 根據(jù)權(quán)利要求1所述的方法,還包括: 構(gòu)造一個(gè)或多個(gè)用戶(hù)界面部件,所述一個(gè)或多個(gè)用戶(hù)界面部件表示以下中的一個(gè)或多 個(gè):所述多個(gè)音頻對(duì)象中的音頻對(duì)象的各自的對(duì)象重要度、所述多個(gè)輸出聚類(lèi)中的輸出聚 類(lèi)的各自的對(duì)象重要度、所述多個(gè)音頻對(duì)象中的音頻對(duì)象的各自的響度、所述多個(gè)輸出聚 類(lèi)中的輸出聚類(lèi)的各自的響度、所述多個(gè)音頻對(duì)象中的音頻對(duì)象的語(yǔ)音或?qū)υ?huà)內(nèi)容的各自 的概率、所述多個(gè)輸出聚類(lèi)中的輸出聚類(lèi)的語(yǔ)音或?qū)υ?huà)內(nèi)容的概率; 使所述一個(gè)或多個(gè)用戶(hù)界面部件被顯示給用戶(hù)。21. 根據(jù)權(quán)利要求1所述的方法,還包括: 構(gòu)造一個(gè)或多個(gè)用戶(hù)界面部件,所述一個(gè)或多個(gè)用戶(hù)界面部件表示以下中的一個(gè)或多 個(gè):所述一個(gè)或多個(gè)空間誤差度量、至少部分基于所述一個(gè)或多個(gè)空間誤差度量而確定的 一個(gè)或多個(gè)預(yù)測(cè)測(cè)試得分; 使所述一個(gè)或多個(gè)用戶(hù)界面部件被顯示給用戶(hù)。22. 根據(jù)權(quán)利要求21所述的方法,其中,轉(zhuǎn)換處理將存在于所述輸入音頻內(nèi)容中的時(shí)間 相關(guān)的音頻對(duì)象轉(zhuǎn)換成構(gòu)成所述輸出聚類(lèi)的時(shí)間相關(guān)的輸出聚類(lèi);并且其中,所述一個(gè)或 多個(gè)用戶(hù)界面部件包括在包含并且長(zhǎng)至所述一個(gè)或多個(gè)幀的過(guò)去時(shí)間間隔內(nèi)在所述轉(zhuǎn)換 處理中出現(xiàn)最差音頻質(zhì)量劣化的視覺(jué)指示。23. 根據(jù)權(quán)利要求21所述的方法,其中,所述一個(gè)或多個(gè)用戶(hù)界面部件包括在包含并且 長(zhǎng)至所述一個(gè)或多個(gè)幀的過(guò)去時(shí)間間隔內(nèi)在所述轉(zhuǎn)換處理中出現(xiàn)的音頻質(zhì)量劣化已經(jīng)超 過(guò)音頻質(zhì)量劣化閾值的視覺(jué)指示。24. 根據(jù)權(quán)利要求21所述的方法,其中,所述一個(gè)或多個(gè)用戶(hù)界面部件包括其高度指示 所述一個(gè)或多個(gè)幀中的音頻質(zhì)量劣化的豎條,并且其中,所述豎條基于所述一個(gè)或多個(gè)幀 中的音頻質(zhì)量劣化而被顏色編碼。25. 根據(jù)權(quán)利要求1所述的方法,其中,所述多個(gè)輸出聚類(lèi)中的輸出聚類(lèi)包括被所述多 個(gè)音頻對(duì)象中的兩個(gè)或更多個(gè)音頻對(duì)象映射到的部分。26. 根據(jù)權(quán)利要求1所述的方法,其中,所述多個(gè)音頻對(duì)象中的音頻對(duì)象和所述多個(gè)輸 出聚類(lèi)中的輸出聚類(lèi)中的至少一個(gè)具有隨時(shí)間變化的動(dòng)態(tài)位置。27. 根據(jù)權(quán)利要求1所述的方法,其中,所述多個(gè)音頻對(duì)象中的音頻對(duì)象和所述多個(gè)輸 出聚類(lèi)中的輸出聚類(lèi)中的至少一個(gè)具有不隨時(shí)間變化的固定位置。28. 根據(jù)權(quán)利要求1所述的方法,其中,所述輸入音頻內(nèi)容和所述輸出音頻內(nèi)容中的至 少一個(gè)是僅音頻信號(hào)和視聽(tīng)信號(hào)之一的一部分。29. 根據(jù)權(quán)利要求1所述的方法,還包括: 接收指定對(duì)于將所述輸入音頻內(nèi)容轉(zhuǎn)換為所述輸出音頻內(nèi)容的轉(zhuǎn)換處理的改變的用 戶(hù)輸入; 響應(yīng)于接收到所述用戶(hù)輸入,引起對(duì)于將所述輸入音頻內(nèi)容轉(zhuǎn)換為所述輸出音頻內(nèi)容 的所述轉(zhuǎn)換處理的所述改變。30. 根據(jù)權(quán)利要求29所述的方法,其中,所述方法是在所述轉(zhuǎn)換處理正將所述輸入音頻 內(nèi)容轉(zhuǎn)換為所述輸出音頻內(nèi)容時(shí)同時(shí)執(zhí)行的。31. -種被配置為執(zhí)行權(quán)利要求1-30中所述的方法中的任何一種方法的媒體處理系 統(tǒng)。32. -種包括處理器并且被配置為執(zhí)行權(quán)利要求1-30中所述的方法中的任何一種方法 的設(shè)備。33. -種存儲(chǔ)有軟件指令的非暫時(shí)性計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述軟件指令當(dāng)被一個(gè)或 多個(gè)處理器執(zhí)行時(shí)使得執(zhí)行權(quán)利要求1-30中所述的方法中的任何一種方法。
【文檔編號(hào)】G10L19/008GK105900169SQ201580004002
【公開(kāi)日】2016年8月24日
【申請(qǐng)日】2015年1月5日
【發(fā)明人】D·J·布瑞巴特, 陳聯(lián)武, 蘆烈, A·M·索爾, N·R·特斯恩高斯
【申請(qǐng)人】杜比實(shí)驗(yàn)室特許公司, 杜比國(guó)際公司