用于確定音頻系統(tǒng)的感知質量的方法和系統(tǒng)的制作方法

文檔序號：2824883閱讀：202來源：國知局

專利名稱：用于確定音頻系統(tǒng)的感知質量的方法和系統(tǒng)的制作方法
技術領域：
本發(fā)明涉及一種用于關于參考信號確定質量指標的方法，該質量指標代表音頻系統(tǒng)(例如語音處理設備)的輸出信號的感知質量。本發(fā)明還涉及一種包括例如存儲于計算機可讀介質上的計算機可執(zhí)行代碼的計算機程序產品，該計算機可執(zhí)行代碼適于在由處理器執(zhí)行時執(zhí)行這樣的方法。最后，本發(fā)明涉及一種用于關于音頻系統(tǒng)的用作參考信號的輸入信號確定質量指標的系統(tǒng)，該質量指標代表音頻系統(tǒng)的輸出信號的感知質量。
背景技術：
可以主觀或者客觀地確定音頻設備的質量。主觀測試耗費時間、昂貴并且難以再現(xiàn)。因此已經(jīng)開發(fā)若干方法以客觀方式測量音頻設備的輸出信號(特別是語音信號)的質量。在這樣的方法中，通過與參考信號比較來確定如從語音信號處理系統(tǒng)接收的輸出信號的語音質量。廣泛用于這一目的的當前方法是在標題為“Perceptual evaluation of speech quality (PESQ): An objective method for end-to-end speech quality assessment of narrow-band telephone networks and speech codecs，，的 ITU-T Recommendation P.862 中描述的方法。在ITU-T Recommendation P. 862中將確定來自語音信號處理系統(tǒng)的輸出信號(該信號一般失真)的質量。輸出信號和參考信號(例如語音信號處理系統(tǒng)的輸入信號) 根據(jù)人類聽覺系統(tǒng)的心理-生理(psycho-physical)感知模型映射到表示信號。基于這些信號，確定差分信號，該差分信號代表如與參考信號相比的輸出信號內的失真。通常將代表輸出信號的感知質量的質量指標定義為指標，該指標示出與主觀感知的語音質量的高相關性。通常將質量指標表達為如在主觀測試中確定的平均意見分數(shù)(M0S)，其中主體(人)按照質量標度表達他們的意見。一般而言，從受測試設備的輸出信號的內部表示與到受測試設備的輸入信號的內部表示的比較導出質量指標?？梢酝ㄟ^將信號從外部物理域變換到內部心理生理域來計算內部表示。在ITU-T Recommendation P. 862中，在心理生理信號表示的計算中使用的算法的核心由以下主要操作組成縮放成固定級、時間對準、從幅度-時間域變換到功率-時間-頻率域、功率和頻率標度的規(guī)整(warping)。操作導致按照響度-時間-音調的內部表示，可以根據(jù)該內部表示計算差值函數(shù)。這些差值函數(shù)然后用來導出單個質量指標。對于每個語音文件，人們因此可以導出MOS分數(shù)和質量指標分數(shù)，這些分數(shù)應當具有在它們之間的最高可能相關性。作為例子，可以通過比較語音編解碼器的輸出的內部表示與編解碼器的輸入的內部表示來確定編解碼器的質量。對于編解碼器編碼的每個語音文件，質量指標將產生數(shù)字，該數(shù)字應當具有與用于該編/解碼語音文件的主觀確定的 MOS分數(shù)的高相關性。然后根據(jù)其中已經(jīng)對基于測試的人類聽力感知的某些性質建模的認知模型處理差分信號以獲得質量信號，該質量信號是輸出信號的聽覺感知的質量測量。如ITU-T Recommendation P. 862清楚指示的那樣，已知PESQ在使用于可變聽力水平(listening level)時提供不準確預測。PESQ假設79dB SPL (聲壓級)的標準聽力水平并且補償輸入信號中的非最優(yōu)信號電平。因此未考慮從最優(yōu)聽力水平偏離的主觀影響。在當今電信系統(tǒng)(特別是使用IP語音(VOIP)和相似技術的系統(tǒng))中，經(jīng)常出現(xiàn)非最優(yōu)聽力水平。因而PESQ常常未提供在變得越來越流行的這樣的電信系統(tǒng)中處理的語音信號的最優(yōu)感知預測。

發(fā)明內容
希望具有一種確定音頻系統(tǒng)的傳輸質量的方法，該方法提供在如客觀測量確定的語音質量與如在主觀測試中確定的語音質量之間的改進的相關性。出于這一目的，本發(fā)明的一個實施例涉及一種用于關于參考信號確定質量指標的方法，該質量指標代表音頻系統(tǒng) (例如語音處理設備)的輸出信號的感知質量，其中處理和比較參考信號和輸出信號，并且該處理包括將參考信號和輸出信號劃分成相互對應的時間幀，其中該處理還包括將參考信號的強度縮放成固定聲強級(intensity level)；對縮放的參考信號內的時間幀執(zhí)行測量用于確定參考信號時間幀特性；將參考信號的強度從固定聲強級縮放成與輸出信號有關的聲強級；在感知響度域中將輸出信號的響度縮放成固定響度級，輸出信號響度縮放使用參考信號時間幀特性；并且在感知響度域中將參考信號的響度從與輸出信號有關的聲強級對應的響度級縮放成與縮放的輸出信號的響度級有關的響度級，參考信號響度縮放使用參考信號時間幀特性。在某些實施例中，將參考信號的強度從固定聲強級縮放成與輸出信號有關的聲強級是基于參考信號與縮放因子相乘，縮放因子通過以下來定義為多個時間幀確定平均參考信號聲強級；為與參考信號的用來確定平均參考信號聲強級的時間幀對應的多個時間幀確定平均輸出信號聲強級；通過基于平均參考信號聲強級和平均輸出信號聲強級確定分數(shù)來導出預備縮放因子；如果預備縮放因子小于閾值，則通過將縮放因子定義成等于預備縮放因子、否則等于用附加的依賴于預備縮放因子的值遞增的預備縮放因子來確定縮放因子。在本發(fā)明的一些實施例中，在輸出電平到固定響度級的響度縮放之前，該方法還包括針對參考信號的具有比輸出信號的響度級高的響度級的部分將參考信號的響度級局部縮放成輸出信號的響度級；并且隨后針對輸出信號的具有比參考信號的響度級高的響度級的部分將輸出信號的響度級局部縮放成參考信號的響度級。這些局部縮放動作的分離允許歸因于時間限幅(time clipping)和脈沖的電平變化的分開實現(xiàn)和/或操縱。在本發(fā)明的一些實施例中，該處理還包括將縮放的參考信號和輸出信號從時域變換到時間-頻率域；根據(jù)參考信號導出參考音調功率密度函數(shù)并且根據(jù)輸出信號導出輸出音調功率密度函數(shù)，所述聲強級差對應于音調功率密度函數(shù)的聲強級之間的差；局部縮放參考音調功率密度函數(shù)以獲得局部縮放的參考音調功率密度函數(shù)；關于頻率部分地補償局部縮放的參考音調功率密度函數(shù)；導出參考響度密度函數(shù)和輸出響度密度函數(shù)，所述響度級差對應于響度密度函數(shù)的響度級之間的差；其中響度密度函數(shù)代表實現(xiàn)量化可變電平回放對感知質量的影響的密度函數(shù)。在又一實施例中，該方法還包括對參考音調功率密度函數(shù)和輸出音調功率密度函數(shù)中的至少一個執(zhí)行激勵操作。這樣的激勵操作可以允許補償由于執(zhí)行對這些信號執(zhí)行的變換動作的頻率分量模糊(smearing)。該處理還可以包括關于頻率補償局部縮放的參考音調功率密度函數(shù)和補償局部縮放的參考響度密度函數(shù)中的至少一個，其包括基于參考信號時間幀特性估計語音處理系統(tǒng)的線性頻率響應。例如僅使用具有超過某一閾值的平均聲強級的時間幀可以改進這些動作的性能。在本發(fā)明的一些實施例中，感知響度域中的參考信號在縮放成與感知響度域中的輸出信號的響度級有關的響度級之前受到用于將噪聲抑制直至預定噪聲電平的噪聲抑制動作。預定噪聲電平可以對應于如下噪聲電平，該噪聲電平被視為期望的如下低噪聲電平，該低噪聲電平用作用于輸出信號的理想表示。類似地或者此外，感知響度域中的輸出信號在縮放成固定響度級之前可以受到用于將噪聲抑制直至代表干擾的噪聲電平的噪聲抑制算法。輸出信號的噪聲抑制可以允許將噪聲抑制直至代表受測試設備經(jīng)歷的干擾的噪聲電平。在本發(fā)明的一些實施例中，感知響度域中的參考信號和輸出信號在比較之前受到全局噪聲抑制。已經(jīng)發(fā)現(xiàn)在全局縮放之后的這樣的附加噪聲抑制進一步改進了在客觀測量的語音質量與如在主觀聽力質量實驗中獲得的語音質量之間的相關性。在本發(fā)明的一些實施例中，本發(fā)明還涉及一種包括例如存儲于計算機可讀介質上的計算機可執(zhí)行代碼的計算機程序產品，該計算機可執(zhí)行代碼適于在由處理器執(zhí)行時執(zhí)行上文提到的方法實施例中的任一方法實施例。最后，在本發(fā)明的一些實施例中，本發(fā)明還涉及一種用于關于音頻系統(tǒng)(比如語音處理設備)的用作參考信號的輸入信號X(t)確定質量指標的系統(tǒng)，該質量指標代表音頻系統(tǒng)的輸出信號Y(t)的感知質量，該系統(tǒng)包括預處理設備，用于預處理參考信號和輸出信號；用于處理參考信號的第一處理設備和用于處理輸出信號的第二處理設備，用于分別獲得用于參考信號和輸出信號的表示信號R(X)、R(Y)；差分設備，用于組合參考信號和輸出信號的表示信號以便獲得差分信號D ；以及建模設備，用于處理差分信號以獲得質量信號 Q，該質量信號Q代表語音處理系統(tǒng)的感知質量的估計；其中預處理設備、第一處理設備和第二處理設備形成用于執(zhí)行上文提到的方法實施例中的任一方法實施例的處理系統(tǒng)。

在附圖中
圖1示意地示出了包括用于關于參考信號確定質量指標的系統(tǒng)的總體設置，該質量指標代表音頻系統(tǒng)的輸出信號的感知質量；
圖2示意地示出了用于根據(jù)PESQ關于參考信號確定質量指標的方法，該質量指標代表音頻系統(tǒng)的輸出信號的感知質量；
圖3示意地示出了根據(jù)本發(fā)明一個實施例的用于關于參考信號確定質量指標的方法，該質量指標代表音頻系統(tǒng)的輸出信號的感知質量；并且
圖4示意地示出了根據(jù)本發(fā)明又一實施例的用于關于參考信號確定質量指標的方法，該質量指標代表音頻系統(tǒng)的輸出信號的感知質量。
具體實施例方式下文是僅通過例子給出的對本發(fā)明某些實施例的描述。在該描述全文中，將關于對信號執(zhí)行的操作來使用術語“局部”和“全局”?！熬植俊?操作是指對時間信號的部分(例如對單幀)執(zhí)行的操作?！叭帧辈僮魇侵笇φ麄€信號執(zhí)行的操作。在該描述全文中，可以相對于從音頻系統(tǒng)(比如語音處理設備)的輸出發(fā)出的信號使用術語“輸出”和“失真”。在該描述全文中，可以相對于作為向音頻系統(tǒng)的輸入而賦予的信號使用術語“參考”和“原始”，該信號還用作輸出或者失真信號將與之比較的信號。圖1示意地示出了包括用于關于參考信號確定質量指標的系統(tǒng)的總體設置，該質量指標代表音頻系統(tǒng)(例如語音處理設備)的輸出信號的感知質量。此類方法意味著獲得音頻系統(tǒng)的傳輸質量的客觀測量。該設置包括受考察的音頻系統(tǒng)10 (例如電信網(wǎng)絡、網(wǎng)元或者在網(wǎng)絡或者移動臺中的語音處理設備)。該設置也包括用于測量音頻系統(tǒng)的傳輸質量的系統(tǒng)20，下文稱為質量測量系統(tǒng)20。質量測量系統(tǒng)20被布置成接收兩個輸入信號。第一輸入信號是向質量測量系統(tǒng) 20直接提供(即未經(jīng)由音頻系統(tǒng)10提供)的并且用作參考信號的語音信號Ki)。第二輸入信號是與受音頻系統(tǒng)10影響的語音信號^TU對應的語音信號nt)。質量測量系統(tǒng)20提供輸出質量信號認該輸出質量信號C代表經(jīng)過音頻系統(tǒng)10的語音鏈路的感知質量的估計。在這一實施例中，質量測量系統(tǒng)20包括用于處理兩個輸入信號Kd、Y(t)使得可以提供輸出信號Q的預處理部20a、處理部20b和信號組合部20c。預處理部20a包括被布置成執(zhí)行一個或者多個預處理動作(諸如固定電平縮放和時間對準)以獲得預處理信號和YJt)的預處理設備30。雖然圖1示出了單個預處理設備30，但是也有可能具有用于語音信號Kd和語音信號IYd的單獨預處理設備。質量測量系統(tǒng)20的處理部20b被布置成根據(jù)人類聽覺系統(tǒng)的生理-心理感知模型將預處理信號映射到表示信號。在第一處理設備40a中處理預處理信號以獲得表示信號ΛΥΧ)，而在第二處理設備40b中處理預處理信號?。蛔?以獲得表示信號及。第一處理設備40a和第二處理設備40b可以容納于單個處理設備中。質量測量系統(tǒng)20的信號組合部20c被布置成通過使用差分設備50來組合表示信號R(X)、R(Y)以獲得差分信號隊最后，建模設備60根據(jù)如下模型處理差分信號從在該模型中已經(jīng)對人類的某些性質建模以獲得質量信號認可以經(jīng)由對多個人類主體執(zhí)行的主觀聽力測試來獲得人類性質(例如認知性質)。預處理設備30、第一處理設備40a和第二處理設備40b可以形成可以用來執(zhí)行如后文將更詳細說明的本發(fā)明實施例的處理系統(tǒng)。處理系統(tǒng)或者其部件可以采用硬件處理器 (諸如專用集成電路(ASIC))或者計算機設備的形式，用于運行軟件或者固件形式的計算機可執(zhí)行代碼。計算機設備可以例如包括處理器和通信耦合到處理器的存儲器。存儲器的例子包括但不限于只讀存儲器(ROM)、隨機訪問存儲器(RAM)、可擦除可編程ROM (EPROM),電可擦除可編程ROM (EEPROM)和閃存。計算機設備還可以包括用于實現(xiàn)外部用戶的指令或者通知輸入的用戶接口。用戶接口的例子包括但不限于鼠標、鍵盤和觸屏。計算機設備可以被布置成加載存儲于計算機可讀介質(例如緊致盤只讀存儲器 (CD ROM)、數(shù)字視頻盤(DVD))或者任何其它類型的已知計算機可讀數(shù)據(jù)載體上的計算機可執(zhí)行代碼。出于這一目的，計算機設備可以包括讀取單元。存儲于計算機可讀介質上的計算機可執(zhí)行代碼在代碼加載到計算機設備的存儲器中之后可以適于執(zhí)行后文將描述的本發(fā)明實施例。
替代地或者除此之外，這樣的本發(fā)明實施例可以采用包括計算機可執(zhí)行代碼的計算機程序產品的形式，該計算機可執(zhí)行代碼用于在計算機設備上執(zhí)行時執(zhí)行這樣的方法。該方法然后可以在計算機可執(zhí)行代碼加載到計算機設備的存儲器中之后由計算機設備的處理器執(zhí)行。因此，客觀感知測量方法以預測音頻系統(tǒng)(諸如語音編解碼器、電話鏈路和移動手持社保)的主觀感知質量為目標在計算機程序中模擬主體的聲音感知。受測試的設備的輸入和輸出的物理信號映射到與在人類的頭部以內的內部表示盡可能接近匹配的生理心理表示?；趦炔勘硎镜牟钪蹬袛嗍軠y試設備的質量。最知名的當前可用的客觀感知測量方法是PESQ (語音質量的感知評價)。圖2示意地示出了用于根據(jù)如在ITU-T Recommendation P. 862中制定的PESQ(下文稱為PESQ)關于參考信號確定質量指標的方法，該質量指標代表音頻系統(tǒng)的輸出信號的感知質量。PESQ可以使用于如圖1中示意地示出的設置中。在PESQ中，比較參考信號與輸出信號ιγ 入該輸出信號m)是經(jīng)過音頻系統(tǒng)(例如語音處理系統(tǒng)(比如通信系統(tǒng))) 傳遞X(t)的結果。PESQ的輸出質量信號(也稱為PESQ分數(shù))是主體在主觀聽力測試中將向IYi)給予的感知質量的預測。PESQ分數(shù)采用所謂的平均意見分數(shù)(MOS)的形式。出于這一目的，PESQ輸出映射到類似于MOS的標度(即范圍為-0. 5至4. 5的單個數(shù)字)，盡管對于多數(shù)情況而言輸出范圍將在1. 0與4. 5之間，這是在絕對類別評級(ACR)聽力質量實驗中發(fā)現(xiàn)的MOS值的通常范圍。PESQ中的預處理包括兩個信號Ki)、IYi)的電平對準以分別獲得信號毛作入 YJt)以及中間參考系統(tǒng)(IRS)濾波以分別獲得信號Ji^ri)、Ymssω。電平對準涉及到將強度縮放成固定電平，在PESQ中為79dB SPL0執(zhí)行IRS濾波以保證測量傳輸質量的方法對例如移動電話等電信系統(tǒng)單元的濾波相對不敏感。最后確定在參考信號Xi^作)與Y脳⑴ 之間的時間延遲從而導致時移輸出信號Yirs/⑴?，F(xiàn)在假設在參考信號與輸出信號之間的比較關于相同時間發(fā)生。人耳執(zhí)行時間-頻率變換。在PESQ中，通過對時間信號I皿㈦和YIRSS，⑴用漢寧窗執(zhí)行短期快速傅里葉變換(FFT)來對這一變換建模。漢寧窗通常具有32ms的大小。下文稱為幀的相鄰時間窗通常重疊50%。丟棄相位信息。復FFT分量(即功率譜)的平方實部與平方虛部之和用來獲得功率表示人和/^zmf人，其中《表示考慮的幀。在下文稱為FFT頻帶的頻帶中劃分功率表示。人類聽覺系統(tǒng)在低頻比在高頻具有更細微的頻率分辨率。音調標度反映這一現(xiàn)象，并且出于這一原因，PESQ將頻率規(guī)整成音調標度(在這一情況下規(guī)整成所謂Bark標度)。(離散)頻率軸的轉換涉及到使FFT頻帶入倉(binning)以形成Bark頻帶(通常為對個)。所得信號稱為音調功率密度或者音調功率密度函數(shù)并且表示為/^Tras//人和 PPYwntss(f)n?？紤]感知頻率，音調功率密度函數(shù)提供與音頻信號在人類聽覺系統(tǒng)中的心理生理表示類似的內部表示。為了處理在待測試的音頻系統(tǒng)中的濾波，參考和輸出音調功率密度的功率譜隨時間平均。根據(jù)輸出譜與參考譜之比計算部分補償因子。每幀η的參考音調功率密度 /^^zmf人然后與該部分補償因子相乘以均衡參考與輸出信號。這產生逆濾波參考音調功率密度/^rras//人。使用這一部分補償是因為溫和濾波幾乎不值得注意而嚴重濾波可能打擾收聽者。對參考信號執(zhí)行補償是因為輸出信號是主體在ACR聽力實驗中判斷的信號。為了補償短期增益變化，計算局部縮放因子。局部縮放因子然后與輸出音調功率密度函數(shù)/^ZTras//人相乘以獲得局部縮放音調功率密度函數(shù)人。在對參考信號執(zhí)行的濾波的部分補償和對輸出信號執(zhí)行的短期增益變化的部分補償之后，使用Zwicker定律將參考和降級音調功率密度變換成宋(Sone)響度標度。所得二維數(shù)組ZiT/人和Ζ7Γ/人分別稱為用于參考信號和輸出信號的響度密度函數(shù)。對于^iT/)
這意味著
(1)
其中/^/乃是絕對聽力閾值，&是響度縮放因子，而r (所謂Zwicker功率)具有約 0. 23的值?？紤]響度感知，響度密度函數(shù)代表音頻信號在人類聽覺系統(tǒng)中的內部心理生理表不。然后將參考和輸出響度密度函數(shù)ZiT/人、Ζ7Γ/人相減從而獲得差值響度密度函數(shù) D(f)n。在感知相減之后，可以通過考慮干擾測量々和不對稱干擾測量^來導出感知質量測量?？梢栽贗TU-T Recommendation P. 862中發(fā)現(xiàn)關于PESQ的更多細節(jié)。圖3示意地示出了根據(jù)本發(fā)明一個實施例的用于關于參考信號確定質量指標的方法，該質量指標代表音頻系統(tǒng)的輸出信號的感知質量。在預處理動作(比如IRS濾波和時間延遲)之后，將參考信號和輸出信號均從時域信號轉換成感知時間-頻率域信號。這可以用與參考PESQ在圖2中所示相似的方式來實現(xiàn)。也就是說，先執(zhí)行加窗函數(shù)(例如漢寧窗)以在相互對應時間幀中劃分參考信號和輸出信號。隨后對時間幀執(zhí)行FFT 以將信號從時域轉換為時間-頻率域。在FFT之后，將信號規(guī)整成音調標度(例如Bark頻率標度)以獲得感知時間-頻率域(又稱為感知頻域)中的表示。與在如圖2中示意地示出的PESQ中采用的方式對照，圖3中示意地示出的方法確實考慮電平變化(具體為所謂的全局回放電平變化)。通過考慮全局回放電平，質量指標的準確性可以尤其在回放電平未與在根據(jù)ITU-T Recommendation P. 862的計算中使用的標準化回放電平匹配的那些情況下明顯增加。也就是說，在客觀獲得的質量指標與主觀獲得的質量之間的相關性對于其中全局回放電平高于或者低于標準電平的應用而言改進。這樣的不同全局回放電平在IP語音(VOIP)系統(tǒng)中例如常用來防止聲學反饋。為了能夠考慮聲強級變化，沒有在預處理中對輸出信號執(zhí)行的電平對準動作。然而如下文將闡明的那樣，希望獲得獨立于全局回放電平的關于參考信號的信息。換而言之，為了獲得這樣的信息，參考信號的總聲強級應當對于其中希望做出質量預測的所有主觀測試而言相同。出于這一原因，將參考信號全局縮放成固定聲強級?？梢匀鐖D3中示意地示出的那樣在變換之前(即在時域中)執(zhí)行參考信號的縮放。替代地，可以在變換到(感知)時間-頻率域之后縮放參考信號。在將參考信號縮放成固定聲強級之后，在縮放參考函數(shù)內對時間幀執(zhí)行測量以獲得參考信號特性。具體而言，基于執(zhí)行的測量來確定關于這些時間幀的聲強級(例如其中的平均聲強級或者峰值聲強級)而言的信號特性。在也稱為幀電平檢測的幀電平測量之后，將縮放參考信號縮放成與輸出信號有關的聲強級。優(yōu)選地，這一縮放僅使用以語音信號為主的頻帶(例如在500與3500 Hz之間的頻帶)。執(zhí)行這一縮放動作是因為作為參考信號更早縮放成固定聲強級的結果，參考信號與輸出信號之間的聲強級差可以使得獲得可靠質量指標變得不可能。對縮放參考信號的縮放以產生在縮放參考信號與輸出信號之間的聲強級差為目標，該聲強級差允許評估全局回放電平對感知質量的影響。執(zhí)行的縮放動作因此部分地補償在縮放參考信號與輸出信號之間的聲強級差。可以不完全補償超過某一閾值的電平差從而允許對總體低呈現(xiàn)電平的影響建模(例如某人將他的回放設備的音量設置成低聲強級)。低電平語音回放在VOIP系統(tǒng)中例如常用來應對聲學回聲控制中的破壞(breakdown )?？s放可以使用軟縮放算法，即以根據(jù)在參考信號與輸出信號之間的功率比優(yōu)選每個時間幀補償小功率偏差而部分地補償更大偏差的方式縮放待處理信號的算法?？梢栽谌哭D讓給申請人并且通過引用而結合于此的美國專利申請2005/159944、美國專利 7，313，517和美國專利7，315，812中發(fā)現(xiàn)關于使用軟縮放的更多細節(jié)。在全局縮放動作之后，參考信號可以受到如參考圖2描述的頻率補償。類似地，輸出信號可以受到局部縮放動作。也可以如圖3中示意地示出的那樣關于參考信號執(zhí)行局部縮放。參考信號和輸出信號然后受到如參考圖2中所示的PESQ討論的向響度標度的強度規(guī)整。現(xiàn)在在感知響度域中表示參考信號和輸出信號。在感知響度域中，與圖2中所示PESQ對照，輸出信號和參考信號均受到進一步縮放動作。至此尚未明顯改變輸出信號的信號電平，并且輸出信號的很低電平現(xiàn)在將僅引起內部表示的裕度差值。這造成質量估計的誤差。出于這一目的，首先將輸出信號縮放成固定響度級。在主觀聽力質量實驗中執(zhí)行的校準實驗可以確定固定響度級。如果起始全局電平校準如在ITU-T Recommendation P. 861和/或P. 862中描述的那樣用于參考信號，則這樣的固定響度級落在20 (無量綱內部響度相關縮放數(shù))附近。由于輸出信號的響度級縮放，在輸出信號與參考信號之間的響度級差使得不能確定可靠質量指標。為了克服這一所不希望的前景，也需要縮放參考信號的響度級。因此在縮放輸出信號的響度級之后，將參考信號的響度級縮放成與縮放輸出信號有關的響度級。現(xiàn)在參考信號和輸出信號均具有如下響度級，該響度級可以用來計算獲得音頻系統(tǒng)的傳輸質量的客觀測量所需的感知相關內部表示。在感知響度域中執(zhí)行的全局縮放動作中，可以使用參考和輸出信號的平均響度。可以隨著時間幀確定這些信號的平均響度，對于這些時間幀而言，參考信號中的如在幀電平檢測期間測量的聲強級超過又一閾值(例如語音活動標準值)。語音活動標準值可以對應于絕對聽力閾值。如果使用語音活動標準值，則這些幀可以稱為語音幀。對于輸出信號，出于計算的目的，考慮與如下時間幀對應的時間幀，對于這些時間幀而言聲強級超過又一閾值。因此，在使用語音活動標準值的一個實施例中，關于語音幀確定參考信號的平均響度，而關于與參考信號內的語音幀對應的時間幀確定輸出信號的平均響度。在圖3中，最后將參考信號和輸出信號感知相減。這可以用根據(jù)PESQ已知的并且參考圖2討論的方式來完成。也就是說，并行地確定代表總降級的指標化和代表附加降級的指標々4。如圖3中所示方案允許關于兩個指標化、々凡的計算的不同方式。有可能執(zhí)行如圖 3中所示的方法兩次，即一次用于關于總降級確定代表質量的質量指標，另一次用于關于與參考信號相比添加的降級來確定代表質量的質量指標。執(zhí)行該方法兩次實現(xiàn)了關于不同失真類型的計算優(yōu)化。這樣的優(yōu)化可以明顯改進在客觀測量的語音質量與如在主觀聽力質量實驗中獲得的語音質量之間的相關性。在其中執(zhí)行該方法兩次的一個實施例中，可以不同地使用幀電平檢測的結果。例如時間幀的選擇可以例如基于不同的語音活動閾值而不同。圖4示意地示出了根據(jù)本發(fā)明又一實施例的用于關于參考信號確定質量指標的方法，該質量指標代表音頻系統(tǒng)的輸出信號的感知質量。在這一方法中，參考信號和輸出信號均經(jīng)歷預處理步驟，例如如根據(jù)PESQ已知的并且參考圖2描述的IRS濾波和時間延遲。在借助與使用加窗函數(shù)(例如如根據(jù)PESQ已知的漢寧窗)相組合地執(zhí)行短快速傅里葉變換來獲得信號的時間-頻率表示之前，將參考信號全局縮放成固定電平。全局縮放成固定電平與在PESQ中使用的電平對準相似。然而在這一情況下，以這一方式僅縮放參考信號。在這一階段不縮放輸出信號。固定電平優(yōu)選地與用于雙耳(diotically)或者二重聽覺(dichotically)呈現(xiàn)的語音片段的約73 dB SPL電平并且與用于單耳(monotically)呈現(xiàn)的語音片段的約79 dB SPL電平重合。以內部表示對應于在主觀測試中使用的實際聲電平這樣的方式用因子縮放輸出信號。在由于對經(jīng)由加窗函數(shù)選擇的時間窗(例如漢寧窗)執(zhí)行的FFT而獲得功率-頻率表示之后，用如下算法關于全局電平將參考信號縮放成輸出信號，該算法僅部分地補償在參考信號與輸出信號之間的聲強級差。留下的差值可以用來估計聲強級對感知傳輸質量的影響。在一個實施例中，將參考信號的強度從固定聲強級縮放成與輸出信號有關的聲強級可以基于參考信號與縮放因子相乘?？梢酝ㄟ^為參考和輸出信號的至少部分確定平均信號聲強級來導出這樣的縮放因子。平均參考信號聲強級和平均輸出信號聲強級然后可以在分數(shù)計算中用來獲得預備縮放因子。最后，如果預備縮放因子小于閾值，則可以通過將縮放因子定義成等于預備縮放因子、否則等于用附加的依賴于預備縮放因子的值遞增的預備縮放因子來確定縮放因子。在全局縮放成輸出信號的聲強級之后，使用與參考圖2中的PESQ討論的方式相同的方式，參考信號受到感知時間-頻率域中的局部縮放以及部分頻率補償。雖然在圖4中所示實施例中，關于參考信號執(zhí)行局部縮放，但是其同樣適當?shù)赜锌赡芾缫匀鐖D2中所示方式關于輸出信號應用這一局部縮放步驟。局部縮放動作的目的涉及補償短期增益變化。是將選擇參考信號還是輸出信號可以依賴于具體應用。一般地，補償參考信號，因為一般未在主觀質量測量中向測試主體呈現(xiàn)參考信號。在一個實施例中，第一部分頻率補償使用所謂的軟縮放算法。在軟縮放算法中，通過以根據(jù)在參考信號與輸出信號之間的功率比優(yōu)選每個時間幀補償小的功率偏差而部分地補償更大偏差這樣的方式縮放來改進待處理信號(即參考信號或者輸出信號)?？梢栽谌哭D讓給申請人并且通過引用而結合于此的美國專利申請2005/159944、美國專利 7，313，517和美國專利7，315，812中發(fā)現(xiàn)關于使用軟縮放的更多細節(jié)。
優(yōu)選地，現(xiàn)在對參考信號和輸出信號執(zhí)行激勵步驟以補償由于關于這些信號用加窗函數(shù)(例如漢寧窗)更早執(zhí)行快速傅里葉變換所致的頻率分量模糊。通過使用自掩蔽曲線銳化兩個信號的表示來執(zhí)行激勵步驟?？梢岳缭贘.G. Beerends和J. A. Stemerdink 的文章"A perceptual Audio Quality Measure Based on a Psychoacoustic Sound Representation", J. Audio. Eng. Soc. , Vol. 40, No. 12 (1992) pp. 963—978 中發(fā)現(xiàn)關于計算這樣的自掩蔽曲線的更多細節(jié)。在這一文章中，計算激勵并且通過使用模糊激勵表示來確定質量。在一個實施例中，計算的激勵然后用來導出自掩蔽曲線，該曲線又可以用來獲得銳化的時間-頻率表示。自掩蔽曲線以它的最簡單形式對應于激勵曲線的小部分。在如PESQ中使用的并且參考圖2描述的向響度標度的強度規(guī)整之后，在響度域中局部縮放參考信號和輸出信號。首先縮放參考信號的比輸出信號更響的那些部分。然后縮放輸出信號的比參考信號更響的部分。這些局部縮放動作的分離允許分開實施和/或操縱由于時間限幅以及脈沖的電平變化。如果參考信號的一部分比輸出信號的對應部分響，則這一差值可以歸因于例如由遺漏幀引起的時間限幅。為了量化時間限幅的感知影響，將參考信號按比例減少成被視為對于(不對稱)干擾差值計算而言最優(yōu)的電平。對輸出信號的這一局部縮放動作也將輸出信號中的噪聲抑制直至對于(不對稱)干擾差值計算而言更優(yōu)的電平。可以通過組合這一局部縮放與對輸出信號的噪聲抑制動作來更準確地估計噪聲對主觀感知質量的影響。接著可以執(zhí)行第二部分頻率補償?？梢杂门cPESQ中相似、但是現(xiàn)在是在響度域中使用的方式執(zhí)行這一頻率補償。在一個實施例中，第二部分頻率補償使用如參考第一部分頻率補償更早討論的軟縮放算法。已經(jīng)發(fā)現(xiàn)使用第二部分頻率補償進一步改進了在客觀測量的語音質量與如在主觀聽力質量實驗中獲得的語音質量之間的相關性。如更早描述的那樣，第一部分頻率補償和第二部分頻率補償可以與如參考圖2討論的PESQ中使用的部分頻率補償相似。因此這些頻率補償動作可以使用平均操作，包括估計基于受測試系統(tǒng)的線性頻率響應。在一些實施例中，僅對如下幀執(zhí)行估計，對于這些幀而言，參考信號聲強級值高于閾值(例如語音活動標準值)。如將根據(jù)圖4的方案容易理解的那樣，這樣的語音幀選擇可以基于在幀電平檢測動作檢測到的電平。優(yōu)選地，在這一點，將參考信號和輸出信號兩者的高頻帶設置成零，因為它們顯得對待確定的感知傳輸質量具有可忽略不計的影響。此外，將輸出信號的低頻帶的聲強級局部縮放成參考信號的相似頻帶的聲強級。例如與Bark 23和更高頻帶有關的所有頻帶可以設置成零，而可以縮放輸出信號中的與Bark O至5有關的Bark頻帶。參考信號中的與 Bark 0-22有關的Bark頻帶和輸出信號中的與Bark 6至22有關的Bark頻帶然后未受到這些操作中的兩者之一的操作。至此尚未明顯改變輸出信號的信號電平，并且輸出信號的很低電平現(xiàn)在將僅引起內部表示的裕度差異。這造成質量估計的誤差。因此將參考信號和輸出信號均全局縮放成如下電平，該電平可以用來計算獲得音頻系統(tǒng)的傳輸質量的客觀測量所需的感知相關內部表示。首先將輸出信號的全局電平縮放成固定內部響度級。如果起始全局電平校準如在 ITU-T Recommendation P. 861和/或P. 862中描述的那樣用于參考信號，則這樣的固定全局內部電平落在20 (無量綱內部響度相關縮放數(shù))附近。其次，以相似方式并且出于與參考圖3討論的原因相同的原因將參考信號的電平縮放成輸出信號的對應電平。
最后，與參考圖2描述的方法相似，將參考信號和輸出信號相減從而獲得差值信號。在感知相減之后，可以例如以如圖2中所示并且在ITU-T Recommendation P. 862中描述的方式導出感知質量測量。替代地，執(zhí)行該方法兩次。一次用于關于與參考信號相比的總降級來確定代表質量的質量指標，而另一次用于關于與參考信號相比添加的降級來確定代表質量的質量指標。在本發(fā)明的一些實施例中，該方法還包括一個或者多個噪聲抑制步驟。噪聲對音頻系統(tǒng)的傳輸質量(具體為語音質量)的影響依賴于局部電平和/或局部譜改變。在PESQ 中，未正確考慮這一影響。PESQ僅使用每幀局部功率電平將噪聲抑制成近似地量化噪聲影響的電平。一個或者多個噪聲抑制步驟可以在預測音頻系統(tǒng)的傳輸質量時提供顯著改進。在一個實施例中，在強度規(guī)整成宋響度標度之后對參考信號執(zhí)行這樣的噪聲抑制。這一噪聲抑制動作可以被布置用于將噪聲抑制直至預定噪聲電平。預定噪聲電平然后可以對應于如下噪聲電平，該噪聲電平被視為希望的如下低噪聲電平，該低噪聲電平用作用于輸出信號的理想表示。類似地，在一個實施例中，在強度規(guī)整成宋響度標度之后對輸出信號執(zhí)行這樣的噪聲抑制。在這一情況下，噪聲抑制動作可以被布置用于將噪聲抑制直至如下噪聲電平，該噪聲電平代表受測試設備(例如圖1中的音頻系統(tǒng)10)經(jīng)歷的干擾。在一些其它實施例中，參考信號和輸出信號如虛線在圖3中示意地示出的那樣在全局縮放之后進一步經(jīng)歷附加噪聲抑制動作。已經(jīng)發(fā)現(xiàn)在全局縮放之后的這樣的附加噪聲抑制進一步改進在客觀測量的語音質量與如在主觀聽力質量實驗中獲得的語音質量之間的相關性。在使用一個或者多個噪聲抑制步驟的一些實施例中，在縮放參考信號內的時間幀的確定聲強級參數(shù)用來選擇輸出信號內的將在一個或者多個噪聲抑制計算中包括的時間幀。例如可以基于縮放參考信號內的時間幀的強度值低于某一閾值(例如靜默標準值)來選擇它們用于計算。在縮放參考信號內的如下時間幀可以稱為靜默幀，對于該時間幀而言，強度值落在靜默標準值以下。在輸出信號內的所選時間幀然后對應于縮放參考信號內的靜默幀。優(yōu)選地，這樣的選擇過程通過標識一系列連續(xù)靜默幀(例如8個靜默幀)來進展。這樣的系列連續(xù)靜默幀可以稱為靜默區(qū)間。在靜默幀并且具體為靜默區(qū)間內的靜默幀內的測量聲強級表達固有地存在于考慮的參考信號中的噪聲電平。換而言之，無受測試設備的影響。已經(jīng)通過參考上文討論的某些實施例描述了本發(fā)明。將認識這些實施例易有本領域技術人員公知的各種修改和替代形式。
權利要求
1.一種用于關于參考信號確定質量指標的方法，所述質量指標代表音頻系統(tǒng)例如語音處理設備的輸出信號的感知質量，其中處理和比較所述參考信號和所述輸出信號，并且所述處理包括將所述參考信號和所述輸出信號劃分成相互對應的時間幀，其中所述處理還包括-將所述參考信號的強度縮放成固定聲強級；-對縮放的參考信號內的時間幀執(zhí)行測量用于確定參考信號時間幀特性； -將所述參考信號的強度從所述固定聲強級縮放成與所述輸出信號有關的聲強級； -在感知響度域中將所述輸出信號的響度縮放成固定響度級，輸出信號響度縮放使用所述參考信號時間幀特性；并且-在所述感知響度域中將所述參考信號的響度從與所述輸出信號有關的聲強級對應的響度級縮放成與縮放的輸出信號的響度級有關的響度級，參考信號響度縮放使用所述參考信號時間幀特性。
2.根據(jù)權利要求1所述的方法，其中將所述參考信號的強度從所述固定聲強級縮放成與所述輸出信號有關的聲強級是基于所述參考信號與縮放因子相乘，所述縮放因子通過以下來定義-為多個時間幀確定平均參考信號聲強級；-為與所述參考信號的用來確定所述平均參考信號聲強級的時間幀對應的多個時間幀確定平均輸出信號聲強級；-通過基于所述平均參考信號聲強級和所述平均輸出信號聲強級確定分數(shù)來導出預備縮放因子；-如果所述預備縮放因子小于閾值，則通過將所述縮放因子定義成等于所述預備縮放因子、否則等于用附加的依賴于預備縮放因子的值遞增的所述預備縮放因子來確定縮放因子。
3.根據(jù)任一前述權利要求所述的方法，其中所述方法在輸出電平到固定響度級的響度縮放之前還包括-針對所述參考信號的具有比所述輸出信號的響度級高的響度級的部分將所述參考信號的響度級局部縮放成所述輸出信號的響度級；并且-隨后針對所述輸出信號的具有比所述參考信號的響度級高的響度級的部分將所述輸出信號的響度級局部縮放成所述參考信號的響度級。
4.根據(jù)任一前述權利要求所述的方法，其中所述處理還包括-將所述縮放的參考信號和所述輸出信號從時域變換到時間-頻率域； -根據(jù)所述參考信號導出參考音調功率密度函數(shù)，并且根據(jù)所述輸出信號導出輸出音調功率密度函數(shù)，所述聲強級差對應于所述音調功率密度函數(shù)的聲強級之間的差；-局部縮放所述參考音調功率密度函數(shù)以獲得局部縮放的參考音調功率密度函數(shù)； -關于頻率部分地補償局部縮放的參考音調功率密度函數(shù)；-導出參考響度密度函數(shù)和輸出響度密度函數(shù)，所述響度級差對應于所述響度密度函數(shù)的響度級之間的差；其中所述響度密度函數(shù)代表實現(xiàn)量化可變電平回放對感知質量的影響的密度函數(shù)。
5.根據(jù)權利要求4所述的方法，其中所述方法還包括對所述參考音調功率密度函數(shù)和所述輸出音調功率密度函數(shù)中的至少一個執(zhí)行激勵操作。
6.根據(jù)權利要求3-5中的任一權利要求所述的方法，其中關于頻率補償所述局部縮放的參考音調功率密度函數(shù)和補償所述局部縮放的參考響度密度函數(shù)中的至少一個包括基于所述參考信號時間幀特性來估計所述語音處理系統(tǒng)的線性頻率響應。
7.根據(jù)任一權利要求所述的方法，其中所述感知響度域中的所述參考信號在縮放成與所述感知響度域中的所述輸出信號的響度級有關的響度級之前受到用于將噪聲抑制直至預定噪聲電平的噪聲抑制動作。
8.根據(jù)任一權利要求所述的方法，其中所述感知響度域中的所述輸出信號在縮放成固定響度級之前受到用于將噪聲抑制直至代表干擾的噪聲電平的噪聲抑制算法。
9.根據(jù)任一權利要求所述的方法，其中所述感知響度域中的所述參考信號和所述輸出信號在比較之前受到全局噪聲抑制。
10.一種計算機程序產品，包括例如存儲于計算機可讀介質上的計算機可執(zhí)行代碼，所述計算機可執(zhí)行代碼適于在由處理器執(zhí)行時執(zhí)行如權利要求1-9中的任一權利要求限定的方法。
11.一種用于關于音頻系統(tǒng)(10)例如語音處理設備的用作參考信號的輸入信號X(t) 確定質量指標的系統(tǒng)(20)，所述質量指標代表所述音頻系統(tǒng)的輸出信號Y(t)的感知質量，所述系統(tǒng)包括-預處理設備(30)，用于預處理所述參考信號和所述輸出信號；-用于處理所述參考信號的第一處理設備(40a)和用于處理所述輸出信號的第二處理設備(40b )，用于分別獲得用于所述參考信號和所述輸出信號的表示信號R (X)、R (Y)；-差分設備(50 )，用于組合所述參考信號和所述輸出信號的表示信號以便獲得差分信號D;以及-建模設備(60)，用于處理所述差分信號以獲得質量信號Q，所述質量信號Q代表所述語音處理系統(tǒng)的所述感知質量的估計；其中所述預處理設備、所述第一處理設備和所述第二處理設備形成用于執(zhí)行根據(jù)權利要求1-9中的任一權利要求所述的方法的處理系統(tǒng)。
全文摘要
本發(fā)明涉及一種用于關于參考信號確定質量指標的方法，該質量指標代表音頻系統(tǒng)的輸出信號的感知質量。處理和比較參考信號和輸出信號。該處理包括將參考信號和輸出信號劃分成相互對應的時間幀。此外，該處理包括將參考信號的強度縮放成固定聲強級、并且然后對縮放的參考信號內的時間幀執(zhí)行測量用于確定參考信號時間幀特性。然后將參考信號的強度從固定聲強級縮放成與輸出信號有關的聲強級。另外，在該方法中，在感知響度域中將輸出信號的響度縮放成固定響度級。這一縮放動作使用參考信號時間幀特性。最后，在感知響度域中將參考信號的響度從與輸出信號有關的聲強級對應的響度級縮放成與縮放的輸出信號的響度級有關的響度級。這一縮放動作也使用參考信號時間幀特性。
文檔編號G10L19/00GK102576535SQ201080046406
公開日2012年7月11日申請日期2010年8月9日優(yōu)先權日2009年8月14日
發(fā)明者J.比倫德斯, J.范武格特申請人:皇家Kpn公司, 荷蘭應用自然科學研究組織

完整全部詳細技術資料下載