本發(fā)明涉及一種對從音頻傳輸系統(tǒng)接收的劣化語音信號的質(zhì)量進行評估的方法,通過經(jīng)由所述音頻傳輸系統(tǒng)傳遞參考語音信號以提供所述劣化語音信號,其中,所述方法包括:將所述參考語音信號采樣為多個參考信號幀,以及針對每個參考信號幀確定參考信號表示;將所述劣化語音信號采樣為多個劣化信號幀,以及為每個劣化信號幀確定劣化信號表示;通過將每個參考信號幀與相應的劣化信號幀彼此相關(guān)聯(lián)來形成幀對;為每個幀對提供差函數(shù),所述差函數(shù)代表所述劣化信號幀與所述相關(guān)聯(lián)的參考信號幀的差。
本發(fā)明進一步涉及一種用于實現(xiàn)上述方法的裝置,以及涉及一種計算機程序產(chǎn)品。
背景技術(shù):
在過去的幾十年間,使用感知測量方式開發(fā)和部署了客觀語音質(zhì)量測量方法。在該方式中,基于感知的算法模擬了受測者的行為,受測者在聽音測試中對音頻片段的質(zhì)量進行評級。對于語音質(zhì)量,人們大多使用所謂的絕對分類評級聽音測試,其中,受測者在沒有獲知(access to)清晰的參考語音片段的情況下判斷劣化語音片段的質(zhì)量。國際電信聯(lián)盟(International Telecommunication Union,ITU)所進行的聽音測試大多使用絕對分類評級(ACR)5分評價尺度(5point opinion scale),ACR 5分評分尺度因此也用在客觀語音質(zhì)量測量方法中,客觀語音質(zhì)量測量方法被ITU的以下算法所標準化:感知語音質(zhì)量測量(Perceptual Speech Quality Measure,PSQM(ITU-T建議P.861,1996))及其后續(xù)的語音質(zhì)量感知評估(Perceptual Evaluation of Speech Quality,PESQ(ITU-T建議P.862,2000))。這些測量標準重點在于窄帶語音質(zhì)量(音頻帶寬100-3500Hz),盡管在2005年還設計出了寬帶擴展(50-7000Hz)。對于窄帶語音數(shù)據(jù)而言,PESQ和主觀聽音測試具有較好的相關(guān)性,并且對于寬帶數(shù)據(jù)而言,PESQ和主觀聽音測試具有可接受的相關(guān)性。
隨著新的寬帶語音業(yè)務被電信產(chǎn)業(yè)投放到市場中,需要一種性能得到驗證且能夠適應更大音頻帶寬的先進測量標準。因此,ITU-T(ITU的電信分部)研究組12提出了作為PESQ的技術(shù)更新的一種新的語音質(zhì)量評價算法的標準化。新的第三代測量標準POLQA(Perceptual Objective Listening Quality Assessment,感知客觀聽音質(zhì)量評估)克服了PESQ P.862標準的缺陷,比如,對線性頻率響應失真的影響的不正確評價、在網(wǎng)絡語音電話業(yè)務(Voice-over-IP)中所發(fā)現(xiàn)的時間擴展/壓縮(time stretching/compression)、某些類型的編解碼器失真和混響。
相對于先前的質(zhì)量評估算法PSQM(P.861)和PESQ(P.862),POLQA(P.863)提供了大量改進,使得能夠在存在大范圍失真的情況下預測語音質(zhì)量。然而,在某些類型的前置語音信號處理的情況下,當前版本的POLQA無法正確預測某些類型的失真的影響。一個問題為在所謂的空語音帶(empty speech bands)中噪聲的影響。沒有正確地預測出在語音帶寬小于掩蔽噪聲(masking noise)的帶寬的情形下噪聲對所感知的語音質(zhì)量的影響。
技術(shù)實現(xiàn)要素:
本發(fā)明的目的在于尋求上述不足的解決方案,以及提供一種用于評估(劣化)語音信號的質(zhì)量評估算法,該算法正確地解決了噪聲的影響。
本發(fā)明通過以下方式實現(xiàn)該目的和其他目的:提供了一種對從音頻傳輸系統(tǒng)接收的劣化語音信號的質(zhì)量進行評估的方法,通過經(jīng)由所述音頻傳輸系統(tǒng)傳遞參考語音信號以提供所述劣化語音信號。所述方法包括:將所述參考語音信號采樣為多個參考信號幀,將所述劣化語音信號采樣為多個劣化信號幀,以及通過將所述參考信號幀和所述劣化信號幀彼此相關(guān)聯(lián)來形成幀對。為每個幀對提供差函數(shù),所述差函數(shù)表示所述劣化信號幀與所述相關(guān)聯(lián)的參考信號幀的差。針對一個或多個干擾類型補償所述差函數(shù),從而為每個幀對提供干擾密度函數(shù),所述干擾密度函數(shù)適用于人類聽覺感知模型。根據(jù)多個幀對的所述干擾密度函數(shù)得到總體質(zhì)量參數(shù),其中,所述質(zhì)量參數(shù)至少指示所述劣化語音信號的所述質(zhì)量。所述方法還包括以下步驟:識別所述多個劣化信號幀的一個或多個靜音幀。為所述靜音幀確定噪聲水平參數(shù)值,所述噪聲水平參數(shù)值指示所述靜音幀在高于頻率閾值的頻率處存在的信號功率的平均量。基于所述噪聲水平參數(shù)值確定高頻帶噪聲水平補償因子。所述高頻帶噪聲水平補償因子用于針對高于所述頻率閾值的噪聲補償所述總體質(zhì)量參數(shù)。
本發(fā)明通過將劣化信號的較高頻帶中所存在的噪聲考慮在內(nèi)而主要提高了POLQA方法的效果。按照本發(fā)明并且對應于第一估計,這可以通過以下方式得到:將高頻帶中的噪聲成分(noise contribution)量化,并且確定補償因子,該補償因子可用于對POLQA方法的輸出處的總體質(zhì)量參數(shù)(即,MOQ-LQO分數(shù))進行補償。盡管優(yōu)選的是直接補償POLQA方法的(例如在方法的結(jié)束處的)MOS-LQO分數(shù),但是當然也可以在模型的其他位置進行補償(然而這需要一些適應性修改,以根據(jù)該方法中替代性考慮的補償所處位置來進行正確地補償)。
通過識別劣化信號幀中的安靜或靜音幀來量化噪聲。正如將在下文中所進一步解釋的,靜音幀的識別可優(yōu)選地通過以下方式來實現(xiàn):首先將參考信號幀中的靜音幀識別為候選幀,然后將經(jīng)由幀對與候選幀相關(guān)聯(lián)的劣化信號幀識別為靜音幀,以供本發(fā)明的方法所使用。然而,盡管準確度較低,但是如果需要可直接識別靜音幀。
用于測量較高頻帶中信號功率的平均量的頻率閾值可設定為任意優(yōu)選值,然而,優(yōu)選地該閾值設定在2500Hz至4000Hz之間,更優(yōu)選地設定在3000Hz。
根據(jù)一個實施例,本發(fā)明還包括:識別所述多個劣化信號幀的一個或多個語音活動幀;為所述語音活動幀確定活動水平參數(shù)值,所述活動水平參數(shù)值指示所述語音活動幀在所述頻率閾值以上存在的信號功率的平均量;將所述活動水平參數(shù)值與所述噪聲水平參數(shù)值相比較以確定加權(quán)因子,所述加權(quán)值被確定以使得當所述活動水平參數(shù)值與所述噪聲水平參數(shù)值之差增大時,所述加權(quán)值減??;其中,確定高頻帶噪聲水平補償因子的步驟包括:使用所述加權(quán)值來加權(quán)所述噪聲水平參數(shù)值。
在本發(fā)明的該優(yōu)選實施例中,通過進一步根據(jù)劣化信號的較高頻帶中語音活動幀中是否存在語音分量來對這些較高頻帶中的噪聲的影響進行更好的估計。語音活動幀可通過與靜音幀相似的方式進行選擇,例如通過借助于參考信號幀和幀對相關(guān)性來進行識別這些語音活動幀??商娲?,如果通過估計候選幀的信號功率是否低于閾值水平來選擇靜音幀,則可以預測得到劣化信號幀中的剩余幀為語音活動幀。
根據(jù)該實施例,確定了高于頻率閾值的語音活動幀的信號平均功率,該頻率閾值優(yōu)選地為針對靜音幀所使用的同一頻率閾值,以使得在噪聲水平參數(shù)值與活動水平參數(shù)值之間能夠進行有意義的比較。例如,通過從活動水平參數(shù)值中減去噪聲水平參數(shù)值來將活動水平參數(shù)值與噪聲水平參數(shù)值進行比較。據(jù)此得到加權(quán)值,以使得:當較高頻帶中存在較少活動語音分量時,加權(quán)值增加。這樣建議的原因在于,已經(jīng)發(fā)現(xiàn)在較高頻帶中不存在語音的情況下或者如果語音活動頻帶僅與存在所要考慮的噪聲的較高頻帶輕微重疊,較高頻帶中的噪聲的影響較大。例如,對于在高于3000Hz的頻率范圍內(nèi)不存在語音分量的窄帶語音信號而言,所接收的劣化語音信號中這些頻帶中的噪聲的影響與在0至7000Hz范圍內(nèi)存在分量的寬帶語音信號相比被認為更為惱人。所知的最佳示例為將標準清晰度語音傳輸(帶寬50-3500Hz)中所發(fā)現(xiàn)的窄帶語音信號適配為在具有寬帶掩蔽噪聲背景的環(huán)境中使用這些信號。其他示例為在語音會議中將標準清晰度窄帶語音與高清晰度寬帶語音(帶寬50-7000Hz)相混合。由于POLQA涉及對人類所評估的質(zhì)量感知進行建模,所以對用于補償MOS-LQO分數(shù)(即,總體質(zhì)量參數(shù))的補償因子的加權(quán)為本發(fā)明該實施例的重要改進。
根據(jù)另一實施例,本發(fā)明還包括下列步驟:針對高于所述頻率閾值的噪聲,使用所述高頻帶噪聲水平補償因子來補償所述總體質(zhì)量參數(shù),其中,所述高頻帶噪聲水平補償因子被從所述總體質(zhì)量參數(shù)中減去以提供總體質(zhì)量分數(shù)??梢园凑杖缟纤龅姆椒ǚ奖愕赜嬎愀哳l帶噪聲水平補償因子,以使得可從上述POLQA過程的結(jié)束處所得到的MOS-LQO分數(shù)中減去該高頻帶噪聲水平補償因子。這使得能夠?qū)OLQA方法的當前改進實施為對該方法的擴展。
根據(jù)另一實施例,識別一個或多個靜音幀的步驟包括:當幀平均信號功率低于閾值水平時,將所述多個參考信號幀中的一個或多個識別為候選幀;以及將經(jīng)由所述幀對與所述候選幀相關(guān)聯(lián)的劣化信號幀識別為所述靜音幀。使用參考信號幀來識別候選幀以用于確定劣化幀中的哪些幀被識別為靜音幀比從劣化語音信號中直接識別靜音幀(例如,直接評估其中的信號功率水平)更準確。例如,使用參考信號幀避免了將包含很多干擾但信號功率仍然相對大的某些靜音幀被從靜音幀中丟棄(即,假陰性(false negatives))。類似地,這還有助于避免評估中出現(xiàn)假陽性(false positive)。由于這些假陰性或誤報會大大影響評估的結(jié)果,因此根據(jù)本發(fā)明基于參考信號幀中的候選幀來選擇靜音幀是優(yōu)選的。為了根據(jù)本實施方式的具體實施例選擇候選幀,第一閾值水平被設定在所述多個參考信號幀的平均信號功率水平之下20dB處。
本發(fā)明的又一具體實施例區(qū)分了靜音幀和超級靜音幀,并且使得能夠使用靜音幀和超級靜音幀中的任一個或兩者作為上述靜音幀。根據(jù)本實施例,識別一個或多個靜音幀的步驟包括以下步驟至少之一:將一個或多個參考信號幀識別為中等靜音候選幀,對于所述中等靜音候選幀,所述參考信號的幀平均信號功率介于比所述多個參考信號幀的平均信號功率水平低35dB與低20dB之間;或者將一個或多個參考信號幀識別為超級靜音幀,對于所述超級靜音幀,所述參考信號的幀平均信號功率比所述多個參考信號幀的平均信號功率水平低至少35dB。此外,在該實施例中,確定所述噪聲水平參數(shù)值的步驟是通過使用所述中等靜音幀和所述超級靜音幀中的至少一個或兩者來進行。例如,在參考信號(因而劣化信號)包括軟語音(soft spoken speech)或耳語(whispering)的情況下,使用超級靜音幀能夠?qū)υ肼曀教峁└玫脑u估。
根據(jù)本發(fā)明,本領(lǐng)域普通技術(shù)人員可適當?shù)剡x擇頻率閾值以限定哪些較高頻帶頻率被包括在噪聲影響的評估中以及哪些較高頻帶頻率被排除在噪聲影響的評估之外。然而,本發(fā)明的優(yōu)選實施例所使用的閾值頻率為3000Hz。根據(jù)其他實施例,頻率閾值的可替代性取值可例如選自以下范圍:2500Hz至4000Hz。
根據(jù)又一實施例,確定所述噪聲水平參數(shù)值的步驟可進一步包括:當所計算的噪聲水平參數(shù)值超過最大值時,將所述噪聲水平參數(shù)值設定在所述最大值處。所述最大值可以是任一合適值,但優(yōu)選地可在1.5與2.5之間進行選擇,最優(yōu)選地被選擇為2.0。最大值避免對POLQA方法的MOS-LQO分數(shù)進行過度補償。
如上文已經(jīng)表明的那樣,將所述活動水平參數(shù)值與所述噪聲水平參數(shù)值相比較的步驟可包括:從所述活動水平參數(shù)值中減去所述噪聲水平參數(shù)值以得到高頻帶差值。在具體實施例中,當從所述活動水平參數(shù)值中減去所述噪聲水平參數(shù)值所計算出的高頻帶差值小于最小值時,所述高頻帶差值被設定為所述最小值。在高頻帶差值被用作除數(shù)值用于確定加權(quán)值的情況下,這具有如下優(yōu)點:當指示較高頻帶中的活動語音信號的量的活動水平參數(shù)值接近于噪聲水平參數(shù)值(即,指示該頻率范圍中僅存在微不足道的語音分量或不存在語音分量,或者指示針對較高頻帶水平的大噪聲水平)時,避免加權(quán)值變得過大。高頻帶差值的最小值可被設定為7.0與15.0之間的任一值,例如11.0。加權(quán)值可確定如下:
加權(quán)值=1.2/高頻帶差值。
根據(jù)第二方面,本發(fā)明涉及一種計算機程序產(chǎn)品,包括計算機可執(zhí)行代碼,當被在計算機上執(zhí)行時,所述計算機可執(zhí)行代碼用于實現(xiàn)上述方法。
根據(jù)第三方面,本發(fā)明涉及一種用于執(zhí)行上述方法的裝置,所述裝置用于評估劣化語音信號的質(zhì)量,所述裝置包括:接收單元,用于從傳遞參考語音信號的音頻傳輸系統(tǒng)接收所述劣化語音信號,所述參考語音信號至少表示由輔音和元音的結(jié)合所組成的一個或多個詞,并且所述接收單元還被設置成用于接收所述參考語音信號;采樣單元,用于將所述參考語音信號采樣為多個參考信號幀,并且用于將所述劣化語音信號采樣為多個劣化信號幀;處理單元,用于通過將所述參考信號幀與所述劣化信號幀彼此相關(guān)聯(lián)來形成幀對,并且用于針對每個幀對提供差函數(shù),所述差函數(shù)表示所述劣化信號幀與所述參考信號幀的差;補償器單元,用于針對一個或多個干擾類型,補償所述差函數(shù)從而為每個幀對提供干擾密度函數(shù),所述干擾密度函數(shù)適用于人類聽覺感知模型;以及所述處理單元還被設置成根據(jù)多個幀對的所述干擾密度函數(shù)得到總體質(zhì)量參數(shù),所述質(zhì)量參數(shù)至少指示所述劣化語音信號的所述質(zhì)量;其中,所述處理單元還被設置成:識別所述多個參考信號幀的一個或多個靜音幀;為所述靜音幀確定噪聲水平參數(shù)值,所述噪聲水平參數(shù)值指示所述靜音幀在高于頻率閾值的頻率處存在的信號功率的平均量;基于所述噪聲水平參數(shù)值確定高頻帶噪聲水平補償因子,以針對高于所述頻率閾值的噪聲補償所述總體質(zhì)量參數(shù);以及針對高于所述頻率閾值的噪聲,使用所述高頻帶噪聲水平補償因子來補償所述總體質(zhì)量參數(shù)。
附圖說明
參考附圖通過具體實施例對本發(fā)明進行了進一步解釋,在附圖中:
圖1提供了根據(jù)本發(fā)明實施例的POLQA感知模型的第一部分的概覽;
圖2提供了根據(jù)本發(fā)明實施例的POLQA感知模型中所使用的頻率對齊的示意性概覽;
圖3提供了根據(jù)本發(fā)明實施例的POLQA感知模型的、位于圖1中所示的第一部分之后的第二部分的概覽;
圖4是根據(jù)本發(fā)明實施例的POLQA感知模型的第三部分的概覽;
圖5是根據(jù)本發(fā)明實施例的POLQA感知模型中所使用的掩蔽方式的示意性概覽;
圖6是根據(jù)本發(fā)明的方法對總體質(zhì)量參數(shù)進行補償?shù)姆绞降氖疽鈭D;以及
圖7是本發(fā)明的高頻帶噪聲補償方法的示意圖。
具體實施方式
總的POLQA感知模型
POLQA(ITU-T建議P.863)的基本方式與PESQ(ITU-T建議P.862)中所用的方式相同,即,使用人類感知(human perception)模型將參考輸入信號和劣化輸出語音信號均映射到內(nèi)部表征。感知模型使用這兩種內(nèi)部表征之間的差異來預測劣化信號的被感知的語音質(zhì)量。POLQA所實現(xiàn)的一個重要新思路為一種理想化(idealisation)方式,該理想化方式移除了參考輸入信號中的低水平噪聲,并且優(yōu)化了音色。POLQA感知模型的其他主要改進包括:將重放水平(play back level)對所感知的質(zhì)量所造成的影響進行建模,以及將對低水平失真的處理與對高水平失真的處理分離開來。
POLQA中所使用的感知模型的概覽在圖1至圖4中給出。圖1提供了感知模型的第一部分,該第一部分用于計算參考輸入信號X(t)3和劣化輸出信號Y(t)5的內(nèi)部表征。參考輸入信號X(t)3和劣化輸出信號Y(t)5二者被縮放(scaled)17、46,并且按照下述多個步驟計算關(guān)于音調(diào)-響度-時間的內(nèi)部表征13、14,之后計算差函數(shù)(difference function)12,圖1中通過差計算算子7表示該計算差函數(shù)。計算了兩種不同類型的感知差函數(shù),一種為使用算子7和8的被測試系統(tǒng)所引入的總體干擾,另一種為使用算子9和10的干擾的增加部分。這對從參考信號中省去時頻分量所導致的劣化影響與引入新的時頻分量所導致的劣化的不對稱性進行了建模。在POLQA中,兩種類型的感知差函數(shù)按照兩種不同的方式進行計算,一種方式重點在于正常范圍的劣化,以及另一種方式重點在于響度劣化(loud degradations),響度劣化造成了圖1中所標出的4種差函數(shù)計算7、8、9和10。
對于具有頻域扭曲的劣化輸出信號49,使用了對齊算法(align algorithm)52,這在圖2中給出。圖3和圖4給出了用于得到MOS-LQO分數(shù)(MOS-LQO scores)的最終處理。
POLQA開始于計算一些基本常數(shù)設置,然后從時頻對齊的(time and frequency aligned)時間信號中得到參考信號的音調(diào)功率密度和劣化信號的音調(diào)功率密度(作為時間和頻率的函數(shù)的功率)。根據(jù)音調(diào)功率密度,通過多個步驟來得到參考信號的內(nèi)部表征和劣化信號的內(nèi)部表征。此外,這些密度還被用來得到前三個POLQA質(zhì)量指示符,即,頻率響應失真的質(zhì)量指示符41(FREQ)、加性噪聲(additive noise)的質(zhì)量指示符42(噪聲)以及室內(nèi)混響的質(zhì)量指示符43(混響)。這三個質(zhì)量指示符41、42和43根據(jù)主要干擾指示符來分別進行計算以使得能夠?qū)Χ喾N不同失真類型進行平衡影響分析。這些指示符還可被用來使用劣化分解方式對在語音信號中所存在的劣化的類型進行更詳細的分析。
如上所述,在7、8、9和10計算了參考信號和劣化信號的內(nèi)部表征的四個不同變型:兩個變型重點在于針對正常和大的失真的干擾,以及另外兩個變型重點在于針對正常和大的失真所增加的干擾。這四個不同的變型7、8、9和10是計算最終干擾密度的輸入。
參考輸入信號3的內(nèi)部表征被稱為理想表示,因為參考輸入信號中的低水平噪聲被移除(步驟33)并且針對其部分地補償了劣化信號中所存在的可能由原參考錄制(reference recordings)的非最優(yōu)音色所導致的音色失真(步驟35)。
使用算子7、8、9和10所計算的理想內(nèi)部表征和劣化內(nèi)部表征的四個不同變型被用來計算兩個最終干擾密度142和143,一個代表了作為時間和頻率的函數(shù)、重點在于總體劣化的最終干擾142,以及另一個代表了作為時間和頻率的函數(shù)但卻重點在于增加的劣化的處理的最終干擾143。
圖4給出了根據(jù)兩個最終干擾密度142和143以及FREQ指示符41、噪聲指示符42和混響指示符43來計算MOS-LQO分數(shù)(即,客觀MOS分數(shù))的概覽。
常數(shù)設置的預計算
取決于采樣頻率的FFT窗大小
POLQA以不同的采樣率8、16和48kHz進行操作,針對不同采樣率,窗大小W分別設定為256、512和2048個樣本,從而匹配人類聽覺系統(tǒng)的時間分析窗。使用漢寧窗(Hann window)時,連續(xù)幀之間的重疊為50%。對于參考信號和劣化信號,功率譜——復FFT分量的實部的平方與虛部的平方之和——被存儲在單獨的實值陣列中。POLQA算法將單個幀內(nèi)的相位信息丟棄,并且所有計算僅基于功率表示。
開始結(jié)束點計算
在主觀測試中,噪聲的發(fā)生通常在參考信號中的語音活動開始之前。然而,人們可以預想到主觀測試中的前端穩(wěn)態(tài)噪聲(leading steady state noise)會降低穩(wěn)態(tài)噪聲的影響,而在將前端噪聲考慮在內(nèi)的客觀測量中,前端噪聲將增加該影響;因此,可以預想到省略前端噪聲和后端噪聲(trailing noise)是正確的感知方式。因此,在使用可用訓練數(shù)據(jù)驗證了預期之后,POLQA處理中所用的開始點和終止點是按照參考文件的開始和結(jié)尾來計算的。從原始語音文件的開始至結(jié)尾的五個連續(xù)絕對采樣值(使用正常16位PCM范圍-+32,000)之和必須超過500,以將該位置指定為開始或結(jié)尾。開始和結(jié)尾之間的間隔被限定為活動處理間隔。在POLQA處理中將該間隔之外的失真忽略。
功率縮放因子SP和響度縮放因子SL
為了校準FFT時頻變換,使用被朝向73dB SPL校準的參考信號X(t)來生成具有1000Hz頻率和40dB SPL幅值的正弦波。在步驟18和49中使用加窗FFT分別采用針對X(t)和Y(t)的采樣頻率所確定的長度將該正弦波變換到頻域。在21和54中將頻率軸轉(zhuǎn)換為巴克尺度(Bark scale),所得到的音調(diào)功率密度(pitch power density)的峰值幅值則通過與針對X(t)和Y(t)的功率縮放因子SP 20和50分別相乘被歸一化為功率值104。
同一40dB SPL的參考音(reference tone)被用來校準心理聲學(宋)響度尺度。在使用Zwicker定律(Zwicker’s law)將強度軸扭曲為響度尺度后,在30和58中,分別使用針對X(t)和Y(t)的響度縮放因子SL 31和59將響度密度在巴克頻率尺度上的積分歸一化為1宋(Sone)。
音調(diào)功率密度的縮放和計算
劣化信號Y(t)5被乘以46校準因子C 47,然后采用50%重疊FFT幀被變換49到時頻域,校準因子負責將數(shù)字域中的dB過載(dB overload)映射到聽覺域(acoustic domain)中的dB SPL。在被變換18到時頻域之前,參考信號X(t)3被朝向大約等同于73dB SPL的預定固定最優(yōu)水平縮放17。該校準步驟完全不同于PESQ中所用的校準步驟,在PESQ中,劣化信號和參考信號兩者被朝向預定固定最優(yōu)水平縮放。PESQ預先假定所有播放在同一最優(yōu)播放水平處進行,而在POLQA主觀測試中,所使用的是相對于最優(yōu)水平介于20dB至+6之間的水平。在POLQA感知模型中,人們因而不同使用朝向預定固定最優(yōu)水平的縮放。
水平縮放后,使用加窗FFT方式將參考信號和劣化信號變換18、49到時頻域。對于與參考信號相比,劣化信號的頻率軸被扭曲的文件,在FFT幀上進行頻域去扭曲。在該去扭曲的第一步驟中,對參考和劣化FFT功率譜兩者進行預處理以減小兩者非常窄的頻率響應失真連同總體頻譜形狀差異對以下計算的影響。預處理77可包括對功率譜進行平滑(smoothing)、壓縮(compressing)和整平(flattening)。在78中,平滑操作使用在FFT頻帶上的功率的滑動窗平均(sliding window average)進行,而壓縮則簡單地通過對每個頻帶中的經(jīng)平滑功率求對數(shù)79來完成。在80中,通過在FFT頻帶上對經(jīng)平滑對數(shù)功率進行滑動窗歸一化來進一步整平功率譜的總體形狀。接下來,使用隨機次諧波音調(diào)算法(stochastic subharmonic pitch algorithm)來計算當前參考幀和劣化幀的音調(diào)。參考音調(diào)與劣化音調(diào)定量(pitch ration)的比74則被用來(在步驟84中)確定可能的扭曲因子的范圍。如果可能,使用前一幀對和后一幀對的音調(diào)比來擴展該搜索范圍。
然后,頻率對齊算法在搜索范圍中進行迭代,并且使用當前迭代的扭曲因子來扭曲85劣化功率譜,并使用上述預處理77對經(jīng)扭曲的功率譜進行處理88。然后,針對1500Hz以下的頻段(bins),(在步驟89中)計算經(jīng)處理參考譜與經(jīng)處理和扭曲劣化譜之間的相關(guān)性。在完成搜索范圍內(nèi)的迭代之后,在步驟90中得到“最佳”(即,產(chǎn)生最高相關(guān)性)的扭曲因子。然后,將經(jīng)處理參考譜與最佳的經(jīng)扭曲劣化譜之間的相關(guān)性和原始經(jīng)處理參考譜與劣化譜之間的相關(guān)性進行比較。如果相關(guān)性增加了設定閾值,則保留97該“最佳”扭曲因子。如果有必要,扭曲因子在98中被限定為相對于針對前一幀對所確定的扭曲因子具有最大相對變化。
在執(zhí)行了用于將參考信號的頻率軸和劣化信號的頻率軸對齊所可能需要的去扭曲之后,在步驟21和54中,以Hz為單位的頻率尺度被扭曲為以巴克(Bark)為單位的音調(diào)尺度,這反映出:相對于高頻而言,人類聽力系統(tǒng)對于低頻會具有更精細的頻率分辨率。這通過以下方式來實現(xiàn):對FFT頻帶進行統(tǒng)計(binning),并且在對求和部分進行歸一化的情況下對FFT頻帶的相應頻率進行求和。出于此目的,通過以赫茲為單位的頻率尺度映射到以巴克為單位的音調(diào)尺度的扭曲函數(shù)來對文獻中所給的值進行近似,該近似為本領(lǐng)域普通技術(shù)人員所公知。所得到的參考信號和劣化信號被稱為音調(diào)功率密度PPX(f)n(未在圖1中示出)和PPY(f)n 56,其中,f是單位為巴克的頻率,以及索引n代表幀索引。
語音活動幀、靜音幀和超級靜音幀的計算(步驟25)
在步驟25中,POLQA對三類幀進行了操作,這三類幀的區(qū)別如下:
語音活動幀,其中,參考信號的幀水平高于比平均值低大約20dB的水平;
靜音幀,其中,參考信號的幀水平低于比平均值低大約20dB的水平;以及
超級靜音幀,其中,參考信號的水平低于比平均值低大約35dB的水平。
頻率、噪聲和混響指示符的計算
在步驟40中,單獨對頻率響應失真、噪聲和室內(nèi)混響的全局影響進行量化。對于總體全局頻率響應失真的影響,根據(jù)參考信號和劣化信號的平均譜計算出指示符41。為了使對頻率響應失真的影響所進行的估計獨立于加性噪聲,劣化信號在參考信號的靜音幀上的平均噪聲譜密度被從該劣化信號的音調(diào)響度密度中減去。然后,在針對參考文件和劣化文件的所有語音活動幀上在每個巴克頻帶中將所得到的劣化信號的音調(diào)響度密度與參考信號的音調(diào)響度密度進行平均。然后,在音調(diào)上對這兩種密度之間的音調(diào)響度密度之差求積分以得到用于將頻率響應失真的影響量化的指示符41(頻率)。
對于加性噪聲的影響,根據(jù)劣化信號在參考信號的靜音幀上的平均譜計算出指示符42。劣化信號在靜音幀上的平均音調(diào)響度密度與零參考音調(diào)響度密度之差確定了將加性噪聲的影響量化的噪聲響度密度函數(shù)。然后,在音調(diào)上對噪聲響度密度函數(shù)求積分以得到平均噪聲影響指示符42(噪聲)。因此,根據(jù)理想靜音計算出指示符42,以使得使用有噪(noisy)參考信號所測量的透明鏈因而不在最終POLQA端到端語音質(zhì)量測量中提供最大MOS分數(shù)。
對于室內(nèi)混響的影響,根據(jù)參考和劣化時間序列計算出能量與時間的函數(shù)(energy over time function,ETC)。ETC代表了系統(tǒng)H(f)的脈沖響應h(t)的包絡,被定義為Ya(f)=H(f)·X(f),其中,Ya(f)為劣化信號的水平對齊表示的頻譜,以及X(f)是參考信號的頻譜。水平對齊用于抑制參考信號與劣化信號之間的全局增益差和局部增益差。根據(jù)H(f)使用離散傅里葉逆變換來計算脈沖響應h(t)。根據(jù)h(t)的絕對值通過歸一化和限幅來計算ETC?;贓TC,搜索多達三種反射。在第一步驟中,通過簡單確定ETC曲線在直達聲(direct sound)后的最大值來計算最響反射。在POLQA模型中,直達聲被定義為在60毫秒內(nèi)到達的所有聲音。接下來,根據(jù)最響反射在沒有直達聲并且未將100毫秒內(nèi)達到的反射考慮在內(nèi)的間隔內(nèi)確定第二最響反射。然后,根據(jù)最響反射和第二最響反射在沒有直達聲并且未將100毫秒內(nèi)達到的反射考慮在內(nèi)的間隔內(nèi)確定第三最響反射。三種反射的能量和時延隨后被結(jié)合為單個混響指示符43(混響)。
參考信號朝向劣化信號的全局和局部縮放(步驟26)
此時,根據(jù)步驟17,參考信號處于內(nèi)部理想水平,即,等同于大約73dB SPL,而劣化信號由于步驟46被表示成處于與播放水平一致的水平。在對參考信號和劣化信號進行比較之前,在步驟26中對全局水平差進行補償。此外,局部水平的小變化也被部分地補償,以將以下事實考慮在內(nèi):對受測者而言在只進行聽的情況(listening-only situation)下發(fā)生足夠小的水平變動是不易察覺的?;趨⒖夹盘柡土踊盘柕钠骄β适褂媒橛?00至3500Hz之間的頻率分量進行全局水平均衡26。參考信號被全局地朝向劣化信號縮放,并且因而全局播放水平差的影響在該處理階段得以保持。相似地,對于變化慢的增益失真,使用參考語音文件和劣化語音文件兩者的全部帶寬針對高達大約3dB的水平變化進行局部縮放。
針對線性頻率響應失真的原始音調(diào)功率密度的部分補償(步驟27)
為了對被測試系統(tǒng)中由于濾波所引起的線性頻率響應失真的影響進行正確地建模,在步驟27中使用部分補償方式。為了對主觀測試中的中等線性頻率響應失真的不可感知性進行建模,使用被測試系統(tǒng)的轉(zhuǎn)移特性對參考信號進行部分濾波。這通過以下方式來實現(xiàn):針對所有語音活動幀計算原始音調(diào)功率密度和劣化音調(diào)功率密度的平均功率譜。根據(jù)劣化譜與原始譜之比來計算27每個巴克頻段(Bark bin)的部分補償因子。
掩蔽效應的建模,音調(diào)響度密度激活的計算
在步驟30和58中,通過計算音調(diào)功率密度的模糊化表示來對掩蔽進行建模。時域模糊化(smearing)和頻域模糊化兩者按照如圖5a至圖5c所示的原理被考慮在內(nèi)。時頻域模糊化使用了卷積方式。根據(jù)該模糊化表示,參考音調(diào)功率密度和劣化音調(diào)功率密度的表示被重新計算,從而抑制了低幅值時頻分量,低幅值時頻分量在時間-頻率平面中被鄰近的大響度分量部分地掩蔽。抑制通過兩種方式實現(xiàn):從非模糊化表示中減去模糊化表示;以及非模糊化表示除以模糊化表示。然后,使用下述Zwicker功率定律的改進版將所得到的音調(diào)功率密度的銳化表示變換為音調(diào)響度密度表示:
其中,SL為響度縮放因子,P0(f)為絕對聽覺閾值,fB和Pfn為定義如下的基于頻率和響度的校正:
fB=-0.03*f+1.06當f<2.0巴克
fB=1.0當2.0≤f≤22巴克
fB=-0.2*(f-22.0)+1.0當f>22.0巴克
Pfn=(PPX(f)n+600)0.008
其中,f表示單位為巴克的頻率,PPX(f)n為頻率時間單元(frequency time cell)f,n中的音調(diào)功率密度。在針對參考信號X(t)的步驟30的輸出處以及在針對劣化信號Y(t)的步驟58的輸出處,所分別得到的二維陣列LX(f)n和LY(f)n被稱為音調(diào)響度密度。
參考信號和劣化信號中的全局低水平噪聲抑制
由于絕對分類評級測試步驟,受測者將參考信號中未受到被測試系統(tǒng)(例如,透明系統(tǒng))影響的低水平噪聲歸因于該被測試系統(tǒng)。因此,在計算參考信號的內(nèi)部表征的過程中,必須將這些低水平噪聲抑制。在步驟33中,通過針對超級靜音幀計算作為音調(diào)函數(shù)的、參考信號的平均穩(wěn)態(tài)噪聲響度密度LX(f)n來進行“理想化處理”。然后,從參考信號的所有音調(diào)響度密度幀中部分地減去平均噪聲響度密度。在步驟33的輸出處,其結(jié)果為參考信號的理想化內(nèi)部表征。
劣化信號中可被聽到的穩(wěn)態(tài)噪聲相對于較非穩(wěn)態(tài)噪聲而言造成較低的影響。這適用于所有水平的噪聲,該效應的影響可通過將穩(wěn)態(tài)噪聲從劣化信號中部分地移除來進行建模。這在步驟60中,通過針對一些幀計算作為音調(diào)函數(shù)的、劣化信號的平均穩(wěn)態(tài)噪聲響度密度LY(f)n來實現(xiàn),針對這些幀,參考信號的與這些幀對應的幀被歸類為超級靜音。然后,從劣化信號的所有音調(diào)響度密度幀中部分地減去平均噪聲響度密度。對于低水平噪聲和高水平噪聲,使用不同的策略進行部分補償。對于低水平噪聲,補償是微不足道的,而所使用的抑制對于大響度加性噪聲而言變得更強。結(jié)果為具有加性噪聲的劣化信號的內(nèi)部表征61,該加性噪聲適用于表示使用參考信號的理想化無噪聲表示的聽音測試中所觀察到的主觀影響。
在上述步驟33種,除了進行全局低水平噪聲抑制,還針對參考信號幀中的每一個確定響度指示符32。響度指示符或響度值可被用來確定用于對特定類型失真進行加權(quán)的基于響度的加權(quán)因子。一旦提供了最終干擾密度142和143,針對算子7、8、9和10所提供的失真的四種表示,可在步驟125和125’中實現(xiàn)加權(quán)。
此處,響度水平指示符已在步驟33中進行確定,但是應當理解,可在方法的其他部分中針對每個參考信號幀確定響度水平指示符。在步驟33中,由于以下事實,確定響度水平指示符是可能的:已經(jīng)針對超級靜音幀確定了參考信號的平均穩(wěn)態(tài)噪聲響度密度LX(f)n,超級靜音幀則被用來針對所有參考幀構(gòu)建無噪聲參考信號。然而,這盡管有可能在步驟33中實現(xiàn),但卻不是最佳實施方式。
替代性地,可在步驟35之后的附加步驟中根據(jù)參考信號得到響度水平指示符(響度)。該附加步驟在圖1中被表示為具有虛線輸出(響度)32’的虛線框35’。如本領(lǐng)域普通技術(shù)人員所理解的,如果執(zhí)行了步驟35’,則不再需要從步驟33中得到響度水平指示符。
針對劣化信號與參考信號之間時變增益的失真音調(diào)響度密度的局部縮放(步驟34和步驟63)
增益的緩慢變化是聽不到的,并且小的改變在計算參考信號表示的過程中已經(jīng)得到了補償。在正確地計算出內(nèi)部表征之前,按照在以下兩個步驟進行所需的剩余補償:第一,在步驟34中針對劣化信號響度低于參考信號響度的信號水平,對參考信號進行補償;第二,在步驟63中針對參考信號響度低于劣化信號響度的信號水平,對劣化信號進行補償。
對于劣化信號顯示出嚴重信號損失(例如,在時間限幅情形下)的信號部分,第一補償34將參考信號朝向較低水平縮放??s放使得參考信號與劣化信號之間的剩余差表示時間限幅對局部感知語音質(zhì)量的影響。參考信號響度低于劣化信號響度的部分未被補償,因此,在該第一步驟中,加性噪聲和大響度的咔嗒聲(clicks)未被補償。
對于劣化信號顯示出咔嗒聲的信號部分以及對于靜音間隔中存在噪聲的信號部分,第二補償63將劣化信號朝向較低水平縮放??s放使得參考信號與劣化信號之間的剩余差表示咔嗒聲和緩慢變化加性噪聲對局部感知語音質(zhì)量的影響。盡管在靜音部分和語音活動部分兩者中補償了咔嗒聲,但是僅在靜音部分補償噪聲。
針對頻率響應失真的原始音調(diào)響度密度的部分補償(步驟35)
在步驟27中,已經(jīng)通過在音調(diào)功率密度域中對參考信號進行部分濾波對無法感知的線性頻率響應失真進行了補償。為了進一步糾正線性失真比非線性失真更不令人反感的事實,在步驟35中,在音調(diào)響度域中,對參考信號進行部分濾波。這通過以下方式來實現(xiàn):針對所有語音活動幀計算原始音調(diào)響度密度和劣化音調(diào)響度密度的平均功率譜。根據(jù)劣化響度譜與原始限度譜之比來計算每個巴克頻段的部分補償因子。該部分補償因子被用來對參考信號進行濾波,該參考信號具有被測試系統(tǒng)的經(jīng)平滑較低幅值的頻率響應。在該濾波之后,由線性頻率響應失真所導致的參考音調(diào)響度密度與劣化音調(diào)響度密度之間的差被減小到一水平,該水平表示線性頻率響應失真對所感知的語音質(zhì)量的影響。
音調(diào)響度密度的最終縮放和噪聲抑制
到此點為止,如在主觀試驗中所使用的那樣,對信號的所有計算在播放水平上進行。對于低播放水平,這將在參考音調(diào)響度密度與劣化音調(diào)響度密度之間產(chǎn)生小的差,并且通常產(chǎn)生對聽音語音質(zhì)量的樂觀得多的估計。為了對該效應進行補償,現(xiàn)在在步驟64中,將劣化信號朝向“虛擬”固定內(nèi)部水平縮放。在該縮放之后,在步驟36中,將參考信號朝向劣化信號水平縮放,并且此時參考信號和劣化信號兩者準備好分別用于在步驟37和65中進行最終噪聲抑制操作。噪聲抑制對響度域中的穩(wěn)態(tài)噪聲水平中、仍然對語音質(zhì)量計算具有很大影響的最后部分進行處理。所得到的信號13和14處于感知相關(guān)內(nèi)部表征域(perceptual relevant internal representation domain),并且根據(jù)理想音調(diào)-響度-時間函數(shù)LX理想(f)n 13和劣化音調(diào)-響度-信號函數(shù)LY劣化(f)n 14,可計算出干擾密度142和143。理想音調(diào)-響度-時間函數(shù)和劣化音調(diào)-響度-信號函數(shù)的四個不同變型在7、8、9和10中計算,兩個變型(7和8)重點在于針對正常和大失真的干擾,以及兩個變型(9和10)重點在于針對正常和大失真的增加的干擾。
最終干擾密度的計算
計算兩種不同的干擾密度142和143。第一種,即正常干擾密度在7和8中根據(jù)理想音調(diào)-響度-時間函數(shù)LX理想(f)n與劣化音調(diào)-響度-信號函數(shù)LY劣化(f)n的差得到。第二種在9和10中使用相對于所引入的劣化已經(jīng)被優(yōu)化的版本根據(jù)理想音調(diào)-響度-時間函數(shù)和劣化音調(diào)-響度-信號函數(shù)得到并且被稱為增加的干擾。在該增加的干擾的計算中,劣化功率密度大于參考功率密度的信號部分被加權(quán)一因子(非對稱因子),該因子取決于每個音調(diào)-時間單元中的功率比。
為了能夠應對大范圍失真,進行了兩種不同版本的處理,一種基于7和9重點在于小失真至中等失真,以及一種基于8和10重點在于中等失真至大失真。兩者之間的切換基于第一估計,第一估計來自重點在于小水平失真至中等水平失真的干擾。這一處理方式導致需要計算四種不同的理想音調(diào)-響度-時間函數(shù)和四種不同的劣化音質(zhì)-響度-時間函數(shù)以能夠計算單個干擾和單個增加的干擾函數(shù)(見圖3),而單個干擾和單個增加的干擾函數(shù)則針對多種不同類型的大量具體失真得到補償。
最佳聽音水平的嚴重偏移在127和127’中通過直接由劣化信號的信號水平得到的指示符進行量化。在MOS-LQO的計算中也使用了全局指示符(水平)。
幀重復所引入的嚴重失真在128和128’中通過一指示符進行量化,該指示符由參考信號的連續(xù)幀的相關(guān)性與劣化信號的連續(xù)幀的相關(guān)性的比較來得到。
與劣化信號的最佳“理想”音色的嚴重偏移在129和129’中通過一指示符進行量化,該指示符由較高頻帶與較低頻帶之間的響度差得到。音色指示符根據(jù)劣化信號的巴克頻帶低頻部分的2巴克至12巴克與較高范圍的7至17巴克之間的響度差(即,使用5巴克重疊)來進行計算,響度差“處罰”了任何嚴重的不平衡,而不考慮以下事實:這可能是參考信號我那件的不正確聲音音色的結(jié)果。針對每個幀并且在全局水平上進行補償。該補償計算了劣化信號的較低巴克頻帶和較高巴克頻帶(小于12巴克并且大于7巴克,即使用5巴克重疊)中的功率,并且響度差“處罰”了任何嚴重的不平衡,而不考慮以下事實:這可能是參考信號我那件的不正確聲音音色的結(jié)果。應當注意,在POLQA端到端語音質(zhì)量測量中,使用記錄不佳的參考信號的、包含過多噪聲和/或不正確聲音音色的透明鏈因此不會提供最大MOS分數(shù)。當測量透明裝置的質(zhì)量時,該補償同樣具有影響。當所使用的參考信號顯示出與最佳“理想”音色的很多偏移時,被測試系統(tǒng)將被判定為不透明,即使該系統(tǒng)未在參考信號中引入任何劣化。
干擾中的嚴重的影響在130和130'中通過平整度(FLATNESS)指示符被量化,平整度指示符也用在MOS-LQO的計算中。
將受測者的注意力集中到噪聲的嚴重噪聲水平變化在131和131'中通過噪聲對比度指示符被量化,噪聲對比度指示符由對應的參考信號幀為靜音幀的劣化信號幀得到。
在步驟133和133'中,進行加權(quán)操作以基于干擾是否與實際口頭聲音(spoken voice)相一致來對該干擾進行加權(quán)。為了評估劣化信號的質(zhì)量,靜音階段期間所感知的干擾并不被認為與實際口頭聲音期間所感知的干擾一樣不利。因此,基于在步驟33(或者可替代地步驟35')中根據(jù)參考信號所確定的響度指示符,確定加權(quán)值以對干擾進行加權(quán)。加權(quán)值被用于對差函數(shù)(即,干擾)進行加權(quán)從而將干擾對劣化語音信號的質(zhì)量的影響合并到評估中。特別地,由于加權(quán)值是基于響度指示符進行確定的,所以加權(quán)值可被表示為基于響度的函數(shù)。基于響度的加權(quán)值可通過將響度與閾值相比較來確定。如果響度指示符超過閾值,則在進行評估時將所感知的干擾完全考慮在內(nèi)。另一方面,如果響度值小于閾值,則加權(quán)值基于響度級指示符;即,在本示例中,加權(quán)值等于響度級指示符(在響度小于閾值的體系中)。優(yōu)點為:對于語音信號的例如在暫停或靜音之前所說出的詞(spoken word)的末端處的微弱部分,干擾被部分地認為對質(zhì)量不利。作為一個示例,應當理解的是,在詞末說出字母“f”時所感知的一定量的噪聲可能會使聽者將其感知為字母“s”。這將對質(zhì)量不利。另一方面,本領(lǐng)域普通技術(shù)人員應當理解,當響度值低于上述閾值時,也可以通過將加權(quán)值變?yōu)榱銇砗唵蔚睾雎造o音或暫停期間的任何噪聲。
再次回到圖3,在對齊過程期間,對該對齊過程期間發(fā)生的嚴重跳變進行檢測,并且在步驟136和136'中通過補償因子對該影響進行量化。
最后,將干擾密度和增加的干擾密度在137和137'中限幅到最大水平,并且使用干擾138和138'的方差以及跳變140和140'對參考信號的響度的影響來對干擾的特定時間結(jié)構(gòu)進行補償。
這得到針對規(guī)則干擾的最終干擾密度D(f)n 142和針對增加的干擾的最終干擾密度DA(f)n 143。
干擾隨音調(diào)、突發(fā)和時間的聚集,到中間MOS得分的映射
在音調(diào)軸上針對每一幀的最終干擾密度D(f)n 142和最終增加的干擾密度DA(f)n143求積分,從而產(chǎn)生兩個不同的每幀干擾,一個使用L1積分153并且由干擾得到,以及另一個使用L1積分159并且由增加的干擾得到(參見圖4):
其中,Wf為與巴克頻段成比列的一系列常數(shù)。
接下來,在6個連續(xù)的語音幀上分別使用針對干擾的L4 155加權(quán)和針對增加的干擾的L1 160加權(quán)對這兩個每幀干擾求平均值,定義為語音突發(fā)。
最后,針對每個文件根據(jù)L2 156和161隨時間的平均值(averaging over time)來計算干擾和增加的干擾。
針對大響度混響和大響度加性噪聲使用混響指示符42和噪聲指示符43在步驟161中對增加的干擾進行補償。然而,兩種干擾與頻率指示符41(頻率)結(jié)合170以得到內(nèi)部指示符,該內(nèi)部指示符通過三階回歸多項式進行線性化以得到類MOS(MOS like)中間指示符171。
最終POLQA MOS-LQO的計算
在步驟175中使用以下四種不同的補償根據(jù)類MOS中間指示符得到未處理POLQA分數(shù):
針對干擾的特定時頻特性的兩種補償,一種使用在頻率148、突發(fā)149和時間150上的L511聚集來進行計算,以及一種使用在頻率145、突發(fā)146和時間147上的L313聚集來進行計算;
針對很低呈現(xiàn)(presentation)水平使用水平指示符的一種補償;
針對大的音色失真在頻域中使用平整度指示符的一種補償。
該映射的訓練在大集合劣化上進行,包括不是POLQA基準的一部分的劣化。這些未處理MOS分數(shù)176所針對的是主要部分,該主要部分已經(jīng)被類MOS中間指示符171的計算中使用的三階多項式映射所線性化。
最后,在180中,使用三階多項式將未處理POLQA MOS分數(shù)176映射到MOS-LQO分數(shù)181',針對POLQA標準化的最終階段中可用的62個數(shù)據(jù)庫對該多項式進行了優(yōu)化。在輸出處提供MOS-LQO分數(shù)181之前,可針對某些特定類型的干擾補償從步驟180得到的分數(shù)181'。例如,在步驟182種,MOS-LQO分數(shù)可被乘以CVC補償因子270(其可如下文所述進行計算)。此外,根據(jù)本發(fā)明的高頻帶噪聲補償因子(即,MOS噪聲補償因子CF噪聲,高頻)可在步驟183中被減去以在輸出處提供MOS-LQO 181。盡管在下文所述的圖7的實施例中所計算的高頻帶噪聲補償因子CF噪聲,高頻被縮放以使用CF噪聲,高頻從而將其從分數(shù)181'中減去(或者可選地,從圖4所示的步驟182的經(jīng)補償輸出中減去),但是在不同的實施例中,高頻帶噪聲補償因子可被替代性地提供為乘數(shù)。
在窄帶模式中,最大POLQA MOS-LQO分數(shù)為4.5,而在超寬帶模型中,該分數(shù)為4.75。理想化處理的重要結(jié)果為在某些情況下,當參考信號包含噪聲或者當聲音音色被嚴重失真時,透明鏈將不會提供窄帶模式中的最大MOS分數(shù)4.5或者超寬帶模式中的4.75。
輔音-元音-輔音補償
可選地,POLQA方法可包括輔音-元音-輔音補償,按照如下方式來實現(xiàn)。在圖1中,參考信號幀220和劣化信號幀240可按上文所述的方式得到。例如,可從將參考信號扭曲到巴克的步驟21中得到參考信號幀220,而可從針對劣化信號所進行的相應步驟54中得到劣化信號幀。如圖1所示的、根據(jù)本發(fā)明的方法得到參考信號幀和/或劣化信號幀的精確位置僅僅是示例。參考信號幀220和劣化信號幀240可從圖1中的任何其他步驟中得到,特別是從介于參考信號X(t)3的輸入與步驟26中到劣化水平的全局和局部縮放(global and local scaling to the degraded level)之間的某一處中得到。劣化信號幀可從介于劣化信號Y(t)5的輸入與步驟54之間的任一處中得到。
輔音-元音-輔音補償如圖6所示。首先,在步驟222中,在期望的頻域內(nèi)計算參考信號幀220的信號功率。對于參考幀,最佳情形下的該頻域僅包括語音信號(例如,介于300赫茲與3500赫茲的頻率范圍)。然而,在步驟224中,通過將所計算的信號功率與第一閾值228和第二閾值229相比較來就是否包括該參考幀作為活動語音參考幀進行選擇。如POLQA(ITU-T推薦P.863)中所述,當使用參考信號的縮放時,第一閾值例如可以等于7.0×104,并且相似地第二閾值可以等于2.0×2×108,在步驟225中,通過將所計算的信號功率與第三閾值230和第四閾值231相比較來選擇對應于軟語音參考信號(輔音的關(guān)鍵部分)的參考信號幀以進行處理。第三閾值230可例如等于2.0×107,以及第四閾值可等于7.0×107。
步驟224和225得到分別對應于活動幀部分和軟語音幀部分的參考信號幀,即,活動語音參考信號部分幀234和軟語音參考信號部分幀235。這些幀被提供到下文中將要討論的步驟260。
與參考信號的相關(guān)信號部分的計算完全相似,首先,在步驟242中,劣化信號幀240被分析以用于計算期望的頻域中的信號功率。對于劣化信號幀,有利的是在包括口頭聲音頻率范圍的頻率范圍內(nèi)以及在存在大多數(shù)可聽噪聲的頻率范圍內(nèi)計算信號功率,例如介于300赫茲與8000赫茲的頻率范圍。
根據(jù)步驟242中所計算的信號功率,相關(guān)幀(即,與相關(guān)參考幀相關(guān)聯(lián)的幀)被選擇。選擇發(fā)生在步驟244和245中。在步驟245中,針對每個劣化信號幀,確定其是否與步驟225中被選擇為軟語音參考信號幀的參考信號幀時間對齊。如果劣化幀與軟語音參考信號幀時間對齊,則該劣化幀被識別為軟語音劣化信號幀,并且所計算的信號功率將在步驟260中的計算中使用。否則,該幀被丟棄作為軟語音劣化信號幀用于在步驟247中計算補償因子。在步驟244中,針對每個劣化信號幀,確定其是否與步驟224中被選擇為活動語音參考信號幀的參考信號幀時間對齊。如果劣化幀與活動語音參考信號幀時間對齊,則該劣化幀被識別為活動語音劣化信號幀,并且所計算的信號功率將在步驟260中的計算中使用。否則,該幀被丟棄作為活動語音劣化信號幀用于在步驟247中計算補償因子。這得到被提供到步驟260的軟語音劣化信號部分幀254和活動語音劣化信號部分幀255。
步驟260接收以下各項作為輸入:活動語音參考信號部分幀234、軟語音參考信號部分幀235、軟語音劣化信號部分幀254和活動語音劣化信號部分幀255。在步驟260中,這些幀的信號功率被處理以確定針對活動語音參考信號部分和軟語音參考信號部分以及針對活動語音劣化信號部分和軟語音劣化信號部分的平均功率,并且據(jù)此(同樣在步驟260中)計算輔音-元音-輔音信噪比補償參數(shù)(CVCSNR_因子)如下:
參數(shù)Δ1和Δ2為用來適配模型的行為與受測者的行為的常數(shù)值。該公式中的其他參數(shù)如下:P活動,參考,平均為平均活動語音參考信號部分信號功率。參數(shù)P軟,參考,平均為平均軟語音參考信號部分信號功率。參數(shù)P活動,劣化,平均為平均活動語音劣化信號部分信號功率,以及參數(shù)P軟,劣化,平均為平均軟語音劣化信號部分信號功率。在步驟260的輸出處,提供了輔音-元音-輔音信噪比補償參數(shù)CVCSNR_因子。
在步驟262中,將CVCSNR_因子與本示例中的閾值0.75相比較。如果CVCSNR_因子大于該閾值,則在步驟265中將補償因子確定為等于1.0(不發(fā)生補償)。在CVCSNR_因子小于閾值(此處為0.75)的情況下,在步驟267中補償因子計算如下:補償因子=(CVCSNR_因子+0.25)1/2(注意,值0.25取值為等于1.0-0.75得到,其中,0.75為用于比較CVCSNR_因子的閾值)。由此提供的補償因子270在圖4的步驟182中被用作針對MOS-LQO分數(shù)(即,總體質(zhì)量參數(shù))的乘數(shù)。正如將要理解的那樣,補償(例如,相乘)不必須在步驟182中發(fā)生,而可被合并到步驟175或180之一中(在這種情況下步驟182將從圖4的示圖中消失)。然而,在本示例中,補償通過將MOS-LQO分數(shù)乘以如上所述計算的補償因子來實現(xiàn)。應當理解的是,補償也可采用另一形式。例如,同樣有可能取決于CVCSNR_因子而從所得到的MOS-LQO中減去一個變量或者在其上加上一個變量。本領(lǐng)域普通技術(shù)人員將按照本本發(fā)明的教示理解和識別補償?shù)钠渌饬x。
高頻帶噪聲影響補償
根據(jù)本發(fā)明,POLQA方法還包括補償MOS-LQO分數(shù)以適當解決噪聲在較高頻率范圍(即大于3000Hz)的影響。ITU-T建議P.863-POLQA-使得能夠?qū)挿秶д嬷械恼Z音失真進行預測。然而,在某些類型的高級語音信號處理的情況下,某些失真的影響未被正確預測。本發(fā)明通過補償MOS-LQO分數(shù)來解決該問題。一個問題為噪聲對所謂的空語音帶(empty speech bands)的影響。在語音帶寬小于掩蔽噪聲(masking noise)的帶寬的情形下,噪聲對所感知的語音質(zhì)量的影響未被正確預測。然而,補償MOS-LQO在以下情況下不太重要:語音信號在3000Hz以上頻率范圍同樣具有很大的非零分量。
本發(fā)明使得能夠?qū)υ谖窗l(fā)現(xiàn)語音能量或發(fā)現(xiàn)很少語音能量的頻帶中所發(fā)現(xiàn)的噪聲的影響進行正確的預測。所知的最佳示例為將標準清晰度語音傳輸(帶寬50-3500Hz)中所發(fā)現(xiàn)的窄帶語音信號適配為在具有寬帶掩蔽噪聲背景的環(huán)境中使用這些信號。其他示例為在語音會議中將標準清晰度窄帶語音與高清晰度寬帶語音(帶寬50-7000Hz)相混合。
在本發(fā)明的方法中,正如圖7中的實施例所示,計算了校正因子300,在步驟183中,校正因子300被用來對由POLQA P.863所輸出的最終客觀平均評分(Objective Mean Opinion Score,MOS-LQO)進行校正。然而,該補償在客觀語音質(zhì)量測量系統(tǒng)所作的任何預測模型中也可被更普遍地使用。例如,本發(fā)明可被應用于補償較早的預測模型PSQM(ITU-T建議P.861,1996)或PESQ(ITU-T建議P.862,2000)。此處所述的實施例可被方便地用于通過提供補償因子(即,高頻帶噪聲水平補償因子)來校正這些預測的分數(shù),補償因子可被從所得到的預測的分數(shù)中減去。該因子可被計算如下。
首先,參考語音文件被用來確定一組靜音幀,在經(jīng)對齊的劣化語音文件中的該組靜音幀處未發(fā)現(xiàn)語音活動或者發(fā)現(xiàn)微不足道的語音活動。如上所述,在圖1的步驟25中進行對參考系你好幀的靜音幀或超級靜音幀的識別。靜音幀和/或超級靜音幀(其中的一個或另一個或者兩者)可被用作候選幀275以供圖7的步驟277使用。這些候選幀275和劣化信號幀240被輸入到識別步驟277。在步驟277中,劣化信號幀要么被分類為靜音劣化信號幀279要么被分類為非靜音劣化信號幀280。劣化信號幀240的該分類基于:步驟277的輸入處的劣化信號幀240通過步驟6中所得到的幀對是否與步驟25中所確定的被分類為候選幀275的參考信號幀相關(guān)聯(lián)。
在步驟282處,針對劣化信號的所有靜音幀279,確定較高頻帶(高于3000Hz)中的噪聲量,并且根據(jù)該組幀,確定較高頻帶中的平均噪聲水平。這可在步驟282中通過以下方式來完成:計算這些幀在頻率閾值3000Hz以上的信號功率,對所有靜音幀的所有信號功率求和,并且除以靜音幀的數(shù)量以將靜音幀的平均信號功率建立為噪聲水平參數(shù)值(P噪聲,劣化,高頻,平均)??蛇x地,在步驟285中,噪聲水平參數(shù)值286可通過閾值最大值(MAX)283來最大化以避免后續(xù)步驟中對MOS過度補償。在本實施例中,閾值最大值283可例如被設定為2.0;然而,噪聲水平參數(shù)值286的任何期望最大值(例如,1.5≤最大值≤2.5)可被使用。如果需要,可省去步驟285。噪聲水平參數(shù)值286將被用作步驟288和295的輸入。
相似地,在步驟284處,針對所有非靜音幀280,確定較高頻帶(高于頻率閾值;例如3000Hz)中的能量的量,并且根據(jù)該組幀,確定較高頻帶中的平均活動水平。與步驟282中確定平均噪聲水平類似,可在步驟284中通過如下方式確定平均活動水平:計算這些非靜音(即,語音活動)幀在頻率閾值(3000Hz)以上的信號功率,對所有非靜音語音活動幀的所有信號功率求和,并且除以語音活動幀的數(shù)量以將語音活動幀的平均信號功率建立為活動水平參數(shù)值287(P活動,劣化,高頻,平均)。
該方法通過從語音活動幀的較高頻帶中的平均活動水平287中減去靜音幀的較高頻帶中的平均噪聲水平286進行到步驟288。這產(chǎn)生了高頻帶差值(ΔP高頻=P活動,劣化,高頻,平均–P噪聲,劣化,高頻,平均),其為后續(xù)用于計算加權(quán)因子w的輔助參數(shù)。如果高頻帶差值ΔP高頻小于下界(最小值)291,則該值在步驟290中被設定為該下界。在實際實施例中,下界291可例如被設定為最小值=11.0。
為了計算高頻帶噪聲水平補償300,在步驟293中使用高頻差值(ΔP高頻)計算加權(quán)因子w 294如下,其中,Cwf為乘數(shù)常數(shù)(針對質(zhì)量評估Cwf=1.2):
w=Cwf/ΔPh高頻
為了得到MOS-LQO補償因子300(在本發(fā)明中也被稱為“高頻帶噪聲水平補償因子”),在步驟295中,靜音幀中的平均噪聲水平286被乘以加權(quán)因子w,從而得到:
CF噪聲,高頻=w*P噪聲,劣化,高頻,平均=(Cwf*P噪聲,劣化,高頻,平均)/ΔP高頻
在步驟183中從POLQA所輸入的客觀平均評分MOS-LQO中減去MOS噪聲補償因子CF噪聲,高頻300從而得到經(jīng)修正MOS-LQO 181,經(jīng)修正MOS-LQO181示出了與主觀感知的語音質(zhì)量更好的相關(guān)性。
針對所述實施例如上所示的使用參數(shù)的高頻帶噪聲影響補償被調(diào)節(jié)和優(yōu)化以對針對高頻噪聲對劣化信號的質(zhì)量評估的影響的MOS LQO分數(shù)進行補償。在不同的實施方式中,高頻帶噪聲影響補償可被相似地應用以對針對高頻帶噪聲對清晰度(intelligibility)評估的影響的MOS LQO分數(shù)進行補償。劣化信號的清晰度和質(zhì)量相互的區(qū)別在于這些特性以不同方式進行評估,正如人類所感知的那樣。其中,質(zhì)量涉及音頻信號本身,清晰度涉及信息的轉(zhuǎn)移。因此,在補償被應用于清晰度評估的情況下,將使用高頻帶噪聲影響補償?shù)膮?shù)的不同優(yōu)化。因此,將理解的是,示例性參數(shù)值和乘數(shù)可根據(jù)應用的不同而取不同值,示例性參數(shù)比如為頻率閾值、高頻帶差值ΔP高頻的下界(最小值)、噪聲水平參數(shù)值P噪聲,劣化,高頻,平均的上界(最大值)或者用于計算加權(quán)值w的乘數(shù)常數(shù)(大于1.2)。
此處,提供上面提及的參數(shù)的指示性范圍,這些參數(shù)在這些范圍之間可被優(yōu)化。示例性范圍不應當被解釋為限制本發(fā)明,而應當被解釋為向應用本發(fā)明的本領(lǐng)域普通技術(shù)人員指示實現(xiàn)合適結(jié)果的范圍。與質(zhì)量的評估相比,針對清晰度的評估所選擇的值可以不同。例如,頻率閾值可在2500Hz余4000Hz之間進行選擇,優(yōu)選地在2700Hz與4000Hz之間進行選擇,盡管對于清晰度評估以及質(zhì)量評估,已經(jīng)使用3000Hz得到了好的結(jié)果。此外,高頻帶差值ΔP高頻的下界(最小值)可以為8.0≤最小值≤11.0;對于質(zhì)量評估,最佳值在11.0處,而對于清晰度評估,最佳值在9.0處。此外,噪聲水平參數(shù)值P噪聲,劣化,高頻,平均的上界(最大值)可以為1.0≤最大值≤3.0;對于質(zhì)量評估,最佳值在2.0處,而對于清晰度評估,最佳值在1.5處。此外,用于計算加權(quán)值w的乘數(shù)常數(shù)Cwf可以介于1.0與2.0之間,優(yōu)選地介于1.2與1.7之間。對于質(zhì)量評估,最佳值在Cwf=1.2,而對于清晰度評估,最佳值在Cwf=1.5處。
本發(fā)明可以按照不同于本文中的具體描述的方式進行實施,并且本發(fā)明的范圍不受上述具體實施例和所附附圖的限制,而是可在如權(quán)利要求所限定的范圍內(nèi)變化。
附圖標記
3 參考信號X(t)
5 劣化信號Y(t),幅值-時間
6 時延標識,形成幀對
7 差計算
8 差計算的第一變型
9 差計算的第二變型
10 差計算的第三變型
12 差信號
13 內(nèi)部理想音調(diào)-響度-時間LX理想(f)n
14 內(nèi)部劣化音調(diào)-響度-時間LY劣化(f)n
17 朝向固定水平的全局縮放
18 加窗FFT
20 縮放因子SP
21 扭曲到巴克
25 (超級)靜音幀檢測
26 全局及局部縮放到劣化水平
27 部分頻率補償
30 激活和扭曲到宋
31 絕對閾值縮放因子SL
32 響度
32’ (根據(jù)替代性步驟35’所確定的)響度
33 全局低水平噪聲抑制
34 Y<X情況下的局部補償
35 部分頻率補償
35’ (替代性)確定響度
36 朝向劣化水平的縮放
37 全局低水平噪聲抑制
40 頻率、噪聲、混響指示符
41 頻率指示符
42 噪聲指示符
43 混響指示符
44 PW_R總體指示符(劣化信號與參考信號之間的總體音頻功率比)
45 PW_R總體指示符(劣化信號與參考信號之間的每幀音頻功率比)
46 朝向播放水平的縮放
47 校準因子C
49 加窗FFT
52 頻率對齊
54 扭曲到巴克
55 縮放因子SP
56 劣化信號音調(diào)-功率-時間PPY(f)n
58 激活和扭曲到宋
59 絕對閾值縮放因子SL
60 全局高水平噪聲抑制
61 劣化信號音調(diào)-響度-時間
63 Y>X情況下的局部補償
64 朝向固定內(nèi)部水平的縮放
65 全局高水平噪聲抑制
70 參考頻譜
72 劣化頻譜
74 當前幀和+/-1周圍幀的參考音調(diào)和劣化音調(diào)之比
77 預處理
78 消除FFT譜中的窄的尖峰和下降
79 對譜取對數(shù),應用針對最小強度的閾值
80 使用滑動窗來整平總體對數(shù)譜形狀
83 優(yōu)化環(huán)
84 扭曲因子的范圍:[最小音調(diào)比<=1<=最大音調(diào)比]
85 扭曲劣化頻譜
88 應用預處理
89 針對小于1500Hz的頻段計算譜的相關(guān)性
90 追蹤最佳扭曲因子
93 扭曲劣化頻譜
94 應用預處理
95 針對小于3000Hz的頻段計算譜的相關(guān)性
97 如果相關(guān)性足夠大,則保留經(jīng)扭曲的劣化譜;否則,恢復原始
98 限制扭曲因子從一個幀到下一幀的變化
100 理想常規(guī)
101 劣化常規(guī)
104 理想大失真
105 劣化大失真
108 理想增加
109 劣化增加
112 理想增加的大失真
113 劣化增加的大失真
116 干擾密度常規(guī)選擇
117 干擾密度大失真選擇
119 增加的干擾密度選擇
120 增加的干擾密度大失真選擇
121 切換函數(shù)123的PW_R總體輸入
122 切換函數(shù)123的PW_R幀輸入
123 大失真判定
125 針對大量特定失真的校正因子
125’ 針對大量特定失真的校正因子
127 水平
127’ 水平
128 幀重復
128’ 幀重復
129 音色
129’ 音色
130 譜平整度
130’ 譜平整度
131 靜音時段的噪聲對比度
131’ 靜音時段的噪聲對比度
133 基于響度的干擾加權(quán)
133’ 基于響度的干擾加權(quán)
134 參考信號的響度
134’ 參考信號的響度
136 對齊跳變
136’ 對齊跳變
137 限幅到最大劣化
137’ 限幅到最大劣化
138 干擾方差
138’ 干擾方差
140 響度跳變
140’ 響度跳變
142 最終干擾密度D(f)n
143 最終增加的干擾密度DA(f)n
145 L3頻率積分
146 L1突發(fā)積分
147 L3時間積分
148 L5頻率積分
149 L1突發(fā)積分
150 L1時間積分
153 L1頻率積分
155 L4突發(fā)積分
156 L2時間積分
159 L1頻率積分
160 L1突發(fā)積分
161 L2時間積分
170 映射到中間MOS分數(shù)
171 類MOS中間指示符
175 MOS尺度補償
176 未處理MOS分數(shù)
180 映射到MOS-LQO
181 MOS LQO
181’ 通過步驟182和/或步驟183校正之前的MOS LQO
182 CVC清晰度補償
183 高頻帶噪聲影響補償
185 短正弦音強度隨時間的變化
187 短正弦音
188 第二短正弦音的掩蔽閾值
195 短正弦音強度隨頻率的變化
198 短正弦音
199 第二短正弦音的掩蔽閾值
205 3D圖中強度隨頻率和時間的變化
211 導致銳化內(nèi)部表征的被用作抑制強度的掩蔽閾值
220 參考信號幀(另見圖1)
222 確定語音域(例如300Hz-3500Hz)的信號功率
224 將信號功率與第一和第二閾值相比較,如果在范圍內(nèi),則選擇
225 將信號功率與第三和第四閾值相比較,如果在范圍內(nèi),則選擇
228 第一閾值
229 第二閾值
230 第三閾值
231 第四閾值
234 活動語音參考信號幀的功率平均
235 軟語音參考信號幀的功率平均
240 劣化信號幀(另見圖1)
242 確定針對語音和可聽干擾的域(例如300Hz-8000Hz)中的信號功
244 劣化幀與所選擇的活動語音參考信號幀在時間上對齊?
245 劣化幀與所選擇的軟語音參考信號幀在時間上對齊?
247 作為活動/軟語音劣化信號幀被丟棄的幀
254 軟語音劣化信號幀的功率平均
255 活動語音劣化信號幀的功率平均
260 計算輔音-元音-輔音信噪比補償因子(CVCSNR_因子)
262 CVCSNR_因子是否小于補償閾值(例如0,75)
265 否→補償因子=1.0(不補償)
267 是→補償因子為(CVCSNR_因子+0.25)1/2
270 向步驟182提供補償值以用于補償MOS-LQO
275 通過(超級)靜音幀檢測(步驟25)所識別的候選幀
277 劣化信號幀的分類:靜音/非靜音
279 靜音幀
280 語音活動幀
282 確定頻率高于3000Hz的靜音幀的信號平均功率
283 針對噪聲水平參數(shù)值286的閾值(MAX)
284 確定頻率高于3000Hz的語音活動幀的信號平均功率
285 使噪聲水平參數(shù)值最大化
286 噪聲水平參數(shù)值
287 活動水平參數(shù)值
288 高頻帶差值
290 使高頻帶差值最小化
291 針對高頻帶差值的閾值(MIN)
293 計算加權(quán)值w
294 加權(quán)值w
295 將噪聲水平參數(shù)值乘以加權(quán)值w
300 高頻帶噪聲補償因子CF噪聲,高頻