用于確定語音信號的質(zhì)量的方法和設(shè)備的制作方法

文檔序號：2835316閱讀：200來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：用于確定語音信號的質(zhì)量的方法和設(shè)備的制作方法
A.發(fā)明背景本發(fā)明屬于諸如音頻、語音和話音信號等聲音信號的質(zhì)量測量的技術(shù)領(lǐng)域。更具體地說，本發(fā)明涉及一種用于根據(jù)客觀測量技術(shù)相對參考信號確定從語音信號處理系統(tǒng)中接收到的一個輸出信號的語音質(zhì)量的方法和設(shè)備。這種方法和設(shè)備是已知的，例如從參考文獻(1，-，5)中獲知(對于有關(guān)這些參考文獻更詳細的書目細節(jié)，參見下面的C.參考文獻)。遵循ITU-T推薦標(biāo)準(zhǔn)P.861或者其后繼推薦標(biāo)準(zhǔn)P.862的方法和設(shè)備(參見參考文獻(6)和(7))也屬于這種類型。根據(jù)現(xiàn)在已知的技術(shù)，根據(jù)人類聽覺的心理物理感知模型將一個輸出信號和一個參考信號映射在表示信號上，所述輸出信號來自一個語音信號處理和/或傳輸系統(tǒng)(例如，無線電信系統(tǒng)、基于網(wǎng)際協(xié)議的話音傳輸系統(tǒng)和語音編譯碼器)，它通常是一個劣化的信號，并將確定其信號質(zhì)量。如同所引用的參考文獻中，可以將提供有獲得的輸出信號的系統(tǒng)的輸入信號用作一個參考信號。隨后，根據(jù)所述表示信號來確定一個差動信號(differential signal)，所述表示信號根據(jù)所使用的感知模型代表在輸出信號中出現(xiàn)的在系統(tǒng)內(nèi)遭受的干擾。差動或者干擾信號構(gòu)成根據(jù)表示模型的輸出信號偏離參考信號在程度上的表示。然后，根據(jù)一個認知模型來處理該干擾信號，在所述認知模型中已經(jīng)模擬了人類測試對象的某些屬性，從而獲得一個隨時間變化的質(zhì)量信號，該信號是輸出信號的聽覺感知質(zhì)量的測量值。
然而，遵循推薦標(biāo)準(zhǔn)P.862的已知技術(shù)(具體而言是方法和設(shè)備)具有下述缺點由于劣化信號中的極度微弱或靜寂部分所導(dǎo)致的并且包含參考信號中語音的嚴重失真可能導(dǎo)致一個質(zhì)量信號，該質(zhì)量信號具有與諸如人類測試對象的平均意見得分(MOS)等客觀確定的質(zhì)量測量值非常小的相關(guān)性。因為時間限制(time clipping)，即，例如在分組交換系統(tǒng)中丟失分組的情況下，用靜寂信號替代語音或音頻信號中的較短部分，可能會出現(xiàn)這樣的失真。在這種情況下，預(yù)測質(zhì)量明顯高于主觀感知的質(zhì)量。
B.發(fā)明概述本發(fā)明的一個目的是提供一種克服所述缺點的用于確定語音信號的質(zhì)量的改進的方法和相應(yīng)的設(shè)備。
特別地，本發(fā)明基于下面的觀察。受測試的系統(tǒng)的增益通常不是先驗可知的。因此，在處理輸出(劣化)信號和參考信號的主要步驟的初始化或預(yù)處理階段，通過應(yīng)用一個用于將輸出信號的功率整體或者全局定標(biāo)(scale)到一個特定功率電平的定標(biāo)因子，至少對輸出信號執(zhí)行一個定標(biāo)步驟。此特定的功率電平可以在諸如遵循推薦標(biāo)準(zhǔn)P.861的技術(shù)中與參考信號的功率電平有關(guān)，或者在遵循推薦標(biāo)準(zhǔn)P.862的技術(shù)中與一個預(yù)定的固定電平有關(guān)。定標(biāo)因子是輸出信號的平均功率的平方根的倒數(shù)值(reciprocal value)的函數(shù)。在劣化信號包括極度微弱或者靜寂部分的情況下，該倒數(shù)值增加成很大的數(shù)值。正是這樣的一個功率相關(guān)參數(shù)的倒數(shù)值的此行為可以以能夠更好地預(yù)測受測試的系統(tǒng)的主觀質(zhì)量的這樣一種方式被用于適應(yīng)失真計算。
本發(fā)明的另一個目的是分別提供一種上述類型的方法和設(shè)備，包括一個更好的可控制的定標(biāo)操作和用于這樣更好的可控制的定標(biāo)操作。
通過在上述種類的方法和設(shè)備中引入一個附加的第二定標(biāo)步驟來實現(xiàn)這個以及其它的目的，所述第二定標(biāo)步驟通過使用至少一個調(diào)整參數(shù)(但是最好是兩個調(diào)整參數(shù))應(yīng)用第二定標(biāo)因子來執(zhí)行。在優(yōu)選的情況下，第二定標(biāo)因子是提高到一個數(shù)值對應(yīng)于第一調(diào)整參數(shù)的指數(shù)的功率相關(guān)參數(shù)的倒數(shù)值的一個函數(shù)，在該函數(shù)中，將功率相關(guān)參數(shù)增加一個對應(yīng)于第二調(diào)整參數(shù)的值。該第二定標(biāo)步驟可以在該方法和設(shè)備的各個階段中執(zhí)行。
因為依然存在將導(dǎo)致不可靠的語音質(zhì)量預(yù)測的其它情況，所以定標(biāo)因子的使用依然具有其它的缺點，所述定標(biāo)因子是作為輸出信號的平均功率的已知平方根的一種功率相關(guān)參數(shù)的倒數(shù)值的一個函數(shù)。這樣的一種情況如下所述。兩個劣化的語音信號可能具有相同的平均功率值，所述兩個劣化的語音信號是受測試的具有相同輸入?yún)⒖夹盘柕膬蓚€不同語音信號處理系統(tǒng)的輸出信號。例如，一個信號僅在整個語音信號持續(xù)時間的很短時間內(nèi)具有很高的功率，而在其它時間內(nèi)具有非常低或者為零的功率，而另一個信號在整個語音持續(xù)時間內(nèi)具有相對低的功率。這樣的劣化的信號可能具有基本相同的語音質(zhì)量預(yù)測，但是它們在主觀體驗的語音質(zhì)量上可能明顯不同。
本發(fā)明的又一個目的是提供一種上述類型的方法和設(shè)備，其中引入一個定標(biāo)因子，所述方法和設(shè)備在如上所述具有基本相同的功率平均值的不同劣化信號的情況下也能夠產(chǎn)生可靠的語音質(zhì)量預(yù)測。
通過在上述類型的方法和設(shè)備的第一和/或第二定標(biāo)操作中使用兩個基于與平均信號功率不同的功率相關(guān)參數(shù)的兩個新的定標(biāo)因子來實現(xiàn)這個和其它的目的。第一新的定標(biāo)因子是一個稱作信號功率活動性(SPA)的新的功率相關(guān)參數(shù)的函數(shù)，所述信號功率活動性被定義為所關(guān)心的信號的功率高于或者等于一個預(yù)定閾值的整個持續(xù)時間。第一新的定標(biāo)因子被定義用于在第一定標(biāo)操作中定標(biāo)輸出信號，并且是輸出信號SPA的倒數(shù)值的函數(shù)。優(yōu)選地，第一新的定標(biāo)因子是參考信號的SPA和輸出信號的SPA之間比值的函數(shù)。這個第一新定標(biāo)因子可以與以平均信號功率為基礎(chǔ)的已知定標(biāo)因子相組合(例如相乘)或者替代其使用。可以根據(jù)稱作局部定標(biāo)因子(即，參考信號和輸出信號瞬時功率之比)獲得第二新定標(biāo)因子，其中在局部電平上引入調(diào)整參數(shù)?？梢栽趫?zhí)行第二定標(biāo)操作操作時分別在該方法和設(shè)備的組合階段中將第二新定標(biāo)因子的局部型式直接應(yīng)用于依然隨時間變化的差動信號。通過在語音信號的整個持續(xù)時間上首先平均局部定標(biāo)因子以及然后在執(zhí)行第二定標(biāo)操作時在信號組合階段中予以應(yīng)用，替代或者與使用根據(jù)在第一定標(biāo)操作中使用的(已知的和/或第一新的)定標(biāo)因子所獲得的定標(biāo)因子的定標(biāo)操作相組合，實現(xiàn)第二新定標(biāo)因子的全局型式。
在包含很長持續(xù)時間的非常低或者零功率部分的劣化語音信號的情況下，第一新定標(biāo)因子更為有利，而對于包含較短持續(xù)時間的類似部分的此類信號，則第二新定標(biāo)因子更為有利。
C.參考文獻[1]Beerends J.G.，Stemerdink J.A.，“根據(jù)心理聲學(xué)聲音表示的感知語音質(zhì)量測量(A perceptual speech-quality measurebased on a psychoacoustic sound representation)”，音頻工程協(xié)會雜志(J.Audio Eng.Soc.)，第42卷，第3期，1994年12月，第115-123頁。WO-A-96/28950；[3]WO-A-96/28952；[4]WO-A-96/28953；[5]WO-A-97/44779；[6]ITU-T推薦標(biāo)準(zhǔn)P.861，“電話頻帶(330-3400Hz)語音編譯碼器的客觀測量”，06/96；[7]ITU-T推薦標(biāo)準(zhǔn)P.862(02/2001)，系列出版物電話傳輸質(zhì)量、電話安裝、本地線路網(wǎng)絡(luò)(Telephone Transmission Quality，Telephone Installations，Local Line Networks)；質(zhì)量的客觀和主觀評估的方法-語音質(zhì)量的感性估計(PESQ)，一種窄帶電話網(wǎng)絡(luò)和語音編譯碼器的端到端語音質(zhì)量評估的客觀方法(an objectivemethod for end-to-end speech quality assessment of narrow-band telephone networks and speech codecs)。
參考文獻[1]-[7]作為參考引入在本申請中。
D.附圖的簡要描述將參考附圖通過示范性實施例的描述進一步解釋本發(fā)明，附圖包括

圖1示意性地圖示一個已知的系統(tǒng)結(jié)構(gòu)，包括一個用于確定語音信號的質(zhì)量的設(shè)備；圖2以方框圖的形式圖示一個用于確定語音信號的質(zhì)量的已知設(shè)備的細節(jié)；圖3以方框圖的形式圖示另一個已知設(shè)備的如圖2所示的類似細節(jié)；圖4以方框圖的形式圖示根據(jù)本發(fā)明如圖2或圖3所示的類似細節(jié)；圖5以方框圖的形式圖示一個根據(jù)本發(fā)明用于確定語音信號的質(zhì)量的設(shè)備，其中包括圖4所示細節(jié)的變型；圖6以圖5的方框圖的一部分圖示圖5所示設(shè)備的細節(jié)的變型；圖7以與圖6類似的方式圖示另一個變型。
E.優(yōu)選實施例的描述圖1示意性地圖示以人類聽覺感知和識別模型為基礎(chǔ)的一種客觀測量技術(shù)的應(yīng)用的已知結(jié)構(gòu)，所述人類聽覺感知和識別模型用于估計語音鏈路或編譯碼器的感知質(zhì)量，例如遵循ITU-T推薦標(biāo)準(zhǔn)P.861和P.862之一的一種模型。它包括一個受測試的系統(tǒng)或電信網(wǎng)絡(luò)10，在下文中簡稱為系統(tǒng)10；和一個對所提供的語音信號進行感知分析的質(zhì)量測量設(shè)備11。一方面將一個語音信號X0(t)用作網(wǎng)絡(luò)10的輸入信號，另一方面用作設(shè)備11的第一輸入信號X(t)。將網(wǎng)絡(luò)10的輸出信號Y(t)(實際上，這是受網(wǎng)絡(luò)10影響的語音信號X0(t))用作設(shè)備11的第二輸入信號。設(shè)備11的輸出信號Q代表經(jīng)網(wǎng)絡(luò)10的語音鏈路的感知質(zhì)量的估計。因為語音鏈路的輸入端和輸出端相距很遠，尤其在語音鏈路穿越一個電信網(wǎng)絡(luò)的情況下，對于質(zhì)量測量設(shè)備的輸入信號，在大多數(shù)情況下，使用存儲在數(shù)據(jù)庫內(nèi)的語音信號X(t)。在此，按照慣例，將語音信號理解為平均人類聽覺基本上可感知的每個聲音，例如語音和音調(diào)。受測試的系統(tǒng)當(dāng)然也可以是一個仿真系統(tǒng)，例如仿真一個電信網(wǎng)絡(luò)。設(shè)備11執(zhí)行一個主要處理步驟，它順序地包括在預(yù)處理部11.1內(nèi)由預(yù)處理裝置12執(zhí)行的一個預(yù)處理步驟；在處理部11.2內(nèi)由第一和第二信號處理裝置13和14執(zhí)行的一個再處理步驟；和在信號組合部11.3內(nèi)由信號差動裝置15和模擬(modelling)裝置16執(zhí)行的一個組合信號處理步驟。在預(yù)處理步驟中，為在裝置13和14中的再處理步驟準(zhǔn)備信號X(t)和Y(t)，預(yù)處理包括功率電平定標(biāo)和時間校準(zhǔn)操作。再處理步驟是指根據(jù)人類聽覺系統(tǒng)的心理物理感知模型將(劣化的)輸出信號Y(t)和參考信號X(t)映射在表示信號R(Y)和R(X)上。在組合信號處理步驟期間，由差動裝置15根據(jù)所述表示信號確定一個差動或干擾信號D，然后根據(jù)已經(jīng)模擬了人類測試對象某些屬性的認知模型由模擬裝置16處理所述信號，從而獲得質(zhì)量信號Q。
最近，已經(jīng)通過實驗得出公知的技術(shù)(具體而言，推薦標(biāo)準(zhǔn)P.862之一)存在一個嚴重的缺點，即在參考信號中未出現(xiàn)的由于劣化信號中極度微弱或靜寂部分所導(dǎo)致的嚴重失真可能導(dǎo)致質(zhì)量信號Q，這些質(zhì)量信號預(yù)測顯著高于主觀感覺質(zhì)量的質(zhì)量并因此與主觀確定的質(zhì)量測量結(jié)果(例如，人類測試對象的平均意見得分(MOS))的相關(guān)性很低。這種失真可能因為時間限制而出現(xiàn)，所述時間限制即在諸如分組交換系統(tǒng)中丟失分組的情況下使用靜寂代替語音或音頻信號內(nèi)較短的部分。
因為受測試的系統(tǒng)的增益通常不是先驗可知的，所以在初始化或者預(yù)處理階段期間，通過使用一個定標(biāo)因子至少對(劣化的)輸出信號執(zhí)行一個定標(biāo)步驟，以便將輸出信號的功率定標(biāo)到一個特定功率電平上。在諸如遵循推薦標(biāo)準(zhǔn)P.861的技術(shù)中，所述特定功率電平可以與參考信號的功率電平有關(guān)。在圖2中示意性地圖示了用于這樣的一個定標(biāo)步驟的定標(biāo)裝置20。該定標(biāo)裝置20具有作為輸入信號的信號X(t)和Y(t)和作為輸出信號的Xs(t)和Ys(t)。定標(biāo)是保持信號X(t)＝Xs(t)不變，并且在定標(biāo)單元21中使用一個定標(biāo)因子將信號Y(t)定標(biāo)成Ys(t)＝S1·Y(t)，所述定標(biāo)因子是S1=S(X,Y)=Paverage(X)/Paverage(Y)---(1)]]>在這個公式中Paverage(X)和Paverage(Y)分別是指信號X(t)和Y(t)的平均功率。
在可能遵循推薦標(biāo)準(zhǔn)P.862的技術(shù)中，所述特定功率電平也可能與預(yù)先定義的固定電平有關(guān)。在圖3中示意性地圖示了用于這樣一個定標(biāo)步驟的定標(biāo)裝置30。該定標(biāo)裝置30具有作為輸入信號的信號X(t)和Y(t)和作為輸出信號的Xs(t)和Ys(t)。定標(biāo)是分別使用定標(biāo)因子在定標(biāo)單元31中將信號X(t)定標(biāo)成Xs(t)＝S2·X(t)，并且在定標(biāo)單元32中將信號Y(t)定標(biāo)成Ys(t)＝S3·Y(t)，所述定標(biāo)因子是S2=S(Pf,X)=Pfixed/Paverage(X)---(2)]]>和S3=S(Pf,Y)=Pfixed/Paverage(Y)---(2)]]>其中Pfixed(即，Pf)是一個預(yù)先定義的功率電平，即所謂的恒定目標(biāo)電平，以及Paverage(X和Paverage(Y)的含義分別與前面相同。
在這兩種情況下，都使用定標(biāo)因子，這些定標(biāo)因子是功率相關(guān)參數(shù)的倒數(shù)值的函數(shù)，即，對于S1和S3來說，這是輸出信號的功率的平方根，或者對于S2來說，這是參考信號的功率的平方根。在劣化信號和/或參考信號包括極度微弱或者靜寂部分的大部分的情況下，這樣的功率相關(guān)參數(shù)可能會降低成非常小的數(shù)值，甚至是零，并因此其倒數(shù)值可能增加成非常大的數(shù)值。這一事實提供用于使定標(biāo)操作以及最好還使在其中使用的定標(biāo)因子是可以調(diào)整的并因而更好地進行控制的原因。
為了實現(xiàn)這樣的更佳的可控制性，首先，通過使用又一個第二定標(biāo)因子引入又一個第二定標(biāo)步驟。這個第二定標(biāo)因子可以被選擇為等于(但不是必需的，參見下文)在第一定標(biāo)步驟中用于定標(biāo)輸出信號的第一定標(biāo)因子，但是提高到一個指數(shù)α。指數(shù)α是第一調(diào)整參數(shù)，其值最好在0和1之間。可以在質(zhì)量測量設(shè)備中的各個階段上執(zhí)行第二定標(biāo)步驟(參見下文)。其次，可以將一個數(shù)值大于等于零的第二調(diào)整參數(shù)Δ添加給分別在上述兩種現(xiàn)有技術(shù)情況的第一和第二種情況中分別在一個或多個定標(biāo)因子中使用的每個時間上平均的信號功率值。第二調(diào)整參數(shù)Δ具有一個預(yù)先定義的可調(diào)整數(shù)值，以便將每個定標(biāo)因子的分母增加到一個更大的數(shù)值，尤其在極度微弱或者靜寂部分的所述情況下。以與先前參考圖2和圖3所述的類似方式在初始化階段的第一定標(biāo)步驟以及第二定標(biāo)步驟中使用如此修改(對于Δ≠0)或者未修改(對于Δ＝0)的定標(biāo)因子。下面參考圖4和圖5描述根據(jù)第一定標(biāo)因子獲得第二定標(biāo)因子的三種不同方式，然后參考圖6和圖7描述并非此種情況的一些方式。
圖4示意性地圖示一個定標(biāo)設(shè)備40，用于使用修改后的定標(biāo)因子執(zhí)行第一定標(biāo)步驟和第二定標(biāo)步驟。該定標(biāo)設(shè)備40具有作為輸入信號的信號X(t)和Y(t)以及作為輸出信號的信號X’s(t)和Y’s(t)。第一定標(biāo)步驟是使用修改后的定標(biāo)因子分別在定標(biāo)單元41中將信號X(t)定標(biāo)成Xs(t)＝S’2·X(t)和在定標(biāo)單元42中將信號Y(t)定標(biāo)成Ys(t)＝S’3·Y(t)，所述修改后的定標(biāo)因子在具有根據(jù)圖2的定標(biāo)步驟的情況下是S1′=S(Y+Δ)=(Paverage(X)+Δ)/(Paverage(Y)+Δ)---(1′)]]>其中Xs(t)＝X(t)(即，圖4中S(X+Δ)＝1)，并且所述修改后的定標(biāo)因子在具有根據(jù)圖3的定標(biāo)步驟的情況下是S2′=S(X+Δ)=Pfixed/(Paverage(X)+Δ)---(2′)]]>和S3′=S(Y+Δ)=Pfixed/(Paverage(Y)+Δ)---(3′)]]>第二定標(biāo)步驟是使用定標(biāo)因子在定標(biāo)單元43中將信號Xs(t)定標(biāo)成X’s(t)＝S4·Xs(t)和在定標(biāo)單元44中將信號Ys(t)定標(biāo)成Y’s(t)＝S4·Ys(t)，所述定標(biāo)因子是S4＝Sα(Y+Δ) (4)如圖所示，定標(biāo)因子S4可以由定標(biāo)單元42生成并傳送給第二定標(biāo)步驟的定標(biāo)單元43和44。否則，定標(biāo)因子S4也可以由定標(biāo)單元43和44在第二定標(biāo)步驟中使用在第一定標(biāo)步驟中從定標(biāo)單元42接收的定標(biāo)因子S3生成。
顯然也可以通過使用作為在各個定標(biāo)單元中使用的定標(biāo)因子的乘積的定標(biāo)因子，將在定標(biāo)設(shè)備40中執(zhí)行的第一和第二定標(biāo)步驟組合成由定標(biāo)單元對信號X(t)和Y(t)執(zhí)行的單個定標(biāo)步驟，所述定標(biāo)單元分別是定標(biāo)單元41和43以及定標(biāo)單元42和44的組合。這樣一個將參數(shù)選擇為-1＜α≤0和Δ≥0的組合定標(biāo)步驟將等價于其中僅存在使用一個定標(biāo)因子的第一定標(biāo)步驟的情況，在所述定標(biāo)因子中將功率相關(guān)參數(shù)的倒數(shù)值提高到一個對應(yīng)于0＜(α′＝1+α)≤1的調(diào)整參數(shù)α′的指數(shù)，并將功率相關(guān)參數(shù)提高一個對應(yīng)于參數(shù)Δ的調(diào)整值。
如此調(diào)整參數(shù)α和Δ的數(shù)值，以使對于測試信號X(t)和Y(t)，客觀測量的質(zhì)量與主觀感知的質(zhì)量(MOS)高度相關(guān)。因而，將語音完全用靜寂替代的劣化信號的例子看起來給出高于0.8的相關(guān)性，而使用已知方式測量的相同例子的質(zhì)量顯示出低于0.5的相關(guān)性。而且，對于推薦標(biāo)準(zhǔn)P.862的情況來說，看起來也是相同的。
參數(shù)α和Δ的數(shù)值可以存儲在測量設(shè)備的預(yù)處理器裝置內(nèi)。然而，也可以通過在設(shè)備11的輸入上將一定量的噪聲添加給劣化的輸出信號來實現(xiàn)參數(shù)Δ的調(diào)整，以這樣一種方式使噪聲量值的平均功率等于在一種特定情況下調(diào)整參數(shù)Δ所需要的數(shù)值。
并非在預(yù)處理階段，也可以在輸出和參考信號的處理過程期間在后一階段上執(zhí)行第二定標(biāo)步驟。然而，并不需要將第二定標(biāo)步驟的位置限制在分別處理信號的階段上。也可以在信號組合階段中執(zhí)行第二定標(biāo)步驟，但是參數(shù)α和Δ的數(shù)值不同。這在圖5中圖示，它示意性地圖示了一個類似于圖1的測量設(shè)備11的測量設(shè)備50，并且該設(shè)備依次包括預(yù)處理部50.1、處理部50.2和信號組合部50.3。預(yù)處理部50.1包括第一定標(biāo)步驟的定標(biāo)單元41和42，定標(biāo)單元42生成在圖中用Sαi(Y+Δi)所示的定標(biāo)因子S4(參見公式(4))，其中對于第一和第二種情況，i分別等于1和2。
在第一種情況下(i＝1)，第二定標(biāo)步驟由定標(biāo)單元51并且使用定標(biāo)因子S4＝Sα1(Y+Δ1)在信號組合部50.3中執(zhí)行，從而將差動信號D定標(biāo)成一個定標(biāo)差動信號D′＝Sα1(Y+Δ1)·D。
或者，在第二種情況下(i＝2)，第二定標(biāo)步驟由定標(biāo)單元52并且使用定標(biāo)因子S4＝Sα2(Y+Δ2)同樣在信號組合部50.3中執(zhí)行，從而將質(zhì)量信號Q定標(biāo)成一個定標(biāo)質(zhì)量信號Q′＝Sα2(Y+Δ2)·Q。
對于參數(shù)αi和Δi，使用方法與前面結(jié)合參數(shù)α和Δ的描述相同。
作為另外一種可選擇的方式，也可以作為第一種情況(i＝1)的第二定標(biāo)步驟的補充，但是，利用不同的適當(dāng)調(diào)整參數(shù)，作為第三定標(biāo)步驟來執(zhí)行第二種情況(i＝2)的定標(biāo)步驟。
通過在第一和/或第二定標(biāo)操作中引入以不同于平均信號功率的功率相關(guān)參數(shù)為基礎(chǔ)的兩個新的定標(biāo)因子來實現(xiàn)進一步的改進。
可以在第一定標(biāo)步驟以及在第二定標(biāo)步驟中定義和應(yīng)用第一種新類型的定標(biāo)因子，此定標(biāo)因子以一個與信號X(t)和/或信號Y(t)的功率有關(guān)的不同參數(shù)為基礎(chǔ)。不使用公式(1)-(3)和(1’)-(3’)中的信號X(t)和Y(t)的時間平均的功率Paverage，可以使用一個不同的功率相關(guān)參數(shù)來定義一個用于將(劣化的)輸出信號的功率定標(biāo)到一個特定功率電平上的定標(biāo)因子。這個不同的功率相關(guān)參數(shù)稱作信號功率活動性(SPA)。將一個語音信號Z(t)的信號功率活動性表示為SPA(Z)，表示信號Z(t)的功率至少等于預(yù)先定義的閾值功率電平Pthr的總的持續(xù)時間。
總的持續(xù)時間T的信號Z(t)的SPA的數(shù)學(xué)表達式如下SPA(Z)=&Integral;0TF(t)dt---(5)]]>其中F(t)是如下的階躍函數(shù) 在這里，P(Z(t))表示信號Z(t)在時間t上的瞬時功率，并且Ptr表示用于該信號功率的預(yù)定閾值。
用于SPA的表達式(5)適合于連續(xù)信號處理的情況。在使用時間幀的離散信號處理的情況中是合適的表達式如下SPA(Z)=Σi=1NF(ti)---(5′)]]>
其中F(ti)是如下的階躍函數(shù) 其中ti＝(i/N)T，i＝1-N，和t0＝0，N是分割信號Z(t)以便處理的時間幀的總數(shù)。將一個F(ti)＝1的時間幀稱作一個活動幀，公式(5’)累計信號Z(t)中活動幀的總數(shù)。
使用如此定義的功率相關(guān)參數(shù)SPA，以與公式(1)-(3)、(1’)-(3’)和(4)的定標(biāo)因子類似的方式來定義新的定標(biāo)因子，或者替代它們，或者與它們相乘進行使用。這些新的定標(biāo)因子如下T1＝T(X，Y)＝SPA(X)/SPA(Y)(6.1)T2＝T(SPAf，X)＝SPAfixed/SPA(X) (6.2)T3＝T(SPAf，Y)＝SPAfixed/SPA(Y) (6.3)T′1＝T(Y+Δ)＝{SPA(X)+Δ}/{SPA(Y)+Δ}(6.1’)T′2＝T(X+Δ)＝SPAfixed/{SPA(X)+Δ} (6.2’)T′3＝T(Y+Δ)＝SPAfixed/{SPA(Y)+Δ} (6.3’)和T4＝Tα(Y+Δ)(6.4)在此，SPAfixed(即SPAf)是一個預(yù)先定義的信號功率活動性電平，可以與前面所述的預(yù)先定義的功率電平Pfixed相類似的方式來選擇。
因為如此定義的定標(biāo)因子也是功率相關(guān)參數(shù)(即，參數(shù)SPA)的倒數(shù)值的函數(shù)，在某些情況下，該參數(shù)也可以具有非常小甚至為零的數(shù)值，因此，在公式(6.1’)-(6.3’)和(6.4)的定標(biāo)因子中使用的參數(shù)α和Δ對于定標(biāo)操作更好的可控性是非常有利的。以類似于在根據(jù)公式(1’)-(3’)和(4)的定標(biāo)因子中使用的參數(shù)的方式來調(diào)整這些參數(shù)，但是通常將有所不同。例如，在后一情況下，Δ具有功率的大小，并應(yīng)當(dāng)具有一個相對Paverage(X)(在(1’)中)或者Pfixed(在(2’)或(3’)中)不可忽略的值，而在前一情況下，Δ是非常小的數(shù)，可以簡單地將其設(shè)置為1。
在下文中，將一個以語音信號的SPA為基礎(chǔ)的定標(biāo)因子稱作T型定標(biāo)因子，而將一個以語音信號的Paverage為基礎(chǔ)的定標(biāo)因子稱作S型定標(biāo)因子。
在參考圖1至圖5所描述的每個定標(biāo)操作中，可以使用一個T型定標(biāo)因子來代替一個相應(yīng)的S型定標(biāo)因子。
在兩個不同的劣化語音信號具有相同平均功率值的情況下，所述兩個不同的劣化語音信號是兩個受測試的不同語音信號處理系統(tǒng)的輸出信號并且產(chǎn)生于相同輸入?yún)⒖夹盘?，T型定標(biāo)因子的使用提供了對于不可靠的語音質(zhì)量預(yù)測問題的一種解決方法。例如，如果信號之一僅在整個語音信號持續(xù)時間的短時間期間具有相對大的功率，而在其它的時間上功率極低或者為零，而另一信號在整個語音持續(xù)時間上具有很低的功率，則這樣的劣化信號可能導(dǎo)致幾乎相同的語音質(zhì)量的預(yù)測，但是它們在主觀體驗的語音質(zhì)量上可能有很大差別。在這種情況下，使用一個T型定標(biāo)因子而不是一個S型定標(biāo)因子將產(chǎn)生不同的并因而更可靠的預(yù)測。然而，因為也有可能這兩個不同的劣化語音信號具有相同的信號功率活動性值，而不具有相同的平均功率值，因此也可能導(dǎo)致不可靠的預(yù)測，所以使用作為一個S型和一個T型定標(biāo)因子組合的一個定標(biāo)因子將是有利的。
可以使用各種組合方式，例如S型和T型定標(biāo)因子不同或相同的功率的線性組合或者乘積組合。
一種優(yōu)選的組合方式是一個S型定標(biāo)因子與它對應(yīng)的T型定標(biāo)因子的簡單乘積，從而定義一個相應(yīng)的U型定標(biāo)因子，如下U1＝S1·T1，U2＝S2·T2，U3＝S3·T3，U’1＝S’1·T’1，U’2＝S’2·T’2，U’3＝S’3·T’3，和U4＝S4·T4.
將在參考圖1至圖5描述的每個定標(biāo)操作中使用每個如此定義的U型定標(biāo)因子來替代相應(yīng)的S型定標(biāo)因子。
第二種新的定標(biāo)因子是又一個不同的功率相關(guān)參數(shù)(即，語音信號的瞬時功率)的倒數(shù)值的函數(shù)。更具體地說，它是從可以稱作一個局部定標(biāo)因子(即，參考信號和輸出信號的瞬時功率之比)中獲得的。通過在語音信號的整個持續(xù)時間上平均這個局部定標(biāo)因子來獲得該第二新定標(biāo)因子，其中已經(jīng)在局部電平上引入調(diào)整參數(shù)α和Δ。如此獲得的定標(biāo)因子(在下文中稱作V型定標(biāo)因子)可以使用在測量設(shè)備50的信號組合部50.3中所執(zhí)行的定標(biāo)操作中，替代或者與由定標(biāo)單元51和52執(zhí)行的定標(biāo)操作之一和在預(yù)處理部50.1中由定標(biāo)單元42執(zhí)行的基本上未改變的定標(biāo)操作進行組合。存在多種可能性來執(zhí)行一個以V型定標(biāo)因子為基礎(chǔ)的定標(biāo)操作，這取決于應(yīng)用其局部還是全局型式?，F(xiàn)在，將參考圖6和圖7描述一些可能的執(zhí)行方式。
通過下面的數(shù)學(xué)表達式給出一個V型定標(biāo)因子的局部型式VLVL=Vα3(Y+Δ3,t)=(P(X(t)+Δ3)P(Y(t)+Δ3))α3---(7.1)]]>其中已經(jīng)引入了兩個調(diào)整參數(shù)，P(X(t))和P(Y(t))分別是用于參考和劣化信號的瞬時功率的表達式。參數(shù)α3和Δ3的含義與前面所述的含義類似，但是通常具有與之不同的數(shù)值。在組合部50.3內(nèi)在差動裝置15和模擬裝置16之間的定標(biāo)單元61中將這個局部型式VL應(yīng)用于隨時間變化的差動信號D，有可能與定標(biāo)單元51執(zhí)行的定標(biāo)操作相組合。因此，為了指示平均，求其平均值，這隱含在模擬裝置16中。
通過在語音信號的整個持續(xù)時間上求該局部型式VL的平均值，獲得該V型定標(biāo)因子的全局型式VG。可以如下以直接的方式求平均值Vα=Vα3(Y+Δ3)=1T&Integral;0TVα3(Y+Δ3,t)dt---(7.2)]]>可以由定標(biāo)單元62將該V型定標(biāo)因子的全局型式應(yīng)用于模擬裝置16輸出的質(zhì)量信號Q，產(chǎn)生定標(biāo)的質(zhì)量信號Q’，有可能與即在此之后(如圖7所示)或者之前的由定標(biāo)單元52執(zhí)行的定標(biāo)操作相組合，產(chǎn)生進一步的定標(biāo)的質(zhì)量信號Q”。
或者，可以由定標(biāo)單元61將該V型定標(biāo)因子的全局型式替代V型定標(biāo)因子的局部型式，以便應(yīng)用于差動裝置15輸出的差動信號D，有可能與即在此之后(如圖7所示)或者之前的由定標(biāo)單元51執(zhí)行的定標(biāo)操作相組合。
V型定標(biāo)因子的表達式(7.1)和(7.2)也是為連續(xù)信號處理提供的。簡單地將各個隨時間變化的信號函數(shù)用它們的每個時間幀的離散值替代以及在這些時間幀上求和操作的積分操作，就可以獲得適合于離散信號處理情況的對應(yīng)表達式。
通過將特定的成對測試信號X(t)和Y(t)用于一個特定的受測試的系統(tǒng)，以與上述類似的方式確定α3和Δ3的多個合適的值，以使客觀測試的質(zhì)量與根據(jù)平均意見得分獲得的主觀感知質(zhì)量具有很高的相關(guān)性。應(yīng)當(dāng)為具有相應(yīng)成對測試信號的每個特定受測試的系統(tǒng)分別地確定V型定標(biāo)因子的型式、在設(shè)備組合部內(nèi)使用的位置以及與哪一種其它的定標(biāo)因子相組合。總之，在劣化語音信號具有很長持續(xù)時間的極低或零功率部分的情況下，U型定標(biāo)因子更為有利，而對于具有很短持續(xù)時間的類似部分的信號來說，則V型定標(biāo)因子更為有利。
權(quán)利要求
1.用于根據(jù)一種客觀語音測量技術(shù)相對一個參考信號(X(t))確定語音信號處理系統(tǒng)的輸出信號(Y(t))的質(zhì)量的一種方法，該方法包括處理輸出信號和參考信號并生成一個質(zhì)量信號(Q)的主要步驟，其中所述處理主要步驟包括第一定標(biāo)步驟(S(Y+Δ)；S(Y+Δi)，i＝1，2)，用于使用第一定標(biāo)因子來定標(biāo)輸出信號和參考信號之中的至少一個信號的功率電平，所述第一定標(biāo)因子是所述至少一個信號的第一功率相關(guān)參數(shù)的倒數(shù)值的一個函數(shù)；和使用至少一個調(diào)整參數(shù)(α，Δ；αi，Δi，i＝1，2；α3，Δ3)，通過使用第二定標(biāo)因子(Sα(Y+Δ)；Sαi(Y+Δi)，i＝1，2；Vα3(Y+Δ3，t)；Vα3(Y+Δ3))執(zhí)行的第二定標(biāo)步驟，所述第二定標(biāo)因子是所述至少一個信號的第二功率相關(guān)參數(shù)的倒數(shù)值的一個函數(shù)。
2.根據(jù)權(quán)利要求1的方法，其中將第二功率相關(guān)參數(shù)的倒數(shù)值提高到一個指數(shù)，該指數(shù)的值對應(yīng)于第一調(diào)整參數(shù)(α；αi，i＝1，2；α3)，使用一個對應(yīng)于第二調(diào)整參數(shù)(Δ；Δi，i＝1，2；Δ3)的值增加所述第二功率相關(guān)參數(shù)。
3.根據(jù)權(quán)利要求1或2的方法，其中第一定標(biāo)因子(S(Y+Δ)；S(Y+Δi)，i＝1，2)是增加一個對應(yīng)于第三調(diào)整參數(shù)(Δ；Δi，i＝1，2)的值的第一功率相關(guān)參數(shù)的一個函數(shù)。
4.根據(jù)權(quán)利要求1至3中任何一項權(quán)利要求的方法，其中對在第一定標(biāo)步驟中定標(biāo)的輸出信號和參考信號(Ys(t)，Xs(t))執(zhí)行第二定標(biāo)步驟。
5.根據(jù)權(quán)利要求4的方法，其中通過使用第一和第二定標(biāo)因子的乘積將第一和第二定標(biāo)步驟組合成單個定標(biāo)步驟。
6.根據(jù)權(quán)利要求1-3中任何一項權(quán)利要求的方法，其中對兩個信號中的至少一個信號執(zhí)行第二定標(biāo)步驟，所述兩個信號是在所述處理主要步驟的信號組合階段(50.3)中確定的一個差動信號(D)和利用所述處理主要步驟生成的質(zhì)量信號(Q)。
7.根據(jù)權(quán)利要求3至6中任何一項權(quán)利要求的方法，其中從第一定標(biāo)因子(S(Y+Δ；S(Y+Δi)，i＝1，2)中獲得第二定標(biāo)因子(Sα(Y+Δ)；Sα(Y+Δi)，i＝1，2)，第一和第二功率相關(guān)參數(shù)是相同的，并且第二和第三調(diào)整參數(shù)是相同的。
8.根據(jù)權(quán)利要求3至7中任何一項權(quán)利要求的方法，其中第一功率相關(guān)參數(shù)包括增加一個對應(yīng)于第三調(diào)整參數(shù)(Δ；Δi，i＝1，2)的調(diào)整值的輸出信號的平均功率。
9.根據(jù)權(quán)利要求8的方法，其中通過向輸出信號(Y(t))增加一個具有對應(yīng)于第三調(diào)整參數(shù)(Δ；Δi，i＝1，2)的平均功率的噪聲信號來實現(xiàn)所述調(diào)整值的增加。
10.根據(jù)權(quán)利要求1至7中任何一項權(quán)利要求的方法，其中第一功率相關(guān)參數(shù)包括一個總持續(xù)時間，在該總持續(xù)時間期間輸出信號的功率高于或者等于一個閾值。
11.根據(jù)權(quán)利要求10的方法，其中將所述第一功率相關(guān)參數(shù)中的總持續(xù)時間增加一個對應(yīng)于第三調(diào)整參數(shù)(Δ；Δi，i＝1，2)的值。
12.根據(jù)權(quán)利要求10的方法，其中在所述主要處理步驟期間，使用時間幀來處理參考信號和輸出信號，并且使用參考信號和輸出信號的功率至少等于所述閾值的時間幀的總數(shù)來表示所述第一功率相關(guān)參數(shù)中的總持續(xù)時間。
13.根據(jù)權(quán)利要求12的方法，其中將所述時間幀的總數(shù)增加一個對應(yīng)于第三調(diào)整參數(shù)(Δ；Δi，i＝1，2)的值。
14.根據(jù)權(quán)利要求2至13中任何一項權(quán)利要求的方法，其中第一調(diào)整參數(shù)具有一個在0和1之間的值(α；αi，i＝1，2；α3)。
15.根據(jù)權(quán)利要求3至14中任何一項權(quán)利要求的方法，其中在第一定標(biāo)步驟中，使用第三定標(biāo)因子(S(X+Δ)；S(X+Δi)，i＝1，2)來定標(biāo)參考信號(X(t))，以類似于獲取第一定標(biāo)因子的方式，使用第二調(diào)整參數(shù)(Δ；Δi，i＝1，2)從參考信號中獲得所述第三定標(biāo)因子。
16.根據(jù)權(quán)利要求2至12中任何一項權(quán)利要求的方法，其中在第一定標(biāo)步驟中，定標(biāo)輸出信號(Y(t))，第一定標(biāo)因子(S(Y+Δ；S(Y+Δi)，i＝1，2)是第四定標(biāo)因子和第五定標(biāo)因子的乘積，所述第四定標(biāo)因子是增加了對應(yīng)于第二調(diào)整參數(shù)(Δ；Δi)的第一調(diào)整值的輸出信號的平均功率的倒數(shù)值的一個函數(shù)，而所述第五定標(biāo)因子是增加了對應(yīng)于第二調(diào)整參數(shù)(Δ；Δi)的第二調(diào)整值的總持續(xù)時間的倒數(shù)值的一個函數(shù)，在所述總持續(xù)時間期間輸出信號的功率高于或等于所述閾值。
17.根據(jù)權(quán)利要求6的方法，其中第二定標(biāo)因子(Vα3(Y+Δ3，t)；Vα3(Y+Δ3))的第二功率相關(guān)參數(shù)包括增加了一個對應(yīng)于第二調(diào)整參數(shù)(Δ3)的調(diào)整值的輸出信號的功率的瞬時值。
18.根據(jù)權(quán)利要求17的方法，其中將第二定標(biāo)因子的局部型式(Vα3(Y+Δ3，t))應(yīng)用于差動信號(D)。
19.根據(jù)權(quán)利要求17的方法，其中將第二定標(biāo)因子的全局型式(Vα3(Y+Δ3))應(yīng)用于兩個信號(D；Q)中的至少一個信號。
20.根據(jù)權(quán)利要求17至19中任何一項權(quán)利要求的方法，其中使用從第一定標(biāo)因子(S(Y+Δ；S(Y+Δi)，i＝1，2)中獲得的第三定標(biāo)因子(Sα(Y+Δ)；Sαi(Y+Δi)，i＝1，2)來組合第二定標(biāo)步驟與第三定標(biāo)步驟。
21.用于根據(jù)一種客觀語音測量技術(shù)來相對一個參考信號(X(t))確定語音信號處理系統(tǒng)的輸出信號(Y(t))的質(zhì)量的一種設(shè)備，該設(shè)備包括預(yù)處理裝置(12)，用于預(yù)處理輸出信號和參考信號；處理裝置(13，14)，用于根據(jù)一個感知模型來處理由預(yù)處理裝置預(yù)處理過的信號并生成代表輸出信號和參考信號的表示信號(R(Y)，R(X))；和信號組合裝置(15，16)，用于組合所述表示信號，并生成一個質(zhì)量信號(Q)，所述預(yù)處理裝置包括第一定標(biāo)裝置(21；31，32；41，42)，用于使用第一定標(biāo)因子(S(X，Y)；(S(Pf，Y))；S(Y+Δ))來定標(biāo)輸出信號和參考信號(Y(t)，X(t))中至少一個信號的功率電平，所述第一定標(biāo)因子是所述至少一個信號的第一功率相關(guān)參數(shù)的倒數(shù)值的一個函數(shù)，其中該設(shè)備還包括第二定標(biāo)裝置(43，44；51；52；61；62)，用于使用至少一個調(diào)整參數(shù)(α，Δ；αi，Δi，i＝1，2；α3，Δ3)通過應(yīng)用第二定標(biāo)因子(Sα(Y+Δ)；Sαi(Y+Δi)，i＝1，2；Vα3(Y+Δ3，t)；Vα3(Y+Δ3))執(zhí)行的定標(biāo)操作，所述第二定標(biāo)因子是所述至少一個信號的第二功率相關(guān)參數(shù)的倒數(shù)值的一個函數(shù)。
22.根據(jù)權(quán)利要求21的設(shè)備，其中第二定標(biāo)裝置被配置用于使用第二定標(biāo)因子進行定標(biāo)，所述第二定標(biāo)因子是提高到第一調(diào)整參數(shù)(α；αi，i＝1，2；α3)的第二功率相關(guān)參數(shù)的倒數(shù)值的一個函數(shù)，所述第二功率相關(guān)參數(shù)被增加一個對應(yīng)于第二調(diào)整參數(shù)(Δ；Δi，i＝1，2；Δ3)的值。
23.根據(jù)權(quán)利要求21或22的設(shè)備，其中第一定標(biāo)裝置包括一個定標(biāo)單元(42)，用于使用第一定標(biāo)因子來定標(biāo)輸出信號，所述第一定標(biāo)因子(S(Y+Δ；S(Y+Δi)，i＝1，2)是增加一個對應(yīng)于第三調(diào)整參數(shù)(Δ；Δi，i＝1，2)的值的第一功率相關(guān)參數(shù)的一個函數(shù)。
24.根據(jù)權(quán)利要求21至23中任何一項權(quán)利要求的設(shè)備，其中在預(yù)處理裝置中包括第二定標(biāo)裝置，用于使用第二定標(biāo)因子來定標(biāo)在第一定標(biāo)步驟中定標(biāo)過的輸出和參考信號(Ys(t)，Xs(t))。
25.根據(jù)權(quán)利要求21至23中任何一項權(quán)利要求的設(shè)備，其中所述信號組合裝置包括差動裝置(15)，用于根據(jù)表示信號來確定一個差動信號(D)；模擬裝置(16)，用于處理所述差動信號，并生成質(zhì)量信號；和第二定標(biāo)裝置，用于使用第二定標(biāo)因子來定標(biāo)兩個信號之一，所述兩個信號是利用所述差動裝置(15)確定的差動信號(D)和利用所述模擬裝置(16)產(chǎn)生的質(zhì)量信號(Q)。
26.根據(jù)權(quán)利要求21至25中任何一項權(quán)利要求的設(shè)備，其中第二定標(biāo)裝置包括耦合到第一定標(biāo)裝置(42)的至少一個定標(biāo)單元(43，44；51；52)，用于接收第一定標(biāo)因子，并用于使用根據(jù)第一定標(biāo)因子獲得的第二定標(biāo)因子。
27.根據(jù)權(quán)利要求25的設(shè)備，其中第二定標(biāo)裝置包括一個定標(biāo)單元(61；62)，用于使用第二定標(biāo)因子來定標(biāo)所述兩個信號之一，第二定標(biāo)因子(Vα3(Y+Δ3，t)；Vα3(Y+Δ3))的第二功率相關(guān)參數(shù)包括增加了一個對應(yīng)于第二調(diào)整參數(shù)(Δ3)的調(diào)整值的輸出信號的功率的瞬時值。
28.根據(jù)權(quán)利要求27的設(shè)備，其中第二定標(biāo)裝置與第三定標(biāo)裝置相組合，所述第三定標(biāo)裝置包括耦合到第一定標(biāo)裝置(42)的至少一個定標(biāo)單元(51；52)，用于接收第一定標(biāo)因子，和用于與第二定標(biāo)因子相組合使用一個第三定標(biāo)因子(Sαi(Y+Δi)，i＝1，2)來定標(biāo)所述兩個信號(D；Q)之一，所述第三定標(biāo)因子是根據(jù)第一定標(biāo)因子(S(Y+Δi)，i＝1，2)獲得的。
全文摘要
對于包括極度微弱或靜寂部分的劣化信號來說，用于預(yù)測在語音處理/傳輸系統(tǒng)中劣化的語音信號的感知質(zhì)量的客觀測量方法和設(shè)備可能產(chǎn)生很差的預(yù)測結(jié)果。通過在預(yù)處理階段中應(yīng)用使用第一定標(biāo)因子(S(Y+Δ))的第一定標(biāo)步驟，并利用具有第二定標(biāo)因子(S
文檔編號G10L19/00GK1496558SQ02806416
公開日2004年5月12日申請日期2002年3月1日優(yōu)先權(quán)日2001年3月13日
發(fā)明者J·G·比倫德斯, J G 比倫德斯, A·P·赫斯特拉, 赫斯特拉申請人:皇家Kpn公司

完整全部詳細技術(shù)資料下載