本發(fā)明涉及語音信號(hào)處理技術(shù)領(lǐng)域,特別地,涉及一種基于輸出的客觀語音質(zhì)量的評(píng)估方法。
背景技術(shù):
語音質(zhì)量客觀評(píng)價(jià)是指用機(jī)器自動(dòng)判別語音質(zhì)量,按是否需要使用輸入語音的角度可分為兩類:基于輸入-輸出方式的客觀評(píng)價(jià)和基于輸出方式的客觀評(píng)價(jià)。
在許多領(lǐng)域,如無線移動(dòng)通信、航天航海以及現(xiàn)代軍事等,往往要求評(píng)價(jià)方法具有較高的靈活性、實(shí)時(shí)性和通用性,而且在得不到原始輸入語音信號(hào)情況下也要能對(duì)語音質(zhì)量進(jìn)行評(píng)估,基于輸入-輸出的方式的客觀評(píng)價(jià)中往往很難獲取對(duì)應(yīng)的原始語音,語音存儲(chǔ)等方面的代價(jià)更大,在這些應(yīng)用場景下存在著一定的弊端。
基于輸出的客觀語音質(zhì)量評(píng)估方法的一般過程為計(jì)算評(píng)價(jià)語音的某種特征參數(shù),并與通過特定模型學(xué)習(xí)歸納后參考語音的特征參數(shù)進(jìn)行一致性計(jì)算,最終映射得到主觀mos分的估計(jì)值。在這個(gè)過程中,特征參數(shù)、訓(xùn)練模型以及mos分映射方法的選擇是至關(guān)重要的,它影響著評(píng)估系統(tǒng)的性能。由于人耳對(duì)聲音的感知特性符合巴克臨界頻帶,因此在特征參數(shù)提取時(shí)需要實(shí)現(xiàn)線性頻率和彎折頻率轉(zhuǎn)換。同時(shí),在無線通信這類應(yīng)用中,除了從語音本身分析外,還需要考慮信道質(zhì)量等外在因素對(duì)語音質(zhì)量的影響。
因此,設(shè)計(jì)一種能夠用來客觀評(píng)價(jià)編碼或經(jīng)信道傳輸后的語音質(zhì)量的評(píng)估方法具有重要意義。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的在于提供一種基于輸出的客觀語音質(zhì)量評(píng)估的方法。考慮到人耳對(duì)頻率的聽覺特性,同時(shí)兼顧語音信號(hào)的倒譜分析,采用梅爾頻率倒譜系數(shù)(mel-frequencycepstralcoefficients,mfcc)描述語音特征。通過結(jié)合梅爾頻率倒譜系數(shù)和gmm-hmm訓(xùn)練模型得到語音客觀失真值,同時(shí)將信道影響通過誤碼率指標(biāo)引入客觀測(cè)度中,然后建立主觀mos分和客觀測(cè)度之間的映射關(guān)系,得到對(duì)主觀mos分的預(yù)測(cè)模型,從而可以用來客觀評(píng)價(jià)編碼或經(jīng)信道傳輸后的語音質(zhì)量。詳情如下:
一種基于輸出的客觀語音質(zhì)量的評(píng)估方法,包括以下步驟:
計(jì)算經(jīng)過系統(tǒng)傳輸后的失真語音的梅爾頻率倒譜系數(shù);獲得符合人耳聽覺特性的參考模型;
將失真語音的梅爾頻率倒譜系數(shù)與符合人耳聽覺特性的參考模型進(jìn)行一致性量度計(jì)算;在原始語音中插入一段序列,計(jì)算在經(jīng)過系統(tǒng)傳輸后的失真語音中提取出來該序列的誤碼率;
根據(jù)一致性量度和誤碼率建立主觀mos分和一致性測(cè)度之間的映射關(guān)系,得到對(duì)待評(píng)價(jià)語音mos分的客觀預(yù)測(cè)模型,通過所述客觀預(yù)測(cè)模型進(jìn)行語音質(zhì)量的客觀評(píng)價(jià)。
以上技術(shù)方案中優(yōu)選的,所述梅爾頻率倒譜系數(shù)的計(jì)算過程包括預(yù)處理、fft變換、mel頻率濾波以及離散余弦變換四個(gè)步驟。
以上技術(shù)方案中優(yōu)選的,所述預(yù)處理具體包括以下步驟:
步驟1.1、預(yù)加重,具體是:使用具有6db/倍頻程的提升高頻特性的數(shù)字濾波器來實(shí)現(xiàn)預(yù)加重,其傳遞函數(shù)為表達(dá)式1):
h(z)=1-μz-11);
其中:μ為預(yù)加重系數(shù),其取值為0.9-1.0;
步驟1.2、端點(diǎn)檢測(cè),具體是:通過設(shè)定短時(shí)能量和短時(shí)過零率的門限來進(jìn)行,設(shè)某個(gè)長度為n的短時(shí)語音信號(hào)為x(m),其短時(shí)能量e用表達(dá)式2)計(jì)算:
其短時(shí)過零率z用表達(dá)式3)計(jì)算:
其中,sgn[]是符號(hào)函數(shù),即:
步驟1.3、分幀和加窗,具體是:所述分幀是將語音劃分為一個(gè)個(gè)幀,每一幀的長度為10-30ms;所述加窗是采用hamming窗對(duì)每一幀信號(hào)進(jìn)行加窗。
以上技術(shù)方案中優(yōu)選的,所述加窗的具體過程是:設(shè)幀信號(hào)為x(n),窗函數(shù)為w(n),則加窗后的信號(hào)y(n)為表達(dá)式4):
y(n)=x(n)w(n),0≤n≤n-14);
其中,n為每幀的取樣點(diǎn)數(shù),w(n)的表達(dá)式為w(n)=0.54-0.46cos[2πn/(n-1)],0≤n≤n-1。
以上技術(shù)方案中優(yōu)選的,所述mel頻率濾波具體是:將經(jīng)過fft處理的離散頻譜用序列三角濾波器進(jìn)行濾波處理,得到一組系數(shù)ml、m2、……;該濾波器組的個(gè)數(shù)p由信號(hào)的截止頻率決定,所有濾波器總體上覆蓋從0hz到nyquist頻率,即采樣率的二分之一;mi由表達(dá)式5)計(jì)算得到:
其中:
以上技術(shù)方案中優(yōu)選的,所述離散余弦變換具體是:將經(jīng)過mel頻率濾波的mel頻譜變換到時(shí)域,得到mel頻率倒譜系數(shù),其由表達(dá)式6)計(jì)算得到:
其中:mfcc(i)為mel頻率倒譜系數(shù),n為每幀取樣點(diǎn)數(shù),p為濾波器組的個(gè)數(shù)。
以上技術(shù)方案中優(yōu)選的,獲得符合人耳聽覺特性的參考模型詳細(xì)過程如下:
設(shè)觀測(cè)的特征向量序列為o=o1,o2,…,ot,該序列的狀態(tài)模型序列為s=s1,s2,…,sn,則該序列的hmm模型表示為表達(dá)式7):
λ=(π,a,b)7);
其中,π={πi=p(s1=i),i=1,2,…,n}為初始狀態(tài)概率矢量;a={aij}為狀態(tài)間跳轉(zhuǎn)的轉(zhuǎn)移概率矩陣,aij為從狀態(tài)i跳轉(zhuǎn)到狀態(tài)j的概率;b={bi(ot)=p(ot|st=i),2≤i≤n-1}為狀態(tài)的輸出概率分布集;
對(duì)連續(xù)hmm模型,觀測(cè)序列為連續(xù)信號(hào),其與狀態(tài)j對(duì)應(yīng)的信號(hào)空間用m個(gè)混合高斯密度函數(shù)的和來表示,如表達(dá)式8)和表達(dá)式9)下:
其中,cjk表示狀態(tài)j的第k個(gè)高斯混合密度函數(shù)的系數(shù);μjk是高斯密度函數(shù)的均值向量;cjk為協(xié)方差矩陣,d為觀測(cè)序列o的維數(shù);hmm參數(shù)由觀測(cè)序列o=o1,o2,…,ot估計(jì)得到,估計(jì)的目標(biāo)是使模型與訓(xùn)練數(shù)據(jù)的似然函數(shù)p(o|λ)最大化來估計(jì)最新的λ,即使
所述似然函數(shù)p(o|λ)的前向概率計(jì)算公式如表達(dá)式10):
其中:α1(i)=πbi(o1),1≤i≤n;
所述似然函數(shù)p(o|λ)的后向概率計(jì)算公式如表達(dá)式11):
其中:βt(i)=1,1≤i≤n;
對(duì)給定觀測(cè)序列o=o1,o2,…,ot通過重估計(jì)得到最新的λ,在此定義ξt(i,j)為t時(shí)刻狀態(tài)為si且t+1時(shí)刻狀態(tài)為sj的概率,由表達(dá)式12)得到:
在給定模型λ和觀測(cè)序列o的條件下,狀態(tài)si在時(shí)刻t的后驗(yàn)概率為表達(dá)式13):
由此,hmm參數(shù)λ重估計(jì)如下:
在t時(shí)刻狀態(tài)j第k個(gè)高斯混合分量的參數(shù)cjk,μjk和cjk由表達(dá)式14)、15)以及16)重新估計(jì):
其中,γt(j,k)表示在t時(shí)刻狀態(tài)j第k個(gè)高斯混合分量的概率,可由下式得到:
以上技術(shù)方案中優(yōu)選的,一致性量度的計(jì)算方法具體是:采用表達(dá)式17)進(jìn)行計(jì)算:
其中:x1,...,xn是失真語音的梅爾頻率倒譜系數(shù)向量,n是向量個(gè)數(shù),c是失真語音與模型的一致性量度。
以上技術(shù)方案中優(yōu)選的,所述誤碼率的計(jì)算過程如下:
步驟a、產(chǎn)生一個(gè)pn序列,并與一個(gè)混沌序列相乘,混沌序列的產(chǎn)生由logistic映射產(chǎn)生,logistic映射定義如下:
xk+1=μxk(1-xk)
其中,0≤μ≤4稱為分枝參數(shù),xk∈(0,1),當(dāng)3.5699456…<μ≤4時(shí),logistic映射工作于混沌態(tài),即初始條件在logistic映射下產(chǎn)生的的序列{xk;k=0,1,2,3…}是非周期的、不收斂的并對(duì)初始值非常敏感;生成監(jiān)測(cè)序列的具體步驟如下:
步驟a1、首先產(chǎn)生實(shí)數(shù)值序列,并選取序列中某個(gè)位置開始的長度為監(jiān)測(cè)序列大小的一段;
步驟a2、將實(shí)數(shù)值序列變?yōu)槎敌蛄校和ㄟ^定義一個(gè)閾值γ,由實(shí)數(shù)值序列得到:
二值混沌序列即為{γ(xk);k=0,1,2,3…};
步驟a3、將二值混沌序列與一個(gè)pn序列相乘,即可得到監(jiān)測(cè)序列;
步驟b、為監(jiān)測(cè)序列插入同步碼,逐幀將后面所嵌入的監(jiān)測(cè)序列提取出來;
步驟c、將插入同步碼的監(jiān)測(cè)序列在小波域中嵌入語音信號(hào)中,具體過程如下:
步驟c1、選取daubechies10小波作為小波函數(shù);
步驟c2、對(duì)語音信號(hào)進(jìn)行分幀處理,每幀的大小為1152個(gè)采樣點(diǎn),并對(duì)每幀信號(hào)進(jìn)行3層小波變換;
步驟c3、對(duì)小波系數(shù)進(jìn)行量化,并對(duì)監(jiān)測(cè)序列進(jìn)行調(diào)制,從而將監(jiān)測(cè)序列嵌入語音信號(hào)中,設(shè)待量化的系數(shù)為f,嵌入的監(jiān)測(cè)序列的bit為w,量化步長為δ,量化后含有監(jiān)測(cè)序列信息的系數(shù)為f'具體步驟為:
對(duì)f取模及取整操作,當(dāng)f>0時(shí),設(shè)
當(dāng)f<0時(shí),設(shè)
根據(jù)上述公式一幀一幀將監(jiān)測(cè)序列嵌入到語音信號(hào)中;
步驟c4、將嵌入監(jiān)測(cè)序列的信號(hào)變換回時(shí)域信號(hào);
步驟d、接收到的語音中提取出嵌入的監(jiān)測(cè)序列,并計(jì)算誤碼率,具體提取的過程包括以下步驟:
步驟d1、在語音信號(hào)中搜索同步碼,具體是:設(shè)需要搜索的信號(hào)長度為l,則l的長度應(yīng)當(dāng)大于兩個(gè)同步碼的長度和一個(gè)完整的監(jiān)測(cè)序列長度的總和;設(shè)信號(hào)的起始搜索點(diǎn)為i=1,如果信號(hào)的樣本值
步驟d2、從找到的起始點(diǎn)開始,對(duì)語音信號(hào)進(jìn)行離散小波變換;
步驟d3、對(duì)小波分解后的系數(shù)f作與嵌入時(shí)相逆的操作,即:f>0時(shí),設(shè)
從而可以提取出二進(jìn)制監(jiān)測(cè)序列;
步驟d4、比較提取出的監(jiān)測(cè)序列和嵌入的監(jiān)測(cè)序列,通過表達(dá)式18)計(jì)算誤碼率:
其中seqsend、seqreceive和seqlength分別表示發(fā)送監(jiān)測(cè)序列、接收監(jiān)測(cè)序列和序列長度;hammingweight(·)表示求序列的漢明權(quán)重,xor表示異或操作。
以上技術(shù)方案中優(yōu)選的,所述映射關(guān)系通過表達(dá)式19)獲得:
式中:f(·)為多元非線性回歸模型;ci是第i種參數(shù)的一致性量度;n為語音特征參數(shù)的個(gè)數(shù);
應(yīng)用本發(fā)明的技術(shù)方案,效果是:
1、采用mfcc逼近mel頻率刻度,從而拉伸語音的低頻信息和壓制高頻信息,它可用于語音魯棒性分析和語音識(shí)別,抑制依賴于說話人的特征,保留語音段的語言學(xué)的質(zhì)量。
2、本發(fā)明建立主觀mos分和客觀測(cè)度以及信道質(zhì)量之間的映射關(guān)系,得到對(duì)主觀mos分的預(yù)測(cè)模型,使得分更接近主觀質(zhì)量。
3、本發(fā)明方法步驟精簡,使用方便,且能夠有效地客觀評(píng)估語音的質(zhì)量,不依賴主觀評(píng)價(jià)。
除了上面所描述的目的、特征和優(yōu)點(diǎn)之外,本發(fā)明還有其它的目的、特征和優(yōu)點(diǎn)。下面將參照附圖,對(duì)本發(fā)明作進(jìn)一步詳細(xì)的說明。
附圖說明
構(gòu)成本申請(qǐng)的一部分的附圖用來提供對(duì)本發(fā)明的進(jìn)一步理解,本發(fā)明的示意性實(shí)施例及其說明用于解釋本發(fā)明,并不構(gòu)成對(duì)本發(fā)明的不當(dāng)限定。在附圖中:
圖1是實(shí)施例1中基于輸出的客觀語音質(zhì)量的評(píng)估方法的結(jié)構(gòu)原理示意圖。
具體實(shí)施方式
以下結(jié)合附圖對(duì)本發(fā)明的實(shí)施例進(jìn)行詳細(xì)說明,但是本發(fā)明可以根據(jù)權(quán)利要求限定和覆蓋的多種不同方式實(shí)施。
實(shí)施例1:
一種基于輸出的客觀語音質(zhì)量的評(píng)估方法,詳見圖1,具體包括:計(jì)算經(jīng)過系統(tǒng)傳輸后的失真語音的梅爾頻率倒譜系數(shù)(將原始語音經(jīng)過系統(tǒng)傳輸后得到失真語音;計(jì)算梅爾頻率倒譜系數(shù)的過程即為mfcc參數(shù)提取過程);獲得符合人耳聽覺特性的參考模型(先提取參考語音的mfcc參數(shù),再獲取gmm-hmm模型);將失真語音的梅爾頻率倒譜系數(shù)與符合人耳聽覺特性的參考模型進(jìn)行一致性量度計(jì)算(即一致性計(jì)算);在原始語音中插入一段序列,計(jì)算在經(jīng)過系統(tǒng)傳輸后的失真語音中提取出來該序列的誤碼率;根據(jù)一致性量度和誤碼率建立主觀mos分和一致性測(cè)度之間的映射關(guān)系(即圖1中的mos分映射),得到對(duì)待評(píng)價(jià)語音mos分的客觀預(yù)測(cè)模型,通過所述客觀預(yù)測(cè)模型進(jìn)行語音質(zhì)量的客觀評(píng)價(jià)(此處是通過映射的mod分和主觀mos分之間的相關(guān)程度和偏離誤差作為評(píng)價(jià)標(biāo)準(zhǔn))。評(píng)價(jià)語音為itu語音庫(國際電信聯(lián)盟語音庫),詳情如下:
梅爾頻率倒譜系數(shù)的計(jì)算過程包括預(yù)處理、fft(快速傅里葉變換)變換、mel頻率濾波以及離散余弦變換四個(gè)步驟,具體是:
所述預(yù)處理具體包括以下步驟:
步驟1.1、預(yù)加重,具體是:使用具有6db/倍頻程的提升高頻特性的數(shù)字濾波器來實(shí)現(xiàn)預(yù)加重,其傳遞函數(shù)為表達(dá)式1):
h(z)=1-μz-11);
其中:μ為預(yù)加重系數(shù),其取值為0.9-1.0(此處取0.95);
步驟1.2、端點(diǎn)檢測(cè),具體是:通過設(shè)定短時(shí)能量和短時(shí)過零率的門限來進(jìn)行,設(shè)某個(gè)長度為n的短時(shí)語音信號(hào)為x(m),其短時(shí)能量e用表達(dá)式2)計(jì)算:
其短時(shí)過零率z用表達(dá)式3)計(jì)算:
其中,sgn[]是符號(hào)函數(shù),即:
步驟1.3、分幀和加窗,具體是:為了能夠采用平穩(wěn)過程的分析方法進(jìn)行分析,將語音劃分為一個(gè)個(gè)幀,每一幀的長度為10-30ms;同時(shí),為了減小語音幀的截?cái)嘈?yīng),采用hamming窗(哈明窗)對(duì)每一幀信號(hào)進(jìn)行加窗,具體是:
設(shè)幀信號(hào)為x(n),窗函數(shù)為w(n),則加窗后的信號(hào)y(n)為表達(dá)式4):
y(n)=x(n)w(n),0≤n≤n-14);
其中,n為每幀的取樣點(diǎn)數(shù),w(n)的表達(dá)式為w(n)=0.54-0.46cos[2πn/(n-1)],0≤n≤n-1。
所述mel頻率濾波具體是:將經(jīng)過fft處理的離散頻譜用序列三角濾波器進(jìn)行濾波處理,得到一組系數(shù)ml、m2、……;該濾波器組的個(gè)數(shù)p由信號(hào)的截止頻率決定,所有濾波器總體上覆蓋從0hz到nyquist頻率(奈奎斯特頻率),即采樣率的二分之一;mi由表達(dá)式5)計(jì)算得到:
其中:
由于mel頻譜系數(shù)都是實(shí)數(shù),可以通過離散余弦變換將其變換到時(shí)域。所述離散余弦變換具體是:將經(jīng)過mel頻率濾波的mel頻譜變換到時(shí)域,得到mel頻率倒譜系數(shù),其由表達(dá)式6)計(jì)算得到:
其中:mfcc(i)為mel頻率倒譜系數(shù),n為每幀取樣點(diǎn)數(shù),p為濾波器組的個(gè)數(shù)。
獲得符合人耳聽覺特性的參考模型詳細(xì)過程如下:
基于gmm-hmm的語音建模和訓(xùn)練,設(shè)觀測(cè)的特征向量序列為o=o1,o2,…,ot,該序列的狀態(tài)模型序列為s=s1,s2,…,sn,則該序列的hmm模型(隱馬爾可夫模型)表示為表達(dá)式7):
λ=(π,a,b)7);
其中,π={πi=p(s1=i),i=1,2,…,n}為初始狀態(tài)概率矢量;a={aij}為狀態(tài)間跳轉(zhuǎn)的轉(zhuǎn)移概率矩陣,aij為從狀態(tài)i跳轉(zhuǎn)到狀態(tài)j的概率;b={bi(ot)=p(ot|st=i),2≤i≤n-1}為狀態(tài)的輸出概率分布集;
對(duì)連續(xù)hmm模型,觀測(cè)序列為連續(xù)信號(hào),其與狀態(tài)j對(duì)應(yīng)的信號(hào)空間用m個(gè)混合高斯密度函數(shù)的和來表示,如表達(dá)式8)和表達(dá)式9)下:
其中,cjk表示狀態(tài)j的第k個(gè)高斯混合密度函數(shù)的系數(shù);μjk是高斯密度函數(shù)的均值向量;cjk為協(xié)方差矩陣,d為觀測(cè)序列o的維數(shù);hmm參數(shù)由觀測(cè)序列o=o1,o2,…,ot估計(jì)得到,估計(jì)的目標(biāo)是使模型與訓(xùn)練數(shù)據(jù)的似然函數(shù)p(o|λ)最大化來估計(jì)最新的λ,即使
所述似然函數(shù)p(o|λ)的前向概率計(jì)算公式如表達(dá)式10):
其中:α1(i)=πbi(o1),1≤i≤n;
所述似然函數(shù)p(o|λ)的后向概率計(jì)算公式如表達(dá)式11):
其中:βt(i)=1,1≤i≤n;
對(duì)給定觀測(cè)序列o=o1,o2,…,ot通過重估計(jì)得到最新的λ,在此定義ξt(i,j)為t時(shí)刻狀態(tài)為si且t+1時(shí)刻狀態(tài)為sj的概率,由表達(dá)式12)得到:
在給定模型λ和觀測(cè)序列o的條件下,狀態(tài)si在時(shí)刻t的后驗(yàn)概率為表達(dá)式13):
由此,hmm參數(shù)λ重估計(jì)如下:
在t時(shí)刻狀態(tài)j第k個(gè)高斯混合分量的參數(shù)cjk、μjk和cjk由表達(dá)式14)、15)以及16)重新估計(jì):
其中,γt(j,k)表示在t時(shí)刻狀態(tài)j第k個(gè)高斯混合分量的概率,可由下式得到:
一致性量度的計(jì)算方法具體是:建模后,失真語音的梅爾頻率倒譜系數(shù)與所述參考模型進(jìn)行一致性量度采用表達(dá)式17)進(jìn)行計(jì)算:
其中:x1,...,xn是失真語音的梅爾頻率倒譜系數(shù)(mfcc)向量,n是向量個(gè)數(shù),c是失真語音與模型的一致性量度。
所述誤碼率的計(jì)算過程如下:
步驟a、產(chǎn)生一個(gè)pn序列,并與一個(gè)混沌序列相乘,混沌序列的產(chǎn)生由logistic映射產(chǎn)生,logistic映射定義如下:
xk+1=μxk(1-xk)
其中,0≤μ≤4稱為分枝參數(shù),xk∈(0,1),當(dāng)3.5699456…<μ≤4時(shí),logistic映射工作于混沌態(tài),即初始條件在logistic映射下產(chǎn)生的的序列{xk;k=0,1,2,3…}是非周期的、不收斂的并對(duì)初始值非常敏感;生成監(jiān)測(cè)序列的具體步驟如下:
步驟a1、首先產(chǎn)生實(shí)數(shù)值序列,并選取序列中某個(gè)位置開始的長度為監(jiān)測(cè)序列大小的一段;
步驟a2、將實(shí)數(shù)值序列變?yōu)槎敌蛄校和ㄟ^定義一個(gè)閾值γ,由實(shí)數(shù)值序列得到:
二值混沌序列即為{γ(xk);k=0,1,2,3…};
步驟a3、將二值混沌序列與一個(gè)pn序列(偽噪聲序列)相乘,即可得監(jiān)測(cè)序列;
步驟b、為監(jiān)測(cè)序列插入同步碼,逐幀將后面所嵌入的監(jiān)測(cè)序列提取出來,具體是:為監(jiān)測(cè)序列插入同步碼,插入同步碼的目的是為了防止音頻經(jīng)過信道的衰減后,接收端難以提取出監(jiān)測(cè)序列;我們使用的同步碼為16個(gè)比特位,為了能夠準(zhǔn)確地定位同步碼,我們采取的方法是在語音信號(hào)的時(shí)域中嵌入同步碼,具體實(shí)現(xiàn)方法為將監(jiān)測(cè)序列前的16個(gè)采樣點(diǎn)的振幅定為1000,這樣在接收端提取監(jiān)測(cè)序列的過程中,如果出現(xiàn)起點(diǎn)不同步的情況,則可以利用連續(xù)16個(gè)樣本值在900~1100的采樣點(diǎn),以搜尋同步碼的方式來快速找出水印的起始樣本位置,如此,即可逐幀將后面所嵌入的監(jiān)測(cè)序列提取出來;
步驟c、將插入同步碼的監(jiān)測(cè)序列在小波域中嵌入語音信號(hào)中,選擇在小波域中嵌入的原因是變換域中嵌入監(jiān)測(cè)序列具有更好的隱蔽性,不會(huì)對(duì)原始語音造成人耳可以辨別的影響。將序列在小波域中嵌入語音的具體過程如下:
步驟c1、由于使用不同的小波基分析同一個(gè)問題會(huì)產(chǎn)生不同的結(jié)果,因此,需要根據(jù)分析的問題選擇合適的小波基,此處選取daubechies10小波作為小波函數(shù);
步驟c2、對(duì)語音信號(hào)進(jìn)行分幀處理,每幀的大小為1152個(gè)采樣點(diǎn),并對(duì)每幀信號(hào)進(jìn)行3層小波變換;考慮到人耳的聽覺特性,此處選擇在高頻段嵌入序列;
步驟c3、對(duì)小波系數(shù)進(jìn)行量化,并對(duì)監(jiān)測(cè)序列進(jìn)行調(diào)制,從而將監(jiān)測(cè)序列嵌入語音信號(hào)中,設(shè)待量化的系數(shù)為f,嵌入的監(jiān)測(cè)序列的bit為w,量化步長為δ,量化后含有監(jiān)測(cè)序列信息的系數(shù)為f'具體步驟為:首先對(duì)f取模及取整操作,當(dāng)f>0時(shí),設(shè)
當(dāng)f<0時(shí),設(shè)
根據(jù)上述公式可以一幀一幀將監(jiān)測(cè)序列嵌入到語音信號(hào)中。
步驟c4、將嵌入監(jiān)測(cè)序列的信號(hào)變換回時(shí)域信號(hào);
步驟d、接收到的語音中提取出嵌入的監(jiān)測(cè)序列,并計(jì)算誤碼率,詳情是:監(jiān)測(cè)序列的提取是嵌入的逆過程,因此用到的小波函數(shù)和小波分解的級(jí)數(shù)都保持不變,具體提取的過程包括以下步驟:
步驟d1、在語音信號(hào)中搜索同步碼,具體是:設(shè)需要搜索的信號(hào)長度為l,則l的長度應(yīng)當(dāng)大于兩個(gè)同步碼的長度和一個(gè)完整的監(jiān)測(cè)序列長度的總和。設(shè)信號(hào)的起始搜索點(diǎn)為i=1,如果信號(hào)的樣本值
步驟d2、從找到的起始點(diǎn)開始,對(duì)語音信號(hào)進(jìn)行離散小波變換;
步驟d3、對(duì)小波分解后的系數(shù)f作與嵌入時(shí)相逆的操作,即:
f>0時(shí),設(shè)
f<0時(shí),設(shè)
從而可以提取出二進(jìn)制監(jiān)測(cè)序列;
步驟d4、比較提取出的監(jiān)測(cè)序列和嵌入的監(jiān)測(cè)序列,通過表達(dá)式18)計(jì)算誤碼率(誤碼率作為語音質(zhì)量評(píng)估的一個(gè)客觀測(cè)度):
其中seqsend、seqreceive和seqlength分別表示發(fā)送監(jiān)測(cè)序列、接收監(jiān)測(cè)序列和序列長度;hammingweight(·)表示求序列的漢明權(quán)重,xor表示異或操作。
在計(jì)算出各種失真條件下語音的參數(shù)一致性量度之后,可以用一種函數(shù)映射關(guān)系來表示參數(shù)一致性量度與客觀
式中:f(·)為預(yù)測(cè)函數(shù)(它可以是線性或非線性回歸關(guān)系,也可以是多項(xiàng)式擬合關(guān)系,在本專利實(shí)施例中,為了得到更精確的預(yù)測(cè)mos值,此處優(yōu)選多元非線性回歸模型);ci是第i種參數(shù)的一致性量度;n為語音特征參數(shù)的個(gè)數(shù);
下面從相關(guān)度、偏離誤差來衡量語音質(zhì)量評(píng)估算法的性能。相關(guān)度主要反映語音質(zhì)量評(píng)估算法通過失真映射獲得預(yù)測(cè)mos分的映射關(guān)系是否合理,一般用算法映射的mos分與已知的主觀mos值之間的相關(guān)程度和偏離誤差作為評(píng)價(jià)標(biāo)準(zhǔn)。
相關(guān)系數(shù)ρ和用標(biāo)準(zhǔn)估計(jì)偏差σ通過表達(dá)式20)和表達(dá)式21)獲得:
其中:moso(i)是第i個(gè)語音的預(yù)測(cè)mos值,moss(i)是已知的mos分,n是總的語音對(duì)的數(shù)目,
相關(guān)系數(shù)ρ越接近1,預(yù)測(cè)mos值越接近真實(shí)mos值;偏離誤差σ越小,則預(yù)測(cè)誤差越小,算法的性能越好。
本實(shí)施例1的評(píng)估方法與國際電信聯(lián)盟itup.563客觀評(píng)價(jià)方法(itu-tp.563)的性能對(duì)比結(jié)果詳見表1。
從表1中可以看出,本發(fā)明方法(實(shí)施例1)相對(duì)于itu-tp.563算法性能上有了一定程度的提高,主觀mos分的平均相關(guān)度ρ較高,估計(jì)偏差σ較低,因此,本發(fā)明方法具有有效性和可行性。
表1本發(fā)明方法(實(shí)施例1)和itu-tp.563分別對(duì)語音進(jìn)行處理的性能比較表
以上所述僅為本發(fā)明的優(yōu)選實(shí)施例而已,并不用于限制本發(fā)明,對(duì)于本領(lǐng)域的技術(shù)人員來說,本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。