一種基于輸出的客觀語音質(zhì)量的評(píng)估方法與流程

文檔序號(hào)：12036195閱讀：249來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本發(fā)明涉及語音信號(hào)處理技術(shù)領(lǐng)域，特別地，涉及一種基于輸出的客觀語音質(zhì)量的評(píng)估方法。

背景技術(shù)：

語音質(zhì)量客觀評(píng)價(jià)是指用機(jī)器自動(dòng)判別語音質(zhì)量，按是否需要使用輸入語音的角度可分為兩類：基于輸入-輸出方式的客觀評(píng)價(jià)和基于輸出方式的客觀評(píng)價(jià)。

在許多領(lǐng)域，如無線移動(dòng)通信、航天航海以及現(xiàn)代軍事等，往往要求評(píng)價(jià)方法具有較高的靈活性、實(shí)時(shí)性和通用性，而且在得不到原始輸入語音信號(hào)情況下也要能對(duì)語音質(zhì)量進(jìn)行評(píng)估，基于輸入-輸出的方式的客觀評(píng)價(jià)中往往很難獲取對(duì)應(yīng)的原始語音，語音存儲(chǔ)等方面的代價(jià)更大，在這些應(yīng)用場景下存在著一定的弊端。

基于輸出的客觀語音質(zhì)量評(píng)估方法的一般過程為計(jì)算評(píng)價(jià)語音的某種特征參數(shù)，并與通過特定模型學(xué)習(xí)歸納后參考語音的特征參數(shù)進(jìn)行一致性計(jì)算，最終映射得到主觀mos分的估計(jì)值。在這個(gè)過程中，特征參數(shù)、訓(xùn)練模型以及mos分映射方法的選擇是至關(guān)重要的，它影響著評(píng)估系統(tǒng)的性能。由于人耳對(duì)聲音的感知特性符合巴克臨界頻帶，因此在特征參數(shù)提取時(shí)需要實(shí)現(xiàn)線性頻率和彎折頻率轉(zhuǎn)換。同時(shí)，在無線通信這類應(yīng)用中，除了從語音本身分析外，還需要考慮信道質(zhì)量等外在因素對(duì)語音質(zhì)量的影響。

因此，設(shè)計(jì)一種能夠用來客觀評(píng)價(jià)編碼或經(jīng)信道傳輸后的語音質(zhì)量的評(píng)估方法具有重要意義。

技術(shù)實(shí)現(xiàn)要素：

本發(fā)明的目的在于提供一種基于輸出的客觀語音質(zhì)量評(píng)估的方法。考慮到人耳對(duì)頻率的聽覺特性，同時(shí)兼顧語音信號(hào)的倒譜分析，采用梅爾頻率倒譜系數(shù)(mel-frequencycepstralcoefficients，mfcc)描述語音特征。通過結(jié)合梅爾頻率倒譜系數(shù)和gmm-hmm訓(xùn)練模型得到語音客觀失真值，同時(shí)將信道影響通過誤碼率指標(biāo)引入客觀測(cè)度中，然后建立主觀mos分和客觀測(cè)度之間的映射關(guān)系，得到對(duì)主觀mos分的預(yù)測(cè)模型，從而可以用來客觀評(píng)價(jià)編碼或經(jīng)信道傳輸后的語音質(zhì)量。詳情如下：

一種基于輸出的客觀語音質(zhì)量的評(píng)估方法，包括以下步驟：

計(jì)算經(jīng)過系統(tǒng)傳輸后的失真語音的梅爾頻率倒譜系數(shù)；獲得符合人耳聽覺特性的參考模型；

將失真語音的梅爾頻率倒譜系數(shù)與符合人耳聽覺特性的參考模型進(jìn)行一致性量度計(jì)算；在原始語音中插入一段序列，計(jì)算在經(jīng)過系統(tǒng)傳輸后的失真語音中提取出來該序列的誤碼率；

根據(jù)一致性量度和誤碼率建立主觀mos分和一致性測(cè)度之間的映射關(guān)系，得到對(duì)待評(píng)價(jià)語音mos分的客觀預(yù)測(cè)模型，通過所述客觀預(yù)測(cè)模型進(jìn)行語音質(zhì)量的客觀評(píng)價(jià)。

以上技術(shù)方案中優(yōu)選的，所述梅爾頻率倒譜系數(shù)的計(jì)算過程包括預(yù)處理、fft變換、mel頻率濾波以及離散余弦變換四個(gè)步驟。

以上技術(shù)方案中優(yōu)選的，所述預(yù)處理具體包括以下步驟：

步驟1.1、預(yù)加重，具體是：使用具有6db/倍頻程的提升高頻特性的數(shù)字濾波器來實(shí)現(xiàn)預(yù)加重，其傳遞函數(shù)為表達(dá)式1)：

h(z)＝1-μz^-11)；

其中：μ為預(yù)加重系數(shù)，其取值為0.9-1.0；

步驟1.2、端點(diǎn)檢測(cè)，具體是：通過設(shè)定短時(shí)能量和短時(shí)過零率的門限來進(jìn)行，設(shè)某個(gè)長度為n的短時(shí)語音信號(hào)為x(m)，其短時(shí)能量e用表達(dá)式2)計(jì)算：

其短時(shí)過零率z用表達(dá)式3)計(jì)算：

其中，sgn[]是符號(hào)函數(shù)，即：

步驟1.3、分幀和加窗，具體是：所述分幀是將語音劃分為一個(gè)個(gè)幀，每一幀的長度為10-30ms；所述加窗是采用hamming窗對(duì)每一幀信號(hào)進(jìn)行加窗。

以上技術(shù)方案中優(yōu)選的，所述加窗的具體過程是：設(shè)幀信號(hào)為x(n)，窗函數(shù)為w(n)，則加窗后的信號(hào)y(n)為表達(dá)式4)：

y(n)＝x(n)w(n),0≤n≤n-14)；

其中，n為每幀的取樣點(diǎn)數(shù)，w(n)的表達(dá)式為w(n)＝0.54-0.46cos[2πn/(n-1)],0≤n≤n-1。

以上技術(shù)方案中優(yōu)選的，所述mel頻率濾波具體是：將經(jīng)過fft處理的離散頻譜用序列三角濾波器進(jìn)行濾波處理，得到一組系數(shù)ml、m2、……；該濾波器組的個(gè)數(shù)p由信號(hào)的截止頻率決定，所有濾波器總體上覆蓋從0hz到nyquist頻率，即采樣率的二分之一；mi由表達(dá)式5)計(jì)算得到：

其中：

f[i]是三角濾波器的中心頻率，滿足：mel(f[i+1])-mel(f[i])＝mel(f[i])-mel(f[i-1])；x(k)為幀信號(hào)x(n)經(jīng)fft處理后的離散頻譜。

以上技術(shù)方案中優(yōu)選的，所述離散余弦變換具體是：將經(jīng)過mel頻率濾波的mel頻譜變換到時(shí)域，得到mel頻率倒譜系數(shù)，其由表達(dá)式6)計(jì)算得到：

其中：mfcc(i)為mel頻率倒譜系數(shù)，n為每幀取樣點(diǎn)數(shù)，p為濾波器組的個(gè)數(shù)。

以上技術(shù)方案中優(yōu)選的，獲得符合人耳聽覺特性的參考模型詳細(xì)過程如下：

設(shè)觀測(cè)的特征向量序列為o＝o1,o2,…,ot，該序列的狀態(tài)模型序列為s＝s1,s2,…,sn，則該序列的hmm模型表示為表達(dá)式7)：

λ＝(π,a,b)7)；

其中，π＝{πi＝p(s1＝i),i＝1,2,…,n}為初始狀態(tài)概率矢量；a＝{aij}為狀態(tài)間跳轉(zhuǎn)的轉(zhuǎn)移概率矩陣，aij為從狀態(tài)i跳轉(zhuǎn)到狀態(tài)j的概率；b＝{bi(ot)＝p(ot|st＝i),2≤i≤n-1}為狀態(tài)的輸出概率分布集；

對(duì)連續(xù)hmm模型，觀測(cè)序列為連續(xù)信號(hào)，其與狀態(tài)j對(duì)應(yīng)的信號(hào)空間用m個(gè)混合高斯密度函數(shù)的和來表示，如表達(dá)式8)和表達(dá)式9)下：

所述似然函數(shù)p(o|λ)的前向概率計(jì)算公式如表達(dá)式10)：

其中：α1(i)＝πbi(o1),1≤i≤n；

所述似然函數(shù)p(o|λ)的后向概率計(jì)算公式如表達(dá)式11)：

其中：βt(i)＝1,1≤i≤n；

對(duì)給定觀測(cè)序列o＝o1,o2,…,ot通過重估計(jì)得到最新的λ，在此定義ξt(i,j)為t時(shí)刻狀態(tài)為si且t+1時(shí)刻狀態(tài)為sj的概率，由表達(dá)式12)得到：

在給定模型λ和觀測(cè)序列o的條件下，狀態(tài)si在時(shí)刻t的后驗(yàn)概率為表達(dá)式13)：

由此，hmm參數(shù)λ重估計(jì)如下：

在t時(shí)刻狀態(tài)j第k個(gè)高斯混合分量的參數(shù)cjk，μjk和cjk由表達(dá)式14)、15)以及16)重新估計(jì)：

其中，γt(j,k)表示在t時(shí)刻狀態(tài)j第k個(gè)高斯混合分量的概率，可由下式得到：

以上技術(shù)方案中優(yōu)選的，一致性量度的計(jì)算方法具體是：采用表達(dá)式17)進(jìn)行計(jì)算：

其中：x1,...,xn是失真語音的梅爾頻率倒譜系數(shù)向量，n是向量個(gè)數(shù)，c是失真語音與模型的一致性量度。

以上技術(shù)方案中優(yōu)選的，所述誤碼率的計(jì)算過程如下：

步驟a、產(chǎn)生一個(gè)pn序列，并與一個(gè)混沌序列相乘，混沌序列的產(chǎn)生由logistic映射產(chǎn)生，logistic映射定義如下：

xk+1＝μxk(1-xk)

其中，0≤μ≤4稱為分枝參數(shù)，xk∈(0,1)，當(dāng)3.5699456…<μ≤4時(shí)，logistic映射工作于混沌態(tài)，即初始條件在logistic映射下產(chǎn)生的的序列{xk；k＝0,1,2,3…}是非周期的、不收斂的并對(duì)初始值非常敏感；生成監(jiān)測(cè)序列的具體步驟如下：

步驟a1、首先產(chǎn)生實(shí)數(shù)值序列，并選取序列中某個(gè)位置開始的長度為監(jiān)測(cè)序列大小的一段；

步驟a2、將實(shí)數(shù)值序列變?yōu)槎敌蛄校和ㄟ^定義一個(gè)閾值γ，由實(shí)數(shù)值序列得到：

二值混沌序列即為{γ(xk)；k＝0,1,2,3…}；

步驟a3、將二值混沌序列與一個(gè)pn序列相乘，即可得到監(jiān)測(cè)序列；

步驟b、為監(jiān)測(cè)序列插入同步碼，逐幀將后面所嵌入的監(jiān)測(cè)序列提取出來；

步驟c、將插入同步碼的監(jiān)測(cè)序列在小波域中嵌入語音信號(hào)中，具體過程如下：

步驟c1、選取daubechies10小波作為小波函數(shù)；

步驟c2、對(duì)語音信號(hào)進(jìn)行分幀處理，每幀的大小為1152個(gè)采樣點(diǎn)，并對(duì)每幀信號(hào)進(jìn)行3層小波變換；

步驟c3、對(duì)小波系數(shù)進(jìn)行量化，并對(duì)監(jiān)測(cè)序列進(jìn)行調(diào)制，從而將監(jiān)測(cè)序列嵌入語音信號(hào)中，設(shè)待量化的系數(shù)為f，嵌入的監(jiān)測(cè)序列的bit為w，量化步長為δ，量化后含有監(jiān)測(cè)序列信息的系數(shù)為f'具體步驟為：

對(duì)f取模及取整操作，當(dāng)f＞0時(shí)，設(shè)n＝m％2，則：

當(dāng)f＜0時(shí)，設(shè)n＝m％2，n＝w，則：

根據(jù)上述公式一幀一幀將監(jiān)測(cè)序列嵌入到語音信號(hào)中；

步驟c4、將嵌入監(jiān)測(cè)序列的信號(hào)變換回時(shí)域信號(hào)；

步驟d、接收到的語音中提取出嵌入的監(jiān)測(cè)序列，并計(jì)算誤碼率，具體提取的過程包括以下步驟：

步驟d1、在語音信號(hào)中搜索同步碼，具體是：設(shè)需要搜索的信號(hào)長度為l，則l的長度應(yīng)當(dāng)大于兩個(gè)同步碼的長度和一個(gè)完整的監(jiān)測(cè)序列長度的總和；設(shè)信號(hào)的起始搜索點(diǎn)為i＝1，如果信號(hào)的樣本值均在900-1100的范圍內(nèi)，則認(rèn)為搜尋到了可能的同步碼，利用預(yù)設(shè)的同步碼進(jìn)行比較；如果確定為同步碼，則i點(diǎn)即為監(jiān)測(cè)序列的起始位置，否則令i＝i+l；

步驟d2、從找到的起始點(diǎn)開始，對(duì)語音信號(hào)進(jìn)行離散小波變換；

步驟d3、對(duì)小波分解后的系數(shù)f作與嵌入時(shí)相逆的操作，即：f＞0時(shí)，設(shè)w＝m％2；f＜0時(shí)，設(shè)w＝m％2；

從而可以提取出二進(jìn)制監(jiān)測(cè)序列；

步驟d4、比較提取出的監(jiān)測(cè)序列和嵌入的監(jiān)測(cè)序列，通過表達(dá)式18)計(jì)算誤碼率：

其中seqsend、seqreceive和seqlength分別表示發(fā)送監(jiān)測(cè)序列、接收監(jiān)測(cè)序列和序列長度；hammingweight(·)表示求序列的漢明權(quán)重，xor表示異或操作。

以上技術(shù)方案中優(yōu)選的，所述映射關(guān)系通過表達(dá)式19)獲得：

式中：f(·)為多元非線性回歸模型；ci是第i種參數(shù)的一致性量度；n為語音特征參數(shù)的個(gè)數(shù)；是c1,...,cn通過f(·)預(yù)測(cè)出的客觀mos評(píng)分。

應(yīng)用本發(fā)明的技術(shù)方案，效果是：

1、采用mfcc逼近mel頻率刻度，從而拉伸語音的低頻信息和壓制高頻信息，它可用于語音魯棒性分析和語音識(shí)別，抑制依賴于說話人的特征，保留語音段的語言學(xué)的質(zhì)量。

2、本發(fā)明建立主觀mos分和客觀測(cè)度以及信道質(zhì)量之間的映射關(guān)系，得到對(duì)主觀mos分的預(yù)測(cè)模型，使得分更接近主觀質(zhì)量。

3、本發(fā)明方法步驟精簡，使用方便，且能夠有效地客觀評(píng)估語音的質(zhì)量，不依賴主觀評(píng)價(jià)。

除了上面所描述的目的、特征和優(yōu)點(diǎn)之外，本發(fā)明還有其它的目的、特征和優(yōu)點(diǎn)。下面將參照附圖，對(duì)本發(fā)明作進(jìn)一步詳細(xì)的說明。

附圖說明

構(gòu)成本申請(qǐng)的一部分的附圖用來提供對(duì)本發(fā)明的進(jìn)一步理解，本發(fā)明的示意性實(shí)施例及其說明用于解釋本發(fā)明，并不構(gòu)成對(duì)本發(fā)明的不當(dāng)限定。在附圖中：

圖1是實(shí)施例1中基于輸出的客觀語音質(zhì)量的評(píng)估方法的結(jié)構(gòu)原理示意圖。

具體實(shí)施方式

以下結(jié)合附圖對(duì)本發(fā)明的實(shí)施例進(jìn)行詳細(xì)說明，但是本發(fā)明可以根據(jù)權(quán)利要求限定和覆蓋的多種不同方式實(shí)施。

實(shí)施例1：

一種基于輸出的客觀語音質(zhì)量的評(píng)估方法，詳見圖1，具體包括：計(jì)算經(jīng)過系統(tǒng)傳輸后的失真語音的梅爾頻率倒譜系數(shù)(將原始語音經(jīng)過系統(tǒng)傳輸后得到失真語音；計(jì)算梅爾頻率倒譜系數(shù)的過程即為mfcc參數(shù)提取過程)；獲得符合人耳聽覺特性的參考模型(先提取參考語音的mfcc參數(shù)，再獲取gmm-hmm模型)；將失真語音的梅爾頻率倒譜系數(shù)與符合人耳聽覺特性的參考模型進(jìn)行一致性量度計(jì)算(即一致性計(jì)算)；在原始語音中插入一段序列，計(jì)算在經(jīng)過系統(tǒng)傳輸后的失真語音中提取出來該序列的誤碼率；根據(jù)一致性量度和誤碼率建立主觀mos分和一致性測(cè)度之間的映射關(guān)系(即圖1中的mos分映射)，得到對(duì)待評(píng)價(jià)語音mos分的客觀預(yù)測(cè)模型，通過所述客觀預(yù)測(cè)模型進(jìn)行語音質(zhì)量的客觀評(píng)價(jià)(此處是通過映射的mod分和主觀mos分之間的相關(guān)程度和偏離誤差作為評(píng)價(jià)標(biāo)準(zhǔn))。評(píng)價(jià)語音為itu語音庫(國際電信聯(lián)盟語音庫)，詳情如下：

梅爾頻率倒譜系數(shù)的計(jì)算過程包括預(yù)處理、fft(快速傅里葉變換)變換、mel頻率濾波以及離散余弦變換四個(gè)步驟，具體是：

所述預(yù)處理具體包括以下步驟：

步驟1.1、預(yù)加重，具體是：使用具有6db/倍頻程的提升高頻特性的數(shù)字濾波器來實(shí)現(xiàn)預(yù)加重，其傳遞函數(shù)為表達(dá)式1)：

h(z)＝1-μz^-11)；

其中：μ為預(yù)加重系數(shù)，其取值為0.9-1.0(此處取0.95)；

其短時(shí)過零率z用表達(dá)式3)計(jì)算：

其中，sgn[]是符號(hào)函數(shù)，即：

步驟1.3、分幀和加窗，具體是：為了能夠采用平穩(wěn)過程的分析方法進(jìn)行分析，將語音劃分為一個(gè)個(gè)幀，每一幀的長度為10-30ms；同時(shí)，為了減小語音幀的截?cái)嘈?yīng)，采用hamming窗(哈明窗)對(duì)每一幀信號(hào)進(jìn)行加窗，具體是：

設(shè)幀信號(hào)為x(n)，窗函數(shù)為w(n)，則加窗后的信號(hào)y(n)為表達(dá)式4)：

y(n)＝x(n)w(n),0≤n≤n-14)；

其中，n為每幀的取樣點(diǎn)數(shù)，w(n)的表達(dá)式為w(n)＝0.54-0.46cos[2πn/(n-1)],0≤n≤n-1。

所述mel頻率濾波具體是：將經(jīng)過fft處理的離散頻譜用序列三角濾波器進(jìn)行濾波處理，得到一組系數(shù)ml、m2、……；該濾波器組的個(gè)數(shù)p由信號(hào)的截止頻率決定，所有濾波器總體上覆蓋從0hz到nyquist頻率(奈奎斯特頻率)，即采樣率的二分之一；mi由表達(dá)式5)計(jì)算得到：

其中：

f[i]是三角濾波器的中心頻率，滿足：mel(f[i+1])-mel(f[i])＝mel(f[i])-mel(f[i-1])。

由于mel頻譜系數(shù)都是實(shí)數(shù)，可以通過離散余弦變換將其變換到時(shí)域。所述離散余弦變換具體是：將經(jīng)過mel頻率濾波的mel頻譜變換到時(shí)域，得到mel頻率倒譜系數(shù)，其由表達(dá)式6)計(jì)算得到：

其中：mfcc(i)為mel頻率倒譜系數(shù)，n為每幀取樣點(diǎn)數(shù)，p為濾波器組的個(gè)數(shù)。

獲得符合人耳聽覺特性的參考模型詳細(xì)過程如下：

基于gmm-hmm的語音建模和訓(xùn)練，設(shè)觀測(cè)的特征向量序列為o＝o1,o2,…,ot，該序列的狀態(tài)模型序列為s＝s1,s2,…,sn，則該序列的hmm模型(隱馬爾可夫模型)表示為表達(dá)式7)：

λ＝(π,a,b)7)；

其中，cjk表示狀態(tài)j的第k個(gè)高斯混合密度函數(shù)的系數(shù)；μjk是高斯密度函數(shù)的均值向量；cjk為協(xié)方差矩陣，d為觀測(cè)序列o的維數(shù)；hmm參數(shù)由觀測(cè)序列o＝o1,o2,…,ot估計(jì)得到，估計(jì)的目標(biāo)是使模型與訓(xùn)練數(shù)據(jù)的似然函數(shù)p(o|λ)最大化來估計(jì)最新的λ，即使這可以采用em算法(最大期望算法)來實(shí)現(xiàn)，所述em算法包含兩部分：前向后向概率計(jì)算和hmm參數(shù)及高斯混合參數(shù)的再估計(jì)，如下：

所述似然函數(shù)p(o|λ)的前向概率計(jì)算公式如表達(dá)式10)：

其中：α1(i)＝πbi(o1),1≤i≤n；

所述似然函數(shù)p(o|λ)的后向概率計(jì)算公式如表達(dá)式11)：

其中：βt(i)＝1,1≤i≤n；

在給定模型λ和觀測(cè)序列o的條件下，狀態(tài)si在時(shí)刻t的后驗(yàn)概率為表達(dá)式13)：

由此，hmm參數(shù)λ重估計(jì)如下：

在t時(shí)刻狀態(tài)j第k個(gè)高斯混合分量的參數(shù)cjk、μjk和cjk由表達(dá)式14)、15)以及16)重新估計(jì)：

其中，γt(j,k)表示在t時(shí)刻狀態(tài)j第k個(gè)高斯混合分量的概率，可由下式得到：

一致性量度的計(jì)算方法具體是：建模后，失真語音的梅爾頻率倒譜系數(shù)與所述參考模型進(jìn)行一致性量度采用表達(dá)式17)進(jìn)行計(jì)算：

其中：x1,...,xn是失真語音的梅爾頻率倒譜系數(shù)(mfcc)向量，n是向量個(gè)數(shù)，c是失真語音與模型的一致性量度。

所述誤碼率的計(jì)算過程如下：

步驟a、產(chǎn)生一個(gè)pn序列，并與一個(gè)混沌序列相乘，混沌序列的產(chǎn)生由logistic映射產(chǎn)生，logistic映射定義如下：

xk+1＝μxk(1-xk)

步驟a1、首先產(chǎn)生實(shí)數(shù)值序列，并選取序列中某個(gè)位置開始的長度為監(jiān)測(cè)序列大小的一段；

步驟a2、將實(shí)數(shù)值序列變?yōu)槎敌蛄校和ㄟ^定義一個(gè)閾值γ，由實(shí)數(shù)值序列得到：

二值混沌序列即為{γ(xk)；k＝0,1,2,3…}；

步驟a3、將二值混沌序列與一個(gè)pn序列(偽噪聲序列)相乘，即可得監(jiān)測(cè)序列；

步驟b、為監(jiān)測(cè)序列插入同步碼，逐幀將后面所嵌入的監(jiān)測(cè)序列提取出來，具體是：為監(jiān)測(cè)序列插入同步碼，插入同步碼的目的是為了防止音頻經(jīng)過信道的衰減后，接收端難以提取出監(jiān)測(cè)序列；我們使用的同步碼為16個(gè)比特位，為了能夠準(zhǔn)確地定位同步碼，我們采取的方法是在語音信號(hào)的時(shí)域中嵌入同步碼，具體實(shí)現(xiàn)方法為將監(jiān)測(cè)序列前的16個(gè)采樣點(diǎn)的振幅定為1000，這樣在接收端提取監(jiān)測(cè)序列的過程中，如果出現(xiàn)起點(diǎn)不同步的情況，則可以利用連續(xù)16個(gè)樣本值在900～1100的采樣點(diǎn)，以搜尋同步碼的方式來快速找出水印的起始樣本位置，如此，即可逐幀將后面所嵌入的監(jiān)測(cè)序列提取出來；

步驟c、將插入同步碼的監(jiān)測(cè)序列在小波域中嵌入語音信號(hào)中，選擇在小波域中嵌入的原因是變換域中嵌入監(jiān)測(cè)序列具有更好的隱蔽性，不會(huì)對(duì)原始語音造成人耳可以辨別的影響。將序列在小波域中嵌入語音的具體過程如下：

步驟c1、由于使用不同的小波基分析同一個(gè)問題會(huì)產(chǎn)生不同的結(jié)果，因此，需要根據(jù)分析的問題選擇合適的小波基，此處選取daubechies10小波作為小波函數(shù)；

步驟c2、對(duì)語音信號(hào)進(jìn)行分幀處理，每幀的大小為1152個(gè)采樣點(diǎn)，并對(duì)每幀信號(hào)進(jìn)行3層小波變換；考慮到人耳的聽覺特性，此處選擇在高頻段嵌入序列；

當(dāng)f＜0時(shí)，設(shè)n＝m％2，n＝w，則：

根據(jù)上述公式可以一幀一幀將監(jiān)測(cè)序列嵌入到語音信號(hào)中。

步驟c4、將嵌入監(jiān)測(cè)序列的信號(hào)變換回時(shí)域信號(hào)；

步驟d、接收到的語音中提取出嵌入的監(jiān)測(cè)序列，并計(jì)算誤碼率，詳情是：監(jiān)測(cè)序列的提取是嵌入的逆過程，因此用到的小波函數(shù)和小波分解的級(jí)數(shù)都保持不變，具體提取的過程包括以下步驟：

步驟d1、在語音信號(hào)中搜索同步碼，具體是：設(shè)需要搜索的信號(hào)長度為l，則l的長度應(yīng)當(dāng)大于兩個(gè)同步碼的長度和一個(gè)完整的監(jiān)測(cè)序列長度的總和。設(shè)信號(hào)的起始搜索點(diǎn)為i＝1，如果信號(hào)的樣本值均在900-1100的范圍內(nèi)，則認(rèn)為搜尋到了可能的同步碼，利用預(yù)設(shè)的同步碼進(jìn)行比較；如果確定為同步碼，則i點(diǎn)即為監(jiān)測(cè)序列的起始位置，否則令i＝i+l；

步驟d2、從找到的起始點(diǎn)開始，對(duì)語音信號(hào)進(jìn)行離散小波變換；

步驟d3、對(duì)小波分解后的系數(shù)f作與嵌入時(shí)相逆的操作，即：

f＞0時(shí)，設(shè)w＝m％2；

f＜0時(shí)，設(shè)w＝m％2；

從而可以提取出二進(jìn)制監(jiān)測(cè)序列；

步驟d4、比較提取出的監(jiān)測(cè)序列和嵌入的監(jiān)測(cè)序列，通過表達(dá)式18)計(jì)算誤碼率(誤碼率作為語音質(zhì)量評(píng)估的一個(gè)客觀測(cè)度)：

在計(jì)算出各種失真條件下語音的參數(shù)一致性量度之后，可以用一種函數(shù)映射關(guān)系來表示參數(shù)一致性量度與客觀之間的關(guān)系，即所述映射關(guān)系通過表達(dá)式19)獲得：

式中：f(·)為預(yù)測(cè)函數(shù)(它可以是線性或非線性回歸關(guān)系，也可以是多項(xiàng)式擬合關(guān)系，在本專利實(shí)施例中，為了得到更精確的預(yù)測(cè)mos值，此處優(yōu)選多元非線性回歸模型)；ci是第i種參數(shù)的一致性量度；n為語音特征參數(shù)的個(gè)數(shù)；是c1,...,cn通過f(·)預(yù)測(cè)出的客觀mos評(píng)分。誤碼率越大，說明信道中干擾越強(qiáng)，傳輸過程中帶來的語音損傷也相應(yīng)也大，對(duì)應(yīng)的值越小，語音的質(zhì)量越差。

下面從相關(guān)度、偏離誤差來衡量語音質(zhì)量評(píng)估算法的性能。相關(guān)度主要反映語音質(zhì)量評(píng)估算法通過失真映射獲得預(yù)測(cè)mos分的映射關(guān)系是否合理，一般用算法映射的mos分與已知的主觀mos值之間的相關(guān)程度和偏離誤差作為評(píng)價(jià)標(biāo)準(zhǔn)。

相關(guān)系數(shù)ρ和用標(biāo)準(zhǔn)估計(jì)偏差σ通過表達(dá)式20)和表達(dá)式21)獲得：

其中：moso(i)是第i個(gè)語音的預(yù)測(cè)mos值，moss(i)是已知的mos分，n是總的語音對(duì)的數(shù)目，表示預(yù)測(cè)mos值的均值，表示mos分的均值。

相關(guān)系數(shù)ρ越接近1，預(yù)測(cè)mos值越接近真實(shí)mos值；偏離誤差σ越小，則預(yù)測(cè)誤差越小，算法的性能越好。

本實(shí)施例1的評(píng)估方法與國際電信聯(lián)盟itup.563客觀評(píng)價(jià)方法(itu-tp.563)的性能對(duì)比結(jié)果詳見表1。

從表1中可以看出，本發(fā)明方法(實(shí)施例1)相對(duì)于itu-tp.563算法性能上有了一定程度的提高，主觀mos分的平均相關(guān)度ρ較高，估計(jì)偏差σ較低，因此，本發(fā)明方法具有有效性和可行性。

表1本發(fā)明方法(實(shí)施例1)和itu-tp.563分別對(duì)語音進(jìn)行處理的性能比較表

以上所述僅為本發(fā)明的優(yōu)選實(shí)施例而已，并不用于限制本發(fā)明，對(duì)于本領(lǐng)域的技術(shù)人員來說，本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi)，所作的任何修改、等同替換、改進(jìn)等，均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：李慶先;劉良江;王晉威;朱憲宇;熊婕;李彥博
技術(shù)所有人：湖南省計(jì)量檢測(cè)研究院
我是此專利的發(fā)明人

上一篇：音頻檢測(cè)方法及裝置與流程
上一篇：一種基于盲源分離算法改善錄音質(zhì)量的方法及其裝置與流程

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

圖像質(zhì)量評(píng)估客觀測(cè)量相關(guān)技術(shù)

語音質(zhì)量評(píng)估相關(guān)技術(shù)

圖像質(zhì)量客觀評(píng)價(jià)相關(guān)技術(shù)

語音輸出相關(guān)技術(shù)

語音輸出文字相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種基于輸出的客觀語音質(zhì)量的評(píng)估方法與流程