一種語音線性預(yù)測模型的非線性量化方法

文檔序號：2826392閱讀：581來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

一種語音線性預(yù)測模型的非線性量化方法
【專利摘要】本發(fā)明公開了一種語音線性預(yù)測模型的非線性量化方法，包括：線譜頻率參數(shù)變換步驟：將語音線性編碼預(yù)測模型的線譜頻率參數(shù)通過線性變換轉(zhuǎn)化為線譜頻率參數(shù)差值；非線性去相關(guān)步驟：根據(jù)線譜頻率參數(shù)差值的統(tǒng)計特性，采用結(jié)構(gòu)化的方法，通過非線性變換將線譜頻率參數(shù)差值去相關(guān)；計算邊際概率分布步驟：利用去相關(guān)的線譜頻率參數(shù)差值的統(tǒng)計特性，計算其邊緣概率密度分布；標(biāo)量量化器設(shè)計步驟：根據(jù)得到的邊緣概率密度分布函數(shù)，設(shè)計基于概率密度函數(shù)的優(yōu)化量化器。本發(fā)明所述語音線性預(yù)測模型的非線性量化方法，可以克服現(xiàn)有技術(shù)中時間復(fù)雜度高和使用效果差等缺陷，以實現(xiàn)時間復(fù)雜度低和使用效果好的優(yōu)點。
【專利說明】一種語音線性預(yù)測模型的非線性量化方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及語音編碼【技術(shù)領(lǐng)域】，具體地，涉及一種語音線性預(yù)測模型的非線性量化方法。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)技術(shù)的深入發(fā)展，語音通信技術(shù)得到了長足的進(jìn)步，傳輸?shù)恼Z音信號已經(jīng)由窄帶信號傳播演進(jìn)到了寬帶信號傳播。伴隨著多媒體應(yīng)用的不斷開發(fā)與推廣，人們對于在語音通信技術(shù)中語音傳輸質(zhì)量和實時性的要求越來越高，因此，研究高效可靠的語音通信算法，具有迫切的社會需求。
[0003]語音通信中要解決的首要問題是語音的編碼。經(jīng)過數(shù)十年的發(fā)展，語音編碼技術(shù)大致可以分為三種方式:波形編碼技術(shù)、基于參數(shù)模型的編碼技術(shù)和混合編碼技術(shù)。波形編碼技術(shù)針對語音波形直接進(jìn)行量化和傳輸，不基于聲學(xué)模型?；趨?shù)模型的編碼技術(shù)將語音通過線性預(yù)測模型分析后，分別傳輸線性預(yù)測模型，邊信息和語音能量信息?；旌暇幋a技術(shù)是上述兩者的結(jié)合。一般來說，基于參數(shù)模型的編碼技術(shù)是應(yīng)用較為廣泛，性能比較可靠的一類編碼技術(shù)，其核心在于如何有效可靠的傳輸線性預(yù)測模型，即如何實現(xiàn)模型的有效量化和編碼。
[0004]線性預(yù)測編碼技術(shù)是語音編碼處理中的核心技術(shù)。在語音線性預(yù)測編碼模型的研究中，線譜頻率參數(shù)是使用較多的一種表示方式，原因在于其頻譜敏感區(qū)域的分布較為平均，即量化誤差對于每一個頻段的影響基本一樣。早期的線譜頻率參數(shù)量化研究集中在基于數(shù)據(jù)的量化器設(shè)計上，即獲取大量的線譜頻率參數(shù)并通過Lloyd-Max算法實現(xiàn)矢量量化器。由于數(shù)據(jù)量有限，此矢量量化器存在嚴(yán)重的過擬合問題。此外，由于矢量量化器的訓(xùn)練時間和量化中心匹配時間隨著量化級數(shù)的增加呈指數(shù)增長，在高速率傳輸?shù)臅r候，時間開銷較大，復(fù)雜度較高。近年來，基于概率密度分布的優(yōu)化量化吸引了學(xué)術(shù)界和工業(yè)界的大量關(guān)注，其原因在于這種方法可以在獲得線譜頻率參數(shù)概率密度分布函數(shù)的基礎(chǔ)上計算出量化器的量化中心，從而避免了由于數(shù)據(jù)量有限帶來的過擬合問題和訓(xùn)練時間過長的問題。此外，通過統(tǒng)計模型，可以將線譜頻率參數(shù)之間的相關(guān)性去除，得到一組互相獨立的參數(shù)。在去除記憶優(yōu)勢的基礎(chǔ)上，標(biāo)量量化器可以取代矢量量化其，使得量化中心匹配時間進(jìn)一步縮短。
[0005]然而，傳統(tǒng)的基于概率密度分布的優(yōu)化量化方法主要基于高斯統(tǒng)計模型構(gòu)建，無法很好的描述線譜頻率參數(shù)的有界、有序的特性。針對這一問題，有學(xué)者提出了有界的高斯混合模型來描述線譜頻率參數(shù)的上述特性，雖然取得了一些量化性能上的提高，卻帶來了時間復(fù)雜度太高的負(fù)面影響，總體效果不盡如人意。
[0006]在實現(xiàn)本發(fā)明的過程中，發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)中至少存在時間復(fù)雜度高和使用效
果差等缺陷。

【發(fā)明內(nèi)容】
[0007]本發(fā)明的目的在于，針對上述問題，提出一種語音線性預(yù)測模型的非線性量化方法，以實現(xiàn)時間復(fù)雜度低和使用效果好的優(yōu)點。[0008]為實現(xiàn)上述目的，本發(fā)明采用的技術(shù)方案是:一種語音線性預(yù)測模型的非線性量化方法，包括:
a、線譜頻率參數(shù)變換步驟:將語音線性編碼預(yù)測模型的線譜頻率參數(shù)通過線性變換轉(zhuǎn)化為線譜頻率參數(shù)差值；
b、非線性去相關(guān)步驟:根據(jù)線譜頻率參數(shù)差值的統(tǒng)計特性，采用結(jié)構(gòu)化的方法，通過非線性變換將線譜頻率參數(shù)差值去相關(guān)；
C、計算邊際概率分布步驟:利用去相關(guān)的線譜頻率參數(shù)差值的統(tǒng)計特性，計算其邊緣概率密度分布；
d、標(biāo)量量化器設(shè)計步驟:根據(jù)得到的邊緣概率密度分布函數(shù)，設(shè)計基于概率密度函數(shù)的優(yōu)化量化器。
[0009]進(jìn)一步地,在步驟a之前,還包括:
線性預(yù)測模型的線譜頻率參數(shù)提取步驟:將線性預(yù)測模型通過Chebyshev多項式求根法轉(zhuǎn)化為線譜頻率參數(shù)。
[0010]進(jìn)一步地，在步驟d之后，還包括:
優(yōu)化的順序量化步驟:對變換后的參數(shù)實現(xiàn)優(yōu)化的順序量化方式，達(dá)到控制差錯傳播的目的。
[0011]進(jìn)一步地，所述對變換后的參數(shù)實現(xiàn)優(yōu)化的順序量化方式的操作，具體包括: 將步驟a中描述的去相關(guān)過程和步驟d中描述的基于概率密度函數(shù)的標(biāo)量量化器相結(jié)
合，形成優(yōu)化的順序量化方法，實現(xiàn)有效的差錯控制。
[0012]進(jìn)一步地，所述將步驟a中描述的去相關(guān)過程和步驟d中描述的基于概率密度函數(shù)的標(biāo)量量化器相結(jié)合，形成優(yōu)化的順序量化方法，實現(xiàn)有效的差錯控制的操作，具體包括:
1)輸入:
a)K + j維線譜頻率參數(shù)差值向量S = [A ^ ，.，^ SM }；
b)如步驟5得到的針對每一個的標(biāo)量量化器；
2)初始化:
a)計數(shù)器I = I ；
3)執(zhí)行￡次循環(huán)，其中第I步循環(huán)操作:
a)當(dāng)! = I時:
1.取出向量§中的第一個元素將其通過步驟5中描述的標(biāo)量量化器量化，得到元素為放入向量文中；
b)當(dāng)！ f I時:1.取出向量中的第一個元素將
【權(quán)利要求】
1.一種語音線性預(yù)測模型的非線性量化方法，其特征在于，包括: a、線譜頻率參數(shù)變換步驟:將語音線性編碼預(yù)測模型的線譜頻率參數(shù)通過線性變換轉(zhuǎn)化為線譜頻率參數(shù)差值； b、非線性去相關(guān)步驟:根據(jù)線譜頻率參數(shù)差值的統(tǒng)計特性，采用結(jié)構(gòu)化的方法，通過非線性變換將線譜頻率參數(shù)差值去相關(guān)； C、計算邊際概率分布步驟:利用去相關(guān)的線譜頻率參數(shù)差值的統(tǒng)計特性，計算其邊緣概率密度分布； d、標(biāo)量量化器設(shè)計步驟:根據(jù)得到的邊緣概率密度分布函數(shù)，設(shè)計基于概率密度函數(shù)的優(yōu)化量化器。
2.根據(jù)權(quán)利要求1所述的語音線性預(yù)測模型的非線性量化方法，其特征在于，在步驟a之前，還包括: 線性預(yù)測模型的線譜頻率參數(shù)提取步驟:將線性預(yù)測模型通過Chebyshev多項式求根法轉(zhuǎn)化為線譜頻率參數(shù)。
3.根據(jù)權(quán)利要求1或2所述的語音線性預(yù)測模型的非線性量化方法，其特征在于，在步驟d之后,還包括: 優(yōu)化的順序量化步驟:對變換后的參數(shù)實現(xiàn)優(yōu)化的順序量化方式，達(dá)到控制差錯傳播的目的。
4.根據(jù)權(quán)利要求3所述的語音線性預(yù)測模型的非線性量化方法，其特征在于，所述對變換后的參數(shù)實現(xiàn)優(yōu)化的順序量化方式的操作，具體包括: 將步驟a中描述的去相關(guān)過程和步驟d中描述的基于概率密度函數(shù)的標(biāo)量量化器相結(jié)合，形成優(yōu)化的順序量化方法，實現(xiàn)有效的差錯控制。
5.根據(jù)權(quán)利要求4所述的語音線性預(yù)測模型的非線性量化方法，其特征在于，所述將步驟a中描述的去相關(guān)過程和步驟d中描述的基于概率密度函數(shù)的標(biāo)量量化器相結(jié)合，形成優(yōu)化的順序量化方法，實現(xiàn)有效的差錯控制的操作，具體包括: .1)輸入: a)11維線譜頻率參數(shù)差值向星S”..，丨尤+1 ]; b)如步驟5得到的針對每一個的標(biāo)量量化器； .2)初始化: a)計數(shù)器?=1; b)z 維目標(biāo)向量i=[n..為]=[o，o,"”o]; .3)執(zhí)行次循環(huán)，其中第i步循環(huán)操作: a)當(dāng)? Z= I時: .1.取出向量g中的第一個元素將其通過步驟5中描述的標(biāo)量量化器量化，得到元素4放入向量t中； b)當(dāng)I客I時:i.取出向量中的第一個元素^ ,將:
6.根據(jù)權(quán)利要求1或2所述的語音線性預(yù)測模型的非線性量化方法，其特征在于，在步驟a中，所述將語音線性編碼預(yù)測模型的線譜頻率參數(shù)通過線性變換轉(zhuǎn)化為線譜頻率參數(shù)差值的操作，具體包括: 利用線譜頻率參數(shù)的有序特性和有界特性，將其變換為線性譜參數(shù)差值，此差值的特征為:有序特性分布在(?λ?)開區(qū)間內(nèi)，有序特性加和為I; 所述利用線譜頻率參數(shù)的有序特性和有界特性，將其變換為線性譜參數(shù)差值的操作，具體包括: 1)f維線譜頻率參數(shù)表示為
7.根據(jù)權(quán)利要求1或2所述的語音線性預(yù)測模型的非線性量化方法，其特征在于，在步驟b中，所述根據(jù)線譜頻率參數(shù)差值的統(tǒng)計特性，采用結(jié)構(gòu)化的方法，通過非線性變換將線譜頻率參數(shù)差值去相關(guān)的操作，具體包括: 利用線譜頻率參數(shù)差值的統(tǒng)計特性，假設(shè)其為中性向量；采用結(jié)構(gòu)化的方法，通過歸一化一取首元素的循環(huán)運算，將線譜頻率參數(shù)差值之間的相關(guān)性去除，使參數(shù)之間統(tǒng)計上相互獨立。
8.根據(jù)權(quán)利要求1或2所述的語音線性預(yù)測模型的非線性量化方法，其特征在于，所述采用結(jié)構(gòu)化的方法，通過歸一化一取首元素的循環(huán)運算，將線譜頻率參數(shù)差值之間的相關(guān)性去除，使參數(shù)之間統(tǒng)計上相互獨立的操作，具體包括: O輸入: a) K+1維線譜頻率參數(shù)差值向量
9.根據(jù)權(quán)利要求1或2所述的語音線性預(yù)測模型的非線性量化方法，其特征在于，在步驟c中，所述利用去相關(guān)的線譜頻率參數(shù)差值的統(tǒng)計特性，計算其邊緣概率密度分布的操作，具體包括: . 1)由步驟c得到的去相關(guān)后的線譜頻率參數(shù)差值是有界的；根據(jù)此去相關(guān)后的線譜頻率參數(shù)差值，針對每一個元素JT1, j =H,.訓(xùn)練基于貝塔分布的貝塔混合模型； .2)假設(shè)A服從單一貝塔分布，計算此貝塔分布，使得其與上述步驟I)中根據(jù)得到的
I貝塔混合模型之間的相對熵最小。
10.根據(jù)權(quán)利要求1或2所述的語音線性預(yù)測模型的非線性量化方法，其特征在于，在步驟d中，所述根據(jù)得到的邊緣概率密度分布函數(shù)，設(shè)計基于概率密度函數(shù)的優(yōu)化量化器的操作，具體包括: 采用標(biāo)量量化的模式取代矢量量化，針對每一維參數(shù)設(shè)計基于貝塔分布的量化器；根據(jù)得到的概率密度分布函數(shù)計算出量化中心和量化區(qū)域，實現(xiàn)最優(yōu)的標(biāo)量量化器。
【文檔編號】G10L19/035GK103632673SQ201310538591
【公開日】2014年3月12日申請日期:2013年11月5日優(yōu)先權(quán)日:2013年11月5日
【發(fā)明者】馬占宇, 肖波, 司中威, 郭軍申請人:無錫北郵感知技術(shù)產(chǎn)業(yè)研究院有限公司

完整全部詳細(xì)技術(shù)資料下載