一種語音線性預(yù)測模型的非線性量化方法
【專利摘要】本發(fā)明公開了一種語音線性預(yù)測模型的非線性量化方法,包括:線譜頻率參數(shù)變換步驟:將語音線性編碼預(yù)測模型的線譜頻率參數(shù)通過線性變換轉(zhuǎn)化為線譜頻率參數(shù)差值;非線性去相關(guān)步驟:根據(jù)線譜頻率參數(shù)差值的統(tǒng)計特性,采用結(jié)構(gòu)化的方法,通過非線性變換將線譜頻率參數(shù)差值去相關(guān);計算邊際概率分布步驟:利用去相關(guān)的線譜頻率參數(shù)差值的統(tǒng)計特性,計算其邊緣概率密度分布;標(biāo)量量化器設(shè)計步驟:根據(jù)得到的邊緣概率密度分布函數(shù),設(shè)計基于概率密度函數(shù)的優(yōu)化量化器。本發(fā)明所述語音線性預(yù)測模型的非線性量化方法,可以克服現(xiàn)有技術(shù)中時間復(fù)雜度高和使用效果差等缺陷,以實現(xiàn)時間復(fù)雜度低和使用效果好的優(yōu)點。
【專利說明】一種語音線性預(yù)測模型的非線性量化方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及語音編碼【技術(shù)領(lǐng)域】,具體地,涉及一種語音線性預(yù)測模型的非線性量化方法。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)技術(shù)的深入發(fā)展,語音通信技術(shù)得到了長足的進(jìn)步,傳輸?shù)恼Z音信號已經(jīng)由窄帶信號傳播演進(jìn)到了寬帶信號傳播。伴隨著多媒體應(yīng)用的不斷開發(fā)與推廣,人們對于在語音通信技術(shù)中語音傳輸質(zhì)量和實時性的要求越來越高,因此,研究高效可靠的語音通信算法,具有迫切的社會需求。
[0003]語音通信中要解決的首要問題是語音的編碼。經(jīng)過數(shù)十年的發(fā)展,語音編碼技術(shù)大致可以分為三種方式:波形編碼技術(shù)、基于參數(shù)模型的編碼技術(shù)和混合編碼技術(shù)。波形編碼技術(shù)針對語音波形直接進(jìn)行量化和傳輸,不基于聲學(xué)模型?;趨?shù)模型的編碼技術(shù)將語音通過線性預(yù)測模型分析后,分別傳輸線性預(yù)測模型,邊信息和語音能量信息?;旌暇幋a技術(shù)是上述兩者的結(jié)合。一般來說,基于參數(shù)模型的編碼技術(shù)是應(yīng)用較為廣泛,性能比較可靠的一類編碼技術(shù),其核心在于如何有效可靠的傳輸線性預(yù)測模型,即如何實現(xiàn)模型的有效量化和編碼。
[0004]線性預(yù)測編碼技術(shù)是語音編碼處理中的核心技術(shù)。在語音線性預(yù)測編碼模型的研究中,線譜頻率參數(shù)是使用較多的一種表示方式,原因在于其頻譜敏感區(qū)域的分布較為平均,即量化誤差對于每一個頻段的影響基本一樣。早期的線譜頻率參數(shù)量化研究集中在基于數(shù)據(jù)的量化器設(shè)計上,即獲取大量的線譜頻率參數(shù)并通過Lloyd-Max算法實現(xiàn)矢量量化器。由于數(shù)據(jù)量有限,此矢量量化器存在嚴(yán)重的過擬合問題。此外,由于矢量量化器的訓(xùn)練時間和量化中心匹配時間隨著量化級數(shù)的增加呈指數(shù)增長,在高速率傳輸?shù)臅r候,時間開銷較大,復(fù)雜度較高。近年來,基于概率密度分布的優(yōu)化量化吸引了學(xué)術(shù)界和工業(yè)界的大量關(guān)注,其原因在于這種方法可以在獲得線譜頻率參數(shù)概率密度分布函數(shù)的基礎(chǔ)上計算出量化器的量化中心,從而避免了由于數(shù)據(jù)量有限帶來的過擬合問題和訓(xùn)練時間過長的問題。此外,通過統(tǒng)計模型,可以將線譜頻率參數(shù)之間的相關(guān)性去除,得到一組互相獨立的參數(shù)。在去除記憶優(yōu)勢的基礎(chǔ)上,標(biāo)量量化器可以取代矢量量化其,使得量化中心匹配時間進(jìn)一步縮短。
[0005]然而,傳統(tǒng)的基于概率密度分布的優(yōu)化量化方法主要基于高斯統(tǒng)計模型構(gòu)建,無法很好的描述線譜頻率參數(shù)的有界、有序的特性。針對這一問題,有學(xué)者提出了有界的高斯混合模型來描述線譜頻率參數(shù)的上述特性,雖然取得了一些量化性能上的提高,卻帶來了時間復(fù)雜度太高的負(fù)面影響,總體效果不盡如人意。
[0006]在實現(xiàn)本發(fā)明的過程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)中至少存在時間復(fù)雜度高和使用效
果差等缺陷。
【發(fā)明內(nèi)容】
[0007]本發(fā)明的目的在于,針對上述問題,提出一種語音線性預(yù)測模型的非線性量化方法,以實現(xiàn)時間復(fù)雜度低和使用效果好的優(yōu)點。[0008]為實現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案是:一種語音線性預(yù)測模型的非線性量化方法,包括:
a、線譜頻率參數(shù)變換步驟:將語音線性編碼預(yù)測模型的線譜頻率參數(shù)通過線性變換轉(zhuǎn)化為線譜頻率參數(shù)差值;
b、非線性去相關(guān)步驟:根據(jù)線譜頻率參數(shù)差值的統(tǒng)計特性,采用結(jié)構(gòu)化的方法,通過非線性變換將線譜頻率參數(shù)差值去相關(guān);
C、計算邊際概率分布步驟:利用去相關(guān)的線譜頻率參數(shù)差值的統(tǒng)計特性,計算其邊緣概率密度分布;
d、標(biāo)量量化器設(shè)計步驟:根據(jù)得到的邊緣概率密度分布函數(shù),設(shè)計基于概率密度函數(shù)的優(yōu)化量化器。
[0009]進(jìn)一步地,在步驟a之前,還包括:
線性預(yù)測模型的線譜頻率參數(shù)提取步驟:將線性預(yù)測模型通過Chebyshev多項式求根法轉(zhuǎn)化為線譜頻率參數(shù)。
[0010]進(jìn)一步地,在步驟d之后,還包括:
優(yōu)化的順序量化步驟:對變換后的參數(shù)實現(xiàn)優(yōu)化的順序量化方式,達(dá)到控制差錯傳播的目的。
[0011]進(jìn)一步地,所述對變換后的參數(shù)實現(xiàn)優(yōu)化的順序量化方式的操作,具體包括: 將步驟a中描述的去相關(guān)過程和步驟d中描述的基于概率密度函數(shù)的標(biāo)量量化器相結(jié)
合,形成優(yōu)化的順序量化方法,實現(xiàn)有效的差錯控制。
[0012]進(jìn)一步地,所述將步驟a中描述的去相關(guān)過程和步驟d中描述的基于概率密度函數(shù)的標(biāo)量量化器相結(jié)合,形成優(yōu)化的順序量化方法,實現(xiàn)有效的差錯控制的操作,具體包括:
1)輸入:
a)K + j維線譜頻率參數(shù)差值向量S = [A ^ ,.,^ SM };
b)如步驟5得到的針對每一個的標(biāo)量量化器;
2)初始化:
a)計數(shù)器I = I ;
3)執(zhí)行£次循環(huán),其中第I步循環(huán)操作:
a)當(dāng)! = I時:
1.取出向量§中的第一個元素將其通過步驟5中描述的標(biāo)量量化器量化,得到元素為放入向量文中;
b)當(dāng)! f I時:1.取出向量中的第一個元素將
【權(quán)利要求】
1.一種語音線性預(yù)測模型的非線性量化方法,其特征在于,包括: a、線譜頻率參數(shù)變換步驟:將語音線性編碼預(yù)測模型的線譜頻率參數(shù)通過線性變換轉(zhuǎn)化為線譜頻率參數(shù)差值; b、非線性去相關(guān)步驟:根據(jù)線譜頻率參數(shù)差值的統(tǒng)計特性,采用結(jié)構(gòu)化的方法,通過非線性變換將線譜頻率參數(shù)差值去相關(guān); C、計算邊際概率分布步驟:利用去相關(guān)的線譜頻率參數(shù)差值的統(tǒng)計特性,計算其邊緣概率密度分布; d、標(biāo)量量化器設(shè)計步驟:根據(jù)得到的邊緣概率密度分布函數(shù),設(shè)計基于概率密度函數(shù)的優(yōu)化量化器。
2.根據(jù)權(quán)利要求1所述的語音線性預(yù)測模型的非線性量化方法,其特征在于,在步驟a之前,還包括: 線性預(yù)測模型的線譜頻率參數(shù)提取步驟:將線性預(yù)測模型通過Chebyshev多項式求根法轉(zhuǎn)化為線譜頻率參數(shù)。
3.根據(jù)權(quán)利要求1或2所述的語音線性預(yù)測模型的非線性量化方法,其特征在于,在步驟d之后,還包括: 優(yōu)化的順序量化步驟:對變換后的參數(shù)實現(xiàn)優(yōu)化的順序量化方式,達(dá)到控制差錯傳播的目的。
4.根據(jù)權(quán)利要求3所述的語音線性預(yù)測模型的非線性量化方法,其特征在于,所述對變換后的參數(shù)實現(xiàn)優(yōu)化的順序量化方式的操作,具體包括: 將步驟a中描述的去相關(guān)過程和步驟d中描述的基于概率密度函數(shù)的標(biāo)量量化器相結(jié)合,形成優(yōu)化的順序量化方法,實現(xiàn)有效的差錯控制。
5.根據(jù)權(quán)利要求4所述的語音線性預(yù)測模型的非線性量化方法,其特征在于,所述將步驟a中描述的去相關(guān)過程和步驟d中描述的基于概率密度函數(shù)的標(biāo)量量化器相結(jié)合,形成優(yōu)化的順序量化方法,實現(xiàn)有效的差錯控制的操作,具體包括: .1)輸入: a)11維線譜頻率參數(shù)差值向星S”..,丨尤+1 ]; b)如步驟5得到的針對每一個的標(biāo)量量化器; .2)初始化: a)計數(shù)器?=1; b)z 維目標(biāo)向量i=[n..為]=[o,o,"”o]; .3)執(zhí)行次循環(huán),其中第i步循環(huán)操作: a)當(dāng)? Z= I時: .1.取出向量g中的第一個元素將其通過步驟5中描述的標(biāo)量量化器量化,得到元素4放入向量t中; b)當(dāng)I客I時:i.取出向量中的第一個元素^ ,將:
6.根據(jù)權(quán)利要求1或2所述的語音線性預(yù)測模型的非線性量化方法,其特征在于,在步驟a中,所述將語音線性編碼預(yù)測模型的線譜頻率參數(shù)通過線性變換轉(zhuǎn)化為線譜頻率參數(shù)差值的操作,具體包括: 利用線譜頻率參數(shù)的有序特性和有界特性,將其變換為線性譜參數(shù)差值,此差值的特征為:有序特性分布在(?λ?)開區(qū)間內(nèi),有序特性加和為I; 所述利用線譜頻率參數(shù)的有序特性和有界特性,將其變換為線性譜參數(shù)差值的操作,具體包括: 1)f維線譜頻率參數(shù)表示為
7.根據(jù)權(quán)利要求1或2所述的語音線性預(yù)測模型的非線性量化方法,其特征在于,在步驟b中,所述根據(jù)線譜頻率參數(shù)差值的統(tǒng)計特性,采用結(jié)構(gòu)化的方法,通過非線性變換將線譜頻率參數(shù)差值去相關(guān)的操作,具體包括: 利用線譜頻率參數(shù)差值的統(tǒng)計特性,假設(shè)其為中性向量;采用結(jié)構(gòu)化的方法,通過歸一化一取首元素的循環(huán)運算,將線譜頻率參數(shù)差值之間的相關(guān)性去除,使參數(shù)之間統(tǒng)計上相互獨立。
8.根據(jù)權(quán)利要求1或2所述的語音線性預(yù)測模型的非線性量化方法,其特征在于,所述采用結(jié)構(gòu)化的方法,通過歸一化一取首元素的循環(huán)運算,將線譜頻率參數(shù)差值之間的相關(guān)性去除,使參數(shù)之間統(tǒng)計上相互獨立的操作,具體包括: O輸入: a) K+1維線譜頻率參數(shù)差值向量
9.根據(jù)權(quán)利要求1或2所述的語音線性預(yù)測模型的非線性量化方法,其特征在于,在步驟c中,所述利用去相關(guān)的線譜頻率參數(shù)差值的統(tǒng)計特性,計算其邊緣概率密度分布的操作,具體包括: . 1)由步驟c得到的去相關(guān)后的線譜頻率參數(shù)差值是有界的;根據(jù)此去相關(guān)后的線譜頻率參數(shù)差值,針對每一個元素JT1, j =H,.訓(xùn)練基于貝塔分布的貝塔混合模型; .2)假設(shè)A服從單一貝塔分布,計算此貝塔分布,使得其與上述步驟I)中根據(jù)得到的
I貝塔混合模型之間的相對熵最小。
10.根據(jù)權(quán)利要求1或2所述的語音線性預(yù)測模型的非線性量化方法,其特征在于,在步驟d中,所述根據(jù)得到的邊緣概率密度分布函數(shù),設(shè)計基于概率密度函數(shù)的優(yōu)化量化器的操作,具體包括: 采用標(biāo)量量化的模式取代矢量量化,針對每一維參數(shù)設(shè)計基于貝塔分布的量化器;根據(jù)得到的概率密度分布函數(shù)計算出量化中心和量化區(qū)域,實現(xiàn)最優(yōu)的標(biāo)量量化器。
【文檔編號】G10L19/035GK103632673SQ201310538591
【公開日】2014年3月12日 申請日期:2013年11月5日 優(yōu)先權(quán)日:2013年11月5日
【發(fā)明者】馬占宇, 肖波, 司中威, 郭軍 申請人:無錫北郵感知技術(shù)產(chǎn)業(yè)研究院有限公司