專利名稱:語音合成的位配置方法及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明為一種位配置方法及裝置,尤指一語音合成的位配置方法及裝置。
以人類聽覺系統(tǒng)發(fā)展出的副頻帶(subband)編碼器通??捎脕韷嚎s大幅變化的音輸入信號,諸如繁雜的語音,多任務(wù)發(fā)聲及音樂。副頻帶編碼的基本原理在于分割輸入音頻譜(audio spectrum)為數(shù)個頻帶,再予以分別編碼。
濾波器組(filter bank)通常用來分開輸入的語音信號。在分割音頻譜為數(shù)個頻帶之后,每一頻帶通過一低通濾波器,再以奈氏比(Nyquist)來取樣、量化、編碼、多任務(wù)(multiplexed)及傳送。聽覺模型(psychoacoustic model)計算出一組資料以控制量化器及編碼。這些資料依實際編碼器之實作而有所不同??赡艿脑挘瑫褂闷帘闻R界(masking threshold)的估算來做此量化器的控制。
在接收器方面,副頻帶是解多任務(wù)、譯碼及傳送回到他們的原始頻率位置。接著副頻帶信號總合在一起,給予一原始語音信號的近似值。
圖1為傳統(tǒng)的副頻帶編碼器。語音信號S(n)由N個帶通濾波器11濾波,得到B1到BN個副頻帶信號,其特征在于,每一副頻帶信號代表語音信號在該頻帶的能量強度。語音信號S(n)分批并聯(lián)輸入至N個帶通濾波器11,變量n代表第n個信號框(frame)。
副頻帶信號B1~BN必須各藉由一降頻器12進行降頻(decimation)的動作。
每個副頻帶可以有個數(shù)不同的位數(shù)來進行量化,這些信息是內(nèi)建于位配置表13中。位配置表是根據(jù)聽覺模型14產(chǎn)生的。聽覺模型14利用聽覺對頻率變化的感受呈度不同而建立的,以相同的能量而言,在人耳可接收的音頻的高頻、中頻及低頻中,其所感受的呈度卻有不同,在高頻及低頻可能無法聽到,而在中頻卻可聽得很清楚。人們們即利用此一自然現(xiàn)象決定聽覺模型p(f),其特征在于,p能量,f頻率。
因此根據(jù)聽覺模型,人們們則可決定各副頻帶適合的位個數(shù)。影響較重的頻帶,配置較多的位,而影響較輕的頻帶則配置較少的位,甚至于無(若可供配置的位數(shù)不夠多的話)。
量化編碼器15即根據(jù)輸入的語音信號S(n)在各個副頻帶的能量大小及位配置表記錄的該副頻帶可供配置的位數(shù),來量化每一副頻帶信號。例如副頻帶信號B1在位配置表記錄可供配置的位個數(shù)為二位,則副頻帶信號B1在經(jīng)過降頻器12及量化編碼器15之后可能出現(xiàn)的數(shù)值為00,01,10,11,可分別用來代表語音信號S(n)在第n信號框時,副頻帶信號B1的最小值、次小值、次大值及最大值。
所有副頻帶信號B1~BN的經(jīng)量化編碼后則會由多任務(wù)器MUX輸出經(jīng)編碼完成的語音資料,并加以儲存,直到每一信號時框皆編碼完成為止。
請參見圖2。當(dāng)人們欲取出上述經(jīng)編碼的語音資料時,則需對其加以譯碼,而譯碼的過程基本上與編碼的過程剛好相反。經(jīng)編碼的語音資料X(n)會先經(jīng)解多任務(wù)器21將各個副頻帶的資料取出,再分別輸入譯碼器22解出資料。譯碼器22則同時參考上述位配置表,才能將資料解出。
解出的資料b1~bN則會經(jīng)升頻器23作一升頻的動作,即予以過取樣(upsample),再輸入各個帶通濾波器24及混合器25,以將語音信號S(n)還原回來而播出。
傳統(tǒng)位配置方法在重建的聲音品質(zhì)方面是有所限制的。傳統(tǒng)位配置的原理系總噪聲屏蔽比(noise-to-mask)在個別信號框(一般為10-30ms)取最小化,因而所使用位數(shù)量不得超過每一信號框可用的位數(shù)。例如,當(dāng)位比率(bit rate)為Bbits/sec且信號框長度為K ms時,可用來作一信號框上副頻帶及邊置信息(sideinformation)編碼的位數(shù)”adb″計算如下adb=B÷1000×K屏蔽因子(masking effects)通常存在許多信號框無法被人耳所聽覺。在傳統(tǒng)的編碼程序中,這些無法聽覺的信號框卻同樣被配置一定數(shù)量的位。因此會使得位配置的效果大打折扣。
在消費性產(chǎn)品中,無不以低成本為訴求。上述無法聽覺的信號框卻被配置位的做法,顯然徒增成本。
本發(fā)明的目的即在于改善傳統(tǒng)做法的缺點,使得每個位的配置都配置在有用的信號框,而對于無法聽覺的信號框則加以過濾,不予配置位,使位配置更有效率,進而降低成本。
為達上述目的,本發(fā)明提出一種語音合成的位配置方法,其是將一總位數(shù)量,分配至一位配置表。首先,提供多個訊號屏蔽比。接著,量化該多個訊號屏蔽比,產(chǎn)生特定個數(shù)的量化階,這些量化階系分別對應(yīng)至一配置位數(shù)、一量化訊號屏蔽比及一取樣數(shù)。初始化這些配置位數(shù)。根據(jù)這些配置位數(shù)及這些量化訊號屏蔽比,計算各量化階之一屏蔽噪聲比。自這些屏蔽噪聲比中,找出一最小屏蔽噪聲比的量化階,并分配該總位數(shù)量之一部分至該最小屏蔽噪聲比的量化階的配置位數(shù)。最后,因應(yīng)該總位數(shù)量的改變,完成分配該位配置表的動作。
由于本發(fā)明在配置位時,是將總位數(shù)量一次配置到位配置表上,在配置時特地將所有的訊號屏蔽比分為特定個數(shù)個量化階,再針對每個量化階的權(quán)重,予以配置適當(dāng)?shù)呐渲梦粩?shù),如此則可充份將位配置予權(quán)重高的信號框,而對于無法聽覺的訊號框,則可以不予配置,因而可增加位配置的效率,進而降低成本。
其特征在于,,這些訊號噪聲比是由一輸入的語音信號及一聽覺模型決定的。輸入的語音信號是在整體輸入完成之后,再決定這些訊號噪聲比。該總位數(shù)量為配置至該輸入的語音信號的全部位數(shù)。
位配置表包含一時間坐標(biāo)及一頻帶坐標(biāo),其一格的內(nèi)容代表一時間及一頻帶所分配的位數(shù)。
量化該多個訊號屏蔽比包含下列步驟分類該多個訊號屏蔽比,找出這些量化階;自各量化階中決定這些取樣數(shù),用以記錄各量化階的訊號屏蔽比的個數(shù);以及自各量化階中,找出這些量化訊號屏蔽比,用以代表這些量化階中所有的訊號屏蔽比。
這些配置位數(shù)用以代表各量化階配置位的個數(shù)。初始化這些配置位數(shù)時設(shè)定這些配置位數(shù)全部為零。
這些量化階的該屏蔽噪聲比是根據(jù)這些量化階的該配置位數(shù)乘上一常數(shù)再減去這些量化階的該訊號屏蔽比而得到的。該常數(shù)為6.02,用以代表該配置位數(shù)每增加一位所對應(yīng)的一訊號增益比。
該總位數(shù)量的一部分為該最小屏蔽噪聲比的量化階的取樣數(shù)。根據(jù)該最小屏蔽噪聲比的量化階的取樣數(shù)予該最小屏蔽噪聲比的量化階的配置位數(shù)的配置,該最小屏蔽噪聲比的量化階的配置位數(shù)是加一。另外,根據(jù)該總位數(shù)量之一部分分配至該最小屏蔽噪聲比的量化階的配置位數(shù),該總位數(shù)量是漸減變化。亦即,因應(yīng)該總位數(shù)量漸減至零,該位配置表是分配完成。
另外,本發(fā)明提出一種語音合成的位配置裝置,是用以根據(jù)一輸入的語音信號,產(chǎn)生一位配置表,供一語音處理器進行一信號處理的動作。其包含一聽覺模型、一數(shù)字儲存單元、量化器。聽覺模型用以過濾全部的該語音信號,產(chǎn)生多個訊號屏蔽比。數(shù)字儲存單元電連接至該聽覺模型,藉以儲存這些訊號屏蔽比。量化器電連接至該數(shù)字儲存單元,藉以分類這些訊號屏蔽比為特定個數(shù)的量化階,并根據(jù)各量化階的權(quán)重,分配各量化階一配置位數(shù),以產(chǎn)生該位配置表。
其特征在于,,該語音處理器進行的該信號處理動作,根據(jù)該位配置表進行編碼的動作,而各量化量的權(quán)重取決于各量化階所涵蓋的若干訊號屏蔽比的大小。
本發(fā)明通過下列附圖及詳細(xì)說明,將會有更深入的了解圖1為傳統(tǒng)副頻帶編碼器。
圖2為傳統(tǒng)副頻帶譯碼器。
圖3為本發(fā)明副頻帶編碼器。
圖4為本發(fā)明位配置流程。
圖5為本發(fā)明的應(yīng)用例。
請參見圖3。本發(fā)明的語音合成的位配置裝置主要包含一聽覺模型35、一數(shù)字儲存單元37、量化器38,用以根據(jù)一輸入的語音信號S(n),產(chǎn)生一位配置表39,供一語音處理器301進行一信號處理的動作。聽覺模型35用以過濾全部的語音信號S(n),產(chǎn)生多個訊號屏蔽比36。數(shù)字儲存單元37電連接至該聽覺模型35,藉以儲存這些訊號屏蔽比36。量化器38電連接至該數(shù)字儲存單元37,藉以分類這些訊號屏蔽比36為特定個數(shù)的量化階,并根據(jù)各量化階的權(quán)重,分配各量化階一配置位數(shù),以產(chǎn)生該位配置表39。
其特征在于,,該語音處理器301進行的該信號處理動作,是根據(jù)該位配置表進行編碼的動作,而各量化階的權(quán)重取決于各量化階所涵蓋的若干訊號屏蔽比的大小。
另外,經(jīng)降頻的副頻帶信號S(n,i)代表第n個信號框中第i個副頻帶取樣值。所有的副頻帶取樣值(subband samples)都儲存在儲存單元31內(nèi)。同時,第n個信號框中每一副頻帶信號屏蔽比SMR(n)是由聽覺模型35所計算出來,且儲存在儲存單元37內(nèi)。
換言之,語音信號S(n)會先進入本發(fā)明的位配置裝置302,一次全部處理完成所有的信號框,并根據(jù)各信號框的權(quán)重,配置適當(dāng)?shù)呐渲梦粩?shù),以取得位配置表39。
如此一來,輸入并儲存在儲存單元31的語音信號(各副頻帶的能量),在副頻帶編碼取樣器32進行編碼時,即可根據(jù)位配置表上記錄每一時間及一副頻帶內(nèi)應(yīng)配置的位數(shù),予以量化編碼,而最后一般則將量化編碼的資料X(n)及位配置表(又稱邊置信息)存入只讀存儲器,以供譯碼之用,而譯碼的過程則與傳統(tǒng)相同。
本發(fā)明最主要是藉由不同的位配置方法來達到提高配置位的效率及降低成本。而本發(fā)明位配置的流程如圖4所示,其包含下列步驟41定義下列參數(shù)QL訊號屏蔽比量化階的個數(shù)。語音信號經(jīng)聽覺模型過濾的所有的訊號屏蔽比在量化器38進行量化的動作前會先被存放在儲存單元37,亦即儲存單元內(nèi)已存有N*T(復(fù)數(shù))個訊號屏蔽比,其特征在于,N為副頻帶的個數(shù)(等于圖3中帶通濾波器11的個數(shù)),T為總共的時間點,即信號框個數(shù)。此NT多個屏蔽比會在量化器內(nèi)先被分類為QL特定個數(shù)個量化階,NT>QL。
NQL(i)第i量化階的取樣數(shù)。即第i個訊號屏蔽比量化階中所含副頻帶個數(shù)。每個副頻帶會包含一個訊號屏蔽比,共有NT個訊號屏蔽比,因此在經(jīng)分類為QL個量化階之后,有每個量化階會涵蓋不等個數(shù)的訊號屏蔽比,即每個量化階會有不同的取樣數(shù)。
SMR(i)量化訊號屏蔽比,代表第i量化階的訊號屏蔽比。如上所述,在各量化階涵蓋有個數(shù)不一的訊號屏蔽比,但是在進行量化時必須在各量化階中決定一個用來代表各量化階中所有訊號屏蔽比的數(shù)值,因此人們將此數(shù)值名為量化訊號屏蔽比。量化訊號屏蔽比則可取各量化階中的訊號屏蔽比的中間值代表。
BQL(i)第i量化階的配置位數(shù)。由于人們已分類為QL個量化階,且各量化階可對應(yīng)至一量化訊號屏蔽比及一取樣數(shù),所以在配置位時只需對各量化階進行配置即可,當(dāng)一量化階配置一位時,即代表該量化階所有的取樣(副頻帶)皆配上一位。
TB總位數(shù)量,即用來對輸入語音信號編碼所有可用的位數(shù)。在配置位的過程中,則會漸漸減少直至分配完了(TB=0)為止。
42初始化各量化階的配置位數(shù)。因為各量化階的配置位數(shù)通常從零開始,所以人們一開始系將各個量化階的配置位數(shù)BQL(i)設(shè)為0,語法則為BQL(i)=0,for i=1...QL。
43計算第i量化階的屏蔽噪聲比MNR(i)(Mask to Noise Ratio)。屏蔽噪聲比MNR(i)是根據(jù)第i量化階的配置位BQL(i)及第i量化階的訊號屏蔽比SMR(i)產(chǎn)生。其計算式如下MNR(i)=BQL(i)×6.02-SMR(i)其特征在于,常數(shù)6.02用以代表該配置位數(shù)每增加一位所對應(yīng)的訊號增益比,這是模擬數(shù)字轉(zhuǎn)換的一般性法則。
44找出最小的屏蔽噪聲比MNR(k)。其特征在于,k代表第k個量化階,亦即在第k個量化階的屏蔽噪聲比最小(在訊號屏蔽比SMR(k)則最大者)。屏蔽噪聲比MNR最小代表其影響聽覺的權(quán)重最高,因此人們必須對權(quán)重高者先配置,每配置一次,其權(quán)重則會減少一位(相當(dāng)于6.02dB),回頭再與其它量化階的屏蔽噪聲比進行比較。
45更新總位數(shù)量。由于已配置若干位至上述權(quán)重最高的量化階的每個取樣的副頻帶了,所以相對可用的總位數(shù)量會相對減少。
46若總位數(shù)量還有可供配置的(TB>0),則回到步驟43重復(fù)上述動作。反之則結(jié)束配置位的動作。
47結(jié)束配置位的動作。配置位結(jié)束后,在位配置表內(nèi)的每一格內(nèi),存有代表每一時間(信號框)的各副頻帶所分配的位數(shù)。在圖3中,副頻帶取樣編碼器32即可根據(jù)本流程所產(chǎn)生的位配置表39,加以對輸入的語音信號編碼。
圖5為常見的語音合成裝置,包括只讀存儲器(ROM)、隨機存取內(nèi)存(RAM)、數(shù)字信號處理器(DSP)、數(shù)字模擬轉(zhuǎn)換器(D/A)及喇叭(Speaker)等。上述位配置表及經(jīng)編碼的語音信號儲存在只讀存儲器ROM內(nèi),數(shù)字信號處理器DSP的功能為對這些經(jīng)編碼的資料進行譯碼以及進行整組濾波合成的動作去處理重建(reconstructed)脈波編碼調(diào)變(PCM)的語音信號。這些語音PCM資料暫存在隨機內(nèi)存RAM內(nèi)供喇叭播放用。當(dāng)然在播放之前,會先用數(shù)字模擬轉(zhuǎn)換器D/A將數(shù)字信號轉(zhuǎn)換為模擬信號。而數(shù)字模擬轉(zhuǎn)換器D/A的轉(zhuǎn)換率則由數(shù)字信號處理器DSP控制。
由上述圖解及說明,可知,本發(fā)明主要特點在于位配置方法上,藉由向量量化(vector quantization)的觀念,產(chǎn)生整體的語音信號的位配置表,再據(jù)以進行編碼的動作,因此可排除在無法聽覺的副頻帶上配置不必要位的缺點,改善了位配置的效率,進而可節(jié)省記憶空間,降低成本。
然而在本發(fā)明的精神以及范圍內(nèi),可以作出種種變化,這些變化都應(yīng)包含在所附的權(quán)利要求書。
權(quán)利要求
1.一種語音合成的位配置方法,將一總位數(shù)量,分配至一位配置表,包含下列步驟提供多個訊號屏蔽比;量化該多個訊號屏蔽比,產(chǎn)生特定個數(shù)的量化階,這些量化階分別對應(yīng)至一配置位數(shù)、一量化訊號屏蔽比及一取樣數(shù);初始化這些配置位數(shù);根據(jù)這些配置位數(shù)及這些量化訊號屏蔽比,計算各量化階的一屏蔽噪聲比;自這些屏蔽噪聲比中,找出一最小屏蔽噪聲比的量化階,并分配該總位數(shù)量的一部分至該最小屏蔽噪聲比的量化階的配置位數(shù);以及根據(jù)該總位數(shù)量的改變,完成分配該位配置表的動作。
2.如權(quán)利要求1所述的語音合成的位配置方法,其特征在于,這些訊號噪聲比由一輸入的語音信號及一聽覺模型決定。
3.如權(quán)利要求2所述的語音合成的位配置方法,其特征在于,該輸入的語音信號在整體輸入完成之后,再決定這些訊號噪聲比。
4.如權(quán)利要求3所述的語音合成的位配置方法,其特征在于,該總位數(shù)量為配置至該輸入的語音信號的全部位數(shù)。
5.如權(quán)利要求1所述的語音合成的位配置方法,其特征在于,該位配置表包含一時間坐標(biāo)及一頻帶坐標(biāo)。
6.如權(quán)利要求1所述的語音合成的位配置方法,其特征在于,該位配置表的一格的內(nèi)容代表一時間及一頻帶所分配的位數(shù)。
7.如權(quán)利要求1所述的語音合成的位配置方法,其特征在于,該量化該多個訊號屏蔽比包含下列步驟分類該多個訊號屏蔽比,找出這些量化階;自各量化階中決定這些取樣數(shù),用以記錄各量化階的訊號屏蔽比的個數(shù);以及自各量化階中,找出這些量化訊號屏蔽比,用以代表這些量化階中所有的訊號屏蔽比。
8.如權(quán)利要求7所述的語音合成的位配置方法,其特征在于,這些配置位數(shù)用以代表各量化階配置位的個數(shù)。
9.如權(quán)利要求1所述的語音合成的位配置方法,其特征在于,初始化這些配置位數(shù)是設(shè)定這些配置位數(shù)全部為零。
10.如權(quán)利要求1所述的語音合成的位配置方法,其特征在于,這些量化階的該屏蔽噪聲比是根據(jù)這些量化階的該配置位數(shù)乘上一常數(shù)再減去這些量化階的該訊號屏蔽比而得到的。
11.如權(quán)利要求10所述的語音合成的位配置方法,其特征在于,該常數(shù)為6.02,用以代表該配置位數(shù)每增加一位所對應(yīng)的一訊號增益比。
12.如權(quán)利要求1所述的語音合成的位配置方法,其特征在于,該總位數(shù)量的一部分為該最小屏蔽噪聲比的量化階的取樣數(shù)。
13.如權(quán)利要求12所述的語音合成的位配置方法,其特征在于,根據(jù)該最小屏蔽噪聲比的量化階的取樣數(shù)個該最小屏蔽噪聲比的量化階的配置位數(shù)的配置,該最小屏蔽噪聲比的量化階的配置位數(shù)是加一。
14.如權(quán)利要求1所述的語音合成的位配置方法,其特征在于,根據(jù)該總位數(shù)量的一部分分配至該最小屏蔽噪聲比的量化階的配置位數(shù),該總位數(shù)量漸減變化。
15.如權(quán)利要求14所述的語音合成的位配置方法,其特征在于,根據(jù)該總位數(shù)量漸減至零,該位配置表是分配完成。
16.一種語音合成的位配置裝置,用以根據(jù)一輸入的語音信號,產(chǎn)生一位配置表,供一語音處理器進行一信號處理的動作,包含一聽覺模型,用以過濾全部的該語音信號,產(chǎn)生多個訊號屏蔽比;一數(shù)字儲存單元,電連接至該聽覺模型,藉以儲存這些訊號屏蔽比;以及一量化器,電連接至該數(shù)字儲存單元,藉以分類這些訊號屏蔽比為特定個數(shù)的量化階,并根據(jù)各量化階的權(quán)重,分配各量化階一配置位數(shù),以產(chǎn)生該位配置表。
17.如權(quán)利要求16所述的語音合成的位配置裝置,其特征在于,該語音處理器進行的該信號處理動作,根據(jù)該位配置表進行編碼的動作。
18.如權(quán)利要求16所述的語音合成的位置裝置,其特征在于,該位配置表包含一時間坐標(biāo)及一頻帶坐標(biāo)。
19.如權(quán)利要求16所述的語音合成的位配置裝置,其特征在于,該位配置表的一格的內(nèi)容是代表一時間及一頻帶所分配的位數(shù)。
20.如權(quán)利要求16所述的語音合成的位配置裝置,其特征在于,這些量化階具一取樣數(shù),用以記錄各量化階的訊號屏蔽比的個數(shù)。
21.如權(quán)利要求16所述的語音合成的位配置裝置,其特征在于,各量化階的權(quán)重系取決于各量化階所涵蓋的若干訊號屏蔽比的大小。
全文摘要
本發(fā)明為一種語音合成的元位配置方法及裝置,是藉量化多個訊號屏蔽比,產(chǎn)生特定個數(shù)的量化階。這些量化階分別對應(yīng)至一配置位數(shù)、一量化訊號屏蔽比及一取樣數(shù)。接著初始化這些配置位數(shù),并根據(jù)這些配置位數(shù)及這些量化訊號屏蔽比,計算各量化階的屏蔽噪聲比。接著自這些屏蔽噪聲比中,找出一最小屏蔽噪聲比的量化階,并分配該總位數(shù)量的一部分至該最小屏蔽噪聲比的量化階的配置位數(shù)。最后,根據(jù)該總位數(shù)量的改變,完成分配該位配置表的動作。
文檔編號G10L13/00GK1378198SQ0111240
公開日2002年11月6日 申請日期2001年3月29日 優(yōu)先權(quán)日2001年3月29日
發(fā)明者陳文源 申請人:華邦電子股份有限公司