国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      生成基音周期波形信號(hào)的裝置和方法及處理語音信號(hào)的裝置和方法

      文檔序號(hào):2821346閱讀:367來源:國(guó)知局
      專利名稱:生成基音周期波形信號(hào)的裝置和方法及處理語音信號(hào)的裝置和方法
      技術(shù)領(lǐng)域
      本發(fā)明涉及生成基音周期波形信號(hào)的裝置和方法。本發(fā)明也涉及使用這種生成基音周期波形信號(hào)方法的語音信號(hào)壓縮裝置、語音信號(hào)擴(kuò)展裝置、語音信號(hào)壓縮方法和語音信號(hào)擴(kuò)展方法。
      此外,本發(fā)明涉及使用這種生成基音周期波形信號(hào)方法的語音合成裝置、語音詞典生成裝置、語音合成方法和語音詞典生成方法。
      背景技術(shù)
      近幾年,在使用蜂窩式電話和其他類似裝置的語音通信中頻繁地使用到語音信號(hào)壓縮技術(shù)。具體的應(yīng)用領(lǐng)域主要包括CODEC(編碼器(COder)/解碼器(DECoder))、語音識(shí)別和語音合成。
      可以將語音信號(hào)的壓縮方法大致地分為使用人類聲學(xué)機(jī)能的方法和使用聲帶特征的方法。
      使用人類聲學(xué)機(jī)能的方法包括MP3(MPEG1音頻層3),ATRAC(自適應(yīng)變換聲學(xué)編碼)和AAC(高級(jí)音頻編碼)。使用聲學(xué)機(jī)能方法的特點(diǎn)是雖然壓縮率低但是音質(zhì)高,并且經(jīng)常用于壓縮音樂信號(hào)。
      另一方面,使用聲帶特征的方法是用于壓縮語音的方法,其特點(diǎn)是雖然音質(zhì)低但是壓縮率高。使用聲帶特征的方法包括使用線性預(yù)測(cè)編碼的方法,尤其是CELP和ADPCM(自適應(yīng)差分脈沖編碼調(diào)制)。
      使用線性預(yù)測(cè)編碼方法壓縮語音時(shí),通常應(yīng)該抽取語音的基音周期(基音頻率的倒數(shù))用于進(jìn)行線性預(yù)測(cè)編碼。為此,事先要用諸如倒譜分析的傅立葉變換的方法來抽取基音周期。
      使用傅立葉變換方法抽取基音周期時(shí),基音頻率是從出現(xiàn)頻譜峰值的頻率(共振峰頻率)中選取的,并且把基音頻率的倒數(shù)確定為基音周期。
      通過進(jìn)行FFT(快速傅立葉變換)操作及其他類似操作可以獲取頻譜。為了通過FFT操作獲取頻譜,通常應(yīng)該以比相當(dāng)于語音的一個(gè)基音周期更長(zhǎng)的時(shí)間周期進(jìn)行語音采樣。
      采樣連續(xù)進(jìn)行過程中,進(jìn)行語音采樣的時(shí)間周期越長(zhǎng),由語音和其他類似聲音切換而造成波形上突變的可能性就越高。如果在采樣進(jìn)行過程中出現(xiàn)波形上的突變,那么在采樣后續(xù)處理中被確定的共振峰頻率中包含的錯(cuò)誤將十分明顯。
      此外,人聲的基音周期長(zhǎng)度中還包括起伏。起伏可能會(huì)在共振峰頻率中引發(fā)錯(cuò)誤。這就是說,以相當(dāng)于若干個(gè)基音周期的時(shí)間周期對(duì)包含起伏的語音進(jìn)行采樣,其結(jié)果是使起伏變得平滑,由此確定出的共振峰頻率也將與包含起伏的真實(shí)共振峰頻率不同。
      如果基于起伏平滑了的基音周期值壓縮語音信號(hào)的話,那么在語音信號(hào)擴(kuò)展和播放時(shí),不僅產(chǎn)生的是機(jī)械語音,而且,音質(zhì)也會(huì)降低。
      考慮到上述情況設(shè)計(jì)了本發(fā)明,并且第一目的是提供基音周期波形信號(hào)生成裝置和基音周期波形信號(hào)生成方法,此裝置和方法作為初步處理,以有效地對(duì)包含基音周期起伏的語音波形信號(hào)進(jìn)行編碼。
      其次,在近幾年中,諸如蜂窩電話等進(jìn)行數(shù)字語音通信的終端得到了廣泛的應(yīng)用。例如,可將這些終端用于傳送使用諸如CELP(碼本激勵(lì)線性預(yù)測(cè))的LPC(線性預(yù)測(cè)編碼)方法壓縮的語音信號(hào)。
      使用線性預(yù)測(cè)編碼方法時(shí),將通過對(duì)人類聲音的聲道特征(聲道的頻率特征)進(jìn)行編碼來對(duì)語音進(jìn)行壓縮。要播放語音時(shí),將搜索以此碼本作為索引的碼表。
      但是,當(dāng)此方法用于蜂窩電話及類似裝置時(shí),經(jīng)常會(huì)降低聲音的質(zhì)量,從而如果碼本的數(shù)量太小,對(duì)語音通信對(duì)方的聲音的識(shí)別變得困難。
      為了在線性預(yù)測(cè)方法中改進(jìn)音質(zhì),可以增加在碼表中注冊(cè)的聲道特征成分的數(shù)量。但是,在增加成分?jǐn)?shù)量的方法中,要被傳送的數(shù)據(jù)的數(shù)量和碼表中的數(shù)據(jù)的數(shù)量都會(huì)顯著地增加。這樣,壓縮效率就會(huì)大打折扣,同時(shí)也很難將碼表儲(chǔ)存在僅能容納小型裝置的終端中。
      此外,人類的實(shí)際聲道具有非常復(fù)雜的結(jié)構(gòu),而且聲道的頻率特征是隨時(shí)間波動(dòng)的。這樣,語音的基音周期就具有起伏。因此,盡管可以對(duì)人的聲音簡(jiǎn)單地進(jìn)行傅立葉變換,但卻不能精確地確定聲道特征。因此,如果使用基于對(duì)人聲進(jìn)行傅立葉變換的簡(jiǎn)單結(jié)果確定的聲道特征來進(jìn)行線性預(yù)測(cè)編碼的話,盡管增加了碼表成分的數(shù)量,音質(zhì)也不可能得到令人滿意的改進(jìn)。
      考慮到上述情況設(shè)計(jì)了本發(fā)明,并且第二目的是提供語音信號(hào)壓縮/擴(kuò)展裝置和語音信號(hào)壓縮/擴(kuò)展方法,此裝置和方法用于高效地壓縮表征語音的數(shù)據(jù)或者壓縮表征在高音質(zhì)中具有起伏的語音的數(shù)據(jù)。
      此外,用于合成語音的方法包括通常所說的規(guī)則合成法。規(guī)則合成法是這樣一種方法其中,基于作為文本詞法分析和韻律預(yù)測(cè)編碼的結(jié)果獲取的信息,來確定基音信息和頻譜包絡(luò)信息(聲道特征),并且基于確定結(jié)果來合成閱讀該文本的語音。
      特別地,例如圖8所示,首先,對(duì)用于合成語音的文本進(jìn)行詞法分析(圖8中的步驟S101),基于詞法分析的結(jié)果生成一列表征閱讀文本語音發(fā)音的發(fā)音符號(hào)(步驟S102),并且生成一列表征該語音韻律的韻律符號(hào)(步驟S103)。
      然后,基于已獲得的發(fā)音符號(hào)序列來確定語音頻譜包絡(luò)(步驟S104),基于這個(gè)包絡(luò)來確定模擬聲道特征的濾波器的特征。另一方面,基于已獲得的韻律符號(hào)序列來生成表征聲道產(chǎn)生聲音的特征的音源參數(shù)(步驟S105),并且基于音源參數(shù)生成表征由聲道產(chǎn)生的聲音波形的音源信號(hào)(步驟S106)。
      然后,由決定特征的濾波器對(duì)該音源信號(hào)進(jìn)行濾波(S107),由此合成語音。
      如圖9所示,為了合成語音,將通過在由沖激序列源1產(chǎn)生的沖激序列和由白噪聲源2產(chǎn)生的白噪聲之間的切換來模擬音源信號(hào)。之后,由模擬聲道特征的數(shù)字濾波器3對(duì)音源信號(hào)進(jìn)行濾波以生成語音。
      但是,人類的實(shí)際聲帶具有復(fù)雜的結(jié)構(gòu),并且會(huì)使得通過沖激序列表征聲帶特征變得困難。因此,由上述規(guī)則合成法合成的語音容易成為不同于人所發(fā)出的真實(shí)語音的機(jī)械語音。
      同時(shí),聲道結(jié)構(gòu)也是復(fù)雜的,從而使得精確預(yù)測(cè)頻譜包絡(luò)變得困難,因此由數(shù)字濾波器表征聲道特征也將變得困難。這也是引起由規(guī)則合成法合成的語音的音質(zhì)降低的原因。
      考慮到上述情況設(shè)計(jì)了本發(fā)明,并且第三個(gè)目的是提供語音合成裝置、語音詞典生成裝置、語音合成方法和語音詞典生成方法作為它的第三對(duì)象,此裝置和方法用于高效地合成自然的語音。

      發(fā)明內(nèi)容
      為獲取本發(fā)明的上述三個(gè)目的,本發(fā)明也主要分成三類。為了方便,在下文中將這三類發(fā)明分別稱為第一發(fā)明、第二發(fā)明和第三發(fā)明。
      下面將按順序介紹這些發(fā)明的內(nèi)容。
      第一發(fā)明為獲取第一發(fā)明的目的,根據(jù)第一發(fā)明的基音周期波形信號(hào)生成裝置主要包括檢測(cè)語音波形信號(hào)的每個(gè)基音周期波形成分的瞬時(shí)基音周期的裝置;和把相應(yīng)的基音周期波形成分轉(zhuǎn)換成具有預(yù)設(shè)的固定時(shí)間長(zhǎng)度的歸一化基音周期波形成分的裝置,該裝置將基于檢測(cè)到的瞬時(shí)基音周期,通過保留基音周期波形模式的同時(shí)在時(shí)間軸上擴(kuò)展和壓縮基音周期波形成分來實(shí)現(xiàn)的。此外,另一方面,根據(jù)本發(fā)明的基音周期波形信號(hào)生成裝置還包括在語音波形信號(hào)的一定時(shí)間間隔內(nèi)檢測(cè)平均基音周期的裝置;可變?yōu)V波器,該濾波器具有隨著檢測(cè)到的平均基音周期變化的頻率特征,同時(shí)對(duì)語音波形信號(hào)進(jìn)行濾波;基于可變?yōu)V波器的輸出來檢測(cè)語音波形信號(hào)的瞬時(shí)基音周期的裝置;基于檢測(cè)到的單獨(dú)的瞬時(shí)基音周期來抽取相應(yīng)基音周期波形成分的裝置;和通過在時(shí)間軸上擴(kuò)展和壓縮基音周期波形長(zhǎng)度,把抽取的基音周期波形成分轉(zhuǎn)換成具有預(yù)設(shè)固定時(shí)間長(zhǎng)度的基音周期波形成分的裝置。
      根據(jù)本發(fā)明的結(jié)構(gòu),如果提供了這樣的語音波形信號(hào),其中產(chǎn)生聲音的基音周期在每一瞬間發(fā)生改變(隨時(shí)間波動(dòng)),那么語音波形中的單獨(dú)基音周期波形成分將被轉(zhuǎn)換為具有固定時(shí)間長(zhǎng)度的歸一化基音周期波形成分。通過對(duì)語音波形成分進(jìn)行這個(gè)歸一化處理(根據(jù)本發(fā)明),可以獲得這樣的語音波形其具有幾乎相同模式的多個(gè)波形成分不斷地被重復(fù)。這樣,在模式改變均一化的語音波形中,各個(gè)基音周期波形之間的相關(guān)性得到了改善,因此,可以期望通過對(duì)基音周期波形進(jìn)行熵編碼來實(shí)施對(duì)實(shí)質(zhì)信息的壓縮。這里,熵編碼是指一種高效編碼(信息壓縮)模式,其中注重于每個(gè)采樣樣本的發(fā)生概率,給發(fā)生概率高的樣本分配具有較少比特的碼字。根據(jù)熵編碼,給發(fā)生概率高的樣本分配較少比特?cái)?shù)的碼字,并且注重于樣本的發(fā)生概率進(jìn)行編碼。如果使用熵編碼,那么用相對(duì)于定長(zhǎng)編碼較少信息量來對(duì)來自于發(fā)生概率不平衡的信息源的信息進(jìn)行編碼。應(yīng)用熵編碼的一個(gè)典型例子是DPCM(差分脈沖編碼調(diào)制)。
      如上所述,根據(jù)本發(fā)明的上面的結(jié)構(gòu),基音周期波形成分的改變將由于它們的歸一化而均一化,從而使得各個(gè)波形成分之間的相關(guān)度得到了增加。因此,如果確定了相鄰基音周期波形成分之間的差別,并且對(duì)此差別進(jìn)行了編碼,那么已編碼的比特效率將會(huì)得到改善。這是因?yàn)閷?duì)于同其它信號(hào)具有高相關(guān)度的信號(hào)來說,其信號(hào)問差別的差分信號(hào)的動(dòng)態(tài)范圍比原始信號(hào)的動(dòng)態(tài)范圍小得多,因此使得顯著減少編碼所需比特?cái)?shù)成為可能。
      更具體地說,根據(jù)第一發(fā)明的基音周期波形信號(hào)生成裝置包括可變?yōu)V波器,該可變?yōu)V波器具有根據(jù)表征語音波形的語音信號(hào)濾波的控制而變化的頻率特征,由此抽取語音的基音頻率分量;濾波器特征確定單元,此單元可以基于由上述可變?yōu)V波器抽取的基音頻率分量確定上述語音的基音頻率,并控制上述的可變?yōu)V波器以獲得這樣的頻率特征其中除了那些存在于已確定基音頻率附近的分量,其余分量均被截止;基音周期抽取裝置,該裝置用于基于語音信號(hào)的基音頻率分量值將上述語音信號(hào)分成多個(gè)段,其中每段都由與單位基音周期相等的語音信號(hào)組成;和語音信號(hào)處理單元,此單元通過使得上述每段中的語音信號(hào)的相位完全相同,將語音信號(hào)處理成基音周期波形信號(hào)。
      上述的語音信號(hào)處理單元可包括一個(gè)基音周期長(zhǎng)度固定單元,這個(gè)長(zhǎng)度固定單元可以通過對(duì)上述每段中基音周期波形信號(hào)以完全相同的樣本數(shù)量進(jìn)行采樣(重采樣),使得每段中基音周期波形信號(hào)的時(shí)間長(zhǎng)度完全相同。
      上述的基音周期長(zhǎng)度固定單元可以生成和輸出用于在上述的每段中確定基音周期波形信號(hào)的原始時(shí)間長(zhǎng)度的數(shù)據(jù)。
      上述的基音周期波形信號(hào)生成裝置可包括一個(gè)插值單元,該單元可以將用于基音周期波形信號(hào)插值的的信號(hào)增加到由上述基音周期長(zhǎng)度固定單元采樣(重采樣)的基音周期波形信號(hào)上。
      上述的插值單元可包括通過多種方法對(duì)相同基音周期波形信號(hào)實(shí)施插值,以生成多個(gè)插值后的基音周期波形信號(hào)的裝置;和生成多個(gè)頻譜信號(hào)的裝置,其中每個(gè)頻譜信號(hào)表征如下處理的結(jié)果對(duì)每個(gè)插值后的基音周期波形信號(hào)進(jìn)行傅立葉變換,基于已生成的頻譜信號(hào)在插值后的基音周期波形信號(hào)之外以最小數(shù)量的諧波分量來確定基音周期波形信號(hào),以及輸出確定后的基音周期波形信號(hào)。
      上述的濾波器特征確定單元可包括一個(gè)交叉檢測(cè)單元,該單元識(shí)別由上述可變?yōu)V波器抽取的基音頻率分量到達(dá)預(yù)設(shè)值的周期,并基于已識(shí)別的周期來確定上述的基音頻率。
      上述的濾波器特征確定單元可包括平均基音周期檢測(cè)單元,該單元基于語音信號(hào)檢測(cè)由濾波前語音信號(hào)表征的語音的基音周期長(zhǎng)度;和確定單元,該單元確定由上述交叉檢測(cè)單元所識(shí)別的周期和由上述平均基音周期檢測(cè)單元所識(shí)別的基音周期長(zhǎng)度之間是否存在預(yù)定量或更大的差別,并且,如果確定不存在這樣的差別,將控制上述可變?yōu)V波器以獲得這樣的頻率特征其中,除了存在于由上述交叉檢測(cè)單元識(shí)別的基音頻率附近的分量,其它分量均被截止,且如果確定存在這樣的差別,將控制上述可變?yōu)V波器以獲得這樣的頻率特征其中,除了存在于由上述平均基音周期檢測(cè)單元識(shí)別的基音周期長(zhǎng)度中識(shí)別出的基音頻率附近的分量,其它分量均被截止。
      上述的平均基音周期檢測(cè)單元可包括倒譜分析單元,用于確定濾波前語音信號(hào)的倒譜具有最大值所在的頻率;自相關(guān)分析單元,用于確定濾波前語音信號(hào)的自相關(guān)函數(shù)的周期圖(periodgram)具有最大值所在的頻率;和平均值計(jì)算單元,該單元基于由上述倒譜分析單元和上述自相關(guān)分析單元所確定的頻率,確定由語音信號(hào)表征的語音基音周期的平均值,并且將已確定的平均值識(shí)別為語音的基音周期長(zhǎng)度。
      上述的平均值計(jì)算單元可以從由上述倒譜分析單元和上述自相關(guān)分析單元所確定的頻率中,將具有與預(yù)設(shè)值相等或更小的頻率排除在將要確定其平均值的對(duì)象之外。
      上述的語音信號(hào)處理單元可包括幅度固定單元,用于生成表征通過上述基音周期波形信號(hào)值乘以一個(gè)比例因子獲得的結(jié)果的新基音周期波形信號(hào),從而均一化新基音周期信號(hào)的幅度以使得有效值之間完全相等。
      上述的幅度固定單元可以生成和輸出表示上述比例因子的數(shù)據(jù)。
      此外,從另一個(gè)角度看,可以把第一發(fā)明理解為一種基音周期波形信號(hào)生成方法。此方法包括如下步驟通過使用頻率特征隨控制變化的可變?yōu)V波器對(duì)表征語音波形的語音信號(hào)進(jìn)行濾波,抽取語音的基音頻率分量;基于上述可變?yōu)V波器抽取的基音頻率分量,確定上述語音的基音頻率;控制上述可變?yōu)V波器以獲得這樣的頻率特征其中除了存在于已確定基音頻率附近的分量,其它分量均被截止;基于語音信號(hào)基音頻率分量的值,將上述語音信號(hào)分成幾段,其中每段均由與單位基音周期相等的語音信號(hào)組成;和通過通過使得上述每段中的語音信號(hào)的相位完全相同,將語音信號(hào)處理成基音周期波形信號(hào)。
      第二發(fā)明為獲取第二發(fā)明的目的,根據(jù)第二發(fā)明的語音信號(hào)壓縮裝置主要包括檢測(cè)語音波形信號(hào)的每個(gè)基音周期波形成分的瞬時(shí)基音周期的裝置;基于檢測(cè)到的瞬時(shí)基音周期,通過在時(shí)間軸上擴(kuò)展和壓縮基音周期波形成分同時(shí)保留其波形模式,將相應(yīng)的基音周期波形成分轉(zhuǎn)換為具有預(yù)設(shè)固定時(shí)間長(zhǎng)度的歸一化基音周期波形成分的裝置;和對(duì)瞬時(shí)基音周期的值進(jìn)行單獨(dú)編碼的編碼裝置,其中該瞬時(shí)基音周期是為每個(gè)基音周期波形成分和表征具有用變換裝置獲得的固定時(shí)間周期的歸一化基音周期波形成分的信號(hào)而檢測(cè)的。
      本發(fā)明的語音壓縮裝置具有對(duì)歸一化語音信號(hào)(即由均具有固定時(shí)間長(zhǎng)度的基音周期波形成分組成的語音)進(jìn)行熵編碼的編碼裝置,以此有效地對(duì)帶有上面特征優(yōu)點(diǎn)的信號(hào)的信息進(jìn)行壓縮,其中上面的特征是由基音周期波形成分的歸一化而帶來的。
      具體地說,根據(jù)第一方面,第二發(fā)明的語音信號(hào)壓縮裝置包括語音信號(hào)處理裝置,該方法用于獲得表征將被壓縮的第一語音波形的語音信號(hào),使得與語音信號(hào)的單位基音周期相等的每段的時(shí)間長(zhǎng)度都完全相同,并由此把語音信號(hào)處理成基音周期波形信號(hào);子波段抽取裝置,用于從基音周期波形信號(hào)中抽取上述第一語音的基音頻率分量和諧波分量;恢復(fù)裝置,用于從用于生成差別的第二語音的基音頻率分量和諧波分量中隨時(shí)間的變化的子波段信息中識(shí)別在由上述子波段抽取裝置抽取的基音頻率分量和諧波分量中具有隨時(shí)間變化的最高相關(guān)的子波段信息;差分裝置,用于基于上述語音信號(hào)和由上述恢復(fù)裝置識(shí)別的子波段信息,生成表征上述第一語音波形和由子波段信息表征的上述第二語音波形之間差別的差分信號(hào);和輸出裝置,用于輸出識(shí)別子波段信息和上述差分信號(hào)的識(shí)別碼,其中該子波段信息是由上述恢復(fù)裝置識(shí)別的。
      此外,根據(jù)第二方面,第二發(fā)明的語音信號(hào)壓縮裝置包括語音信號(hào)處理裝置,用于獲得表征將被壓縮的第一語音波形的語音信號(hào),使得與語音信號(hào)的單位基音周期相等的每段的時(shí)間長(zhǎng)度都完全相同,并由此把語音信號(hào)處理成基音周期波形信號(hào);子波段抽取裝置,用于從基音周期波形信號(hào)中抽取上述第一語音的基音頻率分量和諧波分量;恢復(fù)裝置,用于在由上述子波段抽取裝置抽取的基音頻率分量和諧波分量中識(shí)別具有隨時(shí)間變化的最高相關(guān)子波段信息,該子波段信息是來自表示在用于生成差別的第二語音的基音頻率分量和諧波分量中隨時(shí)間的變化的了波段信息中。
      差分裝置,基于由上述子波段抽取裝置抽取的上述第一語音的基音頻率分量和諧波分量以及由上述恢復(fù)裝置確定的子波段信息,生成表征基音頻率分量和諧波分量中上述第一語音波形和上述第二語音波形之間差別的差分信號(hào);和輸出裝置,用于輸出識(shí)別子波段信息和上述差分信號(hào)的識(shí)別碼,具中該子波段信息是由上述查找裝置識(shí)別的。
      可以使表示由子波段信息表征的第二語音講話者的語音特征的講話者確定數(shù)據(jù)與上述子波段信息一致,并且上述查找裝置可以包括基于上述語音信號(hào)確定第一語音講話者特征的特征識(shí)別裝置,其識(shí)別在由上述子波段抽取裝置抽取的基音頻率分量和諧波分量中確定具有隨時(shí)間變化最高相關(guān)的信息,上面所說的信息僅僅指與表征由上述特征識(shí)別裝置識(shí)別的特征的講話者確定數(shù)據(jù)相一致的信息。
      上述輸出裝置可以基于由上述子波段抽取裝置抽取的上述第一語音的基音頻率分量和諧波分量來確定上述第一語音是否與第三語音完全相同,其中第三語音的基音頻率分量和諧波分量是在進(jìn)行抽取操作之前抽取的,如果確定上述第一語音與上述第三語音完全相同,則還將輸出表示與上述第三語音完全相同的上述第一語音的數(shù)據(jù)而不是上述識(shí)別碼和差分信號(hào)。
      上述語音信號(hào)處理裝置可包括生成和輸出基音周期數(shù)據(jù)的裝置,該基音周期數(shù)據(jù)用于在上述每段中識(shí)別基音周期波形信號(hào)的原始時(shí)間長(zhǎng)度。
      上述語音信號(hào)處理裝置可包括可變?yōu)V波器,該濾波器具有根據(jù)控制而變化的頻率特征以對(duì)上述語音信號(hào)進(jìn)行濾波,并由此抽取語音信號(hào)的基音頻率分量;濾波器特征確定單元,該單元基于由上述可變?yōu)V波器抽取的基音頻率分量確定上述語音的基音頻率,并且該單元對(duì)上述可變?yōu)V波器進(jìn)行控制以獲得這樣的頻率特征其中,除了存在于已識(shí)別的基音頻率附近的分量,其它分量均被截止。
      基音周期抽取裝置,基于語音信號(hào)的基音頻率分量值將上述語音信號(hào)分成多個(gè)段,其中每段都由與單位基音周期相等的語音信號(hào)組成;和基音周期長(zhǎng)度固定單元,該單元通過在上述語音信號(hào)的上述每段中以完全相同的樣本數(shù)對(duì)語音信號(hào)進(jìn)行采樣,生成基音周期波形信號(hào),其中該基音周期波形信號(hào)在上述每段中的時(shí)間長(zhǎng)度都完全相同。
      上述濾波器特征確定單元可包括一個(gè)識(shí)別一周期的交叉檢測(cè)單元,在此周期內(nèi),由上述可變?yōu)V波器抽取的基音頻率分量達(dá)到預(yù)設(shè)值,并且基于這個(gè)識(shí)別的周期,該單元識(shí)別上述基音頻率。
      上述濾波器特征確定單元可包括平均基音周期檢測(cè)單元,該單元基于語音信號(hào),檢測(cè)由濾波前語音信號(hào)表征的語音的基音周期的時(shí)間長(zhǎng)度;確定單元,該單元確定在由上述交叉檢測(cè)單元確定的時(shí)間長(zhǎng)度和由上述平均基音周期檢測(cè)單元確定的時(shí)間長(zhǎng)度之間是否存在預(yù)定量或更大的差別,并且,如果確定不存在這樣的差別,對(duì)上述可變?yōu)V波器進(jìn)行控制以獲得這樣的頻率特征除了存在于由上述交叉檢測(cè)單元識(shí)別的基音頻率附近的分量,其他分量均被截止,如果確定存在這樣的差別,對(duì)上述可變?yōu)V波器進(jìn)行控制以獲得這樣的頻率特征除了存在于從由上述平均基音周期檢測(cè)單元識(shí)別的基音周期時(shí)間長(zhǎng)度中識(shí)別的基音頻率附近的分量,其他分量均被截止。
      上述平均基音周期檢測(cè)單元可包括倒譜分析單元,該單元確定濾波前語音信號(hào)的倒譜具有最大值所在的頻率;自相關(guān)分析單元,該單元確定濾波前語音信號(hào)自相關(guān)函數(shù)周期圖具有最大值所在的頻率;和平均值計(jì)算單元,該單元基于由上述倒譜分析單元和上述自相關(guān)分析單元確定的頻率,確定語音信號(hào)表征的語音的基音周期的平均值,并且把該已確定的平均值識(shí)別為語音基音周期的時(shí)間長(zhǎng)度。
      接著,根據(jù)第二發(fā)明的語音信號(hào)擴(kuò)展裝置包括輸入裝置,用于獲得識(shí)別碼、差分信號(hào)和基音周期數(shù)據(jù);其中識(shí)別碼用于指定子波段信息,該子波段信息示出了在第一基音周期波形信號(hào)的基音頻率分量和諧波分量中隨時(shí)間的變化,該第一基音周期波形信號(hào)是通過使各段的時(shí)間長(zhǎng)度完全相同來生成的,其中這些段中的每個(gè)都與表征第一語音波形的語音信號(hào)的單位基音周期相等;差分信號(hào)表征了將被復(fù)原的第二語音波形與上述第一語音波形之間的差別;基音周期數(shù)據(jù)表示了與上述第二語音單位基音周期相等的段的時(shí)間長(zhǎng)度;基音周期波形信號(hào)恢復(fù)裝置,用于獲得上述波段信息中由上述輸入裝置獲得的識(shí)別碼識(shí)別的子波段信息,同時(shí)基于已獲得的子波段信息復(fù)原第一基音周期波形信號(hào);加法裝置,用于生成第二基音周期波形信號(hào),該第二基音周期波形信號(hào)表征第一基音周期波形信號(hào)的波形與由上述差分信號(hào)表征的波形的總和,其中的第一基音周期波形信號(hào)是由上述基音周期波形信號(hào)恢復(fù)裝置復(fù)原的;和語音信號(hào)恢復(fù)裝置,基于上述基音周期數(shù)據(jù)和上述第二基音周期波形數(shù)據(jù),生成表征上述第二語音的語音信號(hào)。
      此外,根據(jù)其他方面的語音信號(hào)擴(kuò)展裝置包括輸入裝置,用于獲得識(shí)別碼、差分信號(hào)和基音周期數(shù)據(jù);其中識(shí)別碼用于指定子波段信息,該子波段信息示出了在第一基音周期波形信號(hào)的基音頻率分量和諧波分量中隨時(shí)間的變化,該第一基音周期波形信號(hào)是通過使各段的時(shí)間長(zhǎng)度完全相同來生成的,其中這些段中的每個(gè)都與表征第一語音波形的語音信號(hào)的單位基音周期相等。差分信號(hào)表征了將被復(fù)原的第二語音波形與上述第一語音之間的基音頻率分量和諧波分量中的差別。基音周期數(shù)據(jù)表示了與上述第二語音單位基音周期相等的段的時(shí)間長(zhǎng)度;子波段信息恢復(fù)裝置,用于獲得上述子波段信息的、由上述輸入裝置獲得的識(shí)別碼識(shí)別的子波段信息,同時(shí)基于已獲得的子波段信息和上述差分信號(hào),確定上述第二語音的基音頻率分量和諧波分量;和語音信號(hào)恢復(fù)裝置,基于上述基音周期數(shù)據(jù)和上述第二語音的基音頻率分量和諧波分量,生成表征上述第二語音的語音信號(hào),其中上述第二語音是由上述子波段信息恢復(fù)裝置確定的。
      第二發(fā)明也可以看作是一種語音信號(hào)壓縮方法,在這種情況下,該方法包括如下步驟獲得表征將要被壓縮的第一語音波形的語音信號(hào),并且使各段的時(shí)間長(zhǎng)度完全相同,其中每段都與語音信號(hào)的單位基音周期相等,由此將語音信號(hào)處理成基音周期波形信號(hào);從基音周期波形信號(hào)中抽取上述第一語音的基音頻率分量和諧波分量;識(shí)別子波段信息,該子波段信息在由上述子波段抽取裝置抽取的基音頻率分量和諧波分量中具有隨時(shí)間變化的最高相關(guān),該子波段信息是來自表示了在用于生成差別的第二語音基音頻率分量和諧波分量中隨時(shí)間的變化的;基于上述語音信號(hào)和已識(shí)別的子波段信息生成差分信號(hào),該差分信號(hào)表征上述第一語音波形和由子波段信息表征的上述第二語音波形之間的差別;和輸出用于識(shí)別已識(shí)別的子波段信息和上述差分信號(hào)的識(shí)別碼。
      此外,另一種語音信號(hào)壓縮方法包括如下步驟獲得表征將要被壓縮的第一語音波形的語音信號(hào),并且使各段的時(shí)間長(zhǎng)度完全相同,其中每段都與語音信號(hào)的單位基音周期相等,由此將語音信號(hào)處理成基音周期波形信號(hào);從基音周期波形信號(hào)中抽取上述第一語音的基音頻率分量和諧波分量;用于確定子波段信息的查找裝置,該子波段信息在由上述子波段抽取裝置抽取的基音頻率分量和諧波分量中具有隨時(shí)間變化的最高相關(guān),該子波段信息是來自表示了在用于生成差別的第二語音基音頻率分量和諧波分量中隨時(shí)間的變化的;基于上述第一語音的基音頻率分量和諧波分量與已識(shí)別的子波段信息生成差分信號(hào),該差分信號(hào)表征基音頻率和諧波分量中上述第一語音波形和上述第二語音波形之間的差別;和輸出用于識(shí)別已識(shí)別的子波段信息和上述差分信號(hào)的識(shí)別碼。
      此外,根據(jù)第二發(fā)明的語音信號(hào)擴(kuò)展方法包括如下步驟獲得識(shí)別碼、差分信號(hào)和基音周期數(shù)據(jù);其中識(shí)別碼用于指定子波段信息,該子波段信息示出了在第一基音周期波形信號(hào)的基音頻率分量和諧波分量中隨時(shí)間的變化,該第一基音周期波形信號(hào)是通過使各段的時(shí)間長(zhǎng)度完全相同來生成的,其中這些段中的每個(gè)都與表征第一語音波形的語音信號(hào)的單位基音周期相等;差分信號(hào)表征了將被復(fù)原的第二語音波形與上述第一語音波形之間的差別;基音周期數(shù)據(jù)表示了與上述第二語音單位基音周期相等的段的時(shí)間長(zhǎng)度;獲得上述子波段信息中的、由輸入裝置獲得的識(shí)別碼識(shí)別的子波段信息,同時(shí)基于已獲得的子波段信息,復(fù)原第一基音周期波形信號(hào);生成第二基音周期波形信號(hào),該第二基音周期波形信號(hào)表征已復(fù)原的第一基音周期波形信號(hào)的波形與由上述差分信號(hào)表征的波形的總和;和基于上述基音周期數(shù)據(jù)和上述第二基音周期波形數(shù)據(jù),生成表征上述第二語音的語音信號(hào)。
      此外,根據(jù)第二發(fā)明的另一種語音信號(hào)擴(kuò)展方法包括如下步驟獲得識(shí)別碼、差分信號(hào)和基音周期數(shù)據(jù);其中識(shí)別碼用于指定子波段信息,該子波段信息示出了在第一基音周期波形信號(hào)的基音頻率分量和諧波分量中隨時(shí)間的變化,該第一基音周期波形信號(hào)是通過使各段的時(shí)間長(zhǎng)度完全相同來生成的,其中這些段中的每個(gè)都與表征第一語音波形的語音波形的單位基音周期相等;差分信號(hào)表征了基音頻率分量和諧波分量中將被復(fù)原的第二語音波形與上述第一語音之間的差別;基音周期數(shù)據(jù)表示了與上述第二語音單位基音周期相等的段的時(shí)間長(zhǎng)度;獲得由上述子波段信息的、由上述輸入裝置獲得的識(shí)別碼識(shí)別的子波段信息,同時(shí)基于已獲得的子波段信息和上述差分信號(hào),確定上述第二語音的基音頻率分量和諧波分量;和基于上述基音周期數(shù)據(jù)與上述已確定的基音頻率分量和諧波分量,生成表征上述第二語音的語音信號(hào)。
      第三發(fā)明為獲取第三發(fā)明的目的,根據(jù)第三發(fā)明的第一方面的語音合成裝置包括用于儲(chǔ)存韻律信息、基音周期信息和頻譜信息的儲(chǔ)存裝置;其中韻律信息表征單位語音采樣的韻律,基音周期信息表征采樣的基音周期,頻譜信息表示了基音周期波形信號(hào)的基音頻率分量和諧波分量中隨時(shí)間的變化,其中的基音周期波形信號(hào)是通過使各段的時(shí)間長(zhǎng)度完全相同來生成的,其中這些段中的每個(gè)都與表征采樣波形的語音信號(hào)的單位基音周期相等,其中該采樣帶有使采樣開始對(duì)應(yīng)的信息;預(yù)測(cè)裝置,用于輸入表征文本的文本信息,并且基于文本信息生成表征對(duì)組成文本的單位語音的基音周期和頻譜的預(yù)測(cè)結(jié)果的預(yù)測(cè)信息;基于上述基音周期信息、頻譜信息和預(yù)測(cè)信息用于識(shí)別采樣的查找裝置,其中該采樣具有與組成上述文本的單位語音的基音周期和頻譜最高相關(guān)的基音周期和頻譜;和信號(hào)合成裝置,用于生成合成語音信號(hào),該合成語音信號(hào)表征其中具有韻律的語音,其中的韻律是由使上述查找裝置識(shí)別的采樣對(duì)應(yīng)的韻律信息表征的,在基音頻率分量和諧波分量中的隨時(shí)間的變化是由使上述查找裝置識(shí)別的采樣開始對(duì)應(yīng)的頻譜信息表征的,與單位基音周期相等的段的時(shí)間長(zhǎng)度是由使上述查找裝置確定的采樣對(duì)應(yīng)的基音周期信息表征的。
      上述頻譜信息可由表征對(duì)表示基音周期波形信號(hào)的基音頻率分量和諧波分量中隨時(shí)間變化的數(shù)值進(jìn)行非線性量化的結(jié)果值的數(shù)據(jù)組成。
      此外,根據(jù)本發(fā)明的第二方面的語音詞典生成裝置包括基音周期波形信號(hào)生成裝置,用于獲得表征單位語音波形的語音信號(hào),使各段的時(shí)間長(zhǎng)度完全相同,其中這些段中的每個(gè)都與語音信號(hào)的單位基音周期相等,由此將語音信號(hào)處理成基音周期波形信號(hào);基音周期信息生成裝置,用于生成和輸出表征上述段的原始時(shí)間長(zhǎng)度的基音周期信息;頻譜信息抽取裝置,基于基音周期波形信號(hào),生成和輸出示出上述語音信號(hào)的基音頻率分量和諧波分量中隨時(shí)間的變化的頻譜信息;和韻律信息生成方法,用于獲得表征語譜圖(phonogram)的語聲數(shù)據(jù),其中語譜圖表征基音周期語音的發(fā)音,該裝置還將確定由語聲數(shù)據(jù)表征的發(fā)音韻律,并生成和輸出表征已確定韻律的韻律信息。
      上述頻譜信息抽取裝置包括可變?yōu)V波器,該濾波器具有根據(jù)控制而變化的頻率特征以對(duì)上述語音信號(hào)進(jìn)行濾波,從而抽取語音信號(hào)的基音頻率分量;濾波器特征確定裝置,基于由上述可變?yōu)V波器抽取的基音頻率分量來識(shí)別上述單位語音的基音頻率分量,并且對(duì)上述可變?yōu)V波器進(jìn)行控制以獲得這樣的頻率特征除了存在于已確定基音頻率附近的分量,其他分量均被截止;基音周期抽取裝置,基于語音信號(hào)的基音頻率分量值,將上述語音信號(hào)分成多個(gè)段,其中每段都由與單位基音周期相等的語音信號(hào)組成;和基音周期長(zhǎng)度固定單元,該單元通過對(duì)上述各段中的語音信號(hào)以完全相同的樣本數(shù)進(jìn)行采樣,以生成基音周期波形信號(hào),其各段中的時(shí)間長(zhǎng)度完全相同。
      上述濾波器特征確定裝置可包括交叉檢測(cè)方法,用于識(shí)別由上述可變?yōu)V波器抽取的基音頻率分量達(dá)到預(yù)設(shè)值的時(shí)間長(zhǎng)度,并且基于已識(shí)別的時(shí)間長(zhǎng)度來識(shí)別上述基音頻率。
      上述濾波器特征確定裝置可包括平均基音周期檢測(cè)裝置,基于濾波前的語音信號(hào)來檢測(cè)由語音信號(hào)表征的語音的基音周期的時(shí)間長(zhǎng)度;和確定裝置,用于確定在由上述交叉檢測(cè)方法確定的時(shí)間長(zhǎng)度和由上述平均基音周期檢測(cè)裝置識(shí)別的基音周期時(shí)間長(zhǎng)度之間是否存在預(yù)定量或更大的差別,并且,如果確定不存在這樣的差別,對(duì)上述可變?yōu)V波器進(jìn)行控制以獲得這樣的頻率特征除了存在于由上述交叉檢測(cè)裝置識(shí)別的基音頻率附近的分量,其他分量均被截止;如果確定存在這樣的差別,對(duì)上述可變?yōu)V波器進(jìn)行控制以獲得這樣的頻率特征除了存在于從由上述平均基音周期檢測(cè)裝置識(shí)別的基音周期時(shí)間長(zhǎng)度中識(shí)別的基音頻率附近的分量,其他分量均被截止。
      上述平均基音周期檢測(cè)裝置可包括倒譜分析裝置,用于確定由上述可變?yōu)V波器進(jìn)行濾波前的語音信號(hào)的倒譜達(dá)到最大值所在的頻率;自相關(guān)分析裝置,用于確定由上述可變?yōu)V波器進(jìn)行濾波前的語音信號(hào)的自相關(guān)函數(shù)的周期圖達(dá)到最大值所在的頻率;和平均值計(jì)算裝置,基于由上述倒譜分析裝置和上述自相關(guān)分析裝置確定的頻率來確定由語音信號(hào)表征的語音基音周期的平均值,并且將已確定的平均值確定為單位語音基音周期的時(shí)間長(zhǎng)度。
      上述頻譜信息抽取裝置可以生成表征對(duì)表示上述語音信號(hào)基音頻率分量和諧波分量中隨時(shí)間變化的數(shù)值進(jìn)行非線性量化的結(jié)果,并且輸出數(shù)據(jù)作為上述的頻譜信息。
      此外,根據(jù)本發(fā)明第三方面的語音合成方法包括如下步驟儲(chǔ)存表征單位語音采樣韻律的韻律信息,表征采樣基音周期的基音周期信息,和表示基音周期波形信號(hào)的基音頻率分量和諧波分量中隨時(shí)間的變化的頻譜信息,其中的基音周期波形信號(hào)是通過使各段的時(shí)間長(zhǎng)度完全相同來生成的,這些段中的每個(gè)都與表征采樣波形的語音信號(hào)的單位基音周期相等,其中采樣帶有使采樣對(duì)應(yīng)的信息;輸入表征文本的文本信息,并基于文本信息生成預(yù)測(cè)信息,該預(yù)測(cè)信息表征對(duì)由文本組成的單位語音基音周期和頻譜預(yù)測(cè)的結(jié)果;基于上述基音周期信息、頻譜信息和預(yù)測(cè)信息,識(shí)別具有這樣基音周期和頻譜的采樣其中該基音周期和頻譜與由上述文本組成的單位語音的基音周期和頻譜具有最高相關(guān);和生成表征語音的合成的語音信號(hào),其中,該語音具有由開始對(duì)應(yīng)已識(shí)別采樣的韻律信息表征的韻律,基音頻率分量和諧波分量中隨時(shí)間的變化是由對(duì)應(yīng)已由上述查找裝置確定的采樣的頻譜信息表征的,與單位基音周期相等的段的時(shí)間長(zhǎng)度是由對(duì)應(yīng)已由上述恢復(fù)裝置識(shí)別的采樣的基音周期信息表征的。
      此外,根據(jù)本發(fā)明的第四方面的語音詞典生成方法包括如下步驟獲得表征單位語音波形的語音信號(hào),并且使各段的時(shí)間長(zhǎng)度完全相同,其中這些段中的每個(gè)都與語音信號(hào)的單位基音周期相等,由此將語音信號(hào)處理成基音周期波形信號(hào);生成和輸出表征上述段中的原始時(shí)間長(zhǎng)度的基音周期信息;基于基音周期波形信號(hào),生成和輸出表示上述語音信號(hào)的基音頻率分量和諧波分量中隨時(shí)間的變化的頻譜信息;和獲得表征語譜圖的語聲數(shù)據(jù),其中語譜圖表征單位語音的發(fā)音,并且確定由語聲數(shù)據(jù)表征的發(fā)音的韻律,生成和輸出表征已確定韻律的韻律信息。


      圖1示出了根據(jù)本發(fā)明實(shí)施例的基音周期波形抽取系統(tǒng)的結(jié)構(gòu);圖2(a)示出了通過常規(guī)方法獲得的語音頻譜的一個(gè)例子,圖2(b)示出了根據(jù)本發(fā)明實(shí)施例的基音周期波形抽取系統(tǒng)獲得的基音周期波形信號(hào)頻譜的一個(gè)例子;圖3是表示根據(jù)本發(fā)明實(shí)施例的語音信號(hào)壓縮器的結(jié)構(gòu)的框圖;圖4是表示在語音的每個(gè)頻率分量的強(qiáng)度中隨時(shí)間的變化的一個(gè)例子的圖;圖5是表示根據(jù)本發(fā)明實(shí)施例的語音信號(hào)擴(kuò)展器的結(jié)構(gòu)的框圖;圖6是表示根據(jù)本發(fā)明實(shí)施例的語音詞典生成系統(tǒng)的結(jié)構(gòu)的框圖;圖7是表示根據(jù)本發(fā)明實(shí)施例的語音合成系統(tǒng)的結(jié)構(gòu)的框圖;圖8說明了通過規(guī)則合成方法進(jìn)行語音合成的步驟;和圖9用示意圖說明了語音合成的原理。
      具體實(shí)施例方式
      以下將結(jié)合

      本發(fā)明(第一、第二和第三發(fā)明)的實(shí)施例。
      第一發(fā)明圖1示出了根據(jù)第一發(fā)明實(shí)施例的基音周期波形抽取系統(tǒng)的結(jié)構(gòu)。如圖中所示,該基音周期波形抽取系統(tǒng)包括語音輸入單元1,倒譜分析單元2,自相關(guān)分析單元3,權(quán)重計(jì)算單元4,帶通濾波器(BPF)系數(shù)計(jì)算單元5,帶通濾波器(BPF)6,過零分析單元7,波形相關(guān)分析單元8,相位調(diào)整單元9,幅度固定單元10,基音周期長(zhǎng)度固定單元11,插值處理單元12A和12B,傅立葉變換單元13A和13B,波形選擇單元14和基音周期波形輸出單元15。
      例如,語音輸入單元1是由記錄介質(zhì)驅(qū)動(dòng)器(軟盤驅(qū)動(dòng)器,MO驅(qū)動(dòng)器等)組成的,用于讀取記錄在記錄介質(zhì)(例如軟盤和MO(磁光盤))及其他類似介質(zhì)中的數(shù)據(jù)。
      語音輸入單元1輸入表征語音波形的語音數(shù)據(jù),以將語音數(shù)據(jù)提供給倒譜分析單元2、自相關(guān)分析單元3、BPF 6、波形相關(guān)分析單元8和幅度固定單元10。
      此外,語音數(shù)據(jù)具有PCM(脈沖編碼調(diào)制)——已調(diào)制數(shù)字信號(hào)的格式,并且表征在比語音基音周期充分短的固定周期內(nèi)采樣的語音。
      倒譜分析單元2,自相關(guān)分析單元3,權(quán)重計(jì)算單元4,BPF系數(shù)計(jì)算單元5,BPF 6,過零分析單元7,波形相關(guān)分析單元8,相位調(diào)整單元9,幅度固定單元10,基音周期長(zhǎng)度固定單元11,插值處理單元12A,插值處理單元12B,傅立葉變換單元13A,傅立葉變換單元13B,波形選擇單元14和基音周期波形輸出單元15中的每一個(gè)都是由DSP(數(shù)字信號(hào)處理器)、CPU(中央處理器)和其他類似器件組成。
      而且,相同的DSP和CPU可以執(zhí)行倒譜分析單元2,自相關(guān)分析單元3,權(quán)重計(jì)算單元4,BPF系數(shù)計(jì)算單元5,BPF 6,過零分析單元7,波形相關(guān)分析單元8,相位調(diào)整單元9,幅度固定單元10,基音周期長(zhǎng)度固定單元11,插值處理單元12A,插值處理單元12B,傅立葉變換單元13A,傅立葉變換單元13B,波形選擇單元14和基音周期波形輸出單元15的段或全部功能。
      倒譜分析單元2對(duì)由語音輸入單元1提供的語音數(shù)據(jù)進(jìn)行倒譜分析以識(shí)別由語音數(shù)據(jù)表征的語音的基音頻率,并且生成表示已識(shí)別的基音頻率的數(shù)據(jù),將表示基音頻率的數(shù)據(jù)提供給權(quán)重計(jì)算單元4。在這里,通過將頻譜對(duì)數(shù)確定為頻率函數(shù)并且對(duì)其進(jìn)行傅立葉反變換,獲得倒譜。
      具體地說,當(dāng)從語音輸入單元1輸入語音數(shù)據(jù)時(shí),倒譜分析單元2首先將確定該語音數(shù)據(jù)的頻譜,并且將此頻譜轉(zhuǎn)換成與頻譜對(duì)數(shù)完全相等的數(shù)值(對(duì)于對(duì)數(shù)的底數(shù)沒有限制,例如可以使用常用對(duì)數(shù))。
      然后,頻譜分析單元2通過快速傅立葉反變換的方法(或者任何用于生成表征對(duì)離散變量進(jìn)行傅立葉反變換的結(jié)果的其他方法)來確定倒譜。
      將給定該倒譜最大值的頻率的最小值識(shí)別為基音頻率,生成表示該已識(shí)別的基音頻率的數(shù)據(jù)并且將其提供給權(quán)重計(jì)算單元4。
      當(dāng)把語音數(shù)據(jù)從語音輸入單元1提供給自相關(guān)分析單元3時(shí),自相關(guān)分析單元3將基于語音數(shù)據(jù)波形的自相關(guān)函數(shù)來識(shí)別由語音數(shù)據(jù)表征的語音的基音頻率,并且生成表示該已識(shí)別的基音頻率的數(shù)據(jù),將此數(shù)據(jù)提供給權(quán)重計(jì)算單元4。
      具體地說,當(dāng)把語音數(shù)據(jù)從語音輸入單元1提供給自相關(guān)分析單元3時(shí),自相關(guān)分析單元3將確定由公式1右邊表征的自相關(guān)函數(shù)r(1)[公式1]r(1)=1N&Sigma;t=0N-1-1{x(t+1)&CenterDot;x(t)}]]>式中N是語音數(shù)據(jù)采樣的總數(shù)量,x(α)是從語音數(shù)據(jù)頭開始的第α個(gè)采樣的值。
      然后,自相關(guān)分析單元3將給定函數(shù)(周期圖)最大值并且超越預(yù)設(shè)的下限頻率的最小值確定為基音頻率,其中該函數(shù)是作為對(duì)自相關(guān)函數(shù)r(1)進(jìn)行傅立葉變換的結(jié)果而獲得的,并且該單元生成表示已確定基音頻率的數(shù)據(jù),并將該數(shù)據(jù)提供給權(quán)重計(jì)算單元4。
      將表示基音頻率的全部這兩個(gè)數(shù)據(jù)提供給權(quán)重計(jì)算單元4時(shí),權(quán)重計(jì)算單元4將確定這兩個(gè)數(shù)據(jù)所示的基音頻率的倒數(shù)絕對(duì)值的平均值,其中這兩個(gè)數(shù)據(jù)一個(gè)來源于倒譜分析單元2,另一個(gè)來源于自相關(guān)分析單元3。然后,權(quán)重計(jì)算單元4將生成表示已確定值(即平均基音周期長(zhǎng)度)的數(shù)據(jù),并且將該數(shù)據(jù)提供給BPF系數(shù)計(jì)算單元5。
      當(dāng)把來自權(quán)重計(jì)算單元4的表示平均基音周期長(zhǎng)度的數(shù)據(jù)和來自于過零分析單元7的后面所述的過零信號(hào)提供給BPF系數(shù)計(jì)算單元5時(shí),BPF系數(shù)計(jì)算單元5將基于提供的數(shù)據(jù)和過零信號(hào),確定在平均基音周期長(zhǎng)度與基音周期信號(hào)和過零的周期之間是否存在預(yù)定值或更大值的差別。然后,如果確定不存在這樣的差別,BPF系數(shù)計(jì)算單元5將對(duì)BPF 6的頻率特征進(jìn)行控制以使過零周期的倒數(shù)與中心頻率(BPF 6通帶的中心頻率)相等。另一方面,如果確定存在這樣的預(yù)設(shè)數(shù)值或者更大的數(shù)值的差別,BPF系數(shù)計(jì)算單元5將對(duì)BPF 6的頻率特征進(jìn)行控制以使平均基音周期長(zhǎng)度的倒數(shù)與中心頻率相等。
      BPF 6以可變的中心頻率來執(zhí)行FIR(有限沖激響應(yīng))類型濾波器功能。
      具體地說,BPF 6將其自己的中心頻率設(shè)置為適合BPF系數(shù)計(jì)算單元5控制的數(shù)值。然后,BPF 6對(duì)由語音輸入單元1提供的語音數(shù)據(jù)進(jìn)行濾波,并將已濾波的語音數(shù)據(jù)(基音周期信號(hào))提供給過零分析單元7和波形相關(guān)分析單元8。該基音周期信號(hào)是由數(shù)字?jǐn)?shù)據(jù)組成的,該數(shù)字?jǐn)?shù)據(jù)的采樣間隔與語音數(shù)據(jù)的采樣間隔完全相同。
      此外,期望BPF 6的帶寬滿足BPF 6通帶的上限始終不高于由語音數(shù)據(jù)表征的語音的基音頻率的2倍。
      過零分析單元7確定由BPF 6提供的基音周期信號(hào)的瞬時(shí)值達(dá)到0的時(shí)刻(過零發(fā)生的時(shí)刻),并且將表征已確定時(shí)刻的信號(hào)(過零信號(hào))提供給波形相關(guān)分析單元8。
      但是,過零分析單元7也可以確定基音周期信號(hào)的瞬時(shí)值達(dá)到一個(gè)除0之外的預(yù)設(shè)數(shù)值的時(shí)刻,并且將表征已確定時(shí)刻的信而不是替過零信號(hào)提供給波形相關(guān)分析單元8。
      把來自于語音輸入單元1的語音數(shù)據(jù)和來自于帶通濾波器6的基音周期信號(hào)提供給波形相關(guān)分析單元8操作,以使語音數(shù)據(jù)以達(dá)到基音周期信號(hào)的單位周期(例如一個(gè)周期)邊界的時(shí)刻同步地劃分。對(duì)于每個(gè)被劃分的段,將確定其相位以各種方式改變的段中語音數(shù)據(jù)和段中基音周期信號(hào)之間的相關(guān),并且把提供最高相關(guān)的語音數(shù)據(jù)相位確定為段中語音數(shù)據(jù)的語音數(shù)據(jù)相位。
      具體地說,例如,當(dāng)表征相位的ψ值(ψ為等于或大于0的整數(shù))以各種不同的方式改變時(shí),波形相關(guān)分析單元8將為每時(shí)刻每段確定由公式(2)的右邊所表征的cor的值。然后,波形相關(guān)分析單元8將確定提供cor最大值的ψ(Ψ)的值,生成表征Ψ值的數(shù)據(jù),并把該數(shù)據(jù)作為表征段中語音數(shù)據(jù)相位的相位數(shù)據(jù)提供給相位調(diào)整單元9。
      cor=&Sigma;i=1n{f(i-&phi;)&CenterDot;g(i)}]]>式中n是段中采樣的全部數(shù)目,f(β)是從段中語音數(shù)據(jù)頭開始的第β個(gè)采樣的值,g(γ)是從段中基音周期信號(hào)頭開始的第γ個(gè)采樣的值。
      此外,期望段中的時(shí)間長(zhǎng)度與大約一個(gè)基音周期相等。隨著段長(zhǎng)度的增加,將會(huì)增加段中采樣數(shù)量,從而增加基音周期波形信號(hào)的數(shù)據(jù)量,或者增加進(jìn)行采樣操作的時(shí)間間隔的數(shù)量,這樣將使得基音周期波形信號(hào)表征的語音變得不準(zhǔn)確。
      當(dāng)把來自于語音輸入單元1的語音數(shù)據(jù)和來自于波形相關(guān)分析單元8的表示語音數(shù)據(jù)每段相位Ψ的數(shù)據(jù)提供給相位調(diào)整單元9時(shí),相位調(diào)整單元9將移動(dòng)每段語音數(shù)據(jù)的相位以使語音數(shù)據(jù)的相位與各段相位Ψ相等。然后,將相移語音數(shù)據(jù)提供給幅度固定單元10。
      當(dāng)把來自于相位調(diào)整單元9的相移語音數(shù)據(jù)提供給幅度固定單元10時(shí),幅度固定單元10將該語音數(shù)據(jù)的每一段乘以一個(gè)比例因子以改變其幅度,并且將改變了幅度的語音數(shù)據(jù)提供給基音周期長(zhǎng)度固定單元11。此外,生成表示段與另外應(yīng)用到段中的比例因子值之間對(duì)應(yīng)的比例因子數(shù)據(jù),并將其提供給基音周期波形輸出單元15。
      確定與語音數(shù)據(jù)相乘的比例因子,以使語音數(shù)據(jù)每段幅度的有效值是一個(gè)公共的固定值。也就是說,如果這個(gè)固定值等于J,幅度固定單元10將讓固定值J除以語音數(shù)據(jù)段的幅度有效值K以獲得值(J/K)。這個(gè)值(J/K)就是將應(yīng)用于各段的比例因子。
      當(dāng)把來自于幅度固定單元10的已改變幅度的語音數(shù)據(jù)提供給基音周期長(zhǎng)度固定單元11時(shí),基音周期長(zhǎng)度固定單元11將對(duì)該語音數(shù)據(jù)的每段再次進(jìn)行采樣(重采樣),并且將重采樣的語音數(shù)據(jù)提供給插值處理單元12A和12B。
      此外,基音周期長(zhǎng)度固定單元11生成表示每段原始采樣數(shù)量的采樣數(shù)量數(shù)據(jù),并且將該數(shù)據(jù)提供給基音周期波形輸出單元15。
      而且,基音周期長(zhǎng)度固定單元11進(jìn)行重采樣,其方式為在相同段中以規(guī)則的時(shí)間間隔對(duì)數(shù)據(jù)采樣,這樣使得語音數(shù)據(jù)每段的采樣數(shù)量幾乎相同。
      當(dāng)把來自于基音周期長(zhǎng)度固定單元11的重采樣語音數(shù)據(jù)提供給插植處理單元12A時(shí),插植處理單元12A通過拉格朗日插值法生成表征用于在該語音數(shù)據(jù)采樣間進(jìn)行插值的數(shù)值的數(shù)據(jù),并且將這個(gè)數(shù)據(jù)(拉格朗日插值數(shù)據(jù))連同重采樣語音數(shù)據(jù)一起提供給傅立葉變換單元13A和波形選擇單元14。重采樣語音數(shù)據(jù)和拉格朗日插值數(shù)據(jù)組成了拉格朗日插值后的語音數(shù)據(jù)。
      插值處理單元12B通過格雷果里/牛頓插值法生成表征用于在由基音周期長(zhǎng)度固定單元11提供的語音數(shù)據(jù)采樣間進(jìn)行插值的數(shù)值的數(shù)據(jù)(格雷果里/牛頓插值數(shù)據(jù)),并將該數(shù)據(jù)連同已采樣的語音數(shù)據(jù)一起提供給傅立葉變換單元13B和波形選擇單元14。重采樣數(shù)據(jù)和格雷果里/牛頓插值數(shù)據(jù)組成了格雷果里/牛頓插值后的語音數(shù)據(jù)。
      在拉格朗日插值和格雷果里/牛頓插值中,波形的諧波分量都將減小到相對(duì)低的水平。但是,由于這兩種方法使用了不同的函數(shù)來對(duì)兩點(diǎn)之間進(jìn)行插值,根據(jù)將被插值的采樣的值,諧波分量的數(shù)量在兩種方法之間將會(huì)是不同的。
      當(dāng)把來自于插值處理單元12A(或12B)的拉格朗日插值后的(或格雷果里/牛頓插值后的)語音數(shù)據(jù)提供給傅立葉變換單元13A(或13B)時(shí),傅立葉變換單元13A(或13B)將通過快速傅立葉變換的方法(或者任何其他用于生成表征對(duì)離散變量進(jìn)行傅立葉變換的結(jié)果的數(shù)據(jù)的方法)確定該語音數(shù)據(jù)的頻譜。然后,將表征已確定的頻譜的數(shù)據(jù)提供給波形選擇單元14。
      當(dāng)把來自于插值處理單元12A和12B的表征相同聲音的插值后語音數(shù)據(jù)和來自于傅立葉變換單元13A和13B的該語音數(shù)據(jù)的頻譜提供給波形選擇單元14時(shí),波形選擇單元14將基于提供的頻譜確定拉格朗日插值后的語音數(shù)據(jù)和格雷果里/牛頓插值后的語音數(shù)據(jù)中的哪一個(gè)具有更小的諧波失真。拉格朗日插值后的語音數(shù)據(jù)和格雷果里/牛頓插值后的語音數(shù)據(jù)中具有更小的諧波失真的那一個(gè)將被提供給基音周期波形輸出單元15作為基音周期波形信號(hào)。
      可以認(rèn)為,當(dāng)基音周期長(zhǎng)度固定單元11對(duì)基音周期波形數(shù)據(jù)的每段進(jìn)行重采樣時(shí),每段的波形將出現(xiàn)失真。但是,由于波形選擇單元14在以多種方法進(jìn)行插值的基音周期波形信號(hào)中,選擇了具有最小諧波分量數(shù)量的基音周期波形信號(hào),包括在最終由基音周期波形輸出單元15輸出的基音周期波形數(shù)據(jù)中的諧波分量的數(shù)量將減小到較低的水平。
      而且,例如,波形選擇單元14可以為由傅立葉變換單元13A和13B提供的兩個(gè)頻譜中的每個(gè),確定其頻率為基音頻率2倍或更高的分量的有效值,并且將已確定的有效值較小的頻譜確定為具有較小諧波失真,從而確定的語音數(shù)據(jù)的頻譜。
      當(dāng)把來自于幅度固定單元10的比例因子數(shù)據(jù),來自于基音周期長(zhǎng)度固定單元11的采樣數(shù)量數(shù)據(jù)以及來自于波形選擇單元14的基音周期波形數(shù)據(jù)提供給基音周期波形輸出單元15時(shí),基音周期波形輸出單元15將輸出這三個(gè)數(shù)據(jù)和使它們之間相互對(duì)應(yīng)的數(shù)據(jù)。
      對(duì)于從基音周期波形輸出單元15輸出的基音周期波形信號(hào),單位基音周期段的長(zhǎng)度和幅度進(jìn)行了歸一化,從而消除基音周期起伏的影響。因此,可以從基音周期波形信號(hào)的頻譜中獲取表示共振峰的陡峭波峰,可以十分精確地從基音周期波形信號(hào)中抽取出共振峰。
      具體地說,例如圖2(a)所示,由于基音周期的起伏,沒有消除基音周期起伏的語音數(shù)據(jù)的頻譜將呈現(xiàn)出無明顯波峰的廣闊分布。
      另一方面,例如如果使用這個(gè)基音周期波形抽取系統(tǒng),從具有如圖2(a)所示頻譜的語音數(shù)據(jù)中生成基音周期波形數(shù)據(jù),將獲取如圖2(b)所示的頻譜作為這個(gè)基音周期波形數(shù)據(jù)的頻譜。如此圖所示,這個(gè)基音周期波形數(shù)據(jù)的頻譜具有明顯的共振峰波峰。
      此外,由于從基音周期波形輸出單元15輸出的基音周期波形信號(hào)中消除了基音周期起伏的影響,可以從基音周期波形信號(hào)中高重復(fù)性地抽取共振峰分量。也就是說,可以很容易地從表征同一講話者語音的基音周期波形信號(hào)中抽取完全相同的共振峰分量。因此,例如,當(dāng)要通過使用碼本的方法壓縮語音時(shí),將可以很容易地把在多種場(chǎng)合獲取的講話者的共振峰數(shù)據(jù)用于連接詞中。
      此外,可以使用相同的采樣數(shù)量數(shù)據(jù)來識(shí)別基音周期波形信號(hào)的每一段的原始時(shí)間長(zhǎng)度,并且可以利用比例因子數(shù)據(jù)來識(shí)別基音周期波形信號(hào)的每一段的原始幅度。因此,通過將基音周期波形信號(hào)的每一個(gè)段的長(zhǎng)度和幅度恢復(fù)到原始語音數(shù)據(jù)中的長(zhǎng)度和幅度,可以容易地恢復(fù)原始語音數(shù)據(jù)。
      而且,這種基音周期波形抽取系統(tǒng)的結(jié)構(gòu)不限于上面的介紹。
      例如,語音輸入單元1可經(jīng)諸如電話線、專用線和衛(wèi)星線路的通信線從外部獲得語音數(shù)據(jù)。在這種情況下,僅給語音輸入單元1提供由(例如)調(diào)制解調(diào)器和DSU(數(shù)據(jù)服務(wù)單元)的通信控制單元。
      此外,語音輸入單元1可包括聲音收集裝置,其由麥克、AF(音頻)放大器、采樣器、A/D(模擬-數(shù)字)轉(zhuǎn)換器、PCM編碼器等等組成。語音收集裝置對(duì)表示由它的麥克收集的語音的語音信號(hào)進(jìn)行放大,并且對(duì)語音信號(hào)進(jìn)行采樣和A/D轉(zhuǎn)換器,然后對(duì)采樣的語音信號(hào)進(jìn)行PCM調(diào)制,從而獲得語音數(shù)據(jù)。而且,由語音輸入單元1獲得語音數(shù)據(jù)不必一定是PCM信號(hào)。
      此外,基音周期波形輸出單元15可以經(jīng)通信線將比例因子數(shù)據(jù)、樣本數(shù)數(shù)據(jù)和基音周期波形數(shù)據(jù)提供給外部。在這種情況下,只給基音周期輸出單元15提供由調(diào)制解調(diào)器、DSU等構(gòu)成的通信控制單元。
      此外,基音周期波形輸出單元15可以將比例因子數(shù)據(jù)、樣本數(shù)數(shù)據(jù)以及基音周期波形數(shù)據(jù)寫入由硬盤裝置或類似裝置組成的外部記錄介質(zhì)和外部存儲(chǔ)裝置中。在這種情況下,僅給基音周期波形輸出單元15提供諸如硬盤控制器的記錄介質(zhì)驅(qū)動(dòng)器和控制電路。
      此外,由插值處理單元12A和12B執(zhí)行的插值方法不限于拉格朗日插值以及格雷果里/牛頓插值法,可以使用任何其它的方法。此外,這種基音周期波形抽取系統(tǒng)可以利用三種或更多種方法來執(zhí)行對(duì)語音數(shù)據(jù)插值,并且具有最小的諧波波形失真的語音數(shù)據(jù)作為基音周期波形數(shù)據(jù)。
      此外,在這種基音周期波形抽取系統(tǒng)中,一個(gè)插值處理單元可利用一種方法來對(duì)語音數(shù)據(jù)進(jìn)行插值,并且可以象對(duì)基音周期波形數(shù)據(jù)一樣直接處理語音數(shù)據(jù)。在這種情況下,這種基音周期波形抽取系統(tǒng)不需要具有付立葉變換單元13A或13B,也不需要具有波形選擇單元14。
      此外,這種波形抽取系統(tǒng)不一定需要對(duì)語音數(shù)據(jù)的幅度有效值進(jìn)行歸一化(uniformalize)。因此,幅度固定單元10不是一個(gè)必備的單元,且相位調(diào)整單元9可以將相移語音數(shù)據(jù)直接提供給基音周期長(zhǎng)度固定單元11。
      此外,這種基音周期波形抽取系統(tǒng)不需要具有倒譜分析單元2(或者自相關(guān)分析單元3),在這種情況下,權(quán)重計(jì)算單元4可以象平均基音周期長(zhǎng)度一樣直接處理由倒譜分析單元2(或,自相關(guān)分析單元3)確定的基頻的倒數(shù)。
      此外,過零分析單元7可直接地將來自BPF 6的基音周期信號(hào)提供給BPF系數(shù)計(jì)算單元5,作為過零信號(hào)。
      已經(jīng)在上面介紹了本發(fā)明的實(shí)施例,但是可以利用常規(guī)的計(jì)算機(jī)系統(tǒng)而不是專用系統(tǒng)來實(shí)現(xiàn)根據(jù)本發(fā)明的基音周期波形產(chǎn)生裝置。
      例如,從存儲(chǔ)程序的介質(zhì)(CD-ROM,MO,軟磁盤等等)將執(zhí)行上面介紹的語音輸入單元1、倒譜分析單元2、自相關(guān)分析單元3、權(quán)重計(jì)算單元4、BPF系數(shù)計(jì)算單元5、BPF 6、過零分析單元7、波形相關(guān)分析單元8、相位調(diào)整單元9、幅度固定單元10、基音周期長(zhǎng)度固定單元11、插值處理單元12A、插值處理單元12B、付立葉變換單元13A、付立葉變換單元13B、波形選擇單元14和基音周期波形輸出單元15的運(yùn)行的程序安裝在計(jì)算中,從而可以建造執(zhí)行上面介紹的過程的基音周期波形抽取系統(tǒng)。
      此外,例如,該程序可以公布在具有通信線的電子公告系統(tǒng)(BBS)上,并且經(jīng)過通信線進(jìn)行發(fā)布,或者該程序可以由表征該程序的信號(hào)調(diào)制的載波的方式被恢復(fù),獲得的已調(diào)制波形被發(fā)射,且接收已調(diào)制波形的裝置對(duì)該已調(diào)制的波形進(jìn)行解調(diào)。
      然后,啟動(dòng)該程序,并且在OS的控制下,象其它的應(yīng)用程序一樣被執(zhí)行,從而可以執(zhí)行上面介紹的過程。
      而且,如果OS執(zhí)行過程的段、或者OS組成本發(fā)明的一個(gè)單元,從該段中去除的程序可以被存儲(chǔ)在記錄介質(zhì)中。同樣,在這種情況下,在本發(fā)明中,執(zhí)行由計(jì)算機(jī)運(yùn)行的每一個(gè)功能或步驟的程序被存儲(chǔ)在記錄介質(zhì)中。
      第二發(fā)明下面將利用示例的語音信號(hào)壓縮器和語音信號(hào)擴(kuò)展器來介紹第二發(fā)明的實(shí)施例。
      語音信號(hào)壓縮器圖3示出根據(jù)本發(fā)明實(shí)施例的語音信號(hào)壓縮器的配置。如圖所示,該語音信號(hào)壓縮器由語音輸入單元A1、基音周期波形抽取單元A2、子波段劃分單元A3、幅度調(diào)整單元A4、非線性量化單元A5、線性預(yù)測(cè)分析單元A6、編碼單元A7、解碼單元A8、差別計(jì)算單元A9、量化單元A10、算術(shù)編碼單元A11和比特流形成單元A12。
      例如,語音輸入單元A1由記錄介質(zhì)驅(qū)動(dòng)器(軟磁盤驅(qū)動(dòng)器、MO驅(qū)動(dòng)等)構(gòu)成,以讀出被記錄在記錄介質(zhì)(例如,軟磁盤和MO(磁光盤))上的數(shù)據(jù)。
      語音輸入單元A1通過從存儲(chǔ)該語音數(shù)據(jù)的記錄介質(zhì)中讀出語音數(shù)據(jù),獲得表征語音的波形的語音數(shù)據(jù),并且將語音數(shù)據(jù)提供給基音周期波形抽取單元A2和線性預(yù)測(cè)分析單元A6。
      基音周期波形抽取單元A2、子波段劃分單元A3、幅度調(diào)整單元A4、非線性量化單元A5、線性預(yù)測(cè)分析單元A6、編碼單元A7、解碼單元A8、差別計(jì)算單元A9、量化單元A10、和算術(shù)編碼單元A11中的每一個(gè)都由諸如DSP(數(shù)字信號(hào)處理器)和CPU(中央處理單元)的處理器組成。
      而且,基音周期波形抽取單元A2、子波段劃分單元A3、幅度調(diào)整單元A4、非線性量化單元A5、線性預(yù)測(cè)分析單元A6、編碼單元A7、解碼單元A8、差別計(jì)算單元A9、量化單元A10、和算術(shù)編碼單元A11的段或所有功能可以由單個(gè)處理器執(zhí)行。
      基音周期波形抽取單元A2將從語音輸入單元A1供給的語音數(shù)據(jù)劃分成多個(gè)段,每一個(gè)段相當(dāng)于由該語音數(shù)據(jù)表征的語音的單位基音周期周期(例如,一個(gè)基音周期)。然后,對(duì)已劃分的段進(jìn)行相移和重采樣,使各段的時(shí)間長(zhǎng)度和相位實(shí)質(zhì)上相同。
      然后,將帶有各段的時(shí)間長(zhǎng)度和相位相同的語音數(shù)據(jù)(基音周期波形數(shù)據(jù))供給子波段劃分單元A3和差別計(jì)算單元A9。
      此外,基音周期波形抽取單元A2生成示出在該語音數(shù)據(jù)的每一個(gè)段中的多個(gè)原始采樣值的基音周期信息,并且將基音周期信息供給算術(shù)編碼單元A11。
      如圖2所示,按照功能來說,基音周期波形抽取單元A2由(例如)倒譜分析單元2、自相關(guān)分析單元3、權(quán)重計(jì)算單元4、BPF(帶通濾波器)系數(shù)計(jì)算單元5、帶通濾波器6、過零分析單元7、波形相關(guān)分析單元8、相位調(diào)整單元9和幅度固定單元10組成。
      基音周期波形抽取單元的運(yùn)行和功能與在第一發(fā)明中介紹的一樣。
      當(dāng)從相位調(diào)整單元9將相移語音數(shù)據(jù)提供給基音周期長(zhǎng)度固定單元11時(shí),基音周期長(zhǎng)度固定單元11對(duì)供給的語音數(shù)據(jù)的各個(gè)段進(jìn)行重采樣,以使各段的時(shí)間長(zhǎng)度實(shí)質(zhì)上相同。然后,將具有各段時(shí)間長(zhǎng)度相同的語音數(shù)據(jù)(比特波形數(shù)據(jù))供給子波段劃分單元A3和差別計(jì)算單元A9。
      此外,基音周期長(zhǎng)度固定單元11生成示出在該語音數(shù)據(jù)的每一個(gè)段中的多個(gè)原始采樣值(在該語音數(shù)據(jù)的每一個(gè)段中的采樣值數(shù)是在當(dāng)從語音輸入單元1將語音數(shù)據(jù)供給基音周期長(zhǎng)度固定單元11時(shí))的基音周期信息,并且將基音周期信息供給算術(shù)編碼單元A11。假設(shè)對(duì)由語音數(shù)據(jù)輸入單元A1獲得的語音數(shù)據(jù)進(jìn)行采樣的時(shí)間間隔是已知的,基音周期信息相當(dāng)于(functions as)示出等于該語音數(shù)據(jù)的單位基音周期周期的段的原始時(shí)間長(zhǎng)度的信息。
      子波段劃分單元A3對(duì)從基音周期波形抽取單元A2供給的基音周期波形數(shù)據(jù)進(jìn)行諸如DCT(離散余弦變換)的正交變換,從而生成子波段數(shù)據(jù)。然后,將生成的子波段數(shù)據(jù)供給幅度調(diào)整單元A4。
      子波段數(shù)據(jù)包括示出在由基音周期波形信號(hào)表征的語音的基頻分量的強(qiáng)度隨時(shí)間的變化的數(shù)據(jù)以及示出在該語音的n個(gè)基頻分量的強(qiáng)度隨時(shí)間變化的n個(gè)數(shù)據(jù)(n是自然數(shù))。因此,當(dāng)基頻分量(或者,諧波分量)的強(qiáng)度沒有隨時(shí)間變化時(shí),子波段數(shù)據(jù)以直流信號(hào)的形式表征基頻分量(或者,諧波分量)的強(qiáng)度。
      當(dāng)從子波段劃分單元A3將子波段數(shù)據(jù)供給幅度調(diào)整單元A4時(shí),幅度調(diào)整單元A4將由該子波段數(shù)據(jù)表征的基頻分量和諧波分量的瞬時(shí)值乘以比例因子,以改變幅度值,并且將帶有改變的幅度值的子波段數(shù)據(jù)供給非線性量化單元A5。
      此外,幅度調(diào)整單元A4生成示出在子波段數(shù)據(jù)和其中的頻率分量(基頻或諧波分量)以及加到其上的比例因子值之間的對(duì)應(yīng)關(guān)系的比例因子數(shù)據(jù),且將該比例因子數(shù)據(jù)供給算術(shù)編碼單元A11。
      確定比例因子,使得由相同的子波段數(shù)據(jù)表征的頻率分量的強(qiáng)度的最大值是一個(gè)公共固定值(例如)。即,假設(shè)該固定的值等于J,幅度調(diào)整單元A4將固定值除以特定頻率分量的強(qiáng)度的最大值K,以計(jì)算值(J/K)。這個(gè)值(J/K)是該頻率分量的瞬時(shí)值被乘以的比例因子。
      當(dāng)從幅度調(diào)整單元A4將帶有改變的幅度值的子波段數(shù)據(jù)供給非線性量化單元A5時(shí),非線性量化單元A5生成子波段數(shù)據(jù),該子波段數(shù)據(jù)等于通過對(duì)由該子波段數(shù)據(jù)表征的每一個(gè)頻率分量的瞬時(shí)值進(jìn)行非線性壓縮(具體地說,例如將瞬時(shí)值代入向上的凸函數(shù))獲得的值進(jìn)行量化而得到的數(shù)據(jù),并且將生成的子波段數(shù)據(jù)(在非線性量化之后的子波段數(shù)據(jù))供給編碼單元A7。
      而且,非線性壓縮的方法可以是任何的方法,在這些方法中,特別地,線性量化單元A5是這樣的,使得經(jīng)過量化之后的每一個(gè)頻率分量的瞬時(shí)值實(shí)質(zhì)上等于通過量化原始瞬時(shí)值的對(duì)數(shù)(然而,對(duì)于所有的頻率分量,對(duì)數(shù)的基數(shù)是一樣的(例如,相同的對(duì)數(shù)))獲得的值。
      線性預(yù)測(cè)分析單元A6對(duì)從語音輸入單元A1供給的語音數(shù)據(jù)進(jìn)行線性預(yù)測(cè)分析,從而抽取出并且識(shí)別出對(duì)具有由該語音數(shù)據(jù)表征的語音的揚(yáng)聲器的特定參數(shù)(例如,表征封裝具有該語音的頻譜的封裝數(shù)據(jù)或者表征該數(shù)據(jù)的共振峰的數(shù)據(jù))。然后,將抽取出的參數(shù)供給編碼單元A7。
      除了處理器之外,編碼單元A7包括由硬盤裝置或類似裝置組成的存儲(chǔ)裝置。
      對(duì)于每一個(gè)揚(yáng)聲器,編碼單元A7存儲(chǔ)對(duì)揚(yáng)聲器的特定參數(shù)以及對(duì)由線性預(yù)測(cè)分析單元A6抽取出的識(shí)別參數(shù)(例如,如果識(shí)別的參數(shù)是封裝數(shù)據(jù),則對(duì)數(shù)據(jù)進(jìn)行封裝)類型相同。此外,音位詞典表征音位,音位構(gòu)成揚(yáng)聲器的語音,音位與每一個(gè)揚(yáng)聲器的參數(shù)的相應(yīng)關(guān)系一起存儲(chǔ)在音位詞典中。具體地說,音位詞典存儲(chǔ)子波段數(shù)據(jù),該子波段數(shù)據(jù)示出在具有對(duì)每一個(gè)音位的音位的基頻分量和諧波分量的強(qiáng)度隨時(shí)間而變化。給每一個(gè)子波段數(shù)據(jù)分配對(duì)子波段數(shù)據(jù)的特定識(shí)別碼。
      當(dāng)從非線性量化單元A5將經(jīng)非線性量化的子波段數(shù)據(jù)供給編碼單元A7時(shí),并且從非線性預(yù)測(cè)分析單元A6將識(shí)別參數(shù)提供給編碼單元A7時(shí),編碼單元A7識(shí)別最接近從非線性預(yù)測(cè)分析單元A6供給的識(shí)別參數(shù)的參數(shù),該參數(shù)是存儲(chǔ)在編碼單元中參數(shù)的參數(shù),從而選出帶有對(duì)應(yīng)該參數(shù)的音位詞典。
      如果識(shí)別的參數(shù)和存儲(chǔ)在編碼單元A7中的參數(shù)都是由封裝數(shù)據(jù)組成,編碼單元A7可以識(shí)別(例如)一個(gè)參數(shù),該參數(shù)將具有與由識(shí)別的參數(shù)表征的封裝有最大的相關(guān)系數(shù)的封裝作為可以最接近識(shí)別參數(shù)的參數(shù)。
      然后,編碼單元A7識(shí)別表征一個(gè)波形的子波段數(shù)據(jù),該波形最接近從非線性量化單元A5供給的子波段數(shù)據(jù),該子波段數(shù)據(jù)是來自包括在選擇的音位詞典中的子波段數(shù)據(jù)。具體地,例如,編碼單元A7執(zhí)行下面介紹的過程(1)和(2)。也就是,(1)首先,相同頻率分量之間的相關(guān)系數(shù)被逐一地在從非線性量化單元A5供給的子波段數(shù)據(jù)和包括在選擇的音位詞典中的一個(gè)音位的子波段數(shù)據(jù)之間進(jìn)行確定,并且計(jì)算確定的系數(shù)的均值。(2)為包括在選擇的音位詞典中的所有音位的子波段數(shù)據(jù)執(zhí)行過程(1),并且識(shí)別對(duì)相關(guān)系數(shù)的均值最大的子波段數(shù)據(jù)作為表征最接近從非線性量化單元A5供給的子波段數(shù)據(jù)波形的波形。
      然后,編碼單元A7將分配給識(shí)別的子波段數(shù)據(jù)的識(shí)別碼供給算術(shù)編碼單元A11。也將識(shí)別的子波段數(shù)據(jù)供給編碼單元A8。
      解碼單元A8對(duì)從編碼單元A7供給的子波段數(shù)據(jù)進(jìn)行變換,從而恢復(fù)具有由該子波段數(shù)據(jù)表征的每一個(gè)頻率分量的強(qiáng)度的基音周期波形數(shù)據(jù)。然后,恢復(fù)的基音周期波形數(shù)據(jù)被供給差別計(jì)算單元A9。
      由解碼單元A8對(duì)子波段數(shù)據(jù)的變換實(shí)質(zhì)上與為產(chǎn)生該子波段數(shù)據(jù)而對(duì)音位的波形進(jìn)行的變換相反。具體地,如果該子波段數(shù)據(jù)是通過對(duì)音位進(jìn)行DCT來產(chǎn)生,解碼單元A8可以對(duì)該子波段數(shù)據(jù)進(jìn)行IDCT(反向DCT)。
      差別計(jì)算單元A9產(chǎn)生表征在從基音周期波形抽取單元A2供給基音周期波形數(shù)據(jù)的瞬時(shí)值和從差別計(jì)算單元A9供給基音周期波形數(shù)據(jù)的瞬時(shí)值之間的差值的差別數(shù)據(jù),并且將該差別數(shù)據(jù)供給量化單元A10。
      除了處理器之外,量化單元A10包括諸如ROM(只讀存儲(chǔ)器)的存儲(chǔ)裝置。
      量化單元A10存儲(chǔ)一個(gè)參數(shù),該參數(shù)示出根據(jù)用戶的操作或類似操作來量化差分信號(hào)的精度(或者,表征量化后的差分信號(hào)的數(shù)據(jù)量與量化前的差分信號(hào)的數(shù)據(jù)量的比率的壓縮比)。當(dāng)從差別計(jì)算單元A9將差分信號(hào)提供給量化單元A10時(shí),量化單元A10用存在量化單元A10中的參數(shù)示出的精度來量化來自差別計(jì)算單元A9的差分信號(hào)(或者,量化該值以獲得由該參數(shù)表征的壓縮比),并量化后的差別數(shù)據(jù)提供給算術(shù)編碼單元A11。
      算術(shù)編碼單元A11將從編碼單元A7提供的識(shí)別碼、從量化單元A10提供的差分信號(hào)、從基音周期波形抽取單元A2提供的基音周期信息和從幅度調(diào)整單元A4提供的比例因子數(shù)據(jù)轉(zhuǎn)換成算術(shù)碼(arithmetic code),并且將算術(shù)碼和帶有算術(shù)碼的相互對(duì)應(yīng)關(guān)系一起提供給比特流形成單元A12。
      比特流形成單元A12由(例如)控制電路和諸如CPU的處理器組成,控制電路根據(jù)諸如RS232C的規(guī)范來與外部進(jìn)行串行通信。
      比特流形成單元A12產(chǎn)生一比特流,該比特流表征帶有相互對(duì)應(yīng)關(guān)系的算術(shù)碼,并且被從算術(shù)編碼單元A11提供,并且輸出比特流作為壓縮的語音數(shù)據(jù)。
      壓縮的語音數(shù)據(jù)是根據(jù)基音周期波形數(shù)據(jù)來產(chǎn)生的,壓縮的語音數(shù)據(jù)是這樣的語音數(shù)據(jù)其中,等于單位基音周期周期的各段的時(shí)間長(zhǎng)度被歸一化,并且消除了基音周期的波動(dòng)影響。因此,壓縮的語音數(shù)據(jù)精確地表征語音的頻率分量(基頻分量和諧波分量)的強(qiáng)度隨時(shí)間的變化。
      此外,壓縮語音由差別數(shù)據(jù)構(gòu)成,差別數(shù)據(jù)表征識(shí)別碼和該語音數(shù)據(jù)之間的差別,識(shí)別碼用于識(shí)別語音,對(duì)于該語音,事先準(zhǔn)配頻率分量隨時(shí)間變化的采樣值數(shù)據(jù)。
      另一方面,例如如圖4所示,由人實(shí)際產(chǎn)生的語音的頻率分量的強(qiáng)度隨時(shí)間變化是非常小的,在相同的揚(yáng)聲器的語音之間的強(qiáng)度的差別也是很小的。因此,與要壓縮語音的揚(yáng)聲器相同的、表征揚(yáng)聲器的語音的子波段數(shù)據(jù)被事先存儲(chǔ)在音位詞典中,并且對(duì)該揚(yáng)聲器的特定識(shí)別參數(shù)被加入到對(duì)應(yīng)關(guān)系中,從而大大地減少了差別數(shù)據(jù)的數(shù)據(jù)量。因此,也顯著地減少了壓縮的語音數(shù)據(jù)的數(shù)據(jù)量。
      而且,在圖4中,識(shí)別為“BND0”的圖形示出語音的基頻分量的強(qiáng)度,而識(shí)別為“BNDK”的圖形(k是從1到7的整數(shù))示出該語音的(k+1)階諧波分量的強(qiáng)度。識(shí)別為“d1”的段是表征元音“a”的段,識(shí)別為“d2”是表征元音“i”的段,識(shí)別為“d3”是表征元音“u”的段,識(shí)別為“d4”是表征元音“e”的段。
      此外,可以使用基音周期信息來識(shí)別基音周期波形信號(hào)的每個(gè)段的原始時(shí)間長(zhǎng)度,可以使用比例因子數(shù)據(jù)來識(shí)別每一個(gè)頻率分量的原始幅度。因此,通過將每個(gè)段的時(shí)間長(zhǎng)度和基音周期波形信號(hào)的每一個(gè)頻率分量的幅度恢復(fù)到原始語音數(shù)據(jù)中的時(shí)間長(zhǎng)度和幅度,可以容易地恢復(fù)原始語音數(shù)據(jù)。
      而且,這種語音信號(hào)壓縮器的配置不限于以上所述。
      例如,語音輸入單元A1可經(jīng)諸如電話線、專用線和衛(wèi)星線路的通信線從外部獲得語音數(shù)據(jù)。在這種情況下,僅給語音輸入單元A1提供由(例如)調(diào)制解調(diào)器和DSU(數(shù)據(jù)服務(wù)單元)等等組成的通信控制單元。
      此外,語音輸入單元A1可包括聲音收集裝置,其由麥克、AF放大器、采樣器、A/D(模擬-數(shù)字)轉(zhuǎn)換器、PCM編碼器等等組成。語音收集裝置對(duì)表征由它的麥克收集的語音的語音信號(hào)進(jìn)行放大,并且對(duì)語音信號(hào)進(jìn)行采樣和A/D轉(zhuǎn)換器,然后對(duì)采樣的語音信號(hào)進(jìn)行PCM調(diào)制,從而獲得語音數(shù)據(jù)。而且,由語音輸入單元A1獲得語音數(shù)據(jù)不必一定是PCM信號(hào)。
      此外,這種基音周期波形抽取單元A2不一定需要具有倒譜分析單元A21(或者自相關(guān)分析單元A22),在這種情況下,權(quán)重計(jì)算單元A23直接處理由倒譜分析單元A21(或,自相關(guān)分析單元A22)確定的基頻的倒數(shù),作為平均基音周期長(zhǎng)度。
      此外,過零分析單元A26可以將從帶通濾波器A25提供的基音周期信號(hào)直接地提供給BPF系數(shù)計(jì)算單元A24,作為過零信號(hào)。
      此外,比特流形成單元A12可以經(jīng)通信線或類似線路將壓縮的語音數(shù)據(jù)提供給外部。在這種經(jīng)通信線或類似線路將數(shù)據(jù)提供給外部的情況下,只給比特流形成單元A12提供(例如)由調(diào)制解調(diào)器、DSU等構(gòu)成的通信控制單元。
      此外,比特流形成單元A12可包括記錄介質(zhì)驅(qū)動(dòng)器,在這種情況下,比特流形成單元A12可以將要存儲(chǔ)在語音詞典中的數(shù)據(jù)寫入到在這種記錄介質(zhì)驅(qū)動(dòng)器的記錄介質(zhì)的存儲(chǔ)區(qū)域中。
      而且,單個(gè)調(diào)制解調(diào)器、DSU或記錄介質(zhì)驅(qū)動(dòng)器可構(gòu)成語音輸入單元A1和比特流形成單元A12。
      此外,差別計(jì)算單元A9可獲得由非線性量化單元A5產(chǎn)生的、非線性量化之后的子波段數(shù)據(jù),并且獲得由編碼單元A7識(shí)別的子波段數(shù)據(jù)。
      在這種情況下,差別計(jì)算單元A9可以為具有相同頻率的每一組分量確定由非線性量化單元A5產(chǎn)生的、經(jīng)非線性量化后的子波段數(shù)據(jù)表征的每一個(gè)頻率分量的強(qiáng)度的瞬時(shí)值以及由編碼單元A7識(shí)別的子波段數(shù)據(jù)表征的每一個(gè)頻率分量的瞬時(shí)值之間的差別,并且生成表征每一個(gè)確定的差別的差別數(shù)據(jù),且將該差別數(shù)據(jù)提供給量化單元A10。
      此外,編碼單元A7可包括存儲(chǔ)單元,用于存儲(chǔ)在過去從非線性量化單元A5提供的、經(jīng)非線性量化后的子波段數(shù)據(jù)的最新的子波段數(shù)據(jù)。在這種情況下,每一次經(jīng)非線性量化之后的子波段數(shù)據(jù)被提供給編碼單元A7時(shí),編碼單元A7可確定子波段數(shù)據(jù)是否具有與存儲(chǔ)在編碼單元A7中的、非線性量化后的子波段數(shù)據(jù)的某一水平或較大相關(guān)性,如果確定子波段數(shù)據(jù)具有這樣的相關(guān)水平,將表明波形與連續(xù)的波形的上一個(gè)波形相同的預(yù)定數(shù)據(jù)提供給算術(shù)編碼單元A11,代替識(shí)別碼和差別數(shù)據(jù)。這樣,進(jìn)一步減少壓縮語音數(shù)據(jù)的數(shù)據(jù)量。
      而且,例如,可以這樣確定在最近提供的子波段數(shù)據(jù)和存儲(chǔ)在編碼單元A7中的子波段數(shù)據(jù)之間的相關(guān)水平在相同頻率分量之間的相關(guān)系數(shù)被在子波段數(shù)據(jù)之間逐一確定,并且該確定是(例如)基于確定的系數(shù)的平均值的幅度做出的。
      語音信號(hào)擴(kuò)展器現(xiàn)在介紹根據(jù)本發(fā)明實(shí)施例的語音信號(hào)擴(kuò)展器。
      圖5示出語音信號(hào)擴(kuò)展器的一種配置。如圖所示,語音信號(hào)擴(kuò)展器由比特流分解單元B1、算術(shù)編碼解碼單元B2、解碼單元B3、差別恢復(fù)單元B4、加法單元B5、非線性反量化單元B6、幅度恢復(fù)單元B7、子波段合成單元B8、語音波形恢復(fù)單元B9以及語音輸出單元B10組成。
      比特流分解單元B1由(例如)控制電路和諸如CPU的處理器組成,控制電路根據(jù)諸如RS232C的規(guī)范來控制與外部的串行通信。
      比特流分解單元B1從外部獲得由上面介紹的語音信號(hào)壓縮器的比特流形成單元A12產(chǎn)生的比特流(或者,具有實(shí)質(zhì)上與比特流形成單元A12產(chǎn)生的比特流相同的數(shù)據(jù)結(jié)構(gòu)的比特流)。然后,將獲得的比特流分解成表征識(shí)別碼的算術(shù)碼、表征差別數(shù)據(jù)的算術(shù)碼和表征基音周期信息的算術(shù)碼,并且將獲得的算術(shù)碼提供給算術(shù)碼解碼單元B2。
      算術(shù)編碼解碼單元B2、解碼單元B3、差別恢復(fù)單元B4、加法單元B5、非線性反量化單元B6、幅度恢復(fù)單元B7、子波段合成單元B8、和語音波形恢復(fù)單元B9中的每一個(gè)都由諸如DSP的處理器和CPU組成。
      而且,算術(shù)編碼解碼單元B2、解碼單元B3、差別恢復(fù)單元B4、加法單元B5、非線性反量化單元B6、幅度恢復(fù)單元B7、子波段合成單元B8、和語音波形恢復(fù)單元B9的段或所有功能可以由單個(gè)處理器執(zhí)行。
      算術(shù)編碼解碼單元B2對(duì)從比特流解碼單元B1提供的算術(shù)碼進(jìn)行解碼,以恢復(fù)識(shí)別碼、差別數(shù)據(jù)、比例因子數(shù)據(jù)和基音周期信息。然后,將恢復(fù)的識(shí)別碼提供給解碼單元B3,將恢復(fù)的差別數(shù)據(jù)提供給差別恢復(fù)單元B4,將恢復(fù)的比例因子數(shù)據(jù)提供給幅度恢復(fù)單元B7,并將恢復(fù)的基音周期信息提供給語音波形恢復(fù)單元B9。
      除了處理器之外,解碼單元B3進(jìn)一步包括由硬盤裝置等組成的存儲(chǔ)裝置。解碼單元B3存儲(chǔ)實(shí)質(zhì)上與存儲(chǔ)在上面介紹的語音信號(hào)壓縮器的編碼單元A7中的音位詞典相同的音位詞典。
      當(dāng)從算術(shù)編碼解碼單元B2將識(shí)別碼提供給解碼單元B3時(shí),解碼單元B3從音位詞典中查找分配了該識(shí)別碼的子波段數(shù)據(jù),并且將查找到的子波段數(shù)據(jù)提供給加法單元B5。
      當(dāng)從算術(shù)編碼解碼單元B3將差別數(shù)據(jù)提供給差別恢復(fù)單元B4時(shí),實(shí)際上象上面介紹的語音信號(hào)壓縮器的子波段劃分單元A3的轉(zhuǎn)換一樣,差別恢復(fù)單元B4對(duì)該差別數(shù)據(jù)進(jìn)行相同轉(zhuǎn)換,從而生成表征該差別數(shù)據(jù)的每一個(gè)頻率分量的強(qiáng)度的數(shù)據(jù)。然后,將生成的數(shù)據(jù)提供給加法單元B5。
      對(duì)于由從解碼單元B3提供的子波段數(shù)據(jù)表征的每一個(gè)頻率分量,加法單元B5計(jì)算由從差別恢復(fù)單元B4提供的數(shù)據(jù)所表征的頻率分量的瞬時(shí)值與相同頻率分量的瞬時(shí)值之和。然后,生成表征為所有的頻率分量計(jì)算的和的數(shù)據(jù),并且將其提供給非線性反向量化單元B6。被提供給非線性反向量化單元B6的這種數(shù)據(jù)等同于通過處理根據(jù)要被擴(kuò)展的語音數(shù)據(jù)產(chǎn)生的子波段數(shù)據(jù)而獲得的、經(jīng)非線性壓縮的子波段數(shù)據(jù),該處理實(shí)質(zhì)上與上面介紹的語音信號(hào)壓縮器的幅度調(diào)整單元A4和非線性量化單元A5執(zhí)行的處理相同。
      當(dāng)從加法單元B5將數(shù)據(jù)提供給非線性反向量化單元B6時(shí),非線性反向量化單元B6改變由該數(shù)據(jù)表征的每一個(gè)頻率分量的瞬時(shí)值,從而生成等同于在被非線性地量化之前的子波段數(shù)據(jù),表征要被擴(kuò)展的語音數(shù)據(jù),并且將該數(shù)據(jù)提供給幅度恢復(fù)單元B7。
      當(dāng)在被進(jìn)行非線性量化之前,從非線性反向量化單元B6將子波段數(shù)據(jù)提供給幅度恢復(fù)單元B7時(shí),并且從算術(shù)編碼解碼單元B2將比例因子數(shù)據(jù)提供給恢復(fù)單元B7時(shí),幅度恢復(fù)單元B7將由子波段數(shù)據(jù)表征的每一個(gè)頻率分量的瞬時(shí)值乘以由比例因子數(shù)據(jù)表征的比例因子的倒數(shù),以改變幅度,并且將帶有改變的幅度的子波段數(shù)據(jù)提供給子波段合成單元B8。
      當(dāng)從幅度恢復(fù)單元B7將帶有改變的幅度的子波段數(shù)據(jù)提供給子波段合成單元B8時(shí),子波段合成單元B8對(duì)子波段數(shù)據(jù)進(jìn)行變換,該變換實(shí)質(zhì)上與上面介紹的語音信號(hào)壓縮器的解碼單元A8執(zhí)行的變換相同,從而用由子波段數(shù)據(jù)表征的每一個(gè)頻率分量的強(qiáng)度來恢復(fù)基音周期波形數(shù)據(jù)。然后,將恢復(fù)的基音周期波形提供給語音波形恢復(fù)單元B9。
      語音波形恢復(fù)單元B9改變從子波段合成單元B8提供的基音周期波形數(shù)據(jù)的每一段的時(shí)間長(zhǎng)度,使得該時(shí)間長(zhǎng)度等于從算術(shù)編碼解碼單元B2提供的基音周期信息示出的時(shí)間長(zhǎng)度。例如,可以通過改變存在于各段中的各樣值之間的距離來執(zhí)行改變各段的時(shí)間長(zhǎng)度。
      然后,語音波形恢復(fù)單元B9將帶有改變的每一段的時(shí)間長(zhǎng)度的基音周期波形數(shù)據(jù)(也就是,語音數(shù)據(jù)表征恢復(fù)的語音)提供給語音輸出單元B10。
      語音輸出單元B10包括(例如)執(zhí)行PCM解碼器功能的控制電路、D/A(數(shù)字-模擬)轉(zhuǎn)換器、AF(音頻)放大器、揚(yáng)聲器等。
      當(dāng)從語音波形恢復(fù)單元B9將表征恢復(fù)的語音的語音數(shù)據(jù)提供給語音輸出單元B10時(shí),語音輸出單元B10對(duì)語音數(shù)據(jù)進(jìn)行解調(diào),對(duì)語音數(shù)據(jù)進(jìn)行D/A變換和放大,并且使用獲得的模擬信號(hào)來驅(qū)動(dòng)揚(yáng)聲器,從而重播語音。
      而且,這種語音信號(hào)擴(kuò)展器的配置不限于上面所述。
      例如,比特流分解單元B1可以通過通信線從外部獲得語音數(shù)據(jù)。在這種情況下,僅將由(例如)調(diào)制解調(diào)器、DSU等組成的通信控制單元提供給比特流分解單元B1。
      此外,比特流分解單元B1可以包括(例如)記錄介質(zhì)驅(qū)動(dòng)器,且在這種情況下,比特流分解單元B1可通過從在其中存儲(chǔ)有這種壓縮的語音數(shù)據(jù)的記錄介質(zhì)中讀出數(shù)據(jù)來獲得壓縮的語音數(shù)據(jù)。
      此外,語音輸出單元B10可經(jīng)通信線或類似線路將壓縮的語音輸出到外部。在通過通信線將數(shù)據(jù)輸出的情況下,僅將由(例如)調(diào)制解調(diào)器、DSU等組成的通信控制單元提供給語音輸出單元B10。
      此外,語音輸出單元B10可包括記錄介質(zhì)驅(qū)動(dòng)器,在這種情況下,語音輸出單元B10可將要存儲(chǔ)在音位詞典中的數(shù)據(jù)寫入到設(shè)在記錄介質(zhì)驅(qū)動(dòng)器中的記錄介質(zhì)的存儲(chǔ)區(qū)域。
      而且,單個(gè)調(diào)制解調(diào)器、DSU或記錄介質(zhì)驅(qū)動(dòng)器可構(gòu)成比特流分解單元B1和語音輸出單元B10。
      此外,差別數(shù)據(jù)可表征確定要壓縮的語音的每一個(gè)頻率分量的強(qiáng)度和另一個(gè)語音的每一個(gè)頻率分量的強(qiáng)度之間的差別的結(jié)果,所述另一個(gè)語音用作具有相同頻率的每一組分量的參考語音(例如,差別數(shù)據(jù)被生成作為表征以這種方式獲得的每一個(gè)差別,上面介紹的語音信號(hào)壓縮器的差別計(jì)算單元A9確定由非線性量化單元A5產(chǎn)生的、經(jīng)非線性量化的子波段數(shù)據(jù)表征的每一個(gè)頻率分量的強(qiáng)度的瞬時(shí)值和由編碼單元A7為具有相同頻率的每一組分量而識(shí)別的子波段數(shù)據(jù)表征的每一個(gè)頻率分量的強(qiáng)度的瞬時(shí)值之間的差別)。
      在這種情況下,加法單元B5可從算術(shù)編碼解碼單元B2獲得差別數(shù)據(jù),為由從解碼單元B3提供的子波段數(shù)據(jù)表征的每一個(gè)頻率分量進(jìn)行計(jì)算由從算術(shù)編碼解碼單元B2獲得的差分?jǐn)?shù)據(jù)表征的頻率分量的瞬時(shí)值和相同頻率分量的瞬時(shí)值的和,生成表征為所有的頻率分量計(jì)算出的和的數(shù)據(jù),且將該數(shù)據(jù)提供給非線性反向量化單元B6。
      此外,表明波形與連續(xù)波形的上一個(gè)波形相同的預(yù)確定數(shù)據(jù)可包括在壓縮的語音數(shù)據(jù)中,代替識(shí)別碼。
      在這種情況下,算術(shù)編碼解碼單元B2可確定預(yù)確定數(shù)據(jù)是否被包括,并且,如果確定包括預(yù)確定的數(shù)據(jù),通知(例如)語音輸出單元B10波形與連續(xù)的波形的上一個(gè)波形相同。另一方面,例如,語音輸出單元B10可包括存儲(chǔ)單元,用于存儲(chǔ)在過去從語音波形恢復(fù)單元B9提供的語音數(shù)據(jù)的最新的語音數(shù)據(jù)。在這種情況下,當(dāng)算術(shù)編碼解碼單元2通知語音輸出單元B10波形與在連續(xù)波形的上一個(gè)波形相同時(shí),語音輸出單元B10重播由存儲(chǔ)在語音輸出單元B10中的語音數(shù)據(jù)表征的語音。
      已經(jīng)介紹了本發(fā)明的實(shí)施例,但是可以使用通常的計(jì)算機(jī)系統(tǒng)而不是專用系統(tǒng)來實(shí)現(xiàn)根據(jù)本發(fā)明的語音信號(hào)壓縮裝置和語音信號(hào)擴(kuò)展裝置。
      例如,從存儲(chǔ)程序的介質(zhì)(CD-ROM、MO、軟盤等)將用于執(zhí)行上面介紹的語音輸入單元A1、基音周期波形抽取單元A2、子波段劃分單元A3、幅度調(diào)整單元A4、非線性量化單元A5、線性預(yù)測(cè)分析單元A6、編碼單元A7、解碼單元A8、差別計(jì)算單元A9、量化單元A10、算術(shù)編碼單元A11和比特流形成單元A12的操作的程序安裝在個(gè)人計(jì)算機(jī)中,從而可以制造執(zhí)行上面介紹的過程的語音信號(hào)壓縮器。
      此外,從存儲(chǔ)程序的介質(zhì)將用于執(zhí)行上面介紹的比特流分解單元B1、算術(shù)編碼解碼單元B2、解碼單元B3、差別恢復(fù)單元B4、加法單元B5、非線性反量化單元B6、幅度恢復(fù)單元B7、子波段合成單元B8、語音波形恢復(fù)單元B9以及語音輸出單元B10的操作的程序安裝在個(gè)人計(jì)算機(jī)中,從而可以制造執(zhí)行上面介紹的過程的語音信號(hào)擴(kuò)展器。
      此外,例如,該程序可以公布在具有通信線的電子公告系統(tǒng)(BBS)上,并且經(jīng)過通信線進(jìn)行發(fā)布,或者該程序可以由表征該程序的信號(hào)調(diào)制的載波的方式被恢復(fù),獲得的已調(diào)制波形被發(fā)射,且接收已調(diào)制波形的裝置解調(diào)該已調(diào)制的波形。
      然后,啟動(dòng)該程序,并且在OS的控制下,象其它的應(yīng)用程序一樣被執(zhí)行,從而可以執(zhí)行上面介紹的過程。
      而且,如果OS執(zhí)行過程的段、或者OS組成本發(fā)明的一個(gè)單元,從該段中去除的程序可以被存儲(chǔ)在記錄介質(zhì)中。同樣,在這種情況下,在本發(fā)明中,執(zhí)行由計(jì)算機(jī)運(yùn)行的每一個(gè)功能或步驟的程序被存儲(chǔ)在記錄介質(zhì)中。
      第三發(fā)明利用語音詞典生成系統(tǒng)和語音合成系統(tǒng)作為例子來介紹第三發(fā)明的實(shí)施例。
      語音詞典生成系統(tǒng)圖6示出根據(jù)本發(fā)明實(shí)施例的語音詞典生成系統(tǒng)的結(jié)構(gòu)。如該圖所示,此語音詞典生成系統(tǒng)由語音數(shù)據(jù)輸入單元A1、語聲數(shù)據(jù)輸入單元A2、符號(hào)串生成單元A3、基音周期抽取單元A4、基音周期長(zhǎng)度固定單元A5、子波段數(shù)據(jù)劃分單元A6、非線性量化單元A7和數(shù)據(jù)輸出單元A8。
      語音數(shù)據(jù)輸入單元A1和語聲數(shù)據(jù)輸入單元A2中的每一個(gè)都由(例如)用于讀出記錄在記錄介質(zhì)(例如,軟盤和MO(磁光盤)等)的記錄介質(zhì)驅(qū)動(dòng)器(軟盤驅(qū)動(dòng)、MO驅(qū)動(dòng)等等)和類似裝置組成。而且,可以用單個(gè)記錄介質(zhì)驅(qū)動(dòng)器來執(zhí)行語音數(shù)據(jù)輸入單元A1和語聲數(shù)據(jù)輸入單元A2的功能。
      語音數(shù)據(jù)輸入單元A1獲得表征語音波形的語音數(shù)據(jù),且將語音數(shù)據(jù)提供給基音周期抽取單元A4和基音周期長(zhǎng)度固定單元A5。
      而且,語音數(shù)據(jù)具有PCM(脈沖寬度調(diào)制)的已調(diào)制數(shù)字信號(hào)的格式,并且代表被以比語音的基音周期短得多得固定周期來采樣的語音。
      語聲數(shù)據(jù)輸入單元A2輸入語聲數(shù)據(jù),在語聲數(shù)據(jù)中,以文本格式或其它各式示出表明語音的發(fā)音的一串音標(biāo)符號(hào)(phoneticsymbol),并且將語聲數(shù)據(jù)提供給符號(hào)串生成單元A3。
      符號(hào)串生成單元A3由諸如CPU(中央處理單元)的處理器等組成。
      符號(hào)串生成單元A3分析從語聲數(shù)據(jù)輸入單元A2提供的語聲數(shù)據(jù),并且生成發(fā)音符號(hào)串,該發(fā)音符號(hào)串將由語聲數(shù)據(jù)表征的語音作為示出構(gòu)成語音的單位語音的發(fā)音的一串發(fā)音符號(hào)。此外,符號(hào)串生成單元A3分析該語聲數(shù)據(jù),生成韻律符號(hào)串,該韻律符號(hào)串將由語聲數(shù)據(jù)表征的語音作為示出單位語音的韻律的一串韻律符號(hào)。然后,符號(hào)串生成單元A3將生成的發(fā)音符號(hào)串和韻律符號(hào)串提供給數(shù)據(jù)輸出單元A8。
      而且,單位語音是作為構(gòu)成詞發(fā)音的單元的語音,例如,由一個(gè)輔音和一個(gè)元音組成的CV(輔音-元音)單元作為單位語音。
      基音周期抽取單元A4、基音周期長(zhǎng)度固定單元A5、子波段數(shù)據(jù)劃分單元A6、非線性量化單元A7中的每一個(gè)都由諸如DSP(數(shù)字信號(hào)處理器)的數(shù)據(jù)處理器以及CPU組成。
      而且,可以由單一數(shù)據(jù)處理器來執(zhí)行基音周期抽取單元A4、基音周期長(zhǎng)度固定單元A5、子波段數(shù)據(jù)劃分單元A6、非線性量化單元A7的段或所有功能。
      基音周期抽取單元A4由在圖1中示出的、象在第一和第二發(fā)明情況下的部件(1-7)組成。基音周期抽取單元A4分析從語音數(shù)據(jù)輸入單元A1提供的語音數(shù)據(jù),識(shí)別等價(jià)于由語音數(shù)據(jù)表征的語音的單位基音周期周期(例如,一個(gè)基音周期)的段。然后,示出每一個(gè)識(shí)別的段的頭部和尾部的時(shí)間的定時(shí)數(shù)據(jù)被提供給基音周期長(zhǎng)度固定單元A5。
      然后,基音周期長(zhǎng)度固定單元A5確定在以各種方式改變的相位中的段內(nèi)的語音數(shù)據(jù)以及在用于每一個(gè)劃分段的段中的基音周期信號(hào)之間的相關(guān)性,并且識(shí)別提供了最大相關(guān)性的語音數(shù)據(jù)相位作為在這個(gè)段中的語音數(shù)據(jù)相位。然后,移動(dòng)了在每一個(gè)段中的語音數(shù)據(jù)相位,使得相位等于識(shí)別的相位。
      而且,所述段的臨時(shí)長(zhǎng)度等于大約一個(gè)基音周期將是理想的。隨著所述段的長(zhǎng)度的增加,在所述段中的采樣值數(shù)目增加,因此基音周期波形數(shù)據(jù)(下面將介紹)的數(shù)據(jù)量增加,或者在其上進(jìn)行采樣的時(shí)間間隔的數(shù)量增加,使得由基音周期波形表征的語音變得不準(zhǔn)確。
      然后,通過對(duì)每一個(gè)相移段進(jìn)行重采樣,基音周期長(zhǎng)度固定單元A5使每一個(gè)段的時(shí)間長(zhǎng)度實(shí)質(zhì)上相互相同。然后,將具有時(shí)間長(zhǎng)度歸一化的語音數(shù)據(jù)(基音周期波形數(shù)據(jù))提供給子波段劃分單元A6。
      此外,基音周期長(zhǎng)度固定單元A5產(chǎn)生基音周期信息,該信息示出在該語音的每一個(gè)段中的原始采樣值數(shù)目(當(dāng)語音數(shù)據(jù)被從語音數(shù)據(jù)輸入單元A1提供給基音周期長(zhǎng)度固定單元A5時(shí),該語音數(shù)據(jù)的每一個(gè)段中的采樣值數(shù)目),并且將基音周期信息提供給數(shù)據(jù)輸出單元A8。假設(shè)對(duì)由語音數(shù)據(jù)輸入單元A1獲得的語音數(shù)據(jù)進(jìn)行采樣的時(shí)間間隔是已知的,基音周期信息起到一種作用,作為一種信息,示出等于該語音數(shù)據(jù)的單位基音周期周期的所述段的原始時(shí)間長(zhǎng)度。
      子波段劃分單元A6對(duì)從基音周期長(zhǎng)度固定單元A5提供的基音周期波形數(shù)據(jù)進(jìn)行諸如DCT(離散余弦變換)的正交變換,從而生成頻譜信息。然后,將生成的頻譜信息提供給非線性量化單元A7。
      頻譜信息是這樣的數(shù)據(jù),其包括示出由基音周期波形信號(hào)表征的語音的基頻分量的強(qiáng)度隨時(shí)間變化的數(shù)據(jù)以及示出該語音的n個(gè)基頻分量的強(qiáng)度隨時(shí)間變化的n個(gè)數(shù)據(jù)(n是自然數(shù))。因此,當(dāng)語音的基頻分量(或者諧波分量)的強(qiáng)度沒有隨時(shí)間變化時(shí),頻譜信息以直流信號(hào)的形式表征基頻分量(諧波分量)的強(qiáng)度。
      當(dāng)從子波段單元A6將頻譜信息提供給非線性量化單元A7時(shí),非線性量化單元A7產(chǎn)生等于通過量化一個(gè)值獲得的值的頻譜信息,量化一個(gè)值是通過對(duì)由頻譜信息表征的每一個(gè)頻率分量的瞬時(shí)值進(jìn)行非線性壓縮來獲得的(特別地,例如通過將瞬時(shí)值代入向上的凸函數(shù)來獲得的值),并且將產(chǎn)生的頻譜信息(經(jīng)非線性量化后的頻譜信息)提供給數(shù)據(jù)輸出單元A8。
      特別地,例如,非線性量化單元A7可以通過改變經(jīng)非線性壓縮后的每一個(gè)頻率分量的瞬時(shí)值為實(shí)質(zhì)上等于通過量化在公式1的右端示出的函數(shù)Xri(xi)獲得的值來執(zhí)行非線性壓縮。
      Xri(xi)=sgn(xi)·|xi|4/3·2{global gain(xi)}/4式中,sgn(a)=(a/|a|),xi是由頻譜信息表征的頻率分量的瞬時(shí)值,且global_gain(xi)是用于設(shè)置所有比例的xi的函數(shù)。
      此外,非線性量化單元A7產(chǎn)生示出被加到頻譜信息上的非線性量化的特征類型的數(shù)據(jù),這樣的數(shù)據(jù)作為用于恢復(fù)對(duì)原始值的非線性量化值的數(shù)據(jù)(壓縮的信息),并且將該壓縮的信息提供給數(shù)據(jù)輸出單元A8。
      數(shù)據(jù)輸出單元A8由控制電路組成,其控制對(duì)存儲(chǔ)有語音詞典的外部存儲(chǔ)裝置(例如,硬盤裝置)D,諸如硬盤控制器等的訪問,并且它連接到存儲(chǔ)設(shè)備D。
      當(dāng)從符號(hào)串生成單元A3將發(fā)音符號(hào)串和韻律符號(hào)串提供給數(shù)據(jù)輸出單元A8,從基音周期長(zhǎng)度固定單元A5將基音周期信息提供給數(shù)據(jù)輸出單元A8,并且從非線性量化單元A7將已壓縮的信息和非線性壓縮后的頻譜信息提供給數(shù)據(jù)輸出單元A8時(shí),數(shù)據(jù)輸出單元A8以一種方式將提供的發(fā)音符號(hào)串和韻律符號(hào)串、基音周期信息、壓縮的信息和經(jīng)非線性壓縮的頻譜信息存儲(chǔ)在存儲(chǔ)裝置D的存儲(chǔ)區(qū)中,在這種方式中,表征相同長(zhǎng)度語音的上述串和信息具有相互的對(duì)應(yīng)關(guān)系。
      具有相互對(duì)應(yīng)關(guān)系并且被存儲(chǔ)在存儲(chǔ)裝置D中的發(fā)音符號(hào)串、韻律符號(hào)串、基音周期信息、壓縮的信息以及經(jīng)非線性壓縮的頻譜信息組成了語音詞典。
      語音合成系統(tǒng)現(xiàn)在介紹根據(jù)本發(fā)明的語音合成系統(tǒng)。
      圖7示出這種語音合成系統(tǒng)的配置。如圖所示,語音合成系統(tǒng)由文本輸入單元B1、語素分析單元B2、發(fā)音符號(hào)生成單元B3、韻律符號(hào)生成單元B4、頻譜參數(shù)生成單元B5、音源生成單元B6、詞典單元選擇單元B7、子波段合成單元B8、基音周期長(zhǎng)度調(diào)整單元B9和語音輸出單元B10組成。
      本文輸入單元B1由(例如)記錄介質(zhì)驅(qū)動(dòng)器組成。
      文本輸入單元B1從外部獲得描述為文本合成語音的文本數(shù)據(jù),并且將給文本數(shù)據(jù)提供給語素分析單元B2。
      語素分析單元B2、發(fā)音符號(hào)生成單元B3、韻律符號(hào)生成單元B4、頻譜參數(shù)生成單元B5、和音源生成單元B6中的每一個(gè)都由諸如CPU的數(shù)據(jù)處理器組成。
      而且,語素分析單元B2、發(fā)音符號(hào)生成單元B3、韻律符號(hào)生成單元B4、頻譜參數(shù)生成單元B5、音源生成單元B6的段或所有功能可以由單個(gè)數(shù)據(jù)處理器執(zhí)行。
      語素分析單元B2對(duì)由從文本輸入單元B1提供的文本數(shù)據(jù)表征的文本進(jìn)行語素分析,并將該文本分解成語素串。然后,將表征獲得的語素串的數(shù)據(jù)提供給發(fā)音符號(hào)生成單元B3和韻律符號(hào)生成單元B4。
      發(fā)音符號(hào)生成單元B3根據(jù)由從語素分析單元B2提供的數(shù)據(jù)表征的語素串、按照發(fā)音的順序來生成表征發(fā)音符號(hào)(例如,諸如假名字符)的串的數(shù)據(jù),發(fā)音符號(hào)表征構(gòu)成要被合成的語音的單位語音,并且將該數(shù)據(jù)提供給頻譜參數(shù)生成單元B5。
      韻律符號(hào)生成單元B4根據(jù)(例如)fujisaki模型來對(duì)由從語素分析單元B2提供的數(shù)據(jù)表征的語素串進(jìn)行分析,從而識(shí)別這一語素串的韻律,且生成表征韻律符號(hào)串的數(shù)據(jù),韻律符號(hào)串表征識(shí)別的韻律,且將該數(shù)據(jù)提供給音源參數(shù)生成單元B6。
      頻譜參數(shù)生成單元B5識(shí)別由發(fā)音符號(hào)表征的單位語音的頻譜,該發(fā)音符號(hào)由從發(fā)音符號(hào)生成單元B3提供的數(shù)據(jù)表征,且將代表已識(shí)別的頻譜和已提供的發(fā)音符號(hào)的頻譜信息提供給詞典單元選擇單元B7。
      特別地,例如,頻譜參數(shù)生成單元B5預(yù)先存儲(chǔ)頻譜表和頻譜信息,頻譜表存儲(chǔ)用于參考的發(fā)音法號(hào),頻譜信息用碼元和具有相互的對(duì)應(yīng)關(guān)系的信息來表征由用于參考的發(fā)音符號(hào)表征的語音頻譜。然后,從頻譜查找到具有相互對(duì)應(yīng)關(guān)系的頻譜信息(也就是,識(shí)別由發(fā)音符號(hào)表征的單位語音的頻譜,發(fā)音符號(hào)由從發(fā)音符號(hào)生成單元B3提供的數(shù)據(jù)表征),作為由從發(fā)音符號(hào)生成單元B3提供的數(shù)據(jù)表征的發(fā)音符號(hào)的關(guān)鍵,并且將從獲得的頻譜信息提供給詞典單元選擇單元B7。
      然而,在這種情況下,除了數(shù)據(jù)處理器之外,頻譜參數(shù)生成單元B5還包括諸如硬盤裝置和ROM(只讀存儲(chǔ)器)的存儲(chǔ)裝置。
      音源參數(shù)生成單元B6識(shí)別一個(gè)參數(shù)(例如,單位語音的基音周期,功率和持續(xù)時(shí)間),該參數(shù)表征由從韻律符號(hào)生成單元B4提供的數(shù)據(jù)表征的韻律符號(hào)表征的韻律,且將表征已識(shí)別的參數(shù)的數(shù)據(jù)韻律信息提供給詞典單元選擇單元B7和基音周期長(zhǎng)度調(diào)整單元10。
      特別地,例如,音源參數(shù)生成單元B6預(yù)先存儲(chǔ)韻律表和韻律信息,韻律表存儲(chǔ)用于參考的韻律法號(hào),韻律信息用碼元和具有相互的對(duì)應(yīng)關(guān)系的信息來表征由用于參考的韻律符號(hào)表征的韻律的參數(shù)。然后,從韻律表獲得具有相互對(duì)應(yīng)關(guān)系的韻律信息(也就是,識(shí)別表征由韻律符號(hào)表征的韻律的參數(shù),韻律符號(hào)由從韻律符號(hào)生成單元B4提供的數(shù)據(jù)表征),作為由從韻律符號(hào)生成單元B3提供的數(shù)據(jù)表征的韻律符號(hào)的關(guān)鍵,并且將從獲得的韻律信息提供給詞典單元選擇單元B7。
      然而,在這種情況下,除了數(shù)據(jù)處理器之外,音源參數(shù)生成單元B6還包括諸如硬盤裝置和ROM的存儲(chǔ)裝置。而且,單個(gè)存儲(chǔ)裝置可以執(zhí)行頻譜參數(shù)生成單元B5的存儲(chǔ)裝置以及音源參數(shù)生成單元B6的存儲(chǔ)裝置的功能。
      詞典單元選擇單元B7、子波段合成單元B8、基音周期長(zhǎng)度調(diào)整單元B9中的每一個(gè)都由諸如DSP和CPU的數(shù)據(jù)處理器組成。
      而且,可以由單個(gè)數(shù)據(jù)處理器來執(zhí)行詞典單元選擇單元B7、子波段合成單元B8、基音周期長(zhǎng)度調(diào)整單元B9的段或所有功能。同樣,數(shù)據(jù)處理器執(zhí)行發(fā)音符號(hào)生成單元B3、韻律符號(hào)生成單元B4、頻譜參數(shù)生成單元B5、音源生成單元B6、詞典單元選擇單元B7、子波段合成單元B8、基音周期長(zhǎng)度調(diào)整單元B9的段或所有功能。
      詞典單元選擇單元B7連接到外部存儲(chǔ)裝置D,其存儲(chǔ)由上面介紹的圖6的語音詞典生成系統(tǒng)生成的語音詞典(或者,具有實(shí)質(zhì)上與語音詞典的相同的數(shù)據(jù)結(jié)構(gòu)的一組數(shù)據(jù))。這里,存儲(chǔ)裝置D存儲(chǔ)由上面介紹的圖6的語音詞典生成系統(tǒng)生成的語音詞典(或者,具有實(shí)質(zhì)上與語音詞典的相同的數(shù)據(jù)結(jié)構(gòu)的一組數(shù)據(jù))。即,存儲(chǔ)裝置D用符號(hào)和具有相互對(duì)應(yīng)關(guān)系的信息來存儲(chǔ)表征單元音的一串發(fā)音符號(hào)、一串韻律符號(hào)、基音周期信息、壓縮的信息以及表征單位語音的經(jīng)非線性壓縮后的頻譜信息。
      當(dāng)從頻譜參數(shù)生成單元B5將發(fā)音符號(hào)和頻譜信息提供給詞典單元選擇單元B7,且從音源參數(shù)生成單元B6給其提供韻律信息時(shí),詞典單元選擇單元B7從語音詞典中識(shí)別出一組發(fā)音符號(hào)串、韻律符號(hào)串、基音周期信息、壓縮的信息和經(jīng)非線性壓縮后的頻譜信息,所述經(jīng)非線性壓縮后的頻譜信息表征可以最接近于由這些提供的數(shù)據(jù)表征的語音的單位語音。
      特別地,例如,詞典單元選擇單元B7(a)為具有存儲(chǔ)在語音詞典中的相同單位語音的頻譜信息和基音周期信息而確定在該頻譜信息的值和從頻譜參數(shù)生成單元B5提供的頻譜信息之間的相關(guān)系數(shù),且確定該基音周期信息的值以及由從音源參數(shù)生成單元B6提供的韻律信息示出的基音周期的值之間的相關(guān)系數(shù),且計(jì)算已確定的相關(guān)系數(shù)的平均值;和(b)對(duì)所有的其參數(shù)存儲(chǔ)在語音詞典中的單位語音執(zhí)行上述的處理(a),然后識(shí)別對(duì)于在處理(a)中計(jì)算的平均值是最大的單位語音的單位語音,作為一個(gè)單位語音,其最接近由從頻譜參數(shù)生成單元B5和音源參數(shù)生成單元B6提供的參數(shù)表征的單位語音。
      詞典單元選擇單元B7將表征識(shí)別的單位語音的頻譜信息和壓縮的信息提供給子波段合成單元B8。
      子波段合成單元B8將由從詞典單元選擇單元B7提供的頻譜信息表征的每一個(gè)頻率分量的強(qiáng)度恢復(fù)到用由從詞典單元選擇單元B7提供的壓縮信息表征的特征來進(jìn)行非線性量化之前的強(qiáng)度值。然后,對(duì)具有恢復(fù)的強(qiáng)度值的頻譜信息進(jìn)行變換,從而恢復(fù)基音周期波形數(shù)據(jù),其中由該頻譜信息表征經(jīng)非線性量化的每一個(gè)頻率分量的強(qiáng)度。然后,將恢復(fù)的基音周期波形數(shù)據(jù)提供給基音周期長(zhǎng)度調(diào)整單元B9,而且,該基音周期波形數(shù)據(jù)具有(例如)PCM調(diào)制的數(shù)字信號(hào)形式。
      子波段合成單元B8對(duì)頻譜信息進(jìn)行的變換實(shí)質(zhì)上與為生成該頻譜信息而對(duì)音素波形進(jìn)行的變換是相反關(guān)系。具體地說,例如,如果該頻譜信息是通過對(duì)音素進(jìn)行DCT而產(chǎn)生的信息,子波段合成單元B8可以對(duì)該頻譜信息進(jìn)行IDCT(反DCT)。
      基音周期長(zhǎng)度調(diào)整單元B9改變從子波段合成單元B8提供的基音周期波形數(shù)據(jù)的每一個(gè)段的時(shí)間長(zhǎng)度,使其等于由從音源參數(shù)生成單元B6提供的韻律信息表征的時(shí)間長(zhǎng)度。例如,可以通過改變?cè)诟鞫蔚牟蓸又抵g的距離來執(zhí)行對(duì)每一段的時(shí)間長(zhǎng)度的改變。
      然后,基音周期長(zhǎng)度調(diào)整單元B9將具有每一段的時(shí)間長(zhǎng)度改變的基音周期波形數(shù)據(jù)(即,表征合成的語音的語音數(shù)據(jù))提供給語音輸出單元B10。
      語音輸出單元B10包括(例如)執(zhí)行PCM解碼的功能的控制電路、D/A(數(shù)字-模擬)轉(zhuǎn)換器、AF(音頻)放大器、揚(yáng)聲器等。
      當(dāng)從基音周期長(zhǎng)度調(diào)整單元B9將表征合成的語音的語音數(shù)據(jù)提供給語音輸出單元B10時(shí),語音輸出單元B10對(duì)該語音數(shù)據(jù)進(jìn)行解調(diào)、進(jìn)行D/A轉(zhuǎn)換和放大,并且使用獲得的模擬信號(hào)來驅(qū)動(dòng)揚(yáng)聲器,從而播放合成的語音。
      存儲(chǔ)在由上面介紹的語音生成系統(tǒng)生成的語音詞典中的頻譜信息是根據(jù)語音數(shù)據(jù)來生成的,在該語音數(shù)據(jù)中,等于單位基音周期周期的各段的時(shí)間長(zhǎng)度被歸一化,且消除基音周期波動(dòng)的影響。因此,該頻譜信息精確地示出語音的每一個(gè)頻率分量(基頻分量和諧波分量)的強(qiáng)度隨時(shí)間變化。此外,表征具有波動(dòng)的單位語音的每一個(gè)段的原始時(shí)間長(zhǎng)度被存儲(chǔ)在該語音詞典中。
      因此,由上面介紹的語音合成系統(tǒng)利用該語音詞典來合成的語音接近于由人們發(fā)出的語音。
      而且,語音詞典生成系統(tǒng)和語音合成系統(tǒng)的配置不限于上面介紹的配置。
      例如,語音數(shù)據(jù)輸入單元A1可以經(jīng)諸如電話線、專用線和衛(wèi)星線路的通信線從外部獲得語音數(shù)據(jù)。在這種情況下,僅給語音輸入單元A1提供由(例如)調(diào)制解調(diào)器、DSU(數(shù)據(jù)服務(wù)單元)等構(gòu)成的通信控制單元。
      此外,語音數(shù)據(jù)輸入單元A1可以包括聲音收集裝置,其由話筒,AF放大器,采樣器,A/D(模擬-數(shù)字)轉(zhuǎn)換器,PCM編碼器等組成。聲音收集裝置可以對(duì)表征由它的話筒收集的聲音的語音信號(hào)進(jìn)行放大、采樣和A/D轉(zhuǎn)換,之后,對(duì)采樣的語音信號(hào)進(jìn)行PCM調(diào)制,從而獲得語音數(shù)據(jù)。而且,由語音輸入單元A1獲得的語音數(shù)據(jù)不必是PCM信號(hào)。
      此外,基音周期抽取單元A4不需要包括倒譜分析單元A41(或自相關(guān)分析單元A42),且在這種情況下,權(quán)重計(jì)算單元A43可以直接地處理由倒譜分析單元A41(或自相關(guān)分析單元A42)確定的基頻的倒數(shù),作為平均基音周期長(zhǎng)度。
      此外,過零分析單元A46可以將從帶通濾波器A45提供的基音周期信號(hào)直接地提供給BPF系數(shù)計(jì)算單元A44,作為過零信號(hào)。
      此外,數(shù)據(jù)輸出單元A8可以經(jīng)通信線等將要存儲(chǔ)在語音詞典中的數(shù)據(jù)輸出到外部。在經(jīng)通信線輸出數(shù)據(jù)的情況下,僅給數(shù)據(jù)輸出單元A8提供通信控制單元,該通信控制單元由(例如)調(diào)制解調(diào)器、DSU等組成。
      此外,數(shù)據(jù)輸出單元A8可以包括記錄介質(zhì)驅(qū)動(dòng)器,在此情況下,數(shù)據(jù)輸出單元A8可將存儲(chǔ)在語音詞典中的數(shù)據(jù)寫入到在記錄介質(zhì)驅(qū)動(dòng)器中設(shè)置的記錄介質(zhì)集的存儲(chǔ)區(qū)域中。
      而且,單個(gè)調(diào)制解調(diào)器、DSU或記錄介質(zhì)驅(qū)動(dòng)器可構(gòu)成語音數(shù)據(jù)輸入單元A1和數(shù)據(jù)輸出單元A8。
      此外,文本輸入單元B1可經(jīng)通信線等從外部獲得文本數(shù)據(jù)。在這種情況下,僅給文本輸入單元B1提供由調(diào)制解調(diào)器、DSU等組成的通信控制單元。
      此外,詞典單元選擇單元B7可識(shí)別單位語音,單位語音可以最接近由供給其本身的數(shù)據(jù)表征的語音,這樣,附加比其它信息更重要的信息。
      具體地說,例如,詞典單元選擇單元B7可將在存儲(chǔ)在語音詞典中的頻譜信息的值和從頻譜參數(shù)生成單元B5的頻譜信息的值之間的相關(guān)的系數(shù)α乘以大于1的權(quán)重因子β,且當(dāng)計(jì)算相關(guān)系數(shù)的平均值時(shí),使用獲得的值(α·β)代替值α,用于附加比在上面介紹的處理(a)中的基音周期信息更重要的頻譜信息。
      上面已經(jīng)介紹了本發(fā)明的實(shí)施例,但是可以使用常規(guī)的計(jì)算機(jī)系統(tǒng)而不是專用系統(tǒng)來實(shí)現(xiàn)本發(fā)明的語音合成裝置和語音詞典生成裝置。
      例如,從存儲(chǔ)程序的介質(zhì)(CD-ROM、MO、軟盤等)將執(zhí)行上面介紹的數(shù)據(jù)輸入單元A1、語聲數(shù)據(jù)輸入單元A2、符號(hào)串生成單元A3、基音周期抽取單元A4、基音周期長(zhǎng)度固定單元A5、子波段數(shù)據(jù)劃分單元A6、非線性量化單元A7和數(shù)據(jù)輸出單元A8的運(yùn)行的程序安裝在個(gè)人計(jì)算機(jī)中,從而可以構(gòu)造執(zhí)行上面介紹的處理的語音詞典生成系統(tǒng)。
      此外,從存儲(chǔ)程序的介質(zhì)中將執(zhí)行上面介紹的文本輸入單元B1、語素分析單元B2、發(fā)音符號(hào)生成單元B3、韻律符號(hào)生成單元B4、頻譜參數(shù)生成單元B5、音源生成單元B6、詞典單元選擇單元B7、子波段合成單元B8、基音周期長(zhǎng)度調(diào)整單元B9和語音輸出單元B10的運(yùn)行的程序存儲(chǔ)在個(gè)人計(jì)算機(jī)中,從而可以構(gòu)造執(zhí)行上面介紹的處理的語音合成系統(tǒng)。
      此外,例如,這些程序可以公布在具有通信線的電子公告系統(tǒng)(BBS)上,并且經(jīng)過通信線進(jìn)行發(fā)布,或者這些程序可以由表征該程序的信號(hào)來調(diào)制的載波的方式被恢復(fù),獲得的已調(diào)制波形被發(fā)射,且接收已調(diào)制波形的裝置解調(diào)已調(diào)制的波形。
      然后,啟動(dòng)該程序,且在OS的控制下按照其它應(yīng)用程序相同的方式來執(zhí)行它,從而可以執(zhí)行上面介紹的處理。
      而且,如果OS執(zhí)行段處理,或者OS構(gòu)成本發(fā)明的段部件,從中去除這樣的段的程序被存儲(chǔ)在記錄介質(zhì)中。同樣,在這種情況下,在本發(fā)明中,用于執(zhí)行由計(jì)算機(jī)執(zhí)行德每一個(gè)功能或步驟的程序被存儲(chǔ)在記錄介質(zhì)中。
      工業(yè)應(yīng)用性如上所述,根據(jù)本發(fā)明,實(shí)現(xiàn)基音周期波形信號(hào)生成裝置和基音周期波形信號(hào)生成方法,有效地作為對(duì)帶有波動(dòng)的基音周期的語音信號(hào)進(jìn)行有效地編碼的初步處理。同樣,根據(jù)第二發(fā)明,實(shí)現(xiàn)有效地壓縮表征語音的數(shù)據(jù)或者壓縮表征具有在高音質(zhì)中的波動(dòng)的語音的數(shù)據(jù)的語音信號(hào)壓縮裝置、語音擴(kuò)展裝置、語音信號(hào)壓縮方法和語音信號(hào)擴(kuò)展方法。
      此外,根據(jù)本發(fā)明,實(shí)現(xiàn)了合成自然語音的語音合成裝置,語音詞典生成裝置,語音合成方法和語音詞典生成方法。
      權(quán)利要求
      1.一種語音合成裝置,該裝置包括存儲(chǔ)裝置,用于存儲(chǔ)表征單位語音的采樣值的韻律的韻律信息,且存儲(chǔ)示出基音周期波形信號(hào)的基頻分量和諧波分量隨時(shí)間變化的頻譜信息,所述基音周期波形信號(hào)是通過使多個(gè)段的時(shí)間長(zhǎng)度基本相同來生成的,該多個(gè)段中的每一個(gè)等于表征具有與采樣值的對(duì)應(yīng)關(guān)系的信息的采樣值的波形的語音信號(hào)的單位基音周期周期;預(yù)測(cè)裝置,其輸入表征文本的文本信息,和根據(jù)文本信息來生成表征預(yù)測(cè)構(gòu)成所述文本的單位語音的基音周期和頻譜的預(yù)測(cè)信息;查找裝置,用于根據(jù)所述基音周期信息、頻譜信息和預(yù)測(cè)信息來識(shí)別具有基音周期的采樣值和具有與構(gòu)成所述文本的單位語音的基音周期和頻譜最大相關(guān)性;和信號(hào)合成裝置,用于生成表征語音的合成信號(hào),其中,所述語音具有由與所述查找裝置識(shí)別的采樣值對(duì)應(yīng)關(guān)系的韻律信息表征的韻律,基頻分量和諧波分量隨時(shí)間變化是由具有與所述查找裝置識(shí)別的采樣值對(duì)應(yīng)關(guān)系的頻譜信息表征的,且等于單位基音周期周期的段的時(shí)間長(zhǎng)度是由具有與由所述查找裝置識(shí)別的采樣值對(duì)應(yīng)關(guān)系的基音周期信息表征的時(shí)間長(zhǎng)度。
      2.根據(jù)權(quán)利要求1的語音合成裝置,其中,所述頻譜信息由表征對(duì)所述音量進(jìn)行非線性量化的結(jié)果的數(shù)據(jù)構(gòu)成,所述音量表征所述基音周期波形信號(hào)的基頻分量和諧波分量隨時(shí)間的變化。
      3.一種語音詞典生成裝置,該裝置包括基音周期波形信號(hào)生成裝置,用于獲得表征單位語音的波形的語音信號(hào),且使各段的時(shí)間長(zhǎng)度基本相同,每一個(gè)段等于語音的單位基音周期周期,從而將語音信號(hào)處理成基音周期波形信號(hào);基音周期信息生成裝置,用于生成和輸出表征所述段的原始時(shí)間長(zhǎng)度的基音周期信息;頻譜信息抽取裝置,用于根據(jù)所述基音周期波形信號(hào)來生成和輸出示出所述語音信號(hào)的基頻分量和諧波分量隨時(shí)間變化的頻譜信息;和韻律信息生成裝置,用于獲得表征代表單位語音的發(fā)音的語譜圖的語聲數(shù)據(jù),確定由所述語聲數(shù)據(jù)表征的發(fā)音的韻律,且生成和輸出表征已確定的韻律的韻律信息。
      4.根據(jù)權(quán)利要求3的語音詞典生成裝置,其中,所述頻譜信息抽取裝置包括可變?yōu)V波器,具有根據(jù)控制而變化的頻率特征,以對(duì)所述語音信號(hào)進(jìn)行濾波,從而抽取出所述語音的基頻分量;濾波器特征確定裝置,用于根據(jù)由所述可變?yōu)V波器抽取的基頻分量來識(shí)別單位語音的基頻,且控制所述可變?yōu)V波器以獲得頻率特征其中,截止除了在已識(shí)別的基頻附近的分量之外的分量;基音周期抽取裝置,用于根據(jù)所述語音信號(hào)的基頻分量的值來將所述語音分解成多個(gè)段,每一個(gè)段由等于單位基音周期周期的語音信號(hào)來構(gòu)成;和基音周期長(zhǎng)度固定單元,通過對(duì)每一個(gè)段中的所述語音采樣實(shí)質(zhì)上相同的采樣值數(shù)目,生成基音周期波形信號(hào),該基音周期波形信號(hào)在每一個(gè)段中時(shí)間長(zhǎng)度基本相同。
      5.根據(jù)權(quán)利要求4的語音詞典生成裝置,其中,所述濾波器特征確定裝置包括交叉檢測(cè)裝置,用于識(shí)別一個(gè)周期,在該周期中由所述可變?yōu)V波器抽取的基頻分量達(dá)到預(yù)定值,且根據(jù)所述已識(shí)別的周期來識(shí)別所述基頻。
      6.根據(jù)權(quán)利要求5的語音詞典生成裝置,其中,所述濾波器特征確定裝置包括平均基音周期檢測(cè)裝置,用于在被濾波之前,根據(jù)所述語音信號(hào)來檢測(cè)由所述語音信號(hào)表征的語音的基音周期的時(shí)間長(zhǎng)度;和確定裝置,用于確定在由交叉檢測(cè)裝置識(shí)別的周期和由所述平均基音周期檢測(cè)裝置識(shí)別的基音周期的時(shí)間長(zhǎng)度之間是否存在預(yù)定量或較大量的差別,且如果確定沒有這樣的差別,控制所述可變?yōu)V波器以獲得頻率特征其中截止除了在由所述交叉檢測(cè)裝置識(shí)別的基頻附近的那些分量之外的分量,并且如果確定有這樣的差別,控制所述可變?yōu)V波器以獲得頻率特征其中,截止除了在從由所述平均檢測(cè)裝置識(shí)別的基音周期的時(shí)間長(zhǎng)度中識(shí)別出來的基頻附近的那些分量之外的分量。
      7.根據(jù)權(quán)利要求6的語音詞典生成裝置,其中,所述平均基音周期檢測(cè)裝置包括倒譜分析裝置,用于確定一個(gè)頻率,在該頻率上,在被所述可變?yōu)V波器濾波之前,語音信號(hào)的倒譜具有最大值;自相關(guān)分析裝置,用于確定一個(gè)頻率,在該頻率上,在被所述可變?yōu)V波器濾波之前,所述語音信號(hào)的自相關(guān)函數(shù)的周期圖具有最大值;和平均計(jì)算裝置,用于根據(jù)由倒譜分析裝置和自相關(guān)分析裝置確定的頻率,確定由所述語音信號(hào)表征的語音的基音周期的平均值,且將確定的平均值作為所述單位語音的基音周期的時(shí)間長(zhǎng)度。
      8.根據(jù)權(quán)利要求7的語音詞典生成裝置,其中,所述頻譜信息抽取裝置生成表征對(duì)示出所述語音信號(hào)的基頻分量和諧波分量隨時(shí)間變化的值進(jìn)行非線性量化的結(jié)果的數(shù)據(jù),且將該數(shù)據(jù)輸出作為頻譜信息。
      9.一種語音合成方法,其中,將表征單位語音的采樣的韻律的韻律信息、表征所述采樣的基音周期的基音周期信息、和示出基音周期波形信號(hào)的基頻分量和諧波分量隨時(shí)間變化的頻譜信息連同具有與所述采樣對(duì)應(yīng)關(guān)系的信息一起進(jìn)行存儲(chǔ),所述基音周期波形信號(hào)是通過使每一段都等于表征所述采樣的波形的語音信號(hào)的單位基音周期的多個(gè)段的時(shí)間長(zhǎng)度實(shí)質(zhì)上相同來生成的;輸入表征文本的文本信息,且根據(jù)所述文本信息來生成預(yù)測(cè)信息,該預(yù)測(cè)信息表征預(yù)測(cè)構(gòu)成所述文本的單位語音的基音周期和頻譜的結(jié)果;根據(jù)所述基音周期信息、頻譜信息和預(yù)測(cè)信息來識(shí)別一采樣,該采樣具有與構(gòu)成所述文本的單位語音的基音周期和頻譜的最大相關(guān)的基音周期和頻譜;和生成合成的語音信號(hào)表征語音,其中所述語音具有與已識(shí)別的采樣有對(duì)應(yīng)關(guān)系的韻律信息來表征的韻律;由具有與所述查找裝置識(shí)別的采樣由對(duì)應(yīng)關(guān)系的頻譜信息表征的、所述基頻分量和諧波分量隨時(shí)間的變化;和由與所述查找裝置識(shí)別的采樣有對(duì)應(yīng)關(guān)系的基音周期信息表征的時(shí)間長(zhǎng)度的、等于所述單位基音周期的段中的時(shí)間長(zhǎng)度。
      10.一種語音詞典生成方法,其中獲得表征單位語音的波形的語音信號(hào),且使每一段都等于所述語音信號(hào)的單位基音周期的各段的時(shí)間長(zhǎng)度實(shí)質(zhì)上相同,從而將所述語音信號(hào)處理成基音周期波形信號(hào);生成并且輸出表征所述段中的原始時(shí)間長(zhǎng)度的基音周期信息;根據(jù)所述基音周期波形信號(hào)來生成和輸出示出所述語音信號(hào)的基頻分量和諧波分量隨時(shí)間變化的頻譜信息;和獲得表征語譜圖的語聲數(shù)據(jù),所述語譜圖表征的單位語音的發(fā)音,確定由所述語聲數(shù)據(jù)表征的發(fā)音的韻律,且生成和輸出表征已確定的韻律的韻律信息。
      全文摘要
      提供了一種基音周期波形信號(hào)生成方法,作為用于有效地對(duì)具有波動(dòng)的基音周期的語音波形信號(hào)進(jìn)行編碼的基本處理。且進(jìn)一步提供使用該方法的語音信號(hào)壓縮/擴(kuò)展裝置以及語音信號(hào)合成裝置,和與之相關(guān)的信號(hào)處理。本發(fā)明的基音周期波形生成方法主要包括檢測(cè)語音波形信號(hào)的每一個(gè)基音周期波形成分的瞬時(shí)基音周期的方法,和通過根據(jù)每一個(gè)檢測(cè)到的瞬時(shí)基音周期在時(shí)間軸上擴(kuò)展和壓縮基音周期波形成分、同時(shí)保留它的波形模式來將相應(yīng)的基音周期波形成分處理成具有預(yù)定固定的時(shí)間長(zhǎng)度的歸一化基音周期波形成分的過程。通過使用本發(fā)明的基音周期波形信號(hào)生成方法來對(duì)語音波形信號(hào)進(jìn)行編碼或合成,可以高質(zhì)量和高效地壓縮具有基音周期波動(dòng)的語音信號(hào)。
      文檔編號(hào)G10L19/08GK1702736SQ200510074068
      公開日2005年11月30日 申請(qǐng)日期2002年8月30日 優(yōu)先權(quán)日2001年8月31日
      發(fā)明者佐藤寧 申請(qǐng)人:株式會(huì)社建伍
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1