專利名稱:語(yǔ)音聲音通信系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及在便攜式電話、互連網(wǎng)等上通過(guò)使用語(yǔ)音聲音進(jìn)行信息傳輸?shù)姆椒ā?br>
由諸如同軸電纜等有線通信路徑連接接收機(jī)和發(fā)射機(jī),或由諸如電磁波等無(wú)線電通信路徑連接接收機(jī)和發(fā)射機(jī),以構(gòu)成語(yǔ)音聲音通信系統(tǒng)。雖然,過(guò)去以模擬通信為主流,在這些通信路徑上直接傳播聲信號(hào)或?qū)⑵湔{(diào)制成載波在通信路徑上傳播,但現(xiàn)在數(shù)字通信正成為主流,它將聲信號(hào)經(jīng)過(guò)編碼后再傳播,其目的在于,根據(jù)抗噪聲特性或畸變,提高通信質(zhì)量和增加通信信道數(shù)。
便攜式電話之類的近代通信系統(tǒng),使用CELP[Schroeder M.R.和Atal B.S.碼激勵(lì)線性預(yù)測(cè)“在極低比特率下的高質(zhì)量語(yǔ)音”Pros.IEEE ICASSP’85,25.1.1,(1985年4月)]系統(tǒng),以校正由這種通信系統(tǒng)的快速擴(kuò)散造成的傳輸無(wú)線電波頻帶的缺陷。
圖7例示了CELP語(yǔ)音編碼和解碼系統(tǒng)的結(jié)構(gòu)。
在編碼端(即,發(fā)送終端)上的處理如下。通過(guò)分幀(例如,一幀為10ms),處理語(yǔ)音聲音信號(hào)。在LPC(線性預(yù)測(cè)編碼)分析部200,對(duì)所輸入的語(yǔ)音聲音進(jìn)行LPC分析,以便將其轉(zhuǎn)換成代表聲道傳輸函數(shù)的LPC系數(shù)αi。
在線譜對(duì)(LSP) 參數(shù)量化部201,將LPC系數(shù)αi轉(zhuǎn)換和量化為L(zhǎng)SP系數(shù)αqi。將αqi送到合成濾波器202,借助于從自適應(yīng)代碼薄203讀出的、對(duì)應(yīng)于代碼數(shù)字ca的發(fā)聲源波形,來(lái)合成語(yǔ)音聲音波形。通過(guò)與上述處理同時(shí)使用自動(dòng)校正方法或諸如此類,計(jì)算出音高周期T0,根據(jù)所述音高周期T0,將發(fā)聲源波形作為周期性波形輸入。
通過(guò)聽覺(jué)加權(quán)濾波器206,從待輸入畸變計(jì)算部207的輸入語(yǔ)音聲音中減去經(jīng)合成的語(yǔ)音聲音波形。在改變自適應(yīng)代碼薄203之代碼數(shù)字ca的同時(shí),畸變計(jì)算部207反復(fù)計(jì)算合成波形和輸入波形之間的能量差,并確定使能量值最小的代碼數(shù)字ca。
然后,在相似處理之后,將在確定的ca下讀出的發(fā)聲源波形和根據(jù)噪聲代碼薄204的代碼數(shù)字cr讀出的噪聲源波形相加,以確定使畸變最小的代碼數(shù)字cr。還確定增益值,其中增益值將通過(guò)上述完成的處理與發(fā)聲源波形和噪聲源波形相加,以便從增益代碼薄從選出與其對(duì)應(yīng)的最合適的增益矢量,以確定代碼數(shù)字cg。
將如上述確定的LSP系數(shù)αqi、音高周期T0、自適應(yīng)代碼數(shù)字ca、噪聲代碼數(shù)字cr、和增益代碼數(shù)字cg收集到將在通信路徑上發(fā)送的一個(gè)數(shù)據(jù)序列中。
另一方面,在解碼端(即,接收終端)上的處理如下。
將從通信路徑接收到的數(shù)據(jù)序列分解成LSP系數(shù)αqi、音高周期T0、自適應(yīng)代碼數(shù)字ca、噪聲代碼數(shù)字cr、和增益代碼數(shù)字cg。根據(jù)音高周期T0和自適應(yīng)代碼數(shù)字ca從自適應(yīng)代碼薄208讀出周期性的發(fā)聲源,并根據(jù)噪聲代碼數(shù)字cr,從噪聲代碼薄209讀出噪聲源波形。
每個(gè)發(fā)聲源接收一個(gè)由增益調(diào)節(jié)的幅度,其中所述增益由增益矢量表示,而增益矢量則根據(jù)待輸入到合成濾波器211的增益代碼數(shù)字cg,從增益代碼薄210中讀出。合成濾波器211根據(jù)LSP系數(shù)αqi合成語(yǔ)音聲音。
上述語(yǔ)音聲音通信系統(tǒng)的主要目的是,通過(guò)壓縮編碼的輸入語(yǔ)音聲音,用有限的通信路徑容量來(lái)有效地傳播語(yǔ)音聲音。也就是說(shuō),通信對(duì)象只是人類發(fā)出的語(yǔ)音聲音。
然而,現(xiàn)今的通信服務(wù)不只限于在遠(yuǎn)距離位置上的人類之間的語(yǔ)音聲音通信,而正在廣泛地采用諸如電子郵件或短消息之類的服務(wù),這時(shí)數(shù)據(jù)是通過(guò)利用發(fā)送終端的輸入文本。把數(shù)據(jù)發(fā)送到遠(yuǎn)處的接收終端的。從裝置向人類提供語(yǔ)音聲音變得很重要,諸如由CTI(計(jì)算機(jī)電話一體化)代表的語(yǔ)音聲音提供多種信息或以語(yǔ)音聲音提供裝置的操作方法。此外,通過(guò)使用將文本信息轉(zhuǎn)換成語(yǔ)音聲音的語(yǔ)音聲音規(guī)定合成技術(shù),有可能在電話上聽電子郵件、新聞等的內(nèi)容,最近,這已經(jīng)吸引了人們的注意。
這樣,需要一種通信服務(wù)方式,使文本信息轉(zhuǎn)換成語(yǔ)音聲音??紤]下述的兩種形式作為實(shí)現(xiàn)這些服務(wù)的方法。
一種方法是通過(guò)使用正常的語(yǔ)音聲音傳輸,將在服務(wù)提供端合成的語(yǔ)音聲音發(fā)送給用戶。在這種方法的情況下,和現(xiàn)有技術(shù)一樣,在接收端的終端裝置僅接收和再現(xiàn)語(yǔ)音聲音信號(hào),而且可以使用普通的硬件。
然而,大量文本的有聲化意味著要使語(yǔ)音聲音流在通信路徑中保持較長(zhǎng)的時(shí)間周期,在使用諸如便攜式電話的通信系統(tǒng)的情況下,有必要在較長(zhǎng)的時(shí)間周期中保持連接。相應(yīng)地,存在通信費(fèi)用太貴的問(wèn)題。
另一個(gè)方法是在通信路徑上以文本的形式發(fā)送信息之后,讓用戶聽到由在接收終端的語(yǔ)音聲音合成裝置轉(zhuǎn)換的語(yǔ)音聲音。在這種方法的情況下,信息傳輸量是一個(gè)極小的量,諸如語(yǔ)音聲音的幾百分之一,使之可以以極短的時(shí)間周期發(fā)送。相應(yīng)地,通信費(fèi)用較低,而且如果將文本存儲(chǔ)在接收終端中,則任何時(shí)候用戶希望聽該信息就可以將它轉(zhuǎn)換成語(yǔ)音聲音。還有一個(gè)優(yōu)點(diǎn)是在轉(zhuǎn)換成語(yǔ)音聲音時(shí)可以選擇不同類型的話音,諸如男聲或女聲、語(yǔ)音速率、高音高或低音高等等。
然而,在接收端作為終端裝置安裝的語(yǔ)音聲音合成裝置有與普通接收終端(諸如便攜式電話)不同的電路,因此,應(yīng)該安裝合成語(yǔ)音聲音的新電路,這就導(dǎo)致增加電路規(guī)模和增加終端裝置成本的問(wèn)題。
考慮到通信方法的這種傳統(tǒng)的問(wèn)題,本發(fā)明的目的是提供一種語(yǔ)音聲音通信系統(tǒng),它具有較小的通信負(fù)擔(dān)并且在接收終端上具有更簡(jiǎn)單的合成裝置。
為了解決上述問(wèn)題,本發(fā)明提供了一種語(yǔ)音聲音通信系統(tǒng)。該語(yǔ)音聲音通信系統(tǒng)包括發(fā)送部,它具有文本輸入手段和發(fā)送手段;接收部,它具有接收手段、語(yǔ)言分析手段、韻律產(chǎn)生手段、音段數(shù)據(jù)存儲(chǔ)手段、音段讀出手段和合成手段,其中,所述文本輸入手段輸入文本信息;所述發(fā)送手段將所述文本信息發(fā)送到通信路徑;所述接收手段從所述通信路徑接收所述文本信息;所述語(yǔ)言分析手段分析所述文本信息,以致將所述文本信息轉(zhuǎn)換成音位標(biāo)音信息;所述韻律產(chǎn)生手段將所述音位標(biāo)音信息轉(zhuǎn)換成帶韻律的音標(biāo);所述音段讀出手段根據(jù)所述帶有韻律信息的音位標(biāo)音信息,從所述音段數(shù)據(jù)存儲(chǔ)手段中讀出音段數(shù)據(jù);所述合成手段使用所述帶有韻律信息的音位標(biāo)音信息和所述音段數(shù)據(jù),合成語(yǔ)音聲音;所述音段數(shù)據(jù)存儲(chǔ)手段存儲(chǔ)發(fā)聲源特征和聲道傳送特征信息;以及所述合成部通過(guò)產(chǎn)生發(fā)聲源波形,并根據(jù)所述聲道傳送特征信息對(duì)所述發(fā)聲源波形進(jìn)行濾波處理,來(lái)合成語(yǔ)音聲音,其中所述發(fā)聲源波形具有根據(jù)所述韻律信息的周期和根據(jù)所述發(fā)聲源特征的特征。
在上述語(yǔ)音聲音通信系統(tǒng)中,所述發(fā)送部具有語(yǔ)音聲音輸入手段、語(yǔ)音編碼手段和多路復(fù)用手段;所述接收部具有分離手段;所述語(yǔ)音聲音輸入手段輸入語(yǔ)音聲音信號(hào);所述語(yǔ)音編碼手段通過(guò)對(duì)要編碼的信號(hào)的音高、發(fā)聲源特征和聲道傳送特征進(jìn)行分析,將所述輸入語(yǔ)音聲音信號(hào)轉(zhuǎn)換成語(yǔ)音代碼序列;所述多路復(fù)用手段對(duì)待轉(zhuǎn)換成一個(gè)代碼序列的所述文本信息和所述語(yǔ)音代碼序列進(jìn)行多路復(fù)用;所述分離手段將所述代碼序列分離成所述文本信息和所述語(yǔ)音代碼序列;以及所述合成手段將所述語(yǔ)音代碼序列轉(zhuǎn)換成語(yǔ)音聲音信號(hào)。
依照本發(fā)明的另一方面,提供了一種語(yǔ)音聲音通信系統(tǒng),它包括具有文本輸入手段、語(yǔ)言分析手段和發(fā)送手段的發(fā)送部;以及具有接收手段、韻律產(chǎn)生手段、音段數(shù)據(jù)存儲(chǔ)手段、音段讀出手段和合成手段的接收部,其中,所述文本輸入手段輸入文本信息;所述語(yǔ)言分析手段將所述文本信息轉(zhuǎn)換成音位標(biāo)音信息;所述發(fā)送手段將所述音位標(biāo)音信息發(fā)送到通信路徑;所述接收手段接收來(lái)自所述通信路徑的所述音位標(biāo)音信息;所述韻律產(chǎn)生手段將所述音位標(biāo)音信息轉(zhuǎn)換成帶有韻律信息的音位標(biāo)音信息;所述音段讀出手段根據(jù)所述帶有韻律信息的音位標(biāo)音信息,從所述音段數(shù)據(jù)存儲(chǔ)手段中讀出音段數(shù)據(jù);
所述合成手段使用所述帶有韻律信息的音位標(biāo)音信息的所述音段數(shù)據(jù),合成語(yǔ)音聲音;所述音段數(shù)據(jù)存儲(chǔ)手段存儲(chǔ)發(fā)聲源特征和聲道傳送特征信息;以及所述合成手段通過(guò)產(chǎn)生發(fā)聲源波形,并根據(jù)所述聲道傳送特征信息對(duì)所述發(fā)聲源波形進(jìn)行濾波處理,來(lái)合成語(yǔ)音聲音,其中所述發(fā)聲源波形具有根據(jù)所述韻律信息的周期和根據(jù)所述發(fā)聲源特征的特征。
在上述語(yǔ)音聲音通信系統(tǒng)中,所述發(fā)送部具有語(yǔ)音聲音輸入手段、語(yǔ)音編碼手段和多路復(fù)用手段;所述接收部具有分離手段;所述語(yǔ)音聲音輸入手段輸入語(yǔ)音聲音信號(hào);所述語(yǔ)音編碼手段通過(guò)對(duì)要編碼的信號(hào)的音高、發(fā)聲源特征和聲道傳送特征進(jìn)行分析,將所述輸入語(yǔ)音聲音信號(hào)轉(zhuǎn)換成語(yǔ)音代碼序列;所述多路復(fù)用手段對(duì)所述文本信息和所述聲音語(yǔ)音代碼序列進(jìn)行多路復(fù)用,以便產(chǎn)生一個(gè)代碼序列‘所述分離手段將所述代碼序列分離成所述文本信息和所述語(yǔ)音代碼序列;以及所述合成手段將所述語(yǔ)音代碼序列轉(zhuǎn)換成語(yǔ)音聲音信號(hào)。
依照本發(fā)明的再一方面,提供了一種語(yǔ)音聲音通信系統(tǒng),它包括具有文本輸入手段、語(yǔ)言分析手段、韻律產(chǎn)生手段和發(fā)送手段的發(fā)送部;以及具有接收手段、音段數(shù)據(jù)存儲(chǔ)手段、音段讀出手段和合成手段的接收部,其中,所述文本輸入手段輸入文本信息;所述語(yǔ)言分析手段將所述文本信息轉(zhuǎn)換成音位標(biāo)音信息;所述韻律產(chǎn)生手段將所述音位標(biāo)音信息轉(zhuǎn)換成帶有韻律信息的音位標(biāo)音信息;所述發(fā)送手段將所述帶有韻律信息的音位標(biāo)音信息發(fā)送到通信路徑;所述接收手段接收來(lái)自所述通信路徑的所述音位標(biāo)音信息;所述音段讀出手段根據(jù)所述帶有韻律信息的音位標(biāo)音信息,從所述音段數(shù)據(jù)存儲(chǔ)手段中讀出音段數(shù)據(jù);所述合成手段通過(guò)利用帶有韻律信息的音位標(biāo)音信息和所述音段數(shù)據(jù),合成語(yǔ)音聲音;所述音段數(shù)據(jù)存儲(chǔ)手段存儲(chǔ)發(fā)聲源特征和聲道傳送特征信息;以及所述合成部通過(guò)產(chǎn)生發(fā)聲源波形,并根據(jù)所述聲道傳送特征信息對(duì)所述發(fā)聲源波形進(jìn)行濾波處理,來(lái)合成語(yǔ)音聲音,其中所述發(fā)聲源波形具有根據(jù)所述韻律信息的周期和根據(jù)所述發(fā)聲源特征的特征。
在上述語(yǔ)音聲音通信系統(tǒng)中,所述發(fā)送部具有語(yǔ)音輸入手段、語(yǔ)音編碼手段和多路復(fù)用手段;所述接收部具有分離手段;所述語(yǔ)音輸入手段輸入語(yǔ)音聲音信號(hào);所述語(yǔ)音編碼手段通過(guò)對(duì)要編碼的信號(hào)的音高、發(fā)聲源特征和聲道傳送特征進(jìn)行分析,將所述語(yǔ)音聲音信號(hào)轉(zhuǎn)換成語(yǔ)音代碼序列;所述多路復(fù)用手段對(duì)所述帶有韻律信息的音位標(biāo)音信息和所述語(yǔ)音代碼序列進(jìn)行多路復(fù)用,以便產(chǎn)生一個(gè)代碼序列;所述分離手段將所述代碼序列分離成所述帶有韻律信息的音位標(biāo)音信息和所述語(yǔ)音代碼序列;以及所述合成手段將所述語(yǔ)音代碼序列轉(zhuǎn)換成語(yǔ)音聲音信號(hào)。
依照本發(fā)明的另一方面,提供了一種語(yǔ)音聲音通信系統(tǒng),它包括發(fā)送部,具有文本輸入手段和第一發(fā)送手段;轉(zhuǎn)發(fā)器部,具有第一接收手段、語(yǔ)言分析手段和第二發(fā)送手段;以及接收部,具有第二接收手段、韻律產(chǎn)生手段、音段數(shù)據(jù)存儲(chǔ)手段、音段讀出手段和合成手段;其中,所述文本輸入手段輸入文本信息;所述第一發(fā)送手段將所述文本信息發(fā)送到第一通信路徑;所述第一接收手段接收來(lái)自所述第一通信路徑的所述文本信息;所述語(yǔ)言分析手段將所述文本信息轉(zhuǎn)換成音位標(biāo)音信息;所述第二發(fā)送手段將所述音位標(biāo)音信息發(fā)送到第二通信路徑;所述第二接收手段接收來(lái)自所述第二通信路徑的所述音位標(biāo)音信息;所述韻律產(chǎn)生手段將所述音位標(biāo)音信息轉(zhuǎn)換成帶有韻律信息的音位標(biāo)音信息;
所述音段讀出手段根據(jù)所述帶有韻律信息的音位標(biāo)音信息,從所述音段數(shù)據(jù)存儲(chǔ)手段中讀出音段數(shù)據(jù);所述合成手段通過(guò)使用所述帶有韻律信息的音位標(biāo)音信息和所述音段數(shù)據(jù),合成語(yǔ)音聲音;所述音段數(shù)據(jù)存儲(chǔ)手段存儲(chǔ)發(fā)聲源特征和聲道傳送特征信息;以及所述合成部通過(guò)產(chǎn)生發(fā)聲源波形,并根據(jù)所述聲道傳送特征信息對(duì)所述發(fā)聲源波形進(jìn)行濾波處理,來(lái)合成語(yǔ)音聲音,其中所述發(fā)聲源波形具有根據(jù)所述韻律信息的周期和具有根據(jù)所述發(fā)聲源特征的特征。
在上述語(yǔ)音聲音通信系統(tǒng)中,所述發(fā)送部具有語(yǔ)音聲音輸入手段、語(yǔ)音編碼手段和第一多路復(fù)用手段;所述轉(zhuǎn)發(fā)器部具有第一分離手段和第二多路復(fù)用手段;所述接收部具有第二分離手段;所述語(yǔ)音聲音輸入手段輸入語(yǔ)音聲音信號(hào);所述語(yǔ)音編碼手段通過(guò)對(duì)要編碼的信號(hào)的音高、發(fā)聲源特征和聲道傳送特征進(jìn)行分析,將所述語(yǔ)音聲音信號(hào)轉(zhuǎn)換成語(yǔ)音代碼序列;所述第一多路復(fù)用手段對(duì)所述文本信息和所述語(yǔ)音代碼序列進(jìn)行多路復(fù)用,以便產(chǎn)生一個(gè)代碼序列;所述第一分離手段將所述代碼序列分離成所述文本信息和所述語(yǔ)音代碼序列;所述第二多路復(fù)用手段對(duì)所述音位標(biāo)音信息和所述語(yǔ)音代碼序列進(jìn)行多路復(fù)用,以便產(chǎn)生一個(gè)代碼序列;所述第二分離手段將所述第二多路復(fù)用手段多路復(fù)用后的代碼序列分離成所述音位標(biāo)音信息和所述語(yǔ)音代碼序列;以及所述合成手段將所述語(yǔ)音代碼序列轉(zhuǎn)換成語(yǔ)音聲音信號(hào)。
依照本發(fā)明的另一方面,提供了一種語(yǔ)音聲音通信系統(tǒng),它包括;發(fā)送部,具有文本輸入手段和第一發(fā)送手段;轉(zhuǎn)發(fā)器部,具有第一接收手段、語(yǔ)言分析手段、韻律產(chǎn)生手段和第二發(fā)送手段;以及接收部,具有第二接收手段、音段數(shù)據(jù)存儲(chǔ)手段、音段讀出手段和合成手段;其中,所述文本輸入手段輸入文本信息;所述第一發(fā)送手段將所述文本信息發(fā)送到第一通信路徑;所述第一接收手段接收來(lái)自所述第一通信路徑的所述文本信息;所述語(yǔ)言分析手段將所述文本信息轉(zhuǎn)換成音位標(biāo)音信息;所述韻律產(chǎn)生手段將所述音位標(biāo)音信息轉(zhuǎn)換成帶有韻律信息的音位標(biāo)音信息;所述第二發(fā)送部將所述帶有韻律信息的音位標(biāo)音信息發(fā)送到第二通信路徑;所述第二接收部接收來(lái)自所述第二通信路徑的、帶有韻律信息的所述音位標(biāo)音信息;所述音段讀出手段根據(jù)所述帶有韻律信息的音位標(biāo)音信息,從所述音段數(shù)據(jù)存儲(chǔ)手段中讀出音段數(shù)據(jù);所述合成手段通過(guò)使用所述帶有韻律信息的音位標(biāo)音信息和所述音段數(shù)據(jù),合成語(yǔ)音聲音;所述音段數(shù)據(jù)存儲(chǔ)手段存儲(chǔ)發(fā)聲源特征和聲道傳送特征信息;以及所述合成部通過(guò)產(chǎn)生發(fā)聲源波形,并根據(jù)所述聲道傳送特征信息對(duì)所述發(fā)聲源波形進(jìn)行濾波處理,來(lái)合成語(yǔ)音聲音,其中所述發(fā)聲源波形具有根據(jù)所述韻律信息的周期和具有根據(jù)所述發(fā)聲源特征的特征。
在上述語(yǔ)音聲音通信系統(tǒng)中,所述發(fā)送部具有語(yǔ)音聲音輸入手段、語(yǔ)音編碼手段和第一多路復(fù)用手段;所述轉(zhuǎn)發(fā)器部具有第一分離手段和第二多路復(fù)用手段,而所述接收部具有第二分離手段;所述語(yǔ)音聲音輸入手段輸入語(yǔ)音聲音信號(hào);所述語(yǔ)音編碼手段通過(guò)對(duì)要編碼的信號(hào)的音高、發(fā)聲源特征和聲道傳送特征進(jìn)行分析,將所述語(yǔ)音聲音信號(hào)轉(zhuǎn)換成語(yǔ)音代碼序列;所述第一多路復(fù)用手段對(duì)所述文本信息和所述語(yǔ)音代碼序列進(jìn)行多路復(fù)用,以便產(chǎn)生一個(gè)代碼序列;所述第一分離手段將所述代碼序列分離成所述文本信息和所述代碼序列;所述第二多路復(fù)用手段對(duì)所述帶有韻律信息的音位標(biāo)音信息和所述語(yǔ)音代碼序列進(jìn)行多路復(fù)用,以便產(chǎn)生一個(gè)代碼序列。
所述第二分離手段將所述第二多路復(fù)用手段所多路復(fù)用的代碼序列分離成所述帶有韻律信息的音位標(biāo)音信息和所述語(yǔ)音代碼序列;以及所述合成手段將所述語(yǔ)音代碼序列轉(zhuǎn)換成語(yǔ)音聲音信號(hào)。
依照本發(fā)明的另一方面,提供了一種語(yǔ)音聲音通信系統(tǒng),它包括發(fā)送部,具有文本輸入手段、語(yǔ)言分析手段和第一發(fā)送手段;轉(zhuǎn)發(fā)器部,具有第一接收手段、韻律產(chǎn)生手段和第二發(fā)送手段;以及接收部,具有第二接收手段、音段數(shù)據(jù)存儲(chǔ)手段、音段讀出手段和合成手段;其中,所述文本輸入手段文本信息;所述語(yǔ)言分析手段將所述文本信息轉(zhuǎn)換成音位標(biāo)音信息;所述第一發(fā)送手段將所述音位標(biāo)音信息發(fā)送到第一通信路徑;所述第一接收手段接收來(lái)自所述第一通信路徑的所述音位標(biāo)音信息;所述韻律產(chǎn)生手段將所述音位標(biāo)音信息轉(zhuǎn)換成帶有韻律信息的音位標(biāo)音信息;所述第二發(fā)送手段將所述帶有韻律信息的音位標(biāo)音信息發(fā)送到第二通信路徑;所述第二接收手段接收來(lái)自所述第二通信路徑的所述帶有韻律信息的音位標(biāo)音信息;所述音段讀出手段根據(jù)所述帶有韻律信息的音位標(biāo)音信息,從所述音段數(shù)據(jù)存儲(chǔ)手段中讀出音段數(shù)據(jù);所述合成手段通過(guò)使用所述帶有韻律信息的音位標(biāo)音信息和所述音段數(shù)據(jù),合成語(yǔ)音聲音;所述音段數(shù)據(jù)存儲(chǔ)手段存儲(chǔ)發(fā)聲源特征和聲道傳送特征信息;以及所述合成部通過(guò)產(chǎn)生發(fā)聲源波形合成語(yǔ)音聲音,并根據(jù)所述聲道傳送特征信息對(duì)所述發(fā)聲源波進(jìn)行濾波處理形,來(lái)合成語(yǔ)音聲音,其中所述發(fā)聲源波形具有根據(jù)所述韻律信息的周期和根據(jù)所述發(fā)聲源特征的特征。
對(duì)于上述語(yǔ)音聲音通信系統(tǒng),所述發(fā)送部具有語(yǔ)音聲音輸入手段、語(yǔ)音編碼手段和第一多路復(fù)用手段;所述轉(zhuǎn)發(fā)器部具有第一分離手段和第二多路復(fù)用手段,而所述接收部具有第二分離手段;
所述語(yǔ)音聲音輸入手段輸入語(yǔ)音聲音信號(hào);所述語(yǔ)音編碼手段通過(guò)對(duì)要編碼的信號(hào)的音高、發(fā)聲源特征和聲道傳送特征進(jìn)行分析,將所述語(yǔ)音聲音信號(hào)轉(zhuǎn)換成語(yǔ)音代碼序列;所述第一多路復(fù)用手段對(duì)所述音位標(biāo)音信息和所述語(yǔ)音代碼序列進(jìn)行多路復(fù)用,以便產(chǎn)生一個(gè)代碼序列的所述第一分離手段將所述代碼序列分離成所述音位標(biāo)音信息和所述語(yǔ)音代碼序列;所述第二多路復(fù)用手段對(duì)所述帶有韻律信息的音位標(biāo)音信息和所述語(yǔ)音代碼序列進(jìn)行多路復(fù)用,以便產(chǎn)生一個(gè)代碼序列;所述第二分離手段將所述第二多路復(fù)用手段多路復(fù)用后的所述代碼序列分離成所述帶有韻律信息的音位標(biāo)音信息和所述語(yǔ)音代碼序列;以及所述合成手段將所述語(yǔ)音代碼序列轉(zhuǎn)換成語(yǔ)音聲音信號(hào)。
在前述任何一種語(yǔ)音聲音通信系統(tǒng)中,用戶可以將任意的文本輸入到文本輸入手段中。所述文本輸入手段可以通過(guò)從存儲(chǔ)媒體、互連網(wǎng)或LAN之類的網(wǎng)絡(luò),或都數(shù)據(jù)庫(kù)讀出文本,來(lái)完成輸入。所述系統(tǒng)還可以包括參數(shù)輸入手段,并且用戶可以按要求通過(guò)參數(shù)輸入手段輸入語(yǔ)音聲音的參數(shù)值,而所述韻律產(chǎn)生手段和所述音段讀出手段輸出根據(jù)所述參數(shù)值修改的值。
圖1示出根據(jù)本發(fā)明的語(yǔ)音聲音通信系統(tǒng)的第一種模式的組成圖;圖2示出根據(jù)本發(fā)明的語(yǔ)音聲音通信系統(tǒng)的第二種模式的組成圖;圖3示出根據(jù)本發(fā)明的語(yǔ)音聲音通信系統(tǒng)的第三種模式的組成圖;圖4示出根據(jù)本發(fā)明的語(yǔ)音聲音通信系統(tǒng)的第四種模式的組成圖;圖5示出根據(jù)本發(fā)明的語(yǔ)音聲音通信系統(tǒng)的第五種模式的組成圖;圖6示出根據(jù)本發(fā)明的語(yǔ)音聲音通信系統(tǒng)的第五種模式的組成圖;圖7示出一示意圖,用于說(shuō)明現(xiàn)有的語(yǔ)音編碼和解碼系統(tǒng);圖8示出一示意圖,用于說(shuō)明進(jìn)行語(yǔ)言分析部的處理;圖9示出韻律產(chǎn)生部、韻律變換部、以及合成部和周圍區(qū)域的詳細(xì)的組成圖;圖10示出韻律產(chǎn)生部的音高表;圖11示出韻律產(chǎn)生部的時(shí)間長(zhǎng)度表;
圖12示出一示意圖,用于說(shuō)明韻律產(chǎn)生部的處理;圖13示出一示意圖,用于說(shuō)明韻律轉(zhuǎn)換部的處理;以及圖14示出一示意圖,用于說(shuō)明韻律產(chǎn)生部通過(guò)插入法產(chǎn)生連續(xù)的音高模式的一種方法。
下面參考附圖描述本發(fā)明的各種實(shí)施例。圖1示出根據(jù)本發(fā)明的語(yǔ)音聲音通信系統(tǒng)的第一種實(shí)施例。語(yǔ)音聲音通信系統(tǒng)包括發(fā)送終端和接收終端,通過(guò)通信路徑將它們連接。在有些情況下,傳輸路徑包括一包含交換或其類似的轉(zhuǎn)發(fā)器。
發(fā)送終端裝備有文本輸入部100,將它的輸出端連接到多路復(fù)用部104。還裝備有語(yǔ)音聲音輸入部101,將它的輸出端通過(guò)AD轉(zhuǎn)換部102和語(yǔ)音編碼部103連接到多路復(fù)用部104。將多路復(fù)用部104的輸出端連接到發(fā)送部105。
接收終端裝備有接收部106,將它的輸出端連接到分離部107。將分離部107的輸出端連接到語(yǔ)言分析部108和合成部115。將詞典109連接到語(yǔ)言分析部108。將語(yǔ)言分析部108的輸出端連接到韻律產(chǎn)生部110。
將韻律數(shù)據(jù)庫(kù)111連接到韻律產(chǎn)生部110。將韻律產(chǎn)生部110的輸出端連接到韻律變換部112,將韻律變換部112的輸出端連接到音段讀出部113。將音段數(shù)據(jù)庫(kù)114連接到音段讀出部113。
將韻律變換部112和音段讀出部113兩者的輸出端連接到合成部115。將合成部115的輸出端通過(guò)DA轉(zhuǎn)換部116連接到語(yǔ)音聲音輸出部117。還提供參數(shù)輸入部118,將它連接到韻律變換部112和音段讀出部113。
下面說(shuō)明如此地構(gòu)成的語(yǔ)音聲音通信系統(tǒng)的工作情況。首先說(shuō)明發(fā)送終端上的工作。
語(yǔ)音編碼部103以與現(xiàn)有技術(shù)相同的方法分析語(yǔ)音聲音,以致使待輸出到多路復(fù)用部104的LSP系數(shù)αqi、音高周期T0、自適應(yīng)代碼數(shù)字ca、噪聲代碼數(shù)字cr和增益代碼數(shù)字cg的信息編碼成為語(yǔ)音代碼序列。
文本輸入部110接收用戶通過(guò)鍵盤等輸入的文本信息作為所需的文本,如果要從多路復(fù)用部104輸出的話,將它轉(zhuǎn)換成所要求的形式。多路復(fù)用部104根據(jù)時(shí)間分隔將語(yǔ)音代碼序列和文本信息多路復(fù)用,因而再安排數(shù)據(jù)序列的順序,以便通過(guò)發(fā)送部105在通信路徑上發(fā)送。
通過(guò)數(shù)據(jù)通信方法手段使這種多路復(fù)用的方法成為可能,所述數(shù)據(jù)通信方法手段是使用在目前一般應(yīng)用的便攜式電話的短消息服務(wù)等中的。
其次,說(shuō)明接收終端的工作。接收部106接收來(lái)自通信路徑的上述的數(shù)據(jù)序列,以待輸出到分離部107。分離部107將數(shù)據(jù)序列分離成語(yǔ)音代碼序列和文本信息,因此分別將語(yǔ)音代碼序列輸出到合成部115和文本信息輸出到語(yǔ)言分析部108。
通過(guò)與現(xiàn)有技術(shù)相同的處理,將語(yǔ)音代碼序列在合成部115轉(zhuǎn)換成語(yǔ)音聲音信號(hào),以作為語(yǔ)音聲音通過(guò)DA轉(zhuǎn)換部116和語(yǔ)音聲音輸出部117輸出。
另一方面,通過(guò)使用語(yǔ)言分析部108中的詞典109等,將文本信息轉(zhuǎn)換成表示發(fā)音、重音等信息的音位標(biāo)音信息,并將其輸入到韻律產(chǎn)生部110。如果必須轉(zhuǎn)換成帶有韻律信息的音位標(biāo)音信息,則通過(guò)主要使用重音信息和發(fā)音信息,參考韻律數(shù)據(jù)庫(kù)111,韻律產(chǎn)生部將與每個(gè)音素定時(shí)、每個(gè)音素音高以及每個(gè)音素的幅度有關(guān)的韻律信息的相加。
如果必須,由韻律變換部112從帶有韻律信息的音位標(biāo)音信息變換韻律信息。例如,根據(jù)相應(yīng)的要求由用戶設(shè)置的參數(shù)(諸如語(yǔ)音速度、高音高或低音高等)變換韻律信息。由變換對(duì)每個(gè)音素的定時(shí)信息來(lái)改變語(yǔ)音速度以及由變換對(duì)每個(gè)音素的音高信息來(lái)改變高音高或低音高。由用戶按要求在參數(shù)輸入部118建立這種設(shè)置。
將帶有韻律信息的音位標(biāo)音信息分成音高周期信息T0和保留信息,并將T0輸入合成部115,所述韻律信息具有它的從韻律變換部112變換的韻律。將保留信息輸入到音段讀出部113。音段讀出部113通過(guò)使用從韻律變換部112接收的信息從音段數(shù)據(jù)庫(kù)114讀出適當(dāng)?shù)囊舳危⑺鎯?chǔ)的LSP參數(shù)αqi自適應(yīng)代碼數(shù)字ca、噪聲代碼數(shù)字cr和增益代碼數(shù)字cg作為音段數(shù)據(jù)輸出到合成部115。
合成部115合成來(lái)自這些信息T0、αqi、ca、cr和cg片的語(yǔ)音聲音,并通過(guò)DA轉(zhuǎn)換部和語(yǔ)音聲音輸出部117作為語(yǔ)音聲音輸出。其次,說(shuō)明在上述第一實(shí)施例中的語(yǔ)言分析部的工作。
圖8描述語(yǔ)言分析部108的處理方法。圖8(a)示出日語(yǔ)的例子,圖8(b)示出英語(yǔ)的例子和圖8(c)示出中文的例子。下面說(shuō)明在圖8(a)中的日文例子。
圖8(a)的上面的方框示出輸入的文本。輸入文本是“今天天氣好”。利用詞典109,通過(guò)模式語(yǔ)子分析、句法分析等,在下面的框中將文本最后地轉(zhuǎn)換成音標(biāo)(音素符號(hào)、重音信息等)?!癒yo”或“o”描述日文的一個(gè)節(jié)拍(節(jié)拍,一個(gè)音節(jié)單元)的發(fā)音,“,”表示停頓以及“/”表示重音詞組的分離。加到音素符號(hào)上的“’”表示重音的中心部。
在圖8(b)中的英文情況下,處理結(jié)果說(shuō)明音素符號(hào)為“ih”或“t”,音節(jié)邊界為“-”,以及主加重和次加重為“1”和“2”。在圖8(c)中的中文情況下,“今”(jin)或“天”(tian)表示拼音代碼,它們是音節(jié)單元的音素符號(hào),加到每個(gè)音節(jié)符號(hào)上的數(shù)字表示音調(diào)信息。
在每種語(yǔ)言中,這些成為用于合成帶自然語(yǔ)調(diào)的語(yǔ)音聲音的信息。其次,說(shuō)明從韻律產(chǎn)生到合成的工作。
圖9示出韻律產(chǎn)生部110、韻律變換部112、音段讀出部113、合成部115和它們周圍的組成。如虛線所示,將語(yǔ)音代碼從分離部107輸入到合成部115,合成部115對(duì)語(yǔ)音解碼進(jìn)行正常的操作。
另一方面,如實(shí)線所示,從韻律變換部112和音段讀出部113輸入數(shù)據(jù),這是在使用文本進(jìn)行語(yǔ)音聲音合成的情況下的操作。
在下面說(shuō)明使用文本的語(yǔ)音聲音合成的操作。
音段數(shù)據(jù)庫(kù)114存儲(chǔ)已經(jīng)經(jīng)過(guò)CELP編碼的音段數(shù)據(jù)。通常將音素、節(jié)拍、音節(jié)等用作音段的單元。將經(jīng)編碼的數(shù)據(jù)存儲(chǔ)作為L(zhǎng)SP系數(shù)αqi、自適應(yīng)代碼數(shù)字ca、噪聲代碼數(shù)字cr、增益代碼數(shù)字cg,對(duì)每個(gè)幀周期安排它們每一個(gè)的值。
音段讀出部113裝備有音段選擇部113-1,它利用與從韻律變換部112發(fā)送的韻律信息一起的、在音位標(biāo)音信息中間的音位標(biāo)音信息,指定存儲(chǔ)在音段數(shù)據(jù)庫(kù)中的音段之一。
其次,數(shù)據(jù)讀出部113-2讀出待發(fā)送到合成部的,從音段數(shù)據(jù)庫(kù)111指定的音段數(shù)據(jù)。此時(shí),利用包括在與從韻律變換部112發(fā)送的韻律信息一起的音位標(biāo)音信息的定時(shí)信息延長(zhǎng)或縮短音段數(shù)據(jù)的時(shí)間。
由如等式1所示的數(shù)據(jù)序列表示一段音段數(shù)據(jù)。
Vm={vmo,vm1,…,vmk} (1)其中,m是音段號(hào),k是對(duì)于每個(gè)音段的幀號(hào)。對(duì)于每個(gè)音幀的vm是如等式2所示的CELP數(shù)據(jù)。
Vm={αqo,…,αqn,ca,cr,cg} (2)數(shù)據(jù)讀出部113-2從定時(shí)信息計(jì)算必須的時(shí)間長(zhǎng)度并將它轉(zhuǎn)換成幀號(hào)k’。在k=k’的情況下,就是說(shuō)音段的時(shí)間長(zhǎng)度和必需的時(shí)間長(zhǎng)度相等,可以以vmo,vm1,vm2的次序,在每一時(shí)刻讀出一片信息。在k>k’的情況下,就是說(shuō)希望以縮短的形式使用音段的時(shí)間長(zhǎng)度,則適當(dāng)?shù)貟呙鑦mo,vm2,vm4。在k<k’的情況下,就是說(shuō)希望以延長(zhǎng)的形式使用音段的時(shí)間長(zhǎng)度,如果必需的話以vmo,vmo,vm1,vm2,vm2的形式重復(fù)幀數(shù)據(jù)。
將用該方法產(chǎn)生的數(shù)據(jù)輸入到合成部115。分別將ca輸入到自適應(yīng)代碼薄115-1,將cg輸入到噪聲代碼薄,將cg輸入到增益代碼薄以及將αqi輸入到合成濾波器。此處,從韻律變換部112輸入T0。
因?yàn)橥ㄟ^(guò)ca和周期T0,自適應(yīng)代碼薄115-1重復(fù)地產(chǎn)生所示的發(fā)聲源波形,頻譜特性跟隨著音段,所以根據(jù)從韻律變換部112的輸出,產(chǎn)生帶有音高的發(fā)聲源波形。其它的操作與正常的語(yǔ)音解碼具有相同的操作。其次,詳細(xì)說(shuō)明韻律產(chǎn)生部110和韻律變換部112的工作。
將音位標(biāo)音信息輸入到韻律產(chǎn)生部110。
在圖8所示的例子中,輸入“kyo’owa,i’i/te’Nkidesu.”。用稱為重音短語(yǔ)的音元來(lái)說(shuō)明日文的韻律。用“,”或“/”來(lái)分開重音短語(yǔ)。在本例子的情況下,存在三個(gè)重音短語(yǔ)。在重音短語(yǔ)中存在一個(gè)或零個(gè)重音中心部,并且根據(jù)重音中心部的位置確定重音類型。在重音中心部是在引導(dǎo)節(jié)拍中的情況下,稱之為類型1,當(dāng)任何時(shí)候它移回一位時(shí),稱之為類型2、類型3等等。在不存在重音中心部的情況下,特別地稱之為類型0。根據(jù)包括在重音類型和重音短語(yǔ)中的節(jié)拍數(shù)目對(duì)重音短語(yǔ)分類。在本例子的情況下,從前面開始,它們是3個(gè)類型1的節(jié)拍,2個(gè)類型1的節(jié)拍和5個(gè)類型1的節(jié)拍。
根據(jù)在重音短語(yǔ)和重音類型中的節(jié)拍數(shù)目,用韻律數(shù)據(jù)庫(kù)111登記每個(gè)節(jié)拍的音高值。圖10表示以頻率(以Hz為單位)的形式登記音高值的一種方法。相應(yīng)于在重音短語(yǔ)中的節(jié)拍數(shù),用韻律數(shù)據(jù)庫(kù)111登記每個(gè)節(jié)拍的時(shí)間長(zhǎng)度。圖11表示那個(gè)方法。在圖11中,時(shí)間長(zhǎng)度的單位是毫秒。
根據(jù)這種信息,韻律產(chǎn)生部110進(jìn)行如圖12所示的處理。圖12表示韻律產(chǎn)生部110的輸入/輸出數(shù)據(jù)。輸入是音標(biāo),它是在圖8中的語(yǔ)言處理結(jié)果。輸出是音標(biāo)、時(shí)間長(zhǎng)度和音高。該音標(biāo)在消除重音符號(hào)之后對(duì)輸入的每個(gè)音節(jié)的標(biāo)音。
以及“,”和“.”用表示安靜(silence)的字符“SIL”代替。對(duì)于時(shí)間長(zhǎng)度信息,在圖11中待使用的時(shí)間長(zhǎng)度表中取出3節(jié)拍、2節(jié)拍和5節(jié)拍的時(shí)間長(zhǎng)度信息片。對(duì)于SIL音節(jié),在該位置上設(shè)置一個(gè)200的常數(shù)。對(duì)于音高信息,在圖10中待使用的音高表中取出類型1的3節(jié)拍、類型1的2節(jié)拍和類型1的5節(jié)拍的信息片。
韻律變換部112根據(jù)用戶通過(guò)參數(shù)輸入部118設(shè)置的信息變換這些信息片。例如,為了改變音高,可以將音高的頻率值乘以常數(shù)pf。為了改變有語(yǔ)音速率,可以將時(shí)間長(zhǎng)度的值乘以常數(shù)pd。在pf=1.2和pd=0.9的情況下,韻律變換部112的輸入數(shù)據(jù)和處理結(jié)果之間的關(guān)系的例子示于圖13。根據(jù)該信息韻律變換部112將對(duì)于每個(gè)幀的T0值輸出到自適應(yīng)代碼薄115-1。因此,使用線性插入或樣條插入,將對(duì)于每個(gè)節(jié)拍確定的音高頻率值轉(zhuǎn)換成對(duì)于每個(gè)幀的頻率F0,它由等式3使用取樣頻率Fs轉(zhuǎn)換。
T0=Fs/F0(3)圖14示出了線性插入音高頻率F的方法。在該例子中,在2個(gè)節(jié)拍之間插入一行,在句子的開始處或緊接SIL的前后,通過(guò)使用最接近的值,盡可能輸出平坦的頻率。
雖然目前已經(jīng)主要針對(duì)日文的例子進(jìn)行解釋,可以用相同的方法處理英文的和中文的例子。
通過(guò)用這種方法的組成,實(shí)現(xiàn)了語(yǔ)音聲音通信和文本語(yǔ)音聲音轉(zhuǎn)換,使之有可能通過(guò)利用在接收終端裝置內(nèi)部的合成部115、DA轉(zhuǎn)換部116和語(yǔ)音聲音輸出部117,將硬件規(guī)模的增加量限制到最小。
具有該組成,也可能進(jìn)行諸如在接收終端的顯示器屏幕上顯示文本和將文本變換成適合于語(yǔ)音聲音合成的形式等的處理,因?yàn)槭聦?shí)上,將文本信息發(fā)送到了接收終端。
而且由于在接收終端上提供韻律產(chǎn)生部110和韻律數(shù)據(jù)庫(kù)111,有可能使用戶能按要求從多個(gè)韻律模式中進(jìn)行選擇,并能對(duì)每個(gè)接收終端裝置設(shè)置不同的韻律。
由于將韻律變換部112安裝在接收終端上,用戶可以按要求改變諸如有語(yǔ)音速率和/或音高等語(yǔ)音聲音參數(shù)。
此外,由于將音段讀出部113和音段數(shù)據(jù)庫(kù)114安裝在接收終端上,有可能使用戶能按要求對(duì)每個(gè)裝置在男聲和女聲之間轉(zhuǎn)換和在發(fā)言者之間轉(zhuǎn)換或選擇不同發(fā)言者的語(yǔ)音聲音。
雖然在本模式的說(shuō)明中,用戶從鍵盤或其類似將任意的文本輸入文本輸入部100,但是也可以從諸如硬盤等存儲(chǔ)媒體、諸如互連網(wǎng)或LAN等網(wǎng)絡(luò)或從數(shù)據(jù)庫(kù)讀出文本。而且也有可能用語(yǔ)音聲音識(shí)別系統(tǒng)來(lái)代替鍵盤輸入文本。在此后說(shuō)明的模式中應(yīng)用這些原理。
雖然,在本模式中,在韻律產(chǎn)生部110中使用音高和時(shí)間長(zhǎng)度,對(duì)每個(gè)重音短語(yǔ)參考使用節(jié)拍數(shù)目和重音形式的表,但是也可以用其它方法來(lái)進(jìn)行。例如通過(guò)使用在產(chǎn)生模型(諸如Fujisaki模型)中的函數(shù)可以產(chǎn)生音高,作為連續(xù)的音高頻率值。可以滿意地找到作為對(duì)每個(gè)音素的特征量的時(shí)間長(zhǎng)度。
雖然,在本模式中使用基本CELP系統(tǒng)作為語(yǔ)音編碼和解碼系統(tǒng)的例子,但是根據(jù)這個(gè)可以應(yīng)用多個(gè)經(jīng)改進(jìn)的系統(tǒng),諸如CS-ACELP系統(tǒng)(ITU-T建議G.729)。
可以將本發(fā)明應(yīng)用于任何這樣系統(tǒng),在所述系統(tǒng)中,通過(guò)將語(yǔ)音聲音信號(hào)分成發(fā)聲源以及諸如LPC系數(shù)和LSP系數(shù)等聲道特征,而對(duì)其進(jìn)行編碼。其次,說(shuō)明根據(jù)本發(fā)明的語(yǔ)音聲音通信系統(tǒng)的第二模式。
圖2示出根據(jù)本發(fā)明的語(yǔ)音聲音通信系統(tǒng)的第二模式。用與第一模式相同的方法,語(yǔ)音聲音通信系統(tǒng)包括發(fā)送終端和接收終端,具有連接它們的通信路徑。
在發(fā)送終端上裝備有文本輸入部100,將它的輸出連接到語(yǔ)言分析部108。將語(yǔ)言分析部108的輸出通過(guò)多路復(fù)用部104和發(fā)送部105發(fā)送到通信路徑。
在接收終端上裝備有接收部106,將它的輸出連接到分離部107。將分離部107的輸出連接到韻律產(chǎn)生部110和合成部115。其余部和第一模式相同。
用這種方法組成的語(yǔ)音聲音通信系統(tǒng)的工作與第一模式的工作相同。
本模式的工作與第一模式的工作的不同之處在于,替代多路復(fù)用部104,文本輸入部100將文本信息直接輸出到語(yǔ)言分析部108;將從語(yǔ)言分析部108的輸出的音位標(biāo)音信息輸出到多路復(fù)用部104;分離部107將接收到的數(shù)據(jù)序列分離成語(yǔ)音代碼序列并將音位標(biāo)音信息和經(jīng)分離的音位標(biāo)音信息輸入到韻律產(chǎn)生部110。
通過(guò)以這種方法進(jìn)行組成,不需要在接收終端上安裝語(yǔ)言分析部108和詞典109,因此,可以將接收終端的電路規(guī)模制造得更小。在接收終端是便攜式的終端和發(fā)送方是諸如計(jì)算機(jī)服務(wù)器之類的大規(guī)模的裝置的情況下,這是一個(gè)優(yōu)點(diǎn)。
用戶還可以從多個(gè)韻律模式選擇所要求的設(shè)置或?qū)γ總€(gè)接收終端裝置設(shè)置不同的韻律,因?yàn)樵诮邮战K端上裝備有韻律產(chǎn)生部110和韻律數(shù)據(jù)庫(kù)111。
用戶還可以按要求改變諸如語(yǔ)音速率或音高之類的語(yǔ)音聲音參數(shù),因?yàn)樵诮邮战K端上裝備有韻律變換部112。
此外,因?yàn)閷⒁舳巫x出部113和音段數(shù)據(jù)庫(kù)114安裝在接收終端上,有可能使用戶能按要求對(duì)每個(gè)裝置在男聲和女聲之間轉(zhuǎn)換和在不同的發(fā)言者之間轉(zhuǎn)換并設(shè)置不同發(fā)言者的語(yǔ)音聲音。接下來(lái),說(shuō)明根據(jù)本發(fā)明的語(yǔ)音聲音通信系統(tǒng)的第三模式。
圖3示出根據(jù)本發(fā)明的語(yǔ)音聲音通信系統(tǒng)的第三模式。用與第一模式和第二模式相同的方法,語(yǔ)音聲音通信系統(tǒng)包括發(fā)送終端和接收終端,具有連接它們的通信路徑。
與在第二模式中不同,在本模式中,將韻律產(chǎn)生部110和韻律數(shù)據(jù)庫(kù)111安裝在發(fā)送終端而不是在接收終端。相應(yīng)地,將從語(yǔ)言分析部108輸出的音位標(biāo)音信息直接輸入到韻律產(chǎn)生部110,并且將音位標(biāo)音信息和從韻律產(chǎn)生部110輸出的韻律信息一起通過(guò)發(fā)送終端的多路復(fù)用部104和發(fā)送部105發(fā)送到通信路徑。
在接收終端處,分離部107將通過(guò)接收部106接收到的數(shù)據(jù)序列分離成語(yǔ)音代碼序列和與韻律信息一起的音位標(biāo)音信息,因此,將語(yǔ)音代碼序列輸入到合成部115并將與韻律信息一起的音位標(biāo)音信息輸入到韻律變換部112。
通過(guò)用這種方法進(jìn)行組成,就不必在接收終端上安裝韻律產(chǎn)生部110和韻律數(shù)據(jù)庫(kù)111,因而接收終端的電路規(guī)模可以進(jìn)一步制造得更小。更有利的是,在接收終端是便攜式的終端和發(fā)送端是諸如計(jì)算機(jī)服務(wù)器之類的大規(guī)模的裝置的情況下。
因?yàn)樵诮邮战K端上裝有韻律變換部112,用戶還可以按要求改變諸如語(yǔ)音速率或音高之類的語(yǔ)音聲音參數(shù)。
此外,因?yàn)閷⒁舳巫x出部113和音段數(shù)據(jù)庫(kù)114安裝在接收終端上,還有可能使用戶能按要求對(duì)每個(gè)裝置在男聲和女聲之間轉(zhuǎn)換和在不同的發(fā)言者之間轉(zhuǎn)換并設(shè)置不同發(fā)言者的語(yǔ)音聲音。接下來(lái),說(shuō)明根據(jù)本發(fā)明的語(yǔ)音聲音通信系統(tǒng)的第四模式。
圖4示出根據(jù)本發(fā)明的語(yǔ)音聲音通信系統(tǒng)的第四模式。與第一模式、第二模式和第三模式不同,語(yǔ)音聲音通信系統(tǒng)除了包括具有連接它們的通信路徑的發(fā)送終端和接收終端之外還包括一轉(zhuǎn)發(fā)器。
發(fā)送終端裝備有文本輸入部100,將文本輸入部100的輸出連接到多路復(fù)用部104-a。還裝備有語(yǔ)音聲音輸入部101,它的輸出通過(guò)AD轉(zhuǎn)換部102和語(yǔ)音編碼部103連接到多路復(fù)用部104-a。將多路復(fù)用部104-a的輸出通過(guò)發(fā)送部105-a發(fā)送到通信路徑。
轉(zhuǎn)發(fā)器裝備有接收部106-a,將接收部106-a的輸出連接到分離部107-a。分離部107-a的一個(gè)輸出連接到語(yǔ)言分析部108,將它的輸出連接到多路復(fù)用部104-b。語(yǔ)言分析部108與詞典109相連接。分離部107的另一個(gè)輸出連接到多路復(fù)用部104-b,將它的輸出通過(guò)發(fā)送部105-b發(fā)送到通信部。
接收終端裝備有接收部106-b,將它的輸出連接到分離部107-b。將分離部107-b的一個(gè)輸出連接到韻律產(chǎn)生部110。韻律產(chǎn)生部110與韻律數(shù)據(jù)庫(kù)111連接。將韻律產(chǎn)生部110的輸出連接到韻律變換部112,將它的輸出連接到音段讀出部113。音段數(shù)據(jù)庫(kù)114與音段讀出部113相連接。
將韻律變換部112和音段讀出部113的兩個(gè)輸出連接到合成部115。合成部115的輸出通過(guò)DA轉(zhuǎn)換部116連接到語(yǔ)音聲音輸出部117。還裝備有參數(shù)輸入部118,將它連接到韻律變換部112和音段讀出部113。
相對(duì)于發(fā)送終端,用這種方法組成的語(yǔ)音聲音通信系統(tǒng)的工作和根據(jù)本發(fā)明的的第一模式的工作相同。而相對(duì)于接收終端,它和根據(jù)本發(fā)明的第三模式的工作相同。在轉(zhuǎn)發(fā)器中的的工作如下。
接收部106接收來(lái)自通信路徑的上述數(shù)據(jù)序列以待輸出到分離部107。分離部107將數(shù)據(jù)序列分離成語(yǔ)音代碼序列和文本信息,因此,分別將語(yǔ)音代碼序列輸出到多路復(fù)用部104-b并將文本信息輸出到語(yǔ)言分析部108。以與在其它模式中的相同的方法處理文本信息,并轉(zhuǎn)換成音位標(biāo)音信息以待輸出到多路復(fù)用部104-b。多路復(fù)用部104-b多路復(fù)用語(yǔ)音代碼序列和音位標(biāo)音信息以形成待通過(guò)發(fā)送部105-b發(fā)送到通信路徑的數(shù)據(jù)序列。
通過(guò)用該方法的組成,在發(fā)送終端或接收終端上都不需要安裝語(yǔ)言分析部108和詞典109,這有可能使兩者的電路規(guī)模都制造得較小。這在發(fā)送和接收端兩者都有便攜式終端裝置的情況下是一個(gè)優(yōu)點(diǎn)。
由于在接收終端上裝備有韻律產(chǎn)生部110和韻律數(shù)據(jù)庫(kù)111,用戶有可能從多個(gè)韻律模式選擇所要求的設(shè)置或?qū)γ總€(gè)接收終端裝置設(shè)置不同的韻律。
由于將韻律變換部112安裝在接收終端上,用戶可以按要求改變諸如語(yǔ)音速率和音高之類的語(yǔ)音聲音參數(shù)。
此外,由于將音段讀出部113和音段數(shù)據(jù)庫(kù)114安裝在接收終端上,用戶有可能在男聲和女聲之間轉(zhuǎn)換和在不同的發(fā)言者之間轉(zhuǎn)換,以及對(duì)每個(gè)裝置設(shè)置不同發(fā)言者的語(yǔ)音話音。接下來(lái),說(shuō)明根據(jù)本發(fā)明的語(yǔ)音聲音通信系統(tǒng)的第五模式。
圖5示出根據(jù)本發(fā)明的語(yǔ)音聲音通信系統(tǒng)的第五模式。與第四模式相同,語(yǔ)音聲音通信系統(tǒng)包括具有連接它們的通信路徑的發(fā)送終端、轉(zhuǎn)發(fā)器和接收終端。
與第四模式不同,在本模式中將韻律產(chǎn)生部110和韻律數(shù)據(jù)庫(kù)111安裝在轉(zhuǎn)發(fā)器上而不是安裝在接收終端上。因此,將作為語(yǔ)言分析部108的輸出的音位標(biāo)音信息直接輸入到韻律產(chǎn)生部110,以及將作為韻律產(chǎn)生部110的輸出的帶有韻律信息的音位標(biāo)音信息通過(guò)多路復(fù)用部104-b和發(fā)送部105-b發(fā)送到通信路徑。發(fā)送終端與根據(jù)本發(fā)明的第四模式以相同的方法工作,而接收終端與根據(jù)本發(fā)明的第三模式以相同的方法工作。
通過(guò)用該方法的組成,在發(fā)送終端或接收終端上都不需要安裝語(yǔ)言分析部108和詞典109,這有可能使兩者的電路規(guī)模都制造得較小。這在發(fā)送和接收端兩者都有便攜式終端裝置的情況下是一個(gè)優(yōu)點(diǎn)。
由于將韻律變換部112安裝在接收終端上,用戶可以按要求改變諸如語(yǔ)音速率和音高之類的語(yǔ)音聲音參數(shù)。
此外,由于將音段讀出部113和音段數(shù)據(jù)庫(kù)114安裝在接收終端上,用戶有可能在男聲和女聲之間轉(zhuǎn)換和在不同的發(fā)言者之間轉(zhuǎn)換,以及對(duì)每個(gè)裝置設(shè)置不同發(fā)言者的語(yǔ)音聲音。
此外,通過(guò)使用本組成,使復(fù)制多種語(yǔ)言變得簡(jiǎn)便。例如,設(shè)置了發(fā)送端,因此可以輸入某種語(yǔ)言,在轉(zhuǎn)發(fā)器中準(zhǔn)備了語(yǔ)言分析部和韻律產(chǎn)生部來(lái)復(fù)制多種語(yǔ)言。當(dāng)確認(rèn)發(fā)送終端時(shí),可以參考數(shù)據(jù)庫(kù)指定語(yǔ)言的種類?;蚩梢悦看螐陌l(fā)送終端發(fā)送有關(guān)語(yǔ)言種類的信息。
通過(guò)在語(yǔ)言分析部108的輸出端處使用用于音標(biāo)的系統(tǒng)(諸如IPA(國(guó)際音標(biāo))),可以將多種語(yǔ)言標(biāo)音成相同的格式。此外,有可能通過(guò)使用韻律信息標(biāo)音方法,不根據(jù)語(yǔ)言,使韻律產(chǎn)生部110對(duì)韻律信息標(biāo)音,所述韻律信息標(biāo)音方法諸如ToBI(Tones and Break Indices,M.E.Beckman and G.M.Ayers,The ToBI Handbook,Tech.Rept.(Ohio State University,Columbus,U.S.A.1993))物理量(諸如音素時(shí)間長(zhǎng)度、音高頻率、幅度值)。
這樣,有可能將音位標(biāo)音信息發(fā)送到接收終端,所述音位標(biāo)音信息帶有將來(lái)自轉(zhuǎn)發(fā)器的不同語(yǔ)言以統(tǒng)一的格式對(duì)韻律信息標(biāo)音。在接收終端上,根據(jù)音標(biāo)和韻律信息可以產(chǎn)生有確定周期和確定幅度和確定代碼數(shù)字的發(fā)聲源波形,因此可用一共同的電路來(lái)合成任何語(yǔ)言的語(yǔ)音聲音。接下來(lái),說(shuō)明根據(jù)本發(fā)明的語(yǔ)音聲音通信系統(tǒng)的第六模式。
圖6示出根據(jù)本發(fā)明的語(yǔ)音聲音通信系統(tǒng)的第六模式。與第四和第五模式相同,語(yǔ)音聲音通信系統(tǒng)包括具有連接它們的通信部的發(fā)送終端、轉(zhuǎn)發(fā)器和接收終端。
與第五模式不同,在本模式中將語(yǔ)言分析部108和詞典109安裝在發(fā)送終端上而不是安裝在轉(zhuǎn)發(fā)器上。發(fā)送終端與根據(jù)本發(fā)明的第二模式以相同的方法工作。而接收終端與根據(jù)本發(fā)明的第三模式以相同的方法工作。
在轉(zhuǎn)發(fā)器中,將通過(guò)接收部106-a接收到的來(lái)自通信路徑的數(shù)據(jù)序列在分離部107-a中分離成音位標(biāo)音信息和語(yǔ)音代碼序列。
利用韻律產(chǎn)生部10中的韻律數(shù)據(jù)庫(kù)111,將音位標(biāo)音信息轉(zhuǎn)換成帶有韻律信息的音位標(biāo)音信息。
還將語(yǔ)音代碼序列輸入到多路復(fù)用部104-b,將它和帶有韻律信息的音位標(biāo)音信息多路復(fù)用,成為通過(guò)發(fā)送部105-b發(fā)送到通信路徑的一個(gè)數(shù)據(jù)序列。
通過(guò)這種組成,不需與根據(jù)本發(fā)明的第五模式一樣,把韻律產(chǎn)生部110和韻律數(shù)據(jù)庫(kù)111安裝在接收終端上,這使減小電路的規(guī)模成為可能。
由于將韻律變換部112安裝在接收終端上,用戶可以按要求改變諸如語(yǔ)音速率和音高之類的語(yǔ)音聲音參數(shù)。
此外,由于將音段讀出部113和音段數(shù)據(jù)庫(kù)114安裝在接收終端上,用戶有可能按要求在男聲和女聲之間轉(zhuǎn)換和在不同的發(fā)言者之間轉(zhuǎn)換,以及對(duì)每個(gè)裝置設(shè)置不同發(fā)言者的語(yǔ)音聲音。
如對(duì)根據(jù)本發(fā)明的第五模式所述,能簡(jiǎn)便地依賴多種語(yǔ)言。即,由于接收終端既沒(méi)有語(yǔ)言分析部也沒(méi)有韻律產(chǎn)生部,有可能實(shí)現(xiàn)不依賴任何語(yǔ)言的硬件。另一方面,發(fā)送終端有一個(gè)與某種語(yǔ)言符合的語(yǔ)言分析部。在系統(tǒng)中通過(guò)諸如便攜式電話系統(tǒng)之類的交換,使到任何人的連接成為可能的情況下,只要接收端不依賴于語(yǔ)言,總可以建立通信。在這種情況下,可以允許發(fā)送端具有語(yǔ)言依賴性。
通過(guò)上述的組成,在帶有裝在機(jī)內(nèi)(諸如裝在便攜式電話中)的語(yǔ)音聲音解碼部的通信裝置中,可以簡(jiǎn)單地通過(guò)增加少量的軟件和一個(gè)表格,增加語(yǔ)音聲音規(guī)則合成功能。在各種表格中,音段表具有較大的尺寸,但是在使用用于一般規(guī)則合成系統(tǒng)中的波形段的情況下,需要100kB或更多。相反,在用代碼數(shù)字形成表格的情況下,對(duì)于組成約需要10kB。當(dāng)然,在諸如規(guī)則合成系統(tǒng)之類的波形產(chǎn)生部中,軟件也是不必需的。相應(yīng)地,可以在單個(gè)芯片中實(shí)現(xiàn)所有這些功能。
這樣,在保持傳統(tǒng)的語(yǔ)音聲音通信功能的同時(shí),通過(guò)語(yǔ)音符號(hào)文本增加規(guī)則合成功能,使應(yīng)用范圍擴(kuò)大。例如,在通過(guò)在便攜式電話上訪問(wèn)服務(wù)器并立即下載的通信之后,通過(guò)將其轉(zhuǎn)換成語(yǔ)音聲音,就有可能聽到最新的新聞信息的內(nèi)容。也有可能在內(nèi)裝有尋呼機(jī)功能的裝置上輸出帶有字符顯示的語(yǔ)音聲音。
語(yǔ)音聲音規(guī)則合成功能可以通過(guò)改變參數(shù)而變化音高或速率,因此,它有這樣的優(yōu)點(diǎn),即可以選擇合適的音高高度或速率,以根據(jù)環(huán)境噪聲而舒服地收聽。
此外,當(dāng)具有內(nèi)裝的簡(jiǎn)單文本處理功能時(shí),通過(guò)輸入來(lái)自通信終端的文本和通過(guò)將它轉(zhuǎn)換成語(yǔ)音符號(hào)文本,有可能對(duì)接收者發(fā)送帶有合成語(yǔ)音聲音的消息。
而且當(dāng)輸入文本時(shí),有可能將它在終端上轉(zhuǎn)換成合成的語(yǔ)音聲音,因此,可以把它作為話音備忘錄而使用。
內(nèi)裝的高級(jí)文本處理功能需要復(fù)雜的軟件和大規(guī)模的詞典,因此,可以將它們裝入中繼站,可以以低成本實(shí)現(xiàn)相同的功能。
此外,在語(yǔ)言分析部和韻律產(chǎn)生部裝入發(fā)送終端或中繼站的情況下,有可能實(shí)現(xiàn)一種不依賴任何語(yǔ)言的接收終端。
權(quán)利要求
1.一種語(yǔ)音聲音通信系統(tǒng),其特征在于,包括發(fā)送部,它具有文本輸入手段和發(fā)送手段;接收部,它具有接收手段、語(yǔ)言分析手段、韻律產(chǎn)生手段、音段數(shù)據(jù)存儲(chǔ)手段、音段讀出手段和合成手段,其中,所述文本輸入手段輸入文本信息;所述發(fā)送手段將所述文本信息發(fā)送到通信路徑;所述接收手段從所述通信路徑接收所述文本信息;所述語(yǔ)言分析手段分析所述文本信息,以致將所述文本信息轉(zhuǎn)換成音位標(biāo)音信息;所述韻律產(chǎn)生手段將所述音位標(biāo)音信息轉(zhuǎn)換成帶韻律的音標(biāo);所述音段讀出手段根據(jù)所述帶有韻律信息的音位標(biāo)音信息,從所述音段數(shù)據(jù)存儲(chǔ)手段中讀出音段數(shù)據(jù);所述合成手段使用所述帶有韻律信息的音位標(biāo)音信息和所述音段數(shù)據(jù),合成語(yǔ)音聲音;所述音段數(shù)據(jù)存儲(chǔ)手段存儲(chǔ)發(fā)聲源特征和聲道傳送特征信息;以及所述合成部通過(guò)產(chǎn)生發(fā)聲源波形,并根據(jù)所述聲道傳送特征信息對(duì)所述發(fā)聲源波形進(jìn)行濾波處理,來(lái)合成語(yǔ)音聲音,其中所述發(fā)聲源波形具有根據(jù)所述韻律信息的周期和根據(jù)所述發(fā)聲源特征的特征。
2.如權(quán)利要求1所述的語(yǔ)音聲音通信系統(tǒng),其特征在于,所述發(fā)送部具有語(yǔ)音聲音輸入手段、語(yǔ)音編碼手段和多路復(fù)用手段;所述接收部具有分離手段;所述語(yǔ)音聲音輸入手段輸入語(yǔ)音聲音信號(hào);所述語(yǔ)音編碼手段通過(guò)對(duì)要編碼的信號(hào)的音高、發(fā)聲源特征和聲道傳送特征進(jìn)行分析,將所述輸入語(yǔ)音聲音信號(hào)轉(zhuǎn)換成語(yǔ)音代碼序列;所述多路復(fù)用手段對(duì)待轉(zhuǎn)換成一個(gè)代碼序列的所述文本信息和所述語(yǔ)音代碼序列進(jìn)行多路復(fù)用;所述分離手段將所述代碼序列分離成所述文本信息和所述語(yǔ)音代碼序列;以及所述合成手段將所述語(yǔ)音代碼序列轉(zhuǎn)換成語(yǔ)音聲音信號(hào)。
3.一種語(yǔ)音聲音通信系統(tǒng),其特征在于,包括具有文本輸入手段、語(yǔ)言分析手段和發(fā)送手段的發(fā)送部;以及具有接收手段、韻律產(chǎn)生手段、音段數(shù)據(jù)存儲(chǔ)手段、音段讀出手段和合成手段的接收部,其中,所述文本輸入手段輸入文本信息;所述語(yǔ)言分析手段將所述文本信息轉(zhuǎn)換成音位標(biāo)音信息;所述發(fā)送手段將所述音位標(biāo)音信息發(fā)送到通信路徑;所述接收手段接收來(lái)自所述通信路徑的所述音位標(biāo)音信息;所述韻律產(chǎn)生手段將所述音位標(biāo)音信息轉(zhuǎn)換成帶有韻律信息的音位標(biāo)音信息;所述音段讀出手段根據(jù)所述帶有韻律信息的音位標(biāo)音信息,從所述音段數(shù)據(jù)存儲(chǔ)手段中讀出音段數(shù)據(jù);所述合成手段使用所述帶有韻律信息的音位標(biāo)音信息的所述音段數(shù)據(jù),合成語(yǔ)音聲音;所述音段數(shù)據(jù)存儲(chǔ)手段存儲(chǔ)發(fā)聲源特征和聲道傳送特征信息;以及所述合成手段通過(guò)產(chǎn)生發(fā)聲源波形,并根據(jù)所述聲道傳送特征信息對(duì)所述發(fā)聲源波形進(jìn)行濾波處理,來(lái)合成語(yǔ)音聲音,其中所述發(fā)聲源波形具有根據(jù)所述韻律信息的周期和根據(jù)所述發(fā)聲源特征的特征。
4.如權(quán)利要求3所述的語(yǔ)音聲音通信系統(tǒng),其特征在于,所述發(fā)送部具有語(yǔ)音聲音輸入手段、語(yǔ)音編碼手段和多路復(fù)用手段;所述接收部具有分離手段;所述語(yǔ)音聲音輸入手段輸入語(yǔ)音聲音信號(hào);所述語(yǔ)音編碼手段通過(guò)對(duì)要編碼的信號(hào)的音高、發(fā)聲源特征和聲道傳送特征進(jìn)行分析,將所述輸入語(yǔ)音聲音信號(hào)轉(zhuǎn)換成語(yǔ)音代碼序列;所述多路復(fù)用手段對(duì)所述文本信息和所述聲音語(yǔ)音代碼序列進(jìn)行多路復(fù)用,以便產(chǎn)生一個(gè)代碼序列‘所述分離手段將所述代碼序列分離成所述文本信息和所述語(yǔ)音代碼序列;以及所述合成手段將所述語(yǔ)音代碼序列轉(zhuǎn)換成語(yǔ)音聲音信號(hào)。
5.一種語(yǔ)音聲音通信系統(tǒng),其特征在于,包括具有文本輸入手段、語(yǔ)言分析手段、韻律產(chǎn)生手段和發(fā)送手段的發(fā)送部;以及具有接收手段、音段數(shù)據(jù)存儲(chǔ)手段、音段讀出手段和合成手段的接收部,其中,所述文本輸入手段輸入文本信息;所述語(yǔ)言分析手段將所述文本信息轉(zhuǎn)換成音位標(biāo)音信息;所述韻律產(chǎn)生手段將所述音位標(biāo)音信息轉(zhuǎn)換成帶有韻律信息的音位標(biāo)音信息;所述發(fā)送手段將所述帶有韻律信息的音位標(biāo)音信息發(fā)送到通信路徑;所述接收手段接收來(lái)自所述通信路徑的所述音位標(biāo)音信息;所述音段讀出手段根據(jù)所述帶有韻律信息的音位標(biāo)音信息,從所述音段數(shù)據(jù)存儲(chǔ)手段中讀出音段數(shù)據(jù);所述合成手段通過(guò)利用帶有韻律信息的音位標(biāo)音信息和所述音段數(shù)據(jù),合成語(yǔ)音聲音;所述音段數(shù)據(jù)存儲(chǔ)手段存儲(chǔ)發(fā)聲源特征和聲道傳送特征信息;以及所述合成部通過(guò)產(chǎn)生發(fā)聲源波形,并根據(jù)所述聲道傳送特征信息對(duì)所述發(fā)聲源波形進(jìn)行濾波處理,來(lái)合成語(yǔ)音聲音,其中所述發(fā)聲源波形具有根據(jù)所述韻律信息的周期和根據(jù)所述發(fā)聲源特征的特征。
6.如權(quán)利要求5所述的語(yǔ)音聲音通信系統(tǒng),其特征在于,所述發(fā)送部具有語(yǔ)音輸入手段、語(yǔ)音編碼手段和多路復(fù)用手段;所述接收部具有分離手段;所述語(yǔ)音輸入手段輸入語(yǔ)音聲音信號(hào);所述語(yǔ)音編碼手段通過(guò)對(duì)要編碼的信號(hào)的音高、發(fā)聲源特征和聲道傳送特征進(jìn)行分析,將所述語(yǔ)音聲音信號(hào)轉(zhuǎn)換成語(yǔ)音代碼序列;所述多路復(fù)用手段對(duì)所述帶有韻律信息的音位標(biāo)音信息和所述語(yǔ)音代碼序列進(jìn)行多路復(fù)用,以便產(chǎn)生一個(gè)代碼序列;所述分離手段將所述代碼序列分離成所述帶有韻律信息的音位標(biāo)音信息和所述語(yǔ)音代碼序列;以及所述合成手段將所述語(yǔ)音代碼序列轉(zhuǎn)換成語(yǔ)音聲音信號(hào)。
7.一種語(yǔ)音聲音通信系統(tǒng),其特征在于,包括發(fā)送部,具有文本輸入手段和第一發(fā)送手段;轉(zhuǎn)發(fā)器部,具有第一接收手段、語(yǔ)言分析手段和第二發(fā)送手段;以及接收部,具有第二接收手段、韻律產(chǎn)生手段、音段數(shù)據(jù)存儲(chǔ)手段、音段讀出手段和合成手段;其中,所述文本輸入手段輸入文本信息;所述第一發(fā)送手段將所述文本信息發(fā)送到第一通信路徑;所述第一接收手段接收來(lái)自所述第一通信路徑的所述文本信息;所述語(yǔ)言分析手段將所述文本信息轉(zhuǎn)換成音位標(biāo)音信息;所述第二發(fā)送手段將所述音位標(biāo)音信息發(fā)送到第二通信路徑;所述第二接收手段接收來(lái)自所述第二通信路徑的所述音位標(biāo)音信息;所述韻律產(chǎn)生手段將所述音位標(biāo)音信息轉(zhuǎn)換成帶有韻律信息的音位標(biāo)音信息;所述音段讀出手段根據(jù)所述帶有韻律信息的音位標(biāo)音信息,從所述音段數(shù)據(jù)存儲(chǔ)手段中讀出音段數(shù)據(jù);所述合成手段通過(guò)使用所述帶有韻律信息的音位標(biāo)音信息和所述音段數(shù)據(jù),合成語(yǔ)音聲音;所述音段數(shù)據(jù)存儲(chǔ)手段存儲(chǔ)發(fā)聲源特征和聲道傳送特征信息;以及所述合成部通過(guò)產(chǎn)生發(fā)聲源波形,并根據(jù)所述聲道傳送特征信息對(duì)所述發(fā)聲源波形進(jìn)行濾波處理,來(lái)合成語(yǔ)音聲音,其中所述發(fā)聲源波形具有根據(jù)所述韻律信息的周期和具有根據(jù)所述發(fā)聲源特征的特征。
8.如權(quán)利要求7所述的語(yǔ)音聲音通信系統(tǒng),其特征在于,所述發(fā)送部具有語(yǔ)音聲音輸入手段、語(yǔ)音編碼手段和第一多路復(fù)用手段;所述轉(zhuǎn)發(fā)器部具有第一分離手段和第二多路復(fù)用手段;所述接收部具有第二分離手段;所述語(yǔ)音聲音輸入手段輸入語(yǔ)音聲音信號(hào);所述語(yǔ)音編碼手段通過(guò)對(duì)要編碼的信號(hào)的音高、發(fā)聲源特征和聲道傳送特征進(jìn)行分析,將所述語(yǔ)音聲音信號(hào)轉(zhuǎn)換成語(yǔ)音代碼序列;所述第一多路復(fù)用手段對(duì)所述文本信息和所述語(yǔ)音代碼序列進(jìn)行多路復(fù)用,以便產(chǎn)生一個(gè)代碼序列;所述第一分離手段將所述代碼序列分離成所述文本信息和所述語(yǔ)音代碼序列;所述第二多路復(fù)用手段對(duì)所述音位標(biāo)音信息和所述語(yǔ)音代碼序列進(jìn)行多路復(fù)用,以便產(chǎn)生一個(gè)代碼序列;所述第二分離手段將所述第二多路復(fù)用手段多路復(fù)用后的代碼序列分離成所述音位標(biāo)音信息和所述語(yǔ)音代碼序列;以及所述合成手段將所述語(yǔ)音代碼序列轉(zhuǎn)換成語(yǔ)音聲音信號(hào)。
9.一種語(yǔ)音聲音通信系統(tǒng),其特征在于,包括發(fā)送部,具有文本輸入手段和第一發(fā)送手段;轉(zhuǎn)發(fā)器部,具有第一接收手段、語(yǔ)言分析手段、韻律產(chǎn)生手段和第二發(fā)送手段;以及接收部,具有第二接收手段、音段數(shù)據(jù)存儲(chǔ)手段、音段讀出手段和合成手段;其中,所述文本輸入手段輸入文本信息;所述第一發(fā)送手段將所述文本信息發(fā)送到第一通信路徑;所述第一接收手段接收來(lái)自所述第一通信路徑的所述文本信息;所述語(yǔ)言分析手段將所述文本信息轉(zhuǎn)換成音位標(biāo)音信息;所述韻律產(chǎn)生手段將所述音位標(biāo)音信息轉(zhuǎn)換成帶有韻律信息的音位標(biāo)音信息;所述第二發(fā)送部將所述帶有韻律信息的音位標(biāo)音信息發(fā)送到第二通信路徑;所述第二接收部接收來(lái)自所述第二通信路徑的、帶有韻律信息的所述音位標(biāo)音信息;所述音段讀出手段根據(jù)所述帶有韻律信息的音位標(biāo)音信息,從所述音段數(shù)據(jù)存儲(chǔ)手段中讀出音段數(shù)據(jù);所述合成手段通過(guò)使用所述帶有韻律信息的音位標(biāo)音信息和所述音段數(shù)據(jù),合成語(yǔ)音聲音;所述音段數(shù)據(jù)存儲(chǔ)手段存儲(chǔ)發(fā)聲源特征和聲道傳送特征信息;以及所述合成部通過(guò)產(chǎn)生發(fā)聲源波形,并根據(jù)所述聲道傳送特征信息對(duì)所述發(fā)聲源波形進(jìn)行濾波處理,來(lái)合成語(yǔ)音聲音,其中所述發(fā)聲源波形具有根據(jù)所述韻律信息的周期和具有根據(jù)所述發(fā)聲源特征的特征。
10.如權(quán)利要求9所述的語(yǔ)音聲音通信系統(tǒng),其特征在于,所述發(fā)送部具有語(yǔ)音聲音輸入手段、語(yǔ)音編碼手段和第一多路復(fù)用手段;所述轉(zhuǎn)發(fā)器部具有第一分離手段和第二多路復(fù)用手段,而所述接收部具有第二分離手段;所述語(yǔ)音聲音輸入手段輸入語(yǔ)音聲音信號(hào);所述語(yǔ)音編碼手段通過(guò)對(duì)要編碼的信號(hào)的音高、發(fā)聲源特征和聲道傳送特征進(jìn)行分析,將所述語(yǔ)音聲音信號(hào)轉(zhuǎn)換成語(yǔ)音代碼序列;所述第一多路復(fù)用手段對(duì)所述文本信息和所述語(yǔ)音代碼序列進(jìn)行多路復(fù)用,以便產(chǎn)生一個(gè)代碼序列;所述第一分離手段將所述代碼序列分離成所述文本信息和所述代碼序列;所述第二多路復(fù)用手段對(duì)所述帶有韻律信息的音位標(biāo)音信息和所述語(yǔ)音代碼序列進(jìn)行多路復(fù)用,以便產(chǎn)生一個(gè)代碼序列。所述第二分離手段將所述第二多路復(fù)用手段所多路復(fù)用的代碼序列分離成所述帶有韻律信息的音位標(biāo)音信息和所述語(yǔ)音代碼序列;以及所述合成手段將所述語(yǔ)音代碼序列轉(zhuǎn)換成語(yǔ)音聲音信號(hào)。
11.一種語(yǔ)音聲音通信系統(tǒng),其特征在于,包括發(fā)送部,具有文本輸入手段、語(yǔ)言分析手段和第一發(fā)送手段;轉(zhuǎn)發(fā)器部,具有第一接收手段、韻律產(chǎn)生手段和第二發(fā)送手段;以及接收部,具有第二接收手段、音段數(shù)據(jù)存儲(chǔ)手段、音段讀出手段和合成手段;其中,所述文本輸入手段文本信息;所述語(yǔ)言分析手段將所述文本信息轉(zhuǎn)換成音位標(biāo)音信息;所述第一發(fā)送手段將所述音位標(biāo)音信息發(fā)送到第一通信路徑;所述第一接收手段接收來(lái)自所述第一通信路徑的所述音位標(biāo)音信息;所述韻律產(chǎn)生手段將所述音位標(biāo)音信息轉(zhuǎn)換成帶有韻律信息的音位標(biāo)音信息;所述第二發(fā)送手段將所述帶有韻律信息的音位標(biāo)音信息發(fā)送到第二通信路徑;所述第二接收手段接收來(lái)自所述第二通信路徑的所述帶有韻律信息的音位標(biāo)音信息;所述音段讀出手段根據(jù)所述帶有韻律信息的音位標(biāo)音信息,從所述音段數(shù)據(jù)存儲(chǔ)手段中讀出音段數(shù)據(jù);所述合成手段通過(guò)使用所述帶有韻律信息的音位標(biāo)音信息和所述音段數(shù)據(jù),合成語(yǔ)音聲音;所述音段數(shù)據(jù)存儲(chǔ)手段存儲(chǔ)發(fā)聲源特征和聲道傳送特征信息;以及所述合成部通過(guò)產(chǎn)生發(fā)聲源波形合成語(yǔ)音聲音,并根據(jù)所述聲道傳送特征信息對(duì)所述發(fā)聲源波進(jìn)行濾波處理形,來(lái)合成語(yǔ)音聲音,其中所述發(fā)聲源波形具有根據(jù)所述韻律信息的周期和根據(jù)所述發(fā)聲源特征的特征。
12.如權(quán)利要求11所述的語(yǔ)音聲音通信系統(tǒng),其特征在于,所述發(fā)送部具有語(yǔ)音聲音輸入手段、語(yǔ)音編碼手段和第一多路復(fù)用手段;所述轉(zhuǎn)發(fā)器部具有第一分離手段和第二多路復(fù)用手段,而所述接收部具有第二分離手段;所述語(yǔ)音聲音輸入手段輸入語(yǔ)音聲音信號(hào);所述語(yǔ)音編碼手段通過(guò)對(duì)要編碼的信號(hào)的音高、發(fā)聲源特征和聲道傳送特征進(jìn)行分析,將所述語(yǔ)音聲音信號(hào)轉(zhuǎn)換成語(yǔ)音代碼序列;所述第一多路復(fù)用手段對(duì)所述音位標(biāo)音信息和所述語(yǔ)音代碼序列進(jìn)行多路復(fù)用,以便產(chǎn)生一個(gè)代碼序列的所述第一分離手段將所述代碼序列分離成所述音位標(biāo)音信息和所述語(yǔ)音代碼序列;所述第二多路復(fù)用手段對(duì)所述帶有韻律信息的音位標(biāo)音信息和所述語(yǔ)音代碼序列進(jìn)行多路復(fù)用,以便產(chǎn)生一個(gè)代碼序列;所述第二分離手段將所述第二多路復(fù)用手段多路復(fù)用后的所述代碼序列分離成所述帶有韻律信息的音位標(biāo)音信息和所述語(yǔ)音代碼序列;以及所述合成手段將所述語(yǔ)音代碼序列轉(zhuǎn)換成語(yǔ)音聲音信號(hào)。
13.如權(quán)利要求1、3、5、7、9或11所述的任何一種語(yǔ)音聲音通信系統(tǒng),其特征在于,用戶可以將任意的文本輸入到文本輸入手段中。
14.如權(quán)利要求1、3、5、7、9或11所述的任何一種語(yǔ)音聲音通信系統(tǒng),其特征在于,所述文本輸入手段通過(guò)從存儲(chǔ)媒體、互連網(wǎng)或LAN之類的網(wǎng)絡(luò),或都數(shù)據(jù)庫(kù)讀出文本,來(lái)完成輸入。
15.如權(quán)利要求1、3、5、7、9或11所述的任何一種語(yǔ)音聲音通信系統(tǒng),其特征在于,還包括參數(shù)輸入手段,并且用戶可以按要求通過(guò)參數(shù)輸入手段輸入語(yǔ)音聲音的參數(shù)值,而所述韻律產(chǎn)生手段和所述音段讀出手段輸出根據(jù)所述參數(shù)值修改的值。
16.如權(quán)利要求2、4、6、8、10或12所述的任何一種語(yǔ)音聲音通信系統(tǒng),其特征在于,用戶可以將任意的文本輸入到文本輸入手段。
17.如權(quán)利要求2、4、6、8、10或12所述的任何一種語(yǔ)音聲音通信系統(tǒng),其特征在于,所述文本輸入手段通過(guò)從存儲(chǔ)媒體、互連網(wǎng)或LAN之類的網(wǎng)絡(luò),或數(shù)據(jù)庫(kù)讀出文本,來(lái)完成輸入。
18.如權(quán)利要求2、4、6、8、10或12所述的任何一種語(yǔ)音聲音通信系統(tǒng),其特征在于,還包括參數(shù)輸入手段,用戶可以通過(guò)參數(shù)輸入手段按要求輸入語(yǔ)音聲音的參數(shù)值,而所述韻律產(chǎn)生手段和所述音段讀出手段輸出根據(jù)所述參數(shù)值修改的值。
全文摘要
在本發(fā)明的語(yǔ)音聲音通信系統(tǒng)中,接收部接收通信路徑上的代碼序列,并發(fā)送到分離部。分離部將代碼序列分離成語(yǔ)音代碼序列和文本信息,輸出到合成部和語(yǔ)言分析部。合成部將語(yǔ)音代碼序列解碼成音高周期、LSP系數(shù)、代碼數(shù)字等,以便再現(xiàn)語(yǔ)音聲音。語(yǔ)言分析部將文本信息轉(zhuǎn)換成發(fā)音和重音信息,韻律產(chǎn)生部將其加到韻律信息上。音段讀出部從音段數(shù)據(jù)庫(kù)讀出適合該音素的LSP系數(shù)、代碼數(shù)字,并從韻律信息中取得音高頻率,輸入合成部,合成為語(yǔ)音聲音。
文檔編號(hào)G10L13/08GK1271216SQ0010682
公開日2000年10月25日 申請(qǐng)日期2000年4月17日 優(yōu)先權(quán)日1999年4月16日
發(fā)明者釜井孝浩, 松井謙二, 朱偉中 申請(qǐng)人:松下電器產(chǎn)業(yè)株式會(huì)社