国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      語音合成裝置和方法

      文檔序號:2830369閱讀:197來源:國知局
      專利名稱:語音合成裝置和方法
      技術(shù)領(lǐng)域
      本發(fā)明涉及一種語音合成裝置和語音合成方法,用于合成由多個語音段(speech segment)組成的語音,每個語音段包含至少一個音素;特別是涉及這樣一種語音合成裝置和語音合成方法,其可利用相對小的數(shù)據(jù)庫容量合成自然的語音。
      背景技術(shù)
      在常規(guī)的語音合成裝置和語音合成方法中,通常將某些語言中的語音分成多個語音段,每個語音段包含該語言中的至少一個音素。此外,通常將每個語音段分解為多個音調(diào)波形(pitch waveform)。通過將分解每個語音段得到的各音調(diào)波形與每個語音段相關(guān)聯(lián),并記錄在數(shù)據(jù)庫中。當(dāng)合成語音時使用在數(shù)據(jù)庫中的音調(diào)波形。
      這類常規(guī)的語音合成方法其中之一公開在171484/1998號日本專利申請公開公報中。在這一常規(guī)的語音合成方法中,為了節(jié)約數(shù)據(jù)庫的容量,除去了被認(rèn)為是多余的音調(diào)波形。使用其它作為代表性的音調(diào)波形來合成語音。
      然而,上述的常規(guī)的語音合成方法遇到這樣一個問題,即數(shù)據(jù)庫不能按明顯減少的數(shù)據(jù)記錄音調(diào)波形,其原因在于,在合成自然語音之前,由于它們的相位特性不同,音調(diào)波形形狀變化。另一個問題是,為了節(jié)約數(shù)據(jù)庫的容量,只在該數(shù)據(jù)庫中記錄了少量的音調(diào)波形,導(dǎo)致合成語音的聲音質(zhì)量降低。

      發(fā)明內(nèi)容
      因此,本發(fā)明的目的是提供一種語音合成裝置和語音合成方法,其可利用相對小的數(shù)據(jù)庫容量合成自然的語音。
      根據(jù)本發(fā)明的第一個方面,提供一種語音合成裝置,用于合成由多個語音段組成的語音,每個語音段包含至少一個音素,該裝置包含數(shù)據(jù)庫,用于存儲與所述語音段相關(guān)的數(shù)據(jù);語音段分解裝置,用于將每個所述語音段分解為多個音調(diào)波形,每個音調(diào)波形具有相位特性;相位特性變換裝置,用于將所述音調(diào)波形的所述相位特性變換為用于每個所述音調(diào)波形的統(tǒng)一的(uniformed)相位特性;音調(diào)波形分類裝置,用于將所述音調(diào)波形分類為多組,每組由形狀基本上相同的多個所述音調(diào)波形構(gòu)成;音調(diào)波形記錄裝置,用于通過從在每一所述組中的多個所述音調(diào)波形中提取一個音調(diào)波形將所述音調(diào)波形記錄在所述數(shù)據(jù)庫中;以及合成裝置,用于利用記錄在所述數(shù)據(jù)庫中的所述音調(diào)波形合成所述語音。
      如此構(gòu)成的上述語音合成裝置使得消除了音調(diào)波形形狀的差別,因此使其可以將存儲在數(shù)據(jù)庫中的數(shù)據(jù)量降低到一期望的水平。此外,音調(diào)波形的相位特性變換操作很難影響合成語音的聲音質(zhì)量,因此以很小的聲音質(zhì)量下降實(shí)現(xiàn)了語音合成。
      根據(jù)本發(fā)明的第二個方面,提供一種語音合成裝置,還包含相位特性發(fā)生裝置,用于根據(jù)通過分解所述語音段得到的所述音調(diào)波形的所述相位特性產(chǎn)生所述統(tǒng)一的相位特性。
      如此構(gòu)成的上述語音合成裝置使得避免產(chǎn)生能量集中(energyconcentration)的例如零相位的不常用的波形,因此以穩(wěn)定的聲音質(zhì)量實(shí)現(xiàn)了語音合成。
      根據(jù)本發(fā)明的第三個方面,提供一種語音合成裝置,其中所述相位特性發(fā)生裝置是可控制的,以便通過對通過分解所述語音段得到的所述音調(diào)波形的相位特性進(jìn)行平均,產(chǎn)生所述統(tǒng)一的相位特性。
      如此構(gòu)成的上述語音合成裝置使得避免產(chǎn)生能量集中的例如零相位的不常用的波形,以及可使音調(diào)波形形狀的變化很小,因此以更穩(wěn)定更自然的聲音質(zhì)量實(shí)現(xiàn)了語音合成。
      根據(jù)本發(fā)明的第四個方面,提供一種語音合成裝置,其中所述相位特性分類裝置是可控制的,以便根據(jù)對應(yīng)的音素類型對所述音調(diào)波形進(jìn)行分類。
      如此構(gòu)成的上述語音合成裝置使得用于將音調(diào)波形分類的計算量可以顯著降低。
      根據(jù)本發(fā)明的第五個方面,提供一種語音合成裝置,其中所述相位特性分類裝置是可控制的,以便通過對在僅用于比較的對應(yīng)頻率,將幅值特性加權(quán)的所述音調(diào)波形進(jìn)行比較,對所述音調(diào)波形進(jìn)行分類。
      如此構(gòu)成的上述語音合成裝置使得能實(shí)現(xiàn)以較小的數(shù)據(jù)容量與高聲音質(zhì)量相協(xié)調(diào)。特別是,不僅在不重要的頻帶內(nèi)忽視了音調(diào)波形形狀的差別,而且還可以以較小的數(shù)據(jù)容量和高聲音質(zhì)量實(shí)現(xiàn)維持在重要的頻帶內(nèi)的音調(diào)波形的同一性。
      根據(jù)本發(fā)明的第六個方面,提供一種語音合成裝置,其中還包含音調(diào)波形選擇裝置,用于通過當(dāng)組合所述語音時,比較彼此鄰近的所述音調(diào)波形,來選擇需記錄在所述數(shù)據(jù)庫中的音調(diào)波形。
      如此構(gòu)成的上述語音合成裝置使得按照相鄰波形之間維持連續(xù)性,可以重新組合語音,因此,進(jìn)一步減少了聲音質(zhì)量的下降。
      根據(jù)本發(fā)明的第七個方面,提供一種語音合成方法,用于合成由多個語音段組成的語音,每個語音段包含至少一個音素,該方法包含的步驟有語音段分解步驟,將每個所述語音段分解為多個音調(diào)波形,每個音調(diào)波形具有相位特性;相位特性變換步驟,將所述音調(diào)波形的所述相位特性變換為用于每個所述音調(diào)波形的統(tǒng)一的相位特性;音調(diào)波形分類步驟,將所述音調(diào)波形分類為多組,每組由形狀基本上相同的多個所述音調(diào)波形構(gòu)成;音調(diào)波形記錄步驟,通過從在每一所述組中的多個所述音調(diào)波形中提取一個音調(diào)波形將所述音調(diào)波形記錄在一數(shù)據(jù)庫中;以及合成步驟,用于利用記錄在所述數(shù)據(jù)庫中的所述音調(diào)波形合成所述語音。
      如此構(gòu)成的上述語音合成方法使得如此構(gòu)成的上述語音合成方法,消除了音調(diào)波形形狀的差別,因此使其可以將存儲在數(shù)據(jù)庫中的數(shù)據(jù)量降低到一期望的水平。此外,音調(diào)波形的相位特性變換操作很難影響合成語音的聲音質(zhì)量,因此以很小的聲音質(zhì)量下降實(shí)現(xiàn)了語音合成。
      根據(jù)本發(fā)明的第八個方面,提供一種語音合成方法,還包含相位特性發(fā)生步驟,根據(jù)通過分解所述語音段得到的所述音調(diào)波形的所述相位特性產(chǎn)生所述統(tǒng)一的相位特性。
      如此構(gòu)成的上述語音合成方法使得避免產(chǎn)生能量集中心的例如零相位的不常用的波形,因此以穩(wěn)定的聲音質(zhì)量實(shí)現(xiàn)了語音合成。
      根據(jù)本發(fā)明的第九個方面,提供一種語音合成方法,其中所述相位特性發(fā)生步驟通過對通過分解所述語音段得到的所述音調(diào)波形的相位特性進(jìn)行平均,產(chǎn)生所述統(tǒng)一的相位特性。
      如此構(gòu)成的上述語音合成方法使得避免產(chǎn)生能量集中的例如零相位的不常用的波形,以及可使音調(diào)波形形狀的變化很小,因此以更穩(wěn)定更自然的聲音質(zhì)量實(shí)現(xiàn)了語音合成。
      根據(jù)本發(fā)明的第十個方面,提供一種語音合成方法,還包含所述相位特性預(yù)先分類步驟,預(yù)先根據(jù)對應(yīng)的音素類型對所述音調(diào)波形進(jìn)行分類。
      如此構(gòu)成的上述語音合成裝置使得用于將音調(diào)波形分類的計算量可以顯著降低。
      根據(jù)本發(fā)明的第十一個方面,提供一種語音合成方法,其中所述相位特性分類步驟,通過對在僅用于比較的對應(yīng)頻率將幅值特性加權(quán)的所述音調(diào)波形進(jìn)行比較,對所述音調(diào)波形進(jìn)行分類。
      如此構(gòu)成的上述語音合成方法使得能實(shí)現(xiàn)以較小的數(shù)據(jù)容量與高聲音質(zhì)量相協(xié)調(diào)。特別是,不僅在不重要的頻帶內(nèi)忽視了音調(diào)波形形狀的差別,而且還可以以較小的數(shù)據(jù)容量和高聲音質(zhì)量實(shí)現(xiàn)維持在重要的頻帶內(nèi)音調(diào)波形的同一性。
      根據(jù)本發(fā)明的第十二個方面,提供一種語音合成方法,其中還包含音調(diào)波形選擇步驟,通過當(dāng)組合所述語音時比較彼此鄰近的所述音調(diào)波形,來選擇需記錄在所述數(shù)據(jù)庫中的音調(diào)波形。
      如此構(gòu)成的上述語音合成方法使得按照相鄰波形之間維持連續(xù)性,可以重新組合語音,因此,進(jìn)一步減少了聲音質(zhì)量的下降。
      根據(jù)本發(fā)明的第十三個方面,提供一種音調(diào)波形記錄裝置,用于將構(gòu)成多個語音段的多個音調(diào)波形記錄在一數(shù)據(jù)庫,該數(shù)據(jù)庫用于存儲與所述語音段相關(guān)的數(shù)據(jù),每個語音段包含至少一個音素,所述音調(diào)波形用于合成由所述語音段組成的語音,該音調(diào)波形記錄裝置包含語音段分解裝置,用于將每個所述語音段分解為音調(diào)波形多個,每個音調(diào)波形具有相位特性;相位特性變換裝置,用于將所述音調(diào)波形的所述相位特性變換為用于每個所述音調(diào)波形的統(tǒng)一的相位特性;音調(diào)波形分類裝置,用于將所述音調(diào)波形分類為多組,每組由形狀基本上相同的多個所述音調(diào)波形構(gòu)成;音調(diào)波形記錄裝置,用于通過從在每一所述組中的多個所述音調(diào)波形中提取一個音調(diào)波形,將所述音調(diào)波形記錄在所述數(shù)據(jù)庫中。
      如此構(gòu)成的上述音調(diào)波形記錄裝置使得消除了音調(diào)波形形狀的差別,因此使其可以將存儲在數(shù)據(jù)庫中的數(shù)據(jù)量降低到一期望的水平。此外,音調(diào)波形的相位特性變換操作很難影響合成語音的聲音質(zhì)量,因此以很小的聲音質(zhì)量下降實(shí)現(xiàn)了語音合成。
      根據(jù)本發(fā)明的第十四個方面,提供一種音調(diào)波形記錄方法,將構(gòu)成多個語音段的多個音調(diào)波形記錄在一數(shù)據(jù)庫,該數(shù)據(jù)庫用于存儲與所述語音段相關(guān)的數(shù)據(jù),每個語音段包含至少一個音素,所述音調(diào)波形用于合成由所述語音段組成的語音,該音調(diào)波形記錄方法包含的步驟有語音段分解步驟,將每個所述語音段分解為多個音調(diào)波形,每個音調(diào)波形具有相位特性;相位特性變換步驟,將所述音調(diào)波形的所述相位特性變換為用于每個所述音調(diào)波形的統(tǒng)一的相位特性;音調(diào)波形分類步驟,將所述音調(diào)波形分類為多組,每組由形狀基本上相同的多個所述音調(diào)波形構(gòu)成;音調(diào)波形記錄步驟,通過從在每一所述組中的多個所述音調(diào)波形中提取一個音調(diào)波形,將所述音調(diào)波形記錄在所述數(shù)據(jù)庫中。
      如此構(gòu)成的上述調(diào)波形記錄裝置使得消除了音調(diào)波形形狀的差別,因此使其可以將數(shù)據(jù)庫中的數(shù)據(jù)量降低到一期望的水平。此外,音調(diào)波形的相位特性變換操作很難影響合成語音的聲音質(zhì)量,因此以很小的聲音質(zhì)量下降實(shí)現(xiàn)了語音合成。


      通過結(jié)合附圖的如下介紹將更清楚地理解根據(jù)本發(fā)明的語音合成裝置和語音合成方法的特征和優(yōu)點(diǎn),其中圖1是根據(jù)本發(fā)明的語音合成裝置的實(shí)施例的方塊圖;圖2是根據(jù)本發(fā)明的語音合成方法的實(shí)施例的流程圖;圖3是表示音調(diào)波形一個實(shí)例的解釋性示意圖;圖4是表示在根據(jù)本發(fā)明的語音合成裝置的實(shí)施例中的將語音段分解為各音調(diào)波形的過程的解釋性示意圖;圖5是表示在根據(jù)本發(fā)明的語音合成裝置的第一實(shí)施例中的將音調(diào)波形的相位特性變換為統(tǒng)一的相位特性的過程的解釋性示意圖;圖6是表示音調(diào)波形的相位特性的一個實(shí)例的解釋性示意圖;圖7是表示在根據(jù)本發(fā)明的語音合成裝置的第一實(shí)施例中的根據(jù)音調(diào)波形重新組合語音段的過程的一個實(shí)例解釋性示意圖;圖8是表示在根據(jù)本發(fā)明的語音合成裝置的第二實(shí)施例中的產(chǎn)生統(tǒng)一的相位特性的過程的解釋性示意圖;圖9是表示在根據(jù)本發(fā)明的語音合成裝置的第二實(shí)施例中的音調(diào)波形的相位特性變換過程的解釋性示意圖;圖10是表示在根據(jù)本發(fā)明的語音合成裝置的第三實(shí)施例中的根據(jù)對應(yīng)的音素類型將音調(diào)波形分類的過程的一個實(shí)例解釋性示意圖;圖11是表示在根據(jù)本發(fā)明的語音合成裝置的第四實(shí)施例中的按照頻率對音調(diào)波形加權(quán)的過程的一個實(shí)例的解釋性示意圖;圖12是表示在根據(jù)本發(fā)明的語音合成裝置的第五實(shí)施例中的選擇音調(diào)波形的過程的一個實(shí)例的流程圖;圖13是表示在根據(jù)本發(fā)明的語音合成裝置的第五實(shí)施例中的對鄰近的音調(diào)波形進(jìn)行比較的一個實(shí)例的解釋性示意圖。
      具體實(shí)施例方式
      參照附圖,特別是圖1到7,這些圖表示根據(jù)本發(fā)明的語音合成裝置和語音合成方法的第一實(shí)施例。
      圖1是根據(jù)本發(fā)明的語音合成裝置的實(shí)施例的方塊圖。語音合成裝置10包含控制器100,例如CPU(中央處理單元),用于合成由多個語音段例如輔音-元音CV(consonant-vowel)單位或元音-輔音-元音VCV(vowel-consonant-vowel)單位組成的語音,每個語音段包含至少一個音素;程序存儲裝置110,例如存儲器,用于存儲一包含下面介紹的步驟的要由控制器100全部執(zhí)行的程序;數(shù)據(jù)庫111,例如Hard Disk(硬盤),用于存儲與語音段相關(guān)的數(shù)據(jù);數(shù)據(jù)輸入裝置121,例如麥克風(fēng),用于輸入多個包含需存儲在數(shù)據(jù)庫111的數(shù)據(jù)的語音;操作裝置122,例如鍵盤,用于接收由使用者的手動操作輸入,以便開始分解語音段,將與語音段相關(guān)的數(shù)據(jù)記錄在數(shù)據(jù)庫111;以及語音輸出裝置123,例如網(wǎng)絡(luò)適配器,其與例如因特網(wǎng)的網(wǎng)絡(luò)連接,用于輸出由控制器合成的語音。
      作為語音合成裝置10主要部分的控制器100包含語音段分解裝置101、相位特性發(fā)生裝置102、相位特性變換裝置103、調(diào)波形分類裝置104、音調(diào)波形選擇裝置105、音調(diào)波形記錄裝置106和合成裝置107。
      語音段分解裝置101是可控制的,以便將每個語音段分解為多個音調(diào)波形,每個音調(diào)波形具有相位特性和幅值特性。相位特性發(fā)生裝置102是可控制的,以便根據(jù)通過分解語音段得到的音調(diào)波形的相位特性產(chǎn)生統(tǒng)一的相位特性。相位特性變換裝置103是可控制的,以便將音調(diào)波形的相位特性變換用于每個音調(diào)波形的統(tǒng)一的相位特性。音調(diào)波形分類裝置104是可控制的,以便將各音調(diào)波形分類為多個組,每個組音調(diào)波形由多個形狀基本上相同的音調(diào)波形組成。音調(diào)波形選擇裝置105是可控制的,以便通過將每一組中音調(diào)波形的形狀相互比較,選擇需記錄在數(shù)據(jù)庫111中的音調(diào)波形。音調(diào)波形記錄裝置106是可控制的,以便通過從每一組中各音調(diào)波形中提取一個音調(diào)波形,將音調(diào)波形記錄在數(shù)據(jù)庫111中。合成裝置107是可控制的,以便利用記錄在數(shù)據(jù)庫111中的音調(diào)波形合成語音。
      圖2是語音合成方法的實(shí)施例的流程圖,由控制器100根據(jù)在程序存儲裝置110中存儲的程序執(zhí)行所包含的每個步驟。在步驟201中,將利用數(shù)據(jù)輸入裝置121輸入的構(gòu)成每個語音的每個語音段分解為多個音調(diào)波形,每個音調(diào)波形具有相位特性和幅值特性。在步驟202中,根據(jù)通過分解語音段得到的音調(diào)波形的相位特性產(chǎn)生統(tǒng)一的相位特性。此外,一旦產(chǎn)生統(tǒng)一的相位特性,可以越過步驟202,如箭頭212所指示的。在步驟203中,將音調(diào)波形的相位特性變換用于每個音調(diào)波形的統(tǒng)一的相位特性。在步驟204中,將各音調(diào)波形分類為多個組,每個組音調(diào)波形由多個形狀基本上相同的音調(diào)波形組成。在步驟205中,通過將每一組中音調(diào)波形的形狀相互比較,選擇需記錄在數(shù)據(jù)庫111中的音調(diào)波形。在步驟206中,通過從每一組中各音調(diào)波形中提取一個音調(diào)波形,將音調(diào)波形記錄在數(shù)據(jù)庫111中。在步驟207中,利用記錄在數(shù)據(jù)庫111中的音調(diào)波形合成語音。
      圖3是表示音調(diào)波形一個實(shí)例的解釋性示意圖。從多個語音段301、302、303和304例如元音-輔音-元音VCV(vowel-consonant-vowel)單位中提取音調(diào)波形,每個單位包含至少一個音素,然后將音調(diào)波形記錄在臨時數(shù)據(jù)庫311。在時域中表示音調(diào)波形,其中水平軸是時間軸。在臨時數(shù)據(jù)庫311中,將音調(diào)波形的相位特性變換為統(tǒng)一的相位特性,并通過按照相關(guān)系數(shù)(correlationcoefficient)對音調(diào)波形的形狀相互比較,將各音調(diào)波形分類為多個組,例如第一組322和第二組323。此外,從每一組中的各音調(diào)波形中分別選擇需記錄在一代表性音調(diào)波形數(shù)據(jù)庫331中的音調(diào)波形作為代表性音調(diào)波形。例如,選擇第一代表性音調(diào)波形332作為第一組322的代表,選擇第二代表性音調(diào)波形333作為第二組323的代表,然后將第一代表性音調(diào)波形332和第二代表性音調(diào)波形333記錄在一代表性音調(diào)波形數(shù)據(jù)庫331中。此外,然后,取消在臨時數(shù)據(jù)庫311中的音調(diào)波形。
      圖4是表示將語音段分解為各音調(diào)波形過程的解釋性示意圖。在時域中表示音調(diào)波形411、412、413、414、415、416和417,其中水平軸是時間軸。多個音調(diào)標(biāo)志位置421、422、423、424、425、426和427代表用于從音調(diào)波形401中提取音調(diào)波形411、412、413、414、415、416和417的基準(zhǔn)位置。音調(diào)標(biāo)志位置421到427是人工或自動預(yù)先標(biāo)記在音調(diào)波形401上的。利用例如為漢寧窗(Hanning window)的具有預(yù)定時間長度的窗口函數(shù)(windowfunction)根據(jù)對應(yīng)的音調(diào)標(biāo)志位置421到427從音調(diào)波形401的話音(voicedsound)部分中提取每一個音調(diào)波形411到417。如上所述,還將構(gòu)成該語音的其它語音段分解為多個語音段。
      圖5是表示將音調(diào)波形的相位特性變換為作為標(biāo)準(zhǔn)相位特性表示的統(tǒng)一的相位特性的過程的一個實(shí)例的解釋性示意圖。用于執(zhí)行傅里葉變換的傅里葉變換部分502,以及用于執(zhí)行反傅里葉變換的反傅里葉變換部分506構(gòu)成圖1中所示的相位特性變換裝置103。首先利用傅里葉變換部分502將音調(diào)波形501從時域變換到頻域,以便得到相位特性503和幅值特性504,每一特性具有頻率軸。然后將音調(diào)波形的相位特性503變換為該根據(jù)預(yù)先通過分解語音段得到的多個音調(diào)波形的相位特性產(chǎn)生的標(biāo)準(zhǔn)相位特性505。圖6是表示在對應(yīng)頻率具有彼此不同相位的音調(diào)波形的相位特性的一個實(shí)例的解釋性示意圖。按照利用傅里葉變換部分502得到的幅值特性維持音調(diào)波形的幅值特性504。標(biāo)準(zhǔn)相位特性505和幅值特性504構(gòu)成頻域中的音調(diào)波形。然后利用反傅里葉變換部分506將頻域中的音調(diào)波形變換到時域,得到時域中的音調(diào)波形507。還將從語音段中提取的其它音調(diào)波形的相位特性如上所述變換為標(biāo)準(zhǔn)的相位特性,以此增加各形狀基本上相同的音調(diào)波形之間的相似性。
      然后通過將每個代表兩個音調(diào)波形的相關(guān)性的相關(guān)系數(shù)相互比較,將各音調(diào)波形分類為多個組。對于兩個指定的音調(diào)波形Sm和Sn的相關(guān)系數(shù)Mmn按下式1確定Mmn=&Sigma;i=01(Sm(i)&CenterDot;Sn(i))&Sigma;i=01Sm(i)2&CenterDot;&Sigma;i=01Sn(i)2&CenterDot;&CenterDot;&CenterDot;&CenterDot;&CenterDot;&CenterDot;&CenterDot;&CenterDot;&CenterDot;&CenterDot;&CenterDot;&CenterDot;(1)]]>其中1是音調(diào)波形的長度,并將其調(diào)節(jié)到兩個音調(diào)波形Sm和Sn中的較短的一個。各音調(diào)波形之間的相關(guān)系數(shù)可以由例如歐幾里德(Euclidean)距離的距離、似然性和用于將音調(diào)波形分類的指示各音調(diào)波形之間的相關(guān)性的其它指標(biāo)替代。
      為了合成語音,分別從在對應(yīng)組中的各音調(diào)波形中選擇將需記錄在數(shù)據(jù)庫中的音調(diào)波形,即代表性音調(diào)波形。從每一組中選擇代表性音調(diào)波形,即首先以與借助矢量量化生成代碼簿相同的方式確定在該組中各音調(diào)波形的形心,然后,從該組中的各音調(diào)波形中搜索與該形心最接近的音調(diào)波形。
      將按上述所選擇的代表性音調(diào)波形記錄在一代表性音調(diào)波形數(shù)據(jù)庫331中。此外,為合成語音使在一代表性音調(diào)波形數(shù)據(jù)庫331中的代表性音調(diào)波形與該音調(diào)波形相關(guān),以便重新組合語音。
      圖7是表示根據(jù)音調(diào)波形重新組合語音段的過程的一個實(shí)例解釋性示意圖。代表性音調(diào)波形711、712和713用作為對于從原有的音調(diào)波形401中提取的原有音調(diào)波形的替代。重新組合新語音段721、722和723以形成代表性音調(diào)波形711、712和713,以及還重新組合構(gòu)成該語音的與語音段721相似的其它語音段,然后按照例如按節(jié)率(rhythm)變換的語音(phonetic)變換,變換每一語音段,其結(jié)果是利用代表性音調(diào)波形合成語音。
      如上所述,根據(jù)語音合成裝置的第一實(shí)施例,首先將每一語音段分解為多個音調(diào)波形,每個音調(diào)波形具有相位特性和幅值特性,如圖4中所示。此外,根據(jù)通過分解語音段得到的各音調(diào)波形的相位特性產(chǎn)生標(biāo)準(zhǔn)的相位特性。然后將音調(diào)波形的相位特性變換為用于每一音調(diào)波形的標(biāo)準(zhǔn)相位特性,如圖5中所示。然后將音調(diào)波形分類為多個組,每個組由形狀基本上相同的多個音調(diào)波形構(gòu)成,如圖3中所示。然后通過從每一組中各音調(diào)波形中提取一個音調(diào)波形,將音調(diào)波形記錄在代表性音調(diào)波形數(shù)據(jù)庫中。然后,利用記錄在代表性音調(diào)波形中的音調(diào)波形,通過利用代表性音調(diào)波形重新組合對應(yīng)的語音段來合成語音,如圖7中所示。
      如前所述因此構(gòu)成的上述語音合成裝置和語音合成方法使得消除了音調(diào)波形形狀的差別,因此使其可以將數(shù)據(jù)庫中的數(shù)據(jù)量降低到一期望的水平。此外,音調(diào)波形的相位特性變換操作很難影響合成語音的聲音質(zhì)量,因此以很小的聲音質(zhì)量下降實(shí)現(xiàn)了語音合成。
      參照附圖,除了圖1到7以外,特別是圖8和9,這些圖表示根據(jù)本發(fā)明的語音合成裝置和語音合成方法的第二實(shí)施例。
      語音合成裝置的第二實(shí)施例與語音合成裝置的第一實(shí)施例的區(qū)別在于,相位特性發(fā)生裝置是可控制的,以便利用統(tǒng)計方法產(chǎn)生所述統(tǒng)一的相位特性。其它組成部分與語音合成裝置的第一實(shí)施例相同,因此略去了對它們的詳細(xì)介紹。
      圖8是按照標(biāo)準(zhǔn)的相位特性表示的產(chǎn)生統(tǒng)一的相位特性的過程實(shí)例的解釋性示意圖。與圖3中所示相同的臨時數(shù)據(jù)庫311是可控制的,以便記錄通過分解構(gòu)成該語音的語音段得到的音調(diào)波形。用于執(zhí)行傅里葉變換的傅里葉變換部分802以及用于產(chǎn)生標(biāo)準(zhǔn)相位特性的標(biāo)準(zhǔn)相位特性發(fā)生部分804構(gòu)成如圖1中所示的相位特性發(fā)生裝置102。首先將記錄在臨時數(shù)據(jù)庫311中的音調(diào)波形801利用傅里葉變換部分802從時域變換到頻域,以便得到相位特性803,每一特性具有頻率軸。然后標(biāo)準(zhǔn)相位特性發(fā)生部分804利用適當(dāng)?shù)慕y(tǒng)計方法產(chǎn)生標(biāo)準(zhǔn)相位特性。然后將標(biāo)準(zhǔn)相位特性記錄在相位特性數(shù)據(jù)庫805中。
      下面詳細(xì)介紹標(biāo)準(zhǔn)相位特性發(fā)生部分804。按下式2和3用實(shí)數(shù)部分和虛數(shù)部分表示在頻域中的音調(diào)波形801的幅值特性A(w)和相位特性P(w),A(w)=(R(w)2+I(w)2)1/2……………(2)P(w)=tan-1(I(w)/R(w)……………(3)其中w是頻率(離散值),頻率的單位是赫。標(biāo)準(zhǔn)相位特性發(fā)生部分804是可控制的以便利用下式4Ps(w)=(I/N)&Sigma;i=1NPi(w)&CenterDot;&CenterDot;&CenterDot;&CenterDot;&CenterDot;&CenterDot;&CenterDot;&CenterDot;&CenterDot;&CenterDot;&CenterDot;(4)]]>計算在每一頻率用于從語音段提取的音調(diào)波形相位特性Ps(w)的平均值,其中N是音調(diào)波形的數(shù)目。將在每一頻率該組Ps(w)的平均值記錄在相位特性數(shù)據(jù)庫805中作為標(biāo)準(zhǔn)相位特性。
      圖9是表示將語音段的音調(diào)波形的相位特性變換為按照標(biāo)準(zhǔn)相位特性表示的統(tǒng)一的相位特性過程實(shí)例的解釋性示意圖。用于執(zhí)行傅里葉變換的傅里葉變換部分902、標(biāo)準(zhǔn)相位特性選擇部分908以及用于執(zhí)行反傅里葉變換的反傅里葉變換部分906構(gòu)成如圖1中所示的相位特性變換裝置103,該標(biāo)準(zhǔn)相位特性選擇部分908用于從相位特性數(shù)據(jù)庫805中的相位特性選擇標(biāo)準(zhǔn)相位特性。首先將音調(diào)波形901利用傅里葉變換部分902從時域變換到頻域,以便得到相位特性904和幅值特性903,每一特性具有頻率軸。標(biāo)準(zhǔn)相位特性選擇部分908是可控制的,以便從相位特性數(shù)據(jù)庫805中的相位特性選擇一個相位特性。按照利用傅里葉變換部分902得到的幅值特性維持音調(diào)波形的幅值特性504。標(biāo)準(zhǔn)相位特性905和幅值特性903構(gòu)成頻域中的音調(diào)波形。然后利用反傅里葉變換部分906將頻域中的音調(diào)波形變換到時域,得到時域中的音調(diào)波形907。還將從語音段中提取的其它音調(diào)波形的相位特性如上所述變換為標(biāo)準(zhǔn)的相位特性,以此增加各形狀基本上相同的音調(diào)波形之間的相似性。
      如上所述,根據(jù)語音合成裝置的第二實(shí)施例,首先將每一語音段分解為多個音調(diào)波形,每個音調(diào)波形具有相位特性和幅值特性,如圖4中所示。此外,通過對分解語音段得到的各音調(diào)波形的相位特性進(jìn)行平均產(chǎn)生標(biāo)準(zhǔn)的相位特性,如圖8中所示。然后將音調(diào)波形的相位特性變換為用于每一音調(diào)波形的標(biāo)準(zhǔn)相位特性,如圖9中所示。然后將音調(diào)波形分類為多個組,每個組由形狀基本上相同的多個音調(diào)波形構(gòu)成,如圖3中所示。然后通過從每一組中各音調(diào)波形中提取一個音調(diào)波形,將音調(diào)波形記錄在代表性音調(diào)波形數(shù)據(jù)庫中。然后,利用記錄在代表性音調(diào)波形數(shù)據(jù)庫中的音調(diào)波形合成語音。
      此外,在由多個具有相似特性的相位特性構(gòu)成的每一組中可以產(chǎn)生多個標(biāo)準(zhǔn)相位特性中的每一個。
      此外,在將多個標(biāo)準(zhǔn)相位特性記錄在相位特性數(shù)據(jù)庫805中的情況下,利用標(biāo)準(zhǔn)相位特性選擇部分908選擇最接近相位特性904的每個標(biāo)準(zhǔn)相位特性。
      如前所述因此構(gòu)成的上述語音合成裝置和語音合成方法的第二實(shí)施例使得避免產(chǎn)生能量集中的例如零相位的不常用的波形,以及可使音調(diào)波形形狀的變化很小,因此比第一實(shí)施例以更穩(wěn)定更自然的聲音質(zhì)量實(shí)現(xiàn)了語音合成。
      通過對根據(jù)上述的語音段提取的各音調(diào)波形的相位特性進(jìn)行平均產(chǎn)生標(biāo)準(zhǔn)的相位特性,然而,該語音合成裝置和語音合成方法通過從經(jīng)分類的各相位特性中選擇最接近于形心(centroid)的一個相位特性,能夠產(chǎn)生標(biāo)準(zhǔn)音調(diào)波形。
      參照附圖,除了圖1到9以外,特別是圖10,這些圖表示根據(jù)本發(fā)明的語音合成裝置和語音合成方法的第三實(shí)施例。
      該語音合成裝置的第三實(shí)施例與語音合成裝置的第二實(shí)施例的區(qū)別在于,音調(diào)波形分類裝置是可控制的,以便預(yù)先根據(jù)對應(yīng)的音素類型對音調(diào)波形進(jìn)行分類。其它組成部分與語音合成裝置的第二實(shí)施例相同,因此略去了對它們的詳細(xì)介紹。
      圖10是表示將音調(diào)波形分類的過程的一個實(shí)例解釋性示意圖。將語音段1001、1002、1003和1004,即分別包含音素“ura”、“ai”、“ua”和“ami”的各VCV單位分解為多個音調(diào)波形。根據(jù)對應(yīng)的音素類型對音調(diào)波形進(jìn)行分類,以便記錄在對應(yīng)的臨時數(shù)據(jù)庫,即用于/a/1011的數(shù)據(jù)庫、用于/a/1012的數(shù)據(jù)庫、用于/a1013的數(shù)據(jù)庫和其它在圖10中未表示的數(shù)據(jù)庫。
      根據(jù)語音段提取的巨大數(shù)目的音調(diào)波形一起匯聚成一組,總體按形狀基本上相同的音調(diào)波形分類,由于低工作效率導(dǎo)致浪費(fèi)時間。這時,根據(jù)語音段提取的音調(diào)波形存儲在預(yù)先為對應(yīng)音素類型準(zhǔn)備的多個臨時數(shù)據(jù)庫。將語音段1001、1002、1003和1004其上分別標(biāo)志有音素分界(bounary),以便預(yù)先指示對應(yīng)的音素類型,然后,根據(jù)對應(yīng)的音調(diào)波形所屬的對應(yīng)的音素類型將音調(diào)波形分類。因此,將音調(diào)波形按照元音/a/、/i/、/u/、/e/和/o/;鼻音(nasalsound)/n/;半元音/w/和/y/以及濁輔音(voiced consonant)/m/、/n/、/r/、/z/、/j/、/b/、/d/、/g/和/v/,臨時存儲在與對應(yīng)音素類型相關(guān)聯(lián)的臨時數(shù)據(jù)庫1011、1012的數(shù)據(jù)庫和1013。然后將音調(diào)波形的相位特性變換為用于每個所述音調(diào)波形的對應(yīng)的統(tǒng)一的相位特性,另外將各音調(diào)波形分類為各組。在此之后,從每組中的各音調(diào)波形中選擇代表性音調(diào)波形,并將這些代表性音調(diào)波形組合為語音段。
      此外,根據(jù)在每一臨時數(shù)據(jù)庫1011、1012和1013中的音調(diào)波形的相位特性確定標(biāo)準(zhǔn)音調(diào)波形。
      按上述如此構(gòu)成的語音合成裝置和語音合成方法的第三實(shí)施例使得用于將音調(diào)波形分類的計算量可以顯著降低。
      參照附圖,除了圖1到10以外,特別是圖11,這些圖表示根據(jù)本發(fā)明的語音合成裝置和語音合成方法的第四實(shí)施例。
      該語音合成裝置的第四實(shí)施例與語音合成裝置的第三實(shí)施例的區(qū)別在于,音調(diào)波形分類裝置是可控制的,以便將通過在僅用于比較的對應(yīng)頻率將幅值特性加權(quán)的所述音調(diào)波形進(jìn)行比較,對音調(diào)波形進(jìn)行分類。其它組成部分與語音合成裝置的第三實(shí)施例相同,因此略去了對它們的詳細(xì)介紹。
      圖11是表示對音調(diào)波形加權(quán)的過程的一個實(shí)例的解釋性示意圖。音調(diào)波形1101是對根據(jù)語音段提取的和經(jīng)相位特性變換的各音調(diào)波形中的一個。當(dāng)將音調(diào)波形1101從時域變換到頻域時,利用傅里葉變換得到音調(diào)波形1101的幅值特性1111。權(quán)重1121,即需將幅值特性1111放大的幅值增益是根據(jù)在對應(yīng)頻率的重要性(significance)按對應(yīng)頻率預(yù)先確定的。濾波器1102即用于在每一頻率對音調(diào)波形進(jìn)行加權(quán)的加權(quán)裝置是可控制的,以便在對應(yīng)頻率將幅值特性1111乘以權(quán)重1121。由濾波器1102利用反傅里葉變換將在頻域中經(jīng)加權(quán)的音調(diào)波形,即具有在每一頻率經(jīng)加權(quán)的幅值特性的音調(diào)波形從頻域變換到時域,因此,得到僅用于比較的經(jīng)加權(quán)的音調(diào)波形1103。
      通過評估指示各音調(diào)波形之間相似程度的相關(guān)系數(shù)將幅值特性經(jīng)加權(quán)的音調(diào)波形進(jìn)行形狀比較。相關(guān)系數(shù)越接近1,各音調(diào)波形之間相似程度就越高。其間具有的相似程度高于預(yù)定值的各音調(diào)波形,這些音調(diào)波形可以小的逼真度下降在重新組合語音段時互換,即不會導(dǎo)致聲音惡化。
      下面介紹怎樣加權(quán)。在音調(diào)波形分類所需要的高相似程度的情況下,不是在高頻而是在低頻下為了保持聲音的連續(xù)性,確定在低頻下的權(quán)重。在圖11中,將幅值特性1111乘以幅值增益1121,以便在低頻下加權(quán),僅用于比較音調(diào)波形。如上所述,幅值特性的重要性在每一頻帶是不同的,因此,將音調(diào)波形與其幅值特性在每一頻帶己確定的音調(diào)波形相比較。這與在其中通過低通濾波器1102對音調(diào)波形1101進(jìn)行濾波以便得到己抑制高頻影響的音調(diào)波形1103的過程相同。經(jīng)此濾波音調(diào)波形僅用于比較音調(diào)波形,然后將沒有加權(quán)的音調(diào)波形精確分類,還從沒有加權(quán)的音調(diào)波形中選擇代表性的音調(diào)波形。
      按上述如此構(gòu)成的語音合成裝置和語音合成方法的第四實(shí)施例使得能實(shí)現(xiàn)以較小的數(shù)據(jù)容量與高聲音質(zhì)量相協(xié)調(diào)。特別是,不僅在不重要的頻帶內(nèi)忽視了音調(diào)波形形狀的差別,而且還以較小的數(shù)據(jù)容量和高聲音質(zhì)量可以實(shí)現(xiàn)維持在重要的頻帶內(nèi)音調(diào)波形的同一性。
      參照附圖,除了圖1到11以外,特別是圖12和13,這些圖表示根據(jù)本發(fā)明的語音合成裝置和語音合成方法的第五實(shí)施例。
      該語音合成裝置的第五實(shí)施例與語音合成裝置的第四實(shí)施例的區(qū)別在于,音調(diào)波形選擇裝置是可控制的,以便當(dāng)合成語音時,對鄰近的音調(diào)波形進(jìn)行比較。其它組成部分與語音合成裝置的第四實(shí)施例相同,因此略去了對它們的詳細(xì)介紹。
      圖12是表示選擇代表性音調(diào)波形的過程的一個實(shí)例的流程圖。在步驟1201中,從存儲在臨時數(shù)據(jù)庫音調(diào)波形中,以任選方式選擇在初始狀態(tài)的適當(dāng)數(shù)目的音調(diào)波形。在步驟1202中,將音調(diào)波形分類為多個組,每個組由形狀基本上相同的多個音調(diào)波形構(gòu)成。組的數(shù)目與代表性音調(diào)波形的數(shù)目相同。在步驟1203中,將新選擇的最接近每一組中形心的音調(diào)波形作為代表性音調(diào)波形。判斷新選擇的代表性音調(diào)波形是否滿足各條件。在步驟1204中,判斷每一代表性音調(diào)波形和屬于這一組的每一音調(diào)波形之間的相似程度是否在預(yù)定范圍內(nèi)。在步驟1205中,當(dāng)重新組合語音段時還判斷各鄰近音調(diào)波形之間的相似程度是否在利用初始音調(diào)波形之間的相似程度確定的范圍內(nèi)。在步驟1206中,當(dāng)不滿足各條件時,將組分為兩個組,并且在每個組中新選擇代表性音調(diào)波形。重復(fù)進(jìn)行上述的判斷即用于每個組中相似性的判斷和在鄰近部分的相似性的判斷,直到滿足各條件最終選擇代表性的音調(diào)波形。
      圖13是表示對鄰近的代表性的音調(diào)波形進(jìn)行比較的一個實(shí)例的解釋性示意圖。用代表性的音調(diào)波形1311和1312替代在原有語音段中的兩個鄰近的原有音調(diào)波形1301和1302。判斷代表性的音調(diào)波形1311和1312之間的相似程度是否滿足條件。例如,當(dāng)原有連續(xù)音調(diào)波形1301和1302之間的相似程度為0.9時,使用作為相似程度的相關(guān)系數(shù),代表性音調(diào)波形1311和1312之間的相似程度必須至少為0.9α。α是一用于預(yù)先確定閾值0.9α的已確定的系數(shù),并且滿足0<α<1。直到滿足這一條件,重復(fù)對音調(diào)波形分類和選擇代表性標(biāo)準(zhǔn)音調(diào)波形的一系列的過程。
      如前所述因此構(gòu)成的上述語音合成裝置和語音合成方法的第六實(shí)施例使得消除了音調(diào)波形形狀的差別,因此使可以按照相鄰波形之間維持連續(xù)性,可以重新組合語音,因此,進(jìn)一步減少了聲音質(zhì)量的下降。
      此外,雖然語音段是如上所述的各VCV單位,然而,該語音合成裝置和語音合成方法也能使得其它各單位,例如CV單位和CVC單位。
      此外,該語音合成裝置和語音合成方法也能適合于從任何自然聲音中提取音調(diào)波形以便合成自然聲音。
      此外,雖然將最接近形心的音調(diào)波形選擇作為如上所述的每一組中的代表性的音調(diào)波形,然而,該語音合成裝置和語音合成方法也能使用形心本身作為每一組中的代表性的音調(diào)波形。
      此外,雖然如上所述將相位特性的平均值作為標(biāo)準(zhǔn)特性,然而,該語音合成裝置和語音合成方法也能使用形心本身或最接近形心的音調(diào)波形作為標(biāo)準(zhǔn)特性。
      此外,如上所述使用用于每個音素的多個臨時數(shù)據(jù)庫來存儲根據(jù)語音段提取的音調(diào)波形,然而,該語音合成裝置和語音合成方法也能使用一個物理上按照邏輯分為多個區(qū)域的數(shù)據(jù)庫。
      此外,如上所述將在頻域中的幅值特性用來比較音調(diào)波形,然而,該語音合成裝置和語音合成方法也能比較在時域中經(jīng)濾波的音調(diào)波形。
      此外,如上所述為了選擇代表性音調(diào)波形,將相關(guān)系數(shù)用作代表性的音調(diào)波形之間的相似程度的指標(biāo),然而,該語音合成裝置和語音合成方法也能利用頻譜距離和其它各種代表性音調(diào)波形之間的相似程度的指標(biāo)。
      此外,語音段分解裝置101、相位特性發(fā)生裝置102、相位特性變換裝置103、音調(diào)波形分類裝置104、音調(diào)波形選擇裝置105和音調(diào)波形記錄裝置106構(gòu)成用于記錄多個音調(diào)的音調(diào)波形記錄裝置。在該音調(diào)波形記錄裝置中,首先將各個語音段分解為多個音調(diào)波形,每個具有相位特性,然后根據(jù)通過分解語音段得到的各音調(diào)波形的相位特性,產(chǎn)生多個統(tǒng)一的相位特性,然后將對應(yīng)的音調(diào)波形的相位特性變換為統(tǒng)一的相位特性,再將音調(diào)波形分類為多個組,每個組由形狀基本上相同的多個音調(diào)波形構(gòu)成,然后通過比較音調(diào)波形選擇需存儲在相位特性數(shù)據(jù)庫中的相位特性,通過從每一組中各音調(diào)波形中提取一個音調(diào)波形,將音調(diào)波形記錄在數(shù)據(jù)庫中。然后,利用記錄在數(shù)據(jù)庫中的音調(diào)波形由其它裝置合成語音。
      根據(jù)以上的詳細(xì)介紹,將會理解前述的語音合成裝置和語音合成方法可以利用相對小的數(shù)據(jù)庫容量合成自然的語音。
      權(quán)利要求
      1.一種語音合成裝置,用于合成由多個語音段組成的語音,每個語音段包含至少一個音素,該裝置包含數(shù)據(jù)庫,用于存儲與所述語音段相關(guān)的數(shù)據(jù);語音段分解裝置,用于將每個所述語音段分解為多個音調(diào)波形,每個音調(diào)波形具有相位特性;相位特性變換裝置,用于將所述音調(diào)波形的所述相位特性變換為用于每個所述音調(diào)波形的統(tǒng)一的相位特性;音調(diào)波形分類裝置,用于將所述音調(diào)波形分類為多組,每組由形狀基本上相同的多個所述音調(diào)波形構(gòu)成;音調(diào)波形記錄裝置,用于通過從在每一所述組中的多個所述音調(diào)波形中提取一個音調(diào)波形將所述音調(diào)波形記錄在所述數(shù)據(jù)庫中;以及合成裝置,用于利用記錄在所述數(shù)據(jù)庫中的所述音調(diào)波形合成所述語音。
      2.如權(quán)利要求1所述的語音合成裝置,還包含相位特性發(fā)生裝置,用于根據(jù)通過分解所述語音段得到的所述音調(diào)波形的所述相位特性產(chǎn)生所述統(tǒng)一的相位特性。
      3.如權(quán)利要求2所述的語音合成裝置,其中所述相位特性發(fā)生裝置是可控制的,以便通過對通過分解所述語音段得到的所述音調(diào)波形的相位特性進(jìn)行平均產(chǎn)生所述統(tǒng)一的相位特性。
      4.如權(quán)利要求1所述的語音合成裝置,其中所述相位特性分類裝置是可控制的,以便根據(jù)對應(yīng)的音素類型對所述音調(diào)波形進(jìn)行分類。
      5.如權(quán)利要求1所述的語音合成裝置,其中所述相位特性分類裝置是可控制的,以便通過在僅用于比較的對應(yīng)頻率將幅值特性加權(quán)的所述音調(diào)波形進(jìn)行比較,對所述音調(diào)波形進(jìn)行分類。
      6.如權(quán)利要求1所述的語音合成裝置,其中還包含音調(diào)波形選擇裝置,用于通過當(dāng)組合所述語音時比較彼此鄰近的所述音調(diào)波形,選擇需記錄在所述數(shù)據(jù)庫中的音調(diào)波形。
      7.一種語音合成方法,用于合成由多個語音段組成的語音,每個語音段包含至少一個音素,該方法包含的步驟有語音段分解步驟,將每個所述語音段分解為多個音調(diào)波形,每個音調(diào)波形具有相位特性;相位特性變換步驟,將所述音調(diào)波形的所述相位特性變換為用于每個所述音調(diào)波形的統(tǒng)一的相位特性;音調(diào)波形分類步驟,將所述音調(diào)波形分類為多組,每組由形狀基本上相同的多個所述音調(diào)波形構(gòu)成;音調(diào)波形記錄步驟,通過從在每一所述組中的多個所述音調(diào)波形中提取一個音調(diào)波形將所述音調(diào)波形記錄在一數(shù)據(jù)庫中;以及合成步驟,用于利用記錄在所述數(shù)據(jù)庫中的所述音調(diào)波形合成所述語音。
      8.如權(quán)利要求7所述的語音合成方法,還包含相位特性發(fā)生步驟,根據(jù)通過分解所述語音段得到的所述音調(diào)波形的所述相位特性產(chǎn)生所述統(tǒng)一的相位特性。
      9.如權(quán)利要求7所述的語音合成方法,其中所述相位特性發(fā)生步驟通過對通過分解所述語音段得到的所述音調(diào)波形的相位特性進(jìn)行平均產(chǎn)生所述統(tǒng)一的相位特性。
      10.如權(quán)利要求7所述的語音合成方法,還包含所述相位特性預(yù)先分類步驟,預(yù)先根據(jù)對應(yīng)的音素類型對所述音調(diào)波形進(jìn)行分類。
      11.如權(quán)利要求7所述的語音合成方法,其中所述相位特性分類步驟,通過在僅用于比較的對應(yīng)頻率將幅值特性加權(quán)的所述音調(diào)波形進(jìn)行比較,對所述音調(diào)波形進(jìn)行分類。
      12.如權(quán)利要求7所述的語音合成方法,其中還包含音調(diào)波形選擇步驟,通過當(dāng)組合所述語音時比較彼此鄰近的所述音調(diào)波形,選擇需記錄在所述數(shù)據(jù)庫中的音調(diào)波形。
      13.一種音調(diào)波形記錄裝置,用于將構(gòu)成多個語音段的多個音調(diào)波形記錄在一數(shù)據(jù)庫,該數(shù)據(jù)庫用于存儲與所述語音段相關(guān)的數(shù)據(jù),每個語音段包含至少一個音素,所述音調(diào)波形用于合成由所述語音段組成的語音,該音調(diào)波形記錄裝置包含語音段分解裝置,用于將每個所述語音段分解為多個音調(diào)波形,每個音調(diào)波形具有相位特性;相位特性變換裝置,用于將所述音調(diào)波形的所述相位特性變換為用于每個所述音調(diào)波形的統(tǒng)一的相位特性;音調(diào)波形分類裝置,用于將所述音調(diào)波形分類為多組,每組由形狀基本上相同的多個所述音調(diào)波形構(gòu)成;音調(diào)波形記錄裝置,用于通過從在每一所述組中的多個所述音調(diào)波形中提取一個音調(diào)波形將所述音調(diào)波形記錄在所述數(shù)據(jù)庫中。
      14.一種音調(diào)波形記錄方法,將構(gòu)成多個語音段的多個音調(diào)波形記錄在一數(shù)據(jù)庫,該數(shù)據(jù)庫用于存儲與所述語音段相關(guān)的數(shù)據(jù),每個語音段包含至少一個音素,所述音調(diào)波形用于合成由所述語音段組成的語音,該音調(diào)波形記錄方法包含的步驟有語音段分解步驟,將每個所述語音段分解為多個音調(diào)波形,每個音調(diào)波形具有相位特性;相位特性變換步驟,將所述音調(diào)波形的所述相位特性變換為用于每個所述音調(diào)波形的統(tǒng)一的相位特性;音調(diào)波形分類步驟,將所述音調(diào)波形分類為多組,每組由形狀基本上相同的多個所述音調(diào)波形構(gòu)成;音調(diào)波形記錄步驟,通過從在每一所述組中的多個所述音調(diào)波形中提取一個音調(diào)波形將所述音調(diào)波形記錄在所述數(shù)據(jù)庫中。
      全文摘要
      一種語音合成裝置(10)包含:語音段分解裝置(101),用于將每個包含至少一個音素的語音段分解為多個音調(diào)波形;相位特性變換裝置(103),用于將所述音調(diào)波形的相位特性變換為統(tǒng)一的相位特性;音調(diào)波形分類裝置(104),用于將音調(diào)波形分類為多組;音調(diào)波形記錄裝置(106),用于將通過從在每一所述組中的多個所述音調(diào)波形中提取一個音調(diào)波形將音調(diào)波形在數(shù)據(jù)庫(111)中;合成裝置(107),用于利用記錄在所述數(shù)據(jù)庫(111)中的音調(diào)波形合成語音。因此構(gòu)成的語音合成裝置(10)可利用相對小的數(shù)據(jù)庫容量合成自然的語音。
      文檔編號G10L13/00GK1345028SQ0114065
      公開日2002年4月17日 申請日期2001年9月17日 優(yōu)先權(quán)日2000年9月18日
      發(fā)明者望月亮, 野敏幸, 西村洋文 申請人:松下電器產(chǎn)業(yè)株式會社
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
      1