專利名稱:用于合成語音的方法
技術(shù)領(lǐng)域:
本發(fā)明主要涉及文本-語音(TTS )合成,并且尤其涉及的是使用 微分段(micro-segment)從文本串中合成語音。
背景技術(shù):
文本語音(TTS)轉(zhuǎn)換通常也被稱為串連式(concatenative )文 本語音合成,其使得電子設(shè)備能夠接收輸入文本串并且以合成語音的 形式來提供該文本串的音頻信號表示。對串連式語音合成來說,諸如 音素或雙音素之類的基本語音單元是串連的。但是,對使用基于音素 的語音單元從數(shù)量不確定的接收文本串中合成語音的設(shè)備來說,該設(shè) 備可能很難提供高質(zhì)量的真實(shí)合成語音。這是因?yàn)?,音素、音?jié)或單 詞的發(fā)音通常是依賴于上下文的。
由于很多設(shè)備的存儲和處理能力是有限的,因此,在諸如發(fā)聲波 形語料庫(corpus)之類的語音庫中未必包含音素、音節(jié)或單詞的所 有預(yù)期韻律變化。例如,雖然諸如雙音素-雙音素之類的基于音素的串 連有可能為音節(jié)間的串連所接受,但是,在音節(jié)內(nèi)部的以音素為基礎(chǔ) 的音素串連有可能產(chǎn)生不自然的聲音。這是因?yàn)?,話音分?話音分段 之間的串連點(diǎn)通常會導(dǎo)致不自然的發(fā)聲轉(zhuǎn)變。
用于英語的典型雙音素語音庫可以具有大約1200個(gè)雙音素,但 是為了減小濁音-法音邊界內(nèi)部的串連,語音庫需要n個(gè)音素的叢集。 由此,具有所有字符的所有發(fā)音的語音庫可能會大的驚人。因此,在 大多數(shù)的TTS系統(tǒng)中,都需要基于使用有限大小的語音庫的聲學(xué)分析 來估計(jì)輸入文本串的恰當(dāng)發(fā)音。特別地,在將這種語音庫內(nèi)置在存儲 器容量有限的手持式電子設(shè)備中的時(shí)候,這種語音庫的大小將會是非 常有限的。
為了便于理解和實(shí)際實(shí)施本發(fā)明,現(xiàn)在將對參照附圖所描述的例 示實(shí)施例進(jìn)行參考,其中相同參考數(shù)字在各個(gè)附圖中始終表示相同或 功能相似的部件。這些附圖和下文的詳細(xì)描述一起被包括在說明書中 并構(gòu)成說明書的一部分,并且用于進(jìn)一步描述實(shí)施例和說明根據(jù)本發(fā)
明的各種原理和優(yōu)點(diǎn),其中
圖l是描述了根據(jù)本發(fā)明某些實(shí)施例的釆用移動電話形式的電子 設(shè)備的示意圖2是描述了根據(jù)本發(fā)明某些實(shí)施例的用于從輸入文本串中合成 語音的方法的流程圖3是描述了根據(jù)本發(fā)明某些實(shí)施例的用于從輸入串中合成語音 的方法的一般流程圖4是描述了根據(jù)本發(fā)明某些實(shí)施例的用于對輸入串進(jìn)行處理以 便提供聲學(xué)參數(shù)序列的方法的一般流程圖;以及
圖5是描述了根據(jù)本發(fā)明某些實(shí)施例的包含五個(gè)歸一化音調(diào)輪廓 模型的音調(diào)模型的圖示。
技術(shù)人員應(yīng)當(dāng)明白,附圖中的部件是為了簡明起見而被示出的, 并且這些部件不一定是按比例繪制的。例如,附圖中某些部件的尺寸 可能相對于其他部件而被放大了 ,以便提高對本發(fā)明實(shí)施例的理解。
具體實(shí)施例方式
在詳細(xì)描述根據(jù)本發(fā)明的實(shí)施例之前,應(yīng)該注意到的是,這些實(shí) 施例主要在于與從輸入串中合成語音有關(guān)的方法步驟和設(shè)備組件的組 合。因此,在附圖中將這些設(shè)備組件和方法步驟在適當(dāng)?shù)奈恢蒙嫌贸?規(guī)符號表示,由此僅僅顯示那些與理解本發(fā)明實(shí)施例相關(guān)的具體細(xì)節(jié), 以免因?qū)Φ靡嬗谠诖说拿枋龅谋绢I(lǐng)域普通技術(shù)人員而言顯而易見的細(xì) 節(jié)而模糊了本公開內(nèi)容。
在本文中,諸如第一和第二、頂部和底部等關(guān)系術(shù)語僅僅用于將一個(gè)實(shí)體或動作與另一個(gè)實(shí)體或動作區(qū)分開來,而不是必須要求或者 暗示在此類實(shí)體或動作之間存在這種實(shí)際關(guān)系。術(shù)語"包含"、"包括" 或是其他任何變體旨在覆蓋非排他性的包含方式,由此使得包含一 系 列要素的處理、方法、制品或設(shè)備并不僅僅包含這些要素,而是可以 包含其他那些未明確列舉或是為這些處理、方法、制品或設(shè)備所固有 的要素。在沒有更多限制的情況下,由"包含一個(gè)......"限定的要素并
不排除在包含該要素的處理、方法、制品或設(shè)備中還存在另外的相同 要素。
參考圖1,該示意圖描述了根據(jù)本發(fā)明某些實(shí)施例的采用移動電
話100的形式的電子設(shè)備。移動電話100包括射頻通信單元102,其 被耦合成與處理器103的公共數(shù)據(jù)地址總線117進(jìn)行通信。此外,電 話100還具有小鍵盤106以及顯示屏105,其中舉例來說,該顯示屏 可以是被耦合成與處理器103進(jìn)行通信的觸摸屏。
處理器103還包括編碼器/解碼器111,并具有相關(guān)聯(lián)的代碼只讀 存儲器(ROM) 112,其用于存儲用于編碼和解碼話音或是其他可以 由移動電話100發(fā)送和接收的信號的數(shù)據(jù)。處理器103還包括微處理 器113,該微處理器113通過公共數(shù)據(jù)地址總線117耦合到編碼器/解 碼器111、字符只讀存儲器(ROM) 114、隨機(jī)存取存儲器(RAM) 104、可編程存儲器116以及用戶標(biāo)識模塊(SIM)接口 118。可編程 存儲器116和SIM以可操作的方式耦合到SIM接口 118,并且其每一 個(gè)都可以特別地存儲電話號碼數(shù)據(jù)庫(TND),該數(shù)據(jù)庫包含用于電 話號碼的號碼字段,以及用于與號碼字段中的電話號碼唯一地關(guān)聯(lián)的 標(biāo)識符的名稱字段。
射頻通信單元102是具有公共天線的組合式接收機(jī)和發(fā)射機(jī)。通 信單元102具有經(jīng)由射頻放大器109與天線107相耦合的收發(fā)信機(jī) 108。此外,該收發(fā)信機(jī)108還耦合到組合式調(diào)制器/解調(diào)器110,所述 組合式調(diào)制器/解調(diào)器110與編碼器/解碼器111相耦合。
微處理器113具有用于耦合到小鍵盤106以及顯示屏105的端口 。 該微處理器113還具有用于耦合到報(bào)警模塊115、麥克風(fēng)120以及通信揚(yáng)聲器122的端口,其中該報(bào)警模塊115通常包含報(bào)警揚(yáng)聲器、振 動馬達(dá)以及相關(guān)聯(lián)的驅(qū)動器。字符ROM 114存儲用于編碼和解碼可 以由通信單元102發(fā)送或接收的、諸如控制信道消息之類的數(shù)據(jù)的代 碼。在本發(fā)明的某些實(shí)施例中,字符ROM114、可編程存儲器116或 SIM還可以存儲用于微處理器113的操作碼(OC),以及用于執(zhí)行 與移動電話IOO相關(guān)聯(lián)的功能的代碼。例如,可編程存儲器116可以 包括語音合成服務(wù)程序代碼組件125,它被配置成使得執(zhí)行一種用于 從輸入串中合成語音的方法。
由此,本發(fā)明的某些實(shí)施例包含一種使用移動電話100從輸入串 中合成語音的方法。舉例來說,該輸入串可以是文本消息或是包含在 移動電話IOO上接收的文本串的電子郵件。該方法包括處理該輸入 串以提供一個(gè)聲學(xué)參數(shù)序列。然后,使用該聲學(xué)參數(shù)序列從語音庫中 產(chǎn)生候選微分段集合序列。然后,從候選微分段集合序列中為聲學(xué)參 數(shù)序列確定一個(gè)優(yōu)選的微分段序列。最后,將優(yōu)選微分段序列中的微 分段串連起來,以便產(chǎn)生合成語音。
因此,本發(fā)明的某些實(shí)施例使得能夠使用微分段以及表示目標(biāo)聲 學(xué)模型的聲學(xué)參數(shù)序列而不是使用音素或雙音素來執(zhí)行語音合成。微 分段可以是任何長度的語音分段,但是通常短于音素或雙音素。舉例 來說,微分段可以是20ms的語音幀,而音素的語音分段通常包含若 干個(gè)這種語音幀。由于通過串連微分段合成的語音分段與通過串連音 素或雙音素所合成的語音分段相比可以提供更多的頻率和韻律變化, 因此文本-語音(TTS)系統(tǒng)的整體聲音質(zhì)量可以得到改善。
參考圖2,該流程圖描述了根據(jù)本發(fā)明某些實(shí)施例的用于從輸入 串205中合成語音的方法200。首先,對輸入串205進(jìn)行處理,以便 提供一個(gè)聲學(xué)參數(shù)序列230。然后,使用聲學(xué)參數(shù)序列230從語音庫 中產(chǎn)生候選微分段集合235的序列240。然后,從候選微分段集合235 的序列240中為聲學(xué)參數(shù)序列230確定一個(gè)優(yōu)選的微分段序列245。 最后,將優(yōu)選微分段序列245中的微分段串連起來,以便產(chǎn)生一個(gè)合 成語音信號250。舉例來說,與優(yōu)選微分段序列245中的微分段描述相對應(yīng)的語音幀255可以被加載到移動電話100的RAM 104中,然 后被串連并且在通信揚(yáng)聲器122上進(jìn)行播放,以便產(chǎn)生合成語音信號 250。
參考圖3,該流程圖進(jìn)一步描述了一種根據(jù)本發(fā)明的某些實(shí)施例 從輸入串中合成語音的 一般方法300。在步驟305 ,對輸入串進(jìn)行處理, 以便提供一個(gè)聲學(xué)參數(shù)序列。舉例來說,聲學(xué)參數(shù)序列230中的聲學(xué) 參數(shù)可以包括頻鐠參數(shù)、音調(diào)參數(shù)以及能量參數(shù)。
根據(jù)本發(fā)明的某些實(shí)施例,也被稱為目標(biāo)語音單元的聲學(xué)參數(shù)是 使用韻律位置從輸入串中產(chǎn)生的。舉例來說,韻律位置可以包括某個(gè) 音節(jié)在單詞中的位置以及該單詞在句子中的位置。
頻譜參數(shù)可以使用已知的頻譜特征表示方法來建模,頻譜特征表 示方法包括例如線性預(yù)測編碼(Linear Predictive Coding, LPC )方 法、線譜對(Linear Spectral Pairs, LSP )方法或是梅爾倒譜系數(shù)(Mel-Frequency Cepstral Coefficient, MFCC)方法。由此,通過寸吏用韻律 位置,可以確定音素的頻鐠參數(shù)。舉例來說,可以使用諸如高斯混合 模型(GMM)之類的位置頻鐠模型將諸如韻律位置之類的音素聲學(xué) 特征映射成頻鐠參數(shù)。音調(diào)參數(shù)可以使用音調(diào)模型來確定,其中音調(diào) 模型根據(jù)音節(jié)的韻律位置來定義音節(jié)的音調(diào)輪廓。音調(diào)模型可以包括 音調(diào)輪廓模型,例如WO—stress、 WO—unstress、 WF_stress、 WF— unstress或WS。
對能量參數(shù)來說,可以為音節(jié)的話音部分和非話音部分使用不同 的策略。對話音部分來說,可以為音節(jié)定義能量輪廓模式??梢酝ㄟ^ 使用cv類(cv-like)單元在音節(jié)中的位置和/或關(guān)于該音節(jié)是否為重 讀音節(jié)的條件,定義不同的能量輪廓模式。對非話音部分來說,可以 為音素定義能量輪廓模式,每一個(gè)(非話音)音素都可以具有一個(gè)或 多個(gè)能量輪廓模式。非話音音素的能量輪廓可以取決于音素在音節(jié)中 的位置以及音節(jié)在單詞中的位置。為了減少所需要的存儲器數(shù)量,如 果某些(非話音)音素具有相似的位置以及相似的清晰度方式,那么 這些音素可以共享同一個(gè)能量輪廓模式。舉例來說,音素"s"、 "sh"和"ch"可以共享同一個(gè)能量輪廓模式,并且同樣地,"g"、 "d"和"k" 可以共享另 一個(gè)相同的能量輪廓模式。
在步驟310,使用聲學(xué)參數(shù)序列從語音庫315中產(chǎn)生候選微分段 集合序列。根據(jù)本發(fā)明的某些實(shí)施例,該候選微分段集合可以使用目 標(biāo)成本函數(shù)以及持續(xù)時(shí)間模型來產(chǎn)生。舉例來說,該目標(biāo)成本函數(shù)可 以是頻譜成本、音調(diào)成本以及能量成本的加權(quán)總和。較低的目標(biāo)成本 可能意味著候選微分段的聲學(xué)特性與聲學(xué)參數(shù)緊密匹配。例如,對聲 學(xué)參數(shù)序列230中的每一個(gè)聲學(xué)參數(shù)來說,移動電話100可以通過搜 索語音庫315來發(fā)現(xiàn)具有與該聲學(xué)參數(shù)以及該聲學(xué)參數(shù)的估計(jì)持續(xù)時(shí) 間緊密匹配的聲學(xué)特性的候選微分段(例如語音幀)集合。然后,可 以選擇這種緊密匹配的語音幀,以便產(chǎn)生候選微分段集合235的序列 240。
為了減少處理時(shí)間,語音庫315中的語音幀可以通過使用語音幀 的韻律位置而被分類成若干個(gè)語音幀集合,并且可以在與該聲學(xué)參數(shù) 的韻律位置緊密匹配的語音幀集合之一中搜索候選微分段。
在步驟320 ,從候選微分段集合中為聲學(xué)參數(shù)序列確定一個(gè)優(yōu)選 的微分段序列。舉例來說,在這里可以使用維特比算法來確定優(yōu)選微 分段序列245,并且該維特比算法的路徑成本函數(shù)可以是目標(biāo)成本函 數(shù)與串連成本函數(shù)的總和。
根據(jù)本發(fā)明的某些實(shí)施例,目標(biāo)成本函數(shù)可以是頻鐠成本函數(shù)、 音調(diào)成本函數(shù)以及能量成本函數(shù)的加權(quán)總和。例如,頻鐠成本函數(shù)可 以是候選微分段與聲學(xué)參數(shù)序列230中的聲學(xué)參數(shù)(也被稱為目標(biāo)微 分段)之間在頻鐠特征方面的差異程度的量度。類似地,音調(diào)成本函 數(shù)和能量成本函數(shù)可以分別度量聲學(xué)參數(shù)與候選微分段之間在音調(diào)和
能量特征方面的差異程度。舉例來說,目標(biāo)成本函數(shù)可以被定義如下
cr(",.,t)=《/c/(",.,4) +《/c/(Ma) + K/c/(Ma) (等式1 )
其中,w^是聲學(xué)參數(shù)序列230中的第i個(gè)聲學(xué)參數(shù)的第k個(gè)候選微分 段,C^("^)是目標(biāo)成本函數(shù),C^("w)是頻譜成本函數(shù),C;(",,,)是音 調(diào)成本函數(shù),C;(i^)是能量成本函數(shù),而X; JT;和K^是加權(quán)值。串連成本函數(shù)可以是頻鐠差函數(shù)、音調(diào)差函數(shù)以及能量差函數(shù)的 加權(quán)總和。頻鐠差函數(shù)可以度量兩個(gè)相鄰微分段之間在頻鐠特征方面 的差異程度。同樣地,音調(diào)差函數(shù)和能量差函數(shù)可以分別度量兩個(gè)相 鄰微分段之間在音調(diào)和能量特征方面的差異程度。舉例來說,串連成
本函數(shù)可以被定義如下
<formula>formula see original document page 10</formula>(等戈2 )
其中,",力是聲學(xué)參數(shù)序列230中的第i-l個(gè)聲學(xué)參數(shù)的第j個(gè)候選微 分段,"w是聲學(xué)參數(shù)序列230中的第i個(gè)聲學(xué)參數(shù)的第k個(gè)候選微分 段,c7",w,a , w,力是串連成本,c^("",a,";》是與之間的頻譜 差函數(shù),C、(",,M, )是",力與ww之間的音調(diào)差函數(shù),C^(
是",々與"^之間的能量差函數(shù),而fs、 ^fi^p和^^是加權(quán)值。
然后,在步驟325,將優(yōu)選微分段序列中的微分段串連起來,以 便產(chǎn)生合成語音。
參考圖4,該一般流程圖描述了根據(jù)本發(fā)明某些實(shí)施例的處理輸 入串以便提供聲學(xué)參數(shù)序列的方法300中的步驟305的子步驟。在步 驟405,對輸入串進(jìn)行處理,以便提供一個(gè)音素序列。舉例來說,輸 入串205可以是一個(gè)文本消息或是在移動電話100上接收的電子郵件 消息,并且音素序列可以是一個(gè)以音素字母表形式表示文本消息發(fā)音 的串。
在步驟410,在音素序列中確定音節(jié)邊界,以便提供一個(gè)音節(jié)序 列。例如,英語單詞可能包含了若干個(gè)音節(jié),然后確定該單詞中的這 種音節(jié)邊界,以便提供音節(jié)序列。例如,涉及英語單詞"explain"的音 素序列"ihksplehn"可以被劃分為包含了諸如"ihk,,和"splehn"這兩個(gè)
音節(jié)的音節(jié)序列。
然后,在步驟415,在音節(jié)序列中識別子音節(jié)單元,以便提供子 音節(jié)序列。子音節(jié)單元可以等于或小于音節(jié),并且可以是cv類語音單 元(其可以包括輔音和元音)。由此,子音節(jié)序列可以包括cv類語音 單元以及輔音。舉例來說,在音節(jié)序列("ihk,, + "splehn,,)中可以識 別出兩個(gè)cv類語音單元("ih"和"lehn,,)。然后,相應(yīng)的子音節(jié)序列可以是("ih,, + "k,, + "s,, + "p" + "lehn,,)。
根據(jù)本發(fā)明的某些實(shí)施例,通過使用cv類語音單元來表示輸入 文本的發(fā)音,可以減少描述單詞所需要的基本單元的數(shù)量。例如,包 含了 202,000個(gè)單詞的詞典可能包含了 24,980個(gè)音節(jié),以及僅僅6,707 個(gè)cv類單元。
然后,在步驟420,對子音節(jié)序列進(jìn)行處理,以便提供一個(gè)微分 段描述序列。例如,通過使用持續(xù)時(shí)間模型來估計(jì)子音節(jié)序列中每個(gè) 元素的持續(xù)時(shí)間,可以估計(jì)出為每一個(gè)元素合成語音所需要的微分段 的數(shù)量。舉例來說,考慮如下的cv類語音單元(子音節(jié))ih。如果 cv類語音單元的估計(jì)持續(xù)時(shí)間近似等于五個(gè)微分段,那么這個(gè)子音節(jié) 可以如下所示被映射成五個(gè)微分段描述
ihf ihf ihf ihf ihf ,
其中ihf是微分段描述。
根據(jù)本發(fā)明的某些實(shí)施例,子音節(jié)的估計(jì)持續(xù)時(shí)間可以通過應(yīng)用 一個(gè)持續(xù)時(shí)間模型來獲得,其中該模型包含了音素的平均持續(xù)時(shí)間以 及音素的韻律屬性。舉例來說,音素/7的持續(xù)時(shí)間可以根據(jù)以下等式 來獲得<formula>formula see original document page 11</formula>
(等式3)
其中,的估計(jì)持續(xù)時(shí)間,/^g是音素/7的平均音素持續(xù)時(shí)
間,并且/t是根據(jù)包括含有音素/)的音節(jié)中的音素?cái)?shù)目、包含該音節(jié) 的單詞中的音節(jié)數(shù)目、以及音素p的類型在內(nèi)的因素所獲得的韻律屬 性系數(shù)。
然后,在步驟425,對微分段描述序列進(jìn)行處理,以便提供聲學(xué) 參數(shù)序列。例如,微分段描述序列中的每個(gè)微分段描述都可以被映射 成用于描述該微分段描述的聲學(xué)特性的聲學(xué)參數(shù),其中舉例來說,該 聲學(xué)特性可以是頻鐠(頻率特性)和韻律特性(音調(diào)、能量或持續(xù)時(shí) 間)。微分段描述序列可以包括多個(gè)微分段描述,其中每一個(gè)微分段 描述都是關(guān)于通常小于音素的語音微分段的描述。對微分段描述序列 中的每一個(gè)微分段描述來說,聲學(xué)參數(shù)可以使用聲學(xué)模型來進(jìn)行估計(jì)。舉例來說,聲學(xué)參數(shù)可以包含頻譜參數(shù)Sn、音調(diào)參數(shù)Pn以及能量參數(shù)en。
參考圖5,該圖示描述了根據(jù)本發(fā)明某些實(shí)施例使用的音調(diào)模型, 其中該模型包含五個(gè)歸一化音調(diào)輪廓模型WO_stress 505、 WO_ unstress 510、 WF—stress 515、 WF—unstress 520以及WS 525。 WO—stress 505音調(diào)輪廓模型定義了位于具有多個(gè)音節(jié)的單詞的開始 或是中間的重讀音節(jié)的音調(diào)輪廓。WO—unstress 510音調(diào)輪廓模型定 義了位于具有多個(gè)音節(jié)的單詞的開始或中間的非重讀音節(jié)的音調(diào)輪 廓。WF一stress 515音調(diào)輪廓模型定義了位于具有多個(gè)音節(jié)的單詞的末 端的重讀音節(jié)的音調(diào)輪廓。WF_unstress 520音調(diào)輪廓模型定義了位 于具有多個(gè)音節(jié)的單詞的末端的重讀音節(jié)的音調(diào)輪廓。WF 525音調(diào) 輪廓模型定義了只有一個(gè)音節(jié)的單詞中的音節(jié)的音調(diào)輪廓。
由此,本發(fā)明某些實(shí)施例的優(yōu)點(diǎn)包括提高了合成語音的聲音質(zhì) 量。與通過串連音素或雙音素合成的語音分段相比,通過串連微分段 合成的語音分段可以提供改進(jìn)的語音連續(xù)性以及更多韻律變化。由此, TTS系統(tǒng)的整體聲音質(zhì)量可以得到改善,特別是在諸如移動電話和個(gè) 人數(shù)字助理(PDA)之類的資源受限的手持式設(shè)備中更是如此。
應(yīng)該理解的是,這里描述的本發(fā)明實(shí)施例可以包括一個(gè)或多個(gè)常 規(guī)處理器以及所存儲的獨(dú)特程序指令,其中所述程序指令控制該一個(gè) 或多個(gè)處理器,以便結(jié)合某些非處理器電路來執(zhí)行這里描述的某些、 大多數(shù)或所有這些從輸入串中合成語音的功能。非處理器電路可以包 括但不局限于無線電接收機(jī)、無線電發(fā)射機(jī)、信號驅(qū)動器、時(shí)鐘電路、 電源電路以及用戶輸入設(shè)備。同樣地,這些功能可以被解釋成用于從 輸入串中合成語音的方法的步驟。作為替換,某些或所有功能可以由 一個(gè)未存儲有程序指令的狀態(tài)機(jī)來實(shí)現(xiàn),或是在一個(gè)或多個(gè)專用集成 電路(ASIC)中實(shí)現(xiàn),其中在所述專用集成電路中,每一個(gè)功能或是 某些功能的某些組合可以被實(shí)現(xiàn)為定制邏輯。當(dāng)然,也可以使用這兩 種方法的組合。由此,在這里描述了用于這些功能的方法和裝置。此 外,還可以預(yù)期的是,盡管有可能需要付出相當(dāng)多的努力,并且有可
12能受例如可用時(shí)間、當(dāng)前技術(shù)以及經(jīng)濟(jì)考慮因素的推動而需要做出很 多設(shè)計(jì)選擇,但是對本領(lǐng)域普通技術(shù)人員來說,在受到這里所公開的 概念和原理的引導(dǎo)下,他們很容易就能以最少的試驗(yàn)來產(chǎn)生這些軟件
指令、程序以及IC。
在上文的描述中,已經(jīng)公開了本發(fā)明的具體實(shí)施例。但是,本領(lǐng) 域普通技術(shù)人員將會了解,在沒有背離所附權(quán)利要求所闡述的本發(fā)明 范圍的情況下,各種修改和改變都是可行的。因此,本說明書和附圖 應(yīng)該被看作是說明性而不是限制性的,并且所有這種修改全都應(yīng)該包 含在本發(fā)明的范圍以內(nèi)。這里給出的益處、優(yōu)點(diǎn)、問題解決方案、以 及可能產(chǎn)生任何益處、優(yōu)點(diǎn)、解決方案或是使之更為明顯的任何一個(gè) 或多個(gè)要素都不應(yīng)該被解釋成是任何一個(gè)或所有權(quán)利要求的重要、必 要或基本的特征或要素。本發(fā)明僅僅由所附權(quán)利要求來限定,并且這 些權(quán)利要求包含了在本申請的審查過程中的任何修改以及這些權(quán)利要 求的所有等效內(nèi)容。
權(quán)利要求
1. 一種用于從輸入串中合成語音的方法,該方法包括 處理輸入串,以便提供聲學(xué)參數(shù)序列;使用該聲學(xué)參數(shù)序列從語音庫中產(chǎn)生候選微分段集合序列; 從候選微分段集合序列中為聲學(xué)參數(shù)序列確定一個(gè)優(yōu)選的微分 段序列;以及串連該優(yōu)選微分段序列中的微分段,以便產(chǎn)生合成語音。
2. 根據(jù)權(quán)利要求1的方法,其中,處理輸入串以便提供聲學(xué)參 數(shù)序列的步驟包括處理輸入串,以便提供音素序列; 確定該音素序列中的音節(jié)邊界,以便提供音節(jié)序列; 識別音節(jié)序列中的子音節(jié)單元,以便提供子音節(jié)序列; 從子音節(jié)序列中產(chǎn)生微分段描述序列;以及 處理微分段描述序列,以便提供聲學(xué)參數(shù)序列。
3. 根據(jù)權(quán)利要求2的方法,其中,微分段描述序列是使用持續(xù) 時(shí)間模型從子音節(jié)序列中產(chǎn)生的,其中該持續(xù)時(shí)間模型包含音素的平 均持續(xù)時(shí)間以及音素的韻律屬性。
4. 根據(jù)權(quán)利要求2的方法,其中,子音節(jié)序列包括cv類語音單元或音素中的一個(gè)或多個(gè)。
5. 根據(jù)權(quán)利要求1的方法,其中,聲學(xué)參數(shù)序列中的聲學(xué)參數(shù) 包括頻鐠參數(shù)、音調(diào)參數(shù)以及能量參數(shù)。
6. 根據(jù)權(quán)利要求1的方法,其中,候選微分段集合是使用目標(biāo) 成本函數(shù)以及持續(xù)時(shí)間模型從語音庫中選出的。
7. 根據(jù)權(quán)利要求6的方法,其中,目標(biāo)成本函數(shù)是頻鐠成本、 音調(diào)成本和能量成本的加權(quán)總和。
8. 根據(jù)權(quán)利要求1的方法,其中,優(yōu)選微分段序列是使用維特 比算法從候選微分段集合中為聲學(xué)參數(shù)序列而確定的。
9. 根據(jù)權(quán)利要求8的方法,其中,維特比算法包括路徑成本函 數(shù),該路徑成本函數(shù)是目標(biāo)成本函數(shù)和串連成本函數(shù)的總和。
10. 根據(jù)權(quán)利要求9的方法,其中,目標(biāo)成本函數(shù)是頻譜成本函 數(shù)、音調(diào)成本函數(shù)以及能量成本函數(shù)的加權(quán)總和。
11. 根據(jù)權(quán)利要求9的方法,其中,串連成本函數(shù)是頻譜差函數(shù)、 音調(diào)差函數(shù)以及能量差函數(shù)的加權(quán)總和。
12. 根據(jù)權(quán)利要求10的方法,其中,目標(biāo)成本函數(shù)被定義如下其中,w^是聲學(xué)參數(shù)序列中的第i個(gè)聲學(xué)參數(shù)的第k個(gè)候選微分 段,C^("J是目標(biāo)成本函數(shù),C^( )是頻譜成本函數(shù),C^(";,》是音調(diào) 成本函數(shù),C^( )是能量成本函數(shù),而J^、 f^和X^是加權(quán)值。
13. 根據(jù)權(quán)利要求11的方法,其中,串連成本函數(shù)是根據(jù)以下 等式定義的Cc(",_w,"a)=其中,",々是聲學(xué)參數(shù)序列中的第i-1個(gè)聲學(xué)參數(shù)的第j個(gè)候選 微分段,是聲學(xué)參數(shù)序列中的第i個(gè)聲學(xué)參數(shù)的第k個(gè)候選微分段,C^",W^ , ",,fe)是用于串連與的串連成本,C^(";.m , n,,》是",w,* 與W,,A之間的頻譜差函數(shù),C^(",^, W,j)是",-M與",,A之間的音調(diào)差函與"w之間的能量差函數(shù),而J^、 J^和K 是加權(quán)值。
14. 根據(jù)權(quán)利要求5的方法,其中,音調(diào)參數(shù)是下列音調(diào)模型之 一WO stress、 WO unstress 、 WF stress 、 WF stress或WS stress。
15. 根據(jù)權(quán)利要求5的方法,其中,能量參數(shù)包括話音部分和非 話音部分。
16. 根據(jù)權(quán)利要求3的方法,其中,持續(xù)時(shí)間模型是由以下等式 定義的<formula>formula see original document page 3</formula>其中,^是音素/;的估計(jì)持續(xù)時(shí)間,丄^是音素p的平均音素持 續(xù)時(shí)間,而^是根據(jù)包括含有音素p的音節(jié)中的音素?cái)?shù)目、包含該音 素戶的單詞中的音節(jié)數(shù)目以及音素/7的類型在內(nèi)的多個(gè)因素所獲得的 韻律屬性系數(shù)。
全文摘要
一種用于從輸入串中合成語音的方法,使得能夠改善文本-語音合成的聲音質(zhì)量。該方法包括對輸入串進(jìn)行處理,以便提供聲學(xué)參數(shù)序列(步驟305)。從語音庫中為聲學(xué)參數(shù)序列中的每一個(gè)聲學(xué)參數(shù)產(chǎn)生一個(gè)候選微分段集合(步驟310)。然后,從候選微分段集合中為聲學(xué)參數(shù)序列確定一個(gè)優(yōu)選的微分段序列(步驟315)。然后,串連優(yōu)選微分段序列中的微分段,以便產(chǎn)生合成語音(步驟320)。
文檔編號G10L13/06GK101312038SQ20071010458
公開日2008年11月26日 申請日期2007年5月25日 優(yōu)先權(quán)日2007年5月25日
發(fā)明者曹振海, 祖漪清 申請人:摩托羅拉公司