韻律編輯裝置、方法及程序的制作方法
【專利摘要】提供能容易編輯韻律的韻律編輯裝置、方法及程序。本實施方式涉及的韻律編輯裝置包括:第1選擇部、存納部、檢索部、標準化部、映射部、顯示部、第2選擇部、恢復部及置換部。存納部對應存納表示短語相關的屬性的屬性信息、和1個以上的韻律圖形,上述韻律圖形表示該短語的韻律的型式,并且表示該短語的韻律的參數(shù)包含該短語的音素數(shù)以上的要素數(shù)。檢索部從存納部檢索選擇短語和屬性信息相一致的1個以上的韻律圖形,得到韻律圖形集合。映射部將標準化的韻律圖形分別映射在數(shù)目比要素數(shù)少的坐標中表示的低維度空間,生成映射坐標?;謴筒堪凑者x擇坐標而恢復韻律圖形,得到恢復韻律圖形。置換部根據(jù)選擇短語將生成的合成語音的韻律置換為恢復韻律圖形。
【專利說明】韻律編輯裝置、方法及程序
【技術(shù)領域】
[0001] 本發(fā)明的實施方式涉及韻律編輯裝置、方法及程序。
【背景技術(shù)】
[0002]近年來,隨著從文本合成語音的語音合成技術(shù)的發(fā)展,能得到接近人的發(fā)音的自然合成音。
[0003]近年的語音合成系統(tǒng)中,一般采用從錄制人的語音的語音語料庫學習韻律或音質(zhì)的統(tǒng)計模型的方法。例如,作為韻律的統(tǒng)計模型,已知有決定樹模型、隱藏馬爾可夫模型等。通過使用這些統(tǒng)計模型,也能以某種程度自然地再現(xiàn)學習語料庫中不存在的任意文本的語調(diào)。
[0004]可是,由于統(tǒng)計模型從語音語料庫的多個表達學習平均的韻律特征,從統(tǒng)計模型生成的合成語音的語調(diào)容易變得單調(diào)。因此,存在如下系統(tǒng):將根據(jù)統(tǒng)計模型生成的韻律的圖形可見化并向用戶提示,用戶使用鼠標等的設備能圖形化地編輯。
[0005]現(xiàn)有技術(shù)文獻
[0006]專利文獻
[0007]專利文獻1:日本特開2008-268477號公報
[0008]專利文獻2:日本專利第4296231號說明書
【發(fā)明內(nèi)容】
[0009]然而,圖畫的編輯中,能制作任意的韻律,只要作為合成語音輸出即可。因而,韻律圖形編輯使編輯的自由度增大,但是,相反,也能作成不妥當?shù)捻嵚傻膱D形。即,存在沒有語音相關的知識的用戶非常難制作期望的韻律的圖形這樣的問題。
[0010]還有,為了解決自由度的問題點,存在向二元坐標平面壓縮自由度非常大的參數(shù)空間的方法??墒?,存在如下問題:能編輯的不是短語的韻律的圖形,而是合成音的音質(zhì),所以編輯對象不同,并且無法用于編輯文本的任意短語的基頻、持續(xù)時間長度的目的。
[0011]本公開為了解決上述的課題而做出,其目的在于提供一種能容易編輯韻律的韻律編輯裝置、方法及程序。
[0012]本實施方式涉及的韻律編輯裝置包括--第I選擇部、存納部、檢索部、標準化部、映射部、顯示部、第2選擇部、恢復部及置換部。第I選擇部從文本選擇含有音素的短語/詞組(PHRASE),作為選擇短語。存納部對應存納表示短語相關的屬性的屬性信息、和I個以上的韻律圖形,上述韻律圖形表示該短語的韻律的型式,并且表示該短語的韻律的參數(shù)包含該短語的音素數(shù)以上的要素數(shù)。檢索部從上述存納部檢索上述選擇短語和屬性信息相一致的上述I個以上的韻律圖形,得到韻律圖形集合。標準化部將上述韻律圖形集合中包括的韻律圖形分別標準化。映射部將標準化的上述韻律圖形分別映射在數(shù)目比上述要素數(shù)少的坐標中表示的低維度空間,生成映射坐標。顯示部顯示上述映射坐標。第2選擇部得到從上述映射坐標選擇的坐標,作為選擇坐標?;謴筒堪凑丈鲜鲞x擇坐標而恢復韻律圖形,得到恢復韻律圖形。置換部,根據(jù)上述選擇短語將生成的合成語音的韻律置換為上述恢復韻律圖形。
【專利附圖】
【附圖說明】
[0013]圖1是表示第1實施方式涉及的韻律編輯裝置的方塊圖。
[0014]圖2是表示在韻律圖形DB存納的短語的屬性信息的一個例子的圖。
[0015]圖3是表示在韻律圖形DB存納的韻律圖形的一個例子的圖。
[0016]圖4是表示基頻、持續(xù)時間長度及力度(POWER)的關系的圖。
[0017]圖5是表示韻律編輯裝置的操作的流程圖。
[0018]圖6是表示韻律圖形標準化部的標準化處理的圖。
[0019]圖7是用于說明韻律圖形映射部的映射處理的圖。
[0020]圖8是用于說明韻律圖形映射部的映射處理的圖。
[0021]圖9是表示在顯示部顯示的映射坐標的一個例子的圖。
[0022]圖10是表示在顯示部顯示的用戶界面,(a)表示韻律圖形的圖表,(b)表示二元坐標平面的圖。
[0023]圖11是表示第1變形例的韻律圖形映射部的映射處理,(a)表示基頻的二元坐標平面,(b)表示持續(xù)時間長度的二元坐標平面的圖。
[0024]圖12是表示第1變形例涉及的界面的一個例子的圖。
[0025]圖13是表示第2變形例涉及的集中(CLUSTERING)處理后的二元坐標平面的例子的圖。
[0026]圖14是表示第3變形例涉及的在韻律圖形DB存納的韻律圖形的一個例子的圖。
[0027]圖15是表示第3變形例涉及的集中處理后的二元坐標平面的例子的圖。
[0028]圖16是表示第2實施方式涉及的韻律編輯裝置的方塊圖。
[0029]圖17是表示第2實施方式涉及的韻律圖形恢復部的處理的圖。
[0030]圖18是表示韻律編輯裝置的硬件配置的方塊圖。
【具體實施方式】
[0031]以下,一邊參照附圖一邊關于本實施方式涉及的韻律編輯裝置、方法及程序詳細地說明。再者,以下的實施方式中,對附加相同的參照符號的部分進行同樣的操作,適當?shù)厥÷灾貜偷恼f明。
[0032](第1實施方式)
[0033]關于第1實施方式涉及的韻律編輯裝置,參照圖1的方塊圖來說明。
[0034]第1實施方式涉及的韻律編輯裝置100包括:語音合成部101、短語選擇部102、韻律圖形數(shù)據(jù)庫103 (以下,稱為韻律圖形DB103)、韻律圖形檢索部104、韻律模型數(shù)據(jù)庫105(以下,稱為韻律模型DB105)、韻律模式生成部106、韻律圖形標準化部107、韻律圖形映射部108、坐標選擇部109,韻律圖形恢復部110、韻律圖形置換部111及顯示部112。
[0035]語音合成部101,從外部接收文本,對文本語音合成,生成合成語音,輸出到外部。對語音合成的方式,一般已知有使用連接音素的片斷的要素連接型語音合成、或隱藏馬爾可夫模型將韻律、聲質(zhì)模型化的HMM語音合成等。在這里,只要能取得合成語音的韻律圖形,可以采用任何的語音合成方式。所謂韻律圖形,表示短語的韻律的型式,意味著表示短語的韻律的基頻、持續(xù)時間長度、力度等的參數(shù)的時系變化。還有,表示韻律圖形的參數(shù)具有短語的音素數(shù)以上的要素數(shù)。
[0036]短語選擇部102從外部接收文本,按照用戶的輸入選擇作為從文本編輯韻律的范圍的短語,得到選擇短語。作為選擇短語的選擇方法,例如有鼠標、鍵盤、觸摸屏等,只要通過鼠標等選擇短語的范圍即可。短語選擇部102從語音合成部101取得與選擇的短語相對應的合成語音的屬性信息。所謂屬性信息表示短語的表層表現(xiàn)、音素列的排列方法、短音節(jié)(MORA)數(shù)、和口音(ACCENT)型等的關于短語的屬性。
[0037]韻律圖形DB103分別對應存納短語的屬性信息、和短語的I個以上的韻律圖形。向韻律圖形DB103進行屬性信息及韻律圖形的登記方法,采用例如登記從錄音語音提出的真實的嗓音韻律圖形、用戶登記編輯完成的韻律圖形、從韻律的統(tǒng)計模型登記自動生成的韻律這樣的一般方法即可。
[0038]韻律圖形檢索部104從短語選擇部102接收選擇短語及屬性信息。韻律圖形檢索部104從韻律圖形DB103檢索選擇短語的屬性信息和屬性信息相一致的短語,得到與相一致的短語相對應的I個以上的韻律圖形作為韻律圖形集合。
[0039]韻律模型DB105存納統(tǒng)計模型。統(tǒng)計模型采用語音語料庫表示學習的決定樹模型、隱藏馬爾可夫模型。只要準備各種表達風格、感情、和說話者的統(tǒng)計模型,能對用戶指定的選擇短語生成各種韻律圖形。
[0040]韻律模式生成部106從韻律圖形檢索部104接收選擇短語及韻律圖形集合。韻律模式生成部106使用韻律模型DB105,生成有關選擇短語的韻律圖形,向韻律圖形集合追加生成的韻律圖形。
[0041]再者,只要韻律圖形檢索部104檢索的韻律圖形集合包括的韻律圖形的數(shù)目為閾值以上,韻律模式生成部106也可不重新生成韻律圖形。
[0042]韻律圖形標準化部107從韻律圖形檢索部104接收韻律圖形集合。再者,在韻律模式生成部106向韻律圖形集合追加韻律圖形的場合,從韻律模式生成部106接收韻律圖形集合。韻律圖形標準化部107將生成的韻律圖形集合的韻律圖形分別標準化。
[0043]韻律圖形映射部108從韻律圖形標準化部107接收標準化的韻律圖形,將標準化的韻律圖形映射在數(shù)目比參數(shù)的要素數(shù)少的坐標中表示的低維度空間,并得到每韻律圖形的映射坐標。
[0044]坐標選擇部109按照來自用戶的指示選擇坐標,得到選擇坐標。
[0045]韻律圖形恢復部110分別從韻律圖形映射部108接收映射坐標,從坐標選擇部109接收選擇坐標。韻律圖形恢復部110比較映射坐標和選擇坐標,恢復與選擇坐標相對應的坐標的韻律圖形,得到恢復韻律圖形。
[0046]韻律圖形置換部111從韻律圖形恢復部110接收恢復韻律圖形,用恢復韻律圖形置換語音合成部101生成的默認的韻律圖形。
[0047]顯示部112從語音合成部101接收并顯示韻律圖形,從韻律圖形映射部108接收并顯示映射坐標。
[0048]再者,本實施方式中,假定韻律編輯裝置100包含語音合成部101的場合,但是,韻律編輯裝置100也可以不包含語音合成部101,使用外部的語音合成器。在這個場合,韻律圖形置換部111向外部的語音合成器輸出與選擇短語相對應的恢復韻律圖形即可。
[0049]其次,關于在韻律圖形DB103存納的短語的屬性信息的一個例子,參照圖2說明。
[0050]如圖2所示,在韻律圖形DB103,標識符201(以下,稱為ID201)、表層表現(xiàn)202、音素列203、短音節(jié)數(shù)及口音型204分別對應作為短語的屬性信息205來存納,進而與短語對應的韻律圖形的圖形數(shù)206與屬性信息205對應來存納。
[0051]ID201表不短語的標識號。表層表現(xiàn)202表不短語的字符串。音素列203表不與表層表現(xiàn)202相對應的音素的字符串,每音素的群組由“/”斷開。短音節(jié)數(shù)及口音型204表不表層表現(xiàn)202發(fā)聲的場合的口音。圖形數(shù)206表不音素列203的韻律圖形的數(shù)目。具體地,例如,對應存納ID201 “1”、表層表現(xiàn)202 “下^ ^ ”,音素列203 “/K/U/D/A/S/A/I/”、短音節(jié)數(shù)及口音型204 “4短音節(jié)3型”、圖形數(shù)206 “182”。
[0052]再者,語言為英語的場合,ID201、表層表現(xiàn)202及音素列203作為各個屬性信息205對應,韻律圖形的圖形數(shù)206與屬性信息205對應。具體地,圖2的例子中,ID201“ 14”、表層表現(xiàn)202 “Please”、音素列203 “/p/l/ii/z/”和圖形數(shù)206 “7”分別對應。在英語的場合,不存在日語特有的短音節(jié)數(shù)/ 口音型,所以在這里省略。
[0053]其次,關于在韻律圖形DB103存納的韻律圖形的一個例子,參照圖3說明。
[0054]對于如圖2所示的1個ID201,按每個對應韻律圖形,ID201、PID301、基頻302及持續(xù)時間長度303分別作為參數(shù)來對應存納。PID301表示識別與1個ID201相對應的各圖形的標識符。基頻302是音素的音高。在這里,每1幀的頻率作為要素來存納。持續(xù)時間長度303是音素的發(fā)音繼續(xù)的時間的長度。在這里,1個音素表示持續(xù)經(jīng)過幾幀,每音素的幀數(shù)作為要素來存納 。
[0055]例如,圖2中的ID201 “9”的“ ^如力5 t如(IKAGADESUKA) ”這個短語有41個韻律圖形,圖3中,表示41個圖形中的4個。例如,分別對應存納PID301 “1”,基頻302 “[284,278,273,266,261,259,255,...],,,持續(xù)時間長度 303 “[12,12,11,7,9,9,9,18,12,23]”。SP,短語“ P^ +如”的音素“I”是12幀的長度,可知道對每幀基頻“284,278,273,266,261,259,255,…”繼續(xù)。
[0056]上述的圖形期望準備盡可能多種圖形。例如,如果能準備各種副語言信息、感情、風格、說話者的韻律圖形,則用戶能從各種韻律圖形選擇希望的圖形。再者,圖3的例子中,作為參數(shù)顯示基頻及持續(xù)時間長度,但是作為參數(shù),表示音素被發(fā)音時的音量的力度也可以對應存納。
[0057]其次,關于韻律圖形的基頻、持續(xù)時間長度及力度的關系,參照圖4說明。
[0058]圖4是根據(jù)作為短語“ ^如好^ +如”的韻律圖形的參數(shù)的基頻、持續(xù)時間長度及力度生成的圖表。橫軸表示時間(單位幀),縱軸分別在左側(cè)表示頻率(單位Hz),在右側(cè)表示力度(單位dB)。再者,將秒作為時間的單位,將八度音等作為頻率的單位,也可以使用其他的單位。
[0059]持續(xù)時間長度作為各音素幅度401的時系列數(shù)據(jù)來表示。例如,音素“/I/”為12中貞,音素“/K/”為12幀,音素“/A/”為11幀。沿著時系列將這些音素寬度的數(shù)據(jù)排列的數(shù)據(jù)為在如圖3所示的持續(xù)時間長度303存納的要素。
[0060]這個坐標空間中對于各幀與1個頻率值對應,基頻能表示為關聯(lián)于頻率值的1個軌跡402。在這里,假定每幀具有頻率值,但是每音素、每母音等任何單位也可具有頻率值。沿著時系列按順序?qū)⑦@些頻率值排列的數(shù)據(jù)為在如圖3所示的基頻302存納的要素。
[0061]力度與基頻的軌跡402同樣,能作為關聯(lián)于每幀的力度的值的I個軌跡403表示。
[0062]其次,關于本實施方式涉及的韻律編輯裝置的操作,參照圖5流程圖說明。
[0063]在步驟S501,韻律圖形檢索部104接收由用戶選擇的選擇短語。
[0064]在步驟S502,韻律圖形檢索部104從韻律圖形DB103檢索選擇短語的屬性信息和屬性信息相一致的短語,作為韻律圖形集合得到與屬性信息相一致的短語相對應的韻律圖形。作為檢索方法,采用表層表現(xiàn)作為短語的屬性信息,檢索是否存在具有與選擇短語的表層表現(xiàn)相一致的表層表現(xiàn)的短語即可。還有,采用音素列作為屬性信息,檢索是否存在具有與選擇短語的音素列相一致的音素列的短語即可。并且,也可以采用短音節(jié)數(shù)及口音型作為屬性信息,檢索是否存在具有與選擇短語的短音節(jié)數(shù)及口音型相一致的短音節(jié)數(shù)及口音型的短語。
[0065]因為常常短音節(jié)數(shù)及口音型相同的短語的韻律圖形彼此類似,即使表層表現(xiàn)相一致的短語的韻律圖形數(shù)少的場合,作為韻律圖形集合采用表層表現(xiàn)不同、但是短音節(jié)數(shù)及口音型相一致的韻律圖形,能增加韻律圖形的變化。
[0066]再者,韻律模式生成部106,也可以使用在韻律模型DB105存納的統(tǒng)計模型生成選擇短語的韻律圖形。由于使用在韻律模型DB105存納的統(tǒng)計模型,即使選擇短語是與在韻律圖形DB103存納的韻律圖形屬性不相一致的短語的場合,也能生成韻律圖形
[0067]在步驟S503,韻律圖形標準化部107分別標準化韻律圖形集合包括的韻律圖形。關于標準化處理,參照圖6后述。`
[0068]在步驟S504,韻律圖形映射部108在低維度空間將標準化的韻律圖形集合的各韻律圖形進行映射。向低維度空間的映射處理,例如,用主成分分析即可。關于具體的映射處理,參照圖7及圖8后述。
[0069]在步驟S505,顯示部112顯示映射的韻律圖形集合的映射坐標。
[0070]在步驟S506,坐標選擇部109將由用戶選擇的區(qū)域的坐標作為選擇坐標。
[0071]在步驟S507,韻律圖形恢復部110恢復選擇的韻律圖形,生成恢復韻律圖形。關于具體的恢復處理后述。
[0072]在步驟S508,韻律圖形置換部111通過恢復韻律圖形置換選擇短語的韻律圖形。在這里,在單純地置換處理的場合,因為短語前后和韻律不平滑地連接,有可能合成語音成為不自然。這樣的場合,采用將基頻的軌跡插值等一般的方法即可。
[0073]在步驟S509,語音合成部101采用恢復韻律圖形進行語音合成。
[0074]在步驟S510,判定恢復韻律圖形是否為用戶期望的韻律圖形的合成語音,如果判定是用戶期望的韻律圖形的合成語音,則結(jié)束處理。所謂用戶期望的合成語音這樣的判斷是由用戶選擇例如在顯示部112顯示的決定按鈕判定即可。另一方面,如果判定不是用戶期望的韻律圖形的合成語音,則返回到步驟S506的處理,從顯示部112顯示的映射坐標進一步進行韻律圖形的選擇。以上,結(jié)束本實施方式涉及的韻律編輯裝置100的操作。
[0075]其次,關于韻律圖形標準化部107的標準化處理,參照圖6說明。
[0076]圖6表示標準化如圖3所示的短語“ ^如好^ +分”的4個韻律圖形(PID=I, 2, 3, 4)的例子。縱軸表示把基頻的平均值作為零的場合的標準化值,橫軸表示幀數(shù)。在這里,將韻律圖形的幀數(shù)等于200幀,即各韻律圖形的要素數(shù)為200個(200維的數(shù)據(jù))。
[0077]通常,對于基頻,由于人的聲音的高度不同而基頻的平均值不同。為此,使基頻的平均值調(diào)整成為零,通過恢復韻律圖形時對象的說話者的基頻調(diào)整平均值。還有,由于基頻的數(shù)據(jù)長度根據(jù)韻律圖形而不同,將數(shù)據(jù)長度先行壓縮直到對每音素確定的任意的固定長度,對齊其他的韻律圖形的數(shù)據(jù)長度。最終,將基頻和持續(xù)時間長度的各幀標準化,使其平均值為零,標準差為1。通過這些處理,能統(tǒng)一基頻和持續(xù)時間長度的單位。再者,預先保持標準化中使用的原來的平均值及標準差的數(shù)據(jù),能恢復為原來的值。
[0078]其次,關于韻律圖形映射部108的映射處理,參照圖7及圖8說明。
[0079]在這里,表示使用主成分分析在低維度空間映射韻律圖形集合的一個例子。再者,作為低維度空間,期望在三次元以下的坐標空間映射,本實施方式中表示在二元坐標平面映射的例子,但是,不限于二元坐標平面,由比參數(shù)的要素數(shù)少的坐標表示韻律圖形的坐標平面即可。
[0080]如圖7所示,進行映射處理時,生成將最初標準化的韻律圖形集合的基頻的要素701和持續(xù)時間長度的要素702結(jié)合的矩陣X703。X的各行相當于將各韻律圖形的基頻和持續(xù)時間長度結(jié)合的要素。通過這樣生成矩陣,能同時編輯基頻和持續(xù)時間長度。
[0081]繼續(xù),如圖8表示韻律圖形集合的矩陣X的矩陣尺寸。
[0082]韻律圖形集合的矩陣X801成為η行p列,以如圖8所示進行簡略化表示。對于這個η行ρ列的矩陣Χ801,使用式(1)算出矩陣Χ801的方差/協(xié)方差矩陣V802。
[0083]【式1】
[0084]
【權(quán)利要求】
1.一種韻律編輯裝置,其特征在于,包括:第1選擇部,從文本選擇含有音素的短語,得到選擇短語;存納部,對應存納表示短語相關的屬性的屬性信息、和1個以上的韻律圖形,上述韻律圖形表示該短語的韻律的型式,并且表示該短語的韻律的參數(shù)包含該短語的音素數(shù)以上的要素數(shù);檢索部,從上述存納部檢索上述選擇短語和屬性信息相一致的上述1個以上的韻律圖形,得到韻律圖形集合;標準化部,將上述韻律圖形集合中包括的韻律圖形分別標準化;映射部,將標準化的上述韻律圖形分別映射在數(shù)目比上述要素數(shù)少的坐標中表示的低維度空間,生成映射坐標;顯示部,顯示上述映射坐標;第2選擇部,得到從上述映射坐標選擇的坐標,作為選擇坐標;恢復部,按照上述選擇坐標而恢復韻律圖形,得到恢復韻律圖形;置換部,根據(jù)上述選擇短語將生成的合成語音的韻律置換為上述恢復韻律圖形。
2.如權(quán)利要求1所述的韻律編輯裝置,其特征在于,還包括: 生成部,使用統(tǒng)計模型生成上述選擇短語相關的韻律圖形,將生成的韻律圖形追加到上述韻律圖形集合。
3.如權(quán)利要求1或2所述的韻律編輯裝置,其特征在于,還包括:語音合成部,根據(jù)上述恢復韻律圖形將文本語音合成,生成合成語音。
4.如權(quán)利要求1至3中任一項所述的韻律編輯裝置,其特征在于,上述屬性信息包含表示上述短語的字符串的表層表現(xiàn);上述檢索部檢索上述選擇短語的表層表現(xiàn)和上述短語的表層表現(xiàn)是否相一致。
5.如權(quán)利要求1至3中任一項所述的韻律編輯裝置,其特征在于,上述屬性信息包含表示上述短語的音素的字符串的音素列;上述檢索部檢索上述選擇短語的音素列和上述短語的音素列是否相一致。
6.如權(quán)利要求1至3中任一項所述的韻律編輯裝置,其特征在于,上述屬性信息包含上述短語的短音節(jié)數(shù)及口音型;上述檢索部檢索上述選擇短語的短音節(jié)數(shù)及口音型、和上述短語的短音節(jié)數(shù)及口音型是否相一致。
7.如權(quán)利要求1至6中任一項所述的韻律編輯裝置,其特征在于,上述韻律圖形的參數(shù)包含音素的基頻、音素的持續(xù)時間長度及音素的力度;上述映射部,關于上述基頻、上述持續(xù)時間長度、和上述力度中的1個以上的參數(shù),獨立映射。
8.如權(quán)利要求1至6中任一項所述的韻律編輯裝置,其特征在于,上述韻律圖形,通過音素的基頻、音素的持續(xù)時間長度及音素的力度來表現(xiàn);上述映射部,將上述基頻、上述持續(xù)時間長度、和上述力度度的1個以上的參數(shù)結(jié)合映射。
9.如權(quán)利要求1至8中任一項所述的韻律編輯裝置,其特征在于,上述映射部,根據(jù)上述映射坐標間的距離將該映射坐標集中,從集中的多個映射坐標中決定代表點; 上述顯示部顯示上述代表點。
10.如權(quán)利要求1至9中任一項所述的韻律編輯裝置,其特征在于, 上述恢復部,在上述選擇坐標和映射坐標的距離為閾值以內(nèi)的場合,得到將該映射坐標映射之前的韻律圖形作為恢復韻律圖形。
11.一種韻律編輯方法,其特征在于,包括: 從文本選擇含有音素的短語,得到選擇短語; 在存納裝置對應存納表示短語相關的屬性的屬性信息、和I個以上的韻律圖形,上述韻律圖形表示該短語的韻律的型式,并且表示該短語的韻律的參數(shù)包含該短語的音素數(shù)以上的要素數(shù); 從上述存納裝置檢索上述選擇短語和屬性信息相一致的上述I個以上的韻律圖形,得到韻律圖形集合; 將上述韻律圖形集合中包含的韻律圖形分別標準化; 將標準化的上述韻律圖形分別 映射在數(shù)目比上述要素數(shù)少的坐標中表示的低維度空間,生成映射坐標; 顯示上述映射坐標; 得到從上述映射坐標選擇的坐標,作為選擇坐標; 按照上述選擇坐標而恢復韻律圖形,得到恢復韻律圖形; 根據(jù)上述選擇短語將生成的合成語音的韻律置換為上述恢復韻律圖形。
12.一種韻律編輯程序,其特征在于,使得計算機作為以下裝置起作用,所述裝置包括: 第I選擇裝置,從文本選擇含有音素的短語,得到選擇短語; 存納裝置,對應存納表示短語相關的屬性的屬性信息、和I個以上的韻律圖形,上述韻律圖形表示該短語的韻律的型式,并且表示該短語的韻律的參數(shù)包含該短語的音素數(shù)以上的要素數(shù); 檢索裝置,從上述存納裝置檢索上述選擇短語和屬性信息相一致的上述I個以上的韻律圖形,得到韻律圖形集合; 標準化裝置,將上述韻律圖形集合中包括的韻律圖形分別標準化; 映射裝置,將標準化的上述韻律圖形分別映射在數(shù)目比上述要素數(shù)少的坐標中表示的低維度空間,生成映射坐標; 顯示裝置,顯示上述映射坐標; 第2選擇裝置,得到從上述映射坐標選擇的坐標,作為選擇坐標; 恢復裝置,按照上述選擇坐標而恢復韻律圖形,得到恢復韻律圖形; 置換裝置,根據(jù)上述選擇短語將生成的合成語音的韻律置換為上述恢復韻律圖形。
【文檔編號】G10L13/08GK103632662SQ201310364756
【公開日】2014年3月12日 申請日期:2013年8月20日 優(yōu)先權(quán)日:2012年8月20日
【發(fā)明者】森纮一郎, 籠島岳彥, 森田真弘 申請人:株式會社東芝