使語音合成時長模型自適應(yīng)的方法和設(shè)備的制作方法

文檔序號：2831967閱讀：221來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：：使語音合成時長模型自適應(yīng)的方法和設(shè)備的制作方法
技術(shù)領(lǐng)域：
：本發(fā)明涉及語音合成領(lǐng)域，尤其涉及語音合成時長模型的自適應(yīng)。
背景技術(shù)：
：語音合成(Text-To-Speech，簡稱TTS)是一種將任意文字信息轉(zhuǎn)化為標(biāo)準(zhǔn)、流暢語音的技術(shù)。語音合成涉及到自然語言處理、韻律學(xué)、語音信號處理、聲音感知等技術(shù)，橫跨聲學(xué)、語言學(xué)、數(shù)字信號處理等多個學(xué)科。語音合成技術(shù)可廣泛應(yīng)用于電信、金融、電力、郵政、政府等行業(yè)。例如，語音技術(shù)可以讓用戶更為輕松地收發(fā)電子郵件，獲取股市行情，了解天氣、交通和道路情況。語音合成技術(shù)的一個目的是合成高可懂度、高自然度的語音。經(jīng)過近十幾年的研究，現(xiàn)階段的語音合成系統(tǒng)大多采用基于大規(guī)模語音數(shù)據(jù)庫的拼接合成技術(shù)，合成的語音質(zhì)量已經(jīng)達(dá)到了實用的地步。一般來說，一個語音合成系統(tǒng)首先要選取一定的基本語音合成單元，例如英語中的音素、漢語中的半音節(jié)(即聲韻母)或者帶調(diào)音節(jié)等。然后在韻律模型(音長和基頻等)預(yù)測結(jié)果的指導(dǎo)下，從預(yù)先錄制標(biāo)注好的音庫中搜尋全局最優(yōu)的合成單元，利用特定的波形生成技術(shù)(如TD-PSOLA算法)對選中的語音段進(jìn)行韻律特性的調(diào)整和修改，最終拼接合成出符合要求的語音。韻律參數(shù)對應(yīng)著語流中聲學(xué)參數(shù)上的一些特性，如停頓、基頻的變化，或者是音節(jié)的時長變化等特性。對于一個語音合成系統(tǒng)來說，需要時長預(yù)測模型來提供音節(jié)的時長變化方面的預(yù)測。通過時長預(yù)測模型預(yù)測出更精準(zhǔn)的時長參數(shù)，進(jìn)而在合成語音中實現(xiàn)該聲學(xué)參數(shù)特性，使得合成語音的韻律更加自然。例如在郭慶和片江伸之提交的中國專利申請CN200510117003.4，“一種基于決策樹的語音時長預(yù)測分析裝置及方法”中公開了預(yù)測時長的技術(shù)。實際上，對于不同的人來說，他們的音節(jié)時長參數(shù)除了共性特征以外，也存在著個體差異。隨著語音合成系統(tǒng)的市場化深入，客戶希望能夠得到更加豐富多彩的服務(wù)。例如，希望語音合成系統(tǒng)能夠提供多種音色的合成語音。更進(jìn)一步地，客戶可能要求能夠使用自己的聲音來生成合成的語音。對于特定任務(wù)(例如股票播報等)的信息服務(wù)，客戶希望能夠生成具有該特定任務(wù)特色的合成語音等等。
發(fā)明內(nèi)容鑒于現(xiàn)有技術(shù)的上述狀況，本發(fā)明的一個目的是提供一種使語音合成時長模型自適應(yīng)的方法和設(shè)備，以利于獲得具有新說話人或特定任務(wù)特色的語音合成時長模型。為達(dá)到上述目的，本發(fā)明的一個實施例是一種使語音合成時長模型自適應(yīng)的設(shè)備，包括參考模型生成裝置，其根據(jù)所述語音合成時長模型的分類結(jié)構(gòu)對參考樣本數(shù)據(jù)中每個語音合成單元的樣本進(jìn)行分類，通過計算對應(yīng)于每個分類的樣本集的參考樣本數(shù)目和參考時長，生成參考語音合成時長模型；和模型自適應(yīng)裝置，其使所述語音合成時長模型中每個語音合成單元的每個時長，適應(yīng)所述參考語音合成時長模型中相同語音合成單元的、對應(yīng)于所述時長的分類的參考時長。模型自適應(yīng)裝置可以在不存在對應(yīng)于所述時長的分類的所述參考時長的情況下，使所述時長適應(yīng)所述參考語音合成時長模型中相同語音合成單元的、對應(yīng)于和所述時長的分類接近的分類的參考時長。另外，分類結(jié)構(gòu)可基于決策樹，并且和所述時長的分類接近的分類可包括下述中的一或多種作為代表所述時長的葉子節(jié)點的兄弟的葉子節(jié)點的相應(yīng)分類；和作為代表所述時長的葉子節(jié)點的血緣關(guān)系最近的堂兄弟的葉子節(jié)點的相應(yīng)分類。模型自適應(yīng)裝置也可以在不存在所述相同語音合成單元或?qū)?yīng)于和所述時長的分類相應(yīng)或接近的分類的參考時長的情況下，使所述時長適應(yīng)所述參考語音合成時長模型中相同類型的語音合成單元的、對應(yīng)于所述時長的分類的參考時長。模型自適應(yīng)裝置也可以在不存在所述相同語音合成單元或?qū)?yīng)于和所述時長的分類相應(yīng)或接近的分類的參考時長的情況下，使所述時長適應(yīng)所述參考語音合成時長模型中不同聲調(diào)的相同語音合成單元的、對應(yīng)于所述時長的分類的參考時長。此外，參考模型生成裝置可以根據(jù)所述樣本數(shù)據(jù)計算語速，而模型自適應(yīng)裝置可以在不存在所述相同語音合成單元或?qū)?yīng)于和所述時長的分類相應(yīng)或接近的分類的參考時長的情況下，根據(jù)所述語速來調(diào)整所述時長。本發(fā)明的另一個實施例是一種使語音合成時長模型自適應(yīng)的方法，包括根據(jù)所述語音合成時長模型的分類結(jié)構(gòu)對參考樣本數(shù)據(jù)中每個語音合成單元的樣本進(jìn)行分類，通過計算對應(yīng)于每個分類的樣本集的參考樣本數(shù)目和參考時長，生成參考語音合成時長模型；和使所述語音合成時長模型中每個語音合成單元的每個時長，適應(yīng)所述參考語音合成時長模型中相同語音合成單元的、對應(yīng)于所述時長的分類的參考時長。參照下面結(jié)合附圖對本發(fā)明實施例的說明，會更加容易地理解本發(fā)明的以上和其它目的、特點和優(yōu)點。在附圖中，相同的或?qū)?yīng)的技術(shù)特征或部件將采用相同或?qū)?yīng)的附圖標(biāo)記來表示。圖1是根據(jù)本發(fā)明一個實施例的使語音合成時長模型自適應(yīng)的設(shè)備的框圖。圖2是示出圖1所示的設(shè)備進(jìn)行自適應(yīng)的語音合成時長模型的一個例子的示意圖。圖3是示出圖1所示的設(shè)備所采用的參考樣本數(shù)據(jù)的一個例子的示意圖。圖4是示出圖1所示的設(shè)備所采用的參考樣本數(shù)據(jù)的另一個例子的示意圖。圖5是示出根據(jù)本發(fā)明一個實施例的使語音合成時長模型自適應(yīng)的方法的流程圖。圖6是示出根據(jù)本發(fā)明另一個實施例的使語音合成時長模型自適應(yīng)的方法的流程圖。圖7是示出根據(jù)本發(fā)明另一個實施例的使語音合成時長模型自適應(yīng)的方法的流程圖。圖8是示出根據(jù)本發(fā)明另一個實施例的使語音合成時長模型自適應(yīng)的方法的流程圖。圖9是示出根據(jù)本發(fā)明另一個實施例的使語音合成時長模型自適應(yīng)的方法的流程圖。圖10是示出其中實現(xiàn)本發(fā)明的計算機(jī)的示例性結(jié)構(gòu)的框圖。具體實施例方式下面參照附圖來說明本發(fā)明的實施例。應(yīng)當(dāng)注意，為了清楚的目的，附圖和說明中省略了與本發(fā)明無關(guān)的、本領(lǐng)域普通技術(shù)人員已知的部件和處理的表示和描述。在描述本發(fā)明的實施例之前，對語音合成技術(shù)進(jìn)行必要的說明將有利于理解本發(fā)明的實施例。一般來說，一個語音合成系統(tǒng)由三個模塊組成文本分析模塊、韻律參數(shù)預(yù)測模塊、后端合成模塊。文本分析模塊包括分詞、詞性標(biāo)注、注音、韻律結(jié)構(gòu)預(yù)測等。韻律參數(shù)預(yù)測模塊在文本分析結(jié)果的基礎(chǔ)上進(jìn)行時長、基頻、能量等聲學(xué)參數(shù)的預(yù)測。后端合成模塊一般由單元選取和波形生成兩個子模塊組成，其中，單元選取子模塊在韻律參數(shù)的指導(dǎo)下通過概率統(tǒng)計的方法從音庫中搜尋對于輸入文本來說符合全局最優(yōu)的合成單元；波形生成子模塊利用特定的波形生成技術(shù)(如TD-PSOLA算法)對選中的語音段進(jìn)行韻律特性的調(diào)整和修改，最終拼接合成出符合要求的語音。語音合成單元的時長是最重要的韻律特征之一，它對于合成語音的感知自然度有著重要的意義。時長的變化可以有助于人們對于語音合成單元本身的認(rèn)知，同時也有助于人們在一個連續(xù)的語流中能夠確定詞、短語的劃分，從而提高語音的自然度和可懂度。在自然語流中，語音合成單元的長度與該語音合成單元前后的語境是高度相關(guān)的。許多上下文的因素如語音合成單元自身的類型、前后語音合成單元的類型、前后韻律邊界等級、重讀與否等均對語音合成單元的時長都有著制約作用?，F(xiàn)有的語音合成單元時長預(yù)測技術(shù)試圖描述這些上下文因素對于時長的影響，從而提高一個語音合成系統(tǒng)的自然度。一般來說，基于一個大的預(yù)先標(biāo)注好的某個特定播音員的音庫來生成語音合成單元的時長模型(也稱為語音合成時長模型)，其中采用一些統(tǒng)計的或者規(guī)則與統(tǒng)計相結(jié)合的方法從這個標(biāo)注音庫中獲得時長參數(shù)。在客戶(即新說話人)要求能夠使用自己的聲音或根據(jù)特定任務(wù)特色來生成合成語音的情況下，要求客戶去錄制大量的語音數(shù)據(jù)，或針對特定任務(wù)來錄制大量的語音數(shù)據(jù)。這樣的方式使得難以及時為新客戶或新特定任務(wù)特色生成語音合成時長模型。圖1是根據(jù)本發(fā)明一個實施例的使語音合成時長模型自適應(yīng)的設(shè)備100的框圖。設(shè)備100基于包含少量錄音數(shù)據(jù)的音庫(即參考樣本)對已有的語音合成時長模型進(jìn)行自適應(yīng)，從而獲得帶有期望聲音特色的語音合成時長模型。如圖1所示，設(shè)備100包括參考模型生成裝置101和模型自適應(yīng)裝置103。應(yīng)當(dāng)注意，雖然這里以漢語為例對本發(fā)明的實施例進(jìn)行說明，例如以聲韻母作為語音合成單元，然而本發(fā)明的實施例同樣適于諸如英語的其它語言，例如以音素作為語音合成單元。參考模型生成裝置101根據(jù)語音合成時長模型的分類結(jié)構(gòu)對參考樣本數(shù)據(jù)中每個語音合成單元的樣本進(jìn)行分類，通過計算對應(yīng)于每個分類的樣本集的參考樣本數(shù)目和參考時長，生成參考語音合成時長模型102。參考樣本數(shù)據(jù)包括各個音節(jié)、半音節(jié)(即聲韻母)的標(biāo)注樣本集合。音節(jié)、半音節(jié)的標(biāo)注樣本集合是在音庫中出現(xiàn)的全部該音節(jié)、半音節(jié)的集合，并且包含各個出現(xiàn)樣本的相關(guān)上下文信息，如音素上下文、音節(jié)所在詞的詞性、音節(jié)在詞中的位置、左右韻律邊界等級、是否重讀等信息，以及每個樣本下真實發(fā)生的語音時長。通常對錄音音庫中的每一個句子首先進(jìn)行音節(jié)、半音節(jié)邊界的標(biāo)注，然后進(jìn)行語言、語音學(xué)的標(biāo)注。最后，按照不同的音節(jié)、半音節(jié)進(jìn)行分類，得到各個音節(jié)、半音節(jié)的標(biāo)注樣本集合。語言、語音學(xué)標(biāo)注是指經(jīng)過語言分析和語音學(xué)分析處理得到一個序列。通常來說，序列對應(yīng)于一個文本句子。以漢語為例，在經(jīng)過分析處理后，序列包括以下幾個方面的信息漢字字符、分詞信息、詞性信息、漢語拼音(音節(jié)、半音節(jié))信息、重讀信息、韻律邊界等級信息。韻律邊界等級信息表示在合成語音中需要給出的音節(jié)之間的停頓等級。具體來說有詞內(nèi)、詞間、韻律詞邊界、韻律短語邊界、語調(diào)短語邊界和句子邊界六個等級。韻律邊界等級可分別用05來表示。重音等級信息表示在合成語音中需要給出的音節(jié)的重讀等級。具體來說有強(qiáng)調(diào)、正常和輕聲三個等級。重音等級可分別用H，M，L來表示。下面是音庫中一個句子的標(biāo)注文本例子?！唉伞?、“11”、“111”分別代表韻律詞、韻律短語和語調(diào)短語。一個音節(jié)如果被標(biāo)注上“_H”，意味著該音節(jié)是一個重讀音節(jié)；一個音節(jié)如果被標(biāo)注上“_L”，意味著該音節(jié)是一個輕聲音節(jié)。用于標(biāo)注句尾。8月(balyve4_H)/t|20日(er4sh%2r%4)/t|清晨(qinglchen2)/t，|||一(yil)/m支(zh%l)/q滿載(man3zai4)/ν|鍋碗瓢盆(guolwan3piao2pen2)/l、||桌椅(zhuolyi3)/n、||調(diào)料(tiao2liao4)/n、||發(fā)電機(jī)(faldian4jil)/n||等(deng3)/u家當(dāng)(jialdang4)/n的(de5)/u|流動(liu2dong4)/vn支前(zh%1qian2)/vn車隊(cheldui4)/n|從(cong2_H)/p鄭州(zheng4zhoul_H)/ns出發(fā)(chulfal_H)/v了(le5_L)/y。i在上面的例子中，“/”之前的一個或多個字組成一個詞(語言學(xué)詞)，“/”后的英文字母表示該詞的詞性。例如“清晨”是時間詞(“t”)，“滿載”是動詞(“v”)，“，”是標(biāo)點符號(”)等。韻律結(jié)構(gòu)可以由“I”、“II”、“III”和解析出來。例如，“8月”、“20日”、“清晨”、“從鄭州”、“出發(fā)了”等都是韻律詞。進(jìn)一步，“流動支前車隊”和“從鄭州出發(fā)了”為韻律短語，“8月20日清晨”則為語調(diào)短語。需要注意的是，可用的標(biāo)注方式并不限于前面描述的方式。只要能夠表示所需的信息，可以使用任何標(biāo)注方式。在語音合成時長模型中，對于音節(jié)、半音節(jié)的標(biāo)注樣本集合，通常根據(jù)音節(jié)、半音節(jié)的上下文和韻律特征(即分類標(biāo)準(zhǔn))對集合中的樣本進(jìn)行分類，從而得到對應(yīng)于每個分類的樣本子集。針對樣本子集統(tǒng)計得到的時長是對應(yīng)于該分類的時長。對于各個標(biāo)注樣本集合，由于樣本的上下文和韻律特征方面的差異，不同集合可能具有不同的子集劃分。這種子集劃分也稱為分類結(jié)構(gòu)。分類方法包括但不限于決策樹方法。在決策樹方法中，設(shè)計了兩類問題，第一類問題是關(guān)于音節(jié)、半音節(jié)上下文的問題(下文中標(biāo)記為QS類問題)，第二類問題是與韻律特征相關(guān)的問題(下文中標(biāo)記為QT類問題)，如韻律邊界等級、重音等級等。下面是幾個問題例子<table>tableseeoriginaldocumentpage8</column></row><table>基于決策樹方法對音節(jié)、半音節(jié)的標(biāo)注樣本集合進(jìn)行分類的過程可以包括(1)針對標(biāo)注樣本集合生成該音節(jié)、半音節(jié)的決策樹的根節(jié)點，該節(jié)點包含標(biāo)注樣本集合的全部樣本。(2)對于當(dāng)前所有的葉子節(jié)點，遍歷所有問題，其中按照對問題的回答，把當(dāng)前節(jié)點的樣本集合分成兩類，計算這種分類帶來的區(qū)分度。(3)根據(jù)區(qū)分度選取對樣本集合具有最大可分性的問題。(4)生成兩個節(jié)點，其中一個節(jié)點包含對問題的得到肯定回答的樣本，另一個節(jié)點包含對問題的得到否定回答的樣本。因而，把當(dāng)前節(jié)點的所有樣本分成兩類。(5)轉(zhuǎn)到步驟(2)繼續(xù)分類過程，直到滿足一定的約束條件(例如達(dá)到最小樣本數(shù)量、所有問題回答完畢等等)為止。如果滿足約束條件，該節(jié)點就是葉子節(jié)點，不再繼續(xù)對其進(jìn)行分支。該節(jié)點下所有樣本的時長均值即為該葉子節(jié)點的時長。圖2是示出圖1所示的設(shè)備進(jìn)行自適應(yīng)的語音合成時長模型的一個例子的示意圖。圖2的例子示出的是針對元音‘‘a(chǎn)l”的決策樹，其中“1”代表聲調(diào)為陰平。從這個圖中我們可以看到，在決策樹的根節(jié)點，也就是說“al”在音庫中一共有2896個樣本(如TotalOcc所示)、平均時長為184毫秒(如Avg_dur所示)。根據(jù)對于問題“R_PhraseBoundary_01"的答案，“是”或者“否”，這些樣本將被劃入根節(jié)點的兩個子節(jié)點。其中，對于問題“ILPhraseBoundaryjn”回答“是”的子節(jié)點，在經(jīng)過對于問題“Ljssaas”、"R.isnasc"的連續(xù)回答“是”后，最后根據(jù)對于問題“L_PhraseB0imdary_5”的回答，到達(dá)兩個葉子節(jié)點201和202，其中“是”葉子節(jié)點202上有38個樣本(如Occ所示)、平均時長為133毫秒(如Avg_dur所示)，“否”葉子節(jié)點201上有178個樣本、平均時長為102毫秒。對于參考樣本數(shù)據(jù)中每個音節(jié)、半音節(jié)的標(biāo)注樣本集合，參考模型生成裝置101不是根據(jù)分類標(biāo)準(zhǔn)對集合進(jìn)行獨(dú)立的分類，而是采用語音合成時長模型中相同音節(jié)、半音節(jié)的標(biāo)注樣本集合的已有分類結(jié)構(gòu)進(jìn)行分類。圖3是示出圖1所示的設(shè)備所采用的參考樣本數(shù)據(jù)的一個例子的示意圖。圖3示出的是根據(jù)參考樣本數(shù)據(jù)得到的針對元音“al”的決策樹。如圖3所示，該決策樹的分類結(jié)構(gòu)與圖2所示的相同，但參考樣本與已有的語音合成時長模型所基于的樣本相比較數(shù)量較少。模型自適應(yīng)裝置103使語音合成時長模型中每個語音合成單元的每個時長，適應(yīng)參考語音合成時長模型103中相同語音合成單元的、對應(yīng)于所述時長的分類的參考時長。例如，在語音合成時長模型中，對于如圖2所示的元音“al”的對應(yīng)于節(jié)點201所代表的分類的時長，可以在參考語音合成時長模型中，在如圖3所示的元音“al”的各個節(jié)點中找到分類與節(jié)點201的分類相對應(yīng)的節(jié)點301。相應(yīng)地，可使節(jié)點201的時長適應(yīng)節(jié)點301的時長，即根據(jù)節(jié)點301的時長對節(jié)點201的時長進(jìn)行重新估計。雖然這里只說明一個節(jié)點的例子，然而可以針對語音合成時長模型中所有語音合成單元的所有葉子節(jié)點來執(zhí)行相似的處理。在本發(fā)明的實施例中，以原有的語音合成時長模型作為種子模型，根據(jù)通過錄音獲得的少量語音數(shù)據(jù)對其進(jìn)行自適應(yīng)從而獲得具有新說話人或者特定任務(wù)特色的新語音合成時長模型。這使得能夠按照客戶的要求合成出具有新說話人特色或者特定任務(wù)特色的語首?？赏ㄟ^各種方法來進(jìn)行適應(yīng)。例如，對于語音合成時長模型的節(jié)點A和節(jié)點A所要適應(yīng)的參考語音合成時長模型的節(jié)點B，模型自適應(yīng)裝置103可以確定一個自適應(yīng)因子λ，其中λ大于0且小于1。λ取決于節(jié)點A的樣本數(shù)目和節(jié)點B的樣本數(shù)目之間的比值，例如比值越大，則λ就越大。自適應(yīng)因子λ決定著適應(yīng)速度。λ值越小，說明在做自適應(yīng)的時侯越強(qiáng)調(diào)新說話人模型的作用。反之，λ值越大，新說話人模型起的作用越小。另外，是否對于所有葉子節(jié)點采用同一λ值還是對于各個葉子節(jié)點使用各自的λ值也是可以選擇的。可以采用多種模型自適應(yīng)算法進(jìn)行葉子節(jié)點的模型自適應(yīng)。例如可采用近似最大后驗概率(approximatemaximumaposterior,AMAP)自適應(yīng)算法。模型自適應(yīng)裝置103可以根據(jù)下式計算適應(yīng)后的節(jié)點A的時長節(jié)點A的適應(yīng)后的時長=(I-A)X節(jié)點B的參考時長+λX節(jié)點A的適應(yīng)前的時長。由于參考樣本數(shù)據(jù)是根據(jù)少量語音數(shù)據(jù)獲得的，節(jié)點A的樣本數(shù)目可能遠(yuǎn)多于節(jié)點B的樣本數(shù)目。在這樣的情況下，所進(jìn)行的適應(yīng)可能由于對節(jié)點A的時長改變很小而失去意義。優(yōu)選地，模型自適應(yīng)裝置103可以在確定λ時將節(jié)點B的樣本數(shù)目的量級調(diào)整到接近節(jié)點A的樣本數(shù)目的量級。例如圖2中節(jié)點201的樣本數(shù)目為178，相應(yīng)的圖3中節(jié)點301的樣本數(shù)目為18?？梢詫?8調(diào)整到接近178的量級，例如50到100之間，或其它范圍。進(jìn)行適應(yīng)的算法不限于前面描述的具體算法。也可以采用已知的其它適應(yīng)算法，例如最大后驗概率(MAP)自適應(yīng)算法和最大似然線性回歸(MLLR)自適應(yīng)算法。由于采用語音合成時長模式的已有分類結(jié)構(gòu)對參考樣本數(shù)據(jù)進(jìn)行分類，并且參考樣本的數(shù)量比較有限，因此在參考語音合成時長模型中可能有許多葉子節(jié)點上只有極個別甚至是根本沒有任何參考樣本。例如，圖4是示出圖1所示的設(shè)備所采用的參考樣本數(shù)據(jù)的另一個例子的示意圖。如圖4所示，針對元音“al”的決策樹中節(jié)點401、403、404有若干樣本，然而節(jié)點402沒有樣本。對于語音合成時長模型中與節(jié)點402相應(yīng)的節(jié)點，則無法使該節(jié)點的時長適應(yīng)節(jié)點402的時長。相應(yīng)地，在一個優(yōu)選實施例中，對于語音合成時長模型中每個語音合成單元的每個時長(即葉子節(jié)點的時長)，模型自適應(yīng)裝置103在參考語音合成時長模型中不存在對應(yīng)于所述時長的分類的參考時長(例如圖4的節(jié)點402)的情況下，使所述時長適應(yīng)參考語音合成時長模型中相同語音合成單元的、對應(yīng)于和所述時長的分類(即葉子節(jié)點)接近的分類(即葉子節(jié)點)的參考時長。接近的程度可根據(jù)具體實現(xiàn)和具體分類來設(shè)定。也可以統(tǒng)一設(shè)定。在一個基于決策樹的實施例中，參考語音合成時長模型中和所述時長的分類接近的分類包括下述中的一或多種作為代表所述時長的葉子節(jié)點的兄弟的葉子節(jié)點的相應(yīng)分類，例如節(jié)點402的兄弟節(jié)點401；和作為代表所述時長的葉子節(jié)點的血緣關(guān)系最近的堂兄弟的葉子節(jié)點的相應(yīng)分類，例如節(jié)點402的堂兄弟節(jié)點403或404。這樣，可以參照當(dāng)前葉子節(jié)點的兄弟葉子節(jié)點或血緣關(guān)系最近的堂兄弟葉子節(jié)點，學(xué)習(xí)其時長特點。由于參考樣本的數(shù)量比較有限，因此在參考語音合成時長模型中可能缺少某個語音合成單元，或者有許多葉子節(jié)點上只有極個別甚至是根本沒有任何參考樣本。這使得對于語音合成時長模型中某個語音合成單元或其某個時長，參考語音合成時長模型中可能不存在相同的語音合成單元，或?qū)?yīng)于和所述時長的分類相應(yīng)或接近的分類的參考時長。在這些情況中的任何或所有情況下，在一個可選或優(yōu)選實施例中，模型自適應(yīng)裝置103可以使所述時長適應(yīng)參考語音合成時長模型中相同類型的語音合成單元的、對應(yīng)于所述時長的分類的參考時長。相同類型的語音合成單元例如是同一類型的聲韻母。在上述情況中的任何或所有情況下，在另一個可選或優(yōu)選實施例中，模型自適應(yīng)裝置103可以使所述時長適應(yīng)參考語音合成時長模型中不同聲調(diào)的相同語音合成單元的、對應(yīng)于所述時長的分類的參考時長。例如語音合成單元可以是韻母等等。在這個實施例中，假定語言為例如漢語的帶聲調(diào)語言，并且語音合成時長模型中根據(jù)語音合成單元的不同聲調(diào)來組織時長模型。在上述情況中的任何或所有情況下，在另一個可選或優(yōu)選實施例中，參考模型生成裝置101可以根據(jù)參考樣本數(shù)據(jù)來計算出新說話人或特定任務(wù)特色的語速。模型自適應(yīng)裝置103可以根據(jù)計算的語速來調(diào)整所述時長，即通過學(xué)習(xí)所計算的語速風(fēng)格來調(diào)整時長。通過分別處理不同的情況，上述可選或優(yōu)選實施例可任意組合。在一個具體組合中，可以在沒有相同類型的語音合成單元或沒有不同聲調(diào)的相同語音合成單元的情況下通過學(xué)習(xí)的語速風(fēng)格來調(diào)整時長。圖5是示出根據(jù)本發(fā)明一個實施例的使語音合成時長模型自適應(yīng)的方法的流程圖。如圖5所示，方法從步驟500開始。在步驟501，根據(jù)語音合成時長模型的分類結(jié)構(gòu)對參考樣本數(shù)據(jù)中每個語音合成單元的樣本進(jìn)行分類，通過計算對應(yīng)于每個分類的樣本集的參考樣本數(shù)目和參考時長，生成參考語音合成時長模型。在步驟502，使語音合成時長模型中每個語音合成單元的每個時長(即葉子節(jié)點的時長)，適應(yīng)參考語音合成時長模型中相同語音合成單元的、對應(yīng)于所述時長的分類(即葉子節(jié)點)的參考時長。接著方法在步驟503結(jié)束。例如，在語音合成時長模型中，對于如圖2所示的元音“al”的對應(yīng)于節(jié)點201所代表的分類的時長，可以在參考語音合成時長模型中，在如圖3所示的元音“al”的各個節(jié)點中找到分類與節(jié)點201的分類相對應(yīng)的節(jié)點301。相應(yīng)地，可使節(jié)點201的時長適應(yīng)節(jié)點301的時長，即根據(jù)節(jié)點301的時長對節(jié)點201的時長進(jìn)行重新估計。雖然這里只說明一個節(jié)點的例子，然而可以針對語音合成時長模型中所有語音合成單元的所有葉子節(jié)點來執(zhí)行相似的處理。在本發(fā)明的實施例中，以原有的語音合成時長模型作為種子模型，根據(jù)通過錄音獲得的少量語音數(shù)據(jù)對其進(jìn)行自適應(yīng)從而獲得具有新說話人或者特定任務(wù)特色的新語音合成時長模型。這使得能夠按照客戶的要求合成出具有新說話人特色或者特定任務(wù)特色的語首?？赏ㄟ^各種方法來進(jìn)行適應(yīng)。例如前面描述的AMAP自適應(yīng)算法、MAP自適應(yīng)算法、MLLR自適應(yīng)算法。由于參考樣本數(shù)據(jù)是根據(jù)少量語音數(shù)據(jù)獲得的，節(jié)點A的樣本數(shù)目可能遠(yuǎn)多于節(jié)點B的樣本數(shù)目。在這樣的情況下，所進(jìn)行的適應(yīng)可能由于對節(jié)點A的時長改變很小而失去意義。優(yōu)選地，模型自適應(yīng)裝置103可以在確定λ時將節(jié)點B的樣本數(shù)目的量級調(diào)整到接近節(jié)點A的樣本數(shù)目的量級。例如圖2中節(jié)點201的樣本數(shù)目為178，相應(yīng)的圖3中節(jié)點301的樣本數(shù)目為18。可以將18調(diào)整到接近178的量級，例如50到100之間，或其它范圍。由于采用語音合成時長模式的已有分類結(jié)構(gòu)對參考樣本數(shù)據(jù)進(jìn)行分類，并且參考樣本的數(shù)量比較有限，因此在參考語音合成時長模型中可能有許多葉子節(jié)點上只有極個別甚至是根本沒有任何參考樣本。這種情況可通過圖6示出的方法來處理。圖6是示出根據(jù)本發(fā)明另一個實施例的使語音合成時長模型自適應(yīng)的方法的流程圖。如圖6所示，方法從步驟600開始。步驟601、602的處理分別與步驟501、502相同，不再重復(fù)說明。在步驟603，對于語音合成時長模型中每個語音合成單元的每個時長(即葉子節(jié)點的時長)，在參考語音合成時長模型中不存在對應(yīng)于所述時長的分類的參考時長(例如圖4的節(jié)點402)的情況下，使所述時長適應(yīng)參考語音合成時長模型中相同語音合成單元的、對應(yīng)于和所述時長的分類(即葉子節(jié)點)接近的分類(即葉子節(jié)點)的參考時長。接近的程度可根據(jù)具體實現(xiàn)和具體分類來設(shè)定。也可以統(tǒng)一設(shè)定。在一個基于決策樹的實施例中，參考語音合成時長模型中和所述時長的分類接近的分類包括下述中的一或多種作為代表所述時長的葉子節(jié)點的兄弟的葉子節(jié)點的相應(yīng)分類，例如節(jié)點402的兄弟節(jié)點401；和作為代表所述時長的葉子節(jié)點的血緣關(guān)系最近的堂兄弟的葉子節(jié)點的相應(yīng)分類，例如節(jié)點402的堂兄弟節(jié)點403或404。方法在步驟604結(jié)束。由于參考樣本的數(shù)量比較有限，因此在參考語音合成時長模型中可能缺少某個語音合成單元，或者有許多葉子節(jié)點上只有極個別甚至是根本沒有任何參考樣本。這使得對于語音合成時長模型中某個語音合成單元或其某個時長，參考語音合成時長模型中可能不存在相同的語音合成單元，或?qū)?yīng)于和所述時長的分類相應(yīng)或接近的分類的參考時長。這些情況可通過圖7示出的方法來處理。圖7是示出根據(jù)本發(fā)明另一個實施例的使語音合成時長模型自適應(yīng)的方法的流程圖。如圖7所示，方法從步驟700開始。步驟701、702、703的處理分別與步驟601、602、603相同，不再重復(fù)說明。在上述情況中的任何或所有情況下，在步驟704，使所述時長適應(yīng)參考語音合成時長模型中相同類型的語音合成單元的、對應(yīng)于所述時長的分類的參考時長。相同類型的語音合成單元例如是同一類型的聲韻母。上述情況也可通過圖8所示的方法來處理。圖8是示出根據(jù)本發(fā)明另一個實施例的使語音合成時長模型自適應(yīng)的方法的流程圖。如圖8所示，方法從步驟800開始。步驟801、802、803的處理分別與步驟601、602、603相同，不再重復(fù)說明，但在步驟801還根據(jù)參考樣本數(shù)據(jù)來計算出新說話人或特定任務(wù)特色的語速。如果不存在對應(yīng)于和所述時長的分類相應(yīng)或接近的分類的參考時長，則在步驟804，使所述時長適應(yīng)參考語音合成時長模型中相同類型的語音合成單元的、對應(yīng)于所述時長的分類的參考時長。如果不存在相同的語音合成單元，則在步驟805，根據(jù)計算的語速來調(diào)整所述時長，即通過學(xué)習(xí)所計算的語速風(fēng)格來調(diào)整時長。步驟805也可以替代步驟804。此外或優(yōu)選地，也可以在沒有相同類型的語音合成單元的情況下執(zhí)行步驟805。方法在步驟806結(jié)束。上述情況也可通過圖9所示的方法來處理。圖9是示出根據(jù)本發(fā)明另一個實施例的使語音合成時長模型自適應(yīng)的方法的流程圖。如圖9所示，方法從步驟900開始。步驟901、902、903的處理分別與步驟601、602、603相同，不再重復(fù)說明，但在步驟901還根據(jù)參考樣本數(shù)據(jù)來計算出新說話人或特定任務(wù)特色的語速。如果不存在對應(yīng)于和所述時長的分類相應(yīng)或接近的分類的參考時長，但有不同聲調(diào)的相同語音合成單元，則在步驟906，使所述時長適應(yīng)參考語音合成時長模型中不同聲調(diào)的相同語音合成單元的、對應(yīng)于所述時長的分類的參考時長。如果不存在對應(yīng)于和所述時長的分類相應(yīng)或接近的分類的參考時長，但有相同類型的語音合成單元，則在步驟904，使所述時長適應(yīng)參考語音合成時長模型中相同類型的語音合成單元的、對應(yīng)于所述時長的分類的參考時長。如果不存在相同的語音合成單元，則在步驟905，根據(jù)計算的語速來調(diào)整所述時長，即通過學(xué)習(xí)所計算的語速風(fēng)格來調(diào)整時長。步驟906也可以替代步驟904和/或步驟905。此外或優(yōu)選地，也可以在沒有相同類型的語音合成單元或沒有不同聲調(diào)的相同語音合成單元的情況下執(zhí)行步驟905。方法在步驟907結(jié)束。圖10是示出其中實現(xiàn)本發(fā)明的計算機(jī)的示例性結(jié)構(gòu)的框圖。本發(fā)明的設(shè)備和方法實現(xiàn)環(huán)境如圖10所示。在圖10中，中央處理單元(CPU)1001根據(jù)只讀映射數(shù)據(jù)(ROM)1002中存儲的程序或從存儲部分1008加載到隨機(jī)存取映射數(shù)據(jù)(RAM)1003的程序執(zhí)行各種處理。在RAM1003中，也根據(jù)需要存儲當(dāng)CPU1001執(zhí)行各種處理等等時所需的數(shù)據(jù)。CPU100UROM1002和RAM1003經(jīng)由總線1004彼此連接。輸入/輸出接口1005也連接到總線1004。下述部件連接到輸入/輸出接口1005輸入部分1006，包括鍵盤、鼠標(biāo)等等；輸出部分1007，包括顯示器，比如陰極射線管(CRT)、液晶顯示器(LCD)等等，和揚(yáng)聲器等等；存儲部分1008，包括硬盤等等；和通信部分1009，包括網(wǎng)絡(luò)接口卡比如LAN卡、調(diào)制解調(diào)器等等。通信部分1009經(jīng)由網(wǎng)絡(luò)比如因特網(wǎng)執(zhí)行通信處理。根據(jù)需要，驅(qū)動器1010也連接到輸入/輸出接口1005?？刹鹦督橘|(zhì)1011比如磁盤、光盤、磁光盤、半導(dǎo)體映射數(shù)據(jù)等等根據(jù)需要被安裝在驅(qū)動器1010上，使得從中讀出的計算機(jī)程序根據(jù)需要被安裝到存儲部分1008中。在通過軟件實現(xiàn)上述步驟和處理的情況下，從網(wǎng)絡(luò)比如因特網(wǎng)或存儲介質(zhì)比如可拆卸介質(zhì)1011安裝構(gòu)成軟件的程序。本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解，這種存儲介質(zhì)不局限于圖10所示的其中存儲有程序、與方法相分離地分發(fā)以向用戶提供程序的可拆卸介質(zhì)1011?？刹鹦督橘|(zhì)1011的例子包含磁盤、光盤(包含光盤只讀映射數(shù)據(jù)(⑶-ROM)和數(shù)字通用盤(DVD))、磁光盤(包含迷你盤(MD)和半導(dǎo)體映射數(shù)據(jù)?；蛘?，存儲介質(zhì)可以是ROM1002、存儲部分1008中包含的硬盤等等，其中存有程序，并且與包含它們的方法一起被分發(fā)給用戶。在前面的說明書中參照特定實施例描述了本發(fā)明。然而本領(lǐng)域的普通技術(shù)人員理解，在不偏離如權(quán)利要求書限定的本發(fā)明的范圍的前提下可以進(jìn)行各種修改和改變。權(quán)利要求一種使語音合成時長模型自適應(yīng)的設(shè)備，包括參考模型生成裝置，其根據(jù)所述語音合成時長模型的分類結(jié)構(gòu)對參考樣本數(shù)據(jù)中每個語音合成單元的樣本進(jìn)行分類，通過計算對應(yīng)于每個分類的樣本集的參考樣本數(shù)目和參考時長，生成參考語音合成時長模型；和模型自適應(yīng)裝置，其使所述語音合成時長模型中每個語音合成單元的每個時長，適應(yīng)所述參考語音合成時長模型中相同語音合成單元的、對應(yīng)于所述時長的分類的參考時長。2.如權(quán)利要求1所述的使語音合成時長模型自適應(yīng)的設(shè)備，其中，所述模型自適應(yīng)裝置在不存在對應(yīng)于所述時長的分類的所述參考時長的情況下，使所述時長適應(yīng)所述參考語音合成時長模型中相同語音合成單元的、對應(yīng)于和所述時長的分類接近的分類的參考時長。3.如權(quán)利要求2所述的使語音合成時長模型自適應(yīng)的設(shè)備，其中，所述分類結(jié)構(gòu)基于決策樹，并且和所述時長的分類接近的分類包括下述中的一或多種作為代表所述時長的葉子節(jié)點的兄弟的葉子節(jié)點的相應(yīng)分類；和作為代表所述時長的葉子節(jié)點的血緣關(guān)系最近的堂兄弟的葉子節(jié)點的相應(yīng)分類。4.如權(quán)利要求2所述的使語音合成時長模型自適應(yīng)的設(shè)備，其中，所述模型自適應(yīng)裝置在不存在所述相同語音合成單元或?qū)?yīng)于和所述時長的分類相應(yīng)或接近的分類的參考時長的情況下，使所述時長適應(yīng)所述參考語音合成時長模型中相同類型的語音合成單元的、對應(yīng)于所述時長的分類的參考時長。5.如權(quán)利要求2所述的使語音合成時長模型自適應(yīng)的設(shè)備，其中，所述模型自適應(yīng)裝置在不存在所述相同語音合成單元或?qū)?yīng)于和所述時長的分類相應(yīng)或接近的分類的參考時長的情況下，使所述時長適應(yīng)所述參考語音合成時長模型中不同聲調(diào)的相同語音合成單元的、對應(yīng)于所述時長的分類的參考時長。6.如權(quán)利要求2所述的使語音合成時長模型自適應(yīng)的設(shè)備，其中，所述參考模型生成裝置根據(jù)所述樣本數(shù)據(jù)計算語速，并且所述模型自適應(yīng)裝置在不存在所述相同語音合成單元或?qū)?yīng)于和所述時長的分類相應(yīng)或接近的分類的參考時長的情況下，根據(jù)所述語速來調(diào)整所述時長。7.如前述任何權(quán)利要求所述的使語音合成時長模型自適應(yīng)的設(shè)備，其中所述適應(yīng)包括確定自適應(yīng)因子λ，其中λ大于O且小于1，并且λ取決于所述時長的相應(yīng)樣本數(shù)目和所述參考時長的相應(yīng)樣本數(shù)目之間的比值；和根據(jù)下式計算適應(yīng)后的所述時長適應(yīng)后的所述時長=(ι-λ)χ所述參考時長+λX所述時長。8.如權(quán)利要求7所述的使語音合成時長模型自適應(yīng)的設(shè)備，其中所述適應(yīng)包括在確定λ時將所述參考時長的相應(yīng)樣本數(shù)目的量級調(diào)整到接近所述時長的相應(yīng)樣本數(shù)目的量級。9.一種使語音合成時長模型自適應(yīng)的方法，包括根據(jù)所述語音合成時長模型的分類結(jié)構(gòu)對參考樣本數(shù)據(jù)中每個語音合成單元的樣本進(jìn)行分類，通過計算對應(yīng)于每個分類的樣本集的參考樣本數(shù)目和參考時長，生成參考語音合成時長模型；和使所述語音合成時長模型中每個語音合成單元的每個時長，適應(yīng)所述參考語音合成時長模型中相同語音合成單元的、對應(yīng)于所述時長的分類的參考時長。10.如權(quán)利要求9所述的使語音合成時長模型自適應(yīng)的方法，還包括在不存在對應(yīng)于所述時長的分類的所述參考時長的情況下，使所述時長適應(yīng)所述參考語音合成時長模型中相同語音合成單元的、對應(yīng)于和所述時長的分類接近的分類的參考時長。11.如權(quán)利要求10所述的使語音合成時長模型自適應(yīng)的方法，其中，所述分類結(jié)構(gòu)基于決策樹，并且和所述時長的分類接近的分類包括下述中的一或多種作為代表所述時長的葉子節(jié)點的兄弟的葉子節(jié)點的相應(yīng)分類；和作為代表所述時長的葉子節(jié)點的血緣關(guān)系最近的堂兄弟的葉子節(jié)點的相應(yīng)分類。12.如權(quán)利要求10所述的使語音合成時長模型自適應(yīng)的方法，還包括在不存在所述相同語音合成單元或?qū)?yīng)于和所述時長的分類相應(yīng)或接近的分類的參考時長的情況下，使所述時長適應(yīng)所述參考語音合成時長模型中相同類型的語音合成單元的、對應(yīng)于所述時長的分類的參考時長。13.如權(quán)利要求10所述的使語音合成時長模型自適應(yīng)的方法，還包括在不存在所述相同語音合成單元或?qū)?yīng)于和所述時長的分類相應(yīng)或接近的分類的參考時長的情況下，使所述時長適應(yīng)所述參考語音合成時長模型中不同聲調(diào)的相同語音合成單元的、對應(yīng)于所述時長的分類的參考時長。14.如權(quán)利要求10所述的使語音合成時長模型自適應(yīng)的方法，其中，所述參考語音合成時長模型的生成包括根據(jù)所述樣本數(shù)據(jù)計算語速，并且所述方法還包括在不存在所述相同語音合成單元或?qū)?yīng)于和所述時長的分類相應(yīng)或接近的分類的參考時長的情況下，根據(jù)所述語速來調(diào)整所述時長。15.如權(quán)利要求9至14中任何一個所述的使語音合成時長模型自適應(yīng)的方法，其中所述適應(yīng)包括確定自適應(yīng)因子λ，其中λ大于0且小于1，并且λ取決于所述時長的相應(yīng)樣本數(shù)目和所述參考時長的相應(yīng)樣本數(shù)目之間的比值；和根據(jù)下式計算適應(yīng)后的所述時長適應(yīng)后的所述時長=(1-λ)Χ所述參考時長+λX所述時長。16.如權(quán)利要求15所述的使語音合成時長模型自適應(yīng)的方法，其中所述適應(yīng)包括在確定λ時將所述參考時長的相應(yīng)樣本數(shù)目的量級調(diào)整到接近所述時長的相應(yīng)樣本數(shù)目的量級。全文摘要使語音合成時長模型自適應(yīng)的方法和設(shè)備。設(shè)備包括參考模型生成裝置，其根據(jù)所述語音合成時長模型的分類結(jié)構(gòu)對參考樣本數(shù)據(jù)中每個語音合成單元的樣本進(jìn)行分類，通過計算對應(yīng)于每個分類的樣本集的參考樣本數(shù)目和參考時長，生成參考語音合成時長模型；和模型自適應(yīng)裝置，其使所述語音合成時長模型中每個語音合成單元的每個時長，適應(yīng)所述參考語音合成時長模型中相同語音合成單元的、對應(yīng)于所述時長的分類的參考時長。文檔編號G10L13/08GK101814288SQ20091000768公開日2010年8月25日申請日期2009年2月20日優(yōu)先權(quán)日2009年2月20日發(fā)明者王彬,郭慶,陸應(yīng)亮申請人:富士通株式會社

完整全部詳細(xì)技術(shù)資料下載