語音合成方法和裝置的制造方法_3

文檔序號：9598796閱讀：來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)>語音合成方法和裝置的制造方法

有很好地表現(xiàn)，在計算能力較差的設(shè)備上，可以流暢地進(jìn)行語音合成，不影響用戶接收語音中所包含的信息；在計算能力較好的設(shè)備上，可以合成出更加自然的語音，改善用戶的人機(jī)交互體驗。
[0057]圖6為本發(fā)明語音合成裝置一個實施例的結(jié)構(gòu)示意圖，本實施例中的語音合成裝置可以作為終端設(shè)備，或者終端設(shè)備的一部分，實現(xiàn)本發(fā)明圖1和圖2所示實施例的流程。其中，上述終端設(shè)備可以為手機(jī)或電腦等具有語音合成功能的終端設(shè)備，本實施例對上述終端設(shè)備的形態(tài)不作限定。
[0058]如圖6所示，上述語音合成裝置可以包括:發(fā)送模塊61、接收模塊62、顯示模塊63、下載模塊64、保存模塊65和語音合成模塊66 ;
[0059]其中，發(fā)送模塊61，用于向服務(wù)器發(fā)送數(shù)據(jù)文件查詢請求，上述數(shù)據(jù)文件查詢請求攜帶終端設(shè)備的計算能力數(shù)據(jù)；
[0060]接收模塊62，用于接收上述服務(wù)器發(fā)送的適合上述終端設(shè)備的計算能力的聲學(xué)模型列表，上述聲學(xué)模型列表中包括至少一個音色對應(yīng)的聲學(xué)模型；
[0061]顯示模塊63，用于將接收模塊62接收的聲學(xué)模型列表顯示給使用上述終端設(shè)備的用戶，以供上述用戶從上述聲學(xué)模型列表中選擇音色對應(yīng)的聲學(xué)模型；
[0062]下載模塊64，用于下載上述用戶選擇的音色對應(yīng)的聲學(xué)模型；
[0063]保存模塊65，用于保存下載模塊64下載的聲學(xué)模型；
[0064]語音合成模塊66，用于通過保存模塊65保存的聲學(xué)模型進(jìn)行語音合成。
[0065]本實施例中，發(fā)送模塊61向服務(wù)器查詢可用的聲學(xué)模型，同時提供自己的計算能力數(shù)據(jù)(可以是產(chǎn)品型號，也可以是量化的計算能力值，或者核心硬件數(shù)據(jù)等)；服務(wù)器根據(jù)終端設(shè)備提供的計算能力數(shù)據(jù)，返回適合當(dāng)前終端設(shè)備的計算能力的聲學(xué)模型列表，上述聲學(xué)模型列表中包括至少一個音色對應(yīng)的聲學(xué)模型；然后，下載模塊64根據(jù)用戶的選擇，下載用戶選擇的音色對應(yīng)的聲學(xué)模型，并由保存模塊65保存下載模塊64下載的聲學(xué)模型。
[0066]在下載并保存聲學(xué)模型之后，語音合成模塊66就可以提供語音合成服務(wù)了。語音合成模塊66在加載下載得到的聲學(xué)模型的時候，會根據(jù)聲學(xué)模型中的信息，判斷出聲學(xué)模型的類型，自動加載到語音合成系統(tǒng)中，并通過對應(yīng)的處理流程，預(yù)測出聲學(xué)參數(shù)序列，供聲碼器合成出語音。
[0067]圖7為本發(fā)明語音合成裝置另一個實施例的結(jié)構(gòu)示意圖，與圖6所示的語音合成裝置相比，不同之處在于，圖7所示的語音合成裝置還可以包括:提示模塊67 ;
[0068]提示模塊67，用于在發(fā)送模塊61向服務(wù)器發(fā)送數(shù)據(jù)文件查詢請求之前，當(dāng)上述用戶首次使用上述終端設(shè)備上安裝的應(yīng)用的語音合成功能時，向上述用戶提示是否下載聲學(xué)模型；這時，發(fā)送模塊61，具體用于在接收模塊62接收到上述用戶確定下載聲學(xué)模型的指示之后，執(zhí)行向服務(wù)器發(fā)送數(shù)據(jù)文件查詢請求的步驟。
[0069]舉例來說，某個App集成了語音合成的軟件開發(fā)包，用戶安裝這個App在該用戶使用的終端設(shè)備(例如:iph0ne4)上之后，當(dāng)上述用戶首次使用這個App的語音合成功能時，提示模塊67會提示用戶是否下載聲學(xué)模型。接收模塊62接收到上述用戶確定下載聲學(xué)模型的指示之后，發(fā)送模塊61向服務(wù)器發(fā)送數(shù)據(jù)文件查詢請求，上述數(shù)據(jù)文件查詢請求中攜帶上述終端設(shè)備的計算能力數(shù)據(jù)(可以是上述終端設(shè)備的產(chǎn)品型號，例如:iph0ne4)。月艮務(wù)器得知上述終端設(shè)備為iphone4時，會根據(jù)服務(wù)器中的聲學(xué)模型及所需計算能力的數(shù)據(jù)庫，了解到這個終端設(shè)備適合比較節(jié)約計算資源的HMM模型。然后，服務(wù)器把可用的多個音色所對應(yīng)的HMM模型生成聲學(xué)模型列表，將上述聲學(xué)模型列表返回給終端設(shè)備，上述聲學(xué)模型列表中可以包括溫柔女聲1、爽朗女聲2和/或磁性男聲1等聲學(xué)模型。接收模塊62收到上述聲學(xué)模型列表后，顯示模塊63將上述聲學(xué)模型列表顯示給用戶，以供上述用戶從上述聲學(xué)模型列表中選擇自己感興趣的音色對應(yīng)的聲學(xué)模型，然后下載模塊64和保存模塊65下載并保存上述用戶選擇的音色對應(yīng)的聲學(xué)模型，從而iphone4這個終端設(shè)備獲得了計算復(fù)雜度低的HMM模型，進(jìn)而語音合成模塊66可以通過保存的聲學(xué)模型進(jìn)行語音合成。
[0070]類似地，iphone6由于計算能力比較強(qiáng)，獲得的可能就是LSTM模型，具有更好地聲音建模效果。
[0071]上述語音合成裝置中，發(fā)送模塊61向服務(wù)器發(fā)送攜帶終端設(shè)備的計算能力數(shù)據(jù)的數(shù)據(jù)文件查詢請求之后，接收模塊62接收上述服務(wù)器發(fā)送的適合上述終端設(shè)備的計算能力的聲學(xué)模型列表，然后顯示模塊63將上述聲學(xué)模型列表顯示給使用上述終端設(shè)備的用戶，下載模塊64和保存模塊65下載并保存上述用戶選擇的音色對應(yīng)的聲學(xué)模型，進(jìn)而語音合成模塊66通過保存的聲學(xué)模型進(jìn)行語音合成，從而可以使得語音合成在不同計算能力的終端設(shè)備上，都有很好地表現(xiàn)，在計算能力較差的設(shè)備上，可以流暢地進(jìn)行語音合成，不影響用戶接收語音中所包含的信息；在計算能力較好的設(shè)備上，可以合成出更加自然的語音，改善用戶的人機(jī)交互體驗。
[0072]圖8為本發(fā)明語音合成裝置再一個實施例的結(jié)構(gòu)示意圖，本實施例中的語音合成裝置可以作為服務(wù)器，或者服務(wù)器的一部分實現(xiàn)本發(fā)明圖3和圖4所示實施例的流程。如圖8所示，上述語音合成裝置可以包括:接收模塊81、確定模塊82和發(fā)送模塊83 ;
[0073]其中，接收模塊81，用于接收終端設(shè)備發(fā)送的數(shù)據(jù)文件查詢請求，上述數(shù)據(jù)文件查詢請求攜帶上述終端設(shè)備的計算能力數(shù)據(jù)；其中，上述終端設(shè)備的計算能力數(shù)據(jù)可以是產(chǎn)品型號，也可以是量化的計算能力值，或者核心硬件數(shù)據(jù)等。其中，上述終端設(shè)備可以為手機(jī)或電腦等具有語音合成功能的終端設(shè)備，本實施例對上述終端設(shè)備的形態(tài)不作限定。
[0074]確定模塊82，用于根據(jù)上述終端設(shè)備的計算能力數(shù)據(jù)確定適合上述終端設(shè)備的計算能力的聲學(xué)模型列表，上述聲學(xué)模型列表中包括至少兩個音色對應(yīng)的聲學(xué)模型；具體地，接收模塊81接收到終端設(shè)備提供的計算能力數(shù)據(jù)之后，確定模塊82會根據(jù)服務(wù)器中的聲學(xué)模型及所需計算能力的數(shù)據(jù)庫，確定適合當(dāng)前終端設(shè)備的計算能力的聲學(xué)模型列表，上述聲學(xué)模型列表中包括至少一個音色對應(yīng)的聲學(xué)模型。
[0075]發(fā)送模塊83，用于將確定模塊82確定的聲學(xué)模型列表發(fā)送給上述終端設(shè)備，以供上述終端設(shè)備下載并保存使用上述終端設(shè)備的用戶從上述聲學(xué)模型列表中選擇的音色對應(yīng)的聲學(xué)模型，并通過保存的聲學(xué)模型進(jìn)行語音合成。
[0076]圖9為本發(fā)明語音合成裝置再一個實施例的結(jié)構(gòu)示意圖，與圖8所示的語音合成裝置相比，不同之處在于，圖9所示的語音合成裝置中還可以包括:獲得模塊84 ;
[0077]獲得模塊84，用于在接收模塊81接收終端設(shè)備發(fā)送的數(shù)據(jù)文件查詢請求之前，利用語音數(shù)據(jù)和上述語音數(shù)據(jù)對應(yīng)的文本標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練，獲得至少兩種具有不同復(fù)雜度的聲學(xué)模型。
[0078]本實施例中，獲得模塊84利用語音數(shù)據(jù)和上述語音數(shù)據(jù)對應(yīng)的文本標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練，獲得至少兩種具有不同復(fù)雜度的聲學(xué)模型。上述至少兩種具有不同復(fù)雜度的聲學(xué)模型中可以包括基于HMM的聲學(xué)模型和/或基于LSTM的聲學(xué)模型。對于不同的模型，所利用的聲學(xué)特征參數(shù)或者上下文特征，可以有所不同。
[0079]如圖5所示，利用同樣的一套數(shù)據(jù)(包含語音數(shù)據(jù)和上述語音數(shù)據(jù)對應(yīng)的文本標(biāo)注數(shù)據(jù))，可以訓(xùn)練出至少兩種具有不同復(fù)雜度的聲學(xué)模型。圖5中展示了一種HMM模型和兩種LSTM模型。每一種模型當(dāng)中，一般都包括時長模型、基頻模型和譜模型，用于體現(xiàn)說話人的節(jié)奏、抑揚頓挫和音色等信息。對于HMM模型，可以通過控制葉子節(jié)點的數(shù)量，來生成不同復(fù)雜度的模型；對于LSTM等神經(jīng)網(wǎng)絡(luò)模型，可以通過控制每層節(jié)點的數(shù)量，來控制模型的復(fù)雜度。
[0080]上述語音合成裝置中，接收模塊81接收終端設(shè)備發(fā)送的數(shù)據(jù)文件查詢請求之后，確定模塊82根據(jù)上述終端設(shè)備的計算能力數(shù)據(jù)確定適合上述終端設(shè)備的計算能力的聲學(xué)模型列表，然后發(fā)送模塊

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第3頁1 2 3 4

相關(guān)技術(shù)