有很好地表現(xiàn),在計算能力較差的設(shè)備上,可以流暢地進(jìn)行語音合成,不影響用戶接收語音中所包含的信息;在計算能力較好的設(shè)備上,可以合成出更加自然的語音,改善用戶的人機(jī)交互體驗。
[0057]圖6為本發(fā)明語音合成裝置一個實施例的結(jié)構(gòu)示意圖,本實施例中的語音合成裝置可以作為終端設(shè)備,或者終端設(shè)備的一部分,實現(xiàn)本發(fā)明圖1和圖2所示實施例的流程。其中,上述終端設(shè)備可以為手機(jī)或電腦等具有語音合成功能的終端設(shè)備,本實施例對上述終端設(shè)備的形態(tài)不作限定。
[0058]如圖6所示,上述語音合成裝置可以包括:發(fā)送模塊61、接收模塊62、顯示模塊63、下載模塊64、保存模塊65和語音合成模塊66 ;
[0059]其中,發(fā)送模塊61,用于向服務(wù)器發(fā)送數(shù)據(jù)文件查詢請求,上述數(shù)據(jù)文件查詢請求攜帶終端設(shè)備的計算能力數(shù)據(jù);
[0060]接收模塊62,用于接收上述服務(wù)器發(fā)送的適合上述終端設(shè)備的計算能力的聲學(xué)模型列表,上述聲學(xué)模型列表中包括至少一個音色對應(yīng)的聲學(xué)模型;
[0061]顯示模塊63,用于將接收模塊62接收的聲學(xué)模型列表顯示給使用上述終端設(shè)備的用戶,以供上述用戶從上述聲學(xué)模型列表中選擇音色對應(yīng)的聲學(xué)模型;
[0062]下載模塊64,用于下載上述用戶選擇的音色對應(yīng)的聲學(xué)模型;
[0063]保存模塊65,用于保存下載模塊64下載的聲學(xué)模型;
[0064]語音合成模塊66,用于通過保存模塊65保存的聲學(xué)模型進(jìn)行語音合成。
[0065]本實施例中,發(fā)送模塊61向服務(wù)器查詢可用的聲學(xué)模型,同時提供自己的計算能力數(shù)據(jù)(可以是產(chǎn)品型號,也可以是量化的計算能力值,或者核心硬件數(shù)據(jù)等);服務(wù)器根據(jù)終端設(shè)備提供的計算能力數(shù)據(jù),返回適合當(dāng)前終端設(shè)備的計算能力的聲學(xué)模型列表,上述聲學(xué)模型列表中包括至少一個音色對應(yīng)的聲學(xué)模型;然后,下載模塊64根據(jù)用戶的選擇,下載用戶選擇的音色對應(yīng)的聲學(xué)模型,并由保存模塊65保存下載模塊64下載的聲學(xué)模型。
[0066]在下載并保存聲學(xué)模型之后,語音合成模塊66就可以提供語音合成服務(wù)了。語音合成模塊66在加載下載得到的聲學(xué)模型的時候,會根據(jù)聲學(xué)模型中的信息,判斷出聲學(xué)模型的類型,自動加載到語音合成系統(tǒng)中,并通過對應(yīng)的處理流程,預(yù)測出聲學(xué)參數(shù)序列,供聲碼器合成出語音。
[0067]圖7為本發(fā)明語音合成裝置另一個實施例的結(jié)構(gòu)示意圖,與圖6所示的語音合成裝置相比,不同之處在于,圖7所示的語音合成裝置還可以包括:提示模塊67 ;
[0068]提示模塊67,用于在發(fā)送模塊61向服務(wù)器發(fā)送數(shù)據(jù)文件查詢請求之前,當(dāng)上述用戶首次使用上述終端設(shè)備上安裝的應(yīng)用的語音合成功能時,向上述用戶提示是否下載聲學(xué)模型;這時,發(fā)送模塊61,具體用于在接收模塊62接收到上述用戶確定下載聲學(xué)模型的指示之后,執(zhí)行向服務(wù)器發(fā)送數(shù)據(jù)文件查詢請求的步驟。
[0069]舉例來說,某個App集成了語音合成的軟件開發(fā)包,用戶安裝這個App在該用戶使用的終端設(shè)備(例如:iph0ne4)上之后,當(dāng)上述用戶首次使用這個App的語音合成功能時,提示模塊67會提示用戶是否下載聲學(xué)模型。接收模塊62接收到上述用戶確定下載聲學(xué)模型的指示之后,發(fā)送模塊61向服務(wù)器發(fā)送數(shù)據(jù)文件查詢請求,上述數(shù)據(jù)文件查詢請求中攜帶上述終端設(shè)備的計算能力數(shù)據(jù)(可以是上述終端設(shè)備的產(chǎn)品型號,例如:iph0ne4)。月艮務(wù)器得知上述終端設(shè)備為iphone4時,會根據(jù)服務(wù)器中的聲學(xué)模型及所需計算能力的數(shù)據(jù)庫,了解到這個終端設(shè)備適合比較節(jié)約計算資源的HMM模型。然后,服務(wù)器把可用的多個音色所對應(yīng)的HMM模型生成聲學(xué)模型列表,將上述聲學(xué)模型列表返回給終端設(shè)備,上述聲學(xué)模型列表中可以包括溫柔女聲1、爽朗女聲2和/或磁性男聲1等聲學(xué)模型。接收模塊62收到上述聲學(xué)模型列表后,顯示模塊63將上述聲學(xué)模型列表顯示給用戶,以供上述用戶從上述聲學(xué)模型列表中選擇自己感興趣的音色對應(yīng)的聲學(xué)模型,然后下載模塊64和保存模塊65下載并保存上述用戶選擇的音色對應(yīng)的聲學(xué)模型,從而iphone4這個終端設(shè)備獲得了計算復(fù)雜度低的HMM模型,進(jìn)而語音合成模塊66可以通過保存的聲學(xué)模型進(jìn)行語音合成。
[0070]類似地,iphone6由于計算能力比較強(qiáng),獲得的可能就是LSTM模型,具有更好地聲音建模效果。
[0071]上述語音合成裝置中,發(fā)送模塊61向服務(wù)器發(fā)送攜帶終端設(shè)備的計算能力數(shù)據(jù)的數(shù)據(jù)文件查詢請求之后,接收模塊62接收上述服務(wù)器發(fā)送的適合上述終端設(shè)備的計算能力的聲學(xué)模型列表,然后顯示模塊63將上述聲學(xué)模型列表顯示給使用上述終端設(shè)備的用戶,下載模塊64和保存模塊65下載并保存上述用戶選擇的音色對應(yīng)的聲學(xué)模型,進(jìn)而語音合成模塊66通過保存的聲學(xué)模型進(jìn)行語音合成,從而可以使得語音合成在不同計算能力的終端設(shè)備上,都有很好地表現(xiàn),在計算能力較差的設(shè)備上,可以流暢地進(jìn)行語音合成,不影響用戶接收語音中所包含的信息;在計算能力較好的設(shè)備上,可以合成出更加自然的語音,改善用戶的人機(jī)交互體驗。
[0072]圖8為本發(fā)明語音合成裝置再一個實施例的結(jié)構(gòu)示意圖,本實施例中的語音合成裝置可以作為服務(wù)器,或者服務(wù)器的一部分實現(xiàn)本發(fā)明圖3和圖4所示實施例的流程。如圖8所示,上述語音合成裝置可以包括:接收模塊81、確定模塊82和發(fā)送模塊83 ;
[0073]其中,接收模塊81,用于接收終端設(shè)備發(fā)送的數(shù)據(jù)文件查詢請求,上述數(shù)據(jù)文件查詢請求攜帶上述終端設(shè)備的計算能力數(shù)據(jù);其中,上述終端設(shè)備的計算能力數(shù)據(jù)可以是產(chǎn)品型號,也可以是量化的計算能力值,或者核心硬件數(shù)據(jù)等。其中,上述終端設(shè)備可以為手機(jī)或電腦等具有語音合成功能的終端設(shè)備,本實施例對上述終端設(shè)備的形態(tài)不作限定。
[0074]確定模塊82,用于根據(jù)上述終端設(shè)備的計算能力數(shù)據(jù)確定適合上述終端設(shè)備的計算能力的聲學(xué)模型列表,上述聲學(xué)模型列表中包括至少兩個音色對應(yīng)的聲學(xué)模型;具體地,接收模塊81接收到終端設(shè)備提供的計算能力數(shù)據(jù)之后,確定模塊82會根據(jù)服務(wù)器中的聲學(xué)模型及所需計算能力的數(shù)據(jù)庫,確定適合當(dāng)前終端設(shè)備的計算能力的聲學(xué)模型列表,上述聲學(xué)模型列表中包括至少一個音色對應(yīng)的聲學(xué)模型。
[0075]發(fā)送模塊83,用于將確定模塊82確定的聲學(xué)模型列表發(fā)送給上述終端設(shè)備,以供上述終端設(shè)備下載并保存使用上述終端設(shè)備的用戶從上述聲學(xué)模型列表中選擇的音色對應(yīng)的聲學(xué)模型,并通過保存的聲學(xué)模型進(jìn)行語音合成。
[0076]圖9為本發(fā)明語音合成裝置再一個實施例的結(jié)構(gòu)示意圖,與圖8所示的語音合成裝置相比,不同之處在于,圖9所示的語音合成裝置中還可以包括:獲得模塊84 ;
[0077]獲得模塊84,用于在接收模塊81接收終端設(shè)備發(fā)送的數(shù)據(jù)文件查詢請求之前,利用語音數(shù)據(jù)和上述語音數(shù)據(jù)對應(yīng)的文本標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練,獲得至少兩種具有不同復(fù)雜度的聲學(xué)模型。
[0078]本實施例中,獲得模塊84利用語音數(shù)據(jù)和上述語音數(shù)據(jù)對應(yīng)的文本標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練,獲得至少兩種具有不同復(fù)雜度的聲學(xué)模型。上述至少兩種具有不同復(fù)雜度的聲學(xué)模型中可以包括基于HMM的聲學(xué)模型和/或基于LSTM的聲學(xué)模型。對于不同的模型,所利用的聲學(xué)特征參數(shù)或者上下文特征,可以有所不同。
[0079]如圖5所示,利用同樣的一套數(shù)據(jù)(包含語音數(shù)據(jù)和上述語音數(shù)據(jù)對應(yīng)的文本標(biāo)注數(shù)據(jù)),可以訓(xùn)練出至少兩種具有不同復(fù)雜度的聲學(xué)模型。圖5中展示了一種HMM模型和兩種LSTM模型。每一種模型當(dāng)中,一般都包括時長模型、基頻模型和譜模型,用于體現(xiàn)說話人的節(jié)奏、抑揚頓挫和音色等信息。對于HMM模型,可以通過控制葉子節(jié)點的數(shù)量,來生成不同復(fù)雜度的模型;對于LSTM等神經(jīng)網(wǎng)絡(luò)模型,可以通過控制每層節(jié)點的數(shù)量,來控制模型的復(fù)雜度。
[0080]上述語音合成裝置中,接收模塊81接收終端設(shè)備發(fā)送的數(shù)據(jù)文件查詢請求之后,確定模塊82根據(jù)上述終端設(shè)備的計算能力數(shù)據(jù)確定適合上述終端設(shè)備的計算能力的聲學(xué)模型列表,然后發(fā)送模塊