語(yǔ)音合成方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及語(yǔ)音合成技術(shù)領(lǐng)域,尤其涉及一種語(yǔ)音合成方法和裝置。
【背景技術(shù)】
[0002]語(yǔ)音合成,又稱文語(yǔ)轉(zhuǎn)換(Text to Speech)技術(shù),能將任意文字信息實(shí)時(shí)轉(zhuǎn)化為標(biāo)準(zhǔn)流暢的語(yǔ)音朗讀出來,相當(dāng)于給機(jī)器裝上了人工嘴巴。
[0003]現(xiàn)有的語(yǔ)音合成系統(tǒng)中,輸入文本通過文本預(yù)處理、分詞等一系列處理后,進(jìn)入韻律層級(jí)預(yù)測(cè)模塊,然后利用聲學(xué)模型,生成目標(biāo)聲學(xué)參數(shù)序列,并最終合成語(yǔ)音。在參數(shù)合成系統(tǒng)中,語(yǔ)音生成是通過聲碼器來實(shí)現(xiàn)的,由于這種語(yǔ)音生成方式,不需要利用原始聲音片段進(jìn)行拼接,可以做到比較小的尺寸,所以在嵌入式設(shè)備上得到了廣泛應(yīng)用。
[0004]近幾年,神經(jīng)網(wǎng)絡(luò)技術(shù)快速發(fā)展,被應(yīng)用到了越來越多的領(lǐng)域,其中包括語(yǔ)音識(shí)另I1、語(yǔ)音合成等。其中,長(zhǎng)短期記憶(Long-Short Term Memory ;以下簡(jiǎn)稱:LSTM)技術(shù)被成功地應(yīng)用到了語(yǔ)音合成的聲學(xué)建模當(dāng)中,但是,基于LSTM的聲學(xué)模型,在合成系統(tǒng)中用于聲學(xué)參數(shù)預(yù)測(cè)時(shí),其計(jì)算量,相比基于隱馬爾可夫模型(Hidden Markov Model ;以下簡(jiǎn)稱:HMM)的方案,也有比較明顯的增長(zhǎng)。
[0005]眾所周知,嵌入式設(shè)備的計(jì)算能力差異很大。不但不同平臺(tái)、不同廠家的設(shè)備之間差異很大,即便是同一個(gè)廠家,不同時(shí)期的產(chǎn)品,也有很大差異,而這些產(chǎn)品可能同時(shí)在不同的用戶手中使用。
[0006]但是,對(duì)于現(xiàn)有的離線合成系統(tǒng),其聲學(xué)模型往往是固定的,不能自動(dòng)針對(duì)不同的終端進(jìn)行處理或者優(yōu)化,從而導(dǎo)致相同的合成系統(tǒng)在不同終端上的運(yùn)行效果差異很大,造成低端機(jī)上的語(yǔ)音合成不流暢,或者無法為高端機(jī)提供更好的語(yǔ)音合成服務(wù)。
【發(fā)明內(nèi)容】
[0007]本發(fā)明的目的旨在至少在一定程度上解決相關(guān)技術(shù)中的技術(shù)問題之一。
[0008]為此,本發(fā)明的第一個(gè)目的在于提出一種語(yǔ)音合成方法。該方法可以使得語(yǔ)音合成在不同計(jì)算能力的終端設(shè)備上,都有很好地表現(xiàn),在計(jì)算能力較差的設(shè)備上,可以流暢地進(jìn)行語(yǔ)音合成,不影響用戶接收語(yǔ)音中所包含的信息;在計(jì)算能力較好的設(shè)備上,可以合成出更加自然的語(yǔ)音,改善用戶的人機(jī)交互體驗(yàn)。
[0009]本發(fā)明的第二個(gè)目的在于提出一種語(yǔ)音合成裝置。
[0010]為了實(shí)現(xiàn)上述目的,本發(fā)明第一方面實(shí)施例的語(yǔ)音合成方法,包括:向服務(wù)器發(fā)送數(shù)據(jù)文件查詢請(qǐng)求,所述數(shù)據(jù)文件查詢請(qǐng)求攜帶終端設(shè)備的計(jì)算能力數(shù)據(jù);接收所述服務(wù)器發(fā)送的適合所述終端設(shè)備的計(jì)算能力的聲學(xué)模型列表,所述聲學(xué)模型列表中包括至少一個(gè)音色對(duì)應(yīng)的聲學(xué)模型;將所述聲學(xué)模型列表顯示給使用所述終端設(shè)備的用戶,以供所述用戶從所述聲學(xué)模型列表中選擇音色對(duì)應(yīng)的聲學(xué)模型;下載并保存所述用戶選擇的音色對(duì)應(yīng)的聲學(xué)模型;通過保存的聲學(xué)模型進(jìn)行語(yǔ)音合成。
[0011]本發(fā)明實(shí)施例的語(yǔ)音合成方法中,向服務(wù)器發(fā)送攜帶終端設(shè)備的計(jì)算能力數(shù)據(jù)的數(shù)據(jù)文件查詢請(qǐng)求之后,接收上述服務(wù)器發(fā)送的適合上述終端設(shè)備的計(jì)算能力的聲學(xué)模型列表,然后將上述聲學(xué)模型列表顯示給使用上述終端設(shè)備的用戶,下載并保存上述用戶選擇的音色對(duì)應(yīng)的聲學(xué)模型,進(jìn)而通過保存的聲學(xué)模型進(jìn)行語(yǔ)音合成,從而可以使得語(yǔ)音合成在不同計(jì)算能力的終端設(shè)備上,都有很好地表現(xiàn),在計(jì)算能力較差的設(shè)備上,可以流暢地進(jìn)行語(yǔ)音合成,不影響用戶接收語(yǔ)音中所包含的信息;在計(jì)算能力較好的設(shè)備上,可以合成出更加自然的語(yǔ)音,改善用戶的人機(jī)交互體驗(yàn)。
[0012]為了實(shí)現(xiàn)上述目的,本發(fā)明第二方面實(shí)施例的語(yǔ)音合成方法,包括:接收終端設(shè)備發(fā)送的數(shù)據(jù)文件查詢請(qǐng)求,所述數(shù)據(jù)文件查詢請(qǐng)求攜帶所述終端設(shè)備的計(jì)算能力數(shù)據(jù);根據(jù)所述終端設(shè)備的計(jì)算能力數(shù)據(jù)確定適合所述終端設(shè)備的計(jì)算能力的聲學(xué)模型列表,所述聲學(xué)模型列表中包括至少兩個(gè)音色對(duì)應(yīng)的聲學(xué)模型;將所述聲學(xué)模型列表發(fā)送給所述終端設(shè)備,以供所述終端設(shè)備下載并保存使用所述終端設(shè)備的用戶從所述聲學(xué)模型列表中選擇的音色對(duì)應(yīng)的聲學(xué)模型,并通過保存的聲學(xué)模型進(jìn)行語(yǔ)音合成。
[0013]本發(fā)明實(shí)施例的語(yǔ)音合成方法中,接收終端設(shè)備發(fā)送的數(shù)據(jù)文件查詢請(qǐng)求之后,根據(jù)上述終端設(shè)備的計(jì)算能力數(shù)據(jù)確定適合上述終端設(shè)備的計(jì)算能力的聲學(xué)模型列表,然后將上述聲學(xué)模型列表發(fā)送給終端設(shè)備,以供上述終端設(shè)備下載并保存使用上述終端設(shè)備的用戶從上述聲學(xué)模型列表中選擇的音色對(duì)應(yīng)的聲學(xué)模型,并通過保存的聲學(xué)模型進(jìn)行語(yǔ)音合成,從而可以使得語(yǔ)音合成在不同計(jì)算能力的終端設(shè)備上,都有很好地表現(xiàn),在計(jì)算能力較差的設(shè)備上,可以流暢地進(jìn)行語(yǔ)音合成,不影響用戶接收語(yǔ)音中所包含的信息;在計(jì)算能力較好的設(shè)備上,可以合成出更加自然的語(yǔ)音,改善用戶的人機(jī)交互體驗(yàn)。
[0014]為了實(shí)現(xiàn)上述目的,本發(fā)明第三方面實(shí)施例的語(yǔ)音合成裝置,包括:發(fā)送模塊,用于向服務(wù)器發(fā)送數(shù)據(jù)文件查詢請(qǐng)求,所述數(shù)據(jù)文件查詢請(qǐng)求攜帶終端設(shè)備的計(jì)算能力數(shù)據(jù);接收模塊,用于接收所述服務(wù)器發(fā)送的適合所述終端設(shè)備的計(jì)算能力的聲學(xué)模型列表,所述聲學(xué)模型列表中包括至少一個(gè)音色對(duì)應(yīng)的聲學(xué)模型;顯示模塊,用于將所述接收模塊接收的聲學(xué)模型列表顯示給使用所述終端設(shè)備的用戶,以供所述用戶從所述聲學(xué)模型列表中選擇音色對(duì)應(yīng)的聲學(xué)模型;下載模塊,用于下載所述用戶選擇的音色對(duì)應(yīng)的聲學(xué)模型;保存模塊,用于保存所述下載模塊下載的聲學(xué)模型;語(yǔ)音合成模塊,用于通過所述保存模塊保存的聲學(xué)模型進(jìn)行語(yǔ)音合成。
[0015]本發(fā)明實(shí)施例的語(yǔ)音合成裝置中,發(fā)送模塊向服務(wù)器發(fā)送攜帶終端設(shè)備的計(jì)算能力數(shù)據(jù)的數(shù)據(jù)文件查詢請(qǐng)求之后,接收模塊接收上述服務(wù)器發(fā)送的適合上述終端設(shè)備的計(jì)算能力的聲學(xué)模型列表,然后顯示模塊將上述聲學(xué)模型列表顯示給使用上述終端設(shè)備的用戶,下載模塊和保存模塊下載并保存上述用戶選擇的音色對(duì)應(yīng)的聲學(xué)模型,進(jìn)而通過保存模塊保存的聲學(xué)模型進(jìn)行語(yǔ)音合成,從而可以使得語(yǔ)音合成在不同計(jì)算能力的終端設(shè)備上,都有很好地表現(xiàn),在計(jì)算能力較差的設(shè)備上,可以流暢地進(jìn)行語(yǔ)音合成,不影響用戶接收語(yǔ)音中所包含的信息;在計(jì)算能力較好的設(shè)備上,可以合成出更加自然的語(yǔ)音,改善用戶的人機(jī)交互體驗(yàn)。
[0016]為了實(shí)現(xiàn)上述目的,本發(fā)明第四方面實(shí)施例的語(yǔ)音合成裝置,包括:接收模塊,用于接收終端設(shè)備發(fā)送的數(shù)據(jù)文件查詢請(qǐng)求,所述數(shù)據(jù)文件查詢請(qǐng)求攜帶所述終端設(shè)備的計(jì)算能力數(shù)據(jù);確定模塊,用于根據(jù)所述終端設(shè)備的計(jì)算能力數(shù)據(jù)確定適合所述終端設(shè)備的計(jì)算能力的聲學(xué)模型列表,所述聲學(xué)模型列表中包括至少兩個(gè)音色對(duì)應(yīng)的聲學(xué)模型;發(fā)送模塊,用于將所述確定模塊確定的聲學(xué)模型列表發(fā)送給所述終端設(shè)備,以供所述終端設(shè)備下載并保存使用所述終端設(shè)備的用戶從所述聲學(xué)模型列表中選擇的音色對(duì)應(yīng)的聲學(xué)模型,并通過保存的聲學(xué)模型進(jìn)行語(yǔ)音合成。
[0017]本發(fā)明實(shí)施例的語(yǔ)音合成裝置中,接收模塊接收終端設(shè)備發(fā)送的數(shù)據(jù)文件查詢請(qǐng)求之后,確定模塊根據(jù)上述終端設(shè)備的計(jì)算能力數(shù)據(jù)確定適合上述終端設(shè)備的計(jì)算能力的聲學(xué)模型列表,然后發(fā)送模塊將上述聲學(xué)模型列表發(fā)送給終端設(shè)備,以供上述終端設(shè)備下載并保存使用上述終端設(shè)備的用戶從上述聲學(xué)模型列表中選擇的音色對(duì)應(yīng)的聲學(xué)模型,并通過保存的聲學(xué)模型進(jìn)行語(yǔ)音合成,從而可以使得語(yǔ)音合成在不同計(jì)算能力的終端設(shè)備上,都有很好地表現(xiàn),在計(jì)算能力較差的設(shè)備上,可以流暢地進(jìn)行語(yǔ)音合成,不影響用戶接收語(yǔ)音中所包含的信息;在計(jì)算能力較好的設(shè)備上,可以合成出更加自然的語(yǔ)音,改善用戶的人機(jī)交互體驗(yàn)。
[0018]本發(fā)明附加的方面和優(yōu)點(diǎn)將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發(fā)明的實(shí)踐了解到。
【附圖說明】
[0019]本發(fā)明上述的和/或附加的方面和優(yōu)點(diǎn)從下面結(jié)合附圖對(duì)實(shí)施例的描述中將變得明顯和容易理解,其中:
[0020]圖1為本發(fā)明語(yǔ)音合成方法一個(gè)實(shí)施例的流程圖;
[0021]圖2為本發(fā)明語(yǔ)音合成方法另一個(gè)實(shí)施例的流程圖;
[0022]圖3為本發(fā)明語(yǔ)音合成方法再一個(gè)實(shí)施例的流