語(yǔ)音合成方法和裝置的制造方法

文檔序號(hào)：9598796閱讀：815來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

語(yǔ)音合成方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及語(yǔ)音合成技術(shù)領(lǐng)域，尤其涉及一種語(yǔ)音合成方法和裝置。
【背景技術(shù)】
[0002]語(yǔ)音合成，又稱文語(yǔ)轉(zhuǎn)換(Text to Speech)技術(shù)，能將任意文字信息實(shí)時(shí)轉(zhuǎn)化為標(biāo)準(zhǔn)流暢的語(yǔ)音朗讀出來，相當(dāng)于給機(jī)器裝上了人工嘴巴。
[0003]現(xiàn)有的語(yǔ)音合成系統(tǒng)中，輸入文本通過文本預(yù)處理、分詞等一系列處理后，進(jìn)入韻律層級(jí)預(yù)測(cè)模塊，然后利用聲學(xué)模型，生成目標(biāo)聲學(xué)參數(shù)序列，并最終合成語(yǔ)音。在參數(shù)合成系統(tǒng)中，語(yǔ)音生成是通過聲碼器來實(shí)現(xiàn)的，由于這種語(yǔ)音生成方式，不需要利用原始聲音片段進(jìn)行拼接，可以做到比較小的尺寸，所以在嵌入式設(shè)備上得到了廣泛應(yīng)用。
[0004]近幾年，神經(jīng)網(wǎng)絡(luò)技術(shù)快速發(fā)展，被應(yīng)用到了越來越多的領(lǐng)域，其中包括語(yǔ)音識(shí)另I1、語(yǔ)音合成等。其中，長(zhǎng)短期記憶(Long-Short Term Memory ;以下簡(jiǎn)稱:LSTM)技術(shù)被成功地應(yīng)用到了語(yǔ)音合成的聲學(xué)建模當(dāng)中，但是，基于LSTM的聲學(xué)模型，在合成系統(tǒng)中用于聲學(xué)參數(shù)預(yù)測(cè)時(shí)，其計(jì)算量，相比基于隱馬爾可夫模型(Hidden Markov Model ;以下簡(jiǎn)稱:HMM)的方案，也有比較明顯的增長(zhǎng)。
[0005]眾所周知，嵌入式設(shè)備的計(jì)算能力差異很大。不但不同平臺(tái)、不同廠家的設(shè)備之間差異很大，即便是同一個(gè)廠家，不同時(shí)期的產(chǎn)品，也有很大差異，而這些產(chǎn)品可能同時(shí)在不同的用戶手中使用。
[0006]但是，對(duì)于現(xiàn)有的離線合成系統(tǒng)，其聲學(xué)模型往往是固定的，不能自動(dòng)針對(duì)不同的終端進(jìn)行處理或者優(yōu)化，從而導(dǎo)致相同的合成系統(tǒng)在不同終端上的運(yùn)行效果差異很大，造成低端機(jī)上的語(yǔ)音合成不流暢，或者無法為高端機(jī)提供更好的語(yǔ)音合成服務(wù)。

【發(fā)明內(nèi)容】

[0007]本發(fā)明的目的旨在至少在一定程度上解決相關(guān)技術(shù)中的技術(shù)問題之一。
[0008]為此，本發(fā)明的第一個(gè)目的在于提出一種語(yǔ)音合成方法。該方法可以使得語(yǔ)音合成在不同計(jì)算能力的終端設(shè)備上，都有很好地表現(xiàn)，在計(jì)算能力較差的設(shè)備上，可以流暢地進(jìn)行語(yǔ)音合成，不影響用戶接收語(yǔ)音中所包含的信息；在計(jì)算能力較好的設(shè)備上，可以合成出更加自然的語(yǔ)音，改善用戶的人機(jī)交互體驗(yàn)。
[0009]本發(fā)明的第二個(gè)目的在于提出一種語(yǔ)音合成裝置。
[0010]為了實(shí)現(xiàn)上述目的，本發(fā)明第一方面實(shí)施例的語(yǔ)音合成方法，包括:向服務(wù)器發(fā)送數(shù)據(jù)文件查詢請(qǐng)求，所述數(shù)據(jù)文件查詢請(qǐng)求攜帶終端設(shè)備的計(jì)算能力數(shù)據(jù)；接收所述服務(wù)器發(fā)送的適合所述終端設(shè)備的計(jì)算能力的聲學(xué)模型列表，所述聲學(xué)模型列表中包括至少一個(gè)音色對(duì)應(yīng)的聲學(xué)模型；將所述聲學(xué)模型列表顯示給使用所述終端設(shè)備的用戶，以供所述用戶從所述聲學(xué)模型列表中選擇音色對(duì)應(yīng)的聲學(xué)模型；下載并保存所述用戶選擇的音色對(duì)應(yīng)的聲學(xué)模型；通過保存的聲學(xué)模型進(jìn)行語(yǔ)音合成。
[0011]本發(fā)明實(shí)施例的語(yǔ)音合成方法中，向服務(wù)器發(fā)送攜帶終端設(shè)備的計(jì)算能力數(shù)據(jù)的數(shù)據(jù)文件查詢請(qǐng)求之后，接收上述服務(wù)器發(fā)送的適合上述終端設(shè)備的計(jì)算能力的聲學(xué)模型列表，然后將上述聲學(xué)模型列表顯示給使用上述終端設(shè)備的用戶，下載并保存上述用戶選擇的音色對(duì)應(yīng)的聲學(xué)模型，進(jìn)而通過保存的聲學(xué)模型進(jìn)行語(yǔ)音合成，從而可以使得語(yǔ)音合成在不同計(jì)算能力的終端設(shè)備上，都有很好地表現(xiàn)，在計(jì)算能力較差的設(shè)備上，可以流暢地進(jìn)行語(yǔ)音合成，不影響用戶接收語(yǔ)音中所包含的信息；在計(jì)算能力較好的設(shè)備上，可以合成出更加自然的語(yǔ)音，改善用戶的人機(jī)交互體驗(yàn)。
[0012]為了實(shí)現(xiàn)上述目的，本發(fā)明第二方面實(shí)施例的語(yǔ)音合成方法，包括:接收終端設(shè)備發(fā)送的數(shù)據(jù)文件查詢請(qǐng)求，所述數(shù)據(jù)文件查詢請(qǐng)求攜帶所述終端設(shè)備的計(jì)算能力數(shù)據(jù)；根據(jù)所述終端設(shè)備的計(jì)算能力數(shù)據(jù)確定適合所述終端設(shè)備的計(jì)算能力的聲學(xué)模型列表，所述聲學(xué)模型列表中包括至少兩個(gè)音色對(duì)應(yīng)的聲學(xué)模型；將所述聲學(xué)模型列表發(fā)送給所述終端設(shè)備，以供所述終端設(shè)備下載并保存使用所述終端設(shè)備的用戶從所述聲學(xué)模型列表中選擇的音色對(duì)應(yīng)的聲學(xué)模型，并通過保存的聲學(xué)模型進(jìn)行語(yǔ)音合成。
[0013]本發(fā)明實(shí)施例的語(yǔ)音合成方法中，接收終端設(shè)備發(fā)送的數(shù)據(jù)文件查詢請(qǐng)求之后，根據(jù)上述終端設(shè)備的計(jì)算能力數(shù)據(jù)確定適合上述終端設(shè)備的計(jì)算能力的聲學(xué)模型列表，然后將上述聲學(xué)模型列表發(fā)送給終端設(shè)備，以供上述終端設(shè)備下載并保存使用上述終端設(shè)備的用戶從上述聲學(xué)模型列表中選擇的音色對(duì)應(yīng)的聲學(xué)模型，并通過保存的聲學(xué)模型進(jìn)行語(yǔ)音合成，從而可以使得語(yǔ)音合成在不同計(jì)算能力的終端設(shè)備上，都有很好地表現(xiàn)，在計(jì)算能力較差的設(shè)備上，可以流暢地進(jìn)行語(yǔ)音合成，不影響用戶接收語(yǔ)音中所包含的信息；在計(jì)算能力較好的設(shè)備上，可以合成出更加自然的語(yǔ)音，改善用戶的人機(jī)交互體驗(yàn)。
[0014]為了實(shí)現(xiàn)上述目的，本發(fā)明第三方面實(shí)施例的語(yǔ)音合成裝置，包括:發(fā)送模塊，用于向服務(wù)器發(fā)送數(shù)據(jù)文件查詢請(qǐng)求，所述數(shù)據(jù)文件查詢請(qǐng)求攜帶終端設(shè)備的計(jì)算能力數(shù)據(jù)；接收模塊，用于接收所述服務(wù)器發(fā)送的適合所述終端設(shè)備的計(jì)算能力的聲學(xué)模型列表，所述聲學(xué)模型列表中包括至少一個(gè)音色對(duì)應(yīng)的聲學(xué)模型；顯示模塊，用于將所述接收模塊接收的聲學(xué)模型列表顯示給使用所述終端設(shè)備的用戶，以供所述用戶從所述聲學(xué)模型列表中選擇音色對(duì)應(yīng)的聲學(xué)模型；下載模塊，用于下載所述用戶選擇的音色對(duì)應(yīng)的聲學(xué)模型；保存模塊，用于保存所述下載模塊下載的聲學(xué)模型；語(yǔ)音合成模塊，用于通過所述保存模塊保存的聲學(xué)模型進(jìn)行語(yǔ)音合成。
[0015]本發(fā)明實(shí)施例的語(yǔ)音合成裝置中，發(fā)送模塊向服務(wù)器發(fā)送攜帶終端設(shè)備的計(jì)算能力數(shù)據(jù)的數(shù)據(jù)文件查詢請(qǐng)求之后，接收模塊接收上述服務(wù)器發(fā)送的適合上述終端設(shè)備的計(jì)算能力的聲學(xué)模型列表，然后顯示模塊將上述聲學(xué)模型列表顯示給使用上述終端設(shè)備的用戶，下載模塊和保存模塊下載并保存上述用戶選擇的音色對(duì)應(yīng)的聲學(xué)模型，進(jìn)而通過保存模塊保存的聲學(xué)模型進(jìn)行語(yǔ)音合成，從而可以使得語(yǔ)音合成在不同計(jì)算能力的終端設(shè)備上，都有很好地表現(xiàn)，在計(jì)算能力較差的設(shè)備上，可以流暢地進(jìn)行語(yǔ)音合成，不影響用戶接收語(yǔ)音中所包含的信息；在計(jì)算能力較好的設(shè)備上，可以合成出更加自然的語(yǔ)音，改善用戶的人機(jī)交互體驗(yàn)。
[0016]為了實(shí)現(xiàn)上述目的，本發(fā)明第四方面實(shí)施例的語(yǔ)音合成裝置，包括:接收模塊，用于接收終端設(shè)備發(fā)送的數(shù)據(jù)文件查詢請(qǐng)求，所述數(shù)據(jù)文件查詢請(qǐng)求攜帶所述終端設(shè)備的計(jì)算能力數(shù)據(jù)；確定模塊，用于根據(jù)所述終端設(shè)備的計(jì)算能力數(shù)據(jù)確定適合所述終端設(shè)備的計(jì)算能力的聲學(xué)模型列表，所述聲學(xué)模型列表中包括至少兩個(gè)音色對(duì)應(yīng)的聲學(xué)模型；發(fā)送模塊，用于將所述確定模塊確定的聲學(xué)模型列表發(fā)送給所述終端設(shè)備，以供所述終端設(shè)備下載并保存使用所述終端設(shè)備的用戶從所述聲學(xué)模型列表中選擇的音色對(duì)應(yīng)的聲學(xué)模型，并通過保存的聲學(xué)模型進(jìn)行語(yǔ)音合成。
[0017]本發(fā)明實(shí)施例的語(yǔ)音合成裝置中，接收模塊接收終端設(shè)備發(fā)送的數(shù)據(jù)文件查詢請(qǐng)求之后，確定模塊根據(jù)上述終端設(shè)備的計(jì)算能力數(shù)據(jù)確定適合上述終端設(shè)備的計(jì)算能力的聲學(xué)模型列表，然后發(fā)送模塊將上述聲學(xué)模型列表發(fā)送給終端設(shè)備，以供上述終端設(shè)備下載并保存使用上述終端設(shè)備的用戶從上述聲學(xué)模型列表中選擇的音色對(duì)應(yīng)的聲學(xué)模型，并通過保存的聲學(xué)模型進(jìn)行語(yǔ)音合成，從而可以使得語(yǔ)音合成在不同計(jì)算能力的終端設(shè)備上，都有很好地表現(xiàn)，在計(jì)算能力較差的設(shè)備上，可以流暢地進(jìn)行語(yǔ)音合成，不影響用戶接收語(yǔ)音中所包含的信息；在計(jì)算能力較好的設(shè)備上，可以合成出更加自然的語(yǔ)音，改善用戶的人機(jī)交互體驗(yàn)。
[0018]本發(fā)明附加的方面和優(yōu)點(diǎn)將在下面的描述中部分給出，部分將從下面的描述中變得明顯，或通過本發(fā)明的實(shí)踐了解到。
【附圖說明】
[0019]本發(fā)明上述的和/或附加的方面和優(yōu)點(diǎn)從下面結(jié)合附圖對(duì)實(shí)施例的描述中將變得明顯和容易理解，其中:
[0020]圖1為本發(fā)明語(yǔ)音合成方法一個(gè)實(shí)施例的流程圖；
[0021]圖2為本發(fā)明語(yǔ)音合成方法另一個(gè)實(shí)施例的流程圖；
[0022]圖3為本發(fā)明語(yǔ)音合成方法再一個(gè)實(shí)施例的流

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2 3 4