本技術(shù)涉及數(shù)據(jù)處理,特別涉及一種語(yǔ)音信號(hào)生成方法、裝置及電子設(shè)備。
背景技術(shù):
1、在當(dāng)前的語(yǔ)音合成技術(shù)領(lǐng)域,典型的流程涉及三個(gè)主要階段:首先,前端模塊分析純文本輸入,并將其轉(zhuǎn)化為一組結(jié)構(gòu)化的文本特征;隨后,聲學(xué)模型利用這些特征生成相應(yīng)的聲學(xué)參數(shù);最后,聲碼器將這些聲學(xué)參數(shù)轉(zhuǎn)換成可聽(tīng)的語(yǔ)音波形。這一過(guò)程使得文本到語(yǔ)音的轉(zhuǎn)換成為可能,在諸如新聞播報(bào)和導(dǎo)航指引等應(yīng)用場(chǎng)景中發(fā)揮著重要作用。
2、然而,盡管這一技術(shù)在諸多方面展現(xiàn)出了卓越的性能,但在面對(duì)如小說(shuō)朗讀這樣要求高度角色化、情感化的語(yǔ)音合成任務(wù)時(shí),其局限性便逐漸凸顯。具體而言,當(dāng)前語(yǔ)音合成技術(shù)所生成的小說(shuō)語(yǔ)音往往呈現(xiàn)出音色單一、韻律表現(xiàn)平淡的問(wèn)題,難以精準(zhǔn)捕捉并再現(xiàn)小說(shuō)中不同角色的獨(dú)特聲音特質(zhì)與復(fù)雜情感變化,從而無(wú)法滿足用戶對(duì)于多角色對(duì)話場(chǎng)景下語(yǔ)音合成的多樣化需求。這一現(xiàn)狀不僅限制了語(yǔ)音合成技術(shù)在文學(xué)演繹、有聲讀物等領(lǐng)域的進(jìn)一步拓展,也激發(fā)了行業(yè)內(nèi)外對(duì)于開(kāi)發(fā)更加智能、靈活、富有表現(xiàn)力的語(yǔ)音合成技術(shù)的迫切愿望。
技術(shù)實(shí)現(xiàn)思路
1、本技術(shù)所要解決的技術(shù)問(wèn)題是提供一種語(yǔ)音信號(hào)生成方法、裝置及電子設(shè)備,能夠提升語(yǔ)音合成的韻律表現(xiàn),并且可以實(shí)現(xiàn)合成多樣化音色的語(yǔ)音。具體方案如下:
2、一種語(yǔ)音信號(hào)生成方法,包括:
3、獲取待處理的目標(biāo)文本;所述目標(biāo)文本包括n個(gè)句子文本以及每個(gè)所述句子文本的旁白對(duì)話標(biāo)簽,每個(gè)所述旁白對(duì)話標(biāo)簽用于指示所屬句子文本的類(lèi)型,所述句子文本的類(lèi)型為旁白類(lèi)型和對(duì)話類(lèi)型中的一種;
4、基于預(yù)先訓(xùn)練好的韻律編碼預(yù)測(cè)器、所述目標(biāo)文本、所述目標(biāo)文本的文本特征以及每個(gè)所述句子文本的音色嵌入信息,獲得中心句文本的韻律信息;每個(gè)所述句子文本的音色嵌入信息基于每個(gè)所述句子文本的旁白對(duì)話標(biāo)簽與參考語(yǔ)音生成;所述中心句文本為所述目標(biāo)文本中的第m個(gè)句子文本,其中,1<m<n;
5、基于預(yù)先訓(xùn)練好的時(shí)長(zhǎng)預(yù)測(cè)器、所述目標(biāo)文本、所述目標(biāo)文本的文本特征以及每個(gè)所述句子文本的音色嵌入信息,獲得中心句文本的時(shí)長(zhǎng)信息;
6、基于預(yù)先訓(xùn)練好的頻譜預(yù)測(cè)器、所述中心句文本的文本特征、所述中心句文本的音色嵌入信息、所述中心句文本的時(shí)長(zhǎng)信息以及所述中心句文本的韻律信息,獲得所述中心句文本的語(yǔ)音信號(hào)。
7、上述的方法,可選的,所述韻律編碼預(yù)測(cè)器的訓(xùn)練過(guò)程,包括:
8、獲取對(duì)抗生成網(wǎng)絡(luò)以及第一訓(xùn)練數(shù)據(jù)集;所述對(duì)抗生成網(wǎng)絡(luò)包括生成器以及判別器;所述生成器包括初始韻律編碼預(yù)測(cè)器、所述初始韻律編碼對(duì)應(yīng)的第一音色編碼器;所述第一訓(xùn)練數(shù)據(jù)集包括多個(gè)第一訓(xùn)練數(shù)據(jù),每個(gè)所述第一訓(xùn)練數(shù)據(jù)包括n個(gè)第一訓(xùn)練句子文本,以及所述n個(gè)第一訓(xùn)練句子文本的文本特征、預(yù)先提取好的韻律編碼、旁白對(duì)話標(biāo)簽和語(yǔ)音信息;
9、在所述第一訓(xùn)練數(shù)據(jù)集的各個(gè)第一訓(xùn)練數(shù)據(jù)中選取出當(dāng)前用于訓(xùn)練的第一目標(biāo)訓(xùn)練數(shù)據(jù);
10、根據(jù)所述第一音色編碼器、所述第一目標(biāo)訓(xùn)練數(shù)據(jù)的旁白對(duì)話標(biāo)簽以及語(yǔ)音信息,獲得所述第一目標(biāo)訓(xùn)練數(shù)據(jù)的音色嵌入信息;
11、根據(jù)所述初始韻律編碼預(yù)測(cè)器、第一目標(biāo)訓(xùn)練數(shù)據(jù)中的n個(gè)第一訓(xùn)練句子文本以及文本特征,獲得所述第一目標(biāo)訓(xùn)練數(shù)據(jù)中的n個(gè)第一訓(xùn)練句子文本的韻律編碼;
12、根據(jù)所述生成器、判別器、所述第一目標(biāo)訓(xùn)練數(shù)據(jù)以及所述第一目標(biāo)訓(xùn)練數(shù)據(jù)中的n個(gè)第一訓(xùn)練句子文本的韻律編碼,獲得所述生成器、判別器的損失函數(shù)值;
13、利用所述生成器的損失函數(shù)值更新所述生成器中的第一音色編碼器的模型參數(shù)以及所述初始韻律編碼預(yù)測(cè)器的模型參數(shù);并利用所述判別器的損失函數(shù)值更新所述判別器的模型參數(shù);
14、在更新后的所述生成器與判別器未滿足預(yù)設(shè)的第一訓(xùn)練完成條件的情況下,返回執(zhí)行在訓(xùn)練數(shù)據(jù)集的各個(gè)訓(xùn)練數(shù)據(jù)中選取出當(dāng)前用于訓(xùn)練的第一目標(biāo)訓(xùn)練數(shù)據(jù)的步驟;
15、在更新后的所述生成器與判別器滿足預(yù)設(shè)的第一訓(xùn)練完成條件的情況下,將更新后的所述生成器中的初始韻律編碼預(yù)測(cè)器,確定為訓(xùn)練好的韻律編碼預(yù)測(cè)器。
16、上述的方法,可選的,所述頻譜預(yù)測(cè)器的訓(xùn)練過(guò)程,包括:
17、獲取待訓(xùn)練的初始頻譜預(yù)測(cè)器、第二音色編碼器、韻律編碼提取器以及第二訓(xùn)練數(shù)據(jù)集;所述第二訓(xùn)練數(shù)據(jù)集包括多個(gè)包括第二訓(xùn)練數(shù)據(jù),每個(gè)所述第二訓(xùn)練數(shù)據(jù)包括第二訓(xùn)練句子文本,以及所述第二訓(xùn)練句子文本的韻律特征、文本特征、語(yǔ)音信息、旁白對(duì)話標(biāo)簽以及目標(biāo)信號(hào);所述韻律特征包括時(shí)長(zhǎng)、基頻和能量;
18、在第二訓(xùn)練數(shù)據(jù)集的各個(gè)第二訓(xùn)練數(shù)據(jù)中選取出當(dāng)前用于訓(xùn)練的第二目標(biāo)訓(xùn)練數(shù)據(jù);
19、將所述第二目標(biāo)訓(xùn)練數(shù)據(jù)中的韻律特征輸入到所述韻律編碼提取器中,獲得所述第二目標(biāo)訓(xùn)練數(shù)據(jù)中的第二訓(xùn)練句子文本的韻律編碼;
20、根據(jù)所述第二音色編碼器、所述第二目標(biāo)訓(xùn)練數(shù)據(jù)的旁白對(duì)話標(biāo)簽以及語(yǔ)音信息,獲得所述第二目標(biāo)訓(xùn)練數(shù)據(jù)中的第二訓(xùn)練句子文本的音色嵌入信息;
21、根據(jù)所述初始頻譜預(yù)測(cè)器、所述第二目標(biāo)訓(xùn)練數(shù)據(jù)中的文本特征、韻律特征中的時(shí)長(zhǎng)、第二訓(xùn)練句子文本的韻律編碼以及音色嵌入信息,獲得所述第二目標(biāo)訓(xùn)練數(shù)據(jù)中的第二訓(xùn)練句子文本的語(yǔ)音信號(hào);
22、通過(guò)預(yù)設(shè)的第一損失函數(shù)、所述第二目標(biāo)訓(xùn)練數(shù)據(jù)中的第二訓(xùn)練句子文本的語(yǔ)音信號(hào)以及目標(biāo)信號(hào),計(jì)算得到第一損失函數(shù)值;
23、利用所述第一損失函數(shù)值對(duì)所述初始頻譜預(yù)測(cè)器、所述第二音色編碼器以及韻律編碼提取器的模型參數(shù)進(jìn)行更新;
24、在更新后的所述初始頻譜預(yù)測(cè)器未滿足預(yù)設(shè)的第二訓(xùn)練完成條件的情況下,返回執(zhí)行在第二訓(xùn)練數(shù)據(jù)集的各個(gè)第二訓(xùn)練數(shù)據(jù)中選取出當(dāng)前用于訓(xùn)練的第二目標(biāo)訓(xùn)練數(shù)據(jù)的步驟;
25、在更新后的所述初始頻譜預(yù)測(cè)器滿足預(yù)設(shè)的第二訓(xùn)練完成條件的情況下,將滿足所述第二訓(xùn)練完成條件的初始頻譜預(yù)測(cè)器,確定為訓(xùn)練好的頻譜預(yù)測(cè)器。
26、上述的方法,可選的,所述時(shí)長(zhǎng)預(yù)測(cè)器的訓(xùn)練過(guò)程,包括:
27、獲取待訓(xùn)練的初始時(shí)長(zhǎng)預(yù)測(cè)器、第三音色編碼器以及第三訓(xùn)練數(shù)據(jù)集;所述第三訓(xùn)練數(shù)據(jù)集包括多個(gè)第三訓(xùn)練數(shù)據(jù);每個(gè)所述第三訓(xùn)練數(shù)據(jù)包括n個(gè)第三訓(xùn)練句子文本,以及所述n個(gè)第三訓(xùn)練句子文本的文本特征、旁白對(duì)話標(biāo)簽、語(yǔ)音信息以及目標(biāo)時(shí)長(zhǎng)信息;
28、在第三訓(xùn)練數(shù)據(jù)集的各個(gè)第三訓(xùn)練數(shù)據(jù)中選取出當(dāng)前用于訓(xùn)練的第三目標(biāo)訓(xùn)練數(shù)據(jù);
29、根據(jù)所述第三音色編碼器、所述第三目標(biāo)訓(xùn)練數(shù)據(jù)的旁白對(duì)話標(biāo)簽以及語(yǔ)音信息,獲得所述第三目標(biāo)訓(xùn)練數(shù)據(jù)中的n個(gè)第三訓(xùn)練句子文本的音色嵌入信息;
30、根據(jù)所述初始時(shí)長(zhǎng)預(yù)測(cè)器、第三目標(biāo)訓(xùn)練數(shù)據(jù)中的n個(gè)第三訓(xùn)練句子文本以及文本特征,獲得所述第三目標(biāo)訓(xùn)練數(shù)據(jù)中的n個(gè)第三訓(xùn)練句子文本的時(shí)長(zhǎng)信息;
31、通過(guò)預(yù)設(shè)的第二損失函數(shù)、所述第三目標(biāo)訓(xùn)練數(shù)據(jù)中的n個(gè)第三訓(xùn)練句子文本的時(shí)長(zhǎng)信息以及目標(biāo)時(shí)長(zhǎng)信息,計(jì)算得到第二損失函數(shù)值;
32、利用所述第二損失函數(shù)值對(duì)所述初始時(shí)長(zhǎng)預(yù)測(cè)器以及所述第三音色編碼器的模型參數(shù)進(jìn)行更新;
33、在更新后的所述初始時(shí)長(zhǎng)預(yù)測(cè)器未滿足預(yù)設(shè)的第三訓(xùn)練完成條件的情況下,返回執(zhí)行在第三訓(xùn)練數(shù)據(jù)集的各個(gè)第三訓(xùn)練數(shù)據(jù)中選取出當(dāng)前用于訓(xùn)練的第三目標(biāo)訓(xùn)練數(shù)據(jù)的步驟;
34、在更新后的所述初始時(shí)長(zhǎng)預(yù)測(cè)器滿足預(yù)設(shè)的第三訓(xùn)練完成條件的情況下,將滿足所述第三訓(xùn)練完成條件的初始時(shí)長(zhǎng)預(yù)測(cè)器,作為訓(xùn)練好的時(shí)長(zhǎng)預(yù)測(cè)器。
35、上述的方法,可選的,所述基于預(yù)先訓(xùn)練好的頻譜預(yù)測(cè)器、所述中心句文本的文本特征、所述中心句文本的音色嵌入信息、所述中心句文本的時(shí)長(zhǎng)信息以及所述中心句文本的韻律信息,獲得所述中心句文本的語(yǔ)音信號(hào),包括:
36、獲取所述頻譜預(yù)測(cè)器對(duì)應(yīng)的音色編碼器;
37、基于所述頻譜預(yù)測(cè)器對(duì)應(yīng)的音色編碼器、每個(gè)所述句子文本的旁白對(duì)話標(biāo)簽以及每個(gè)所述句子文本的參考語(yǔ)音信息,獲得所述中心句文本的音色嵌入信息;
38、將所述中心句文本的音色嵌入信息與預(yù)設(shè)的控制系數(shù)相乘,獲得目標(biāo)音色嵌入信息;
39、基于預(yù)先訓(xùn)練好的頻譜預(yù)測(cè)器、所述中心句文本的文本特征、所述中心句文本的目標(biāo)音色嵌入信息、所述中心句文本的時(shí)長(zhǎng)信息以及所述中心句文本的韻律信息,獲得所述中心句文本的語(yǔ)音信號(hào)。
40、一種語(yǔ)音信號(hào)生成裝置,包括:
41、獲取單元,用于獲取待處理的目標(biāo)文本;所述目標(biāo)文本包括n個(gè)句子文本以及每個(gè)所述句子文本的旁白對(duì)話標(biāo)簽,每個(gè)所述旁白對(duì)話標(biāo)簽用于指示所屬句子文本的類(lèi)型,所述句子文本的類(lèi)型為旁白類(lèi)型和對(duì)話類(lèi)型中的一種;
42、第一執(zhí)行單元,用于基于預(yù)先訓(xùn)練好的韻律編碼預(yù)測(cè)器、所述目標(biāo)文本、所述目標(biāo)文本的文本特征以及每個(gè)所述句子文本的音色嵌入信息,獲得中心句文本的韻律信息;每個(gè)所述句子文本的音色嵌入信息基于每個(gè)所述句子文本的旁白對(duì)話標(biāo)簽生成;所述中心句文本為所述目標(biāo)文本中的第m個(gè)句子文本,其中,1<m<n;
43、第二執(zhí)行單元,用于基于預(yù)先訓(xùn)練好的時(shí)長(zhǎng)預(yù)測(cè)器、所述目標(biāo)文本、所述目標(biāo)文本的文本特征以及每個(gè)所述句子文本的音色嵌入信息,獲得中心句文本的時(shí)長(zhǎng)信息;
44、第三執(zhí)行單元,用于基于預(yù)先訓(xùn)練好的頻譜預(yù)測(cè)器、所述中心句文本的文本特征、所述中心句文本的音色嵌入信息、所述中心句文本的時(shí)長(zhǎng)信息以及所述中心句文本的韻律信息,獲得所述中心句文本的語(yǔ)音信號(hào)。
45、上述的裝置,可選的,所述第一執(zhí)行單元,包括:
46、第一獲取子單元,用于獲取對(duì)抗生成網(wǎng)絡(luò)以及第一訓(xùn)練數(shù)據(jù)集;所述對(duì)抗生成網(wǎng)絡(luò)包括生成器以及判別器;所述生成器包括初始韻律編碼預(yù)測(cè)器、所述初始韻律編碼對(duì)應(yīng)的第一音色編碼器;所述第一訓(xùn)練數(shù)據(jù)集包括多個(gè)第一訓(xùn)練數(shù)據(jù),每個(gè)所述第一訓(xùn)練數(shù)據(jù)包括n個(gè)第一訓(xùn)練句子文本,以及所述n個(gè)第一訓(xùn)練句子文本的文本特征、預(yù)先提取好的韻律編碼、旁白對(duì)話標(biāo)簽和語(yǔ)音信息;
47、第一選取子單元,用于在所述第一訓(xùn)練數(shù)據(jù)集的各個(gè)第一訓(xùn)練數(shù)據(jù)中選取出當(dāng)前用于訓(xùn)練的第一目標(biāo)訓(xùn)練數(shù)據(jù);
48、第一執(zhí)行子單元,用于根據(jù)所述第一音色編碼器、所述第一目標(biāo)訓(xùn)練數(shù)據(jù)的旁白對(duì)話標(biāo)簽以及語(yǔ)音信息,獲得所述第一目標(biāo)訓(xùn)練數(shù)據(jù)的音色嵌入信息;
49、第二執(zhí)行子單元,用于根據(jù)所述初始韻律編碼預(yù)測(cè)器、第一目標(biāo)訓(xùn)練數(shù)據(jù)中的n個(gè)第一訓(xùn)練句子文本以及文本特征,獲得所述第一目標(biāo)訓(xùn)練數(shù)據(jù)中的n個(gè)第一訓(xùn)練句子文本的韻律編碼;
50、第一計(jì)算子單元,用于根據(jù)所述生成器、判別器、所述第一目標(biāo)訓(xùn)練數(shù)據(jù)以及所述第一目標(biāo)訓(xùn)練數(shù)據(jù)中的n個(gè)第一訓(xùn)練句子文本的韻律編碼,獲得所述生成器和判別器的損失函數(shù)值;
51、第一更新子單元,用于利用所述生成器的損失函數(shù)值更新所述生成器中的第一音色編碼器的模型參數(shù)以及所述初始韻律編碼預(yù)測(cè)器的模型參數(shù);并利用判別器的損失函數(shù)值更新判別器的模型參數(shù);
52、第三執(zhí)行子單元,用于在更新后的所述生成器與判別器未滿足預(yù)設(shè)的第一訓(xùn)練完成條件的情況下,返回觸發(fā)第一選取子單元執(zhí)行在訓(xùn)練數(shù)據(jù)集的各個(gè)訓(xùn)練數(shù)據(jù)中選取出當(dāng)前用于訓(xùn)練的第一目標(biāo)訓(xùn)練數(shù)據(jù)的步驟;
53、第一確定子單元,用于在更新后的所述生成器與判別器滿足預(yù)設(shè)的第一訓(xùn)練完成條件的情況下,將更新后的所述生成器中的初始韻律編碼預(yù)測(cè)器,確定為訓(xùn)練好的韻律編碼預(yù)測(cè)器。
54、上述的裝置,可選的,所述第三執(zhí)行單元,包括:
55、第二獲取子單元,用于獲取待訓(xùn)練的初始頻譜預(yù)測(cè)器、第二音色編碼器、韻律編碼提取器以及第二訓(xùn)練數(shù)據(jù)集;所述第二訓(xùn)練數(shù)據(jù)集包括多個(gè)包括第二訓(xùn)練數(shù)據(jù),每個(gè)所述第二訓(xùn)練數(shù)據(jù)包括第二訓(xùn)練句子文本,以及所述第二訓(xùn)練句子文本的韻律特征、文本特征、語(yǔ)音信息、旁白對(duì)話標(biāo)簽以及目標(biāo)信號(hào);所述韻律特征包括時(shí)長(zhǎng)、基頻和能量;
56、第二選取子單元,用于在第二訓(xùn)練數(shù)據(jù)集的各個(gè)第二訓(xùn)練數(shù)據(jù)中選取出當(dāng)前用于訓(xùn)練的第二目標(biāo)訓(xùn)練數(shù)據(jù);
57、第一輸入子單元,用于將所述第二目標(biāo)訓(xùn)練數(shù)據(jù)中的韻律特征輸入到所述韻律編碼提取器中,獲得所述第二目標(biāo)訓(xùn)練數(shù)據(jù)中的第二訓(xùn)練句子文本的韻律編碼;
58、第四執(zhí)行子單元,用于根據(jù)所述第二音色編碼器、所述第二目標(biāo)訓(xùn)練數(shù)據(jù)的旁白對(duì)話標(biāo)簽以及語(yǔ)音信息,獲得所述第二目標(biāo)訓(xùn)練數(shù)據(jù)中的第二訓(xùn)練句子文本的音色嵌入信息;
59、第五執(zhí)行子單元,用于根據(jù)所述初始頻譜預(yù)測(cè)器、所述第二目標(biāo)訓(xùn)練數(shù)據(jù)中的文本特征、韻律特征中的時(shí)長(zhǎng)、第二訓(xùn)練句子文本的韻律編碼以及音色嵌入信息,獲得所述第二目標(biāo)訓(xùn)練數(shù)據(jù)中的第二訓(xùn)練句子文本的語(yǔ)音信號(hào);
60、第二計(jì)算子單元,用于通過(guò)預(yù)設(shè)的第一損失函數(shù)、所述第二目標(biāo)訓(xùn)練數(shù)據(jù)中的第二訓(xùn)練句子文本的語(yǔ)音信號(hào)以及目標(biāo)信號(hào),計(jì)算得到第一損失函數(shù)值;
61、第二更新子單元,用于利用所述第一損失函數(shù)值對(duì)所述初始頻譜預(yù)測(cè)器、所述第二音色編碼器以及韻律編碼提取器的模型參數(shù)進(jìn)行更新;
62、第六執(zhí)行子單元,用于在更新后的所述初始頻譜預(yù)測(cè)器未滿足預(yù)設(shè)的第二訓(xùn)練完成條件的情況下,返回觸發(fā)第二獲取子單元執(zhí)行在第二訓(xùn)練數(shù)據(jù)集的各個(gè)第二訓(xùn)練數(shù)據(jù)中選取出當(dāng)前用于訓(xùn)練的第二目標(biāo)訓(xùn)練數(shù)據(jù)的步驟;
63、第二確定子單元,用于在更新后的所述初始頻譜預(yù)測(cè)器滿足預(yù)設(shè)的第二訓(xùn)練完成條件的情況下,將滿足所述第二訓(xùn)練完成條件的初始頻譜預(yù)測(cè)器,確定為訓(xùn)練好的頻譜預(yù)測(cè)器。
64、上述的裝置,可選的,所述第二執(zhí)行單元,包括:
65、第三獲取子單元,用于獲取待訓(xùn)練的初始時(shí)長(zhǎng)預(yù)測(cè)器、第三音色編碼器以及第三訓(xùn)練數(shù)據(jù)集;所述第三訓(xùn)練數(shù)據(jù)集包括多個(gè)第三訓(xùn)練數(shù)據(jù);每個(gè)所述第三訓(xùn)練數(shù)據(jù)包括n個(gè)第三訓(xùn)練句子文本,以及所述n個(gè)第三訓(xùn)練句子文本的文本特征、旁白對(duì)話標(biāo)簽、語(yǔ)音信息以及目標(biāo)時(shí)長(zhǎng)信息;
66、第三選取子單元,用于在第三訓(xùn)練數(shù)據(jù)集的各個(gè)第三訓(xùn)練數(shù)據(jù)中選取出當(dāng)前用于訓(xùn)練的第三目標(biāo)訓(xùn)練數(shù)據(jù);
67、第七執(zhí)行子單元,用于根據(jù)所述第三音色編碼器、所述第三目標(biāo)訓(xùn)練數(shù)據(jù)的旁白對(duì)話標(biāo)簽以及語(yǔ)音信息,獲得所述第三目標(biāo)訓(xùn)練數(shù)據(jù)中的n個(gè)第三訓(xùn)練句子文本的音色嵌入信息;
68、第八執(zhí)行子單元,用于根據(jù)所述初始時(shí)長(zhǎng)預(yù)測(cè)器、第三目標(biāo)訓(xùn)練數(shù)據(jù)中的n個(gè)第三訓(xùn)練句子文本以及文本特征,獲得所述第三目標(biāo)訓(xùn)練數(shù)據(jù)中的n個(gè)第三訓(xùn)練句子文本的時(shí)長(zhǎng)信息;
69、第三計(jì)算子單元,用于通過(guò)預(yù)設(shè)的第二損失函數(shù)、所述第三目標(biāo)訓(xùn)練數(shù)據(jù)中的n個(gè)第三訓(xùn)練句子文本的時(shí)長(zhǎng)信息以及目標(biāo)時(shí)長(zhǎng)信息,計(jì)算得到第二損失函數(shù)值;
70、第三更新子單元,用于利用所述第二損失函數(shù)值對(duì)所述初始時(shí)長(zhǎng)預(yù)測(cè)器以及所述第三音色編碼器的模型參數(shù)進(jìn)行更新;
71、第九執(zhí)行子單元,用于在更新后的所述初始時(shí)長(zhǎng)預(yù)測(cè)器未滿足預(yù)設(shè)的第三訓(xùn)練完成條件的情況下,返回觸發(fā)第三選取子單元執(zhí)行在第三訓(xùn)練數(shù)據(jù)集的各個(gè)第三訓(xùn)練數(shù)據(jù)中選取出當(dāng)前用于訓(xùn)練的第三目標(biāo)訓(xùn)練數(shù)據(jù)的過(guò)程;
72、第十執(zhí)行子單元,用于在更新后的所述初始時(shí)長(zhǎng)預(yù)測(cè)器滿足預(yù)設(shè)的第三訓(xùn)練完成條件的情況下,將滿足所述第三訓(xùn)練完成條件的初始時(shí)長(zhǎng)預(yù)測(cè)器,作為訓(xùn)練好的時(shí)長(zhǎng)預(yù)測(cè)器。
73、一種電子設(shè)備,包括存儲(chǔ)器,以及一個(gè)或者一個(gè)以上的指令,其中一個(gè)或一個(gè)以上指令存儲(chǔ)于存儲(chǔ)器中,且經(jīng)配置以由一個(gè)或者一個(gè)以上處理器執(zhí)行如上述的語(yǔ)音信號(hào)生成方法。
74、基于上述本技術(shù)實(shí)施提供的一種語(yǔ)音信號(hào)生成方法、裝置及電子設(shè)備,該方法包括:獲取待處理的目標(biāo)文本;所述目標(biāo)文本包括n個(gè)句子文本以及每個(gè)所述句子文本的旁白對(duì)話標(biāo)簽,每個(gè)所述旁白對(duì)話標(biāo)簽用于指示所屬句子文本的類(lèi)型,所述句子文本的類(lèi)型為旁白類(lèi)型和對(duì)話類(lèi)型中的一種;基于預(yù)先訓(xùn)練好的韻律編碼預(yù)測(cè)器、所述目標(biāo)文本、所述目標(biāo)文本的文本特征以及每個(gè)所述句子文本的音色嵌入信息,獲得中心句文本的韻律信息;每個(gè)所述句子文本的音色嵌入信息基于每個(gè)所述句子文本的旁白對(duì)話標(biāo)簽與參考語(yǔ)音生成;所述中心句文本為所述目標(biāo)文本中的第m個(gè)句子文本,其中,1<m<n;基于預(yù)先訓(xùn)練好的時(shí)長(zhǎng)預(yù)測(cè)器、所述目標(biāo)文本、所述目標(biāo)文本的文本特征以及每個(gè)所述句子文本的音色嵌入信息,獲得中心句文本的時(shí)長(zhǎng)信息;基于預(yù)先訓(xùn)練好的頻譜預(yù)測(cè)器、所述中心句文本的文本特征、所述中心句文本的音色嵌入信息、所述中心句文本的時(shí)長(zhǎng)信息以及所述中心句文本的韻律信息,獲得所述中心句文本的語(yǔ)音信號(hào)。應(yīng)用本技術(shù)實(shí)施例提供的方法,能夠提升語(yǔ)音合成的韻律表現(xiàn),并且可以實(shí)現(xiàn)合成多樣化音色的語(yǔ)音。