本公開的示例實(shí)施例總體涉及計(jì)算機(jī),并且更具體地,涉及用于語音合成的方法、裝置、設(shè)備和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。
背景技術(shù):
1、隨著機(jī)器學(xué)習(xí)技術(shù)的進(jìn)步,語音合成技術(shù)也得到了快速發(fā)展。語音合成技術(shù)是一種基于文語轉(zhuǎn)換(text?to?speech,tts)模型將任意文字信息轉(zhuǎn)換為語音信息的技術(shù)。tts模型能夠?qū)B續(xù)的聲學(xué)特征進(jìn)行聲學(xué)建模,并基于建立的聲學(xué)模型確定與文本信息對(duì)應(yīng)的聲學(xué)特征,以輸出聲音信息。但目前的語音合成技術(shù)仍然存在一些問題,導(dǎo)致輸出的語音信息的質(zhì)量受到影響,降低用戶的使用體驗(yàn)。
技術(shù)實(shí)現(xiàn)思路
1、在本公開的第一方面,提供一種用于語音合成的方法。該方法包括:利用預(yù)測(cè)器模型對(duì)目標(biāo)文本對(duì)應(yīng)的音素嵌入序列執(zhí)行音素預(yù)測(cè),以獲取預(yù)測(cè)音素序列;基于語音生成任務(wù)的類型來確定對(duì)參考音頻的量化聲學(xué)特征的遮蔽處理,以獲取遮蔽聲學(xué)特征;利用編碼器模型,對(duì)遮蔽聲學(xué)特征執(zhí)行編碼操作,以獲取遮蔽特征碼;利用解碼器模型,基于所述遮蔽特征碼和所述預(yù)測(cè)音素序列執(zhí)行解碼操作,以獲取第一預(yù)測(cè)特征碼;以及至少基于所述第一預(yù)測(cè)特征碼生成所述目標(biāo)文本對(duì)應(yīng)的語音波形。
2、在本公開的第二方面,提供一種用于語音合成的裝置。該裝置包括獲取模塊,被配置為利用預(yù)測(cè)器模型對(duì)目標(biāo)文本對(duì)應(yīng)的音素嵌入序列執(zhí)行音素預(yù)測(cè),以獲取預(yù)測(cè)音素序列;遮蔽模塊,被配置為基于語音生成任務(wù)的類型來確定對(duì)參考音頻的量化聲學(xué)特征的遮蔽處理,以獲取遮蔽聲學(xué)特征;編碼模塊,被配置為利用編碼器模型,對(duì)遮蔽聲學(xué)特征執(zhí)行編碼操作,以獲取遮蔽特征碼;解碼模塊,被配置為利用解碼器模型,基于所述遮蔽特征碼和所述預(yù)測(cè)音素序列執(zhí)行解碼操作,以獲取第一預(yù)測(cè)特征碼;以及生成模塊,被配置為至少基于所述第一預(yù)測(cè)特征碼生成所述目標(biāo)文本對(duì)應(yīng)的語音波形。
3、在本公開的第三方面,提供了一種電子設(shè)備。該電子設(shè)備包括至少一個(gè)處理單元;以及至少一個(gè)存儲(chǔ)器,至少一個(gè)存儲(chǔ)器被耦合到至少一個(gè)處理單元并且存儲(chǔ)用于由至少一個(gè)處理單元執(zhí)行的指令,指令在由至少一個(gè)處理單元執(zhí)行時(shí)使電子設(shè)備執(zhí)行本公開第一方面的方法。
4、在本公開的第四方面,提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。該計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上存儲(chǔ)有計(jì)算機(jī)程序,其可由處理器執(zhí)行以執(zhí)行根據(jù)本公開的第一方面的方法。
5、應(yīng)當(dāng)理解,
技術(shù)實(shí)現(xiàn)要素:
部分中所描述的內(nèi)容并非旨在限定本公開的實(shí)施例的關(guān)鍵特征或重要特征,也不用于限制本公開的范圍。本公開的其它特征將通過以下的描述而變得容易理解。
1.一種用于語音合成方法,包括:
2.根據(jù)權(quán)利要求1所述的方法,其中獲取所述參考音頻的量化聲學(xué)特征包括:
3.根據(jù)權(quán)利要求2所述的方法,還包括:利用基于殘差向量化的卷積網(wǎng)絡(luò)對(duì)所述參考音頻執(zhí)行量化之后,
4.根據(jù)權(quán)利要求3所述的方法,其中至少基于所述第一預(yù)測(cè)特征碼生成所述目標(biāo)文本對(duì)應(yīng)的語音波形包括:
5.根據(jù)權(quán)利要求1所述的方法,其中獲取所述目標(biāo)文本對(duì)應(yīng)的音素嵌入序列包括:
6.根據(jù)權(quán)利要求1所述的方法,其中所述語音生成任務(wù)的類型指示語音克隆任務(wù)或語音編輯任務(wù),并且
7.根據(jù)權(quán)利要求1所述的方法,還包括:在利用所述預(yù)測(cè)器模型對(duì)所述目標(biāo)文本對(duì)應(yīng)的所述音素嵌入序列執(zhí)行音素預(yù)測(cè)之前,
8.根據(jù)權(quán)利要求1至7任一項(xiàng)所述的方法,其中利用所述預(yù)測(cè)器模型對(duì)所述目標(biāo)文本對(duì)應(yīng)的所述音素嵌入序列執(zhí)行音素預(yù)測(cè)包括:
9.根據(jù)權(quán)利要求8所述的方法,其中基于所述預(yù)測(cè)基頻信息、所述預(yù)測(cè)時(shí)長信息和所述預(yù)測(cè)能量信息,確定幀級(jí)別的所述預(yù)測(cè)音素序列包括:
10.根據(jù)權(quán)利要求1所述的方法,其中基于所述遮蔽特征碼和所述預(yù)測(cè)音素序列執(zhí)行解碼操作包括:
11.根據(jù)權(quán)利要求1所述的方法,其中所述語音生成任務(wù)的類型指示語音克隆任務(wù)或語音編輯任務(wù),并且所述預(yù)測(cè)器模型、所述編碼器模型、所述解碼器模型是通過如下方式訓(xùn)練的:
12.一種用于語音合成的裝置,包括:
13.一種電子設(shè)備,包括:
14.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序可由處理器執(zhí)行以實(shí)現(xiàn)根據(jù)權(quán)利要求1至11任一項(xiàng)所述的方法。