用于語音合成的方法、裝置、設(shè)備和可讀介質(zhì)與流程

文檔序號(hào)：39620585發(fā)布日期：2024-10-11 13:38閱讀：66來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本公開的示例實(shí)施例總體涉及計(jì)算機(jī)，并且更具體地，涉及用于語音合成的方法、裝置、設(shè)備和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。

背景技術(shù)：

1、隨著機(jī)器學(xué)習(xí)技術(shù)的進(jìn)步，語音合成技術(shù)也得到了快速發(fā)展。語音合成技術(shù)是一種基于文語轉(zhuǎn)換(text?to?speech，tts)模型將任意文字信息轉(zhuǎn)換為語音信息的技術(shù)。tts模型能夠?qū)B續(xù)的聲學(xué)特征進(jìn)行聲學(xué)建模，并基于建立的聲學(xué)模型確定與文本信息對(duì)應(yīng)的聲學(xué)特征，以輸出聲音信息。但目前的語音合成技術(shù)仍然存在一些問題，導(dǎo)致輸出的語音信息的質(zhì)量受到影響，降低用戶的使用體驗(yàn)。

技術(shù)實(shí)現(xiàn)思路

1、在本公開的第一方面，提供一種用于語音合成的方法。該方法包括：利用預(yù)測(cè)器模型對(duì)目標(biāo)文本對(duì)應(yīng)的音素嵌入序列執(zhí)行音素預(yù)測(cè)，以獲取預(yù)測(cè)音素序列；基于語音生成任務(wù)的類型來確定對(duì)參考音頻的量化聲學(xué)特征的遮蔽處理，以獲取遮蔽聲學(xué)特征；利用編碼器模型，對(duì)遮蔽聲學(xué)特征執(zhí)行編碼操作，以獲取遮蔽特征碼；利用解碼器模型，基于所述遮蔽特征碼和所述預(yù)測(cè)音素序列執(zhí)行解碼操作，以獲取第一預(yù)測(cè)特征碼；以及至少基于所述第一預(yù)測(cè)特征碼生成所述目標(biāo)文本對(duì)應(yīng)的語音波形。

2、在本公開的第二方面，提供一種用于語音合成的裝置。該裝置包括獲取模塊，被配置為利用預(yù)測(cè)器模型對(duì)目標(biāo)文本對(duì)應(yīng)的音素嵌入序列執(zhí)行音素預(yù)測(cè)，以獲取預(yù)測(cè)音素序列；遮蔽模塊，被配置為基于語音生成任務(wù)的類型來確定對(duì)參考音頻的量化聲學(xué)特征的遮蔽處理，以獲取遮蔽聲學(xué)特征；編碼模塊，被配置為利用編碼器模型，對(duì)遮蔽聲學(xué)特征執(zhí)行編碼操作，以獲取遮蔽特征碼；解碼模塊，被配置為利用解碼器模型，基于所述遮蔽特征碼和所述預(yù)測(cè)音素序列執(zhí)行解碼操作，以獲取第一預(yù)測(cè)特征碼；以及生成模塊，被配置為至少基于所述第一預(yù)測(cè)特征碼生成所述目標(biāo)文本對(duì)應(yīng)的語音波形。

3、在本公開的第三方面，提供了一種電子設(shè)備。該電子設(shè)備包括至少一個(gè)處理單元；以及至少一個(gè)存儲(chǔ)器，至少一個(gè)存儲(chǔ)器被耦合到至少一個(gè)處理單元并且存儲(chǔ)用于由至少一個(gè)處理單元執(zhí)行的指令，指令在由至少一個(gè)處理單元執(zhí)行時(shí)使電子設(shè)備執(zhí)行本公開第一方面的方法。

4、在本公開的第四方面，提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。該計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上存儲(chǔ)有計(jì)算機(jī)程序，其可由處理器執(zhí)行以執(zhí)行根據(jù)本公開的第一方面的方法。

5、應(yīng)當(dāng)理解，
技術(shù)實(shí)現(xiàn)要素：
部分中所描述的內(nèi)容并非旨在限定本公開的實(shí)施例的關(guān)鍵特征或重要特征，也不用于限制本公開的范圍。本公開的其它特征將通過以下的描述而變得容易理解。

技術(shù)特征：

1.一種用于語音合成方法，包括：

2.根據(jù)權(quán)利要求1所述的方法，其中獲取所述參考音頻的量化聲學(xué)特征包括：

3.根據(jù)權(quán)利要求2所述的方法，還包括：利用基于殘差向量化的卷積網(wǎng)絡(luò)對(duì)所述參考音頻執(zhí)行量化之后，

4.根據(jù)權(quán)利要求3所述的方法，其中至少基于所述第一預(yù)測(cè)特征碼生成所述目標(biāo)文本對(duì)應(yīng)的語音波形包括：

5.根據(jù)權(quán)利要求1所述的方法，其中獲取所述目標(biāo)文本對(duì)應(yīng)的音素嵌入序列包括：

6.根據(jù)權(quán)利要求1所述的方法，其中所述語音生成任務(wù)的類型指示語音克隆任務(wù)或語音編輯任務(wù)，并且

7.根據(jù)權(quán)利要求1所述的方法，還包括：在利用所述預(yù)測(cè)器模型對(duì)所述目標(biāo)文本對(duì)應(yīng)的所述音素嵌入序列執(zhí)行音素預(yù)測(cè)之前，

8.根據(jù)權(quán)利要求1至7任一項(xiàng)所述的方法，其中利用所述預(yù)測(cè)器模型對(duì)所述目標(biāo)文本對(duì)應(yīng)的所述音素嵌入序列執(zhí)行音素預(yù)測(cè)包括：

9.根據(jù)權(quán)利要求8所述的方法，其中基于所述預(yù)測(cè)基頻信息、所述預(yù)測(cè)時(shí)長信息和所述預(yù)測(cè)能量信息，確定幀級(jí)別的所述預(yù)測(cè)音素序列包括：

10.根據(jù)權(quán)利要求1所述的方法，其中基于所述遮蔽特征碼和所述預(yù)測(cè)音素序列執(zhí)行解碼操作包括：

11.根據(jù)權(quán)利要求1所述的方法，其中所述語音生成任務(wù)的類型指示語音克隆任務(wù)或語音編輯任務(wù)，并且所述預(yù)測(cè)器模型、所述編碼器模型、所述解碼器模型是通過如下方式訓(xùn)練的：

12.一種用于語音合成的裝置，包括：

13.一種電子設(shè)備，包括：

14.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其上存儲(chǔ)有計(jì)算機(jī)程序，所述計(jì)算機(jī)程序可由處理器執(zhí)行以實(shí)現(xiàn)根據(jù)權(quán)利要求1至11任一項(xiàng)所述的方法。

技術(shù)總結(jié)
本公開的實(shí)施例提供了一種用于語音合成的方法、裝置、設(shè)備和可讀介質(zhì)。根據(jù)本公開的實(shí)施例，利用預(yù)測(cè)器模型對(duì)目標(biāo)文本對(duì)應(yīng)的音素嵌入序列執(zhí)行音素預(yù)測(cè)，以獲取預(yù)測(cè)音素序列?；谡Z音生成任務(wù)的類型來確定對(duì)參考音頻的量化聲學(xué)特征的遮蔽處理，以獲取遮蔽聲學(xué)特征。利用編碼器模型，對(duì)遮蔽聲學(xué)特征執(zhí)行編碼操作，以獲取遮蔽特征碼。利用解碼器模型，基于遮蔽特征碼和預(yù)測(cè)音素序列執(zhí)行解碼操作，以獲取第一預(yù)測(cè)特征碼。至少基于第一預(yù)測(cè)特征碼生成目標(biāo)文本對(duì)應(yīng)的語音波形。以此方式，實(shí)現(xiàn)零樣本語音合成。同時(shí)使模型能夠同時(shí)實(shí)現(xiàn)語音克隆和語音編輯任務(wù)。

技術(shù)研發(fā)人員：張雅潔,宋偉,吳友政,何曉冬
受保護(hù)的技術(shù)使用者：京東城市（北京）數(shù)字科技有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2024/10/10

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：張雅潔,宋偉,吳友政,何曉冬
技術(shù)所有人：京東城市（北京）數(shù)字科技有限公司
我是此專利的發(fā)明人

上一篇：基于電子羅盤的移動(dòng)機(jī)器人導(dǎo)航定位系統(tǒng)及方法與流程
上一篇：一種研磨裝置的制作方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

用于語音合成的方法、裝置、設(shè)備和可讀介質(zhì)與流程

用于語音合成的方法、裝置、設(shè)備和可讀介質(zhì)與流程