国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      用于語音合成的方法、裝置、設(shè)備和可讀介質(zhì)與流程

      文檔序號(hào):39620585發(fā)布日期:2024-10-11 13:38閱讀:66來源:國知局
      用于語音合成的方法、裝置、設(shè)備和可讀介質(zhì)與流程

      本公開的示例實(shí)施例總體涉及計(jì)算機(jī),并且更具體地,涉及用于語音合成的方法、裝置、設(shè)備和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。


      背景技術(shù):

      1、隨著機(jī)器學(xué)習(xí)技術(shù)的進(jìn)步,語音合成技術(shù)也得到了快速發(fā)展。語音合成技術(shù)是一種基于文語轉(zhuǎn)換(text?to?speech,tts)模型將任意文字信息轉(zhuǎn)換為語音信息的技術(shù)。tts模型能夠?qū)B續(xù)的聲學(xué)特征進(jìn)行聲學(xué)建模,并基于建立的聲學(xué)模型確定與文本信息對(duì)應(yīng)的聲學(xué)特征,以輸出聲音信息。但目前的語音合成技術(shù)仍然存在一些問題,導(dǎo)致輸出的語音信息的質(zhì)量受到影響,降低用戶的使用體驗(yàn)。


      技術(shù)實(shí)現(xiàn)思路

      1、在本公開的第一方面,提供一種用于語音合成的方法。該方法包括:利用預(yù)測(cè)器模型對(duì)目標(biāo)文本對(duì)應(yīng)的音素嵌入序列執(zhí)行音素預(yù)測(cè),以獲取預(yù)測(cè)音素序列;基于語音生成任務(wù)的類型來確定對(duì)參考音頻的量化聲學(xué)特征的遮蔽處理,以獲取遮蔽聲學(xué)特征;利用編碼器模型,對(duì)遮蔽聲學(xué)特征執(zhí)行編碼操作,以獲取遮蔽特征碼;利用解碼器模型,基于所述遮蔽特征碼和所述預(yù)測(cè)音素序列執(zhí)行解碼操作,以獲取第一預(yù)測(cè)特征碼;以及至少基于所述第一預(yù)測(cè)特征碼生成所述目標(biāo)文本對(duì)應(yīng)的語音波形。

      2、在本公開的第二方面,提供一種用于語音合成的裝置。該裝置包括獲取模塊,被配置為利用預(yù)測(cè)器模型對(duì)目標(biāo)文本對(duì)應(yīng)的音素嵌入序列執(zhí)行音素預(yù)測(cè),以獲取預(yù)測(cè)音素序列;遮蔽模塊,被配置為基于語音生成任務(wù)的類型來確定對(duì)參考音頻的量化聲學(xué)特征的遮蔽處理,以獲取遮蔽聲學(xué)特征;編碼模塊,被配置為利用編碼器模型,對(duì)遮蔽聲學(xué)特征執(zhí)行編碼操作,以獲取遮蔽特征碼;解碼模塊,被配置為利用解碼器模型,基于所述遮蔽特征碼和所述預(yù)測(cè)音素序列執(zhí)行解碼操作,以獲取第一預(yù)測(cè)特征碼;以及生成模塊,被配置為至少基于所述第一預(yù)測(cè)特征碼生成所述目標(biāo)文本對(duì)應(yīng)的語音波形。

      3、在本公開的第三方面,提供了一種電子設(shè)備。該電子設(shè)備包括至少一個(gè)處理單元;以及至少一個(gè)存儲(chǔ)器,至少一個(gè)存儲(chǔ)器被耦合到至少一個(gè)處理單元并且存儲(chǔ)用于由至少一個(gè)處理單元執(zhí)行的指令,指令在由至少一個(gè)處理單元執(zhí)行時(shí)使電子設(shè)備執(zhí)行本公開第一方面的方法。

      4、在本公開的第四方面,提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。該計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上存儲(chǔ)有計(jì)算機(jī)程序,其可由處理器執(zhí)行以執(zhí)行根據(jù)本公開的第一方面的方法。

      5、應(yīng)當(dāng)理解,
      技術(shù)實(shí)現(xiàn)要素:
      部分中所描述的內(nèi)容并非旨在限定本公開的實(shí)施例的關(guān)鍵特征或重要特征,也不用于限制本公開的范圍。本公開的其它特征將通過以下的描述而變得容易理解。



      技術(shù)特征:

      1.一種用于語音合成方法,包括:

      2.根據(jù)權(quán)利要求1所述的方法,其中獲取所述參考音頻的量化聲學(xué)特征包括:

      3.根據(jù)權(quán)利要求2所述的方法,還包括:利用基于殘差向量化的卷積網(wǎng)絡(luò)對(duì)所述參考音頻執(zhí)行量化之后,

      4.根據(jù)權(quán)利要求3所述的方法,其中至少基于所述第一預(yù)測(cè)特征碼生成所述目標(biāo)文本對(duì)應(yīng)的語音波形包括:

      5.根據(jù)權(quán)利要求1所述的方法,其中獲取所述目標(biāo)文本對(duì)應(yīng)的音素嵌入序列包括:

      6.根據(jù)權(quán)利要求1所述的方法,其中所述語音生成任務(wù)的類型指示語音克隆任務(wù)或語音編輯任務(wù),并且

      7.根據(jù)權(quán)利要求1所述的方法,還包括:在利用所述預(yù)測(cè)器模型對(duì)所述目標(biāo)文本對(duì)應(yīng)的所述音素嵌入序列執(zhí)行音素預(yù)測(cè)之前,

      8.根據(jù)權(quán)利要求1至7任一項(xiàng)所述的方法,其中利用所述預(yù)測(cè)器模型對(duì)所述目標(biāo)文本對(duì)應(yīng)的所述音素嵌入序列執(zhí)行音素預(yù)測(cè)包括:

      9.根據(jù)權(quán)利要求8所述的方法,其中基于所述預(yù)測(cè)基頻信息、所述預(yù)測(cè)時(shí)長信息和所述預(yù)測(cè)能量信息,確定幀級(jí)別的所述預(yù)測(cè)音素序列包括:

      10.根據(jù)權(quán)利要求1所述的方法,其中基于所述遮蔽特征碼和所述預(yù)測(cè)音素序列執(zhí)行解碼操作包括:

      11.根據(jù)權(quán)利要求1所述的方法,其中所述語音生成任務(wù)的類型指示語音克隆任務(wù)或語音編輯任務(wù),并且所述預(yù)測(cè)器模型、所述編碼器模型、所述解碼器模型是通過如下方式訓(xùn)練的:

      12.一種用于語音合成的裝置,包括:

      13.一種電子設(shè)備,包括:

      14.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序可由處理器執(zhí)行以實(shí)現(xiàn)根據(jù)權(quán)利要求1至11任一項(xiàng)所述的方法。


      技術(shù)總結(jié)
      本公開的實(shí)施例提供了一種用于語音合成的方法、裝置、設(shè)備和可讀介質(zhì)。根據(jù)本公開的實(shí)施例,利用預(yù)測(cè)器模型對(duì)目標(biāo)文本對(duì)應(yīng)的音素嵌入序列執(zhí)行音素預(yù)測(cè),以獲取預(yù)測(cè)音素序列?;谡Z音生成任務(wù)的類型來確定對(duì)參考音頻的量化聲學(xué)特征的遮蔽處理,以獲取遮蔽聲學(xué)特征。利用編碼器模型,對(duì)遮蔽聲學(xué)特征執(zhí)行編碼操作,以獲取遮蔽特征碼。利用解碼器模型,基于遮蔽特征碼和預(yù)測(cè)音素序列執(zhí)行解碼操作,以獲取第一預(yù)測(cè)特征碼。至少基于第一預(yù)測(cè)特征碼生成目標(biāo)文本對(duì)應(yīng)的語音波形。以此方式,實(shí)現(xiàn)零樣本語音合成。同時(shí)使模型能夠同時(shí)實(shí)現(xiàn)語音克隆和語音編輯任務(wù)。

      技術(shù)研發(fā)人員:張雅潔,宋偉,吳友政,何曉冬
      受保護(hù)的技術(shù)使用者:京東城市(北京)數(shù)字科技有限公司
      技術(shù)研發(fā)日:
      技術(shù)公布日:2024/10/10
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1