国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      文本轉(zhuǎn)語(yǔ)音方法、裝置、計(jì)算機(jī)設(shè)備、可讀存儲(chǔ)介質(zhì)和程序產(chǎn)品與流程

      文檔序號(hào):39345959發(fā)布日期:2024-09-10 12:09閱讀:67來(lái)源:國(guó)知局
      文本轉(zhuǎn)語(yǔ)音方法、裝置、計(jì)算機(jī)設(shè)備、可讀存儲(chǔ)介質(zhì)和程序產(chǎn)品與流程

      本申請(qǐng)涉及語(yǔ)音合成,特別是涉及一種文本轉(zhuǎn)語(yǔ)音方法、裝置、計(jì)算機(jī)設(shè)備、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)和計(jì)算機(jī)程序產(chǎn)品。


      背景技術(shù):

      1、通過(guò)深度神經(jīng)網(wǎng)絡(luò),可以實(shí)現(xiàn)文本到聲學(xué)特征,聲學(xué)特征到語(yǔ)音信號(hào)的轉(zhuǎn)換。

      2、現(xiàn)有的語(yǔ)音合成系統(tǒng)主要是通過(guò)音素體系構(gòu)建發(fā)音單元,實(shí)現(xiàn)文本到語(yǔ)音信號(hào)的轉(zhuǎn)換。然而,不同語(yǔ)種的音素是完全不一樣的,而且一些偏小的語(yǔ)種或者方言的音素體系可能也不是很完善,對(duì)不同語(yǔ)種建模的難度較高,導(dǎo)致文本生成的語(yǔ)音存在準(zhǔn)確率較低的情況。


      技術(shù)實(shí)現(xiàn)思路

      1、基于此,有必要針對(duì)上述技術(shù)問(wèn)題,提供一種文本轉(zhuǎn)語(yǔ)音方法、裝置、計(jì)算機(jī)設(shè)備、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)和計(jì)算機(jī)程序產(chǎn)品。

      2、第一方面,本申請(qǐng)?zhí)峁┝艘环N文本轉(zhuǎn)語(yǔ)音方法,包括:

      3、根據(jù)目標(biāo)文本,得到語(yǔ)義聲牌;

      4、將所述語(yǔ)義聲牌轉(zhuǎn)換為語(yǔ)音聲牌;

      5、將所述語(yǔ)義聲牌、所述語(yǔ)音聲牌和參考音頻輸入預(yù)先構(gòu)建的解碼器,得到解碼結(jié)果;

      6、根據(jù)所述解碼結(jié)果,得到與所述目標(biāo)文本對(duì)應(yīng)的目標(biāo)音頻。

      7、在其中一個(gè)實(shí)施例中,所述根據(jù)目標(biāo)文本,得到語(yǔ)義聲牌,包括:

      8、根據(jù)目標(biāo)文本和第一文本轉(zhuǎn)語(yǔ)義模型,得到第一語(yǔ)義聲牌;

      9、根據(jù)目標(biāo)文本和第二文本轉(zhuǎn)語(yǔ)義模型,得到第二語(yǔ)義聲牌;

      10、根據(jù)所述第一語(yǔ)義聲牌和所述第二語(yǔ)義聲牌,得到語(yǔ)義聲牌。

      11、在其中一個(gè)實(shí)施例中,所述根據(jù)所述第一語(yǔ)義聲牌和所述第二語(yǔ)義聲牌,得到語(yǔ)義聲牌,包括:

      12、獲取所述第一語(yǔ)義聲牌的第一置信度;

      13、獲取所述第二語(yǔ)義聲牌的第二置信度;

      14、根據(jù)所述第一置信度和所述第二置信度各自與置信度閾值的相對(duì)大小,在所述第一語(yǔ)義聲牌和所述第二語(yǔ)義聲牌中確定語(yǔ)義聲牌。

      15、在其中一個(gè)實(shí)施例中,根據(jù)所述第一置信度和所述第二置信度各自與置信度閾值的相對(duì)大小,在所述第一語(yǔ)義聲牌和所述第二語(yǔ)義聲牌中確定語(yǔ)義聲牌,包括:

      16、當(dāng)所述第一置信度大于置信度閾值且所述第二置信度小于置信度閾值時(shí),將所述第一語(yǔ)義聲牌作為語(yǔ)義聲牌;

      17、當(dāng)所述第一置信度小于置信度閾值且所述第二置信度大于置信度閾值時(shí),將所述第二語(yǔ)義聲牌作為語(yǔ)義聲牌;

      18、當(dāng)所述第一置信度大于置信度閾值且所述第二置信度大于置信度閾值時(shí),對(duì)所述第一語(yǔ)義聲牌和所述第二語(yǔ)義聲牌進(jìn)行加權(quán)求和,得到語(yǔ)義聲牌;

      19、當(dāng)所述第一置信度小于置信度閾值且所述第二置信度小于置信度閾值時(shí),對(duì)所述第一語(yǔ)義聲牌和所述第二語(yǔ)義聲牌進(jìn)行加權(quán)求和,得到語(yǔ)義聲牌。

      20、在其中一個(gè)實(shí)施例中,所述將所述語(yǔ)義聲牌轉(zhuǎn)換為語(yǔ)音聲牌,包括:

      21、根據(jù)所述語(yǔ)義聲牌和目標(biāo)語(yǔ)言模型,得到待優(yōu)化語(yǔ)音聲牌;

      22、將所述待優(yōu)化語(yǔ)音聲牌輸入具有注意力機(jī)制的聲牌優(yōu)化模型中;

      23、根據(jù)所述聲牌優(yōu)化模型的輸出結(jié)果,得到語(yǔ)音聲牌。

      24、在其中一個(gè)實(shí)施例中,在將所述語(yǔ)義聲牌、所述語(yǔ)音聲牌和參考音頻輸入預(yù)先構(gòu)建的解碼器之前,所述方法還包括:

      25、根據(jù)梅爾頻譜和訓(xùn)練音頻,得到訓(xùn)練語(yǔ)音聲牌;

      26、根據(jù)訓(xùn)練文本,得到訓(xùn)練語(yǔ)義聲牌;

      27、根據(jù)所述訓(xùn)練語(yǔ)音聲牌、所述訓(xùn)練語(yǔ)義聲牌和訓(xùn)練參考音頻進(jìn)行訓(xùn)練,得到預(yù)先構(gòu)建的解碼器。

      28、第二方面,本申請(qǐng)還提供了一種文本轉(zhuǎn)語(yǔ)音裝置,包括:

      29、語(yǔ)義聲牌獲取模塊,用于根據(jù)目標(biāo)文本,得到語(yǔ)義聲牌;

      30、語(yǔ)音聲牌獲取模塊,用于將所述語(yǔ)義聲牌轉(zhuǎn)換為語(yǔ)音聲牌;

      31、解碼結(jié)果獲取模塊,用于將所述語(yǔ)義聲牌、所述語(yǔ)音聲牌和參考音頻輸入預(yù)先構(gòu)建的解碼器,得到解碼結(jié)果;

      32、目標(biāo)音頻獲取模塊,用于根據(jù)所述解碼結(jié)果,得到與所述目標(biāo)文本對(duì)應(yīng)的目標(biāo)音頻。

      33、第三方面,本申請(qǐng)還提供了一種計(jì)算機(jī)設(shè)備。所述計(jì)算機(jī)設(shè)備包括存儲(chǔ)器和處理器,所述存儲(chǔ)器存儲(chǔ)有計(jì)算機(jī)程序,所述處理器執(zhí)行上述方法。

      34、第四方面,本申請(qǐng)還提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行上述方法。

      35、第五方面,本申請(qǐng)還提供了一種計(jì)算機(jī)程序產(chǎn)品。所述計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,該計(jì)算機(jī)程序被處理器執(zhí)行上述方法。

      36、上述文本轉(zhuǎn)語(yǔ)音方法、裝置、計(jì)算機(jī)設(shè)備、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)和計(jì)算機(jī)程序產(chǎn)品,根據(jù)目標(biāo)文本,得到語(yǔ)義聲牌;將語(yǔ)義聲牌轉(zhuǎn)換為語(yǔ)音聲牌;將語(yǔ)義聲牌、語(yǔ)音聲牌和參考音頻輸入預(yù)先構(gòu)建的解碼器,得到解碼結(jié)果;根據(jù)解碼結(jié)果,得到與目標(biāo)文本對(duì)應(yīng)的目標(biāo)音頻。本申請(qǐng)未采用原有的音素體系,而是采用聲牌,對(duì)目標(biāo)文本得到的語(yǔ)義聲牌進(jìn)行轉(zhuǎn)換,得到語(yǔ)音聲牌,根據(jù)語(yǔ)義聲牌、語(yǔ)音聲牌和參考音頻,得到與目標(biāo)文本對(duì)應(yīng)的目標(biāo)音頻,降低不同語(yǔ)種建模的難度,提高文本轉(zhuǎn)語(yǔ)音的準(zhǔn)確率。



      技術(shù)特征:

      1.一種文本轉(zhuǎn)語(yǔ)音方法,其特征在于,所述方法包括:

      2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)目標(biāo)文本,得到語(yǔ)義聲牌,包括:

      3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述根據(jù)所述第一語(yǔ)義聲牌和所述第二語(yǔ)義聲牌,得到語(yǔ)義聲牌,包括:

      4.根據(jù)權(quán)利要求3所述的方法,其特征在于,根據(jù)所述第一置信度和所述第二置信度各自與置信度閾值的相對(duì)大小,在所述第一語(yǔ)義聲牌和所述第二語(yǔ)義聲牌中確定語(yǔ)義聲牌,包括:

      5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述將所述語(yǔ)義聲牌轉(zhuǎn)換為語(yǔ)音聲牌,包括:

      6.根據(jù)權(quán)利要求1所述的方法,其特征在于,在將所述語(yǔ)義聲牌、所述語(yǔ)音聲牌和參考音頻輸入預(yù)先構(gòu)建的解碼器之前,所述方法還包括:

      7.一種文本轉(zhuǎn)語(yǔ)音裝置,其特征在于,所述裝置包括:

      8.一種計(jì)算機(jī)設(shè)備,包括存儲(chǔ)器和處理器,所述存儲(chǔ)器存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)權(quán)利要求1至6中任一項(xiàng)所述的方法的步驟。

      9.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1至6中任一項(xiàng)所述的方法的步驟。

      10.一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1至6中任一項(xiàng)所述的方法的步驟。


      技術(shù)總結(jié)
      本申請(qǐng)涉及一種文本轉(zhuǎn)語(yǔ)音方法、裝置、計(jì)算機(jī)設(shè)備、可讀存儲(chǔ)介質(zhì)和程序產(chǎn)品。本方法包括:根據(jù)目標(biāo)文本,得到語(yǔ)義聲牌;將語(yǔ)義聲牌轉(zhuǎn)換為語(yǔ)音聲牌;將語(yǔ)義聲牌、語(yǔ)音聲牌和參考音頻輸入預(yù)先構(gòu)建的解碼器,得到解碼結(jié)果;根據(jù)解碼結(jié)果,得到與目標(biāo)文本對(duì)應(yīng)的目標(biāo)音頻。采用本方法能夠降低不同語(yǔ)種建模的難度,提高文本轉(zhuǎn)語(yǔ)音的準(zhǔn)確率。

      技術(shù)研發(fā)人員:周陽(yáng),馬金龍,熊佳,王偉喆,馬飛,徐志堅(jiān),謝睿,陳光堯
      受保護(hù)的技術(shù)使用者:廣州趣研網(wǎng)絡(luò)科技有限公司
      技術(shù)研發(fā)日:
      技術(shù)公布日:2024/9/9
      網(wǎng)友詢問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1