国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      文本轉(zhuǎn)語音方法及裝置與流程

      文檔序號:40279291發(fā)布日期:2024-12-11 13:16閱讀:27來源:國知局
      文本轉(zhuǎn)語音方法及裝置與流程

      本公開涉及智能家居和智慧家庭的,例如涉及一種文本轉(zhuǎn)語音方法及裝置。


      背景技術(shù):

      1、文本轉(zhuǎn)語音(text-to-speech,tts)模型可以將輸入的文本轉(zhuǎn)換為自然流暢的人類語音,在智能家居、語音助手、車載系統(tǒng)等領(lǐng)域得到了廣泛應(yīng)用??梢岳斫獾氖牵谋巨D(zhuǎn)語音模型需要基于語料庫進(jìn)行訓(xùn)練后,才可以具備轉(zhuǎn)換語音的能力。

      2、在相關(guān)技術(shù)中,為了提高文本轉(zhuǎn)語音模型的輸出結(jié)果的準(zhǔn)確性,語料庫的數(shù)據(jù)量通常較大。然而,使用數(shù)據(jù)量大的語料庫對文本轉(zhuǎn)語音模型進(jìn)行訓(xùn)練,需要使用較多的計算資源且需要耗費(fèi)較長的時間,導(dǎo)致模型訓(xùn)練成本較高。因此,相關(guān)技術(shù)存在無法同時兼顧文本轉(zhuǎn)語音模型較高的準(zhǔn)確性和降低模型訓(xùn)練成本這兩方面的需求。

      3、需要說明的是,在上述背景技術(shù)部分公開的信息僅用于加強(qiáng)對本公開的背景的理解,因此可以包括不構(gòu)成對本領(lǐng)域普通技術(shù)人員已知的現(xiàn)有技術(shù)的信息。


      技術(shù)實(shí)現(xiàn)思路

      1、為了對披露的實(shí)施例的一些方面有基本的理解,下面給出了簡單的概括。所述概括不是泛泛評述,也不是要確定關(guān)鍵/重要組成元素或描繪這些實(shí)施例的保護(hù)范圍,而是作為后面的詳細(xì)說明的序言。

      2、本公開實(shí)施例提供了一種文本轉(zhuǎn)語音方法及裝置,可以兼顧文本轉(zhuǎn)語音模型較高的準(zhǔn)確性和降低模型訓(xùn)練成本這兩方面的需求。

      3、根據(jù)本公開的第一方面,提供了一種文本轉(zhuǎn)語音方法,包括:

      4、獲取語料庫中的每個單位對象的重要程度值,其中,單位對象包括音素和功能詞;

      5、基于每個單位對象的重要程度值對語料庫進(jìn)行壓縮,基于壓縮后的語料庫對文本轉(zhuǎn)語音模型進(jìn)行訓(xùn)練,其中,文本轉(zhuǎn)語音模型為非自回歸模型;

      6、將待轉(zhuǎn)換的目標(biāo)文本輸入到訓(xùn)練好的文本轉(zhuǎn)語音模型,利用文本轉(zhuǎn)語音模型輸出相應(yīng)的語音。

      7、在一些實(shí)施例中,獲取語料庫中的每個單位對象的重要程度值,包括:

      8、獲取語料庫中的每個單位對象的頻率比重,其中,每個單位對象的頻率比重與該單位對象的出現(xiàn)次數(shù)成正相關(guān);

      9、基于各單位對象的頻率比重,確定出每個單位對象的重要程度值。

      10、每個單位對象的頻率比重,是該單位對象的出現(xiàn)次數(shù)與語料庫中所有單位對象的出現(xiàn)次數(shù)總和的比值。

      11、在一些實(shí)施例中,基于各單位對象的頻率比重,確定出每個單位對象的重要程度值,包括:

      12、在各單位對象的頻率比重中,確定出最大頻率比重和最小頻率比重;

      13、計算最大頻率比重與最小頻率比重的第一差值,以及每個單位對象的頻率比重與最小頻率比重的第二差值;

      14、將每個單位對象對應(yīng)的第二差值與第一差值的比值,作為該單位對象的重要程度值。

      15、在一些實(shí)施例中,將每個單位對象對應(yīng)的第二差值與第一差值的比值,作為該單位對象的重要程度值,包括:

      16、計算每個單位對象對應(yīng)的第二差值與第一差值的第一比值;

      17、將每個單位對象對應(yīng)的第一比值與預(yù)設(shè)的控制參數(shù)的乘積,作為該單位對象的重要程度值,其中,控制參數(shù)需要根據(jù)文本轉(zhuǎn)語音模型的訓(xùn)練結(jié)果信息動態(tài)調(diào)整。

      18、在一些實(shí)施例中,基于每個單位對象的重要程度值對語料庫進(jìn)行壓縮,基于壓縮后的語料庫對文本轉(zhuǎn)語音模型進(jìn)行訓(xùn)練,包括:

      19、基于每個單位對象的重要程度值對語料庫進(jìn)行壓縮,基于壓縮后的語料庫對文本轉(zhuǎn)語音模型進(jìn)行訓(xùn)練;

      20、確定文本轉(zhuǎn)語音模型的訓(xùn)練結(jié)果信息,基于訓(xùn)練結(jié)果信息調(diào)整文本轉(zhuǎn)語音模型的模型參數(shù)和控制參數(shù);

      21、重新獲取語料庫中的每個單位對象的重要程度值;

      22、基于每個單位對象的重要程度值對語料庫進(jìn)行壓縮,基于壓縮后的語料庫對文本轉(zhuǎn)語音模型進(jìn)行訓(xùn)練。

      23、在一些實(shí)施例中,獲取語料庫中的每個單位對象的重要程度值,包括:

      24、獲取語料庫中的每個單位對象的信息熵;

      25、將每個單位對象的信息熵作為該單位對象的重要程度值。

      26、在一些實(shí)施例中,基于每個單位對象的重要程度值對語料庫進(jìn)行壓縮,包括:

      27、將重要程度值符合刪除條件的單位對象確定為可刪除對象;

      28、將語料庫中的可刪除對象剔除以實(shí)現(xiàn)壓縮,得到壓縮后的語料庫。

      29、在一些實(shí)施例中,將重要程度值符合刪除條件的單位對象確定為可刪除對象,包括:

      30、按照重要程度值從大到小的順序,對各單位對象進(jìn)行排序;

      31、將排在第n個單位對象之后的其他單位對象確定為可刪除對象,其中,n為大于1的整數(shù)。

      32、在一些實(shí)施例中,將重要程度值符合刪除條件的單位對象確定為可刪除對象,包括:

      33、將每個單位對象的重要程度值與預(yù)設(shè)的壓縮閾值進(jìn)行對比;

      34、將重要程度值小于壓縮閾值的單位對象確定為可刪除對象。

      35、在一些實(shí)施例中,壓縮閾值需要根據(jù)文本轉(zhuǎn)語音模型的訓(xùn)練結(jié)果信息動態(tài)調(diào)整。

      36、在一些實(shí)施例中,基于每個單位對象的重要程度值對語料庫進(jìn)行壓縮,基于壓縮后的語料庫對文本轉(zhuǎn)語音模型進(jìn)行訓(xùn)練,包括:

      37、基于每個單位對象的重要程度值對語料庫進(jìn)行壓縮,基于壓縮后的語料庫對文本轉(zhuǎn)語音模型進(jìn)行訓(xùn)練;

      38、確定文本轉(zhuǎn)語音模型的訓(xùn)練結(jié)果信息,基于訓(xùn)練結(jié)果信息調(diào)整文本轉(zhuǎn)語音模型的模型參數(shù)和壓縮閾值;

      39、重新獲取語料庫中的每個單位對象的重要程度值;

      40、基于每個單位對象的重要程度值對語料庫進(jìn)行壓縮,基于壓縮后的語料庫對文本轉(zhuǎn)語音模型進(jìn)行訓(xùn)練。

      41、在一些實(shí)施例中,文本轉(zhuǎn)語音模型包括:

      42、多層次韻律建模單元,用于在輸入的文本中提取出音素級特征和詞級特征,基于音素級特征和詞級特征獲得多層次韻律特征;

      43、頻譜圖細(xì)化單元,用于生成梅爾頻譜圖,對初始生成的梅爾頻譜圖進(jìn)行細(xì)化以得到目標(biāo)梅爾頻譜圖;

      44、語音生成單元,用于基于多層次韻律特征和目標(biāo)梅爾頻譜圖生成相應(yīng)的語音。

      45、在一些實(shí)施例中,文本轉(zhuǎn)語音方法還包括:

      46、在基于壓縮后的語料庫對文本轉(zhuǎn)語音模型完成訓(xùn)練之后,在語料庫中嵌入目標(biāo)用戶的風(fēng)格特征以得到專屬語料庫;

      47、基于專屬語料庫對文本轉(zhuǎn)語音模型進(jìn)行微調(diào)。

      48、在一些實(shí)施例中,將待轉(zhuǎn)換的目標(biāo)文本輸入到訓(xùn)練好的文本轉(zhuǎn)語音模型,利用文本轉(zhuǎn)語音模型輸出相應(yīng)的語音,包括:將待轉(zhuǎn)換的目標(biāo)文本輸入到微調(diào)后的文本轉(zhuǎn)語音模型,利用文本轉(zhuǎn)語音模型輸出相應(yīng)的語音。

      49、根據(jù)本公開的第二方面,提供了一種文本轉(zhuǎn)語音裝置,包括:

      50、初始重要度確定模塊,被配置為獲取語料庫中的每個單位對象的重要程度值,單位對象包括音素和功能詞;

      51、轉(zhuǎn)換模型訓(xùn)練模塊,被配置為基于每個單位對象的重要程度值對語料庫進(jìn)行壓縮,基于壓縮后的語料庫對文本轉(zhuǎn)語音模型進(jìn)行訓(xùn)練,文本轉(zhuǎn)語音模型為非自回歸模型;

      52、文本語音轉(zhuǎn)換模塊,被配置為將待轉(zhuǎn)換的目標(biāo)文本輸入到訓(xùn)練好的文本轉(zhuǎn)語音模型,利用文本轉(zhuǎn)語音模型輸出相應(yīng)的語音。

      53、根據(jù)本公開的第三方面,提供了一種文本轉(zhuǎn)語音裝置,包括處理器和存儲有程序指令的存儲器,處理器被配置為在運(yùn)行程序指令時,執(zhí)行本公開的第一方面提供的文本轉(zhuǎn)語音方法。

      54、本公開實(shí)施例提供的文本轉(zhuǎn)語音方法及裝置,可以實(shí)現(xiàn)以下技術(shù)效果:

      55、本公開實(shí)施例提供的文本轉(zhuǎn)語音方法,基于每個單位對象的重要程度值對語料庫進(jìn)行壓縮,可以去除語料庫中重要性較低的信息,有助于在盡可能保留語料庫中有效數(shù)據(jù)的情況下,減少語料庫的數(shù)據(jù)量。由于壓縮后的語料庫相比于原始的語料庫的數(shù)據(jù)量較小,因此基于壓縮后的語料庫對文本轉(zhuǎn)語音模型進(jìn)行訓(xùn)練,可以節(jié)省計算資源,縮短訓(xùn)練時間,有助于降低模型訓(xùn)練成本。此外,壓縮后的語料庫盡可能地保留了語料庫中有效數(shù)據(jù)的,有助于確保文本轉(zhuǎn)語音模型具有較高的準(zhǔn)確性。因此,基于本公開實(shí)施例提供的文本轉(zhuǎn)語音方法,可以兼顧文本轉(zhuǎn)語音模型較高的準(zhǔn)確性和降低模型訓(xùn)練成本這兩方面的需求。

      56、以上的總體描述和下文中的描述僅是示例性和解釋性的,不用于限制本公開。

      當(dāng)前第1頁1 2 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
      1