国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      語音轉換方法、裝置、計算機設備和存儲介質與流程

      文檔序號:39619065發(fā)布日期:2024-10-11 13:35閱讀:69來源:國知局
      語音轉換方法、裝置、計算機設備和存儲介質與流程

      本技術涉及語音轉換,特別是涉及一種語音轉換方法、裝置、計算機設備和存儲介質。


      背景技術:

      1、語音轉換(voice?conversion)是在說話內容不變基礎上,將原始語音說話人音色遷移到目標說話人音色,在電影配音、角色模仿以及復刻人物音色等方面都有重要的應用。在車載領域也有著豐富的應用場景,如導航變聲,ip定制,個性化定制用戶音色等,通過單樣本語音轉換復制音色,不僅可以大大降低對訓練數(shù)據(jù)的要求,也可以顯著節(jié)省計算資源。

      2、當前基于深度學習實現(xiàn)到特定目標說話人的語音轉換已經(jīng)取得很大的進步,例如基于cycle?gan、vae以及asr的語音轉換方法都可以很好的實現(xiàn)到訓練集內說話人的語音轉換。然而,如果想要增加一個目標說話人音色,或者進行用戶音色的自定義復刻,通常需要大量的說話人數(shù)據(jù)以重新訓練一個以該說話人音色為目標音色語音轉換模型,或者通過少量數(shù)據(jù)對現(xiàn)有模型進行自適應訓練。實際應用中,數(shù)據(jù)庫錄制的周期和成本都比較高,而對于普通用戶而言,也很難獲得用戶大量的語音數(shù)據(jù)。

      3、基于文本輔助的的注意力模型雖然能夠與tts模型共享注意力(attention),實現(xiàn)一對多(one-to-many)轉換,但是也有訓練周期長,計算量大,無法實現(xiàn)超長文本合成轉換等缺點,流式文本轉語音(tts)模型雖然能并行合成語音但是也有參數(shù)量大的缺點。


      技術實現(xiàn)思路

      1、基于此,有必要針對上述技術問題,提供一種語音轉換方法、裝置、計算機設備和存儲介質,能夠解決流式文本轉為某種目標說話人語音的參數(shù)量大、周期和成本都比較高的技術問題。

      2、一方面,提供一種語音轉換方法,所述方法包括:

      3、獲取源語音語言編碼特征和源語音基頻特征,并將所述源語音語言編碼特征與源語音基頻特征進行拼接形成源語音拼接特征;

      4、獲取目標語音音色編碼特征;

      5、將所述源語音拼接特征和所述目標語音音色編碼特征輸入所述解碼器進行解碼,獲得轉換音色梅爾譜特征;

      6、將所述轉換音色梅爾譜特征輸入聲碼器,合成轉換語音。

      7、在其中一個實施例中,所述將所述源語音拼接特征和所述目標語音音色編碼特征輸入所述解碼器進行解碼,獲得轉換音色梅爾譜特征步驟,包括:

      8、將所述源語音拼接特征輸入至一維卷積層內進行卷積處理后輸入至生成模塊;

      9、所述目標語音音色編碼特征進行條件批歸一化處理后輸入至生成模塊;

      10、將卷積處理后的源語音拼接特征與條件批歸一化處理后的目標語音音色編碼特征經(jīng)所述生成模塊內的分段線性函數(shù)及上采樣層、一維卷積層和膨脹卷積層處理后的輸出結果輸入至一維卷積層內進行卷積處理后輸出轉換音色梅爾頻譜特征。

      11、在其中一個實施例中,所述將所述源語音拼接特征和所述目標語音音色編碼特征輸入所述解碼器進行解碼,獲得轉換音色梅爾譜特征步驟,還包括:

      12、將噪聲向量經(jīng)線性層處理后輸入至批歸一化層;

      13、將卷積處理后的源語音拼接特征與條件批歸一化處理后的目標語音音色編碼特征輸入至所述批歸一化層,與噪聲向量進行拼接累加;

      14、將與噪聲向量進行拼接累加后的拼接特征經(jīng)所述生成模塊內的分段線性函數(shù)及上采樣層、一維卷積層和膨脹卷積層處理后的輸出結果輸入至一維卷積層內進行卷積處理后輸出轉換音色梅爾頻譜特征。

      15、在其中一個實施例中,所述將卷積處理后的源語音拼接特征與條件批歸一化處理后的目標語音音色編碼特征輸入至所述批歸一化層,與噪聲向量進行拼接累加步驟,包括:

      16、將卷積處理后的源語音拼接特征與條件批歸一化處理后的目標語音音色編碼特征作為第一語音輸入特征;

      17、在所述生成模塊內設置多個批歸一化層以及多個分段線性函數(shù)及上采樣層,其中一個歸一化層的輸出端連接至所述分段線性函數(shù)及上采樣層的輸入端,所述分段線性函數(shù)及上采樣層的輸出端連接至一維卷積層或膨脹維卷積層的輸入端,所述一維卷積層或所述膨脹維卷積層的輸出端連接至另一個歸一化層的輸入端;

      18、將所述第一語音輸入特征輸入至所述批歸一化層與噪聲向量進行拼接累加,經(jīng)所述分段線性函數(shù)及上采樣層、一維卷積層處理后輸出第一拼接特征;

      19、將所述第一語音輸入特征經(jīng)分段線性函數(shù)及上采樣層、一維卷積層處理后輸出第一校正拼接特征;

      20、采用所述第一校正拼接特征對所述第一拼接特征進行校正,形成第二語音輸入特征;

      21、將所述第二語音輸入特征輸入至所述批歸一化層與噪聲向量進行拼接累加,經(jīng)所述分段線性函數(shù)及上采樣層、膨脹卷積層處理后輸出第二拼接特征;

      22、將所述第二語音輸入特征經(jīng)分段線性函數(shù)及上采樣層、膨脹卷積層處理后輸出第二校正拼接特征;

      23、采用所述第二校正拼接特征對所述第二拼接特征進行校正,形成語音輸出特征。

      24、在其中一個實施例中,所述獲取源語音語言編碼特征和源語音基頻特征,并將所述源語音語言編碼特征與源語音基頻特征進行拼接形成源語音拼接特征步驟包括:

      25、將文本序列轉換為音素序列;

      26、將所述音素序列輸入編碼器預訓練網(wǎng)絡,與位置編碼拼接后輸入至編碼器多頭注意力層,依次經(jīng)殘差與歸一化層、前向反饋層處理、殘差與歸一化層及線性層處理后輸出文本序列特征;

      27、將源語音梅爾譜輸入解碼器預訓練網(wǎng)絡,與位置編碼特征拼接后形成拼接特征輸入掩蓋多頭注意力層,經(jīng)殘差與歸一化處理后形成解碼頻譜特征并將其輸入至解碼器多頭注意力層;

      28、將所述文本序列特征與目標語音音色編碼特征拼接后形成二維特征矩陣序列并輸入至解碼器多頭注意力層;

      29、所述解碼器多頭注意力層對所述二維特征矩陣序列和所述解碼頻譜特征進行對齊運算后,經(jīng)過殘差與歸一化處理后輸出待合成文本的語音;

      30、將所述文本序列特征與所述待合成文本的語音做矩陣乘,輸出源語音拼接特征。

      31、在其中一個實施例中,所述將文本序列輸入源語音拼接特征模塊并轉為音素序列步驟,包括:

      32、向源語音拼接特征模塊輸入文本序列;

      33、將所述文本序列經(jīng)過文本正則形成正則表達式;

      34、將所述正則表達式經(jīng)過字音轉換形成漢語;

      35、將所述漢語經(jīng)過多音字分類和韻律預測轉為音素序列。

      36、在其中一個實施例中,在將所述音素序列輸入編碼器預處理網(wǎng)絡與位置編碼拼接步驟之前,以及在將源語音梅爾譜輸入解碼器預處理網(wǎng)絡與位置編碼特征拼接步驟之前,還包括:

      37、將所述音素序列按時間序列對每幀進行位置編碼,所述位置編碼的公式為

      38、

      39、其中,pe為位置編碼,pos為位置序號,i為時間序列的維度序號,d?model為模型維度。

      40、另一方面,提供了一種語音轉換裝置,所述裝置包括:

      41、編碼器預訓練網(wǎng)絡,用于獲取源語音語言編碼特征;

      42、解碼器預訓練網(wǎng)絡,用于獲取源語音基頻特征,并將所述源語音語言編碼特征與源語音基頻特征進行拼接形成源語音拼接特征;

      43、目標語音編碼器,用于獲取目標語音音色編碼特征;

      44、解碼器,用于將所述源語音拼接特征和所述目標語音音色編碼特征進行解碼,獲得轉換音色梅爾譜特征;

      45、聲碼器,用于將所述轉換音色梅爾譜特征合成轉換語音。

      46、再一方面,提供了一種計算機設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)以下步驟:

      47、獲取源語音語言編碼特征和源語音基頻特征,并將所述源語音語言編碼特征與源語音基頻特征進行拼接形成源語音拼接特征;

      48、獲取目標語音音色編碼特征;

      49、將所述源語音拼接特征和所述目標語音音色編碼特征輸入所述解碼器進行解碼,獲得轉換音色梅爾譜特征;

      50、將所述轉換音色梅爾譜特征輸入聲碼器,合成轉換語音。

      51、又一方面,提供了一種計算機可讀存儲介質,其上存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)以下步驟:

      52、獲取源語音語言編碼特征和源語音基頻特征,并將所述源語音語言編碼特征與源語音基頻特征進行拼接形成源語音拼接特征;

      53、獲取目標語音音色編碼特征;

      54、將所述源語音拼接特征和所述目標語音音色編碼特征輸入所述解碼器進行解碼,獲得轉換音色梅爾譜特征;

      55、將所述轉換音色梅爾譜特征輸入聲碼器,合成轉換語音。

      56、上述語音轉換方法、裝置、計算機設備和存儲介質,通過將所述非說話人相關語言特征與所述源說話人基頻特征拼接進入解碼器,將所述目標說話人編碼特征輸入所述解碼器;所述解碼器輸出轉換后具有目標說話人基頻特征的梅爾譜;將轉換后的梅爾譜輸入聲碼器,合成轉換語音。亦即采用借助轉換器(transformer)端到端非自回歸模型與文本輔助,引入多頭注意力進行文本與音頻的非說話人相關語言特征對齊,通過源說話人相關特征與基頻特征通過解碼器嵌入目標說話人語言特征,實現(xiàn)快速高效端到端非自回歸語音轉換。因此本技術能夠減少文本轉為某種目標說話人語音的參數(shù)量、縮短轉換周期,提升了合成轉換語音的效率,降低了合成轉換語音的成本。

      當前第1頁1 2 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1