国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      語(yǔ)音信號(hào)生成方法、裝置及電子設(shè)備

      文檔序號(hào):40436258發(fā)布日期:2024-12-24 15:10閱讀:16來(lái)源:國(guó)知局
      語(yǔ)音信號(hào)生成方法、裝置及電子設(shè)備

      本技術(shù)涉及數(shù)據(jù)處理,特別涉及一種語(yǔ)音信號(hào)生成方法、裝置及電子設(shè)備。


      背景技術(shù):

      1、在當(dāng)前的語(yǔ)音合成技術(shù)領(lǐng)域,典型的流程涉及三個(gè)主要階段:首先,前端模塊分析純文本輸入,并將其轉(zhuǎn)化為一組結(jié)構(gòu)化的文本特征;隨后,聲學(xué)模型利用這些特征生成相應(yīng)的聲學(xué)參數(shù);最后,聲碼器將這些聲學(xué)參數(shù)轉(zhuǎn)換成可聽(tīng)的語(yǔ)音波形。這一過(guò)程使得文本到語(yǔ)音的轉(zhuǎn)換成為可能,在諸如新聞播報(bào)和導(dǎo)航指引等應(yīng)用場(chǎng)景中發(fā)揮著重要作用。

      2、然而,盡管這一技術(shù)在諸多方面展現(xiàn)出了卓越的性能,但在面對(duì)如小說(shuō)朗讀這樣要求高度角色化、情感化的語(yǔ)音合成任務(wù)時(shí),其局限性便逐漸凸顯。具體而言,當(dāng)前語(yǔ)音合成技術(shù)所生成的小說(shuō)語(yǔ)音往往呈現(xiàn)出音色單一、韻律表現(xiàn)平淡的問(wèn)題,難以精準(zhǔn)捕捉并再現(xiàn)小說(shuō)中不同角色的獨(dú)特聲音特質(zhì)與復(fù)雜情感變化,從而無(wú)法滿足用戶對(duì)于多角色對(duì)話場(chǎng)景下語(yǔ)音合成的多樣化需求。這一現(xiàn)狀不僅限制了語(yǔ)音合成技術(shù)在文學(xué)演繹、有聲讀物等領(lǐng)域的進(jìn)一步拓展,也激發(fā)了行業(yè)內(nèi)外對(duì)于開(kāi)發(fā)更加智能、靈活、富有表現(xiàn)力的語(yǔ)音合成技術(shù)的迫切愿望。


      技術(shù)實(shí)現(xiàn)思路

      1、本技術(shù)所要解決的技術(shù)問(wèn)題是提供一種語(yǔ)音信號(hào)生成方法、裝置及電子設(shè)備,能夠提升語(yǔ)音合成的韻律表現(xiàn),并且可以實(shí)現(xiàn)合成多樣化音色的語(yǔ)音。具體方案如下:

      2、一種語(yǔ)音信號(hào)生成方法,包括:

      3、獲取待處理的目標(biāo)文本;所述目標(biāo)文本包括n個(gè)句子文本以及每個(gè)所述句子文本的旁白對(duì)話標(biāo)簽,每個(gè)所述旁白對(duì)話標(biāo)簽用于指示所屬句子文本的類(lèi)型,所述句子文本的類(lèi)型為旁白類(lèi)型和對(duì)話類(lèi)型中的一種;

      4、基于預(yù)先訓(xùn)練好的韻律編碼預(yù)測(cè)器、所述目標(biāo)文本、所述目標(biāo)文本的文本特征以及每個(gè)所述句子文本的音色嵌入信息,獲得中心句文本的韻律信息;每個(gè)所述句子文本的音色嵌入信息基于每個(gè)所述句子文本的旁白對(duì)話標(biāo)簽與參考語(yǔ)音生成;所述中心句文本為所述目標(biāo)文本中的第m個(gè)句子文本,其中,1<m<n;

      5、基于預(yù)先訓(xùn)練好的時(shí)長(zhǎng)預(yù)測(cè)器、所述目標(biāo)文本、所述目標(biāo)文本的文本特征以及每個(gè)所述句子文本的音色嵌入信息,獲得中心句文本的時(shí)長(zhǎng)信息;

      6、基于預(yù)先訓(xùn)練好的頻譜預(yù)測(cè)器、所述中心句文本的文本特征、所述中心句文本的音色嵌入信息、所述中心句文本的時(shí)長(zhǎng)信息以及所述中心句文本的韻律信息,獲得所述中心句文本的語(yǔ)音信號(hào)。

      7、上述的方法,可選的,所述韻律編碼預(yù)測(cè)器的訓(xùn)練過(guò)程,包括:

      8、獲取對(duì)抗生成網(wǎng)絡(luò)以及第一訓(xùn)練數(shù)據(jù)集;所述對(duì)抗生成網(wǎng)絡(luò)包括生成器以及判別器;所述生成器包括初始韻律編碼預(yù)測(cè)器、所述初始韻律編碼對(duì)應(yīng)的第一音色編碼器;所述第一訓(xùn)練數(shù)據(jù)集包括多個(gè)第一訓(xùn)練數(shù)據(jù),每個(gè)所述第一訓(xùn)練數(shù)據(jù)包括n個(gè)第一訓(xùn)練句子文本,以及所述n個(gè)第一訓(xùn)練句子文本的文本特征、預(yù)先提取好的韻律編碼、旁白對(duì)話標(biāo)簽和語(yǔ)音信息;

      9、在所述第一訓(xùn)練數(shù)據(jù)集的各個(gè)第一訓(xùn)練數(shù)據(jù)中選取出當(dāng)前用于訓(xùn)練的第一目標(biāo)訓(xùn)練數(shù)據(jù);

      10、根據(jù)所述第一音色編碼器、所述第一目標(biāo)訓(xùn)練數(shù)據(jù)的旁白對(duì)話標(biāo)簽以及語(yǔ)音信息,獲得所述第一目標(biāo)訓(xùn)練數(shù)據(jù)的音色嵌入信息;

      11、根據(jù)所述初始韻律編碼預(yù)測(cè)器、第一目標(biāo)訓(xùn)練數(shù)據(jù)中的n個(gè)第一訓(xùn)練句子文本以及文本特征,獲得所述第一目標(biāo)訓(xùn)練數(shù)據(jù)中的n個(gè)第一訓(xùn)練句子文本的韻律編碼;

      12、根據(jù)所述生成器、判別器、所述第一目標(biāo)訓(xùn)練數(shù)據(jù)以及所述第一目標(biāo)訓(xùn)練數(shù)據(jù)中的n個(gè)第一訓(xùn)練句子文本的韻律編碼,獲得所述生成器、判別器的損失函數(shù)值;

      13、利用所述生成器的損失函數(shù)值更新所述生成器中的第一音色編碼器的模型參數(shù)以及所述初始韻律編碼預(yù)測(cè)器的模型參數(shù);并利用所述判別器的損失函數(shù)值更新所述判別器的模型參數(shù);

      14、在更新后的所述生成器與判別器未滿足預(yù)設(shè)的第一訓(xùn)練完成條件的情況下,返回執(zhí)行在訓(xùn)練數(shù)據(jù)集的各個(gè)訓(xùn)練數(shù)據(jù)中選取出當(dāng)前用于訓(xùn)練的第一目標(biāo)訓(xùn)練數(shù)據(jù)的步驟;

      15、在更新后的所述生成器與判別器滿足預(yù)設(shè)的第一訓(xùn)練完成條件的情況下,將更新后的所述生成器中的初始韻律編碼預(yù)測(cè)器,確定為訓(xùn)練好的韻律編碼預(yù)測(cè)器。

      16、上述的方法,可選的,所述頻譜預(yù)測(cè)器的訓(xùn)練過(guò)程,包括:

      17、獲取待訓(xùn)練的初始頻譜預(yù)測(cè)器、第二音色編碼器、韻律編碼提取器以及第二訓(xùn)練數(shù)據(jù)集;所述第二訓(xùn)練數(shù)據(jù)集包括多個(gè)包括第二訓(xùn)練數(shù)據(jù),每個(gè)所述第二訓(xùn)練數(shù)據(jù)包括第二訓(xùn)練句子文本,以及所述第二訓(xùn)練句子文本的韻律特征、文本特征、語(yǔ)音信息、旁白對(duì)話標(biāo)簽以及目標(biāo)信號(hào);所述韻律特征包括時(shí)長(zhǎng)、基頻和能量;

      18、在第二訓(xùn)練數(shù)據(jù)集的各個(gè)第二訓(xùn)練數(shù)據(jù)中選取出當(dāng)前用于訓(xùn)練的第二目標(biāo)訓(xùn)練數(shù)據(jù);

      19、將所述第二目標(biāo)訓(xùn)練數(shù)據(jù)中的韻律特征輸入到所述韻律編碼提取器中,獲得所述第二目標(biāo)訓(xùn)練數(shù)據(jù)中的第二訓(xùn)練句子文本的韻律編碼;

      20、根據(jù)所述第二音色編碼器、所述第二目標(biāo)訓(xùn)練數(shù)據(jù)的旁白對(duì)話標(biāo)簽以及語(yǔ)音信息,獲得所述第二目標(biāo)訓(xùn)練數(shù)據(jù)中的第二訓(xùn)練句子文本的音色嵌入信息;

      21、根據(jù)所述初始頻譜預(yù)測(cè)器、所述第二目標(biāo)訓(xùn)練數(shù)據(jù)中的文本特征、韻律特征中的時(shí)長(zhǎng)、第二訓(xùn)練句子文本的韻律編碼以及音色嵌入信息,獲得所述第二目標(biāo)訓(xùn)練數(shù)據(jù)中的第二訓(xùn)練句子文本的語(yǔ)音信號(hào);

      22、通過(guò)預(yù)設(shè)的第一損失函數(shù)、所述第二目標(biāo)訓(xùn)練數(shù)據(jù)中的第二訓(xùn)練句子文本的語(yǔ)音信號(hào)以及目標(biāo)信號(hào),計(jì)算得到第一損失函數(shù)值;

      23、利用所述第一損失函數(shù)值對(duì)所述初始頻譜預(yù)測(cè)器、所述第二音色編碼器以及韻律編碼提取器的模型參數(shù)進(jìn)行更新;

      24、在更新后的所述初始頻譜預(yù)測(cè)器未滿足預(yù)設(shè)的第二訓(xùn)練完成條件的情況下,返回執(zhí)行在第二訓(xùn)練數(shù)據(jù)集的各個(gè)第二訓(xùn)練數(shù)據(jù)中選取出當(dāng)前用于訓(xùn)練的第二目標(biāo)訓(xùn)練數(shù)據(jù)的步驟;

      25、在更新后的所述初始頻譜預(yù)測(cè)器滿足預(yù)設(shè)的第二訓(xùn)練完成條件的情況下,將滿足所述第二訓(xùn)練完成條件的初始頻譜預(yù)測(cè)器,確定為訓(xùn)練好的頻譜預(yù)測(cè)器。

      26、上述的方法,可選的,所述時(shí)長(zhǎng)預(yù)測(cè)器的訓(xùn)練過(guò)程,包括:

      27、獲取待訓(xùn)練的初始時(shí)長(zhǎng)預(yù)測(cè)器、第三音色編碼器以及第三訓(xùn)練數(shù)據(jù)集;所述第三訓(xùn)練數(shù)據(jù)集包括多個(gè)第三訓(xùn)練數(shù)據(jù);每個(gè)所述第三訓(xùn)練數(shù)據(jù)包括n個(gè)第三訓(xùn)練句子文本,以及所述n個(gè)第三訓(xùn)練句子文本的文本特征、旁白對(duì)話標(biāo)簽、語(yǔ)音信息以及目標(biāo)時(shí)長(zhǎng)信息;

      28、在第三訓(xùn)練數(shù)據(jù)集的各個(gè)第三訓(xùn)練數(shù)據(jù)中選取出當(dāng)前用于訓(xùn)練的第三目標(biāo)訓(xùn)練數(shù)據(jù);

      29、根據(jù)所述第三音色編碼器、所述第三目標(biāo)訓(xùn)練數(shù)據(jù)的旁白對(duì)話標(biāo)簽以及語(yǔ)音信息,獲得所述第三目標(biāo)訓(xùn)練數(shù)據(jù)中的n個(gè)第三訓(xùn)練句子文本的音色嵌入信息;

      30、根據(jù)所述初始時(shí)長(zhǎng)預(yù)測(cè)器、第三目標(biāo)訓(xùn)練數(shù)據(jù)中的n個(gè)第三訓(xùn)練句子文本以及文本特征,獲得所述第三目標(biāo)訓(xùn)練數(shù)據(jù)中的n個(gè)第三訓(xùn)練句子文本的時(shí)長(zhǎng)信息;

      31、通過(guò)預(yù)設(shè)的第二損失函數(shù)、所述第三目標(biāo)訓(xùn)練數(shù)據(jù)中的n個(gè)第三訓(xùn)練句子文本的時(shí)長(zhǎng)信息以及目標(biāo)時(shí)長(zhǎng)信息,計(jì)算得到第二損失函數(shù)值;

      32、利用所述第二損失函數(shù)值對(duì)所述初始時(shí)長(zhǎng)預(yù)測(cè)器以及所述第三音色編碼器的模型參數(shù)進(jìn)行更新;

      33、在更新后的所述初始時(shí)長(zhǎng)預(yù)測(cè)器未滿足預(yù)設(shè)的第三訓(xùn)練完成條件的情況下,返回執(zhí)行在第三訓(xùn)練數(shù)據(jù)集的各個(gè)第三訓(xùn)練數(shù)據(jù)中選取出當(dāng)前用于訓(xùn)練的第三目標(biāo)訓(xùn)練數(shù)據(jù)的步驟;

      34、在更新后的所述初始時(shí)長(zhǎng)預(yù)測(cè)器滿足預(yù)設(shè)的第三訓(xùn)練完成條件的情況下,將滿足所述第三訓(xùn)練完成條件的初始時(shí)長(zhǎng)預(yù)測(cè)器,作為訓(xùn)練好的時(shí)長(zhǎng)預(yù)測(cè)器。

      35、上述的方法,可選的,所述基于預(yù)先訓(xùn)練好的頻譜預(yù)測(cè)器、所述中心句文本的文本特征、所述中心句文本的音色嵌入信息、所述中心句文本的時(shí)長(zhǎng)信息以及所述中心句文本的韻律信息,獲得所述中心句文本的語(yǔ)音信號(hào),包括:

      36、獲取所述頻譜預(yù)測(cè)器對(duì)應(yīng)的音色編碼器;

      37、基于所述頻譜預(yù)測(cè)器對(duì)應(yīng)的音色編碼器、每個(gè)所述句子文本的旁白對(duì)話標(biāo)簽以及每個(gè)所述句子文本的參考語(yǔ)音信息,獲得所述中心句文本的音色嵌入信息;

      38、將所述中心句文本的音色嵌入信息與預(yù)設(shè)的控制系數(shù)相乘,獲得目標(biāo)音色嵌入信息;

      39、基于預(yù)先訓(xùn)練好的頻譜預(yù)測(cè)器、所述中心句文本的文本特征、所述中心句文本的目標(biāo)音色嵌入信息、所述中心句文本的時(shí)長(zhǎng)信息以及所述中心句文本的韻律信息,獲得所述中心句文本的語(yǔ)音信號(hào)。

      40、一種語(yǔ)音信號(hào)生成裝置,包括:

      41、獲取單元,用于獲取待處理的目標(biāo)文本;所述目標(biāo)文本包括n個(gè)句子文本以及每個(gè)所述句子文本的旁白對(duì)話標(biāo)簽,每個(gè)所述旁白對(duì)話標(biāo)簽用于指示所屬句子文本的類(lèi)型,所述句子文本的類(lèi)型為旁白類(lèi)型和對(duì)話類(lèi)型中的一種;

      42、第一執(zhí)行單元,用于基于預(yù)先訓(xùn)練好的韻律編碼預(yù)測(cè)器、所述目標(biāo)文本、所述目標(biāo)文本的文本特征以及每個(gè)所述句子文本的音色嵌入信息,獲得中心句文本的韻律信息;每個(gè)所述句子文本的音色嵌入信息基于每個(gè)所述句子文本的旁白對(duì)話標(biāo)簽生成;所述中心句文本為所述目標(biāo)文本中的第m個(gè)句子文本,其中,1<m<n;

      43、第二執(zhí)行單元,用于基于預(yù)先訓(xùn)練好的時(shí)長(zhǎng)預(yù)測(cè)器、所述目標(biāo)文本、所述目標(biāo)文本的文本特征以及每個(gè)所述句子文本的音色嵌入信息,獲得中心句文本的時(shí)長(zhǎng)信息;

      44、第三執(zhí)行單元,用于基于預(yù)先訓(xùn)練好的頻譜預(yù)測(cè)器、所述中心句文本的文本特征、所述中心句文本的音色嵌入信息、所述中心句文本的時(shí)長(zhǎng)信息以及所述中心句文本的韻律信息,獲得所述中心句文本的語(yǔ)音信號(hào)。

      45、上述的裝置,可選的,所述第一執(zhí)行單元,包括:

      46、第一獲取子單元,用于獲取對(duì)抗生成網(wǎng)絡(luò)以及第一訓(xùn)練數(shù)據(jù)集;所述對(duì)抗生成網(wǎng)絡(luò)包括生成器以及判別器;所述生成器包括初始韻律編碼預(yù)測(cè)器、所述初始韻律編碼對(duì)應(yīng)的第一音色編碼器;所述第一訓(xùn)練數(shù)據(jù)集包括多個(gè)第一訓(xùn)練數(shù)據(jù),每個(gè)所述第一訓(xùn)練數(shù)據(jù)包括n個(gè)第一訓(xùn)練句子文本,以及所述n個(gè)第一訓(xùn)練句子文本的文本特征、預(yù)先提取好的韻律編碼、旁白對(duì)話標(biāo)簽和語(yǔ)音信息;

      47、第一選取子單元,用于在所述第一訓(xùn)練數(shù)據(jù)集的各個(gè)第一訓(xùn)練數(shù)據(jù)中選取出當(dāng)前用于訓(xùn)練的第一目標(biāo)訓(xùn)練數(shù)據(jù);

      48、第一執(zhí)行子單元,用于根據(jù)所述第一音色編碼器、所述第一目標(biāo)訓(xùn)練數(shù)據(jù)的旁白對(duì)話標(biāo)簽以及語(yǔ)音信息,獲得所述第一目標(biāo)訓(xùn)練數(shù)據(jù)的音色嵌入信息;

      49、第二執(zhí)行子單元,用于根據(jù)所述初始韻律編碼預(yù)測(cè)器、第一目標(biāo)訓(xùn)練數(shù)據(jù)中的n個(gè)第一訓(xùn)練句子文本以及文本特征,獲得所述第一目標(biāo)訓(xùn)練數(shù)據(jù)中的n個(gè)第一訓(xùn)練句子文本的韻律編碼;

      50、第一計(jì)算子單元,用于根據(jù)所述生成器、判別器、所述第一目標(biāo)訓(xùn)練數(shù)據(jù)以及所述第一目標(biāo)訓(xùn)練數(shù)據(jù)中的n個(gè)第一訓(xùn)練句子文本的韻律編碼,獲得所述生成器和判別器的損失函數(shù)值;

      51、第一更新子單元,用于利用所述生成器的損失函數(shù)值更新所述生成器中的第一音色編碼器的模型參數(shù)以及所述初始韻律編碼預(yù)測(cè)器的模型參數(shù);并利用判別器的損失函數(shù)值更新判別器的模型參數(shù);

      52、第三執(zhí)行子單元,用于在更新后的所述生成器與判別器未滿足預(yù)設(shè)的第一訓(xùn)練完成條件的情況下,返回觸發(fā)第一選取子單元執(zhí)行在訓(xùn)練數(shù)據(jù)集的各個(gè)訓(xùn)練數(shù)據(jù)中選取出當(dāng)前用于訓(xùn)練的第一目標(biāo)訓(xùn)練數(shù)據(jù)的步驟;

      53、第一確定子單元,用于在更新后的所述生成器與判別器滿足預(yù)設(shè)的第一訓(xùn)練完成條件的情況下,將更新后的所述生成器中的初始韻律編碼預(yù)測(cè)器,確定為訓(xùn)練好的韻律編碼預(yù)測(cè)器。

      54、上述的裝置,可選的,所述第三執(zhí)行單元,包括:

      55、第二獲取子單元,用于獲取待訓(xùn)練的初始頻譜預(yù)測(cè)器、第二音色編碼器、韻律編碼提取器以及第二訓(xùn)練數(shù)據(jù)集;所述第二訓(xùn)練數(shù)據(jù)集包括多個(gè)包括第二訓(xùn)練數(shù)據(jù),每個(gè)所述第二訓(xùn)練數(shù)據(jù)包括第二訓(xùn)練句子文本,以及所述第二訓(xùn)練句子文本的韻律特征、文本特征、語(yǔ)音信息、旁白對(duì)話標(biāo)簽以及目標(biāo)信號(hào);所述韻律特征包括時(shí)長(zhǎng)、基頻和能量;

      56、第二選取子單元,用于在第二訓(xùn)練數(shù)據(jù)集的各個(gè)第二訓(xùn)練數(shù)據(jù)中選取出當(dāng)前用于訓(xùn)練的第二目標(biāo)訓(xùn)練數(shù)據(jù);

      57、第一輸入子單元,用于將所述第二目標(biāo)訓(xùn)練數(shù)據(jù)中的韻律特征輸入到所述韻律編碼提取器中,獲得所述第二目標(biāo)訓(xùn)練數(shù)據(jù)中的第二訓(xùn)練句子文本的韻律編碼;

      58、第四執(zhí)行子單元,用于根據(jù)所述第二音色編碼器、所述第二目標(biāo)訓(xùn)練數(shù)據(jù)的旁白對(duì)話標(biāo)簽以及語(yǔ)音信息,獲得所述第二目標(biāo)訓(xùn)練數(shù)據(jù)中的第二訓(xùn)練句子文本的音色嵌入信息;

      59、第五執(zhí)行子單元,用于根據(jù)所述初始頻譜預(yù)測(cè)器、所述第二目標(biāo)訓(xùn)練數(shù)據(jù)中的文本特征、韻律特征中的時(shí)長(zhǎng)、第二訓(xùn)練句子文本的韻律編碼以及音色嵌入信息,獲得所述第二目標(biāo)訓(xùn)練數(shù)據(jù)中的第二訓(xùn)練句子文本的語(yǔ)音信號(hào);

      60、第二計(jì)算子單元,用于通過(guò)預(yù)設(shè)的第一損失函數(shù)、所述第二目標(biāo)訓(xùn)練數(shù)據(jù)中的第二訓(xùn)練句子文本的語(yǔ)音信號(hào)以及目標(biāo)信號(hào),計(jì)算得到第一損失函數(shù)值;

      61、第二更新子單元,用于利用所述第一損失函數(shù)值對(duì)所述初始頻譜預(yù)測(cè)器、所述第二音色編碼器以及韻律編碼提取器的模型參數(shù)進(jìn)行更新;

      62、第六執(zhí)行子單元,用于在更新后的所述初始頻譜預(yù)測(cè)器未滿足預(yù)設(shè)的第二訓(xùn)練完成條件的情況下,返回觸發(fā)第二獲取子單元執(zhí)行在第二訓(xùn)練數(shù)據(jù)集的各個(gè)第二訓(xùn)練數(shù)據(jù)中選取出當(dāng)前用于訓(xùn)練的第二目標(biāo)訓(xùn)練數(shù)據(jù)的步驟;

      63、第二確定子單元,用于在更新后的所述初始頻譜預(yù)測(cè)器滿足預(yù)設(shè)的第二訓(xùn)練完成條件的情況下,將滿足所述第二訓(xùn)練完成條件的初始頻譜預(yù)測(cè)器,確定為訓(xùn)練好的頻譜預(yù)測(cè)器。

      64、上述的裝置,可選的,所述第二執(zhí)行單元,包括:

      65、第三獲取子單元,用于獲取待訓(xùn)練的初始時(shí)長(zhǎng)預(yù)測(cè)器、第三音色編碼器以及第三訓(xùn)練數(shù)據(jù)集;所述第三訓(xùn)練數(shù)據(jù)集包括多個(gè)第三訓(xùn)練數(shù)據(jù);每個(gè)所述第三訓(xùn)練數(shù)據(jù)包括n個(gè)第三訓(xùn)練句子文本,以及所述n個(gè)第三訓(xùn)練句子文本的文本特征、旁白對(duì)話標(biāo)簽、語(yǔ)音信息以及目標(biāo)時(shí)長(zhǎng)信息;

      66、第三選取子單元,用于在第三訓(xùn)練數(shù)據(jù)集的各個(gè)第三訓(xùn)練數(shù)據(jù)中選取出當(dāng)前用于訓(xùn)練的第三目標(biāo)訓(xùn)練數(shù)據(jù);

      67、第七執(zhí)行子單元,用于根據(jù)所述第三音色編碼器、所述第三目標(biāo)訓(xùn)練數(shù)據(jù)的旁白對(duì)話標(biāo)簽以及語(yǔ)音信息,獲得所述第三目標(biāo)訓(xùn)練數(shù)據(jù)中的n個(gè)第三訓(xùn)練句子文本的音色嵌入信息;

      68、第八執(zhí)行子單元,用于根據(jù)所述初始時(shí)長(zhǎng)預(yù)測(cè)器、第三目標(biāo)訓(xùn)練數(shù)據(jù)中的n個(gè)第三訓(xùn)練句子文本以及文本特征,獲得所述第三目標(biāo)訓(xùn)練數(shù)據(jù)中的n個(gè)第三訓(xùn)練句子文本的時(shí)長(zhǎng)信息;

      69、第三計(jì)算子單元,用于通過(guò)預(yù)設(shè)的第二損失函數(shù)、所述第三目標(biāo)訓(xùn)練數(shù)據(jù)中的n個(gè)第三訓(xùn)練句子文本的時(shí)長(zhǎng)信息以及目標(biāo)時(shí)長(zhǎng)信息,計(jì)算得到第二損失函數(shù)值;

      70、第三更新子單元,用于利用所述第二損失函數(shù)值對(duì)所述初始時(shí)長(zhǎng)預(yù)測(cè)器以及所述第三音色編碼器的模型參數(shù)進(jìn)行更新;

      71、第九執(zhí)行子單元,用于在更新后的所述初始時(shí)長(zhǎng)預(yù)測(cè)器未滿足預(yù)設(shè)的第三訓(xùn)練完成條件的情況下,返回觸發(fā)第三選取子單元執(zhí)行在第三訓(xùn)練數(shù)據(jù)集的各個(gè)第三訓(xùn)練數(shù)據(jù)中選取出當(dāng)前用于訓(xùn)練的第三目標(biāo)訓(xùn)練數(shù)據(jù)的過(guò)程;

      72、第十執(zhí)行子單元,用于在更新后的所述初始時(shí)長(zhǎng)預(yù)測(cè)器滿足預(yù)設(shè)的第三訓(xùn)練完成條件的情況下,將滿足所述第三訓(xùn)練完成條件的初始時(shí)長(zhǎng)預(yù)測(cè)器,作為訓(xùn)練好的時(shí)長(zhǎng)預(yù)測(cè)器。

      73、一種電子設(shè)備,包括存儲(chǔ)器,以及一個(gè)或者一個(gè)以上的指令,其中一個(gè)或一個(gè)以上指令存儲(chǔ)于存儲(chǔ)器中,且經(jīng)配置以由一個(gè)或者一個(gè)以上處理器執(zhí)行如上述的語(yǔ)音信號(hào)生成方法。

      74、基于上述本技術(shù)實(shí)施提供的一種語(yǔ)音信號(hào)生成方法、裝置及電子設(shè)備,該方法包括:獲取待處理的目標(biāo)文本;所述目標(biāo)文本包括n個(gè)句子文本以及每個(gè)所述句子文本的旁白對(duì)話標(biāo)簽,每個(gè)所述旁白對(duì)話標(biāo)簽用于指示所屬句子文本的類(lèi)型,所述句子文本的類(lèi)型為旁白類(lèi)型和對(duì)話類(lèi)型中的一種;基于預(yù)先訓(xùn)練好的韻律編碼預(yù)測(cè)器、所述目標(biāo)文本、所述目標(biāo)文本的文本特征以及每個(gè)所述句子文本的音色嵌入信息,獲得中心句文本的韻律信息;每個(gè)所述句子文本的音色嵌入信息基于每個(gè)所述句子文本的旁白對(duì)話標(biāo)簽與參考語(yǔ)音生成;所述中心句文本為所述目標(biāo)文本中的第m個(gè)句子文本,其中,1<m<n;基于預(yù)先訓(xùn)練好的時(shí)長(zhǎng)預(yù)測(cè)器、所述目標(biāo)文本、所述目標(biāo)文本的文本特征以及每個(gè)所述句子文本的音色嵌入信息,獲得中心句文本的時(shí)長(zhǎng)信息;基于預(yù)先訓(xùn)練好的頻譜預(yù)測(cè)器、所述中心句文本的文本特征、所述中心句文本的音色嵌入信息、所述中心句文本的時(shí)長(zhǎng)信息以及所述中心句文本的韻律信息,獲得所述中心句文本的語(yǔ)音信號(hào)。應(yīng)用本技術(shù)實(shí)施例提供的方法,能夠提升語(yǔ)音合成的韻律表現(xiàn),并且可以實(shí)現(xiàn)合成多樣化音色的語(yǔ)音。

      當(dāng)前第1頁(yè)1 2 
      網(wǎng)友詢問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1