国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種目標(biāo)語音生成方法及系統(tǒng)

      文檔序號(hào):40387538發(fā)布日期:2024-12-20 12:10閱讀:14來源:國知局
      一種目標(biāo)語音生成方法及系統(tǒng)

      本發(fā)明涉及人工智能,尤其涉及一種目標(biāo)語音生成方法及系統(tǒng)。


      背景技術(shù):

      1、隨著人工智能技術(shù)的飛速發(fā)展,辯論系統(tǒng)作為自然語言處理與智能交互領(lǐng)域的重要分支,正逐步從理論研究走向?qū)嶋H應(yīng)用。

      2、目前,已經(jīng)出現(xiàn)如“辯論者”等辯論系統(tǒng),這些系統(tǒng)通過復(fù)雜的算法和大數(shù)據(jù)訓(xùn)練,實(shí)現(xiàn)了從已有辯論語料庫中提取特征,進(jìn)而模擬并生成具有相似辯論風(fēng)格與內(nèi)容的語音。這種技術(shù)以大量特定個(gè)體的辯論語音數(shù)據(jù)作為訓(xùn)練基礎(chǔ),實(shí)現(xiàn)對(duì)該個(gè)體語音特征的精準(zhǔn)捕捉與再現(xiàn)。

      3、然而,現(xiàn)有技術(shù)雖然能夠基于學(xué)習(xí)到的特征生成相應(yīng)的語音,但其輸出往往受限于訓(xùn)練數(shù)據(jù)中所包含的個(gè)體特征,即只能生成與訓(xùn)練集中個(gè)體聲音和風(fēng)格相似的辯論語音,當(dāng)目標(biāo)說話人沒有足夠多的辯論語音數(shù)據(jù)可供訓(xùn)練時(shí),無法生成目標(biāo)說話人的辯論語音。


      技術(shù)實(shí)現(xiàn)思路

      1、為解決上述問題,本發(fā)明公開了一種目標(biāo)語音生成方法及系統(tǒng)。

      2、本發(fā)明公開了一種目標(biāo)語音生成方法,包括以下步驟:

      3、獲取第一語音、第二語音以及目標(biāo)文本;

      4、根據(jù)所述第一語音提取信息特征;

      5、根據(jù)所述第二語音提取風(fēng)格特征;

      6、根據(jù)所述目標(biāo)文本提取音素對(duì)應(yīng)特征;

      7、根據(jù)所述信息特征、風(fēng)格特征以及音素對(duì)應(yīng)特征生成目標(biāo)語音。

      8、優(yōu)選的,所述第二語音為辯論語音,

      9、相應(yīng)的,所述目標(biāo)文本為對(duì)所述辯論語音進(jìn)行回復(fù)的反駁文本。

      10、優(yōu)選的,根據(jù)所述信息特征、風(fēng)格特征以及音素對(duì)應(yīng)特征生成目標(biāo)語音,具體為:

      11、獲取語音數(shù)據(jù)集并根據(jù)所述語音數(shù)據(jù)集訓(xùn)練大語言模型;

      12、將所述信息特征、風(fēng)格特征以及音素對(duì)應(yīng)特征輸入訓(xùn)練好的大語言模型,進(jìn)行自回歸預(yù)測,得到目標(biāo)語義特征;

      13、根據(jù)所述目標(biāo)語義特征生成目標(biāo)語音。

      14、優(yōu)選的,根據(jù)所述目標(biāo)語義特征生成目標(biāo)語音,具體為:

      15、根據(jù)所述目標(biāo)語義特征和語義-聲音轉(zhuǎn)換算法生成目標(biāo)語音。

      16、優(yōu)選的,根據(jù)所述目標(biāo)語義特征生成目標(biāo)語音,具體為:

      17、根據(jù)所述目標(biāo)語義特征確定聲學(xué)令牌;

      18、根據(jù)所述聲學(xué)令牌生成目標(biāo)語音。

      19、優(yōu)選的,根據(jù)所述聲學(xué)令牌生成目標(biāo)語音,具體為:

      20、根據(jù)所述聲學(xué)令牌,利用語音合成模型或音頻合成技術(shù)生成目標(biāo)語音。

      21、優(yōu)選的,根據(jù)所述信息特征、風(fēng)格特征以及音素對(duì)應(yīng)特征生成目標(biāo)語音,具體為:

      22、根據(jù)所述風(fēng)格特征確定辯論風(fēng)格規(guī)則庫,并從辯論風(fēng)格規(guī)則庫中選取預(yù)設(shè)的辯論風(fēng)格;

      23、根據(jù)預(yù)設(shè)的辯論風(fēng)格、所述信息特征以及音素對(duì)應(yīng)特征,生成目標(biāo)語音。

      24、優(yōu)選的,根據(jù)預(yù)設(shè)的辯論風(fēng)格、所述信息特征以及音素對(duì)應(yīng)特征,生成目標(biāo)語音,具體為:

      25、根據(jù)預(yù)設(shè)的辯論風(fēng)格、所述信息特征以及音素對(duì)應(yīng)特征,確定語音調(diào)制模式;

      26、根據(jù)所述語音調(diào)制模式,生成目標(biāo)語音。

      27、當(dāng)所述第二語音為辯論語音時(shí),所述語音數(shù)據(jù)集為對(duì)辯數(shù)據(jù)集,相應(yīng)的,根據(jù)語音數(shù)據(jù)集訓(xùn)練大語言模型,具體為:

      28、對(duì)所述對(duì)辯數(shù)據(jù)集中,對(duì)辯雙方的語音進(jìn)行分離,得到對(duì)辯雙方的單人音頻;

      29、根據(jù)所述對(duì)辯雙方的單人音頻,訓(xùn)練大語言模型。

      30、本發(fā)明還公開了一種目標(biāo)語音生成系統(tǒng),包括語音及文本獲取模塊、特征提取模塊、音素提取模塊和目標(biāo)語音生成模塊,

      31、所述語音及文本獲取模塊用于獲取第一語音、第二語音以及目標(biāo)文本;

      32、所述特征提取模塊用于根據(jù)所述第一語音提取信息特征、根據(jù)所述第二語音提取風(fēng)格特征;

      33、所述音素提取模塊用于根據(jù)所述目標(biāo)文本提取音素對(duì)應(yīng)特征;

      34、所述目標(biāo)語音生成模塊用于根據(jù)所述信息特征、風(fēng)格特征以及音素對(duì)應(yīng)特征生成目標(biāo)語音。

      35、相較于現(xiàn)有技術(shù),本發(fā)明具有如下有益效果:

      36、(1)本發(fā)明以第一語音的信息特征為基礎(chǔ),整合了第二語音的風(fēng)格特征;即便在面臨訓(xùn)練樣本有限的情況下,本發(fā)明也能靈活生成任意說話人在多樣化場景中的音頻,不僅極大地豐富了音頻表達(dá)的維度與深度;并且這種跨語音特征的融合顯著提升了目標(biāo)語音的表達(dá)力和說服力,使其更加貼近真實(shí)人類交流的情感濃度,能夠大大增加目標(biāo)語音的自然度,從而引起聽眾的共鳴;

      37、(2)本發(fā)明通過深度融合信息特征、風(fēng)格特征以及目標(biāo)文本,預(yù)測得到目標(biāo)語義特征,實(shí)現(xiàn)了對(duì)語音生成過程中語義內(nèi)容與聲學(xué)細(xì)節(jié)的精準(zhǔn)控制,極大地提升了生成語音的自然流暢度;

      38、(3)本發(fā)明能夠生成任意說話人在預(yù)設(shè)場景下的目標(biāo)語音,因而本發(fā)明可以輕松駕馭并適應(yīng)多樣化的語音風(fēng)格;在生成富含特定情感和風(fēng)格的語音時(shí)展現(xiàn)出卓越的靈活性與適應(yīng)性;

      39、(4)本發(fā)明的方法及系統(tǒng)能為辯論訓(xùn)練提供實(shí)時(shí)語音反饋,幫助用戶改進(jìn)其辯論技巧,從而降低傳統(tǒng)辯論訓(xùn)練的門檻,使更多的用戶能夠提升自己的辯論能力;

      40、(5)本發(fā)明生成的目標(biāo)語音具有高度的自然性和表達(dá)力,故本發(fā)明有潛力被應(yīng)用于任何需要高度個(gè)性化語音生成的場景,如辯論、電影配音、虛擬助手、互動(dòng)游戲等。



      技術(shù)特征:

      1.一種目標(biāo)語音生成方法,其特征在于,包括以下步驟:

      2.根據(jù)權(quán)利要求1所述的目標(biāo)語音生成方法,其特征在于,所述第二語音為辯論語音,

      3.根據(jù)權(quán)利要求1或2所述的目標(biāo)語音生成方法,其特征在于,根據(jù)所述信息特征、風(fēng)格特征以及音素對(duì)應(yīng)特征生成目標(biāo)語音,具體為:

      4.根據(jù)權(quán)利要求3所述的目標(biāo)語音生成方法,其特征在于,根據(jù)所述目標(biāo)語義特征生成目標(biāo)語音,具體為:

      5.根據(jù)權(quán)利要求3所述的目標(biāo)語音生成方法,其特征在于,根據(jù)所述目標(biāo)語義特征生成目標(biāo)語音,具體為:

      6.根據(jù)權(quán)利要求5所述的目標(biāo)語音生成方法,其特征在于,根據(jù)所述聲學(xué)令牌生成目標(biāo)語音,具體為:

      7.根據(jù)權(quán)利要求2所述的目標(biāo)語音生成方法,其特征在于,根據(jù)所述信息特征、風(fēng)格特征以及音素對(duì)應(yīng)特征生成目標(biāo)語音,具體為:

      8.根據(jù)權(quán)利要求7所述的目標(biāo)語音生成方法,其特征在于,根據(jù)預(yù)設(shè)的辯論風(fēng)格、所述信息特征以及音素對(duì)應(yīng)特征,生成目標(biāo)語音,具體為:

      9.根據(jù)權(quán)利要求3所述的目標(biāo)語音生成方法,其特征在于,當(dāng)所述第二語音為辯論語音時(shí),所述語音數(shù)據(jù)集為對(duì)辯數(shù)據(jù)集,相應(yīng)的,根據(jù)語音數(shù)據(jù)集訓(xùn)練大語言模型,具體為:

      10.一種目標(biāo)語音生成系統(tǒng),其特征在于,包括語音及文本獲取模塊、特征提取模塊、音素提取模塊和目標(biāo)語音生成模塊,


      技術(shù)總結(jié)
      本發(fā)明公開了一種目標(biāo)語音生成方法及系統(tǒng),方法包括以下步驟:獲取第一語音、第二語音以及目標(biāo)文本;根據(jù)第一語音提取信息特征;根據(jù)第二語音提取風(fēng)格特征;根據(jù)目標(biāo)文本提取音素對(duì)應(yīng)特征;根據(jù)信息特征、風(fēng)格特征以及音素對(duì)應(yīng)特征生成目標(biāo)語音。本發(fā)明以第一語音的信息特征為基礎(chǔ),進(jìn)一步整合了第二語音的風(fēng)格特征;即便在面臨訓(xùn)練樣本有限的情況下,本發(fā)明也能靈活生成任意說話人在多樣化場景中的音頻,不僅極大地豐富了音頻表達(dá)的維度與深度;并且這種跨語音特征的融合顯著提升了目標(biāo)語音的表達(dá)力和說服力,使其更加貼近真實(shí)人類交流的情感濃度,能夠大大增加目標(biāo)語音的自然度,從而引起聽眾的共鳴。

      技術(shù)研發(fā)人員:黃伊喬,武執(zhí)政
      受保護(hù)的技術(shù)使用者:香港中文大學(xué)(深圳)
      技術(shù)研發(fā)日:
      技術(shù)公布日:2024/12/19
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1