国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      配音方法及系統(tǒng)與流程

      文檔序號:40283285發(fā)布日期:2024-12-11 13:25閱讀:44來源:國知局
      配音方法及系統(tǒng)與流程

      本發(fā)明涉及音頻處理,尤其涉及一種配音方法及系統(tǒng)。


      背景技術(shù):

      1、在影視劇、動(dòng)畫片、紀(jì)錄片及其它多媒體作品的制作過程中,配音是一項(xiàng)至關(guān)重要的工作,尤其是在多角色對話場景中,不同角色的聲音需要精確同步,以確保觀眾能夠清晰理解對話內(nèi)容。

      2、在實(shí)際操作中,由于每個(gè)配音演員的語速、語調(diào)和發(fā)音習(xí)慣存在差異,常常會(huì)導(dǎo)致多個(gè)角色的臺(tái)詞時(shí)長不一致。這種時(shí)長不匹配的問題,在后期處理過程中可能導(dǎo)致角色對話出現(xiàn)聲音重疊、語音沖突或配音與畫面不同步等問題,嚴(yán)重影響作品的整體質(zhì)量。

      3、針對多角色配音中存在的問題,現(xiàn)有技術(shù)通常依賴于手動(dòng)調(diào)整,這需要音頻工程師對每個(gè)配音演員的錄音進(jìn)行細(xì)致的時(shí)間調(diào)整,以使不同角色的聲音不重疊。然而,這種手動(dòng)處理方式不僅耗時(shí)費(fèi)力,而且在處理復(fù)雜對話場景時(shí)容易出現(xiàn)誤差,難以保證配音的同步性和自然性。此外,手動(dòng)調(diào)整可能會(huì)在一定程度上改變角色的語調(diào)和情感表達(dá),導(dǎo)致配音質(zhì)量下降。因此,現(xiàn)在亟需一種配音方法及系統(tǒng)來解決上述問題。


      技術(shù)實(shí)現(xiàn)思路

      1、針對現(xiàn)有技術(shù)存在的問題,本發(fā)明提供一種配音方法及系統(tǒng)。

      2、本發(fā)明提供一種配音方法,包括:

      3、獲取目標(biāo)語種字幕文件和所述目標(biāo)語種字幕文件對應(yīng)的原始音頻,并對所述原始音頻中各段臺(tái)詞時(shí)間軸對應(yīng)的語音音頻進(jìn)行特征提取,得到音頻特征向量集合;

      4、對所述音頻特征向量集合中的音頻特征向量進(jìn)行聚類處理,并根據(jù)聚類處理結(jié)果,確定所述原始音頻中各個(gè)臺(tái)詞時(shí)間軸的音頻角色類型;

      5、將所述音頻角色類型與所述目標(biāo)語種字幕文件中對應(yīng)時(shí)間軸的臺(tái)詞進(jìn)行對齊處理,得到對齊處理后的目標(biāo)語種字幕文件;

      6、將所述音頻角色類型在所述原始音頻對應(yīng)的臺(tái)詞時(shí)間軸的語音音頻序號,添加至所述對齊后的目標(biāo)語種字幕文件中對應(yīng)臺(tái)詞的位置,得到配音語種字幕文件;

      7、基于文本轉(zhuǎn)語音模型,將所述配音語種字幕文件中各段臺(tái)詞時(shí)間軸的臺(tái)詞轉(zhuǎn)換為對應(yīng)的配音音頻,并根據(jù)多個(gè)所述配音音頻,生成所述原始音頻在目標(biāo)語音下對應(yīng)的配音文件。

      8、根據(jù)本發(fā)明提供的一種配音方法,所述對所述原始音頻中各段臺(tái)詞時(shí)間軸對應(yīng)的語音音頻進(jìn)行特征提取,得到音頻特征向量集合,包括:

      9、對所述原始音頻中各段臺(tái)詞時(shí)間軸的所述語音音頻標(biāo)注對應(yīng)的所述語音音頻序號,得到語音音頻序號標(biāo)注后的語音音頻;

      10、提取各個(gè)所述語音音頻序號標(biāo)注后的語音音頻的梅爾倒譜系數(shù)特征;

      11、將所述梅爾倒譜系數(shù)特征輸入至x-vector模型中,得到由所述x-vector模型輸出的所述音頻特征向量集合。

      12、根據(jù)本發(fā)明提供的一種配音方法,所述對所述音頻特征向量集合中的音頻特征向量進(jìn)行聚類處理,包括:

      13、基于層次聚類算法,對所述音頻特征向量集合中的所述音頻特征向量進(jìn)行聚類處理,得到各個(gè)所述音頻特征向量之間的相似度,并根據(jù)所述相似度和預(yù)設(shè)閾值,得到所述聚類處理結(jié)果。

      14、根據(jù)本發(fā)明提供的一種配音方法,所述方法還包括:

      15、獲取所述配音語種字幕文件中各段臺(tái)詞時(shí)間軸的所述語音音頻序號和所述音頻角色類型;

      16、獲取原始語音音頻,其中,所述原始語音音頻為所述語音音頻序號在所述原始音頻中對應(yīng)的語音音頻;

      17、獲取目標(biāo)配音音頻,其中,所述目標(biāo)配音音頻為所述原始語音音頻在所述配音語種字幕文件中對應(yīng)臺(tái)詞時(shí)間軸的配音音頻;

      18、對所述原始語音音頻和所述目標(biāo)配音音頻進(jìn)行短時(shí)傅里葉變換,得到對應(yīng)的頻譜圖特征;

      19、將所述頻譜圖特征輸入至個(gè)性化語音合成模型中,得到由所述個(gè)性化語音合成模型輸出的角色配音音頻,其中,所述個(gè)性化語音合成模型是基于transformer模型訓(xùn)練得到的。

      20、根據(jù)本發(fā)明提供的一種配音方法,所述方法還包括:

      21、基于數(shù)字信號處理技術(shù),對多個(gè)所述配音音頻進(jìn)行去噪處理,得到多個(gè)去噪處理后的配音音頻。

      22、根據(jù)本發(fā)明提供的一種配音方法,在所述根據(jù)多個(gè)所述配音音頻,生成所述原始音頻在目標(biāo)語音下對應(yīng)的配音文件之前,所述方法還包括:

      23、根據(jù)所述原始音頻中各個(gè)臺(tái)詞時(shí)間軸的時(shí)間軸長度信息和對應(yīng)的所述配音音頻的長度信息,得到時(shí)長比例結(jié)果;

      24、根據(jù)所述時(shí)長比例結(jié)果,對所述配音音頻進(jìn)行線性插值處理,或在降低采樣率后進(jìn)行重采樣,得到處理后的配音音頻。

      25、本發(fā)明還提供一種配音系統(tǒng),包括:

      26、音頻獲取模塊,用于獲取目標(biāo)語種字幕文件和所述目標(biāo)語種字幕文件對應(yīng)的原始音頻,并對所述原始音頻中各段臺(tái)詞時(shí)間軸對應(yīng)的語音音頻進(jìn)行特征提取,得到音頻特征向量集合;

      27、處理模塊,用于對所述音頻特征向量集合中的音頻特征向量進(jìn)行聚類處理,并根據(jù)聚類處理結(jié)果,確定所述原始音頻中各個(gè)臺(tái)詞時(shí)間軸的音頻角色類型;

      28、匹配模塊,用于將所述音頻角色類型與所述目標(biāo)語種字幕文件中對應(yīng)時(shí)間軸的臺(tái)詞進(jìn)行對齊處理,得到對齊處理后的目標(biāo)語種字幕文件;

      29、配音字幕文件生成模塊,用于將所述音頻角色類型在所述原始音頻對應(yīng)的臺(tái)詞時(shí)間軸的語音音頻序號,添加至所述對齊后的目標(biāo)語種字幕文件中對應(yīng)臺(tái)詞的位置,得到配音語種字幕文件;

      30、配音音頻生成模塊,用于基于文本轉(zhuǎn)語音模型,將所述配音語種字幕文件中各段臺(tái)詞時(shí)間軸的臺(tái)詞轉(zhuǎn)換為對應(yīng)的配音音頻,并根據(jù)多個(gè)所述配音音頻,生成所述原始音頻在目標(biāo)語音下對應(yīng)的配音文件。

      31、本發(fā)明還提供一種電子設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)如上述任一種所述配音方法。

      32、本發(fā)明還提供一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述任一種所述配音方法。

      33、本發(fā)明還提供一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述任一種所述配音方法。

      34、本發(fā)明提供的配音方法及系統(tǒng),能夠自動(dòng)化地調(diào)整配音語速并精確匹配臺(tái)詞時(shí)長,通過智能算法實(shí)現(xiàn)多角色對話中的音頻同步處理,從而消除聲音重疊和語音沖突問題,大幅提高配音處理的效率和質(zhì)量。



      技術(shù)特征:

      1.一種配音方法,其特征在于,包括:

      2.根據(jù)權(quán)利要求1所述的配音方法,其特征在于,所述對所述原始音頻中各段臺(tái)詞時(shí)間軸對應(yīng)的語音音頻進(jìn)行特征提取,得到音頻特征向量集合,包括:

      3.根據(jù)權(quán)利要求1所述的配音方法,其特征在于,所述對所述音頻特征向量集合中的音頻特征向量進(jìn)行聚類處理,包括:

      4.根據(jù)權(quán)利要求1所述的配音方法,其特征在于,所述方法還包括:

      5.根據(jù)權(quán)利要求1所述的配音方法,其特征在于,所述方法還包括:

      6.根據(jù)權(quán)利要求1所述的配音方法,其特征在于,在所述根據(jù)多個(gè)所述配音音頻,生成所述原始音頻在目標(biāo)語音下對應(yīng)的配音文件之前,所述方法還包括:

      7.一種配音系統(tǒng),其特征在于,包括:

      8.一種電子設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如權(quán)利要求1至6任一項(xiàng)所述配音方法。

      9.一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至6任一項(xiàng)所述配音方法。

      10.一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至6任一項(xiàng)所述配音方法。


      技術(shù)總結(jié)
      本發(fā)明提供一種配音方法及系統(tǒng),該方法包括:對原始音頻中各段臺(tái)詞時(shí)間軸對應(yīng)的語音音頻進(jìn)行特征提取,得到音頻特征向量集合;對音頻特征向量進(jìn)行聚類處理,確定原始音頻中各個(gè)臺(tái)詞時(shí)間軸的音頻角色類型;將音頻角色類型與目標(biāo)語種字幕文件中對應(yīng)時(shí)間軸的臺(tái)詞進(jìn)行對齊處理,得到對齊處理后的目標(biāo)語種字幕文件;將音頻角色類型在原始音頻對應(yīng)的臺(tái)詞時(shí)間軸的語音音頻序號,添加至對齊后的目標(biāo)語種字幕文件中對應(yīng)臺(tái)詞的位置,得到配音語種字幕文件;基于文本轉(zhuǎn)語音模型,將配音語種字幕文件中各段臺(tái)詞時(shí)間軸的臺(tái)詞轉(zhuǎn)換為對應(yīng)的配音音頻,并根據(jù)多個(gè)配音音頻,生成原始音頻在目標(biāo)語音下對應(yīng)的配音文件。本發(fā)明大幅提高配音處理的效率和質(zhì)量。

      技術(shù)研發(fā)人員:李小梅,閆澤禹
      受保護(hù)的技術(shù)使用者:語聯(lián)網(wǎng)(武漢)信息技術(shù)有限公司
      技術(shù)研發(fā)日:
      技術(shù)公布日:2024/12/10
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
      1