配音方法及系統(tǒng)與流程

文檔序號：40283285發(fā)布日期：2024-12-11 13:25閱讀：44來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本發(fā)明涉及音頻處理，尤其涉及一種配音方法及系統(tǒng)。

背景技術(shù)：

1、在影視劇、動(dòng)畫片、紀(jì)錄片及其它多媒體作品的制作過程中，配音是一項(xiàng)至關(guān)重要的工作，尤其是在多角色對話場景中，不同角色的聲音需要精確同步，以確保觀眾能夠清晰理解對話內(nèi)容。

2、在實(shí)際操作中，由于每個(gè)配音演員的語速、語調(diào)和發(fā)音習(xí)慣存在差異，常常會(huì)導(dǎo)致多個(gè)角色的臺(tái)詞時(shí)長不一致。這種時(shí)長不匹配的問題，在后期處理過程中可能導(dǎo)致角色對話出現(xiàn)聲音重疊、語音沖突或配音與畫面不同步等問題，嚴(yán)重影響作品的整體質(zhì)量。

3、針對多角色配音中存在的問題，現(xiàn)有技術(shù)通常依賴于手動(dòng)調(diào)整，這需要音頻工程師對每個(gè)配音演員的錄音進(jìn)行細(xì)致的時(shí)間調(diào)整，以使不同角色的聲音不重疊。然而，這種手動(dòng)處理方式不僅耗時(shí)費(fèi)力，而且在處理復(fù)雜對話場景時(shí)容易出現(xiàn)誤差，難以保證配音的同步性和自然性。此外，手動(dòng)調(diào)整可能會(huì)在一定程度上改變角色的語調(diào)和情感表達(dá)，導(dǎo)致配音質(zhì)量下降。因此，現(xiàn)在亟需一種配音方法及系統(tǒng)來解決上述問題。

技術(shù)實(shí)現(xiàn)思路

1、針對現(xiàn)有技術(shù)存在的問題，本發(fā)明提供一種配音方法及系統(tǒng)。

2、本發(fā)明提供一種配音方法，包括：

3、獲取目標(biāo)語種字幕文件和所述目標(biāo)語種字幕文件對應(yīng)的原始音頻，并對所述原始音頻中各段臺(tái)詞時(shí)間軸對應(yīng)的語音音頻進(jìn)行特征提取，得到音頻特征向量集合；

4、對所述音頻特征向量集合中的音頻特征向量進(jìn)行聚類處理，并根據(jù)聚類處理結(jié)果，確定所述原始音頻中各個(gè)臺(tái)詞時(shí)間軸的音頻角色類型；

5、將所述音頻角色類型與所述目標(biāo)語種字幕文件中對應(yīng)時(shí)間軸的臺(tái)詞進(jìn)行對齊處理，得到對齊處理后的目標(biāo)語種字幕文件；

6、將所述音頻角色類型在所述原始音頻對應(yīng)的臺(tái)詞時(shí)間軸的語音音頻序號，添加至所述對齊后的目標(biāo)語種字幕文件中對應(yīng)臺(tái)詞的位置，得到配音語種字幕文件；

7、基于文本轉(zhuǎn)語音模型，將所述配音語種字幕文件中各段臺(tái)詞時(shí)間軸的臺(tái)詞轉(zhuǎn)換為對應(yīng)的配音音頻，并根據(jù)多個(gè)所述配音音頻，生成所述原始音頻在目標(biāo)語音下對應(yīng)的配音文件。

8、根據(jù)本發(fā)明提供的一種配音方法，所述對所述原始音頻中各段臺(tái)詞時(shí)間軸對應(yīng)的語音音頻進(jìn)行特征提取，得到音頻特征向量集合，包括：

9、對所述原始音頻中各段臺(tái)詞時(shí)間軸的所述語音音頻標(biāo)注對應(yīng)的所述語音音頻序號，得到語音音頻序號標(biāo)注后的語音音頻；

10、提取各個(gè)所述語音音頻序號標(biāo)注后的語音音頻的梅爾倒譜系數(shù)特征；

11、將所述梅爾倒譜系數(shù)特征輸入至x-vector模型中，得到由所述x-vector模型輸出的所述音頻特征向量集合。

12、根據(jù)本發(fā)明提供的一種配音方法，所述對所述音頻特征向量集合中的音頻特征向量進(jìn)行聚類處理，包括：

13、基于層次聚類算法，對所述音頻特征向量集合中的所述音頻特征向量進(jìn)行聚類處理，得到各個(gè)所述音頻特征向量之間的相似度，并根據(jù)所述相似度和預(yù)設(shè)閾值，得到所述聚類處理結(jié)果。

14、根據(jù)本發(fā)明提供的一種配音方法，所述方法還包括：

15、獲取所述配音語種字幕文件中各段臺(tái)詞時(shí)間軸的所述語音音頻序號和所述音頻角色類型；

16、獲取原始語音音頻，其中，所述原始語音音頻為所述語音音頻序號在所述原始音頻中對應(yīng)的語音音頻；

17、獲取目標(biāo)配音音頻，其中，所述目標(biāo)配音音頻為所述原始語音音頻在所述配音語種字幕文件中對應(yīng)臺(tái)詞時(shí)間軸的配音音頻；

18、對所述原始語音音頻和所述目標(biāo)配音音頻進(jìn)行短時(shí)傅里葉變換，得到對應(yīng)的頻譜圖特征；

19、將所述頻譜圖特征輸入至個(gè)性化語音合成模型中，得到由所述個(gè)性化語音合成模型輸出的角色配音音頻，其中，所述個(gè)性化語音合成模型是基于transformer模型訓(xùn)練得到的。

20、根據(jù)本發(fā)明提供的一種配音方法，所述方法還包括：

21、基于數(shù)字信號處理技術(shù)，對多個(gè)所述配音音頻進(jìn)行去噪處理，得到多個(gè)去噪處理后的配音音頻。

22、根據(jù)本發(fā)明提供的一種配音方法，在所述根據(jù)多個(gè)所述配音音頻，生成所述原始音頻在目標(biāo)語音下對應(yīng)的配音文件之前，所述方法還包括：

23、根據(jù)所述原始音頻中各個(gè)臺(tái)詞時(shí)間軸的時(shí)間軸長度信息和對應(yīng)的所述配音音頻的長度信息，得到時(shí)長比例結(jié)果；

24、根據(jù)所述時(shí)長比例結(jié)果，對所述配音音頻進(jìn)行線性插值處理，或在降低采樣率后進(jìn)行重采樣，得到處理后的配音音頻。

25、本發(fā)明還提供一種配音系統(tǒng)，包括：

26、音頻獲取模塊，用于獲取目標(biāo)語種字幕文件和所述目標(biāo)語種字幕文件對應(yīng)的原始音頻，并對所述原始音頻中各段臺(tái)詞時(shí)間軸對應(yīng)的語音音頻進(jìn)行特征提取，得到音頻特征向量集合；

27、處理模塊，用于對所述音頻特征向量集合中的音頻特征向量進(jìn)行聚類處理，并根據(jù)聚類處理結(jié)果，確定所述原始音頻中各個(gè)臺(tái)詞時(shí)間軸的音頻角色類型；

28、匹配模塊，用于將所述音頻角色類型與所述目標(biāo)語種字幕文件中對應(yīng)時(shí)間軸的臺(tái)詞進(jìn)行對齊處理，得到對齊處理后的目標(biāo)語種字幕文件；

29、配音字幕文件生成模塊，用于將所述音頻角色類型在所述原始音頻對應(yīng)的臺(tái)詞時(shí)間軸的語音音頻序號，添加至所述對齊后的目標(biāo)語種字幕文件中對應(yīng)臺(tái)詞的位置，得到配音語種字幕文件；

30、配音音頻生成模塊，用于基于文本轉(zhuǎn)語音模型，將所述配音語種字幕文件中各段臺(tái)詞時(shí)間軸的臺(tái)詞轉(zhuǎn)換為對應(yīng)的配音音頻，并根據(jù)多個(gè)所述配音音頻，生成所述原始音頻在目標(biāo)語音下對應(yīng)的配音文件。

31、本發(fā)明還提供一種電子設(shè)備，包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序，所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)如上述任一種所述配音方法。

32、本發(fā)明還提供一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其上存儲(chǔ)有計(jì)算機(jī)程序，該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述任一種所述配音方法。

33、本發(fā)明還提供一種計(jì)算機(jī)程序產(chǎn)品，包括計(jì)算機(jī)程序，所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述任一種所述配音方法。

34、本發(fā)明提供的配音方法及系統(tǒng)，能夠自動(dòng)化地調(diào)整配音語速并精確匹配臺(tái)詞時(shí)長，通過智能算法實(shí)現(xiàn)多角色對話中的音頻同步處理，從而消除聲音重疊和語音沖突問題，大幅提高配音處理的效率和質(zhì)量。

技術(shù)特征：

1.一種配音方法，其特征在于，包括：

2.根據(jù)權(quán)利要求1所述的配音方法，其特征在于，所述對所述原始音頻中各段臺(tái)詞時(shí)間軸對應(yīng)的語音音頻進(jìn)行特征提取，得到音頻特征向量集合，包括：

3.根據(jù)權(quán)利要求1所述的配音方法，其特征在于，所述對所述音頻特征向量集合中的音頻特征向量進(jìn)行聚類處理，包括：

4.根據(jù)權(quán)利要求1所述的配音方法，其特征在于，所述方法還包括：

5.根據(jù)權(quán)利要求1所述的配音方法，其特征在于，所述方法還包括：

6.根據(jù)權(quán)利要求1所述的配音方法，其特征在于，在所述根據(jù)多個(gè)所述配音音頻，生成所述原始音頻在目標(biāo)語音下對應(yīng)的配音文件之前，所述方法還包括：

7.一種配音系統(tǒng)，其特征在于，包括：

8.一種電子設(shè)備，包括存儲(chǔ)器、處理器及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序，其特征在于，所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如權(quán)利要求1至6任一項(xiàng)所述配音方法。

9.一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其上存儲(chǔ)有計(jì)算機(jī)程序，其特征在于，所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至6任一項(xiàng)所述配音方法。

10.一種計(jì)算機(jī)程序產(chǎn)品，包括計(jì)算機(jī)程序，其特征在于，所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至6任一項(xiàng)所述配音方法。

技術(shù)總結(jié)
本發(fā)明提供一種配音方法及系統(tǒng)，該方法包括：對原始音頻中各段臺(tái)詞時(shí)間軸對應(yīng)的語音音頻進(jìn)行特征提取，得到音頻特征向量集合；對音頻特征向量進(jìn)行聚類處理，確定原始音頻中各個(gè)臺(tái)詞時(shí)間軸的音頻角色類型；將音頻角色類型與目標(biāo)語種字幕文件中對應(yīng)時(shí)間軸的臺(tái)詞進(jìn)行對齊處理，得到對齊處理后的目標(biāo)語種字幕文件；將音頻角色類型在原始音頻對應(yīng)的臺(tái)詞時(shí)間軸的語音音頻序號，添加至對齊后的目標(biāo)語種字幕文件中對應(yīng)臺(tái)詞的位置，得到配音語種字幕文件；基于文本轉(zhuǎn)語音模型，將配音語種字幕文件中各段臺(tái)詞時(shí)間軸的臺(tái)詞轉(zhuǎn)換為對應(yīng)的配音音頻，并根據(jù)多個(gè)配音音頻，生成原始音頻在目標(biāo)語音下對應(yīng)的配音文件。本發(fā)明大幅提高配音處理的效率和質(zhì)量。

技術(shù)研發(fā)人員：李小梅,閆澤禹
受保護(hù)的技術(shù)使用者：語聯(lián)網(wǎng)（武漢）信息技術(shù)有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2024/12/10

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：李小梅,閆澤禹
技術(shù)所有人：語聯(lián)網(wǎng)（武漢）信息技術(shù)有限公司
我是此專利的發(fā)明人

上一篇：一種基于多聲源定位的自適應(yīng)拾音方法及系統(tǒng)與流程
上一篇：一種快速測試電阻電橋的夾具的制作方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

配音方法及系統(tǒng)與流程