本發(fā)明涉及音頻處理,尤其涉及一種配音方法及系統(tǒng)。
背景技術(shù):
1、在影視劇、動(dòng)畫片、紀(jì)錄片及其它多媒體作品的制作過程中,配音是一項(xiàng)至關(guān)重要的工作,尤其是在多角色對話場景中,不同角色的聲音需要精確同步,以確保觀眾能夠清晰理解對話內(nèi)容。
2、在實(shí)際操作中,由于每個(gè)配音演員的語速、語調(diào)和發(fā)音習(xí)慣存在差異,常常會(huì)導(dǎo)致多個(gè)角色的臺(tái)詞時(shí)長不一致。這種時(shí)長不匹配的問題,在后期處理過程中可能導(dǎo)致角色對話出現(xiàn)聲音重疊、語音沖突或配音與畫面不同步等問題,嚴(yán)重影響作品的整體質(zhì)量。
3、針對多角色配音中存在的問題,現(xiàn)有技術(shù)通常依賴于手動(dòng)調(diào)整,這需要音頻工程師對每個(gè)配音演員的錄音進(jìn)行細(xì)致的時(shí)間調(diào)整,以使不同角色的聲音不重疊。然而,這種手動(dòng)處理方式不僅耗時(shí)費(fèi)力,而且在處理復(fù)雜對話場景時(shí)容易出現(xiàn)誤差,難以保證配音的同步性和自然性。此外,手動(dòng)調(diào)整可能會(huì)在一定程度上改變角色的語調(diào)和情感表達(dá),導(dǎo)致配音質(zhì)量下降。因此,現(xiàn)在亟需一種配音方法及系統(tǒng)來解決上述問題。
技術(shù)實(shí)現(xiàn)思路
1、針對現(xiàn)有技術(shù)存在的問題,本發(fā)明提供一種配音方法及系統(tǒng)。
2、本發(fā)明提供一種配音方法,包括:
3、獲取目標(biāo)語種字幕文件和所述目標(biāo)語種字幕文件對應(yīng)的原始音頻,并對所述原始音頻中各段臺(tái)詞時(shí)間軸對應(yīng)的語音音頻進(jìn)行特征提取,得到音頻特征向量集合;
4、對所述音頻特征向量集合中的音頻特征向量進(jìn)行聚類處理,并根據(jù)聚類處理結(jié)果,確定所述原始音頻中各個(gè)臺(tái)詞時(shí)間軸的音頻角色類型;
5、將所述音頻角色類型與所述目標(biāo)語種字幕文件中對應(yīng)時(shí)間軸的臺(tái)詞進(jìn)行對齊處理,得到對齊處理后的目標(biāo)語種字幕文件;
6、將所述音頻角色類型在所述原始音頻對應(yīng)的臺(tái)詞時(shí)間軸的語音音頻序號,添加至所述對齊后的目標(biāo)語種字幕文件中對應(yīng)臺(tái)詞的位置,得到配音語種字幕文件;
7、基于文本轉(zhuǎn)語音模型,將所述配音語種字幕文件中各段臺(tái)詞時(shí)間軸的臺(tái)詞轉(zhuǎn)換為對應(yīng)的配音音頻,并根據(jù)多個(gè)所述配音音頻,生成所述原始音頻在目標(biāo)語音下對應(yīng)的配音文件。
8、根據(jù)本發(fā)明提供的一種配音方法,所述對所述原始音頻中各段臺(tái)詞時(shí)間軸對應(yīng)的語音音頻進(jìn)行特征提取,得到音頻特征向量集合,包括:
9、對所述原始音頻中各段臺(tái)詞時(shí)間軸的所述語音音頻標(biāo)注對應(yīng)的所述語音音頻序號,得到語音音頻序號標(biāo)注后的語音音頻;
10、提取各個(gè)所述語音音頻序號標(biāo)注后的語音音頻的梅爾倒譜系數(shù)特征;
11、將所述梅爾倒譜系數(shù)特征輸入至x-vector模型中,得到由所述x-vector模型輸出的所述音頻特征向量集合。
12、根據(jù)本發(fā)明提供的一種配音方法,所述對所述音頻特征向量集合中的音頻特征向量進(jìn)行聚類處理,包括:
13、基于層次聚類算法,對所述音頻特征向量集合中的所述音頻特征向量進(jìn)行聚類處理,得到各個(gè)所述音頻特征向量之間的相似度,并根據(jù)所述相似度和預(yù)設(shè)閾值,得到所述聚類處理結(jié)果。
14、根據(jù)本發(fā)明提供的一種配音方法,所述方法還包括:
15、獲取所述配音語種字幕文件中各段臺(tái)詞時(shí)間軸的所述語音音頻序號和所述音頻角色類型;
16、獲取原始語音音頻,其中,所述原始語音音頻為所述語音音頻序號在所述原始音頻中對應(yīng)的語音音頻;
17、獲取目標(biāo)配音音頻,其中,所述目標(biāo)配音音頻為所述原始語音音頻在所述配音語種字幕文件中對應(yīng)臺(tái)詞時(shí)間軸的配音音頻;
18、對所述原始語音音頻和所述目標(biāo)配音音頻進(jìn)行短時(shí)傅里葉變換,得到對應(yīng)的頻譜圖特征;
19、將所述頻譜圖特征輸入至個(gè)性化語音合成模型中,得到由所述個(gè)性化語音合成模型輸出的角色配音音頻,其中,所述個(gè)性化語音合成模型是基于transformer模型訓(xùn)練得到的。
20、根據(jù)本發(fā)明提供的一種配音方法,所述方法還包括:
21、基于數(shù)字信號處理技術(shù),對多個(gè)所述配音音頻進(jìn)行去噪處理,得到多個(gè)去噪處理后的配音音頻。
22、根據(jù)本發(fā)明提供的一種配音方法,在所述根據(jù)多個(gè)所述配音音頻,生成所述原始音頻在目標(biāo)語音下對應(yīng)的配音文件之前,所述方法還包括:
23、根據(jù)所述原始音頻中各個(gè)臺(tái)詞時(shí)間軸的時(shí)間軸長度信息和對應(yīng)的所述配音音頻的長度信息,得到時(shí)長比例結(jié)果;
24、根據(jù)所述時(shí)長比例結(jié)果,對所述配音音頻進(jìn)行線性插值處理,或在降低采樣率后進(jìn)行重采樣,得到處理后的配音音頻。
25、本發(fā)明還提供一種配音系統(tǒng),包括:
26、音頻獲取模塊,用于獲取目標(biāo)語種字幕文件和所述目標(biāo)語種字幕文件對應(yīng)的原始音頻,并對所述原始音頻中各段臺(tái)詞時(shí)間軸對應(yīng)的語音音頻進(jìn)行特征提取,得到音頻特征向量集合;
27、處理模塊,用于對所述音頻特征向量集合中的音頻特征向量進(jìn)行聚類處理,并根據(jù)聚類處理結(jié)果,確定所述原始音頻中各個(gè)臺(tái)詞時(shí)間軸的音頻角色類型;
28、匹配模塊,用于將所述音頻角色類型與所述目標(biāo)語種字幕文件中對應(yīng)時(shí)間軸的臺(tái)詞進(jìn)行對齊處理,得到對齊處理后的目標(biāo)語種字幕文件;
29、配音字幕文件生成模塊,用于將所述音頻角色類型在所述原始音頻對應(yīng)的臺(tái)詞時(shí)間軸的語音音頻序號,添加至所述對齊后的目標(biāo)語種字幕文件中對應(yīng)臺(tái)詞的位置,得到配音語種字幕文件;
30、配音音頻生成模塊,用于基于文本轉(zhuǎn)語音模型,將所述配音語種字幕文件中各段臺(tái)詞時(shí)間軸的臺(tái)詞轉(zhuǎn)換為對應(yīng)的配音音頻,并根據(jù)多個(gè)所述配音音頻,生成所述原始音頻在目標(biāo)語音下對應(yīng)的配音文件。
31、本發(fā)明還提供一種電子設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)如上述任一種所述配音方法。
32、本發(fā)明還提供一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述任一種所述配音方法。
33、本發(fā)明還提供一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述任一種所述配音方法。
34、本發(fā)明提供的配音方法及系統(tǒng),能夠自動(dòng)化地調(diào)整配音語速并精確匹配臺(tái)詞時(shí)長,通過智能算法實(shí)現(xiàn)多角色對話中的音頻同步處理,從而消除聲音重疊和語音沖突問題,大幅提高配音處理的效率和質(zhì)量。
1.一種配音方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的配音方法,其特征在于,所述對所述原始音頻中各段臺(tái)詞時(shí)間軸對應(yīng)的語音音頻進(jìn)行特征提取,得到音頻特征向量集合,包括:
3.根據(jù)權(quán)利要求1所述的配音方法,其特征在于,所述對所述音頻特征向量集合中的音頻特征向量進(jìn)行聚類處理,包括:
4.根據(jù)權(quán)利要求1所述的配音方法,其特征在于,所述方法還包括:
5.根據(jù)權(quán)利要求1所述的配音方法,其特征在于,所述方法還包括:
6.根據(jù)權(quán)利要求1所述的配音方法,其特征在于,在所述根據(jù)多個(gè)所述配音音頻,生成所述原始音頻在目標(biāo)語音下對應(yīng)的配音文件之前,所述方法還包括:
7.一種配音系統(tǒng),其特征在于,包括:
8.一種電子設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如權(quán)利要求1至6任一項(xiàng)所述配音方法。
9.一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至6任一項(xiàng)所述配音方法。
10.一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至6任一項(xiàng)所述配音方法。