本發(fā)明涉及音頻轉(zhuǎn)換領(lǐng)域,特別是涉及一種音頻處理方法及裝置、電子設(shè)備、存儲(chǔ)介質(zhì)。
背景技術(shù):
1、音色轉(zhuǎn)換(voice?conversion),是利用機(jī)器學(xué)習(xí)算法將一段語(yǔ)音中的聲線變換為另一個(gè)人(目標(biāo)人)的聲線,內(nèi)容不變,盡可能接近目標(biāo)人的個(gè)人特色;歌聲轉(zhuǎn)換則是音色轉(zhuǎn)換范疇內(nèi)進(jìn)一步的細(xì)分領(lǐng)域,是進(jìn)一步要求轉(zhuǎn)換后的語(yǔ)音保持輸入語(yǔ)音的旋律,本質(zhì)上是要求控制輸出語(yǔ)音的瞬時(shí)音高變化與原輸入語(yǔ)音相同。
2、目前業(yè)內(nèi)主流的音色轉(zhuǎn)換技術(shù),已經(jīng)發(fā)展到“任意人到目標(biāo)人”的轉(zhuǎn)換,即用少量目標(biāo)人的隨意錄音訓(xùn)練好目標(biāo)人的轉(zhuǎn)換模型后,輸入任意人的語(yǔ)音都能直接轉(zhuǎn)換成該目標(biāo)人的語(yǔ)音;歌聲轉(zhuǎn)換則是在通用音色轉(zhuǎn)換方案的基礎(chǔ)上,加上音高控制功能,相關(guān)技術(shù)中,一般是通過相應(yīng)轉(zhuǎn)換模型獲取目標(biāo)人的譜特征,并對(duì)原始音高進(jìn)行外部提取與調(diào)整,進(jìn)而獲取調(diào)整后的音高相對(duì)應(yīng)的周期性信號(hào),最后將譜特征與周期性信號(hào)輸入到聲碼器之中完成由任意人歌聲到目標(biāo)人歌聲的歌聲轉(zhuǎn)換。
3、相關(guān)技術(shù)在進(jìn)行歌聲轉(zhuǎn)換時(shí)一般采用的是支持外部控制修改音高的聲碼器,然而,在應(yīng)用支持外部控制修改音高的聲碼器時(shí),對(duì)原始音高進(jìn)行外部調(diào)整后生成并輸入聲碼器中的周期性信號(hào)與原來輸入的譜特征往往沒有任何聯(lián)系,可能會(huì)對(duì)輸入到聲碼器之后的歌聲轉(zhuǎn)換效果產(chǎn)生負(fù)面影響;此外,周期性信號(hào)本身的幾何形狀也存在過于理想化/平滑化的問題,事實(shí)上,人體聲帶振動(dòng)時(shí)發(fā)出的音頻波形并不是理想的周期性波形,而是一定程度上呈現(xiàn)準(zhǔn)周期性的雜亂波形,機(jī)器學(xué)習(xí)時(shí)若過于平滑化會(huì)導(dǎo)致喪失細(xì)節(jié),而個(gè)人的發(fā)音特色往往就隱藏在發(fā)音細(xì)節(jié)里,進(jìn)而導(dǎo)致生成歌聲的擬人度相較于原始的音色轉(zhuǎn)換聲碼器有相當(dāng)程度的減損,影響歌聲轉(zhuǎn)換的實(shí)際效果。
技術(shù)實(shí)現(xiàn)思路
1、鑒于上述問題,提出了以便提供克服上述問題或者至少部分地解決上述問題的一種音頻處理方法及裝置、電子設(shè)備、存儲(chǔ)介質(zhì),包括:
2、一種音頻處理的方法,所述方法包括:
3、獲取第一音頻數(shù)據(jù)和針對(duì)所述第一音頻數(shù)據(jù)選取的目標(biāo)音色信息,并根據(jù)所述目標(biāo)音色信息,對(duì)所述第一音頻數(shù)據(jù)進(jìn)行處理,得到譜特征;
4、根據(jù)所述譜特征,確定周期性信號(hào)修正系數(shù);
5、獲取所述第一音頻數(shù)據(jù)的音高數(shù)據(jù),并采用所述周期性信號(hào)修正系數(shù),對(duì)所述音高數(shù)據(jù)進(jìn)行轉(zhuǎn)換,得到周期性信號(hào);
6、根據(jù)所述周期性信號(hào)和所述譜特征,生成第二音頻數(shù)據(jù)。
7、可選的,所述根據(jù)所述目標(biāo)音色信息,對(duì)所述第一音頻數(shù)據(jù)進(jìn)行處理,得到譜特征,包括:
8、根據(jù)所述目標(biāo)音色信息,確定所述目標(biāo)音色信息相對(duì)應(yīng)的音色轉(zhuǎn)換模型;
9、對(duì)所述第一音頻數(shù)據(jù)進(jìn)行發(fā)音內(nèi)容提取,獲取所述第一音頻數(shù)據(jù)的發(fā)音內(nèi)容向量;
10、將所述發(fā)音內(nèi)容向量發(fā)送至所述音色轉(zhuǎn)換模型,獲取所述音色轉(zhuǎn)換模型輸出的所述譜特征。
11、可選的,所述采用所述周期性信號(hào)修正系數(shù),對(duì)所述音高數(shù)據(jù)進(jìn)行轉(zhuǎn)換,得到周期性信號(hào),包括:
12、根據(jù)所述音高數(shù)據(jù),確定所述第一音頻數(shù)據(jù)的音高序列;
13、根據(jù)所述周期性信號(hào)修正系數(shù),對(duì)預(yù)設(shè)的周期性信號(hào)轉(zhuǎn)換關(guān)系進(jìn)行修正,并采用修正后的周期性信號(hào)轉(zhuǎn)換關(guān)系,對(duì)所述音高序列進(jìn)行轉(zhuǎn)換,得到所述周期性信號(hào)。
14、可選的,所述采用修正后的周期性信號(hào)轉(zhuǎn)換關(guān)系,對(duì)所述音高序列進(jìn)行轉(zhuǎn)換,得到所述周期性信號(hào),包括:
15、獲取所述音高序列中的幀數(shù)與所述第一音頻數(shù)據(jù)的采樣率,并根據(jù)所述音高序列中的幀數(shù)與所述第一音頻數(shù)據(jù)的采樣率確定所述音高序列中首幀至尾幀的瞬時(shí)音高累加和;
16、采用修正后的周期性信號(hào)轉(zhuǎn)換關(guān)系,對(duì)所述瞬時(shí)音高累加和進(jìn)行轉(zhuǎn)換,得到所述周期性信號(hào)。
17、可選的,所述修正后的周期性信號(hào)轉(zhuǎn)換關(guān)系為由所述周期性信號(hào)修正系數(shù)進(jìn)行修正后的泰勒公式,所述采用修正后的周期性信號(hào)轉(zhuǎn)換關(guān)系,對(duì)所述瞬時(shí)音高累加和進(jìn)行轉(zhuǎn)換,得到所述周期性信號(hào),包括:
18、獲取所述泰勒公式中多項(xiàng)式的預(yù)設(shè)項(xiàng)數(shù),并根據(jù)所述多項(xiàng)式的預(yù)設(shè)項(xiàng)數(shù)確定所述泰勒公式的最高階數(shù);
19、根據(jù)所述泰勒公式的最高階數(shù),對(duì)所述瞬時(shí)音高累加和進(jìn)行轉(zhuǎn)換,得到所述周期性信號(hào)。
20、可選的,所述周期性信號(hào)修正系數(shù)通過將所述譜特征輸入預(yù)設(shè)神經(jīng)網(wǎng)絡(luò)模塊進(jìn)行確定。
21、可選的,所述根據(jù)所述周期性信號(hào)與所述譜特征,生成所述第二音頻數(shù)據(jù),包括:
22、將所述周期性信號(hào)與所述譜特征輸入聲碼器中進(jìn)行擬合,并獲取所述聲碼器擬合生成的所述第二音頻數(shù)據(jù)。
23、一種音頻處理的裝置,所述裝置包括:
24、譜特征獲取模塊,用于獲取第一音頻數(shù)據(jù)和針對(duì)所述第一音頻數(shù)據(jù)選取的目標(biāo)音色信息,并根據(jù)所述目標(biāo)音色信息,對(duì)所述第一音頻數(shù)據(jù)進(jìn)行處理,得到譜特征;
25、周期性信號(hào)修正系數(shù)確定模塊,用于根據(jù)所述譜特征,確定周期性信號(hào)修正系數(shù);
26、周期性信號(hào)確定模塊,用于獲取所述第一音頻數(shù)據(jù)的音高數(shù)據(jù),并采用所述周期性信號(hào)修正系數(shù),對(duì)所述音高數(shù)據(jù)進(jìn)行轉(zhuǎn)換,得到周期性信號(hào);
27、第二音頻數(shù)據(jù)生成模塊,用于根據(jù)所述周期性信號(hào)和所述譜特征,生成第二音頻數(shù)據(jù)。
28、一種電子設(shè)備,包括處理器、存儲(chǔ)器及存儲(chǔ)在所述存儲(chǔ)器上并能夠在所述處理器上運(yùn)行的計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被所述處理器執(zhí)行時(shí)實(shí)現(xiàn)如上所述的音頻處理的方法。
29、一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上存儲(chǔ)計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上所述的音頻處理的方法。
30、本發(fā)明實(shí)施例具有以下優(yōu)點(diǎn):
31、在本發(fā)明實(shí)施例中,通過獲取第一音頻數(shù)據(jù)和針對(duì)第一音頻數(shù)據(jù)選取的目標(biāo)音色信息,并根據(jù)目標(biāo)音色信息對(duì)第一音頻數(shù)據(jù)進(jìn)行處理,得到譜特征;進(jìn)而根據(jù)譜特征確定周期性信號(hào)修正系數(shù);并在獲取第一音頻數(shù)據(jù)的音高數(shù)據(jù)后,采用周期性信號(hào)修正系數(shù)對(duì)音高數(shù)據(jù)進(jìn)行轉(zhuǎn)換,得到周期性信號(hào);從而根據(jù)周期性信號(hào)和譜特征生成第二音頻數(shù)據(jù)的方式,實(shí)現(xiàn)了將對(duì)原始音頻的音高進(jìn)行外部調(diào)整后生成并輸入聲碼器中的周期性信號(hào)與譜特征聯(lián)系起來,并通過引入與譜特征相關(guān)聯(lián)的周期性信號(hào)修正系數(shù)的方式來根據(jù)譜特征微調(diào)準(zhǔn)周期性信號(hào)的形狀細(xì)節(jié),解決了周期性信號(hào)自身幾何形狀過于理想化/平滑化的問題,改善了聲碼器在進(jìn)行歌聲轉(zhuǎn)換時(shí)的擬合精度,提高了歌聲轉(zhuǎn)換后生成的目標(biāo)音頻的擬人度,提升了歌聲轉(zhuǎn)換的實(shí)際效果。
1.一種音頻處理的方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述目標(biāo)音色信息,對(duì)所述第一音頻數(shù)據(jù)進(jìn)行處理,得到譜特征,包括:
3.根據(jù)權(quán)利要求1或2所述的方法,其特征在于,所述采用所述周期性信號(hào)修正系數(shù),對(duì)所述音高數(shù)據(jù)進(jìn)行轉(zhuǎn)換,得到周期性信號(hào),包括:
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述采用修正后的周期性信號(hào)轉(zhuǎn)換關(guān)系,對(duì)所述音高序列進(jìn)行轉(zhuǎn)換,得到所述周期性信號(hào),包括:
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述修正后的周期性信號(hào)轉(zhuǎn)換關(guān)系為由所述周期性信號(hào)修正系數(shù)進(jìn)行修正后的泰勒公式,所述采用修正后的周期性信號(hào)轉(zhuǎn)換關(guān)系,對(duì)所述瞬時(shí)音高累加和進(jìn)行轉(zhuǎn)換,得到所述周期性信號(hào),包括:
6.根據(jù)權(quán)利要求1或2所述的方法,其特征在于,所述周期性信號(hào)修正系數(shù)通過將所述譜特征輸入預(yù)設(shè)神經(jīng)網(wǎng)絡(luò)模塊進(jìn)行確定。
7.根據(jù)權(quán)利要求1或2所述的方法,其特征在于,所述根據(jù)所述周期性信號(hào)與所述譜特征,生成所述第二音頻數(shù)據(jù),包括:
8.一種音頻處理的裝置,其特征在于,所述裝置包括:
9.一種電子設(shè)備,其特征在于,包括處理器、存儲(chǔ)器及存儲(chǔ)在所述存儲(chǔ)器上并能夠在所述處理器上運(yùn)行的計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被所述處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至7中任一項(xiàng)所述的音頻處理的方法。
10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上存儲(chǔ)計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至7中任一項(xiàng)所述的音頻處理的方法。