本發(fā)明涉及音頻編解碼,具體涉及一種基于伴奏分離和人聲分離的戲曲人聲提取方法及系統(tǒng)。
背景技術(shù):
1、現(xiàn)有技術(shù)是在聲音合成中,使用流形變換(glow)、變分自編碼器(vae)和gan等技術(shù)實(shí)現(xiàn)聲音合成與生成聲音模型。
2、變分自編碼器(variational?autoencoders,vae)是使用學(xué)習(xí)到的近似做推理,并且能夠用基于梯度的優(yōu)化方法來(lái)訓(xùn)練的有向模型。變分自編碼器是自編碼器中獲得廣泛應(yīng)用的一種類(lèi)型。
3、gan(generative?adversarial?networks)為生成對(duì)抗網(wǎng)絡(luò),是一種生成模型,相比于其他生成模型,gan具有更高的生成能力和更好的生成效果,因此受到了廣泛的關(guān)注和研究。gan的基本思想是通過(guò)讓兩個(gè)神經(jīng)網(wǎng)絡(luò)相互對(duì)抗,從而學(xué)習(xí)到數(shù)據(jù)的分布。其中一個(gè)神經(jīng)網(wǎng)絡(luò)被稱(chēng)為生成器(generator),它的目標(biāo)是生成與真實(shí)數(shù)據(jù)相似的假數(shù)據(jù)。另一個(gè)神經(jīng)網(wǎng)絡(luò)被稱(chēng)為判別器(discrimi?nator),它的目標(biāo)是區(qū)分真實(shí)數(shù)據(jù)和假數(shù)據(jù)。兩個(gè)網(wǎng)絡(luò)相互對(duì)抗,不斷調(diào)整參數(shù),從而最終生成具有高質(zhì)量和多樣性的假數(shù)據(jù)。
4、為了提高聲音合成的多樣性,現(xiàn)有技術(shù)還通過(guò)隱變量而非頻譜串聯(lián)起來(lái)語(yǔ)音合成中的聲學(xué)模型和聲碼器,在隱變量上進(jìn)行隨機(jī)建模并利用隨機(jī)時(shí)長(zhǎng)預(yù)測(cè)器,從而提高了合成聲音的多樣性,輸入同樣的文本,能夠合成不同聲調(diào)和韻律的聲音。
5、但是戲曲使用此類(lèi)技術(shù)生成人聲模型時(shí),由于戲曲人聲唱腔特殊,與二胡聲頻率相似,因此在經(jīng)過(guò)變自分編碼器(vae)時(shí),容易出現(xiàn)采樣錯(cuò)誤,從而導(dǎo)致人聲模型中出現(xiàn)二胡聲,最終影響人聲模型的聲音質(zhì)量。
技術(shù)實(shí)現(xiàn)思路
1、為了克服現(xiàn)有技術(shù)的不足,本發(fā)明提供一種基于伴奏分離和人聲分離的戲曲人聲提取方法及系統(tǒng),用于解決戲曲人聲與二胡聲難以分離的技術(shù)問(wèn)題,達(dá)到提高人聲模型的聲音質(zhì)量的目的。
2、為解決上述問(wèn)題,本發(fā)明所采用的技術(shù)方案如下:
3、一種基于伴奏分離和人聲分離的戲曲人聲提取方法,包括以下步驟:
4、在若干音頻數(shù)據(jù)中篩選出包含戲曲人聲的音頻數(shù)據(jù),并基于所述包含戲曲人聲的音頻數(shù)據(jù)形成目標(biāo)音頻數(shù)據(jù)集;
5、將所述目標(biāo)音頻數(shù)據(jù)集采用基于頻率特征的分離方法進(jìn)行伴奏分離,得到分離音頻數(shù)據(jù)集;
6、對(duì)所述分離音頻數(shù)據(jù)集采用基于音色的人聲分離方法進(jìn)行戲曲人聲分離,得到戲曲人聲數(shù)據(jù)集;
7、將所述戲曲人聲數(shù)據(jù)集輸入到cvae編碼器篩選戲曲人聲,并形成隱空間特征集;
8、基于外部條件通過(guò)解碼器從所述隱空間特征集提取隱空間特征點(diǎn),并基于所述隱空間特征點(diǎn)輸出戲曲人聲。
9、作為本發(fā)明優(yōu)選的實(shí)施方式,在采用基于頻率特征的分離方法進(jìn)行伴奏分離時(shí),包括:
10、對(duì)所述目標(biāo)音頻數(shù)據(jù)集的信號(hào)進(jìn)行短時(shí)傅里葉變換和相位提取,得到所述目標(biāo)音頻數(shù)據(jù)集的相位;
11、使用非精確拉格朗日乘子算法得到第一低秩矩陣和第一稀疏矩陣;
12、將所述第一低秩矩陣、所述第一稀疏矩陣與所述目標(biāo)音頻數(shù)據(jù)集的相位進(jìn)行結(jié)合,得到第二低秩矩陣和第二稀疏矩陣;
13、將所述第二低秩矩陣和所述第二稀疏矩陣進(jìn)行短時(shí)傅里葉逆變換,分離出伴奏時(shí)域信號(hào)和非伴奏時(shí)域信號(hào);
14、對(duì)所述伴奏時(shí)域信號(hào)和所述非伴奏時(shí)域信號(hào)進(jìn)行特征參數(shù)提取、獲取相似矩陣,并基于所述相似矩陣得到反復(fù)結(jié)構(gòu)模型;
15、基于所述反復(fù)結(jié)構(gòu)模型得到第一伴奏的幅度譜和第二伴奏的幅度譜,并進(jìn)一步得到第一伴奏的掩蔽矩陣和第二伴奏的掩蔽矩陣;
16、基于所述第一伴奏的掩蔽矩陣和所述第二伴奏的掩蔽矩陣,得到伴奏和所述分離音頻數(shù)據(jù)集。
17、作為本發(fā)明優(yōu)選的實(shí)施方式,在得到所述目標(biāo)音頻數(shù)據(jù)集的相位時(shí),如公式1所示:
18、q=phase(f)?(1);
19、式中,q為所述目標(biāo)音頻數(shù)據(jù)集的相位,f為進(jìn)行短時(shí)傅里葉變換后所得到的音頻數(shù)據(jù)集的信號(hào);
20、在得到第一低秩矩陣和第一稀疏矩陣時(shí),包括:
21、使用非精確拉格朗日乘子算法對(duì)帶有懲罰項(xiàng)的拉格朗日函數(shù)進(jìn)行優(yōu)化,得到所述第一低秩矩陣sl和所述第一稀疏矩陣wl;
22、所述帶有懲罰項(xiàng)的拉格朗日函數(shù),如公式2所示:
23、
24、式中,s為低秩矩陣,w為稀疏矩陣;μ為低秩矩陣和稀疏矩陣之間的折中系數(shù),||||.為核范數(shù),||||1為1范數(shù),u為拉格朗日乘子,ν為非負(fù)的懲罰項(xiàng)參數(shù),<>為內(nèi)積,f為觀(guān)測(cè)矩陣,
25、作為本發(fā)明優(yōu)選的實(shí)施方式,在得到第二低秩矩陣和第二稀疏矩陣的幅度譜時(shí),包括:
26、將所述第一低秩矩陣sl與所述目標(biāo)音頻數(shù)據(jù)集的相位進(jìn)行結(jié)合,如公式3所示:
27、sl(m,n)=slejq(m,n)?(3);
28、式中,j為幀數(shù),m=1…n1,n=1…n1;
29、將所述第一稀疏矩陣wl與所述目標(biāo)音頻數(shù)據(jù)集的相位q進(jìn)行結(jié)合,如公式4所示:
30、wl(m,n)=wlejq(m,n)?(4)。
31、作為本發(fā)明優(yōu)選的實(shí)施方式,在對(duì)所述伴奏時(shí)域信號(hào)和所述非伴奏時(shí)域信號(hào)進(jìn)行特征參數(shù)提取時(shí),包括:
32、根據(jù)mfcc系數(shù)獲取一階差分,如公式5所示:
33、
34、式中,fy為第y個(gè)一階差分,vy為第y個(gè)mfcc系數(shù),p為mfcc系數(shù)階數(shù),l為一階導(dǎo)數(shù)的時(shí)間差;
35、將所述公式5的結(jié)果再代回所述公式5,得到二階差分,如公式6所示:
36、
37、式中,z為第z個(gè)mel濾波器(共有z個(gè)),m為dft后的譜線(xiàn)個(gè)數(shù),d(z)為對(duì)數(shù)能量;
38、將所述一階差分、所述二階差分、所述mfcc系數(shù)以及所述對(duì)數(shù)能量進(jìn)行組合得到所述特征參數(shù)。
39、作為本發(fā)明優(yōu)選的實(shí)施方式,在獲取相似矩陣時(shí),包括:
40、對(duì)所述特征參數(shù)進(jìn)行相似運(yùn)算,并通過(guò)余弦相似性得到所述相似矩陣,如公式7所示:
41、
42、式中,o為頻率點(diǎn),z為mfcc參數(shù)維數(shù),k為幀數(shù),a(o,kc)、a(o,kd)為第o幀、第kc譜線(xiàn)和第o幀、第kd譜線(xiàn)下mfcc參數(shù)矩陣;
43、在基于所述相似矩陣得到反復(fù)結(jié)構(gòu)模型時(shí),包括:
44、將所述相似矩陣與對(duì)應(yīng)幅度譜進(jìn)行比較,提取幅度譜上與所述相似矩陣偏差小于閾值的部分,所述部分構(gòu)成一個(gè)重復(fù)模式,并利用中值濾波捕獲;
45、將所有捕獲到的重復(fù)模式進(jìn)行結(jié)合,分別建立第一反復(fù)結(jié)構(gòu)模型和第二反復(fù)結(jié)構(gòu)模型,如公式8和公式9所示:
46、
47、式中,o為頻率點(diǎn),k為幀數(shù),median[]為中值濾波器,sl()為低秩矩陣,o為頻率點(diǎn),kk(a)為具有相同反復(fù)結(jié)構(gòu)片段組成的向量,k為幀數(shù),a為第a個(gè)重復(fù)片段,j為片段數(shù)量。
48、作為本發(fā)明優(yōu)選的實(shí)施方式,在獲取第一伴奏的幅度譜和第二伴奏的幅度譜時(shí),包括:
49、將低秩矩陣的幅度譜和稀疏矩陣的幅度譜與所述第一反復(fù)結(jié)構(gòu)模型和所述第二反復(fù)結(jié)構(gòu)模型采用最小函數(shù)進(jìn)行比較,得到所述第一伴奏的幅度譜和所述第二伴奏的幅度譜,如公式10和公式11所示:
50、b1(o,k)=min{dr(o,k),wl(o,k)}?(10);
51、b2(o,k)=min{ds(o,k),sl(o,k)}?(11);
52、式中,b1(o,k)為所述第一伴奏的幅度譜,b2(o,k)為所述第二伴奏的幅度譜,wl(o,k)為稀疏矩陣的幅度譜,sl(o,k)為低秩矩陣的幅度譜。
53、在得到第一伴奏的掩蔽矩陣和第二伴奏的掩蔽矩陣時(shí),包括:
54、通過(guò)所述低秩矩陣的幅度譜對(duì)所述第一伴奏的幅度譜進(jìn)行歸一化,通過(guò)所述稀疏矩陣的幅度譜對(duì)所述第二伴奏的幅度譜進(jìn)行歸一化,得到所述第一伴奏的掩蔽矩陣和所述第二伴奏的掩蔽矩陣,如公式12和公式13所示:
55、
56、式中,z1(o,k)為所述第一伴奏的掩蔽矩陣,z2(o,k)為所述第二伴奏的掩蔽矩陣;
57、在得到伴奏和所述分離音頻數(shù)據(jù)集時(shí),如公式14和公式15所示:
58、
59、式中,f-1為傅里葉逆變換,為所述分離音頻數(shù)據(jù)集,為所述伴奏,cw為稀疏矩陣的頻譜,cs為低秩矩陣的頻譜。
60、作為本發(fā)明優(yōu)選的實(shí)施方式,在得到戲曲人聲數(shù)據(jù)集時(shí),包括:
61、提取戲曲人聲的音色特征,進(jìn)行基于ig的特征選擇,得到所述戲曲人聲的音色特征的ig分值,如公式16所示:
62、
63、式中,為所述分離音頻數(shù)據(jù)集的信息熵,為條件熵,為所述分離音頻數(shù)據(jù)集,ck為音色特征,k為音色特征維標(biāo)號(hào);
64、根據(jù)所述ig分值對(duì)所述戲曲人聲的音色特征進(jìn)行降序排列,并選取前l(fā)維,得到經(jīng)選擇后的戲曲人聲的音色特征;
65、獲取經(jīng)選擇后的戲曲人聲的音色特征的協(xié)方差矩陣,并獲取所述協(xié)方差矩陣的特征值和特征向量,根據(jù)所述特征值對(duì)所述特征向量進(jìn)行降序排列,并獲取前m個(gè)特征向量組成投影矩陣;
66、根據(jù)所述投影矩陣得到去冗余的音色特征,并根據(jù)所述去冗余的音色特征分離出戲曲人聲,形成所述戲曲人聲數(shù)據(jù)集。
67、作為本發(fā)明優(yōu)選的實(shí)施方式,在獲取經(jīng)選擇后的戲曲人聲的音色特征的協(xié)方差矩陣時(shí),如公式17所示:
68、
69、式中,o,k=1,2,...,o,o是戲曲人聲的音色特征的維數(shù),mall是戲曲人聲的音色特征的數(shù)量,c為音色特征;
70、在根據(jù)所述投影矩陣得到去冗余的音色特征時(shí),如公式18所示:
71、c*=etc=[e1,e2,...,em]t[c1,c2,...,co]?(18);
72、式中,c*為所述去冗余的音色特征,et為所述投影矩陣的轉(zhuǎn)置,e=[e1,e2,…,em],o是戲曲人聲的音色特征的維數(shù)。
73、一種基于伴奏分離和人聲分離的戲曲人聲提取方法,包括:
74、數(shù)據(jù)采集單元:用于在若干音頻數(shù)據(jù)中篩選出包含戲曲人聲的音頻數(shù)據(jù),并基于所述包含戲曲人聲的音頻數(shù)據(jù)形成目標(biāo)音頻數(shù)據(jù)集;
75、第一分離單元:用于將所述目標(biāo)音頻數(shù)據(jù)集采用基于頻率特征的分離方法進(jìn)行伴奏分離,得到分離音頻數(shù)據(jù)集;
76、第二分離單元:用于對(duì)所述分離音頻數(shù)據(jù)集采用基于音色的人聲分離方法進(jìn)行戲曲人聲分離,得到戲曲人聲數(shù)據(jù)集;
77、編碼單元:用于將所述戲曲人聲數(shù)據(jù)集輸入到cvae編碼器篩選戲曲人聲,并形成隱空間特征集;
78、解碼單元:基于外部條件通過(guò)解碼器從所述隱空間特征集提取隱空間特征點(diǎn),并基于所述隱空間特征點(diǎn)輸出戲曲人聲。
79、相比現(xiàn)有技術(shù),本發(fā)明的有益效果在于:
80、(1)本發(fā)明通過(guò)提出一種戲曲腔調(diào)的人聲與二胡樂(lè)器聲進(jìn)行分離的方法,該方法首先采用基于頻率特征的分離方法從目標(biāo)音頻數(shù)據(jù)集中分離出伴奏,得到帶有二胡聲、樂(lè)器聲以及戲曲人聲的分離音頻數(shù)據(jù)集,而后采用基于音色的人聲分離方法從分離音頻數(shù)據(jù)集中分離出二胡聲和樂(lè)器聲,得到戲曲人聲數(shù)據(jù)集,從而在后續(xù)的編解碼階段,解碼器可以選擇正確空間特征點(diǎn),輸出純凈的戲曲人聲,進(jìn)而確保了人聲模型的純凈度;
81、(2)由于二胡聲與戲曲人聲的頻率過(guò)于接近,cvae編碼器難以識(shí)別,容易選取錯(cuò)誤元素,導(dǎo)致隱空間污染。本發(fā)明所提供的方法在進(jìn)行編解碼前,先對(duì)采集到的目標(biāo)音頻數(shù)據(jù)集進(jìn)行了兩次分離,分離出了伴奏、二胡聲和樂(lè)器聲,從而在cvae編碼器采樣時(shí)降低隱空間異常特征點(diǎn),避免kl散度損失對(duì)隱空間進(jìn)行錯(cuò)誤特征點(diǎn)涂抹,保證了kl散度損失后的連貫性,提升人聲模型的聲音質(zhì)量,避免了人聲模型在解碼時(shí)選取錯(cuò)誤采樣點(diǎn)使成品呈現(xiàn)人聲與二胡混合狀態(tài)。
82、下面結(jié)合附圖和具體實(shí)施方式對(duì)本發(fā)明作進(jìn)一步詳細(xì)說(shuō)明。