一種基于伴奏分離和人聲分離的戲曲人聲提取方法及系統(tǒng)

文檔序號(hào)：39612682發(fā)布日期：2024-10-11 13:22閱讀：54來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本發(fā)明涉及音頻編解碼，具體涉及一種基于伴奏分離和人聲分離的戲曲人聲提取方法及系統(tǒng)。

背景技術(shù)：

1、現(xiàn)有技術(shù)是在聲音合成中，使用流形變換(glow)、變分自編碼器(vae)和gan等技術(shù)實(shí)現(xiàn)聲音合成與生成聲音模型。

2、變分自編碼器(variational?autoencoders,vae)是使用學(xué)習(xí)到的近似做推理，并且能夠用基于梯度的優(yōu)化方法來(lái)訓(xùn)練的有向模型。變分自編碼器是自編碼器中獲得廣泛應(yīng)用的一種類(lèi)型。

3、gan(generative?adversarial?networks)為生成對(duì)抗網(wǎng)絡(luò)，是一種生成模型，相比于其他生成模型，gan具有更高的生成能力和更好的生成效果，因此受到了廣泛的關(guān)注和研究。gan的基本思想是通過(guò)讓兩個(gè)神經(jīng)網(wǎng)絡(luò)相互對(duì)抗，從而學(xué)習(xí)到數(shù)據(jù)的分布。其中一個(gè)神經(jīng)網(wǎng)絡(luò)被稱(chēng)為生成器(generator)，它的目標(biāo)是生成與真實(shí)數(shù)據(jù)相似的假數(shù)據(jù)。另一個(gè)神經(jīng)網(wǎng)絡(luò)被稱(chēng)為判別器(discrimi?nator)，它的目標(biāo)是區(qū)分真實(shí)數(shù)據(jù)和假數(shù)據(jù)。兩個(gè)網(wǎng)絡(luò)相互對(duì)抗，不斷調(diào)整參數(shù)，從而最終生成具有高質(zhì)量和多樣性的假數(shù)據(jù)。

4、為了提高聲音合成的多樣性，現(xiàn)有技術(shù)還通過(guò)隱變量而非頻譜串聯(lián)起來(lái)語(yǔ)音合成中的聲學(xué)模型和聲碼器，在隱變量上進(jìn)行隨機(jī)建模并利用隨機(jī)時(shí)長(zhǎng)預(yù)測(cè)器，從而提高了合成聲音的多樣性，輸入同樣的文本，能夠合成不同聲調(diào)和韻律的聲音。

5、但是戲曲使用此類(lèi)技術(shù)生成人聲模型時(shí)，由于戲曲人聲唱腔特殊，與二胡聲頻率相似，因此在經(jīng)過(guò)變自分編碼器(vae)時(shí)，容易出現(xiàn)采樣錯(cuò)誤，從而導(dǎo)致人聲模型中出現(xiàn)二胡聲，最終影響人聲模型的聲音質(zhì)量。

技術(shù)實(shí)現(xiàn)思路

1、為了克服現(xiàn)有技術(shù)的不足，本發(fā)明提供一種基于伴奏分離和人聲分離的戲曲人聲提取方法及系統(tǒng)，用于解決戲曲人聲與二胡聲難以分離的技術(shù)問(wèn)題，達(dá)到提高人聲模型的聲音質(zhì)量的目的。

2、為解決上述問(wèn)題，本發(fā)明所采用的技術(shù)方案如下：

3、一種基于伴奏分離和人聲分離的戲曲人聲提取方法，包括以下步驟：

4、在若干音頻數(shù)據(jù)中篩選出包含戲曲人聲的音頻數(shù)據(jù)，并基于所述包含戲曲人聲的音頻數(shù)據(jù)形成目標(biāo)音頻數(shù)據(jù)集；

5、將所述目標(biāo)音頻數(shù)據(jù)集采用基于頻率特征的分離方法進(jìn)行伴奏分離，得到分離音頻數(shù)據(jù)集；

6、對(duì)所述分離音頻數(shù)據(jù)集采用基于音色的人聲分離方法進(jìn)行戲曲人聲分離，得到戲曲人聲數(shù)據(jù)集；

7、將所述戲曲人聲數(shù)據(jù)集輸入到cvae編碼器篩選戲曲人聲，并形成隱空間特征集；

8、基于外部條件通過(guò)解碼器從所述隱空間特征集提取隱空間特征點(diǎn)，并基于所述隱空間特征點(diǎn)輸出戲曲人聲。

9、作為本發(fā)明優(yōu)選的實(shí)施方式，在采用基于頻率特征的分離方法進(jìn)行伴奏分離時(shí)，包括：

10、對(duì)所述目標(biāo)音頻數(shù)據(jù)集的信號(hào)進(jìn)行短時(shí)傅里葉變換和相位提取，得到所述目標(biāo)音頻數(shù)據(jù)集的相位；

11、使用非精確拉格朗日乘子算法得到第一低秩矩陣和第一稀疏矩陣；

12、將所述第一低秩矩陣、所述第一稀疏矩陣與所述目標(biāo)音頻數(shù)據(jù)集的相位進(jìn)行結(jié)合，得到第二低秩矩陣和第二稀疏矩陣；

13、將所述第二低秩矩陣和所述第二稀疏矩陣進(jìn)行短時(shí)傅里葉逆變換，分離出伴奏時(shí)域信號(hào)和非伴奏時(shí)域信號(hào)；

14、對(duì)所述伴奏時(shí)域信號(hào)和所述非伴奏時(shí)域信號(hào)進(jìn)行特征參數(shù)提取、獲取相似矩陣，并基于所述相似矩陣得到反復(fù)結(jié)構(gòu)模型；

15、基于所述反復(fù)結(jié)構(gòu)模型得到第一伴奏的幅度譜和第二伴奏的幅度譜，并進(jìn)一步得到第一伴奏的掩蔽矩陣和第二伴奏的掩蔽矩陣；

16、基于所述第一伴奏的掩蔽矩陣和所述第二伴奏的掩蔽矩陣，得到伴奏和所述分離音頻數(shù)據(jù)集。

17、作為本發(fā)明優(yōu)選的實(shí)施方式，在得到所述目標(biāo)音頻數(shù)據(jù)集的相位時(shí)，如公式1所示：

18、q＝phase(f)?(1)；

19、式中，q為所述目標(biāo)音頻數(shù)據(jù)集的相位，f為進(jìn)行短時(shí)傅里葉變換后所得到的音頻數(shù)據(jù)集的信號(hào)；

20、在得到第一低秩矩陣和第一稀疏矩陣時(shí)，包括：

21、使用非精確拉格朗日乘子算法對(duì)帶有懲罰項(xiàng)的拉格朗日函數(shù)進(jìn)行優(yōu)化，得到所述第一低秩矩陣sl和所述第一稀疏矩陣wl；

22、所述帶有懲罰項(xiàng)的拉格朗日函數(shù)，如公式2所示：

23、

24、式中，s為低秩矩陣，w為稀疏矩陣；μ為低秩矩陣和稀疏矩陣之間的折中系數(shù)，||||.為核范數(shù)，||||1為1范數(shù)，u為拉格朗日乘子，ν為非負(fù)的懲罰項(xiàng)參數(shù)，<>為內(nèi)積，f為觀(guān)測(cè)矩陣，

25、作為本發(fā)明優(yōu)選的實(shí)施方式，在得到第二低秩矩陣和第二稀疏矩陣的幅度譜時(shí)，包括：

26、將所述第一低秩矩陣sl與所述目標(biāo)音頻數(shù)據(jù)集的相位進(jìn)行結(jié)合，如公式3所示：

27、sl(m,n)＝slejq(m,n)?(3)；

28、式中，j為幀數(shù)，m＝1…n1，n＝1…n1；

29、將所述第一稀疏矩陣wl與所述目標(biāo)音頻數(shù)據(jù)集的相位q進(jìn)行結(jié)合，如公式4所示：

30、wl(m,n)＝wlejq(m,n)?(4)。

31、作為本發(fā)明優(yōu)選的實(shí)施方式，在對(duì)所述伴奏時(shí)域信號(hào)和所述非伴奏時(shí)域信號(hào)進(jìn)行特征參數(shù)提取時(shí)，包括：

32、根據(jù)mfcc系數(shù)獲取一階差分，如公式5所示：

33、

34、式中，fy為第y個(gè)一階差分，vy為第y個(gè)mfcc系數(shù)，p為mfcc系數(shù)階數(shù)，l為一階導(dǎo)數(shù)的時(shí)間差；

35、將所述公式5的結(jié)果再代回所述公式5，得到二階差分，如公式6所示：

36、

37、式中，z為第z個(gè)mel濾波器(共有z個(gè))，m為dft后的譜線(xiàn)個(gè)數(shù)，d(z)為對(duì)數(shù)能量；

38、將所述一階差分、所述二階差分、所述mfcc系數(shù)以及所述對(duì)數(shù)能量進(jìn)行組合得到所述特征參數(shù)。

39、作為本發(fā)明優(yōu)選的實(shí)施方式，在獲取相似矩陣時(shí)，包括：

40、對(duì)所述特征參數(shù)進(jìn)行相似運(yùn)算，并通過(guò)余弦相似性得到所述相似矩陣，如公式7所示：

41、

42、式中，o為頻率點(diǎn)，z為mfcc參數(shù)維數(shù)，k為幀數(shù)，a(o,kc)、a(o,kd)為第o幀、第kc譜線(xiàn)和第o幀、第kd譜線(xiàn)下mfcc參數(shù)矩陣；

43、在基于所述相似矩陣得到反復(fù)結(jié)構(gòu)模型時(shí)，包括：

44、將所述相似矩陣與對(duì)應(yīng)幅度譜進(jìn)行比較，提取幅度譜上與所述相似矩陣偏差小于閾值的部分，所述部分構(gòu)成一個(gè)重復(fù)模式，并利用中值濾波捕獲；

45、將所有捕獲到的重復(fù)模式進(jìn)行結(jié)合，分別建立第一反復(fù)結(jié)構(gòu)模型和第二反復(fù)結(jié)構(gòu)模型，如公式8和公式9所示：

46、

47、式中，o為頻率點(diǎn)，k為幀數(shù)，median[]為中值濾波器，sl()為低秩矩陣，o為頻率點(diǎn)，kk(a)為具有相同反復(fù)結(jié)構(gòu)片段組成的向量，k為幀數(shù)，a為第a個(gè)重復(fù)片段，j為片段數(shù)量。

48、作為本發(fā)明優(yōu)選的實(shí)施方式，在獲取第一伴奏的幅度譜和第二伴奏的幅度譜時(shí)，包括：

49、將低秩矩陣的幅度譜和稀疏矩陣的幅度譜與所述第一反復(fù)結(jié)構(gòu)模型和所述第二反復(fù)結(jié)構(gòu)模型采用最小函數(shù)進(jìn)行比較，得到所述第一伴奏的幅度譜和所述第二伴奏的幅度譜，如公式10和公式11所示：

50、b1(o,k)＝min{dr(o,k),wl(o,k)}?(10)；

51、b2(o,k)＝min{ds(o,k),sl(o,k)}?(11)；

52、式中，b1(o,k)為所述第一伴奏的幅度譜，b2(o,k)為所述第二伴奏的幅度譜，wl(o,k)為稀疏矩陣的幅度譜，sl(o,k)為低秩矩陣的幅度譜。

53、在得到第一伴奏的掩蔽矩陣和第二伴奏的掩蔽矩陣時(shí)，包括：

54、通過(guò)所述低秩矩陣的幅度譜對(duì)所述第一伴奏的幅度譜進(jìn)行歸一化，通過(guò)所述稀疏矩陣的幅度譜對(duì)所述第二伴奏的幅度譜進(jìn)行歸一化，得到所述第一伴奏的掩蔽矩陣和所述第二伴奏的掩蔽矩陣，如公式12和公式13所示：

55、

56、式中，z1(o,k)為所述第一伴奏的掩蔽矩陣，z2(o,k)為所述第二伴奏的掩蔽矩陣；

57、在得到伴奏和所述分離音頻數(shù)據(jù)集時(shí)，如公式14和公式15所示：

58、

59、式中，f-1為傅里葉逆變換，為所述分離音頻數(shù)據(jù)集，為所述伴奏，cw為稀疏矩陣的頻譜，cs為低秩矩陣的頻譜。

60、作為本發(fā)明優(yōu)選的實(shí)施方式，在得到戲曲人聲數(shù)據(jù)集時(shí)，包括：

61、提取戲曲人聲的音色特征，進(jìn)行基于ig的特征選擇，得到所述戲曲人聲的音色特征的ig分值，如公式16所示：

62、

63、式中，為所述分離音頻數(shù)據(jù)集的信息熵，為條件熵，為所述分離音頻數(shù)據(jù)集，ck為音色特征，k為音色特征維標(biāo)號(hào)；

64、根據(jù)所述ig分值對(duì)所述戲曲人聲的音色特征進(jìn)行降序排列，并選取前l(fā)維，得到經(jīng)選擇后的戲曲人聲的音色特征；

65、獲取經(jīng)選擇后的戲曲人聲的音色特征的協(xié)方差矩陣，并獲取所述協(xié)方差矩陣的特征值和特征向量，根據(jù)所述特征值對(duì)所述特征向量進(jìn)行降序排列，并獲取前m個(gè)特征向量組成投影矩陣；

66、根據(jù)所述投影矩陣得到去冗余的音色特征，并根據(jù)所述去冗余的音色特征分離出戲曲人聲，形成所述戲曲人聲數(shù)據(jù)集。

67、作為本發(fā)明優(yōu)選的實(shí)施方式，在獲取經(jīng)選擇后的戲曲人聲的音色特征的協(xié)方差矩陣時(shí)，如公式17所示：

68、

69、式中，o,k＝1,2,...,o，o是戲曲人聲的音色特征的維數(shù)，mall是戲曲人聲的音色特征的數(shù)量，c為音色特征；

70、在根據(jù)所述投影矩陣得到去冗余的音色特征時(shí)，如公式18所示：

71、c*＝etc＝[e1,e2,...,em]t[c1,c2,...,co]?(18)；

72、式中，c*為所述去冗余的音色特征，et為所述投影矩陣的轉(zhuǎn)置，e＝[e1,e2,…,em]，o是戲曲人聲的音色特征的維數(shù)。

73、一種基于伴奏分離和人聲分離的戲曲人聲提取方法，包括：

74、數(shù)據(jù)采集單元：用于在若干音頻數(shù)據(jù)中篩選出包含戲曲人聲的音頻數(shù)據(jù)，并基于所述包含戲曲人聲的音頻數(shù)據(jù)形成目標(biāo)音頻數(shù)據(jù)集；

75、第一分離單元：用于將所述目標(biāo)音頻數(shù)據(jù)集采用基于頻率特征的分離方法進(jìn)行伴奏分離，得到分離音頻數(shù)據(jù)集；

76、第二分離單元：用于對(duì)所述分離音頻數(shù)據(jù)集采用基于音色的人聲分離方法進(jìn)行戲曲人聲分離，得到戲曲人聲數(shù)據(jù)集；

77、編碼單元：用于將所述戲曲人聲數(shù)據(jù)集輸入到cvae編碼器篩選戲曲人聲，并形成隱空間特征集；

78、解碼單元：基于外部條件通過(guò)解碼器從所述隱空間特征集提取隱空間特征點(diǎn)，并基于所述隱空間特征點(diǎn)輸出戲曲人聲。

79、相比現(xiàn)有技術(shù)，本發(fā)明的有益效果在于：

80、(1)本發(fā)明通過(guò)提出一種戲曲腔調(diào)的人聲與二胡樂(lè)器聲進(jìn)行分離的方法，該方法首先采用基于頻率特征的分離方法從目標(biāo)音頻數(shù)據(jù)集中分離出伴奏，得到帶有二胡聲、樂(lè)器聲以及戲曲人聲的分離音頻數(shù)據(jù)集，而后采用基于音色的人聲分離方法從分離音頻數(shù)據(jù)集中分離出二胡聲和樂(lè)器聲，得到戲曲人聲數(shù)據(jù)集，從而在后續(xù)的編解碼階段，解碼器可以選擇正確空間特征點(diǎn)，輸出純凈的戲曲人聲，進(jìn)而確保了人聲模型的純凈度；

81、(2)由于二胡聲與戲曲人聲的頻率過(guò)于接近，cvae編碼器難以識(shí)別，容易選取錯(cuò)誤元素，導(dǎo)致隱空間污染。本發(fā)明所提供的方法在進(jìn)行編解碼前，先對(duì)采集到的目標(biāo)音頻數(shù)據(jù)集進(jìn)行了兩次分離，分離出了伴奏、二胡聲和樂(lè)器聲，從而在cvae編碼器采樣時(shí)降低隱空間異常特征點(diǎn)，避免kl散度損失對(duì)隱空間進(jìn)行錯(cuò)誤特征點(diǎn)涂抹，保證了kl散度損失后的連貫性，提升人聲模型的聲音質(zhì)量，避免了人聲模型在解碼時(shí)選取錯(cuò)誤采樣點(diǎn)使成品呈現(xiàn)人聲與二胡混合狀態(tài)。

82、下面結(jié)合附圖和具體實(shí)施方式對(duì)本發(fā)明作進(jìn)一步詳細(xì)說(shuō)明。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：郭慧,胡斌,李俊林
技術(shù)所有人：梧州學(xué)院
我是此專(zhuān)利的發(fā)明人

上一篇：一種組合空氣過(guò)濾器的制作方法
上一篇：一種面條生產(chǎn)用晾曬裝置的制作方法

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種基于伴奏分離和人聲分離的戲曲人聲提取方法及系統(tǒng)