国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于伴奏分離和人聲分離的戲曲人聲提取方法及系統(tǒng)

      文檔序號(hào):39612682發(fā)布日期:2024-10-11 13:22閱讀:54來(lái)源:國(guó)知局
      一種基于伴奏分離和人聲分離的戲曲人聲提取方法及系統(tǒng)

      本發(fā)明涉及音頻編解碼,具體涉及一種基于伴奏分離和人聲分離的戲曲人聲提取方法及系統(tǒng)。


      背景技術(shù):

      1、現(xiàn)有技術(shù)是在聲音合成中,使用流形變換(glow)、變分自編碼器(vae)和gan等技術(shù)實(shí)現(xiàn)聲音合成與生成聲音模型。

      2、變分自編碼器(variational?autoencoders,vae)是使用學(xué)習(xí)到的近似做推理,并且能夠用基于梯度的優(yōu)化方法來(lái)訓(xùn)練的有向模型。變分自編碼器是自編碼器中獲得廣泛應(yīng)用的一種類(lèi)型。

      3、gan(generative?adversarial?networks)為生成對(duì)抗網(wǎng)絡(luò),是一種生成模型,相比于其他生成模型,gan具有更高的生成能力和更好的生成效果,因此受到了廣泛的關(guān)注和研究。gan的基本思想是通過(guò)讓兩個(gè)神經(jīng)網(wǎng)絡(luò)相互對(duì)抗,從而學(xué)習(xí)到數(shù)據(jù)的分布。其中一個(gè)神經(jīng)網(wǎng)絡(luò)被稱(chēng)為生成器(generator),它的目標(biāo)是生成與真實(shí)數(shù)據(jù)相似的假數(shù)據(jù)。另一個(gè)神經(jīng)網(wǎng)絡(luò)被稱(chēng)為判別器(discrimi?nator),它的目標(biāo)是區(qū)分真實(shí)數(shù)據(jù)和假數(shù)據(jù)。兩個(gè)網(wǎng)絡(luò)相互對(duì)抗,不斷調(diào)整參數(shù),從而最終生成具有高質(zhì)量和多樣性的假數(shù)據(jù)。

      4、為了提高聲音合成的多樣性,現(xiàn)有技術(shù)還通過(guò)隱變量而非頻譜串聯(lián)起來(lái)語(yǔ)音合成中的聲學(xué)模型和聲碼器,在隱變量上進(jìn)行隨機(jī)建模并利用隨機(jī)時(shí)長(zhǎng)預(yù)測(cè)器,從而提高了合成聲音的多樣性,輸入同樣的文本,能夠合成不同聲調(diào)和韻律的聲音。

      5、但是戲曲使用此類(lèi)技術(shù)生成人聲模型時(shí),由于戲曲人聲唱腔特殊,與二胡聲頻率相似,因此在經(jīng)過(guò)變自分編碼器(vae)時(shí),容易出現(xiàn)采樣錯(cuò)誤,從而導(dǎo)致人聲模型中出現(xiàn)二胡聲,最終影響人聲模型的聲音質(zhì)量。


      技術(shù)實(shí)現(xiàn)思路

      1、為了克服現(xiàn)有技術(shù)的不足,本發(fā)明提供一種基于伴奏分離和人聲分離的戲曲人聲提取方法及系統(tǒng),用于解決戲曲人聲與二胡聲難以分離的技術(shù)問(wèn)題,達(dá)到提高人聲模型的聲音質(zhì)量的目的。

      2、為解決上述問(wèn)題,本發(fā)明所采用的技術(shù)方案如下:

      3、一種基于伴奏分離和人聲分離的戲曲人聲提取方法,包括以下步驟:

      4、在若干音頻數(shù)據(jù)中篩選出包含戲曲人聲的音頻數(shù)據(jù),并基于所述包含戲曲人聲的音頻數(shù)據(jù)形成目標(biāo)音頻數(shù)據(jù)集;

      5、將所述目標(biāo)音頻數(shù)據(jù)集采用基于頻率特征的分離方法進(jìn)行伴奏分離,得到分離音頻數(shù)據(jù)集;

      6、對(duì)所述分離音頻數(shù)據(jù)集采用基于音色的人聲分離方法進(jìn)行戲曲人聲分離,得到戲曲人聲數(shù)據(jù)集;

      7、將所述戲曲人聲數(shù)據(jù)集輸入到cvae編碼器篩選戲曲人聲,并形成隱空間特征集;

      8、基于外部條件通過(guò)解碼器從所述隱空間特征集提取隱空間特征點(diǎn),并基于所述隱空間特征點(diǎn)輸出戲曲人聲。

      9、作為本發(fā)明優(yōu)選的實(shí)施方式,在采用基于頻率特征的分離方法進(jìn)行伴奏分離時(shí),包括:

      10、對(duì)所述目標(biāo)音頻數(shù)據(jù)集的信號(hào)進(jìn)行短時(shí)傅里葉變換和相位提取,得到所述目標(biāo)音頻數(shù)據(jù)集的相位;

      11、使用非精確拉格朗日乘子算法得到第一低秩矩陣和第一稀疏矩陣;

      12、將所述第一低秩矩陣、所述第一稀疏矩陣與所述目標(biāo)音頻數(shù)據(jù)集的相位進(jìn)行結(jié)合,得到第二低秩矩陣和第二稀疏矩陣;

      13、將所述第二低秩矩陣和所述第二稀疏矩陣進(jìn)行短時(shí)傅里葉逆變換,分離出伴奏時(shí)域信號(hào)和非伴奏時(shí)域信號(hào);

      14、對(duì)所述伴奏時(shí)域信號(hào)和所述非伴奏時(shí)域信號(hào)進(jìn)行特征參數(shù)提取、獲取相似矩陣,并基于所述相似矩陣得到反復(fù)結(jié)構(gòu)模型;

      15、基于所述反復(fù)結(jié)構(gòu)模型得到第一伴奏的幅度譜和第二伴奏的幅度譜,并進(jìn)一步得到第一伴奏的掩蔽矩陣和第二伴奏的掩蔽矩陣;

      16、基于所述第一伴奏的掩蔽矩陣和所述第二伴奏的掩蔽矩陣,得到伴奏和所述分離音頻數(shù)據(jù)集。

      17、作為本發(fā)明優(yōu)選的實(shí)施方式,在得到所述目標(biāo)音頻數(shù)據(jù)集的相位時(shí),如公式1所示:

      18、q=phase(f)?(1);

      19、式中,q為所述目標(biāo)音頻數(shù)據(jù)集的相位,f為進(jìn)行短時(shí)傅里葉變換后所得到的音頻數(shù)據(jù)集的信號(hào);

      20、在得到第一低秩矩陣和第一稀疏矩陣時(shí),包括:

      21、使用非精確拉格朗日乘子算法對(duì)帶有懲罰項(xiàng)的拉格朗日函數(shù)進(jìn)行優(yōu)化,得到所述第一低秩矩陣sl和所述第一稀疏矩陣wl;

      22、所述帶有懲罰項(xiàng)的拉格朗日函數(shù),如公式2所示:

      23、

      24、式中,s為低秩矩陣,w為稀疏矩陣;μ為低秩矩陣和稀疏矩陣之間的折中系數(shù),||||.為核范數(shù),||||1為1范數(shù),u為拉格朗日乘子,ν為非負(fù)的懲罰項(xiàng)參數(shù),<>為內(nèi)積,f為觀(guān)測(cè)矩陣,

      25、作為本發(fā)明優(yōu)選的實(shí)施方式,在得到第二低秩矩陣和第二稀疏矩陣的幅度譜時(shí),包括:

      26、將所述第一低秩矩陣sl與所述目標(biāo)音頻數(shù)據(jù)集的相位進(jìn)行結(jié)合,如公式3所示:

      27、sl(m,n)=slejq(m,n)?(3);

      28、式中,j為幀數(shù),m=1…n1,n=1…n1;

      29、將所述第一稀疏矩陣wl與所述目標(biāo)音頻數(shù)據(jù)集的相位q進(jìn)行結(jié)合,如公式4所示:

      30、wl(m,n)=wlejq(m,n)?(4)。

      31、作為本發(fā)明優(yōu)選的實(shí)施方式,在對(duì)所述伴奏時(shí)域信號(hào)和所述非伴奏時(shí)域信號(hào)進(jìn)行特征參數(shù)提取時(shí),包括:

      32、根據(jù)mfcc系數(shù)獲取一階差分,如公式5所示:

      33、

      34、式中,fy為第y個(gè)一階差分,vy為第y個(gè)mfcc系數(shù),p為mfcc系數(shù)階數(shù),l為一階導(dǎo)數(shù)的時(shí)間差;

      35、將所述公式5的結(jié)果再代回所述公式5,得到二階差分,如公式6所示:

      36、

      37、式中,z為第z個(gè)mel濾波器(共有z個(gè)),m為dft后的譜線(xiàn)個(gè)數(shù),d(z)為對(duì)數(shù)能量;

      38、將所述一階差分、所述二階差分、所述mfcc系數(shù)以及所述對(duì)數(shù)能量進(jìn)行組合得到所述特征參數(shù)。

      39、作為本發(fā)明優(yōu)選的實(shí)施方式,在獲取相似矩陣時(shí),包括:

      40、對(duì)所述特征參數(shù)進(jìn)行相似運(yùn)算,并通過(guò)余弦相似性得到所述相似矩陣,如公式7所示:

      41、

      42、式中,o為頻率點(diǎn),z為mfcc參數(shù)維數(shù),k為幀數(shù),a(o,kc)、a(o,kd)為第o幀、第kc譜線(xiàn)和第o幀、第kd譜線(xiàn)下mfcc參數(shù)矩陣;

      43、在基于所述相似矩陣得到反復(fù)結(jié)構(gòu)模型時(shí),包括:

      44、將所述相似矩陣與對(duì)應(yīng)幅度譜進(jìn)行比較,提取幅度譜上與所述相似矩陣偏差小于閾值的部分,所述部分構(gòu)成一個(gè)重復(fù)模式,并利用中值濾波捕獲;

      45、將所有捕獲到的重復(fù)模式進(jìn)行結(jié)合,分別建立第一反復(fù)結(jié)構(gòu)模型和第二反復(fù)結(jié)構(gòu)模型,如公式8和公式9所示:

      46、

      47、式中,o為頻率點(diǎn),k為幀數(shù),median[]為中值濾波器,sl()為低秩矩陣,o為頻率點(diǎn),kk(a)為具有相同反復(fù)結(jié)構(gòu)片段組成的向量,k為幀數(shù),a為第a個(gè)重復(fù)片段,j為片段數(shù)量。

      48、作為本發(fā)明優(yōu)選的實(shí)施方式,在獲取第一伴奏的幅度譜和第二伴奏的幅度譜時(shí),包括:

      49、將低秩矩陣的幅度譜和稀疏矩陣的幅度譜與所述第一反復(fù)結(jié)構(gòu)模型和所述第二反復(fù)結(jié)構(gòu)模型采用最小函數(shù)進(jìn)行比較,得到所述第一伴奏的幅度譜和所述第二伴奏的幅度譜,如公式10和公式11所示:

      50、b1(o,k)=min{dr(o,k),wl(o,k)}?(10);

      51、b2(o,k)=min{ds(o,k),sl(o,k)}?(11);

      52、式中,b1(o,k)為所述第一伴奏的幅度譜,b2(o,k)為所述第二伴奏的幅度譜,wl(o,k)為稀疏矩陣的幅度譜,sl(o,k)為低秩矩陣的幅度譜。

      53、在得到第一伴奏的掩蔽矩陣和第二伴奏的掩蔽矩陣時(shí),包括:

      54、通過(guò)所述低秩矩陣的幅度譜對(duì)所述第一伴奏的幅度譜進(jìn)行歸一化,通過(guò)所述稀疏矩陣的幅度譜對(duì)所述第二伴奏的幅度譜進(jìn)行歸一化,得到所述第一伴奏的掩蔽矩陣和所述第二伴奏的掩蔽矩陣,如公式12和公式13所示:

      55、

      56、式中,z1(o,k)為所述第一伴奏的掩蔽矩陣,z2(o,k)為所述第二伴奏的掩蔽矩陣;

      57、在得到伴奏和所述分離音頻數(shù)據(jù)集時(shí),如公式14和公式15所示:

      58、

      59、式中,f-1為傅里葉逆變換,為所述分離音頻數(shù)據(jù)集,為所述伴奏,cw為稀疏矩陣的頻譜,cs為低秩矩陣的頻譜。

      60、作為本發(fā)明優(yōu)選的實(shí)施方式,在得到戲曲人聲數(shù)據(jù)集時(shí),包括:

      61、提取戲曲人聲的音色特征,進(jìn)行基于ig的特征選擇,得到所述戲曲人聲的音色特征的ig分值,如公式16所示:

      62、

      63、式中,為所述分離音頻數(shù)據(jù)集的信息熵,為條件熵,為所述分離音頻數(shù)據(jù)集,ck為音色特征,k為音色特征維標(biāo)號(hào);

      64、根據(jù)所述ig分值對(duì)所述戲曲人聲的音色特征進(jìn)行降序排列,并選取前l(fā)維,得到經(jīng)選擇后的戲曲人聲的音色特征;

      65、獲取經(jīng)選擇后的戲曲人聲的音色特征的協(xié)方差矩陣,并獲取所述協(xié)方差矩陣的特征值和特征向量,根據(jù)所述特征值對(duì)所述特征向量進(jìn)行降序排列,并獲取前m個(gè)特征向量組成投影矩陣;

      66、根據(jù)所述投影矩陣得到去冗余的音色特征,并根據(jù)所述去冗余的音色特征分離出戲曲人聲,形成所述戲曲人聲數(shù)據(jù)集。

      67、作為本發(fā)明優(yōu)選的實(shí)施方式,在獲取經(jīng)選擇后的戲曲人聲的音色特征的協(xié)方差矩陣時(shí),如公式17所示:

      68、

      69、式中,o,k=1,2,...,o,o是戲曲人聲的音色特征的維數(shù),mall是戲曲人聲的音色特征的數(shù)量,c為音色特征;

      70、在根據(jù)所述投影矩陣得到去冗余的音色特征時(shí),如公式18所示:

      71、c*=etc=[e1,e2,...,em]t[c1,c2,...,co]?(18);

      72、式中,c*為所述去冗余的音色特征,et為所述投影矩陣的轉(zhuǎn)置,e=[e1,e2,…,em],o是戲曲人聲的音色特征的維數(shù)。

      73、一種基于伴奏分離和人聲分離的戲曲人聲提取方法,包括:

      74、數(shù)據(jù)采集單元:用于在若干音頻數(shù)據(jù)中篩選出包含戲曲人聲的音頻數(shù)據(jù),并基于所述包含戲曲人聲的音頻數(shù)據(jù)形成目標(biāo)音頻數(shù)據(jù)集;

      75、第一分離單元:用于將所述目標(biāo)音頻數(shù)據(jù)集采用基于頻率特征的分離方法進(jìn)行伴奏分離,得到分離音頻數(shù)據(jù)集;

      76、第二分離單元:用于對(duì)所述分離音頻數(shù)據(jù)集采用基于音色的人聲分離方法進(jìn)行戲曲人聲分離,得到戲曲人聲數(shù)據(jù)集;

      77、編碼單元:用于將所述戲曲人聲數(shù)據(jù)集輸入到cvae編碼器篩選戲曲人聲,并形成隱空間特征集;

      78、解碼單元:基于外部條件通過(guò)解碼器從所述隱空間特征集提取隱空間特征點(diǎn),并基于所述隱空間特征點(diǎn)輸出戲曲人聲。

      79、相比現(xiàn)有技術(shù),本發(fā)明的有益效果在于:

      80、(1)本發(fā)明通過(guò)提出一種戲曲腔調(diào)的人聲與二胡樂(lè)器聲進(jìn)行分離的方法,該方法首先采用基于頻率特征的分離方法從目標(biāo)音頻數(shù)據(jù)集中分離出伴奏,得到帶有二胡聲、樂(lè)器聲以及戲曲人聲的分離音頻數(shù)據(jù)集,而后采用基于音色的人聲分離方法從分離音頻數(shù)據(jù)集中分離出二胡聲和樂(lè)器聲,得到戲曲人聲數(shù)據(jù)集,從而在后續(xù)的編解碼階段,解碼器可以選擇正確空間特征點(diǎn),輸出純凈的戲曲人聲,進(jìn)而確保了人聲模型的純凈度;

      81、(2)由于二胡聲與戲曲人聲的頻率過(guò)于接近,cvae編碼器難以識(shí)別,容易選取錯(cuò)誤元素,導(dǎo)致隱空間污染。本發(fā)明所提供的方法在進(jìn)行編解碼前,先對(duì)采集到的目標(biāo)音頻數(shù)據(jù)集進(jìn)行了兩次分離,分離出了伴奏、二胡聲和樂(lè)器聲,從而在cvae編碼器采樣時(shí)降低隱空間異常特征點(diǎn),避免kl散度損失對(duì)隱空間進(jìn)行錯(cuò)誤特征點(diǎn)涂抹,保證了kl散度損失后的連貫性,提升人聲模型的聲音質(zhì)量,避免了人聲模型在解碼時(shí)選取錯(cuò)誤采樣點(diǎn)使成品呈現(xiàn)人聲與二胡混合狀態(tài)。

      82、下面結(jié)合附圖和具體實(shí)施方式對(duì)本發(fā)明作進(jìn)一步詳細(xì)說(shuō)明。

      當(dāng)前第1頁(yè)1 2 
      網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1