專利名稱:基于卷積非負(fù)矩陣分解的語音轉(zhuǎn)換方法
技術(shù)領(lǐng)域:
本發(fā)明屬于語音信號處理技術(shù)領(lǐng)域,特別是一種基于卷積非負(fù)矩陣分解的語音轉(zhuǎn)換方法。
背景技術(shù):
語音轉(zhuǎn)換是一種通過改變源說話人語音信號中的個人特征信息,使之具有目標(biāo)說話人語音個人特征信息的技術(shù)。語音轉(zhuǎn)換在個性化人機(jī)交互、軍事斗爭、信息安全及多媒體娛樂領(lǐng)域都有著廣闊的應(yīng)用前景。例如,通過將語音轉(zhuǎn)換和語音合成系統(tǒng)結(jié)合,即可實(shí)現(xiàn)個性化語音合成;通過語音轉(zhuǎn)換,可偽造敵方指揮員聲音來發(fā)送假情報或命令,擾亂敵方作戰(zhàn)指揮;通過語音轉(zhuǎn)換可再現(xiàn)歷史人物演講等。語音轉(zhuǎn)換(Voice Conversion/Transformation)技術(shù)研究至今已 20 年的歷史(李波,王成友,蔡宣平,等.語音轉(zhuǎn)換及相關(guān)技術(shù)綜述[J].通信學(xué)報, 2004(05):109-118.),其最早的方法是由Abe等人在1988年提出?,F(xiàn)有的語音轉(zhuǎn)換方法主要包括基于矢量量化碼數(shù)映射的方法(1. M. Abe, S. Nakamura, K. Shikano, and H. Kuwabara, "Voice conversion through vector quantization, 〃 ICASSP-88., 1988,pp. 655-658.)、基于高斯混合模型的方法(2. Y. Stylianou, 0. Cappe and Ε. Moulines, "Continuous probabilistic transform for voice conversion, 〃 Speech and Audio Processing, IEEE Transactions on, vol. 6, pp. 131-142, 1998.)、基于隱馬爾科夫模型的方法(3· Ε. K. Kim, S. Lee and Y. H. Oh, "Hidden Markov Model Based Voice Conversion Using Dynamic Characteristics of Speaker, “ in Proc. Eurospeech, Rhodes, Greece, 1997,pp. 2519-2522.)、基于頻譜彎折的方法(4. D. Erro and A. Moreno, "Weighted Frequency Warping for Voice Conversion, “ in InterSpeech 2007 - EuroSpeech Antwerp, Belgium, 2007.)和基于人工神經(jīng)網(wǎng)絡(luò)的方法 (5. S. Desai, A. Black, B. Yegnanarayana, and K. Prahallad, "Spectral Mapping Using Artificial Neural Networks for Voice Conversion, “ Audio, Speech, and Language Processing, IEEE Transactions on, vol. PP, p. 1-1, 2010.)。雖然針對語音轉(zhuǎn)換已有多種方法提出,但語音轉(zhuǎn)換的效果還遠(yuǎn)未達(dá)到實(shí)用化的要求?,F(xiàn)有語音轉(zhuǎn)換方法存在的問題主要有
1.諸多語音轉(zhuǎn)換方法是建立在對語音信號分幀后,各幀獨(dú)立處理的框架之下的。在此框架下,語音幀間的相關(guān)性往往被忽略,從而導(dǎo)致轉(zhuǎn)換后語音出現(xiàn)不連續(xù)性顯現(xiàn),降低了轉(zhuǎn)換后語音的質(zhì)量。例如基于矢量量化碼數(shù)映射的方法、基于高斯混合模型的方法以及基于人工神經(jīng)網(wǎng)絡(luò)的方法;
2.語音轉(zhuǎn)換的目標(biāo)是正確改變語音中的說話人個人特征信息,而現(xiàn)有語音轉(zhuǎn)換方法在進(jìn)行轉(zhuǎn)換處理前并沒有將說話人語音的個人特征信息從語音信號中分離出來,而是直接對語音信號進(jìn)行處理。這樣不僅導(dǎo)致了轉(zhuǎn)換效果無法令人滿意,同時由于改變了語音信號中的其它成分,致使轉(zhuǎn)換后語音質(zhì)量的下降。
Convolutive Nonnegative Matrix Factorization) — 對語音信號處理所提出的非負(fù)矩陣分解方法,該方法在保證分解結(jié)果非負(fù)性的前提下,使用了二維時頻基代替原有的一維基向量,從而更好的承載了語音信號的時序相關(guān)性。該方法在多說話人語音的分離上有著較為成功的應(yīng)用(6. S. Paris, "Convolutive Speech Bases and Their Application to Supervised Speech Separation, “ Audio, Speech, and Language Processing, IEEE Transactions on, vol. 15, pp. 1-12, 2007-01-01 2007.)。通過該方法可以將語音信號分解為一組非負(fù)時頻基和這組基的編碼矩陣。分解得到的時頻基可認(rèn)為是承載了說話人特征的一個子空間,而編碼矩陣則是語音在各個子空間上的投影。因此通過這種分解方式在很大程度上實(shí)現(xiàn)了將語音信號中的說話人特征信息從語音信號中分離的功能。此外,由于卷積非負(fù)矩陣分解相對于傳統(tǒng)非負(fù)矩陣分解能夠更好的顧及語音信號的時序相關(guān)性,從而保證重構(gòu)語音的連續(xù)性。但這一方法存在分解結(jié)果不唯一的問題,即在不同初始條件下對同一語音數(shù)據(jù)分解得到的基矩陣并不唯一。雖然這種不唯一可理解為特征空間的不同表現(xiàn)形式,但限制了其在語音轉(zhuǎn)換中的應(yīng)用。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種基于卷積非負(fù)矩陣分解的語音轉(zhuǎn)換方法。利用卷積非負(fù)矩陣分解實(shí)現(xiàn)了對語音聲道頻譜中個人特征信息的分離,且在分離過程中有效保存了語音時序的相關(guān)性,在保證源說話人語音和目標(biāo)說話人語音頻譜卷積非負(fù)矩陣分解結(jié)果一致性的前提下,通過時頻基替換完成語音聲道頻譜的轉(zhuǎn)換。并在此基礎(chǔ)上進(jìn)一步實(shí)現(xiàn)了語音轉(zhuǎn)換,使轉(zhuǎn)換后的語音具有較高的質(zhì)量且在語音個人特征上與目標(biāo)說話人具有較強(qiáng)的相似度。實(shí)現(xiàn)本發(fā)明目的的技術(shù)解決方案為一種基于卷積非負(fù)矩陣分解的語音轉(zhuǎn)換方法,步驟如下
首先,通過訓(xùn)練數(shù)據(jù)對變換模型進(jìn)行訓(xùn)練
第一步訓(xùn)練語音數(shù)據(jù)的時間對準(zhǔn)及參數(shù)分解,對于訓(xùn)練所用的平行語音數(shù)據(jù),即源說話人和目標(biāo)說話人的相同內(nèi)容的語音對,其中源說話人語音可表示為
A'目標(biāo)說話人語音可表示為B,首先通過STRAIGHT模型提取兩者的基音周期包絡(luò) PB,之后通過基音周期包絡(luò)及原始語音信號計算用于實(shí)現(xiàn)基音同步疊接相加處理的基音
標(biāo)汴點(diǎn)pmA fl|praB ;依照音素劃分信息,以語音A、B的對應(yīng)音素為單位進(jìn)行基音標(biāo)注點(diǎn)
匹配,之后再以音素為基本單元,基于匹配基音標(biāo)注點(diǎn)采用基音同步疊接相加方式實(shí)現(xiàn)語音A與B的時間對準(zhǔn),得到時間對準(zhǔn)后的語音A'和B',使用STRAIGHT模型對A'和B'進(jìn)行分析,得到三組參數(shù)
(1)表征聲道特性的STRAIGHT譜SA.、Ss;
(2)基音頻率1Jff ;
(3)非周期分量、apB;
第二步使用卷積非負(fù)矩陣分解方法對STRAIGHT譜進(jìn)行分析,即首先對A'的STRAIGHT譜、采用卷積非負(fù)矩陣分解方法分析,得到其時頻基Hi)及編碼矩陣Ha.,
之后再通過卷積非負(fù)矩陣分解方式對ff的STRAIGHT譜8 進(jìn)行分析,此時固定其編碼矩陣
SHa.,則可得到其時頻基1Wb■⑷;
第三步分析源語音與目標(biāo)語音的基音頻率,即通過對龍和B'的基音頻率信肩和
fB進(jìn)行分析,得到其兩者的均值和方差、和/ 、4·; 其次,基于訓(xùn)練模型對新輸入語音進(jìn)行轉(zhuǎn)換
第一步對于待轉(zhuǎn)換的源語音數(shù)據(jù)Af采用STRAIGHT模型進(jìn)行參數(shù)分解,得到其
STRAIGHT譜84、基音頻率f^及非周期分量三組參數(shù);
第二步基于卷積非負(fù)矩陣分解實(shí)現(xiàn)聲道頻譜參數(shù)的轉(zhuǎn)換,即對S4采用卷積非負(fù)矩
陣分解進(jìn)行分析,此時固定其時頻基為1WA.,得到相應(yīng)的編碼矩陣Ha^ ,進(jìn)而通過如下公式得到轉(zhuǎn)換后的STRAIGHT譜
其中S1^表示轉(zhuǎn)換后的STRAIGHT譜,“ ,,為卷積運(yùn)算;
第三步基于訓(xùn)練階段得到的基音頻率的均值和方差,實(shí)現(xiàn)基音頻率的轉(zhuǎn)換
其中\(zhòng)表示轉(zhuǎn)換后的基音頻率;
第四步合成轉(zhuǎn)換后的語音,即通過轉(zhuǎn)換得到的STRAIGHT譜、基音頻本fB及原始非周期分量=合成轉(zhuǎn)換后的語音。本發(fā)明與現(xiàn)有技術(shù)相比,其顯著優(yōu)點(diǎn)(1)在訓(xùn)練階段,基于音素信息,采用基音同步疊接相加方法實(shí)現(xiàn)源說話人語音和目標(biāo)說話人語音的匹配,使匹配后的語音具有較高的時間匹配精度和語音質(zhì)量,提升了語音轉(zhuǎn)換的訓(xùn)練效果;(2)通過卷積非負(fù)矩陣分解方法實(shí)現(xiàn)了聲道頻譜中個人特征信息的有效分離,使轉(zhuǎn)換過程可針對個人特征信息實(shí)施,從而提升了語音的轉(zhuǎn)換效果。此外,卷積非負(fù)矩陣分解方法有效的保存了聲道頻譜參數(shù)的時域相關(guān)性,使重構(gòu)語音具有更好的連續(xù)性,改善了變換語音的語音質(zhì)量。下面結(jié)合附圖對本發(fā)明作進(jìn)一步詳細(xì)描述。
圖1是本發(fā)明基于卷積非負(fù)矩陣分解的語音轉(zhuǎn)換方法示意圖。圖2是對于訓(xùn)練語音進(jìn)行基于音素的時間對準(zhǔn)處理示意圖。圖3是語音基音標(biāo)注點(diǎn)示意圖。圖4是基于卷積非負(fù)矩陣分解的訓(xùn)練語音時頻基計算流程示意圖。圖5是由40個子基構(gòu)成的STRAIGHT譜時頻基示意圖。
圖6是基于卷積非負(fù)矩陣分解的頻譜轉(zhuǎn)換流程示意圖。
具體實(shí)施例方式結(jié)合圖1,本發(fā)明基于卷積非負(fù)矩陣分解的語音轉(zhuǎn)換方法,步驟如下 訓(xùn)練階段通過訓(xùn)練數(shù)據(jù)對變換模型進(jìn)行訓(xùn)練。第一步,訓(xùn)練語音數(shù)據(jù)的時間對準(zhǔn)及參數(shù)分解
(1)語音數(shù)據(jù)的時間對準(zhǔn),如圖2所示。首先對訓(xùn)練數(shù)據(jù)集中的源說話人語音A和目標(biāo)說話人語音B,通過STRAIGHT模型進(jìn)行分析,得到兩者各個采樣點(diǎn)的基音周期信息,即基音周期包絡(luò)Pa和:Pb
權(quán)利要求
1. 一種基于卷積非負(fù)矩陣分解的語音轉(zhuǎn)換方法,其特征在于步驟如下 首先,通過訓(xùn)練數(shù)據(jù)對變換模型進(jìn)行訓(xùn)練第一步訓(xùn)練語音數(shù)據(jù)的時間對準(zhǔn)及參數(shù)分解,對于訓(xùn)練所用的平行語音數(shù)據(jù),即源說話人和目標(biāo)說話人的相同內(nèi)容的語音對,其中源說話人語音可表示為 ▲,目標(biāo)說話人語音可表示為B,首先通過STRAIGHT模型提取兩者的基音周期包絡(luò)Pb之后通過基音周期包絡(luò)及原始語音信號計算用于實(shí)現(xiàn)基音同步疊接相加處理的基音你注點(diǎn)pmA和p iB ;依照音素劃分信息,以語音A、B的對應(yīng)音素為單位進(jìn)行基音標(biāo)注點(diǎn)匹配,之后再以音素為基本單元,基于匹配基音標(biāo)注點(diǎn)采用基音同步疊接相加方式實(shí)現(xiàn)語音A與B的時間對準(zhǔn),得到時間對準(zhǔn)后的語音A'和B',使用STRAIGHT模型對A_和B'進(jìn)行分析,得到三組參數(shù)(1)表征聲道特性的STRAIGHT譜SA,、Sb;(2)基音頻率^Jb ;(3)非周期分量、a|iB;第二步使用卷積非負(fù)矩陣分解方法對STRAIGHT譜進(jìn)行分析,即首先對A'的 STRAIGHT譜、采用卷積非負(fù)矩陣分解方法分析,得到其時頻基⑷及編碼矩陣Ha., 之后再通過卷積非負(fù)矩陣分解方式對ff的STRAIGHT譜Ss進(jìn)行分析,此時固定其編碼矩陣 SHa.,則可得到其時頻基1Wb+);第三步分析源語音與目標(biāo)語音的基音頻率,即通過對灰和B'的基音頻率信息。和fB進(jìn)行分析,得到其兩者的均值和方差: .、4和、喊; 其次,基于訓(xùn)練模型對新輸入語音進(jìn)行轉(zhuǎn)換第一步對于待轉(zhuǎn)換的源語音數(shù)據(jù)At.采用STRAIGHT模型進(jìn)行參數(shù)分解,得到其STRAIGHT譜S4、基音頻率f^及非周期分量=Ipfkc三組參數(shù);第二步基于卷積非負(fù)矩陣分解實(shí)現(xiàn)聲道頻譜參數(shù)的轉(zhuǎn)換,即對Sils采用卷積非負(fù)矩陣分解進(jìn)行分析,此時固定其時頻基為Wa.,得到相應(yīng)的編碼矩陣,進(jìn)而通過如下公式得到轉(zhuǎn)換后的STRAIGHT譜Sg — Qiy ~ 其中Sbc表示轉(zhuǎn)換后的STRAIGHT譜,“ ”為卷積運(yùn)算;第三步基于訓(xùn)練階段得到的基音頻率的均值和方差,實(shí)現(xiàn)基音頻率的轉(zhuǎn)換^bc = ~ ."A. ) + mb 其中人R轉(zhuǎn)換后的基音頻率;第四步合成轉(zhuǎn)換后的語音,即通過轉(zhuǎn)換得到的STRAIGHT譜S^、基音頻率fB及原始非周期分量叩&合成轉(zhuǎn)換后的語音。
2.根據(jù)權(quán)利要求1所述的基于卷積非負(fù)矩陣分解的語音轉(zhuǎn)換方法,其特征在于基于基音包絡(luò),以基音周期長度為幀長,對語音A、B進(jìn)行時間對準(zhǔn)1)分幀階段從語音第1個采樣點(diǎn)、W開始,以其所對應(yīng)的基音周期長度為幀長確定第一幀F(xiàn)Ai ,其中= 1 ,之后以語音第+1采樣點(diǎn)為第二幀起始位置,以其所對應(yīng)的基音周期為幀長確定第二幀F(xiàn)a2 , 11:.1^(2) = ^+1,以此類推,對第2幀,基于上一分幀結(jié)果得到當(dāng)前語音的起始點(diǎn)\ ,并以其所對應(yīng)的基音周期長度Pmw為幀長得到當(dāng)前語音的分幀結(jié)果I1ili ,其中=項(xiàng)-1)+ +1 ,重復(fù)此過程,直至語音結(jié)尾,設(shè)共得到Fa幀語音;完成分幀后,以各幀語音中心點(diǎn)為中心,以最長幀長^sik為長度構(gòu)建^affi 的語音數(shù)據(jù)矩陣04 ,其每一列為一幀語音,并對每列數(shù)據(jù)通過Harming窗進(jìn)行加窗處理,構(gòu)建矩陣時,對語音起始和結(jié)尾長度不足處分別使用語音起始和結(jié)尾點(diǎn)補(bǔ)齊;對矩陣Da進(jìn)行逐列搜索,在各列中確定一個點(diǎn),從而構(gòu)成貫穿各列的基音標(biāo)注點(diǎn)軌跡Ρ·Α,使軌跡上各點(diǎn)值之和最大,在搜索過程中限制相鄰列間選取點(diǎn)的行位置差異不大于 6行,通過此方法得到用于基音同步疊接相加處理的基音標(biāo)注點(diǎn),這些標(biāo)注點(diǎn)在語音濁音段處于幅度最大值位置,同樣方法可到語音B的基音標(biāo)注盧pmB2)匹配階段根據(jù)音素劃分信息,建立源說話人和目標(biāo)說話人語音音素中基音標(biāo)注點(diǎn)的匹配對應(yīng)關(guān)系Jphia^PKIbJ ,其巾;和51 &分別表示源說話人和目標(biāo)說話人語音中第”個音素所包含的基音標(biāo)注點(diǎn)信息,具體形式如下Pm4i = pmKi, pmKi pmKi pm^ ]pmB· = Pffi3mi, ρ Pffijtmt ,-"·,]這里,pm“和/^&分別為源說話人和目標(biāo)說話人語音中第《個音素中的第和第個基音標(biāo)注點(diǎn),4和及分別為第《個音素中兩者包含的基音標(biāo)注點(diǎn)數(shù)目;3)對準(zhǔn)階段基于訓(xùn)練語音A、Β中匹配音素的基音標(biāo)注點(diǎn)信息,采用基音同步疊接相加方法實(shí)現(xiàn)源說話人和目標(biāo)說話人對應(yīng)音素的語音時長對齊,基音同步疊接相加處理的幀長取為當(dāng)前基音標(biāo)注點(diǎn)所對應(yīng)基音周期的三倍長度;對齊過程中,以匹配音素中時長較短音素為基準(zhǔn), 通過基音同步疊接相加方法壓縮另外一個音素實(shí)現(xiàn)對齊;由于PSOLA方法是以基音周期為單位進(jìn)行時長調(diào)整的,調(diào)整精度僅能保證在一個基音周期長度內(nèi),因此對當(dāng)前匹配音素調(diào)整的差異信息將計入下一匹配音素時長對齊中進(jìn)行處理,而對于語音數(shù)據(jù)中音素間的無聲段則通過截短方式實(shí)現(xiàn)對齊;通過上述步驟對語音A、B中各音素及音素間無聲段進(jìn)行處理后,得到了經(jīng)過時間對準(zhǔn)的源說話人語音A'和目標(biāo)說話人語音B'。
3.根據(jù)權(quán)利要求1所述的基于卷積非負(fù)矩陣分解的語音轉(zhuǎn)換方法,其特征在于訓(xùn)練階段的語音參數(shù)分解,對于經(jīng)過時間對準(zhǔn)后的訓(xùn)練語音,采用STRAIGHT模型進(jìn)行參數(shù)分解, 經(jīng)過分解分別得到源說話人語音A'和目標(biāo)說話人語畜B'的三組參數(shù) 1)表征聲道頻譜特征的STRAIGHT譜,其為二維矩陣
4.根據(jù)權(quán)利要求1所述的基于卷積非負(fù)矩陣分解的語音轉(zhuǎn)換方法,其特征在于訓(xùn)練階段的分析步驟如下1)使用卷積非負(fù)矩陣分解方法對源說話人STRAIGHT譜SA_進(jìn)行分析,得到如下分解結(jié)果
全文摘要
本發(fā)明公開了一種基于卷積非負(fù)矩陣分解的語音轉(zhuǎn)換方法,通過訓(xùn)練數(shù)據(jù)對變換模型進(jìn)行訓(xùn)練,首先訓(xùn)練語音數(shù)據(jù)的時間對準(zhǔn)及參數(shù)分解,使用卷積非負(fù)矩陣分解方法對STRAIGHT譜進(jìn)行分析,分析源語音與目標(biāo)語音的基音頻率;基于訓(xùn)練模型對新輸入語音進(jìn)行轉(zhuǎn)換對于待轉(zhuǎn)換的源語音數(shù)據(jù)采用STRAIGHT模型進(jìn)行參數(shù)分解,基于卷積非負(fù)矩陣分解實(shí)現(xiàn)聲道頻譜參數(shù)的轉(zhuǎn)換,基于訓(xùn)練階段得到的基音頻率的均值和方差,實(shí)現(xiàn)基音頻率的轉(zhuǎn)換,合成轉(zhuǎn)換后的語音,即通過轉(zhuǎn)換得到的STRAIGHT譜、基音頻率及原始非周期分量合成轉(zhuǎn)換后的語音。本發(fā)明提升了語音轉(zhuǎn)換的訓(xùn)練效果,改善了變換語音的語音質(zhì)量。
文檔編號G10L19/02GK102306492SQ20111026742
公開日2012年1月4日 申請日期2011年9月9日 優(yōu)先權(quán)日2011年9月9日
發(fā)明者孫健, 孫新建, 張雄偉, 曹鐵勇, 楊吉斌, 賈沖, 鄒霞, 黃建軍 申請人:中國人民解放軍理工大學(xué)