專利名稱:一種基于psm變調(diào)的語音識別及其還原方法及其裝置的制作方法
技術領域:
本發(fā)明屬于多媒體信息安全領域,具體涉及一種基于PSM變調(diào)的語音識別及其還原方法及其裝置。
背景技術:
PSM(Pitch Scaling Modification)變調(diào)是最常用的語音處理之方法一。其功能是把一聲音變?yōu)榱硪宦犉饋碜匀粎s完全不同的聲音。PSM通常用于音樂制作或保護說話人的安全和隱私,但也有可能被罪犯用來掩飾聲音,以防被識別到身份。因此PSM變調(diào)后的話音還原和原說話人身份識別具有重要的應用價值。 PSM的一般步驟 1)對信號x(n)分幀、加窗
廠⑷=Σ.濃(")‘e
/ =0
2)計算瞬時幅值
.2 π . -/--κ· η
Ν 0<η<Ν
\m
Ν—\
^ χ{η) ■ w (/τ) · e
.2π . -/--k-n
N
η=0
0</i<JV
⑴
⑵
3)通過本幀與前一幀的相位關系計算瞬時頻率
ω(k) = (k+^γ
K
N
(3)
其中Fs是抽樣頻率,△是相對中心頻率的偏移頻率。 4)頻譜伸縮。首先是瞬時幅值線性插值 F(K' ) I = μ |F(k) | + (1-μ) |F(k+l) 0 ^ k < Ν/2 i=「i'/a](5)
權利要求
1.一種基于PSM語音變調(diào)的識別方法,其特征在于,所述方法為輸入測試語音和參考語音,所述參考語音為經(jīng)過PSM變調(diào)后的語音,所述測試語音為未經(jīng)PSM變調(diào)的語音;提取測試語音的美頻率倒譜系數(shù);提取所述測試語音和參考語音的基頻,計算出伸縮系數(shù);對美頻率倒譜系數(shù)的提取算法采用所述伸縮系數(shù)進行線性插值伸縮,得出改進型提取算法, 用所述改進型提取算法提取所述參考語音的美頻率倒譜系數(shù),根據(jù)所述參考語音的美頻率倒譜系數(shù)與所述測試語音的美頻率倒譜系數(shù)作匹配計算,若所得值大于預設值則識別為不同音源的語音,若不大于預設值,則識別為同一音源的語音。
2.根據(jù)權利要求1所述的基于PSM語音變調(diào)的識別方法,其特征在于,計算所述伸縮系數(shù)的估計方法為a' =Hiean (F》/mean (Ft),其中α ‘為所述估計伸縮系數(shù),mean (F》為所述參考語音的基頻值的平均值,mean (Ft)為所述測試語音的基頻值的平均值。
3.根據(jù)權利要求1所述的基于PSM語音變調(diào)的識別方法,其特征在于,所述基頻值的提取步驟如下(1)對信號加窗求得到任一時刻tmid前后一預定長度值的信號;(2)求所述預定長度值的信號的自相關函數(shù)和窗函數(shù)的自相關函數(shù);(3)兩相關函數(shù)相除,最大值處即為周期T,獲取該時刻tmid的基頻F。
4.根據(jù)權利要求1所述的基于PSM語音變調(diào)的識別方法,其特征在于,所述改進型提取算法為在美頻率倒譜系數(shù)提取算法中的加窗和FFT變換之后,對FFT系數(shù)的幅值|F(k) 進行線性插值伸縮得出|F(k' )|。
5.根據(jù)權利要求1或4所述的基于PSM語音變調(diào)的識別方法,其特征在于,線性插值伸縮的值為所述伸縮系數(shù)的倒數(shù)。
6.根據(jù)權利要求1所述的基于PSM語音變調(diào)的識別方法,其特征在于所述匹配計算的方法為動態(tài)時間規(guī)整算法。
7.根據(jù)權利要求1所述的基于PSM語音變調(diào)的識別方法所實現(xiàn)的語音還原方法,其特征在于,所述方法為,對判斷為與測試語音是相同音源的參考語音進行以下步驟計算1)對待識別信號x(n)分幀、加窗、并進行FFT變換
8.根據(jù)權利要求1所述的基于PSM語音變調(diào)的識別方法所實現(xiàn)的識別裝置,其特征在于,所述裝置包括第一語音輸入模塊,用于輸入測試語音; 第二語音輸入模塊,用于輸入?yún)⒖颊Z音; 第一提取模塊,用于提取測試語音的美頻率倒譜系數(shù);第二提取模塊,用于提取測試語音和參考語音的基頻,并根據(jù)提取的基頻計算出伸縮系數(shù);第三提取模塊,用于根據(jù)所述伸縮系數(shù)提取參考語音的美頻率倒譜系數(shù); 識別處理模塊,用于根據(jù)所述測試語音和參考語音的美頻率倒譜系數(shù),進行匹配計算和識別;所述第一語音輸入模塊分別與所述第一提取模塊和第三提取模塊連接,所述第二語音輸入模塊分別與所述第二提取模塊和第三提取模塊連接所述第二提取模塊與所述第三提取模塊連接,所述識別處理模塊分別與所述第一提取模塊和第二處理模塊連接。
9.根據(jù)權利要求8所述的語音還原方法所實現(xiàn)的還原裝置,其特征在于,所述裝置包括,測試語音輸入模塊、參考語音輸入模塊,基頻提取模塊、處理模塊、還原模塊和語音輸出模塊,所述基頻提取模塊分別與所述測試語音輸入模塊和參考語音輸入模塊相連接,將輸入的語音傳輸?shù)剿龌l提取模塊進行基頻提取,所述處理模塊與所述基頻提取模塊連接,根據(jù)提取的基頻計算出所述的伸縮系數(shù),所述還原模塊分別與所述參考語音輸入模塊和處理模塊連接,根據(jù)處理模塊計算出的伸縮系數(shù)還原參考語音,所述語音輸出模塊與所述還原模塊連接,輸出經(jīng)過還原的語音。
全文摘要
本發(fā)明公開一種基于PSM變調(diào)的語音識別及其還原方法及其裝置,利用語音的基頻特性估計變調(diào)后伸縮系數(shù),并對美頻率倒譜系數(shù)提取算法進行了改進,即利用線性插值伸縮將估計的變調(diào)系數(shù)整合到美頻率倒譜系數(shù)提取算法中,使其能近似計算出變調(diào)語音在變調(diào)前的美頻率倒譜系數(shù)。最后利用時間動態(tài)規(guī)整作為匹配方法,計算語音之間的相似度。同時,還能利用該估計的伸縮系數(shù)將變調(diào)后的語音還原為原語音。
文檔編號G10L17/00GK102354496SQ20111018300
公開日2012年2月15日 申請日期2011年7月1日 優(yōu)先權日2011年7月1日
發(fā)明者王泳, 黃繼武 申請人:中山大學