基于一對多碼書映射的語音轉換方法
【專利摘要】本發(fā)明公開了一種基于一對多碼書映射的語音轉換方法,對源語音碼書與目標語音碼書的一對多映射關系的建立,從平行數據庫中隨機提取一部分語音,對齊并提取聲道參數后快速建立源與目標語音碼書;估算用于訓練的數據中源與目標特征參數對應于其各自碼書的權重,通過統(tǒng)計與分析二者的關系來建立源與目標語音的權重映射關系,進而掌握個性特征的映射規(guī)則,實現高質量、快速的語音轉換,能夠解決實際環(huán)境中語音轉換系統(tǒng)的實時性、轉換后相似度的問題,最終在對語音轉換實時性追求的過程中減小轉換效果的代價,從而提高轉換結果與目標語音的相似度,具有良好的應用前景。
【專利說明】基于一對多碼書映射的語音轉換方法
【技術領域】
[0001]本發(fā)明涉及一種基于一對多碼書映射的語音轉換方法,屬于語音轉換【技術領域】?!颈尘凹夹g】
[0002]語音轉換技術是將某人(稱之為源)的語音作為輸入,對其進行特征參數的修改,使其輸出語義相同但具有另一說話人(稱之為目標)聲音個性的語音的技術。簡單地說就是將一個說話人的聲音,通過某種手段進行變換,使其聽起來仿佛是另一個說話人說的話,語音轉換是音信號處理領域一個較新的分支,屬于交叉性的學科分支,其內容既涵蓋語音的分析與合成、說話人識別、語音編碼和增強等語音處理領域的各方面又涉及到語音學、語義學及心理聲學等領域的知識。
[0003]近年來,語音轉換技術在許多語音研究者的努力下已經初成一些體系,如隱馬爾可夫模型、人工神經網絡、統(tǒng)計映射法等,早年,Stylianou等人通過高斯混合模型實現了對特征參數的映射,繼而該方法也成為了當前較為主流的方法之一,語音轉換的最終目標是實時化、智能化,因此轉換速度與轉換效果是語音轉換技術最主要的追求目標。然而,以高斯混合模型訓練為代表的現階段的轉換技術需要對每一段輸入的語音進行進行映射規(guī)則的訓練,其計算量大、消耗時間較多,很難滿足語音轉換的實時性要求。
[0004]針對上述問題,目前已存在一些應對方案,例如,針對“訓練過程的時間消耗”問題,早期有學者提出矢量量化算法:先對用于訓練的平行數據進行線性預測分析,利用矢量量化運算將平行數據的的聲道包絡參數劃分為若干碼本,然后對數據進行動態(tài)時間規(guī)整對齊并計算統(tǒng)計直方圖,最后將統(tǒng)計的直方圖作為加權因子建立轉換規(guī)則。針對矢量量化算法的轉換結果兩幀之間有間斷性的缺點,Shikano等人提出模糊矢量量化算法,該算法在轉換時考慮到了所有源和目標碼字之間的關系,然后將其加權疊加,以達到對參數進行平滑的效果,但是語音轉換后相似度低。除此之外,Arslan等人提出基于分段碼書的說話人映射算法,他們對輸入的語音幀首先按照所屬的音素類別進行分類,并采用了線性譜頻率作為特征參數建立源與目標語音一對一映射的碼書,但此過程復雜,處理時間長。
【發(fā)明內容】
[0005]本發(fā)明的目的是克服現有技術存在的不足,本發(fā)明的基于一對多碼書映射的語音轉換方法,能夠解決實際環(huán)境中語音轉換系統(tǒng)的實時性、轉換后相似度的問題,最終在對語音轉換實時性追求的過程中減小轉換效果的代價,從而提高轉換結果與目標語音的相似度,具有良好的應用前景。
[0006]為了達到上述目的,本發(fā)明所采用的技術方案是:
[0007]基于一對多碼書映射的語音轉換方法,其特征在于:包括以下步驟,
[0008]步驟(1),訓練階段,用于建立源碼書與目標碼書的一對多關系,包括以下步驟,
[0009](A)對平行的語音數據采用諧波隨機模型進行語音分析;
[0010](B)從語音分析得到的模型參數中提取聲道特征參數和基音頻率;[0011](C)利用動態(tài)時間規(guī)整算法將源和目標的聲道特征參數進行對齊;
[0012](D)從對齊的特征參數中隨機提取部分數據作為碼書,碼書包括源語音碼書和目標碼書;
[0013](E)將剩余與碼書不重疊的對齊數據作為訓練數據,分別估算并統(tǒng)計源與目標的聲道特征參數在各自目標碼書中對應的權重,分析統(tǒng)計源語音與對應目標語音的權重的映身寸關系;
[0014](F)通過分析統(tǒng)計的權重關系,建立源語音與目標碼書的一對多映射關系;
[0015]步驟(2),轉換階段,用于實現語音特征的映射,合成轉換后的語音,以下步驟,
[0016](H)根據建立源語音與目標碼書的一對多映射關系,實現對語音特征的映射;
[0017](G)進行參數內插和相位補償,合成轉換后的語音。
[0018]前述的基于一對多碼書映射的語音轉換方法,其特征在于:(A)對平行的語音數據采用諧波隨機模型進行語音分析的方法,包括如下步驟,
[0019](Al),對語音數據進行固定時長的分幀,用互相關法對基音頻率進行估計并根據基音頻率劃分清音信號幀與濁音信號幀;
[0020](A2),在濁音信號幀部分設置一個最大濁音頻率分量,用來劃分諧波成分和隨機成分的主能量區(qū)域,再利用最小二乘算法估計得到離散的諧波幅度值和相位值;
[0021](A3),在清音信號幀部分,利用經典的線性預測分析法對其進行分析,得到線性預測系數。
[0022]前述的基于一對多碼書映射的語音轉換方法,其特征在于:(B)從語音分析得到的模型參數中提取聲道特征參數和基音頻率的方法,包括以下步驟,
[0023](BI),對(A2)得到的離散的諧波幅度值求取平方;
[0024](B2),根據功率譜密度函數和自相關函數的一一對應關系,得到(A3)線性預測系數的托普里茨矩陣方程,求解該方程,將線性預測系數轉換為線性譜頻率系數。
[0025]前述的基于一對多碼書映射的語音轉換方法,其特征在于:(C)利用動態(tài)時間規(guī)整算法將源和目標的聲道特征參數進行對齊,對齊準則為:對于兩個不等長的特征參數序列,利用動態(tài)時間規(guī)整算法將其中一者的時間軸非線性的映射到另一者的時間軸上,實現一一對應的匹配關系;在現參數集合的對齊過程中,通過迭代優(yōu)化,最終獲得時間匹配函數。
[0026]前述的基于一對多碼書映射的語音轉換方法,其特征在于:(D)從對齊的特征參數中隨機提取部分數據作為目標碼書的過程是從對齊后的特征參數對中隨機提取出特征參數對,將其中每一個源語音特征參數的矢量作為一個源語音碼字,組合成源語音碼書;其對應的目標語音特征參數組合成目標碼書。
[0027]前述的基于一對多碼書映射的語音轉換方法,其特征在于:(E)將剩余與碼書不重疊的對齊數據作為訓練數據,分別估算并統(tǒng)計源與目標的聲道特征參數在各自目標碼書中對應的權重,分析統(tǒng)計源語音與對應目標語音的權重的映射關系的方法,包括以下步驟,
[0028](E1),分別估算源語音與目標語音的線性譜頻率參數矢量與其對應碼書中每個碼字的距離;
[0029](E2),根據其與碼書中每個碼字的距離,計算出其對應于碼書中各碼字的權重;
[0030](E3),分析統(tǒng)計源語音與對應目標語音的權重的映射關系。[0031]前述的基于一對多碼書映射的語音轉換方法,其特征在于:(G)進行參數內插和相位補償,合成轉換后的語音的方法,包括以下步驟,
[0032](G1),根據濁音信號幀部分轉換后的線性譜頻率參數估算其諧波參數;
[0033](G2),將濁音信號幀部分的離散諧波幅度值和相位值用作正弦信號的幅度值和相位值,并進行疊加,運用內插和相位進行補償,得到補償后濁音信號幀部分;
[0034](G3),將清音信號幀部分的白噪聲信號通過全極點濾波器,得到濾波后清音信號中貞部分;
[0035](G4),將補償后濁音信號幀部分和濾波后清音信號幀部分進行疊加,得到合成轉換的重構語音信號。
[0036]本發(fā)明的有益效果是:本發(fā)明的基于一對多碼書映射的語音轉換方法,對源語音碼書與目標語音碼書的一對多映射關系的建立,從平行數據庫中隨機提取一部分語音,對齊并提取聲道參數后快速建立源與目標語音碼書;然后,估算用于訓練的數據中源與目標特征參數對應于其各自碼書的權重,通過統(tǒng)計與分析二者的關系來建立源與目標語音的權重映射關系,進而掌握個性特征的映射規(guī)則,實現高質量、快速的語音轉換,能夠解決實際環(huán)境中語音轉換系統(tǒng)的實時性、轉換后相似度的問題,最終在對語音轉換實時性追求的過程中減小轉換效果的代價,從而提高轉換結果與目標語音的相似度,具有良好的應用前景。
【專利附圖】
【附圖說明】
[0037]圖1是本發(fā)明的訓練階段的流程示意圖。
[0038]圖2是本發(fā)明的轉換階段的流程示意圖。
【具體實施方式】
[0039]下面將結合說明書附圖,對本發(fā)明作進一步的說明。
[0040]本發(fā)明的基于一對多碼書映射的語音轉換方法,包括訓練階段和轉換階段,訓練階段,首先,利用已建立的源與目標碼書對平行數據分別進行權重估算并統(tǒng)計分析,然后通過源與目標的權重關系建立源碼書與目標碼書的一對多關系。轉換階段,首先,獲得待轉換的源語音的權重,然后由源語音碼書與目標碼書的一對多關系獲得映射的特征參數,具體包括如下步驟:
[0041]步驟(1),如圖1所示,訓練階段,用于建立源碼書與目標碼書的一對多關系,包括以下步驟,
[0042](A)對平行的語音數據采用諧波隨機模型進行語音分析,包括如下步驟,
[0043]Al),對語音數據進行固定時長的分幀,用互相關法對基音頻率進行估計并根據基音頻率劃分清音信號幀與濁音信號幀;
[0044]A2),在濁音信號幀部分設置一個最大濁音頻率分量,用來劃分諧波成分和隨機成分的主能量區(qū)域,再利用最小二乘算法估計得到離散的諧波幅度值和相位值;
[0045]A3),在清音信號幀部分,利用經典的線性預測分析法對其進行分析,得到線性預測系數;
[0046](B)從語音分析得到的模型參數中提取聲道特征參數和基音頻率,包括如下步驟,;[0047]BI),對A2)得到的離散的諧波幅度值求取平方;
[0048]B2),根據功率譜密度函數和自相關函數的一一對應關系,得到A3)線性預測系數的托普里茨矩陣方程,求解該方程,將線性預測系數轉換為線性譜頻率系數;
[0049]C)利用動態(tài)時間規(guī)整算法將源和目標的聲道特征參數進行對齊,對齊準則為:對于兩個不等長的特征參數序列,利用動態(tài)時間規(guī)整算法將其中一者的時間軸非線性的映射到另一者的時間軸上,實現一一對應的匹配關系;在現參數集合的對齊過程中,通過迭代優(yōu)化一個預設的累積失真函數,并限制搜索區(qū)域,最終獲得時間匹配函數;
[0050](D)從對齊的特征參數中隨機提取部分數據作為碼書,碼書包括源語音碼書和目標碼書,過程是從對齊后的特征參數對中隨機提取出特征參數對,將其中每一個源語音特征參數的矢量作為一個源語音碼字,組合成源語音碼書;其對應的目標語音特征參數組合成目標碼書;
[0051](E)將剩余與碼書不重疊的對齊數據作為訓練數據,分別估算并統(tǒng)計源與目標的聲道特征參數在各自目標碼書中對應的權重,分析統(tǒng)計源語音與對應目標語音的權重的映射關系,包括以下步驟,
[0052]E1),分別估算源語音與目標語音的線性譜頻率參數矢量與其對應碼書中每個碼字的距離;
[0053]E2),根據其與碼書中每個碼字的距離,計算出其對應于碼書中各碼字的權重;
[0054]E3),分析統(tǒng)計源語音與對應目標語音的權重的映射關系;
[0055](F)通過分析統(tǒng)計的權重關系,建立源語音與目標碼書的一對多映射關系;
[0056]步驟(2),如圖2所示,轉換階段,用于實現語音特征的映射,合成轉換后的語音,以下步驟,
[0057](H)根據建立源語音與目標碼書的一對多映射關系,實現對語音特征的映射;
[0058](G)進行參數內插和相位補償,合成轉換后的語音,包括以下步驟,
[0059]G1),根據濁音信號幀部分轉換后的線性譜頻率參數估算其諧波參數;
[0060]G2),將濁音信號幀部分的離散諧波幅度值和相位值用作正弦信號的幅度值和相位值,并進行疊加,運用內插和相位進行補償,得到補償后濁音信號幀部分;
[0061]G3),將清音信號幀部分的白噪聲信號通過全極點濾波器,得到濾波后清音信號幀部分;
[0062]G4),將補償后濁音信號幀部分和濾波后清音信號幀部分進行疊加,得到合成轉換的重構語音信號。
[0063]下面介紹按照本發(fā)明的語音轉換方法的一具體實施例,具體如下,
[0064]步驟(I ),訓練階段:
[0065](A)源和目標人的語音通過諧波加隨機模型進行分解,得到基音頻率軌跡和諧波聲道譜參數的幅度值和相位值。具體細節(jié)描述如下:
[0066]Al)對語音信號進行分巾貞,巾貞長20ms,巾貞重疊間隔IOms,在每巾貞中,用自相關法估計基頻,若該幀為清音幀,則設置基頻等于零;
[0067]A2)對于濁音幀(即基頻不為零的幀),假設語音信號Sh(η)可以由一系列的正弦波疊加而成:[0068]
【權利要求】
1.基于一對多碼書映射的語音轉換方法,其特征在于:包括以下步驟, 步驟(1),訓練階段,用于建立源碼書與目標碼書的一對多關系,包括以下步驟, (A)對平行的語音數據采用諧波隨機模型進行語音分析; (B)從語音分析得到的模型參數中提取聲道特征參數和基音頻率; (C)利用動態(tài)時間規(guī)整算法將源和目標的聲道特征參數進行對齊; (D)從對齊的特征參數中隨機提取部分數據作為碼書,碼書包括源語音碼書和目標碼書; (E)將剩余與碼書不重疊的對齊數據作為訓練數據,分別估算并統(tǒng)計源與目標的聲道特征參數在各自目標碼書中對應的權重,分析統(tǒng)計源語音與對應目標語音的權重的映射關系; (F)通過分析統(tǒng)計的權重關系,建立源語音與目標碼書的一對多映射關系; 步驟(2),轉換階段,用于實現語音特征的映射,合成轉換后的語音,以下步驟, (H)根據建立源語音與目標碼書的一對多映射關系,實現對語音特征的映射; (G)進行參數內插和相位補償,合成轉換后的語音。
2.根據權利要求1所述的基于一對多碼書映射的語音轉換方法,其特征在于:(A)對平行的語音數據采用諧波隨機模型進行語音分析的方法,包括如下步驟, (Al),對語音數據進行固定時`長的分幀,用互相關法對基音頻率進行估計并根據基音頻率劃分清音信號幀與濁音信號幀; (A2),在濁音信號幀部分設置一個最大濁音頻率分量,用來劃分諧波成分和隨機成分的主能量區(qū)域,再利用最小二乘算法估計得到離散的諧波幅度值和相位值; (A3),在清音信號幀部分,利用經典的線性預測分析法對其進行分析,得到線性預測系數。
3.根據權利要求1或2所述的基于一對多碼書映射的語音轉換方法,其特征在于:(B)從語音分析得到的模型參數中提取聲道特征參數和基音頻率的方法,包括以下步驟, (BI),對(A2)得到的離散的諧波幅度值求取平方; (B2),根據功率譜密度函數和自相關函數的一一對應關系,得到(A3)線性預測系數的托普里茨矩陣方程,求解該方程,將線性預測系數轉換為線性譜頻率系數。
4.根據權利要求1所述的基于一對多碼書映射的語音轉換方法,其特征在于:(C)利用動態(tài)時間規(guī)整算法將源和目標的聲道特征參數進行對齊,對齊準則為:對于兩個不等長的特征參數序列,利用動態(tài)時間規(guī)整算法將其中一者的時間軸非線性的映射到另一者的時間軸上,實現一一對應的匹配關系;在現參數集合的對齊過程中,通過迭代優(yōu)化,最終獲得時間匹配函數。
5.根據權利要求1所述的基于一對多碼書映射的語音轉換方法,其特征在于:(D)從對齊的特征參數中隨機提取部分數據作為目標碼書的過程是從對齊后的特征參數對中隨機提取出特征參數對,將其中每一個源語音特征參數的矢量作為一個源語音碼字,組合成源語音碼書;其對應的目標語音特征參數組合成目標碼書。
6.根據權利要求1所述的基于一對多碼書映射的語音轉換方法,其特征在于:(E)將剩余與碼書不重疊的對齊數據作為訓練數據,分別估算并統(tǒng)計源與目標的聲道特征參數在各自目標碼書中對應的權重,分析統(tǒng)計源語音與對應目標語音的權重的映射關系的方法,包括以下步驟, (E1),分別估算源語音與目標語音的線性譜頻率參數矢量與其對應碼書中每個碼字的距離; (E2),根據其與碼書中每個碼字的距離,計算出其對應于碼書中各碼字的權重; (E3),分析統(tǒng)計源語音與對應目標語音的權重的映射關系。
7.根據權利要求1所述的基于一對多碼書映射的語音轉換方法,其特征在于:(G)進行參數內插和相位補償,合成轉換后的語音的方法,包括以下步驟, (G1),根據濁音信號幀部分轉換后的線性譜頻率參數估算其諧波參數; (G2),將濁音信號幀部分的離散諧波幅度值和相位值用作正弦信號的幅度值和相位值,并進行疊加,運用內插和相位進行補償,得到補償后濁音信號幀部分; (G3),將清音信號幀部分的白噪聲信號通過全極點濾波器,得到濾波后清音信號幀部分; (G4),將補償后濁音信號幀部分和濾波后清音信號幀部分進行疊加,得到合成轉換的重構語音信號。`
【文檔編號】G10L25/93GK103886859SQ201410050758
【公開日】2014年6月25日 申請日期:2014年2月14日 優(yōu)先權日:2014年2月14日
【發(fā)明者】徐寧, 胡芳, 鮑靜益, 劉小峰, 湯一彬, 蔣愛民 申請人:河海大學常州校區(qū)