国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種自適應實現(xiàn)男女聲切換方法

      文檔序號:2826278閱讀:837來源:國知局
      一種自適應實現(xiàn)男女聲切換方法
      【專利摘要】本發(fā)明公開了一種自適應實現(xiàn)男女聲切換方法,包括以下步驟:訓練時,將語音數(shù)據(jù)庫的語音數(shù)據(jù)進行分段提取音頻數(shù)據(jù)庫的聲音數(shù)據(jù),再提取其動靜態(tài)梅爾倒譜參數(shù)特征,然后將其送入深度限制波爾機網(wǎng)絡進行語音性別學習。用戶使用時,采集語音信號,按照與語音數(shù)據(jù)庫的語音數(shù)據(jù)相同的步驟處理后送入深度限制波爾機網(wǎng)絡進行語音性別判別;根據(jù)性別判別結(jié)果設定變音目標,再利用時間動態(tài)規(guī)劃SOLAFS算法根據(jù)變音目標對音頻信號進行時長規(guī)整和重采樣,最終達到自動實現(xiàn)男女聲切換的效果。本發(fā)明能實時辨別性別并自適應設定變聲目標,再進行實時變聲處理,無需每次使用時手動設定參數(shù),語音的動態(tài)判斷準確。
      【專利說明】一種自適應實現(xiàn)男女聲切換方法
      【技術領域】
      [0001]本發(fā)明涉及機器學習和音頻處理領域,特別涉及一種自適應實現(xiàn)男女聲切換方法男女聲切換方法。
      【背景技術】
      [0002]男女聲互相變換是通過改變語音信號的音調(diào)和音色,傳統(tǒng)方法是利用語音信號處理方法來實現(xiàn),其是語音信號處理領域中一個的重要理論研究方向,并且男女語音切換可以應用在保密通信,娛樂通信等多個領域,具有很好的實際應用價值。目前也有不少方法設計了男女聲切換方法,如目前的專利CN03137014.4提供一種變聲方法,該方法通過手動設定變音目標,通過改變信號的長度來達到變音的效果。專利CN200410062337.1利用頻譜搬移,將語音信號先轉(zhuǎn)換成頻域型號,然后在頻域上,將信號頻譜整體搬移到高頻域范圍,最后再將其變換回時域,最終完成變聲目的。但是現(xiàn)有的變聲方法需要手動設定變音目標(如設定男變女,或者女變男),設定變音目標后,不能自動變更變音目標,也不能實時監(jiān)測說話人性別并進行變音。

      【發(fā)明內(nèi)容】

      [0003]為了克服現(xiàn)有技術的上述缺點與不足,本發(fā)明的目的在于提供一種自適應實現(xiàn)男女聲切換方法男女聲切換方法,能夠自動實時辨識性別,然后根據(jù)識別的性別設定變音目標,并完成最終的男女語音變音。
      [0004]本發(fā)明的目的通過以下技術方案實現(xiàn):
      [0005]一種自適應實現(xiàn)男女聲切換方法,包括以下步驟:
      [0006](I)訓練過程:
      [0007](1-1)收集語音數(shù)據(jù)庫;所述語音數(shù)據(jù)庫中的語音數(shù)據(jù)包括男聲和女聲;
      [0008](1-2)對語音數(shù)據(jù)庫中的語音數(shù)據(jù)進行預處理;
      [0009](1-3)對預處理后的語音數(shù)據(jù)進行特征提取:先將預處理后的語音數(shù)據(jù)分成30ms的語音巾貞;對每語音巾貞提取12維的梅爾倒譜參數(shù)Xi,其中i=l..12 ;將這12維的倒譜參數(shù)Xi進行一階差分的處理得到12維的動態(tài)差分參數(shù)yi;即Yi=X1-XH ;將動態(tài)差分參數(shù)Ji和梅爾倒譜參數(shù)Xi級聯(lián)組成當前語音巾貞的動靜態(tài)梅爾倒譜參數(shù)的語音特征;然后隨機選取90中貞語音數(shù)據(jù)的動靜態(tài)梅爾倒譜參數(shù)的語音特征,組成當前語音數(shù)據(jù)的動靜態(tài)梅爾倒譜參數(shù)的語音特征,即得到90*24維的動靜態(tài)梅爾倒譜參數(shù)的語音特征矢量;
      [0010](1-4)采用基于深度限制波爾機網(wǎng)絡進行語音性別訓練學習:
      [0011]基于深度限制波爾機網(wǎng)絡包括依次連接的輸入層、第一隱層、第二隱層、第三隱層和輸出層;基于深度限制波爾機網(wǎng)絡形成四層網(wǎng)絡,其中,第一層網(wǎng)絡由輸入層和第一隱層組成,輸入層作為第一層網(wǎng)絡的輸入層,第一隱層作為第一層網(wǎng)絡的輸出層;第二層網(wǎng)絡由第一隱層和第二隱層組成,第一隱層作為第二層網(wǎng)絡的輸入層,第二隱層作為第二層網(wǎng)絡的輸出層;第三層絡由第二隱層和第三隱層組成,第二隱層作為第三層網(wǎng)絡的輸入層,第三隱層作為第三層網(wǎng)絡的輸出層;第四層絡由第三隱層和輸出層組成,第三隱層作為第四層網(wǎng)絡的輸入層,輸出層作為第四層網(wǎng)絡的輸出層;每層網(wǎng)絡的能量定義為E (v, h)=-bv-Ch-hWv,其中b是該層網(wǎng)絡的輸入層V的偏差,c是該層網(wǎng)絡的輸出層h的偏差,W是該層網(wǎng)絡的輸入層V和該層網(wǎng)絡的輸出層h的權重值;
      [0012]將步驟(1-3)提取得到的語音特征矢量輸入基于深度限制波爾機網(wǎng)絡,作為輸入層,采用吉比特采樣方法根據(jù)輸入層生成第一層網(wǎng)絡的輸入層的偏差、第一層網(wǎng)絡的輸出層的偏差、第一層網(wǎng)絡的輸入層和第一層網(wǎng)絡的輸出層的權重值;將當前層網(wǎng)絡的輸出層作為下一層網(wǎng)絡的輸入層,分開訓練多層網(wǎng)絡,將多層網(wǎng)絡疊加實現(xiàn)深度限制波爾機網(wǎng)絡的訓練;得到各層網(wǎng)絡的輸入層的偏差、各層網(wǎng)絡輸出層的偏差、各層網(wǎng)絡的輸入層和輸出層的權重值;
      [0013](2)識別過程:
      [0014](2-1)采集用戶的語音信號;
      [0015]( 2-2 )對采集到的語音信號進行預處理;
      [0016](2-3)對預處理后的語音信號進行特征提取:先將預處理后的語音信號分成30ms的語音段;在每語音幀中提取12維的梅爾倒譜參數(shù)Xi,其中i=l..12 ;將這12維的倒譜參數(shù)xi進行一階差分的處理得到12維的動態(tài)差分參數(shù)yi,即Yi=X1-Xp1 ;將動態(tài)差分參數(shù)Ji和梅爾倒譜參數(shù)Xi級聯(lián)組成當前語音幀的動靜態(tài)梅爾倒譜參數(shù)的語音特征;然后隨機選取90巾貞語音信號的動靜態(tài)梅爾倒譜參數(shù)的語音特征,組成當前語音信號的動靜態(tài)梅爾倒譜參數(shù)的語音特征,即得到90*24維的動靜態(tài)梅爾倒譜參數(shù)的語音特征矢量;
      [0017](2-3)將步驟(2-2)得到的語音特征矢量展開成I維,利用步驟(1_4)得到的四層網(wǎng)絡的輸入層的偏差、四層網(wǎng)絡的輸出層的偏差、四層網(wǎng)絡的輸入層和輸出層的權重值,對當前90幀語音的進行性別判斷,根據(jù)性別判斷結(jié)果設定變音目標:
      [0018]如果性別判斷為女,則變音目標為女聲變男聲;
      [0019]如果性別判斷為男,則變音目標為男聲變女聲;
      [0020](2-4)根據(jù)步驟(2-3)設定的變音目標,利用時間動態(tài)規(guī)劃SOLAFS算法對語音信號進行時長規(guī)整,將時長規(guī)整后的語音信息輸出。
      [0021]步驟(1-2)所述對語音數(shù)據(jù)庫中的語音數(shù)據(jù)進行預處理,具體為:
      [0022]對語音數(shù)據(jù)進行去平均化能量處理。
      [0023]步驟(2-2)所述對采集到的語音信號進行預處理,具體為:
      [0024]對語音信號進行去平均化能量處理。
      [0025]步驟(2-4)所述利用時間動態(tài)規(guī)劃SOLAFS算法對語音信號進行時長規(guī)整,具體為:
      [0026]當變音目標為女聲變男聲時,將語音信號的時長擴大為原語音時長的1.25倍;再進行重采樣,重采樣率為原采樣率的0.75倍;
      [0027]當變音目標為男聲變女聲時,將語音信號的時長縮小為原語音時長的0.75倍;再進行重采樣,重采樣率為原采樣率的1.25倍。
      [0028]進行步驟(2-4)之后,還進行以下步驟:
      [0029](2-5)計算下一個時長為90幀的語音信號平均能量,如果當前語音信號平均能量大于第一個時長為90幀的語音信號的平均能量的0.2倍,則認為當前語音信號與第一個時長為90幀的語音信號由同一用戶發(fā)出,則繼續(xù)使用上一個語音信號變音目標,進行步驟(2-4);
      [0030]如果當前語音信號平均能量小于上一個時長為90幀的語音信號的平均能量的
      0.2倍,則認為當前語音中斷;繼續(xù)計算下一個時長為語音信號的平均能量,直至檢測到某一個時長為90幀的語音信號的平均能量大于第一個時長為90幀的語音信號的平均能量的
      0.2倍時,將語音信號的平均能量更新為當前時長為90幀的語音信號的平均能量,重新進行步驟(2-3)~(2-5)。
      [0031]與現(xiàn)有技術相比,本發(fā)明具有以下優(yōu)點和有益效果:[0032]( I)本發(fā)明的自適應實現(xiàn)男女聲切換方法男女聲切換方法能實時辨別性別并自適應設定變聲目標,再進行實時變聲處理,無需每次使用時手動設定參數(shù)。
      [0033](2)本發(fā)明的自適應實現(xiàn)男女聲切換方法提取的語音特征是采用動靜態(tài)梅爾倒譜參數(shù)的語音特征,使語音的動態(tài)判斷更加準確。
      [0034](3)本發(fā)明的自適應實現(xiàn)男女聲切換方法采用深度限制波爾機網(wǎng)絡的語音性別訓練學習和識別,從而對語音性別的判斷更準確,減少誤判率。
      【專利附圖】

      【附圖說明】
      [0035]圖1為本發(fā)明的實施例的自適應實現(xiàn)男女聲切換方法的流程圖。
      【具體實施方式】
      [0036]下面結(jié)合實施例,對本發(fā)明作進一步地詳細說明,但本發(fā)明的實施方式不限于此。
      [0037]實施例
      [0038]如圖1所示,本實施例的自適應實現(xiàn)男女聲切換方法,包括以下步驟:
      [0039](I)訓練過程:
      [0040](1-1)收集語音數(shù)據(jù)庫:主要是從電子漢語詞典真人發(fā)音數(shù)據(jù)庫根據(jù)單詞提取了10組男女聲數(shù)據(jù)庫,其中男生5組,女生5組,每組數(shù)據(jù)庫中包含常用的3893個單詞的語音
      及曰;
      [0041](1-2)對語音數(shù)據(jù)庫中的語音數(shù)據(jù)進行去平均化能量預處理;
      [0042]首先截取語音開始點和結(jié)束點的數(shù)據(jù),先統(tǒng)計整個語音的平均能量,為了簡化計算,本發(fā)明取每個語音數(shù)據(jù)的絕對值的平均值作為其平均能量i,第一個語音信號值大于
      !即是語音開始點,最后一個語音信號值大于!即為語音結(jié)束點。截取語音開始和結(jié)束之55
      間信號,然后將語音數(shù)據(jù)進行去平均化能量處理,即將語音數(shù)據(jù)除了平均能量互,以統(tǒng)一各個語音數(shù)據(jù)的能量分布;
      [0043](1-3)對預處理后的語音數(shù)據(jù)進行特征提取:先將預處理后的語音數(shù)據(jù)分成30ms的語音幀;對每語音幀提取12維的梅爾倒譜參數(shù)Xi,其中i=l..12 ;將這12維的倒譜參數(shù)Xi進行一階差分的處理得到12維的動態(tài)差分參數(shù)yi;即Yi=X1-XH ;將動態(tài)差分參數(shù)Ji和梅爾倒譜參數(shù)Xi級聯(lián)組成當前語音幀的動靜態(tài)梅爾倒譜參數(shù)的語音特征;然后隨機選取90中貞語音數(shù)據(jù)的動靜態(tài)梅爾倒譜參數(shù)的語音特征,組成當前語音數(shù)據(jù)的動靜態(tài)梅爾倒譜參數(shù)的語音特征,即得到90*24維的動靜態(tài)梅爾倒譜參數(shù)的語音特征矢量;[0044](1-4)米用基于深度限制波爾機網(wǎng)絡(Deep Restrict Boltzman Machine, DRBM)進行語音性別訓練學習:
      [0045]基于深度限制波爾機網(wǎng)絡包括依次連接的輸入層、第一隱層、第二隱層、第三隱層和輸出層,其中輸入層維度為2160,第一、二、三隱層的維度分別為500、500、3000 ;基于深度限制波爾機網(wǎng)絡形成四層網(wǎng)絡,其中,第一層網(wǎng)絡由輸入層和第一隱層組成,輸入層作為第一層網(wǎng)絡的輸入層,第一隱層作為第一層網(wǎng)絡的輸出層;第二層網(wǎng)絡由第一隱層和第二隱層組成,第一隱層作為第二層網(wǎng)絡的輸入層,第二隱層作為第二層網(wǎng)絡的輸出層;第三層絡由第二隱層和第三隱層組成,第二隱層作為第三層網(wǎng)絡的輸入層,第三隱層作為第三層網(wǎng)絡的輸出層;第四層絡由第三隱層和輸出層組成,第三隱層作為第四層網(wǎng)絡的輸入層,輸出層作為第四層網(wǎng)絡的輸出層。對于每層網(wǎng)絡,正向迭代次數(shù)為50次,反向為200次,每層網(wǎng)絡的能量定義為E(v,h)=-bv-Ch-hWv,其中b是該層網(wǎng)絡的輸入層V的偏差,c是該層網(wǎng)絡的輸出層h的偏差,W是該層網(wǎng)絡的輸入層V和該層網(wǎng)絡的輸出層h的權重值;
      [0046]將步驟(1-3)提取得到的語音特征矢量輸入基于深度限制波爾機網(wǎng)絡,作為輸入層,采用吉比特(Gibbs)采樣方法根據(jù)輸入層生成第一層網(wǎng)絡的輸入層的偏差、第一層網(wǎng)絡的輸出層的偏差、第一層網(wǎng)絡的輸入層和第一層網(wǎng)絡的輸出層的權重值(具體實現(xiàn)細節(jié)可參考文獻 Hinton, G.E.,Osindero, S.and Teh, Y., A fast learning algorithm for deepbelief nets.Neural Computationl8:1527-1554, 2006);將當前層網(wǎng)絡的輸出層作為下一層網(wǎng)絡的輸入層,分開訓練多層網(wǎng)絡,將多層網(wǎng)絡疊加實現(xiàn)深度限制波爾機網(wǎng)絡的訓練;得到各層網(wǎng)絡的輸入層的偏差、各層網(wǎng)絡輸出層的偏差、各層網(wǎng)絡的輸入層和輸出層的權重值;
      [0047](2)識別過程:
      [0048](2-1)采集用戶的語音信號;
      [0049]( 2-2 )對采集到的語音信號進行去平均化能量預處理;
      [0050]首先截取語音開始點和結(jié)束點的數(shù)據(jù),先統(tǒng)計整個語音的平均能量,為了簡化計算,本發(fā)明取每個語音數(shù)據(jù)的絕對值的平均值作為其平均能量:1,第一個語音信號值大于
      即是語音開始點,最后一個語音信號值大于f即為語音結(jié)束點。截取語音開始和結(jié)束之55
      間信號,然后將語音數(shù)據(jù)進行去平均化能量處理,即將語音數(shù)據(jù)除了平均能量互,以統(tǒng)一各個語音數(shù)據(jù)的能量分布;
      [0051](2-3)對預處理后的語音信號進行特征提取:先將預處理后的語音信號分成30ms的語音段;在每語音幀中提取12維的梅爾倒譜參數(shù)Xi,其中i=l..12 ;將這12維的倒譜參數(shù)Xi進行一階差分的處理得到12維的動態(tài)差分參數(shù)yi;即Yi=X1-XH ;將動態(tài)差分參數(shù)Ji和梅爾倒譜參數(shù)Xi級聯(lián)組成當前語音幀的動靜態(tài)梅爾倒譜參數(shù)的語音特征;然后隨機選取90巾貞語音信號的動靜態(tài)梅爾倒譜參數(shù)的語音特征,組成當前語音信號的動靜態(tài)梅爾倒譜參數(shù)的語音特征,即得到90*24維的動靜態(tài)梅爾倒譜參數(shù)的語音特征矢量;
      [0052](2-3)將步驟(2-2)得到的語音特征矢量展開成I維,利用步驟(1_4)得到的四層網(wǎng)絡的輸入層的偏差、四層網(wǎng)絡的輸出層的偏差、四層網(wǎng)絡的輸入層和輸出層的權重值,對當前90幀語音的進行性別判斷,根據(jù)性別判斷結(jié)果設定變音目標:[0053]如果性別判斷為女,則變音目標為女聲變男聲;
      [0054]如果性別判斷為男,則變音目標為男聲變女聲;
      [0055](2-4)根據(jù)步驟(2-3)設定的變音目標,利用時間動態(tài)規(guī)劃SOLAFS算法對語音信號進行時長規(guī)整,將時長規(guī)整后的語音信息輸出;所述利用時間動態(tài)規(guī)劃SOLAFS算法對語音信號進行時長規(guī)整,具體為:
      [0056]當變音目標為女聲變男聲時,將語音信號的時長擴大為原語音時長的1.25倍;再進行重采樣,重采樣率為原采樣率的0.75倍;
      [0057]當變音目標為男聲變女聲時,將語音信號的時長縮小為原語音時長的0.75倍;再進行重采樣,重采樣率為原采樣率的1.25倍。
      [0058]在用戶的后續(xù)使用過程中,還可以進行以下步驟:
      [0059](2-5)計算下一個時長為90幀的語音信號平均能量,如果當前語音信號平均能量大于第一個時長為90幀的語音信號的平均能量的0.2倍,則認為當前語音信號與第一個時長為90幀的語音信號由同一用戶發(fā)出,則繼續(xù)使用上一個語音信號變音目標,進行步驟(2-4);
      [0060]如果當前語音信號平均能量小于上一個時長為90幀的語音信號的平均能量的
      0.2倍,則認為當前語音中斷(可能使用人已改變);繼續(xù)計算下一個時長為語音信號的平均能量,直至檢測到某一個時長為90幀的語音信號的平均能量大于第一個時長為90幀的語音信號的平均能量的0.2倍時,將語音信號的平均能量更新為當前時長為90幀的語音信號的平均能量,重新進行步驟(2-3)?(2-5),這樣處理的最大好處在于,當當前使用人發(fā)生改變時,系統(tǒng)可以實現(xiàn)自動化適配不同性別使用者的變聲處理。
      [0061]本實施例的自適應實現(xiàn)男女聲切換方法在應用時,可以使用計算機提取語音數(shù)據(jù)庫的語音信號特征和訓練深度限制波爾機網(wǎng)絡,然后將訓練好的深度限制波爾機網(wǎng)絡模型配置在每臺手機端,當手機用戶使用時,麥克風采集當前用戶的語音信號,提取當前語音信號特征,并利用訓練好的深度限制波爾機網(wǎng)絡模型進行判斷性別,然后自動調(diào)整變音目標,利用時間動態(tài)規(guī)劃SOLAFS算法對語音信號進行時長規(guī)整和重采樣語音信號,再傳送給遠端用戶。
      [0062]上述實施例為本發(fā)明較佳的實施方式,但本發(fā)明的實施方式并不受所述實施例的限制,其他的任何未背離本發(fā)明的精神實質(zhì)與原理下所作的改變、修飾、替代、組合、簡化,均應為等效的置換方式,都包含在本發(fā)明的保護范圍之內(nèi)。
      【權利要求】
      1.一種自適應實現(xiàn)男女聲切換方法,其特征在于,包括以下步驟: (1)訓練過程: (1-1)收集語音數(shù)據(jù)庫;所述語音數(shù)據(jù)庫中的語音數(shù)據(jù)包括男聲和女聲; (1-2)對語音數(shù)據(jù)庫中的語音數(shù)據(jù)進行預處理; (1-3)對預處理后的語音數(shù)據(jù)進行特征提取:先將預處理后的語音數(shù)據(jù)分成30ms的語音中貞;對每語音幀提取12維的梅爾倒譜參數(shù)Xi,其中i=l..12 ;將這12維的倒譜參數(shù)Xi進行一階差分的處理得到12維的動態(tài)差分參數(shù)yi,即Yi=X1-Xi^1 ;將動態(tài)差分參數(shù)yjP梅爾倒譜參數(shù)Xi級聯(lián)組成當前語音幀的動靜態(tài)梅爾倒譜參數(shù)的語音特征;然后隨機選取90幀語音數(shù)據(jù)的動靜態(tài)梅爾倒譜參數(shù)的語音特征,組成當前語音數(shù)據(jù)的動靜態(tài)梅爾倒譜參數(shù)的語音特征,即得到90*24維的動靜態(tài)梅爾倒譜參數(shù)的語音特征矢量; (1-4)采用基于深度限制波爾機網(wǎng)絡進行語音性別訓練學習: 基于深度限制波爾機網(wǎng)絡包括依次連接的輸入層、第一隱層、第二隱層、第三隱層和輸出層;基于深度限制波爾機網(wǎng)絡形成四層網(wǎng)絡,其中,第一層網(wǎng)絡由輸入層和第一隱層組成,輸入層作為第一層網(wǎng)絡的輸入層,第一隱層作為第一層網(wǎng)絡的輸出層;第二層網(wǎng)絡由第一隱層和第二隱層組成,第一隱層作為第二層網(wǎng)絡的輸入層,第二隱層作為第二層網(wǎng)絡的輸出層;第三層絡由第二隱層和第三隱層組成,第二隱層作為第三層網(wǎng)絡的輸入層,第三隱層作為第三層網(wǎng)絡的輸出層;第四層絡由第三隱層和輸出層組成,第三隱層作為第四層網(wǎng)絡的輸入層,輸出層作為第四層網(wǎng)絡的輸出層;每層網(wǎng)絡的能量定義為E(V,h)=-bv-Ch-hWv,其中b是該層網(wǎng)絡的輸入層V的偏差,c是該層網(wǎng)絡的輸出層h的偏差,W是該層網(wǎng)絡的輸入層V和該層網(wǎng)絡的輸出層h的權重值; 將步驟(1-3)提取得到的語音特征矢量輸入基于深度限制波爾機網(wǎng)絡,作為輸入層,采用吉比特采樣方法根據(jù)輸入層生成第一層網(wǎng)絡的輸入層的偏差、第一層網(wǎng)絡的輸出層的偏差、第一層網(wǎng)絡的輸入層和第一層網(wǎng)絡的輸出層的權重值;將當前層網(wǎng)絡的輸出層作為下一層網(wǎng)絡的輸入層,分開訓練多層網(wǎng)絡,將多層網(wǎng)絡疊加實現(xiàn)深度限制波爾機網(wǎng)絡的訓練;得到各層網(wǎng)絡的輸入層的偏差、各層網(wǎng)絡輸出層的偏差、各層網(wǎng)絡的輸入層和輸出層的權重值 ; (2)識別過程: (2-1)采集用戶的語音信號; (2-2)對采集到的語音信號進行預處理; (2-3)對預處理后的語音信號進行特征提取:先將預處理后的語音信號分成30ms的語音段;在每語音幀中提取12維的梅爾倒譜參數(shù)Xi,其中i=l..12 ;將這12維的倒譜參數(shù)Xi進行一階差分的處理得到12維的動態(tài)差分參數(shù)yi,即Yi=X1-Xi^1 ;將動態(tài)差分參數(shù)71和梅爾倒譜參數(shù)Xi級聯(lián)組成當前語音幀的動靜態(tài)梅爾倒譜參數(shù)的語音特征;然后隨機選取90幀語音信號的動靜態(tài)梅爾倒譜參數(shù)的語音特征,組成當前語音信號的動靜態(tài)梅爾倒譜參數(shù)的語音特征,即得到90*24維的動靜態(tài)梅爾倒譜參數(shù)的語音特征矢量; (2-3)將步驟(2-2)得到的語音特征矢量展開成I維,利用步驟(1-4)得到的四層網(wǎng)絡的輸入層的偏差、四層網(wǎng)絡的輸出層的偏差、四層網(wǎng)絡的輸入層和輸出層的權重值,對當前90幀語音的進行性別判斷,根據(jù)性別判斷結(jié)果設定變音目標: 如果性別判斷為女,則變音目標為女聲變男聲;如果性別判斷為男,則變音目標為男聲變女聲; (2-4)根據(jù)步驟(2-3)設定的變音目標,利用時間動態(tài)規(guī)劃SOLAFS算法對語音信號進行時長規(guī)整,將時長規(guī)整后的語首信息輸出。
      2.根據(jù)權利要求1所述的自適應實現(xiàn)男女聲切換方法,其特征在于,步驟(1-2)所述對語音數(shù)據(jù)庫中的語音數(shù)據(jù)進行預處理,具體為: 對語音數(shù)據(jù)進行去平均化能量處理。
      3.根據(jù)權利要求2所述的自適應實現(xiàn)男女聲切換方法,其特征在于,步驟(2-2)所述對采集到的語音信號進行預處理,具體為: 對語音信號進行去平均化能量處理。
      4.根據(jù)權利要求1所述的自適應實現(xiàn)男女聲切換方法,其特征在于,步驟(2-4)所述利用時間動態(tài)規(guī)劃SOLAFS算法對語音信號進行時長規(guī)整,具體為: 當變音目標為女聲變男聲時,將語音信號的時長擴大為原語音時長的1.25倍;再進行重采樣,重采樣率為原采樣率的0.75倍; 當變音目標為男聲變女聲時,將語音信號的時長縮小為原語音時長的0.75倍;再進行重采樣,重采樣率為原采樣率的1.25倍。
      5.根據(jù)權利要求1所述的自適應實現(xiàn)男女聲切換方法,其特征在于,進行步驟(2-4)之后,還進行以下步驟: (2-5)計算下一個時長為90幀的語音信號平均能量,如果當前語音信號平均能量大于第一個時長為90幀的語音信號的平均能量的0.2倍,則認為當前語音信號與第一個時長為90幀的語音信號由同一用戶發(fā)出,則繼續(xù)使用上一個語音信號變音目標,進行步驟(2-4); 如果當前語音信號平均能量小于上一個時長為90幀的語音信號的平均能量的0.2倍,則認為當前語音中斷;繼續(xù)計算下一個時長為語音信號的平均能量,直至檢測到某一個時長為90幀的語音信號的平均能量大于第一個時長為90幀的語音信號的平均能量的0.2倍時,將語音信號的平均能量更新為當前時長為90幀的語音信號的平均能量,重新進行步驟(2-3)~(2-5)。
      【文檔編號】G10L21/003GK103514883SQ201310444837
      【公開日】2014年1月15日 申請日期:2013年9月26日 優(yōu)先權日:2013年9月26日
      【發(fā)明者】郭禮華, 鄧迪 申請人:華南理工大學
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1