国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      聲音轉(zhuǎn)換方法和裝置的制造方法_3

      文檔序號:9632283閱讀:來源:國知局
      ,不同源發(fā)音人的語音信息。
      [0099] 可選的,獲取訓(xùn)練數(shù)據(jù),并對訓(xùn)練數(shù)據(jù)進行預(yù)處理,可以包括:
      [0100] 將平行語料進行配對,以構(gòu)造聲音轉(zhuǎn)換模型的輸入數(shù)據(jù)和輸出數(shù)據(jù)
      [0101] 具體地,可以收集至少一位的源發(fā)音人的語音信號,本實施例以收集100位不同 的源發(fā)音人的每人10分鐘的語音信號為例,構(gòu)造訓(xùn)練數(shù)據(jù),并對訓(xùn)練數(shù)據(jù)集內(nèi)的100位發(fā) 音人進行兩兩配對,得到9900對不同源發(fā)音人的語音信號,將每對不同源發(fā)音人的語音信 號,分別構(gòu)造聲音轉(zhuǎn)換模型的輸入數(shù)據(jù)和輸出數(shù)據(jù)。
      [0102] 對齊單元40112,用于將輸入數(shù)據(jù)和輸出數(shù)據(jù)做時長對齊,以訓(xùn)練聲音轉(zhuǎn)換模型。
      [0103] 例如,可以根據(jù)動態(tài)時間規(guī)整(DynamicTimeWarping,DTW)算法將輸入數(shù)據(jù)和輸 出數(shù)據(jù)做時長對齊。
      [0104] 進一步,對同一文本內(nèi)容,不同的源發(fā)音人錄音,由于源發(fā)音人的個體差異性,100 位源發(fā)音人對同一文本內(nèi)容的發(fā)音,不可能控制在完全相同的時長內(nèi),因此,需要使用時長 對齊算法自動的做時長對齊,其中,時長對齊算法例如為DTW算法,將兩兩配對后,將每對 不同源發(fā)音人的語音信號進行時長對齊,得到時長對齊后的9900對源-目標(biāo)發(fā)音人的訓(xùn)練 樣本,作為聲音轉(zhuǎn)換模型的輸入數(shù)據(jù)和輸出數(shù)據(jù)用以訓(xùn)練模型。
      [0105] 例如,將第一位源發(fā)音人和第二位的源發(fā)音人的針對同一文本內(nèi)容的語音信號進 行配對,其中,第一位源發(fā)音人的語音信號時長為l〇s,第二位的源發(fā)音人的語音信號時長 為12s,進而,采用DTW算法自動的做這兩段語音信號時長對齊,得到時長對齊后的一對訓(xùn) 練樣本,將第一位源發(fā)音人的語音信號作為聲音轉(zhuǎn)換模型的輸入數(shù)據(jù),將第二位源發(fā)音人 的語音信號作為聲音轉(zhuǎn)換模型的輸出數(shù)據(jù)用以訓(xùn)練模型,并可以采用同樣的方法構(gòu)造出另 外若干對訓(xùn)練數(shù)據(jù)。
      [0106] 第一提取子模塊4012,用于提取訓(xùn)練數(shù)據(jù)的頻譜特征。
      [0107] 本實施例中,提取語音信息的24維梅爾域倒譜系數(shù)MCEP和1維能量譜特征,共25 維的頻譜特征。
      [0108] 確定子模塊4013,用于確定聲音轉(zhuǎn)換模型的拓撲結(jié)構(gòu)。
      [0109] 其中,聲音轉(zhuǎn)換模型可以是神經(jīng)網(wǎng)絡(luò)模型,參見圖2,聲音轉(zhuǎn)換模型包括輸入編碼 層21、中間轉(zhuǎn)換層22、輸出解碼層23,本申請以DNN模型為例。
      [0110] 其中,輸入編碼層21由N個神經(jīng)網(wǎng)絡(luò),即編碼器組成,每個編碼器代表整個聲學(xué)空 間中,某一類相似源發(fā)音人語音信息的本征空間。
      [0111] 本申請中,每個編碼器為一個單層神經(jīng)網(wǎng)絡(luò),其中,編碼器的個數(shù)N-般由大量實 驗或經(jīng)驗確定,本實施例中,N取值16。
      [0112] 具體地,每個神經(jīng)網(wǎng)絡(luò)的輸入數(shù)據(jù)是源發(fā)音人語音信號的頻譜特征,本實施例中 輸入數(shù)據(jù)是25維的頻譜特征,每個神經(jīng)網(wǎng)絡(luò)根據(jù)以下公式,對源發(fā)音人語音信號的頻譜特 征進行變換,輸出結(jié)構(gòu)化的高層特征,其中,
      [0113] f!'{x) = a(W"x +}\}.
      [0114] 其中,/"(x)表示輸入編碼層i的第η個本征空間模型的輸出,W、<表示輸入層 i的第η個本征空間模型對于的網(wǎng)絡(luò)參數(shù),σ表示激勵函數(shù),例如,σ可以是sigmoid函數(shù)。
      [0115]中間轉(zhuǎn)換層22由多層神經(jīng)網(wǎng)絡(luò)構(gòu)成,本申請中,多層神經(jīng)網(wǎng)絡(luò)為3層的深度神經(jīng) 網(wǎng)絡(luò),中間轉(zhuǎn)換層22的輸入數(shù)據(jù)是由輸入編碼層21對源發(fā)音人語音信號的頻譜特征,經(jīng)過 多個編碼器編碼后,進行融合得到的特征,輸入編碼層21中的各個編碼器的融合權(quán)重分別 為 4,".,略.",<。
      [0116]本申請中,中間轉(zhuǎn)換層22輸入節(jié)點數(shù)取為512,經(jīng)過中間轉(zhuǎn)換層22轉(zhuǎn)換后,輸出節(jié) 點數(shù)取為512。
      [0117] 輸出解碼層23由N個神經(jīng)網(wǎng)絡(luò),即解碼器組成,每個神經(jīng)網(wǎng)絡(luò)均可用來重建輸出 目標(biāo)發(fā)音人的頻譜特征,每個解碼器代表整個聲學(xué)空間中的某一類相似目標(biāo)發(fā)音人的本征 空間。
      [0118]每個解碼器的輸入數(shù)據(jù)為中間轉(zhuǎn)換層22的輸出數(shù)據(jù);每個解碼器的輸出數(shù)據(jù)為 25維的頻譜特征,每個神經(jīng)網(wǎng)絡(luò)根據(jù)以下公式,重建輸出目標(biāo)發(fā)音人的頻譜特征,其中,
      [0119]
      [0120] 其中,g::(x)表示輸出解碼層〇的第η個本征空間的輸出數(shù)據(jù),W,€分別為輸出 解碼層〇的第η個本征空間模型對應(yīng)的網(wǎng)絡(luò)參數(shù)。
      [0121] 需要說明的是,整個聲音轉(zhuǎn)換模型的輸出數(shù)據(jù)是輸出解碼層23中各個解碼器輸 出目標(biāo)發(fā)音人語音信號的頻譜特征,同樣經(jīng)過融合得到的融合后的頻譜特征,其融合權(quán)值
      [0122] 初始化子模塊4014,用于初始化聲音轉(zhuǎn)換模型的參數(shù)。
      [0123] 其中,聲音轉(zhuǎn)換模型的參數(shù)包括:輸入編碼層融合權(quán)值、輸出解碼層融合權(quán)值、輸 入編碼層參數(shù)、輸出解碼層參數(shù),以及中間轉(zhuǎn)換層各層間參數(shù)。
      [0124]例如,模型參數(shù)包括輸入編碼層21的融合權(quán)值<、輸出解碼層23的 融合權(quán)值輸入編碼層21的參數(shù)C和¥、輸出解碼層23參數(shù)1?和<、以及 中間轉(zhuǎn)換層22的各層間參數(shù)t和b"。其中輸入編碼層21的參數(shù)、輸出解碼層23的參數(shù) 以及中間轉(zhuǎn)換層22的各層間的參數(shù)初始化,由大量實驗或經(jīng)驗確定。
      [0125]進一步,訓(xùn)練數(shù)據(jù)集中每位源發(fā)音人都有一套融合每位源發(fā)音人的權(quán)值,如對第s 位源發(fā)音人,其融合權(quán)值為包括:輸入編碼層21融合權(quán)值和輸出解碼層23 融合權(quán)值。
      [0126] 其中,融合權(quán)值由以下方法進行初始化:
      [0127] 首先將訓(xùn)練數(shù)據(jù)集中源發(fā)音人進行聚類,例如,可以使用聲紋識別中的i-vector 特征進行k-means聚類;并將每類源發(fā)音人對應(yīng)到N位源發(fā)音人本征空間;然后對每個源 發(fā)音人分配初始化的融合權(quán)值,包括:輸入編碼層21融合權(quán)值和輸出解碼層23融合權(quán)值, 對應(yīng)的本征空間權(quán)值為1,其余空間權(quán)值為0。
      [0128]訓(xùn)練子模塊4015,用于根據(jù)訓(xùn)練數(shù)據(jù)的頻譜特征,以及初始化后的聲音轉(zhuǎn)換模型 的參數(shù),訓(xùn)練聲音轉(zhuǎn)換模型。
      [0129] 可選的,訓(xùn)練子模塊4015具體用于根據(jù)訓(xùn)練數(shù)據(jù)的頻譜特征,以及初始化后的輸 入編碼層融合權(quán)值、輸出解碼層融合權(quán)值、輸入編碼層參數(shù)、輸出解碼層參數(shù),以及中間轉(zhuǎn) 換層各層間參數(shù),訓(xùn)練聲音轉(zhuǎn)換模型。
      [0130] 可選的,可以根據(jù)訓(xùn)練數(shù)據(jù)的頻譜特征,以及輸入編碼層參數(shù)、輸出解碼層參數(shù), 以及中間轉(zhuǎn)換層各層間參數(shù),訓(xùn)練聲音轉(zhuǎn)換模型。
      [0131] 具體的,為確保各個本征空間的權(quán)值大于0且和為1,可以使用如下公式構(gòu)造第s 位源發(fā)音人的融合權(quán)值,其中,
      [0132]
      [0133] 其中,?為訓(xùn)練階段要更新的模型參數(shù)。
      [0134] 如果源發(fā)音人為Sp,目標(biāo)發(fā)音人為Sk,則轉(zhuǎn)換關(guān)系可以表示為如下公式,
      [0135]
      [0136] 其中,F(xiàn)pk(x)表示源發(fā)音人為Sp經(jīng)過聲音轉(zhuǎn)換模型轉(zhuǎn)換后的語音信號的頻譜特 征,N為源發(fā)音人本征空間數(shù),本申請中取N= 16,Θ(.)表示中間轉(zhuǎn)換層轉(zhuǎn)換函數(shù)。
      [0137]因此,聲音轉(zhuǎn)換模型的訓(xùn)練準(zhǔn)則如下公式:
      [0138]
      [0139] 其中,表示參數(shù)If和<,·[為^表示參數(shù)ι?"和€,Θ表示參數(shù)WjPbwS表示 源發(fā)音人數(shù)目,T表示經(jīng)過時長對齊后每個源發(fā)音人語音信號的總幀數(shù),4表示第t幀期望 得到的目標(biāo)發(fā)音人k的值,表示第t幀通過聲音轉(zhuǎn)換模型實際得到的從源發(fā)音人p 到目標(biāo)發(fā)音人k轉(zhuǎn)換的值。
      [0140] 接收模塊402,用于接收源發(fā)音人的語音信號,并提取語音信號的頻譜特征。
      [0141] 其中,頻譜特征例如能量譜特征,或者梅爾域倒譜系數(shù)MCEP。
      [0142] 本實施例中,提取語音信號的24維梅爾域倒譜系數(shù)MCEP和1維能量譜特征,共25 維的頻譜特征。
      [0143] 確定模塊403,用于確定源發(fā)音人對應(yīng)的聲音轉(zhuǎn)換模型。
      [0144] 另一個實施例中,參見圖7,確定模塊403包括:
      [0145] 第二提取子模塊4031,用于確定目標(biāo)發(fā)音人,并提取目標(biāo)發(fā)音人的語音信號的頻 譜特征。
      [0146] 具體地,提取目標(biāo)發(fā)音人的語音信號的24維梅爾域倒譜系數(shù)MCEP和1維能量譜 特征,共25維的頻譜特征。
      [0147]調(diào)整子模塊4032,用于根據(jù)目標(biāo)發(fā)音人的語音信號的頻譜特征,調(diào)整聲音轉(zhuǎn)換模 型的輸出解碼層融合權(quán)值,以及,根據(jù)源發(fā)音人的語音信號的頻譜特征,調(diào)整聲音轉(zhuǎn)換模型 的輸入編碼層融合權(quán)值,以得到所述源發(fā)音人對應(yīng)的聲音轉(zhuǎn)換模型。
      [0148] 具體的,在預(yù)先訓(xùn)練好的聲音轉(zhuǎn)換模型基礎(chǔ)上,使用獲取到的目標(biāo)發(fā)音人訓(xùn)練數(shù) 據(jù),得到它對應(yīng)的融合權(quán)值。
      [0149] 其中,聲音轉(zhuǎn)換模型作為自編碼器,即輸入數(shù)據(jù)和輸出數(shù)據(jù)均為目標(biāo)發(fā)音人語音 信號的頻譜特征,綁定輸入編碼層21與輸出解碼層23的融合權(quán)值,即兩層的融合權(quán)值取相 同值進行求解,其求解過程與聲音轉(zhuǎn)換模型參數(shù)訓(xùn)練過程相似
      當(dāng)前第3頁1 2 3 4 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1