国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      語音識別的建模方法和裝置的制造方法

      文檔序號:9788605閱讀:723來源:國知局
      語音識別的建模方法和裝置的制造方法
      【技術(shù)領(lǐng)域】
      [0001]本發(fā)明涉及語音識別技術(shù)領(lǐng)域,尤其涉及一種語音識別的建模方法和裝置。
      【背景技術(shù)】
      [0002]現(xiàn)有的大詞匯量漢語語音識別方法主要基于混合方法,例如:高斯混合模型(Gaussian Mixture Model;以下簡稱:GMM)+隱馬爾科夫模型(Hidden Markov Model;以下簡稱:HMM)、深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network;以下簡稱:DNN)+HMM等。具體而言,在基于統(tǒng)計的混合方法建模的語音識別中,用于估計隱馬爾可夫模型的狀態(tài)后驗概率的方法有:高斯混合模型、深度神經(jīng)網(wǎng)絡(luò)(特指深度多層感知機(jī))、深度卷積神經(jīng)網(wǎng)絡(luò)和深度循環(huán)神經(jīng)網(wǎng)絡(luò)等以及幾者的組合模型。
      [0003]語音信號是典型的時序信號,具有短時平穩(wěn)特點,但因為背景噪聲、信道、說話人(即性別、年齡、語速和/或口音等)等因素導(dǎo)致語音信號非常復(fù)雜。
      [0004]但是,現(xiàn)有的語音識別方法都是基于混合方法,而且語音識別中的建模單元都是基于傳統(tǒng)的狀態(tài)建模單元,狀態(tài)建模極大的束縛了現(xiàn)有所有的建模方法,使用上述狀態(tài)建模單元建立的語音識別模型對語音識別的識別性能較差。

      【發(fā)明內(nèi)容】

      [0005]本發(fā)明的目的旨在至少在一定程度上解決相關(guān)技術(shù)中的技術(shù)問題之一。
      [0006]為此,本發(fā)明的第一個目的在于提出一種語音識別的建模方法。該方法基于連接時序分類(Connect1nist Temporal Classificat1n;以下簡稱:CTC)的深度循環(huán)神經(jīng)網(wǎng)絡(luò),建立語音識別模型,提高了語音識別模型的識別速度和準(zhǔn)確率。
      [0007]本發(fā)明的第二個目的在于提出一種語音識別的建模裝置。
      [0008]為了實現(xiàn)上述目的,本發(fā)明第一方面實施例的語音識別的建模方法,包括:將語音信號轉(zhuǎn)化成特征向量序列,以及將所述語音信號對應(yīng)的標(biāo)注文本轉(zhuǎn)化成建模單元序列,所述建模單元序列中的每個建模單元為完整的聲母或韻母的發(fā)音單元或者上下文相關(guān)的聲母或韻母的發(fā)音單元;在所述建模單元序列中的任意建模單元的前面或后面添加空白標(biāo)簽;基于連接時序分類對所述特征向量序列和添加所述空白標(biāo)簽后的建模單元序列進(jìn)行訓(xùn)練,建立語音識別模型。
      [0009]本發(fā)明實施例的語音識別的建模方法,在將語音信號轉(zhuǎn)化成特征向量序列,以及將上述語音信號對應(yīng)的標(biāo)注文本轉(zhuǎn)化成建模單元序列之后,在上述建模單元序列中的任意建模單元的前面或后面添加空白標(biāo)簽,然后基于CTC對上述特征向量序列和添加上述空白標(biāo)簽后的建模單元序列進(jìn)行訓(xùn)練,建立語音識別模型,其中,上述建模單元序列中的每個建模單元為完整的聲母或韻母的發(fā)音單元或者上下文相關(guān)的聲母或韻母的發(fā)音單元,從而可以實現(xiàn)基于CTC的深度循環(huán)神經(jīng)網(wǎng)絡(luò)的聲韻母建模,提高了建立的語音識別模型的識別速度和識別準(zhǔn)確率。
      [0010]為了實現(xiàn)上述目的,本發(fā)明第二方面實施例的語音識別的建模裝置,包括:轉(zhuǎn)化模塊,用于將語音信號轉(zhuǎn)化成特征向量序列,以及將所述語音信號對應(yīng)的標(biāo)注文本轉(zhuǎn)化成建模單元序列,所述建模單元序列中的每個建模單元為完整的聲母或韻母的發(fā)音單元或者上下文相關(guān)的聲母或韻母的發(fā)音單元;添加模塊,用于在所述建模單元序列中的任意建模單元的前面或后面添加空白標(biāo)簽;訓(xùn)練模塊,用于基于連接時序分類對所述轉(zhuǎn)化模塊轉(zhuǎn)化的特征向量序列和所述添加模塊添加所述空白標(biāo)簽后的建模單元序列進(jìn)行訓(xùn)練,建立語音識別豐旲型O
      [0011]本發(fā)明實施例的語音識別的建模裝置,在轉(zhuǎn)化模塊將語音信號轉(zhuǎn)化成特征向量序列,以及將上述語音信號對應(yīng)的標(biāo)注文本轉(zhuǎn)化成建模單元序列之后,添加模塊在上述建模單元序列中的任意建模單元的前面或后面添加空白標(biāo)簽,然后訓(xùn)練模塊基于CTC對上述特征向量序列和添加上述空白標(biāo)簽后的建模單元序列進(jìn)行訓(xùn)練,建立語音識別模型,其中,上述建模單元序列中的每個建模單元為完整的聲母或韻母的發(fā)音單元或者上下文相關(guān)的聲母或韻母的發(fā)音單元,從而可以實現(xiàn)基于CTC的深度循環(huán)神經(jīng)網(wǎng)絡(luò)的聲韻母建模,提高了建立的語音識別模型的識別速度和識別準(zhǔn)確率。
      [0012]本發(fā)明附加的方面和優(yōu)點將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發(fā)明的實踐了解到。
      【附圖說明】
      [0013]本發(fā)明上述的和/或附加的方面和優(yōu)點從下面結(jié)合附圖對實施例的描述中將變得明顯和容易理解,其中:
      [0014]圖1為本發(fā)明語音識別的建模方法一個實施例的流程圖;
      [0015]圖2為本發(fā)明語音識別的建模方法中提取特征向量一個實施例的示意圖;
      [0016]圖3為本發(fā)明語音識別的建模方法中兩個發(fā)音單元中間識別混淆一個實施例的示意圖;
      [0017]圖4為本發(fā)明語音識別的建模方法另一個實施例的流程圖;
      [0018]圖5為本發(fā)明語音識別的建模裝置一個實施例的結(jié)構(gòu)示意圖;
      [0019]圖6為本發(fā)明語音識別的建模裝置另一個實施例的結(jié)構(gòu)示意圖。
      [0020]
      【具體實施方式】
      [0021]下面詳細(xì)描述本發(fā)明的實施例,所述實施例的示例在附圖中示出,其中自始至終相同或類似的標(biāo)號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實施例是示例性的,僅用于解釋本發(fā)明,而不能理解為對本發(fā)明的限制。相反,本發(fā)明的實施例包括落入所附加權(quán)利要求書的精神和內(nèi)涵范圍內(nèi)的所有變化、修改和等同物。
      [0022]圖1為本發(fā)明語音識別的建模方法一個實施例的流程圖,如圖1所示,上述語音識別的建模方法可以包括:
      [0023]步驟101,將語音信號轉(zhuǎn)化成特征向量序列,以及將上述語音信號對應(yīng)的標(biāo)注文本轉(zhuǎn)化成建模單元序列,上述建模單元序列中的每個建模單元為完整的聲母或韻母的發(fā)音單元或者上下文相關(guān)的聲母或韻母的發(fā)音單元。
      [0024]具體地,將語音信號轉(zhuǎn)化成特征向量序列可以為:按照預(yù)定的窗長和預(yù)定的步長將上述語音信號轉(zhuǎn)化為固定維數(shù)的特征向量序列。
      [0025]其中,上述預(yù)定的窗長、預(yù)定的步長和上述固定維數(shù),可以在具體實現(xiàn)時根據(jù)實現(xiàn)需求和/或系統(tǒng)性能等自行設(shè)定,本實施例對上述預(yù)定的窗長、預(yù)定的步長和上述固定維數(shù)的大小不作限定。
      [0026]參見圖2,圖2為本發(fā)明語音識別的建模方法中將語音信號轉(zhuǎn)化為特征向量序列一個實施例的示意圖,圖2中方框框住的部分即為從語音信號中提取的一個特征向量。圖2中,將語音信號轉(zhuǎn)化為特征向量序列的方法是以25毫秒窗長、10毫秒步長提取固定維數(shù)(比如40維)的特征向量序列。
      [0027]步驟102,在上述建模單元序列中的任意建模單元的前面或后面添加空白(blank)標(biāo)簽。
      [0028]具體地,可以在上述建模單元序列中的任意建模單元的前面或后面添加預(yù)定數(shù)量的空白標(biāo)簽。
      [0029]其中,上述預(yù)定數(shù)量可以在具體實現(xiàn)時自行設(shè)定,本實施例對上述預(yù)定數(shù)量不作限定,舉例來說,上述預(yù)定數(shù)量可以為O個或至少一個。
      [0030]舉例來說,對于圖2所示的語音信號對應(yīng)的標(biāo)注文本“祝一切都好”來說,轉(zhuǎn)化的建模單元序列可以為{zh,u,y,i,q,ie,d,ou,h,ao},添加blank標(biāo)簽后的建模單元序列可以為{(blank)zh(blank)u(blank)y(blank)i(blank)q(blank)ie(blank)d(blank)ou(blank)h(blank)ao(blank)}
      [0031]另外,需要說明的是,本實施例對添加的blank標(biāo)簽的個數(shù)不作限定,可以在具體實現(xiàn)時,根據(jù)實現(xiàn)需求和/或系統(tǒng)性能等自行設(shè)定。
      [0032]本實施例中,在上述建模單元序列中的任意建模單元的前面或后面添加blank標(biāo)簽較好地解決了兩個建模單元中間混淆處的幀分類問題,傳統(tǒng)的“強(qiáng)制對齊”對兩個發(fā)音單元中間混淆處一般分類為左邊標(biāo)簽、右邊標(biāo)簽或者短停頓,這樣容易導(dǎo)致對兩個發(fā)音單元中間混淆處的識別不準(zhǔn)確,出現(xiàn)混淆,如圖3中方框框住的部分所示,圖3為本發(fā)明語音識別的建模方法中兩個發(fā)音單元中間識別混淆一個實施例的示意圖,從圖3中可以看出,采用傳統(tǒng)的“強(qiáng)制對齊”的方式,在對兩個發(fā)音單元的中間處進(jìn)行語音識別時,容易出現(xiàn)混淆,而采用添加blank標(biāo)簽的方式則不會出現(xiàn)混淆,可以提高語音識別的準(zhǔn)確率。
      [0033]并且通過添加blank標(biāo)簽,將傳統(tǒng)的軌跡建模轉(zhuǎn)化為差異性建模,建立的語音識別模型更加關(guān)注一個發(fā)音單元與其他發(fā)音單元的差異性,緩減了傳統(tǒng)模型需要完整地描述發(fā)音單元全部信息的建模負(fù)擔(dān),并且天然地解決
      當(dāng)前第1頁1 2 3 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1