国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于聲效模式檢測的語音識別方法

      文檔序號:10657696閱讀:666來源:國知局
      一種基于聲效模式檢測的語音識別方法
      【專利摘要】本發(fā)明公開了一種基于聲效模式檢測的語音識別方法。該方法包括如下步驟:接收語音信號;檢測所述語音信號的聲效模式;從預(yù)置的聲學(xué)模型集中選擇所述聲效模式對應(yīng)的聲學(xué)模型子集;根據(jù)所述聲學(xué)模型子集對所述語音信號進行解碼。
      【專利說明】
      -種基于聲效模式檢測的語音識別方法
      技術(shù)領(lǐng)域
      [0001] 本發(fā)明設(shè)及語音識別領(lǐng)域,特別設(shè)及一種基于聲效模式檢測的語音識別方法。
      【背景技術(shù)】
      [0002] 聲音效果(Vocal Effort)簡稱聲效,是正常人的一種發(fā)音變化的衡量,而運種發(fā) 音變化是人出于正常交流的需要,根據(jù)交流時雙方距離的遠(yuǎn)近或背景噪聲的高低自動調(diào)整 發(fā)音方式所產(chǎn)生的。通常將聲效由低到高分為五個量級/模式:耳語、輕聲、正常、大聲、高 喊。在現(xiàn)實的環(huán)境中,人們不可能一直都在同一種聲效水平下交流:在圖書館或者自習(xí)室里 需要通過耳語的方式交流;在吵雜的場合需要大聲說話對方才能聽見;而在增雜的工廠車 間可能就需要通過高喊的方式才能夠交流。
      [0003] 近年來語音識別技術(shù)已進入實用的階段,并取得很好的效果。但是目前的語音識 別技術(shù)主要還是針對正常聲音效果下的語音信號。而聲效模式的改變使得語音信號的聲學(xué) 特性發(fā)生了變化,因此正常聲效模式的語音識別系統(tǒng)在識別其它四種聲效模式(特別是耳 語模式)的語音信號時識別精度會有較大幅度的下降。

      【發(fā)明內(nèi)容】

      [0004] 本發(fā)明的目的在于針對現(xiàn)有技術(shù)中的語音識別方法在識別其它四種聲效模式的 語音信號時精度不高的缺陷,提出一種基于聲效模式檢測的語音識別方法,首先檢測語音 信號所屬的聲效模式,然后根據(jù)檢測結(jié)果選擇相對應(yīng)的聲學(xué)模型集合來完成對該語音信號 的解碼工作,從而提高了識別所有聲效模式的語音信號時的精度。
      [0005] 本發(fā)明公開了一種基于聲效模式檢測的語音識別方法,其具體包括W下步驟:
      [0006] 步驟1、接收語音信號;
      [0007] 步驟2、檢測所述語音信號的聲效模式;
      [000引步驟3、從預(yù)置的聲學(xué)模型集中選擇所述聲效模式對應(yīng)的聲學(xué)模型子集;
      [0009] 步驟4、根據(jù)所述聲學(xué)模型子集對所述語音信號進行解碼。
      [0010] 上述技術(shù)方案中,步驟4中預(yù)置的聲學(xué)模型集共包含了5個聲學(xué)模型子集,每個聲 學(xué)模型子集分別對應(yīng)一種聲效模式,而每一個聲學(xué)模型子集在訓(xùn)練時使用的是對應(yīng)聲效模 式的語料庫,運樣每個聲學(xué)模型子集中的聲學(xué)模型能很好地擬合其對應(yīng)聲效模式語音的聲 學(xué)特性。因此,在識別時先檢測出語音信號的聲效模式,再利用對應(yīng)的聲學(xué)模型子集來進行 解碼,就可W有效地提高識別的精度。
      【附圖說明】
      [0011] 圖1是根據(jù)本發(fā)明的一種基于聲效模式檢測的語音識別方法的流程圖;
      [0012] 圖2是根據(jù)本發(fā)明的一個檢測語音信號的聲效模式的流程圖。
      【具體實施方式】
      [0013] 為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚明白,W下結(jié)合具體實施例,并參照 附圖,對本發(fā)明進一步詳細(xì)說明。
      [0014] 圖1為根據(jù)本發(fā)明的一種基于聲效模式檢測的語音識別方法的流程圖。其中,待識 別的語音信號為連續(xù)語音,對應(yīng)一個語句。
      [0015] 如圖1所示,所述基于聲效模式檢測的語音識別方法包括如下步驟:
      [0016] 步驟101:接收語音信號;
      [0017] 步驟102:檢測所述語音信號的聲效模式;
      [0018] 步驟103:從預(yù)置的聲學(xué)模型集中選擇所述聲效模式對應(yīng)的聲學(xué)模型子集,其中預(yù) 置的聲學(xué)模型集共包含5個聲學(xué)模型子集,分別對應(yīng)耳語、輕聲、正常、大聲、高喊運5種聲效 模式,每一個聲學(xué)模型子集在訓(xùn)練時使用的是對應(yīng)聲效模式的語料庫;
      [0019] 步驟104:根據(jù)所述聲學(xué)模型子集對所述語音信號進行解碼,解碼時使用維特比算 法。
      [0020] 其中,在步驟102中,檢測所述語音信號的聲效模式具體分為W下幾個步驟,如圖2 所示:
      [0021] 步驟1021、提取語音信號的聲強級、帖能量均值和頻譜傾斜均值;
      [0022] 步驟1022、根據(jù)聲強級、帖能量均值和頻譜傾斜均值判斷語音信號的聲效模式是 否為耳語,如果是耳語則執(zhí)行步驟103,否則執(zhí)行步驟1023;
      [0023] 步驟1023、檢測語音信號中的元音,生成元音集合;
      [0024] 步驟1024、將元音集合分別與四種候選聲效模式進行語譜匹配,生成每一個候選 聲效模式的匹配值;其中,所述四種候選聲效模式分別為輕聲、正常、大聲和高喊。
      [0025] 例如:對于一句話"我和你一起去上課",在步驟1023中檢測運句話對應(yīng)的語音信 號中包含的元音,生成元音集合:{〇、e、i、i、i、u、ang、e},然后通過如下公式分別計算每一 個候選聲效模式與該元音集合的匹配值:
      [0026]
      [0027]其中,VE表示一種候選聲效模式,假如為高喊,則Mve表示高喊聲效模式的匹配值, 乂361:表示元音集合{〇、6、;[、;[、;[、11、曰]1旨、6},¥表示所述元音集合¥361:中的某個元音,假如當(dāng) 前V的值具體為元音集合Vset中的第一個元音'0',D(v,VE)表示反映元音'0'與高喊聲效模式 之間語譜差異程度的元音譜距離。
      [002引D(v,ve)的計算過程具體如下:
      [0029] 提取元音' O '的譜特征序列。
      [0030] 獲取預(yù)置的高喊聲效模式的元音模板集合,提取所述元音模板集合中每一個元音 模板的譜特征序列;其中,預(yù)置的高喊聲效模式的元音模板集合包含了6個單元音模板:a、 o、e、i、u、ii和 13個復(fù)兀音模板:ai、ei、ao、ou、ia、ie、ua、uo、iie、iao、iou、uai、uei,而每一個 元音模板是指該元音在高喊聲效模式下的標(biāo)準(zhǔn)發(fā)音單元,通過手工切分的方式獲得。
      [0031] 通過如下公式確定所述元音譜距離化v,VE> :
      [0032]
      [0033] 其中,Cv表示所述元音'〇'的譜特征序列求均值后形成的矢量,Cv(i)表示矢量Cv的 第i個分量,N表示矢量Cv包含的分量總數(shù),P表示高喊聲效模式VE的元音模板集合中的某一 個元音模板,Cf表示元音模板P的譜特征序列求均值后形成的矢量,cf W表示矢量cf的第 i個分量。
      [0034] 在D(v,VE)的計算過程中,提取所述元音'0'的譜特征序列和提取所述元音模板集合 中每一個元音模板的譜特征序列的具體過程如下:
      [0035] 對所述元音' O '或元音模板對應(yīng)的語音信號加漢寧窗,其中窗長可W選用為6ms, 帖移可W選用1ms,得到語音帖序列。
      [0036] 對所述語音帖序列中的每一個語音帖通過快速傅立葉變換得到該語音帖在時頻 域上的能量分布。
      [0037] 對于六個頻帶:〇~0.8k監(jiān)、0.8~1.化HZ、1.2~2. OkHZ、2.0~3.5k監(jiān)、3.5~ 5.Ok監(jiān)、5.0~8.Ok監(jiān),所述語音帖序列中的每一個語音帖分別計算該語音帖在每一個頻帶 上的譜信息賭,將六個頻帶上的譜信息賭按照頻帶次序組合起來形成該語音帖的譜信息賭 矢量。其中,語音帖在每一個頻帶上的譜信息賭通過如下公式確定:
      [00;3 引
      [0039] 其中,i表示所述預(yù)置的多個頻帶中某一個頻帶的序號,Hi表示該語音帖在第i個 頻帶上的譜信息賭,M表示該語音帖時頻域上的能量分布在第i個頻帶上包含的頻率成分的 數(shù)量,X化)表示該語音帖時頻域上的能量分布在第i個頻帶上的第k個頻率成分,X(j)表示 該語音帖時頻域上的能量分布在第i個頻帶上的第j個頻率成分。
      [0040] 所述語音帖序列中的每一個語音帖的譜信息賭矢量按照語音帖的順序排列形成 譜信息賭矢量序列,該譜信息賭矢量序列即為譜特征序列。
      [0041] 步驟1025、將匹配值最大的候選聲效模式確定為語音信號的聲效模式。
      [0042] 上述方案中,每個聲學(xué)模型子集中的聲學(xué)模型能很好地擬合其對應(yīng)聲效模式下語 音的聲學(xué)特性。因此,在識別時先檢測出語音信號的聲效模式,再選擇用對應(yīng)的聲學(xué)模型子 集來進行解碼,就可W有效地提高語音識別的精度。此外,在檢測語音信號的聲效模式過程 中,由于耳語的發(fā)音機理與其它幾種聲效模式有著較為明顯的差異,所W可W根據(jù)語音信 號的聲強級、帖能量均值和頻譜傾斜均值運=種特征來判斷當(dāng)前語音信號是否為耳語。對 于其它四種發(fā)音方式相近的聲效模式,通過將語音信號中的元音與各個聲效模式的元音模 板集相匹配來檢測語音信號的聲效模式,使得聲效模式檢測的精度會更高,也就能夠進一 步提高后續(xù)步驟中語音識別的精度。
      [0043] W上所述的具體實施例,對本發(fā)明的目的、技術(shù)方案和有益效果進行了進一步詳 細(xì)說明,所應(yīng)理解的是,W上所述僅為本發(fā)明的具體實施例而已,并不用于限制本發(fā)明,凡 在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進等,均應(yīng)包含在本發(fā)明的保 護范圍之內(nèi)。
      【主權(quán)項】
      1. 一種基于聲效模式檢測的語音識別方法,其特征在于,包括如下步驟: 步驟1、接收語音信號; 步驟2、檢測所述語音信號的聲效模式; 步驟3、從預(yù)置的聲學(xué)模型集中選擇所述聲效模式對應(yīng)的聲學(xué)模型子集; 步驟4、根據(jù)所述聲學(xué)模型子集對所述語音信號進行解碼。2. 根據(jù)權(quán)利要求1所述的語音識別方法,其特征在于所述步驟2中檢測所述語音信號的 聲效模式的具體步驟如下: 步驟21、提取所述語音信號的聲強級、幀能量均值和頻譜傾斜均值; 步驟22、根據(jù)所述聲強級、所述幀能量均值和所述頻譜傾斜均值判斷所述語音信號的 聲效模式是否為耳語,如果是耳語則執(zhí)行步驟3,否則執(zhí)行步驟23; 步驟23、檢測所述語音信號中的元音,生成元音集合; 步驟24、將所述元音集合分別與多個候選聲效模式進行語譜匹配,生成每一個候選聲 效模式的匹配值; 步驟25、將匹配值最大的候選聲效模式確定為所述語音信號的聲效模式。3. 根據(jù)權(quán)利要求2所述的語音識別方法,其特征在于,所述步驟24中每一個所述候選聲 效模式的匹配值通過如下公式確定:其中,VE表示該候選聲效模式,Mve表示該候選聲效模式的匹配值,Vset表示所述元音集 合,V表示所述元音集合Vset中的某個元音,D(v, VE)表示反映元音V與該候選聲效模式VE之間 語譜差異程度的元音譜距離。4. 根據(jù)權(quán)利要求3中所述的語音識別方法,其特征在于反映元音V與該候選聲效模式VE 之間語譜差異程度的元音譜距離D(v, VE)的計算過程如下: 步驟41、提取所述元音V的譜特征序列; 步驟42、獲取該候選聲效模式VE預(yù)置的的元音模板集合,提取所述元音模板集合中每 一個元音模板的譜特征序列; 步驟43、通過如下公式確定所述元音譜距離D(v, ve):其中,Cv表示所迎兀百V η、」nr付tin斤yu 且厄tf」大垔,Cv、1;衣不天量Cv的第i個 分量,N表示矢量Cv包含的分量總數(shù),p表示該候選聲效模式VE的元音模板集合中的某一個 元音模板,表示元音模板p的譜特征序列求均值后形成的矢量,ef⑴表示矢量的第i 個分量。5. 根據(jù)權(quán)利要求4所述的語音識別方法,其特征在于步驟41和步驟42中的所述譜特征 序列中的譜特征為12維梅爾頻率倒譜系數(shù)以及它們的一階及二階差分。6. 根據(jù)權(quán)利要求4述的語音識別方法,其特征在于步驟41中所述元音的的譜特征序列 和步驟42中所述每一個元音模板的譜特征序列的具體提取步驟為: 步驟61、對所述元音/元音模板對應(yīng)的語音信號加漢寧窗,得到語音幀序列; 步驟62、對所述語音幀序列中的每一個語音幀通過快速傅立葉變換得到該語音幀的頻 譜能量分布; 步驟63、獲取預(yù)置的多個頻帶,對所述語音幀序列中的每一個語音幀分別計算該語音 幀在每一個頻帶上的譜信息熵,形成該語音幀的譜信息熵矢量; 步驟64、所述語音幀序列中的每一個語音幀的譜信息熵矢量經(jīng)過順序排列形成譜信息 熵矢量序列。7. 根據(jù)權(quán)利要求6述的語音識別方法,其特征在于步驟63中該語音幀在每一個頻帶上 的譜信息熵通過如下公式確定:其中,i表示所述預(yù)置的多個頻帶中某一個頻帶的序號,出表示所述該語音幀在第i個頻 帶上的譜信息熵,M表示所述該語音幀的頻譜能量分布在第i個頻帶上包含的頻率成分的數(shù) 量,X(k)表示所述該語音幀的頻譜能量分布在第i個頻帶上的第k個頻率成分,X(j)表示所 述該語音幀的頻譜能量分布在第i個頻帶上的第j個頻率成分。8. 根據(jù)權(quán)利要求6-7任一所述的語音識別方法,其特征在于步驟63中所述多個頻帶具 體為6個頻帶:0~0.8kHZ、0.8~1.5kHZ、1.2~2.0kHZ、2.0~3.5kHZ、3.5~5.0kHZ、5.0~ 8.OkHZ〇
      【文檔編號】G10L19/00GK106023986SQ201610299376
      【公開日】2016年10月12日
      【申請日】2016年5月5日
      【發(fā)明人】晁浩, 智慧來, 劉志中, 魯保云
      【申請人】河南理工大學(xué)
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1