国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      語音識(shí)別方法及裝置的制造方法

      文檔序號(hào):10625460閱讀:731來源:國知局
      語音識(shí)別方法及裝置的制造方法
      【專利摘要】一種語音識(shí)別方法及裝置,所述方法包括:將采集到的輸入聲音信號(hào)進(jìn)行處理,得到輸入聲音數(shù)據(jù);對(duì)所述輸入聲音數(shù)據(jù)進(jìn)行幾何重塑,得到降維后的所述輸入聲音數(shù)據(jù)的低維表征數(shù)據(jù);采用所述輸入聲音數(shù)據(jù)的低維表征數(shù)據(jù)與預(yù)設(shè)的降維后的聲音訓(xùn)練數(shù)據(jù)的低維表征數(shù)據(jù),計(jì)算得出所述輸入聲音數(shù)據(jù)的VAD分值,所述聲音訓(xùn)練數(shù)據(jù)的低維數(shù)據(jù)表征通過對(duì)所述聲音訓(xùn)練數(shù)據(jù)進(jìn)行幾何重塑得到;當(dāng)確定計(jì)算得出的VAD分值大于預(yù)設(shè)的分值閾值時(shí),對(duì)所述聲音數(shù)據(jù)進(jìn)行語音識(shí)別。上述的方案可以節(jié)約語音識(shí)別的時(shí)間和計(jì)算資源。
      【專利說明】
      語音識(shí)別方法及裝置
      技術(shù)領(lǐng)域
      [0001] 本發(fā)明設(shè)及語音識(shí)別技術(shù)領(lǐng)域,特別是設(shè)及一種語音識(shí)別方法及裝置。
      【背景技術(shù)】
      [0002] 移動(dòng)終端,是指可W在移動(dòng)中使用的計(jì)算機(jī)設(shè)備,廣義地講包括手機(jī)、筆記本、平 板電腦、P0S機(jī)、車載電腦等。隨著集成電路技術(shù)的飛速發(fā)展,移動(dòng)終端已經(jīng)擁有了強(qiáng)大的 處理能力,移動(dòng)終端正在從簡單的通話工具變?yōu)橐粋€(gè)綜合信息處理平臺(tái),運(yùn)也給移動(dòng)終端 增加了更加寬廣的發(fā)展空間。
      [0003] 移動(dòng)終端的使用,通常需要用戶集中一定的注意力。如今的移動(dòng)終端設(shè)備都配備 有觸摸屏,用戶需要觸摸所述觸摸屏,W執(zhí)行相應(yīng)的操作。但是,用戶無法觸碰到移動(dòng)終端 設(shè)備時(shí),操作移動(dòng)終端便會(huì)變得極其不方便。例如,當(dāng)用戶駕駛車輛或者手中提有物品的時(shí) 候。 陽004] 語音識(shí)別方法和總聽系統(tǒng)(Always Listening System)的使用,使得可W對(duì)移動(dòng) 終端進(jìn)行非手動(dòng)激活和操作。當(dāng)所述總聽系統(tǒng)檢測(cè)到聲音信號(hào)時(shí),語音識(shí)別系統(tǒng)便會(huì)激活, 并對(duì)檢測(cè)到的聲音信號(hào)進(jìn)行識(shí)別。之后,移動(dòng)終端便會(huì)根據(jù)所識(shí)別出的聲音信號(hào)執(zhí)行相應(yīng) 的操作。例如,當(dāng)用戶輸入"撥打XX的手機(jī)"的語音時(shí),移動(dòng)終端便可W對(duì)用戶輸入的"撥 打XX的手機(jī)"的語音信息進(jìn)行識(shí)別,并在正確識(shí)別后,從移動(dòng)終端中獲取XX的手機(jī)號(hào)碼的 信息,并撥打。 陽0化]但是,現(xiàn)有技術(shù)中的語音識(shí)別方法,采用高斯混合模型(Gaussian mixture model,GMM)進(jìn)行語音識(shí)別,但是,在采用GMM進(jìn)行聲音訓(xùn)練數(shù)據(jù)的訓(xùn)練時(shí),為了獲取更好的 性能,通常需要很多的聲音訓(xùn)練數(shù)據(jù),因此,現(xiàn)有技術(shù)中的語音識(shí)別方法存在著浪費(fèi)時(shí)間和 計(jì)算資源的問題。

      【發(fā)明內(nèi)容】

      [0006] 本發(fā)明實(shí)施例解決的問題是如何在進(jìn)行語音識(shí)別時(shí),節(jié)約時(shí)間和計(jì)算資源。
      [0007] 為解決上述問題,本發(fā)明實(shí)施例提供了一種語音識(shí)別方法,所述語音識(shí)別方法包 括:
      [0008] 將采集到的輸入聲音信號(hào)進(jìn)行處理,得到輸入聲音數(shù)據(jù);
      [0009] 對(duì)所述輸入聲音數(shù)據(jù)進(jìn)行幾何重塑,得到降維后的所述輸入聲音數(shù)據(jù)的低維表征 數(shù)據(jù);
      [0010] 采用所述輸入聲音數(shù)據(jù)的低維表征數(shù)據(jù)與預(yù)設(shè)的降維后的聲音訓(xùn)練數(shù)據(jù)的低維 表征數(shù)據(jù),計(jì)算得出所述輸入聲音數(shù)據(jù)的VAD分值,所述聲音訓(xùn)練數(shù)據(jù)的低維數(shù)據(jù)表征通 過對(duì)所述聲音訓(xùn)練數(shù)據(jù)進(jìn)行幾何重塑得到;
      [0011] 當(dāng)確定計(jì)算得出的VAD分值大于預(yù)設(shè)的分值闊值時(shí),對(duì)所述聲音數(shù)據(jù)進(jìn)行語音識(shí) 別。
      [0012] 可選地,所述對(duì)所述聲音數(shù)據(jù)進(jìn)行幾何重塑,得到所述聲音數(shù)據(jù)的低維表征數(shù)據(jù), 包括:
      [0013] 獲取所述輸入聲音數(shù)據(jù)的MFCC,及其對(duì)應(yīng)的MFCC頻帶數(shù)量的信息;
      [0014] 將所獲取的所述輸入聲音數(shù)據(jù)的MFCC劃分成不同的時(shí)隙,并根據(jù)所得到的MFCC 頻帶數(shù)量的信息,計(jì)算得出所述輸入聲音數(shù)據(jù)的對(duì)數(shù)似然比;
      [0015] 采用計(jì)算得出的所述輸入聲音數(shù)據(jù)的對(duì)數(shù)似然比,構(gòu)建所述輸入聲音數(shù)據(jù)的特征 矩陣;
      [0016] 構(gòu)建所述輸入聲音數(shù)據(jù)的特征矩陣對(duì)應(yīng)的相似矩陣;
      [0017] 對(duì)所述輸入聲音數(shù)據(jù)的特征矩陣對(duì)應(yīng)的相似矩陣進(jìn)行拉普拉斯特征提取,得到拉 普拉斯特征矩陣和特征值,將最小的預(yù)設(shè)個(gè)數(shù)的非零特征值對(duì)應(yīng)的特征向量作為所述輸入 聲音數(shù)據(jù)的低維表征數(shù)據(jù)。
      [0018] 可選地,所述聲音訓(xùn)練數(shù)據(jù)的低維數(shù)據(jù)表征通過對(duì)所述聲音訓(xùn)練數(shù)據(jù)進(jìn)行幾何重 塑得到,包括:
      [0019] 采用預(yù)設(shè)的純凈語音數(shù)據(jù)庫、非穩(wěn)態(tài)噪聲數(shù)據(jù)庫和穩(wěn)態(tài)噪聲數(shù)據(jù)庫,分別得到純 凈語音數(shù)據(jù)的MFCC及其對(duì)應(yīng)的MFCC頻帶數(shù)量的信息、非穩(wěn)態(tài)噪聲數(shù)據(jù)的MFCC及其對(duì)應(yīng)的 MFCC頻帶數(shù)量的信息,W及穩(wěn)態(tài)噪聲信息對(duì)應(yīng)的MFCC及其對(duì)應(yīng)的MFCC頻帶數(shù)量的信息;
      [0020] 根據(jù)得到純凈語音數(shù)據(jù)、非穩(wěn)態(tài)噪聲數(shù)據(jù),W及穩(wěn)態(tài)噪聲信息對(duì)應(yīng)的MFCC及其對(duì) 應(yīng)的MFCC頻帶數(shù)量的信息,分別得到第一、第二、第Ξ、第四和第五聲音數(shù)據(jù)訓(xùn)練集的MFCC 及其對(duì)應(yīng)的MFCC頻帶數(shù)量的信息;
      [0021] 將所述第一、第二、第Ξ、第四和第五聲音數(shù)據(jù)訓(xùn)練集的MFCC分別劃分成為不同 的時(shí)隙,并根據(jù)所得到的第一、第二、第Ξ、第四和第五聲音數(shù)據(jù)訓(xùn)練集的MFCC及對(duì)應(yīng)的 MFCC頻帶數(shù)量的信息,分別計(jì)算得出所述第一、第二、第Ξ、第四和第五聲音數(shù)據(jù)訓(xùn)練集的 對(duì)數(shù)似然比;
      [0022] 根據(jù)計(jì)算得出的所述第一、第二、第Ξ、第四和第五聲音數(shù)據(jù)訓(xùn)練集的對(duì)數(shù)似然 比,分別計(jì)算得出第一、第二、第Ξ、第四和第五聲音數(shù)據(jù)訓(xùn)練集的特征矩陣;
      [0023] 為第一、第二、第Ξ、第四和第五聲音數(shù)據(jù)訓(xùn)練集的特征矩陣分配相應(yīng)的權(quán)重并相 加,得到所述聲音訓(xùn)練數(shù)據(jù)的相似矩陣;
      [0024] 對(duì)所述聲音訓(xùn)練數(shù)據(jù)的相似矩陣進(jìn)行拉普拉斯特征提取,得到拉普拉斯特征矩陣 和特征值,將最小的預(yù)設(shè)個(gè)數(shù)的非零特征值對(duì)應(yīng)的特征向量作為所述聲音訓(xùn)練數(shù)據(jù)的低維 表征數(shù)據(jù)。
      [00巧]可選地,采用如下的公式計(jì)算對(duì)數(shù)似然比,包括:
      [0026]
      [0027] 其中,I表示對(duì)數(shù)似然比,XS表示MFCC對(duì)應(yīng)的MFCC頻帶數(shù)量,PriSNR表示先噪 聲比,PostSNR表示后噪聲比。
      [0028] 可選地,所述采用計(jì)算得出的所述輸入聲音數(shù)據(jù)的對(duì)數(shù)似然比,得到所述輸入聲 音數(shù)據(jù)的特征矩陣,包括:
      [0029]
      [0030] 其中,X表示特征矩陣,t表示聲音數(shù)據(jù)帖的位序,且t = (1,2…腳,I表示對(duì)數(shù) 似然比。
      [0031] 可選地,所述為第一、第二、第Ξ、第四和第五聲音數(shù)據(jù)訓(xùn)練集的特征矩陣分配相 應(yīng)的權(quán)重并相加,得到所述聲音訓(xùn)練數(shù)據(jù)的相似矩陣,包括:
      [0032]
      [003引其中,T表示所述聲音訓(xùn)練數(shù)據(jù)的相似矩陣,i、j分別表示所述聲音訓(xùn)練數(shù)據(jù)集的 位序,P表示計(jì)算所述聲音訓(xùn)練數(shù)據(jù)的相似矩陣的持續(xù)時(shí)間,且:
      [0034]
      [0035] 其中,X(i)表示第i個(gè)聲音數(shù)據(jù)訓(xùn)練集的特征矩陣,X(j)表示第j個(gè)聲音數(shù)據(jù)訓(xùn) 練集的特征矩陣。
      [0036] 可選地,所述計(jì)算輸入聲音數(shù)據(jù)特征矩陣的特征向量與所述聲音數(shù)據(jù)訓(xùn)練集特征 矩陣的特征向量之間的似然距離,包括:
      [0037]
      [0038] 其中,祭表示所述似然距離,S0J)表示所述輸入聲音數(shù)據(jù)特征矩陣的特征向量的 光譜靈敏度,S(K)表示所述聲音數(shù)據(jù)訓(xùn)練集特征矩陣的特征向量的光譜靈敏度,0。、^分 別表示S〇J)、S似的預(yù)測(cè)誤差。
      [0039] 可選地,所述計(jì)算得出所述輸入聲音數(shù)據(jù)的VAD分值,包括:
      [0040]
      [0041] 其中,VAD score表示所述輸入聲音數(shù)據(jù)的VAD分值,f(ipj表示為具有數(shù)個(gè)預(yù)設(shè)闊 值的比較函數(shù)。
      [0042] 本發(fā)明實(shí)施例還提供了一種語音識(shí)別裝置,所述裝置包括:
      [0043] 數(shù)據(jù)處理單元,適于將采集到的輸入聲音信號(hào)進(jìn)行處理,得到輸入聲音數(shù)據(jù);
      [0044] 幾何重塑單元,適于對(duì)所述輸入聲音數(shù)據(jù)進(jìn)行幾何重塑,得到降維后的所述輸入 聲音數(shù)據(jù)的低維表征數(shù)據(jù);
      [0045] 計(jì)算單元,適于采用所述輸入聲音數(shù)據(jù)的低維表征數(shù)據(jù)與預(yù)設(shè)的降維后的聲音訓(xùn) 練數(shù)據(jù)的低維表征數(shù)據(jù),計(jì)算得出所述輸入聲音數(shù)據(jù)的VAD分值,所述聲音訓(xùn)練數(shù)據(jù)的低 維數(shù)據(jù)表征通過對(duì)所述聲音訓(xùn)練數(shù)據(jù)進(jìn)行幾何重塑得到;
      [0046] 語音識(shí)別單元,適于當(dāng)確定計(jì)算得出的VAD分值大于預(yù)設(shè)的分值闊值時(shí),對(duì)所述 聲音數(shù)據(jù)進(jìn)行語音識(shí)別。
      [0047] 可選地,所述幾何重塑單元適于獲取所述輸入聲音數(shù)據(jù)的MFCC,及其對(duì)應(yīng)的MFCC 頻帶數(shù)量的信息;將所獲取的所述輸入聲音數(shù)據(jù)的MFCC劃分成不同的時(shí)隙,并根據(jù)所得到 的MFCC頻帶數(shù)量的信息,計(jì)算得出所述輸入聲音數(shù)據(jù)的對(duì)數(shù)似然比;采用計(jì)算得出的所述 輸入聲音數(shù)據(jù)的對(duì)數(shù)似然比,構(gòu)建所述輸入聲音數(shù)據(jù)的特征矩陣;構(gòu)建所述輸入聲音數(shù)據(jù) 的特征矩陣對(duì)應(yīng)的相似矩陣;對(duì)所述輸入聲音數(shù)據(jù)的特征矩陣對(duì)應(yīng)的相似矩陣進(jìn)行拉普拉 斯特征提取,得到拉普拉斯特征矩陣和特征值,將最小的預(yù)設(shè)個(gè)數(shù)的非零特征值對(duì)應(yīng)的特 征向量作為所述輸入聲音數(shù)據(jù)的低維表征數(shù)據(jù)。
      [0048] 可選地,所述裝置還包括訓(xùn)練單元,適于通過對(duì)所述聲音訓(xùn)練數(shù)據(jù)進(jìn)行幾何重塑 得到所述聲音訓(xùn)練數(shù)據(jù)的低維數(shù)據(jù)表征,包括:
      [0049] 采用預(yù)設(shè)的純凈語音數(shù)據(jù)庫、非穩(wěn)態(tài)噪聲數(shù)據(jù)庫和穩(wěn)態(tài)噪聲數(shù)據(jù)庫,分別得到純 凈語音數(shù)據(jù)的MFCC及其對(duì)應(yīng)的MFCC頻帶數(shù)量的信息、非穩(wěn)態(tài)噪聲數(shù)據(jù)的MFCC及其對(duì)應(yīng)的 MFCC頻帶數(shù)量的信息,W及穩(wěn)態(tài)噪聲信息對(duì)應(yīng)的MFCC及其對(duì)應(yīng)的MFCC頻帶數(shù)量的信息;
      [0050] 根據(jù)得到純凈語音數(shù)據(jù)、非穩(wěn)態(tài)噪聲數(shù)據(jù),W及穩(wěn)態(tài)噪聲信息對(duì)應(yīng)的MFCC及其對(duì) 應(yīng)的MFCC頻帶數(shù)量的信息,分別得到第一、第二、第Ξ、第四和第五聲音數(shù)據(jù)訓(xùn)練集的MFCC 及其對(duì)應(yīng)的MFCC頻帶數(shù)量的信息;
      [005U 將所述第一、第二、第Ξ、第四和第五聲音數(shù)據(jù)訓(xùn)練集的MFCC分別劃分成為不同 的時(shí)隙,并根據(jù)所得到的第一、第二、第Ξ、第四和第五聲音數(shù)據(jù)訓(xùn)練集的MFCC及對(duì)應(yīng)的 MFCC頻帶數(shù)量的信息,分別計(jì)算得出所述第一、第二、第Ξ、第四和第五聲音數(shù)據(jù)訓(xùn)練集的 對(duì)數(shù)似然比;
      [0052] 根據(jù)計(jì)算得出的所述第一、第二、第Ξ、第四和第五聲音數(shù)據(jù)訓(xùn)練集的對(duì)數(shù)似然 比,分別計(jì)算得出第一、第二、第Ξ、第四和第五聲音數(shù)據(jù)訓(xùn)練集的特征矩陣;
      [0053] 為第一、第二、第Ξ、第四和第五聲音數(shù)據(jù)訓(xùn)練集的特征矩陣分配相應(yīng)的權(quán)重并相 加,得到所述聲音訓(xùn)練數(shù)據(jù)的相似矩陣;
      [0054] 對(duì)所述聲音訓(xùn)練數(shù)據(jù)的相似矩陣進(jìn)行拉普拉斯特征提取,得到拉普拉斯特征矩陣 和特征值,將最小的預(yù)設(shè)個(gè)數(shù)的非零特征值對(duì)應(yīng)的特征向量作為所述聲音訓(xùn)練數(shù)據(jù)的低維 表征數(shù)據(jù)。
      [0055] 與現(xiàn)有技術(shù)相比,本發(fā)明的技術(shù)方案具有W下的優(yōu)點(diǎn):
      [0056] 通過幾何重塑的方法,得到聲音訓(xùn)練數(shù)據(jù)的低維表征數(shù)據(jù),僅采用較少的聲音訓(xùn) 練數(shù)據(jù),便可W得到所述聲音訓(xùn)練數(shù)據(jù)的低維表征數(shù)據(jù),因此,可W節(jié)約時(shí)間和計(jì)算資源。
      [0057] 進(jìn)一步地,在采用拉普拉斯特征提取對(duì)聲音訓(xùn)練數(shù)據(jù)和輸入聲音數(shù)據(jù)進(jìn)行特征提 取,分別得到聲音訓(xùn)練數(shù)據(jù)對(duì)應(yīng)的分塊矩陣和輸入聲音數(shù)據(jù)對(duì)應(yīng)的分開矩陣時(shí),分別使用 到了聲音數(shù)據(jù)的MFCC和對(duì)數(shù)似然比的信息,不僅適于穩(wěn)態(tài)噪聲環(huán)境中的語音識(shí)別,也可W 在非穩(wěn)態(tài)噪聲環(huán)境中進(jìn)行語音識(shí)別,因此,可W提高提高語音識(shí)別的可靠性和適用范圍。
      【附圖說明】
      [005引圖1是本發(fā)明實(shí)施例中的一種語音識(shí)別方法的流程圖;
      [0059] 圖2是本發(fā)明實(shí)施例中的所述對(duì)所述聲音訓(xùn)練數(shù)據(jù)進(jìn)行幾何重塑,得到所述聲音 訓(xùn)練數(shù)據(jù)的低維表征數(shù)據(jù)的流程圖;
      [0060] 圖3是本發(fā)明實(shí)施例中的所述對(duì)所述聲音數(shù)據(jù)進(jìn)行幾何重塑,得到所述聲音數(shù)據(jù) 的低維表征數(shù)據(jù)的流程圖;
      [0061] 圖4是本發(fā)明實(shí)施例中的一種語音識(shí)別裝置的結(jié)構(gòu)示意圖。
      【具體實(shí)施方式】
      [0062] 現(xiàn)有的語音識(shí)別方法,經(jīng)常使用VAD來進(jìn)行聲音檢巧U,如動(dòng)態(tài)時(shí)間彎折法 (Dynamic Time Warping, DTW)等。
      [0063] DTW的優(yōu)點(diǎn)是使用標(biāo)準(zhǔn)的特征提取算法提取輸入的聲音數(shù)據(jù)的特征量,再將輸入 數(shù)據(jù)與預(yù)設(shè)的已注冊(cè)數(shù)據(jù)之間進(jìn)行比較,根據(jù)二者之間的差異確定是否需要對(duì)輸入數(shù)據(jù)進(jìn) 行檢測(cè)。
      [0064] 當(dāng)移動(dòng)終端的使用環(huán)境與已注冊(cè)的環(huán)境數(shù)據(jù)相似時(shí),DTW可W具有較好的識(shí)別和 觸發(fā)(聲音檢測(cè)功能的觸發(fā))性能。而當(dāng)移動(dòng)終端的使用環(huán)境變化時(shí),DTW的觸發(fā)性能將會(huì) 降低。甚至當(dāng)記錄所述已注冊(cè)的環(huán)境數(shù)據(jù)所使用的移動(dòng)終端設(shè)備改變時(shí),也會(huì)引起DTW性 能的下降。 W65] 為解決上述問題,現(xiàn)有的一種語音識(shí)別方法,采用高斯混合模型 (Gaussianmix化re model, GMM)進(jìn)行語音識(shí)別,但是,為了獲取更好的語音識(shí)別性能,在采 用GMM進(jìn)行聲音訓(xùn)練數(shù)據(jù)的訓(xùn)練時(shí),通常需要很多的聲音訓(xùn)練數(shù)據(jù)。因此,現(xiàn)有技術(shù)中的語 音識(shí)別方法存在著浪費(fèi)時(shí)間和計(jì)算資源的問題。
      [0066] 為解決現(xiàn)有技術(shù)中存在的上述問題,本發(fā)明實(shí)施例采用的技術(shù)方案通過采用幾何 重塑的方法,得到聲音訓(xùn)練數(shù)據(jù)的低維表征數(shù)據(jù),僅使用較少的聲音訓(xùn)練數(shù)據(jù)便可W得到 所述聲音訓(xùn)練數(shù)據(jù)的低維表征數(shù)據(jù),可W節(jié)約語音識(shí)別的時(shí)間和計(jì)算資源。
      [0067] 為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能夠更為明顯易懂,下面結(jié)合附圖對(duì)本發(fā)明 的具體實(shí)施例做詳細(xì)的說明。 W側(cè)圖1示出了本發(fā)明實(shí)施例中的一種語音識(shí)別方法的流程圖。如圖1所示的語音識(shí) 別方法,可W包括:
      [0069] 步驟S101 :將采集到的輸入聲音信號(hào)進(jìn)行處理,得到輸入聲音數(shù)據(jù)。
      [0070] 在具體實(shí)施中,可W使用麥克風(fēng)(MIC)來對(duì)外界的聲音信號(hào)進(jìn)行采集當(dāng)采集到 聲音信號(hào)時(shí),并將所采集到的聲音信號(hào)進(jìn)行相應(yīng)的處理,如時(shí)域(Time domain)和頻域 (化equency domain)處理等,得到相應(yīng)的聲音數(shù)據(jù)。
      [0071] 步驟S102 :對(duì)所述輸入聲音數(shù)據(jù)進(jìn)行幾何重塑,得到降維后的所述輸入聲音數(shù)據(jù) 的低維表征數(shù)據(jù)。
      [0072] 在具體實(shí)施中,可W采用多種方法對(duì)輸入聲音數(shù)據(jù)進(jìn)行幾何重塑,例如,拉普拉斯 特征提?。↙曰pi曰ci曰η eigenm曰ps)。
      [0073] 步驟S103 :采用所述輸入聲音數(shù)據(jù)的低維表征數(shù)據(jù)與預(yù)設(shè)的降維后的聲音訓(xùn)練 數(shù)據(jù)的低維表征數(shù)據(jù),計(jì)算得出所述輸入聲音數(shù)據(jù)的VAD分值。
      [0074] 在具體實(shí)施中,所述聲音訓(xùn)練數(shù)據(jù)的低維數(shù)據(jù)表征也可W通過對(duì)所述聲音訓(xùn)練數(shù) 據(jù)進(jìn)行幾何重塑得到,例如,拉普拉斯特征提取等。
      [0075] 在本發(fā)明一實(shí)施例中,當(dāng)?shù)玫剿鲚斎肼曇魯?shù)據(jù)的低維表征數(shù)據(jù)時(shí),可W采用如 下的公式計(jì)算得到輸入聲音數(shù)據(jù)的低維表征數(shù)據(jù)與預(yù)設(shè)的聲音訓(xùn)練數(shù)據(jù)的低維表征數(shù)據(jù) 之間的似然距離:
      [0076]
      (1)
      [0077] 其中,巧表示所述似然距離,U、K分別表示所述輸入聲音數(shù)據(jù)的低維表征數(shù)據(jù)(分 塊矩陣)和所述聲音訓(xùn)練數(shù)據(jù)的低維表征數(shù)據(jù)(分塊矩陣),S0J)表示所述輸入聲音數(shù)據(jù) 的低維表征數(shù)據(jù)的光譜靈敏度,s(κ)表示所述聲音數(shù)據(jù)訓(xùn)練集的低維表征數(shù)據(jù)的光譜靈敏 度,〇u、分別表示S0J)、S似的預(yù)測(cè)誤差。
      [0078] 接著,當(dāng)計(jì)算得到輸入聲音數(shù)據(jù)的低維表征數(shù)據(jù)和預(yù)設(shè)的聲音訓(xùn)練數(shù)據(jù)的低維表 征數(shù)據(jù)之間的似然距離之后,可W采用如下的公式計(jì)算得到所述輸入聲音數(shù)據(jù)的VAD分 值,包括:
      [0079] (2)
      [0080] 其中,VAD score表示所述VAD分值,巧聲).表示為具有數(shù)個(gè)預(yù)設(shè)闊值的比較函數(shù)。 其中,f((p)中的預(yù)設(shè)闊值可W根據(jù)實(shí)驗(yàn)結(jié)果進(jìn)行確定。
      [0081] 步驟S104 :當(dāng)確定計(jì)算得出的VAD分值大于預(yù)設(shè)的分值闊值時(shí),對(duì)所述聲音數(shù)據(jù) 進(jìn)行語音識(shí)別。
      [0082] 在具體實(shí)施中,當(dāng)計(jì)算得到的VAD分值大于預(yù)設(shè)的分值闊值大于預(yù)設(shè)的分值闊值 時(shí),說明輸入聲音數(shù)據(jù)的低維表征數(shù)據(jù)與聲音訓(xùn)練數(shù)據(jù)的低維表征數(shù)據(jù)之間具有較大的相 似性,進(jìn)而可W表明所述輸入聲音數(shù)據(jù)中包括有語音信息,此時(shí),可W對(duì)輸入聲音數(shù)據(jù)進(jìn)行 語音識(shí)別。
      [0083] 在具體實(shí)施中,當(dāng)識(shí)別出所述輸入聲音數(shù)據(jù)時(shí),移動(dòng)終端可W執(zhí)行與所識(shí)別出的 輸入聲音數(shù)據(jù)對(duì)應(yīng)的操作,例如,撥打XX的電話,打開微博,打開化cebook等。
      [0084] 在具體實(shí)施中,為了進(jìn)行VAD檢測(cè),首先可W通過聲音訓(xùn)練數(shù)據(jù)的訓(xùn)練得到聲音 訓(xùn)練數(shù)據(jù)的低維數(shù)據(jù)表征,W便在采集到輸入聲音數(shù)據(jù)時(shí),確定是否需要對(duì)輸入聲音數(shù)據(jù) 進(jìn)行語音檢測(cè)。
      [0085] 圖2示出了本發(fā)明實(shí)施例中的所述對(duì)所述聲音訓(xùn)練數(shù)據(jù)進(jìn)行幾何重塑,得到所述 聲音訓(xùn)練數(shù)據(jù)的低維表征數(shù)據(jù)的流程圖。如圖2所示的所述對(duì)所述聲音訓(xùn)練數(shù)據(jù)進(jìn)行幾何 重塑,得到所述聲音訓(xùn)練數(shù)據(jù)的低維表征數(shù)據(jù),可W包括:
      [0086] 步驟S201 :采用預(yù)設(shè)的純凈語音數(shù)據(jù)庫、非穩(wěn)態(tài)噪聲數(shù)據(jù)庫和穩(wěn)態(tài)噪聲數(shù)據(jù)庫, 分別得到純凈語音數(shù)據(jù)的MFCC及其對(duì)應(yīng)的MFCC頻帶數(shù)量的信息、非穩(wěn)態(tài)噪聲數(shù)據(jù)的MFCC 及其對(duì)應(yīng)的MFCC頻帶數(shù)量的信息,W及穩(wěn)態(tài)噪聲信息對(duì)應(yīng)的MFCC及其對(duì)應(yīng)的MFCC頻帶數(shù) 量的信息。
      [0087] 在具體實(shí)施中,為了獲取相應(yīng)的聲音訓(xùn)練數(shù)據(jù),首先需要構(gòu)建純凈語音數(shù)據(jù)庫、非 穩(wěn)態(tài)噪聲數(shù)據(jù)庫和穩(wěn)態(tài)噪聲數(shù)據(jù)庫。從所構(gòu)建的純凈語音數(shù)據(jù)庫、非穩(wěn)態(tài)噪聲數(shù)據(jù)庫和穩(wěn) 態(tài)噪聲數(shù)據(jù)庫中相應(yīng)的純凈語音數(shù)據(jù)、非穩(wěn)態(tài)噪聲數(shù)據(jù)和穩(wěn)態(tài)噪聲數(shù)據(jù),可W分別得到對(duì) 應(yīng)的純凈語音數(shù)據(jù)、非穩(wěn)態(tài)噪聲數(shù)據(jù)和穩(wěn)態(tài)噪聲數(shù)據(jù)的化頻率的信息。
      [0088] Mel頻率是基于人耳聽覺特性提出來的,它與化頻率成非線性對(duì)應(yīng)關(guān)系。Mel頻 率倒譜系數(shù)(MFCC)則是利用Mel頻率與化頻率成之間的運(yùn)種非線性對(duì)應(yīng)關(guān)系,計(jì)算得到 的化頻譜特征。因此,利用化頻率與MFCC之間的對(duì)應(yīng)關(guān)系,便可W得到純凈語音數(shù)據(jù)的 MFCC及其對(duì)應(yīng)的MFCC頻帶數(shù)量的信息、非穩(wěn)態(tài)噪聲數(shù)據(jù)的MFCC及其對(duì)應(yīng)的MFCC頻帶數(shù)量 的信息,W及穩(wěn)態(tài)噪聲信息對(duì)應(yīng)的MFCC及其對(duì)應(yīng)的MFCC頻帶數(shù)量的信息。
      [0089] 步驟S202 :根據(jù)得到純凈語音數(shù)據(jù)、非穩(wěn)態(tài)噪聲數(shù)據(jù),W及穩(wěn)態(tài)噪聲信息對(duì)應(yīng)的 MFCC及其對(duì)應(yīng)的MFCC頻帶數(shù)量的信息,分別得到第一、第二、第Ξ、第四和第五聲音數(shù)據(jù)訓(xùn) 練集的MFCC及其對(duì)應(yīng)的MFCC頻帶數(shù)量的信息。
      [0090] 在具體實(shí)施中,當(dāng)?shù)玫郊儍粽Z音數(shù)據(jù)、非穩(wěn)態(tài)噪聲數(shù)據(jù),W及穩(wěn)態(tài)噪聲信息對(duì)應(yīng)的 MFCC及其對(duì)應(yīng)的MFCC頻帶數(shù)量的信息,可W采用如下的公式分別得到第一、第二、第Ξ、第 四和第五聲音數(shù)據(jù)訓(xùn)練集的MFCC及其對(duì)應(yīng)的MFCC頻帶數(shù)量的信息:
      [0091] xi(n) = χ,ρ(η) (3) 陽092]而(η) = Xsp (η) +Xst (η) (4) 陽OW] & (η) = X叩(η) +Xn〇n St (η)妨 陽094] Χ4 (η) = Xnon St (η) +Χ" (η)化) 陽095] Xs (η) = Xsp (η)+Xst (η)+Xn〇n St (η) (7)
      [0096] 其中,xi(n)、X2(n)、X3(n)、x>)和X5(n)分別表示第一、第二第三第四和第五 聲音訓(xùn)練數(shù)據(jù)的MFCC,χ,ρ(η)表示純凈語音數(shù)據(jù)的MFCC,x""",t(n)表示非穩(wěn)態(tài)噪聲數(shù)據(jù)的 MFCC,x,t(n)表示穩(wěn)態(tài)噪聲數(shù)據(jù)的MFCC。
      [0097] 當(dāng)?shù)玫缴鲜龅牡谝?、第二、第Ξ、第四和第五聲音?shù)據(jù)訓(xùn)練集的MFCC時(shí),并可W得 到第一、第二、第Ξ、第四和第五聲音數(shù)據(jù)訓(xùn)練集的MFCC對(duì)應(yīng)的MFCC頻帶數(shù)量的信息。
      [0098] 步驟S203:將所述第一、第二、第Ξ、第四和第五聲音數(shù)據(jù)訓(xùn)練集的MFCC分別劃分 成為不同的時(shí)隙,并根據(jù)所得到的第一、第二第三第四和第五聲音數(shù)據(jù)訓(xùn)練集的MFCC及 對(duì)應(yīng)的MFCC頻帶數(shù)量的信息,分別計(jì)算得出所述第一、第二、第Ξ、第四和第五聲音數(shù)據(jù)訓(xùn) 練集的對(duì)數(shù)似然比。
      [0099] 在具體實(shí)施中,當(dāng)?shù)玫缴鲜龅牡谝?、第二、第Ξ、第四和第五聲音?shù)據(jù)訓(xùn)練集的 MFCC及其對(duì)應(yīng)的MFCC頻帶數(shù)量的信息,可W采用如下的公式分別計(jì)算得到相應(yīng)的對(duì)數(shù)似 然比:
      [0100]
      (8) 陽1〇U 其中,I表示對(duì)數(shù)似然比,XS表示相應(yīng)的聲音訓(xùn)練數(shù)據(jù)的MFCC對(duì)應(yīng)的MFCC頻帶 數(shù)量,PriSNR表示先噪聲比,PostSNR表示后噪聲比。
      [0102] 步驟S204 :根據(jù)計(jì)算得出的所述第一、第二、第Ξ、第四和第五聲音數(shù)據(jù)訓(xùn)練集的 對(duì)數(shù)似然比,分別計(jì)算得出第一、第二、第Ξ、第四和第五聲音數(shù)據(jù)訓(xùn)練集的特征矩陣。
      [0103] 在具體實(shí)施中,當(dāng)?shù)玫降谝?、第二、第Ξ、第四和第五聲音?shù)據(jù)訓(xùn)練集的對(duì)數(shù)似然 比時(shí),便可W得到所述輸入聲音數(shù)據(jù)的特征矩陣:
      [0104]
      (谷)
      [01化]其中,X(i)表示第i個(gè)聲音訓(xùn)練數(shù)據(jù)集對(duì)應(yīng)的特征矩陣,t表示聲音數(shù)據(jù)帖的位 序,且t = (1,2…腳,I (i)表示第i個(gè)聲音訓(xùn)練數(shù)據(jù)集對(duì)應(yīng)的對(duì)數(shù)似然比。
      [0106] 步驟S205 :為第一、第二第三第四和第五聲音數(shù)據(jù)訓(xùn)練集的特征矩陣分配相應(yīng) 的權(quán)重并相加,得到所述聲音訓(xùn)練數(shù)據(jù)的相似矩陣。
      [0107] 在具體實(shí)施中,當(dāng)?shù)玫降谝?、第二、第Ξ、第四和第五聲音?shù)據(jù)訓(xùn)練集的特征矩陣 之后,通過為第一、第二、第Ξ、第四和第五聲音數(shù)據(jù)訓(xùn)練集的特征矩陣分配相應(yīng)的權(quán)重并 相加,可W得到所述聲音訓(xùn)練數(shù)據(jù)對(duì)應(yīng)的相似矩陣:
      [0110] 其中,τ表示所述聲音訓(xùn)練數(shù)據(jù)的相似矩陣,i、j分別表示所述聲音訓(xùn)練數(shù)據(jù)集的 位序,P表示計(jì)算所述聲音訓(xùn)練數(shù)據(jù)的相似矩陣的持續(xù)時(shí)間,x(i)表示第i個(gè)聲音數(shù)據(jù)訓(xùn)練 集的特征矩陣,X(j)表示第j個(gè)聲音數(shù)據(jù)訓(xùn)練集的特征矩陣。 陽111] 當(dāng)一個(gè)特定的語音數(shù)據(jù)帖中包含有語音或者非穩(wěn)態(tài)噪聲時(shí),通過公式(8)計(jì)算得 出的對(duì)數(shù)似然比就會(huì)較大,公式(11)中的指數(shù)項(xiàng)越等于零,那么該聲音數(shù)據(jù)帖的特征向量 (低維表征數(shù)據(jù))將會(huì)接近于該數(shù)據(jù)帖對(duì)應(yīng)的MFCC。反之,當(dāng)一個(gè)特定的聲音數(shù)據(jù)帖中僅 包含有穩(wěn)態(tài)噪聲的信息時(shí),計(jì)算得出的對(duì)數(shù)似然比就會(huì)較小,公式(11)中的指數(shù)項(xiàng)就會(huì)約 等于1,那么,僅包含有穩(wěn)態(tài)噪聲的聲音數(shù)據(jù)帖的特征向量就約等于零。
      [0112] 因此,將不含有非穩(wěn)態(tài)噪聲的聲音數(shù)據(jù)帖與含有非穩(wěn)態(tài)噪聲的其他聲音數(shù)據(jù)帖進(jìn) 行區(qū)別的特征在于:不含有非穩(wěn)態(tài)噪聲的相鄰的聲音數(shù)據(jù)帖之間幾乎是相同的。由于相 鄰的聲音數(shù)據(jù)帖之間存在較大的距離,因此,如果可W像在公式(8)中那樣進(jìn)行權(quán)重函數(shù) (wei曲t化nction)的選取,即便兩個(gè)聲音數(shù)據(jù)帖之間非常相似,只要他們分別來自不同的 類別,那么他們之間的相似性也將會(huì)變得很小。
      [0113] 步驟S206 :對(duì)所述聲音訓(xùn)練數(shù)據(jù)的相似矩陣進(jìn)行拉普拉斯特征提取,得到拉普拉 斯特征矩陣和特征值,將最小的預(yù)設(shè)個(gè)數(shù)的非零特征值對(duì)應(yīng)的特征向量作為所述聲音訓(xùn)練 數(shù)據(jù)的低維表征數(shù)據(jù)。
      [0114] 在具體實(shí)施中,當(dāng)聲音訓(xùn)練數(shù)據(jù)的相似矩陣進(jìn)行拉普拉斯矩陣特征提取的具體過 程,可W包括:
      [0115] 首先構(gòu)建相似圖形G,其中,例如使用k最近鄰化-Nearest Nei曲bor,KNN)分類 算法,將每個(gè)點(diǎn)最近的K個(gè)點(diǎn)連上邊,其中,K為預(yù)先設(shè)定的值。 陽116] 接著,確定相似圖形G點(diǎn)與點(diǎn)之間的權(quán)重,例如選用熱核函數(shù)來確定,如果點(diǎn)i和 點(diǎn)j相連,那么它們關(guān)系的權(quán)重設(shè)定為: 陽 117]
      ( 12 ) 陽11引其中Wi i表示點(diǎn)i和點(diǎn)j之間的權(quán)重。
      [0119] 另外一種可選的簡化設(shè)定是如果點(diǎn)i,j相連則Wii為1,否則W U為0。
      [0120] 然后,計(jì)算拉普拉斯矩陣L的特征向量與特征值:
      [0121] Ly = λ Dy (13)
      [0122] 其中,D是對(duì)角矩陣,且滿足: 陽 123] Dii =Σ jWji (14) 陽 124] L = D-W (巧)
      [01巧]最后,使用最小的預(yù)設(shè)個(gè)數(shù)個(gè)非零特征值對(duì)應(yīng)的特征向量(分塊矩陣)K,作為降 維后的所述聲音訓(xùn)練數(shù)據(jù)的低維表征數(shù)據(jù)。其中,所述特征向量K中的非零特征值的個(gè)數(shù) 可W根據(jù)實(shí)際的需要進(jìn)行設(shè)置。 陽126] 在具體實(shí)施中,通過聲音訓(xùn)練數(shù)據(jù)的訓(xùn)練得到降維后的聲音訓(xùn)練數(shù)據(jù)的低維表征 數(shù)據(jù)W后,當(dāng)采集到輸入聲音數(shù)據(jù)時(shí),同樣對(duì)輸入聲音數(shù)據(jù)進(jìn)行幾何重塑,得到降維后的輸 入聲音數(shù)據(jù)的幾何重塑,得到輸入聲音數(shù)據(jù)的低維表征數(shù)據(jù)。
      [0127] 運(yùn)里需要指出的是,通過聲音訓(xùn)練數(shù)據(jù)得到聲音訓(xùn)練數(shù)據(jù)的低維表征數(shù)據(jù)的過 程,與得到輸入聲音數(shù)據(jù)的低維表征數(shù)據(jù)的過程相似,但仍然存在著不同之處。為了便于區(qū) 另IJ,下面將對(duì)如何得到對(duì)輸入聲音數(shù)據(jù)進(jìn)行幾何重塑,得到輸入聲音數(shù)據(jù)的低維表征數(shù)據(jù) 做進(jìn)一步詳細(xì)的介紹。
      [0128] 圖3示出了本發(fā)明實(shí)施例中的所述對(duì)所述聲音數(shù)據(jù)進(jìn)行幾何重塑,得到所述聲音 數(shù)據(jù)的低維表征數(shù)據(jù)的流程圖。如圖3所示的所述對(duì)所述聲音數(shù)據(jù)進(jìn)行幾何重塑,得到所 述聲音數(shù)據(jù)的低維表征數(shù)據(jù),可W包括:
      [0129] 步驟S301 :獲取所述輸入聲音數(shù)據(jù)的MFCC,及其對(duì)應(yīng)的MFCC頻帶數(shù)量的信息。
      [0130] 在具體實(shí)施中,當(dāng)采集到輸入聲音數(shù)據(jù)時(shí),利用化頻率與MFCC之間的對(duì)應(yīng)關(guān)系, 便可W得到輸入聲音數(shù)據(jù)的MFCC及其對(duì)應(yīng)的MFCC頻帶數(shù)量的信息。 陽13U 步驟S302 :將所獲取的所述輸入聲音數(shù)據(jù)的MFCC劃分成不同的時(shí)隙,并根據(jù)所得 到的MFCC頻帶數(shù)量的信息,計(jì)算得出所述輸入聲音數(shù)據(jù)的對(duì)數(shù)似然比。 陽132] 在具體實(shí)施中,可W上述的公式(8)計(jì)算得出所述輸入聲音數(shù)據(jù)的對(duì)數(shù)似然比。
      [0133] 步驟S303 :采用計(jì)算得出的輸入聲音數(shù)據(jù)的對(duì)數(shù)似然比,構(gòu)建所述輸入聲音數(shù)據(jù) 的特征矩陣。
      [0134] 在具體實(shí)施中,當(dāng)計(jì)算得到輸入聲音數(shù)據(jù)的對(duì)數(shù)似然比之后,可W構(gòu)建所述輸入 聲音數(shù)據(jù)的特征矩陣: 陽13引
      (化)
      [0136] 其中,Z表示輸入聲音數(shù)據(jù)的特征矩陣,t表示輸入聲音數(shù)據(jù)帖的位序,且t = (1,2…腳,I表示輸入聲音數(shù)據(jù)的對(duì)數(shù)似然比。
      [0137] 步驟S304 :對(duì)所述輸入聲音數(shù)據(jù)的特征矩陣對(duì)應(yīng)的相似矩陣進(jìn)行拉普拉斯特征 提取,得到拉普拉斯特征矩陣和特征值,將最小的預(yù)設(shè)個(gè)數(shù)的非零特征值對(duì)應(yīng)的特征向量 作為所述輸入聲音數(shù)據(jù)的低維表征數(shù)據(jù)。
      [0138] 在具體實(shí)施中,對(duì)輸入聲音數(shù)據(jù)的特征矩陣進(jìn)行拉普拉斯矩陣特征提取可W包 括:
      [0139] 首先構(gòu)建相似圖形G,其中,例如使用k最近鄰化-Nearest Nei曲bor,KNN)分類 算法,將每個(gè)點(diǎn)最近的K個(gè)點(diǎn)連上邊,其中,K為預(yù)先設(shè)定的值。
      [0140] 接著,確定相似圖形G點(diǎn)與點(diǎn)之間的權(quán)重,例如選用熱核函數(shù)來確定,如果點(diǎn)i和 點(diǎn)j相連,那么它們關(guān)系的權(quán)重設(shè)定為: 陽14。
      (巧) 陽1創(chuàng)其中Wi i表示點(diǎn)i和點(diǎn)j之間的權(quán)重。 陽14引另外一種可選的簡化設(shè)定是如果點(diǎn)i,j相連則Wi,為1,否則W 1,為0。
      [0144] 然后,計(jì)算拉普拉斯矩陣L的特征向量與特征值:
      [0145] Ly=入 Dy (13) 陽146] 其中,D是對(duì)角矩陣,且滿足: 陽147] Dii =Σ jWji (14)
      [0148] L = D-W (15)
      [0149] 最后,使用最小的預(yù)設(shè)個(gè)數(shù)個(gè)非零特征值對(duì)應(yīng)的特征向量(分塊矩陣)U,作為降 維后的所述聲音訓(xùn)練數(shù)據(jù)的低維表征數(shù)據(jù)。其中,所述特征向量U中的非零特征值的個(gè)數(shù) 可W根據(jù)實(shí)際的需要進(jìn)行設(shè)置。
      [0150] 圖4示出了本發(fā)明實(shí)施例中的一種語音識(shí)別裝置的結(jié)構(gòu)示意圖。如圖4所示的語 音識(shí)別裝置400,可W包括數(shù)據(jù)處理單元401、幾何重塑單元402、計(jì)算單元403和語音識(shí)別 單元404,其中: 陽151] 數(shù)據(jù)處理單元401,適于將采集到的輸入聲音信號(hào)進(jìn)行處理,得到輸入聲音數(shù)據(jù)。 陽152] 幾何重塑單元402,適于對(duì)所述輸入聲音數(shù)據(jù)進(jìn)行幾何重塑,得到降維后的所述輸 入聲音數(shù)據(jù)的低維表征數(shù)據(jù)。
      [0153] 在具體實(shí)施中,所述幾何重塑單元402適于獲取所述輸入聲音數(shù)據(jù)的MFCC,及其 對(duì)應(yīng)的MFCC頻帶數(shù)量的信息;將所獲取的所述輸入聲音數(shù)據(jù)的MFCC劃分成不同的時(shí)隙,并 根據(jù)所得到的MFCC頻帶數(shù)量的信息,計(jì)算得出所述輸入聲音數(shù)據(jù)的對(duì)數(shù)似然比;采用計(jì)算 得出的所述輸入聲音數(shù)據(jù)的對(duì)數(shù)似然比,構(gòu)建所述輸入聲音數(shù)據(jù)的特征矩陣;構(gòu)建所述輸 入聲音數(shù)據(jù)的特征矩陣對(duì)應(yīng)的相似矩陣;對(duì)所述輸入聲音數(shù)據(jù)的特征矩陣對(duì)應(yīng)的相似矩陣 進(jìn)行拉普拉斯特征提取,得到拉普拉斯特征矩陣和特征值,將最小的預(yù)設(shè)個(gè)數(shù)的非零特征 值對(duì)應(yīng)的特征向量作為所述輸入聲音數(shù)據(jù)的低維表征數(shù)據(jù)。
      [0154] 計(jì)算單元403,適于采用所述輸入聲音數(shù)據(jù)的低維表征數(shù)據(jù)與預(yù)設(shè)的降維后的聲 音訓(xùn)練數(shù)據(jù)的低維表征數(shù)據(jù),計(jì)算得出所述輸入聲音數(shù)據(jù)的VAD分值,所述聲音訓(xùn)練數(shù)據(jù) 的低維數(shù)據(jù)表征通過對(duì)所述聲音訓(xùn)練數(shù)據(jù)進(jìn)行幾何重塑得到。
      [01巧]在具體實(shí)施中,如圖4所示的語音識(shí)別裝置還可W包括訓(xùn)練單元404,其中:
      [0156] 訓(xùn)練單元404,適于通過對(duì)所述聲音訓(xùn)練數(shù)據(jù)進(jìn)行幾何重塑得到所述聲音訓(xùn)練數(shù) 據(jù)的低維數(shù)據(jù)表征,包括:采用預(yù)設(shè)的純凈語音數(shù)據(jù)庫、非穩(wěn)態(tài)噪聲數(shù)據(jù)庫和穩(wěn)態(tài)噪聲數(shù)據(jù) 庫,分別得到純凈語音數(shù)據(jù)的MFCC及其對(duì)應(yīng)的MFCC頻帶數(shù)量的信息、非穩(wěn)態(tài)噪聲數(shù)據(jù)的 MFCC及其對(duì)應(yīng)的MFCC頻帶數(shù)量的信息,W及穩(wěn)態(tài)噪聲信息對(duì)應(yīng)的MFCC及其對(duì)應(yīng)的MFCC頻 帶數(shù)量的信息;根據(jù)得到純凈語音數(shù)據(jù)、非穩(wěn)態(tài)噪聲數(shù)據(jù),W及穩(wěn)態(tài)噪聲信息對(duì)應(yīng)的MFCC 及其對(duì)應(yīng)的MFCC頻帶數(shù)量的信息,分別得到第一、第二、第Ξ、第四和第五聲音數(shù)據(jù)訓(xùn)練集 的MFCC及其對(duì)應(yīng)的MFCC頻帶數(shù)量的信息;將所述第一、第二、第Ξ、第四和第五聲音數(shù)據(jù)訓(xùn) 練集的MFCC分別劃分成為不同的時(shí)隙,并根據(jù)所得到的第一、第二、第Ξ、第四和第五聲音 數(shù)據(jù)訓(xùn)練集的MFCC及對(duì)應(yīng)的MFCC頻帶數(shù)量的信息,分別計(jì)算得出所述第一、第二、第Ξ、第 四和第五聲音數(shù)據(jù)訓(xùn)練集的對(duì)數(shù)似然比;根據(jù)計(jì)算得出的所述第一、第二、第Ξ、第四和第 五聲音數(shù)據(jù)訓(xùn)練集的對(duì)數(shù)似然比,分別計(jì)算得出第一、第二、第Ξ、第四和第五聲音數(shù)據(jù)訓(xùn) 練集的特征矩陣;為第一、第二、第Ξ、第四和第五聲音數(shù)據(jù)訓(xùn)練集的特征矩陣分配相應(yīng)的 權(quán)重并相加,得到所述聲音訓(xùn)練數(shù)據(jù)的相似矩陣;對(duì)所述聲音訓(xùn)練數(shù)據(jù)的相似矩陣進(jìn)行拉 普拉斯特征提取,得到拉普拉斯特征矩陣和特征值,將最小的預(yù)設(shè)個(gè)數(shù)的非零特征值對(duì)應(yīng) 的特征向量作為所述聲音訓(xùn)練數(shù)據(jù)的低維表征數(shù)據(jù)。 陽157] 語音識(shí)別單元405,適于當(dāng)確定計(jì)算得出的VAD分值大于預(yù)設(shè)的分值闊值時(shí),對(duì)所 述聲音數(shù)據(jù)進(jìn)行語音識(shí)別。
      [0158] 本領(lǐng)域普通技術(shù)人員可W理解上述實(shí)施例的各種方法中的全部或部分步驟是可 w通過程序來指令相關(guān)的硬件來完成,該程序可w存儲(chǔ)于計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中,存儲(chǔ)介 質(zhì)可W包括:ROM、RAM、磁盤或光盤等。 陽159] W上對(duì)本發(fā)明實(shí)施例的方法及系統(tǒng)做了詳細(xì)的介紹,本發(fā)明并不限于此。任何本 領(lǐng)域技術(shù)人員,在不脫離本發(fā)明的精神和范圍內(nèi),均可作各種更動(dòng)與修改,因此本發(fā)明的保 護(hù)范圍應(yīng)當(dāng)W權(quán)利要求所限定的范圍為準(zhǔn)。
      【主權(quán)項(xiàng)】
      1. 一種語音識(shí)別方法,其特征在于,包括: 將采集到的輸入聲音信號(hào)進(jìn)行處理,得到輸入聲音數(shù)據(jù); 對(duì)所述輸入聲音數(shù)據(jù)進(jìn)行幾何重塑,得到降維后的所述輸入聲音數(shù)據(jù)的低維表征數(shù) 據(jù); 采用所述輸入聲音數(shù)據(jù)的低維表征數(shù)據(jù)與預(yù)設(shè)的降維后的聲音訓(xùn)練數(shù)據(jù)的低維表征 數(shù)據(jù),計(jì)算得出所述輸入聲音數(shù)據(jù)的VAD分值,所述聲音訓(xùn)練數(shù)據(jù)的低維數(shù)據(jù)表征通過對(duì) 所述聲音訓(xùn)練數(shù)據(jù)進(jìn)行幾何重塑得到; 當(dāng)確定計(jì)算得出的VAD分值大于預(yù)設(shè)的分值闊值時(shí),對(duì)所述聲音數(shù)據(jù)進(jìn)行語音識(shí)別。2. 根據(jù)權(quán)利要求1所述的語音識(shí)別方法,其特征在于,所述對(duì)所述聲音數(shù)據(jù)進(jìn)行幾何 重塑,得到所述聲音數(shù)據(jù)的低維表征數(shù)據(jù),包括: 獲取所述輸入聲音數(shù)據(jù)的MFCC,及其對(duì)應(yīng)的MFCC頻帶數(shù)量的信息; 將所獲取的所述輸入聲音數(shù)據(jù)的MFCC劃分成不同的時(shí)隙,并根據(jù)所得到的MFCC頻帶 數(shù)量的信息,計(jì)算得出所述輸入聲音數(shù)據(jù)的對(duì)數(shù)似然比; 采用計(jì)算得出的所述輸入聲音數(shù)據(jù)的對(duì)數(shù)似然比,構(gòu)建所述輸入聲音數(shù)據(jù)的特征矩 陣; 構(gòu)建所述輸入聲音數(shù)據(jù)的特征矩陣對(duì)應(yīng)的相似矩陣; 對(duì)所述輸入聲音數(shù)據(jù)的特征矩陣對(duì)應(yīng)的相似矩陣進(jìn)行拉普拉斯特征提取,得到拉普拉 斯特征矩陣和特征值,將最小的預(yù)設(shè)個(gè)數(shù)的非零特征值對(duì)應(yīng)的特征向量作為所述輸入聲音 數(shù)據(jù)的低維表征數(shù)據(jù)。3. 根據(jù)權(quán)利要求1所述的語音識(shí)別方法,其特征在于,所述聲音訓(xùn)練數(shù)據(jù)的低維數(shù)據(jù) 表征通過對(duì)所述聲音訓(xùn)練數(shù)據(jù)進(jìn)行幾何重塑得到,包括: 采用預(yù)設(shè)的純凈語音數(shù)據(jù)庫、非穩(wěn)態(tài)噪聲數(shù)據(jù)庫和穩(wěn)態(tài)噪聲數(shù)據(jù)庫,分別得到純凈語 音數(shù)據(jù)的MFCC及其對(duì)應(yīng)的MFCC頻帶數(shù)量的信息、非穩(wěn)態(tài)噪聲數(shù)據(jù)的MFCC及其對(duì)應(yīng)的MFCC 頻帶數(shù)量的信息,W及穩(wěn)態(tài)噪聲信息對(duì)應(yīng)的MFCC及其對(duì)應(yīng)的MFCC頻帶數(shù)量的信息; 根據(jù)得到純凈語音數(shù)據(jù)、非穩(wěn)態(tài)噪聲數(shù)據(jù),W及穩(wěn)態(tài)噪聲信息對(duì)應(yīng)的MFCC及其對(duì)應(yīng)的 MFCC頻帶數(shù)量的信息,分別得到第一、第二、第S、第四和第五聲音數(shù)據(jù)訓(xùn)練集的MFCC及其 對(duì)應(yīng)的MFCC頻帶數(shù)量的信息; 將所述第一、第二、第S、第四和第五聲音數(shù)據(jù)訓(xùn)練集的MFCC分別劃分成為不同的時(shí) 隙,并根據(jù)所得到的第一、第二、第S、第四和第五聲音數(shù)據(jù)訓(xùn)練集的MFCC及對(duì)應(yīng)的MFCC頻 帶數(shù)量的信息,分別計(jì)算得出所述第一、第二、第=、第四和第五聲音數(shù)據(jù)訓(xùn)練集的對(duì)數(shù)似 然比; 根據(jù)計(jì)算得出的所述第一、第二、第=、第四和第五聲音數(shù)據(jù)訓(xùn)練集的對(duì)數(shù)似然比,分 別計(jì)算得出第一、第二、第=、第四和第五聲音數(shù)據(jù)訓(xùn)練集的特征矩陣; 為第一、第二、第=、第四和第五聲音數(shù)據(jù)訓(xùn)練集的特征矩陣分配相應(yīng)的權(quán)重并相加, 得到所述聲音訓(xùn)練數(shù)據(jù)的相似矩陣; 對(duì)所述聲音訓(xùn)練數(shù)據(jù)的相似矩陣進(jìn)行拉普拉斯特征提取,得到拉普拉斯特征矩陣和特 征值,將最小的預(yù)設(shè)個(gè)數(shù)的非零特征值對(duì)應(yīng)的特征向量作為所述聲音訓(xùn)練數(shù)據(jù)的低維表征 數(shù)據(jù)。4. 根據(jù)權(quán)利要求2或3所述的語音識(shí)別方法,其特征在于,采用如下的公式計(jì)算對(duì)數(shù)似 然比,包括:其中,I表示對(duì)數(shù)似然比,XS表示MFCC對(duì)應(yīng)的MFCC頻帶數(shù)量,PriSNR表 示先噪聲比,PostSNR表示后噪聲比。5. 根據(jù)權(quán)利要求4所述的語音識(shí)別方法,其特征在于,所述采用計(jì)算得出的所述輸入 聲音數(shù)據(jù)的對(duì)數(shù)似然比,得到所述輸入聲音數(shù)據(jù)的特征矩陣,包括:其中,X表示特征矩陣,t表示聲音數(shù)據(jù)帖的位序,且t= (1,2...腳,I表示對(duì)數(shù)似然 比。6. 根據(jù)權(quán)利要求5所述的語音識(shí)別方法,其特征在于,所述為第一、第二、第=、第四和 第五聲音數(shù)據(jù)訓(xùn)練集的特征矩陣分配相應(yīng)的權(quán)重并相加,得到所述聲音訓(xùn)練數(shù)據(jù)的相似矩 陣,包括:其中,T表示所述聲音訓(xùn)練數(shù)據(jù)的相似矩陣,i、j分別表示所述聲音訓(xùn)練數(shù)據(jù)集的位 序,P表示計(jì)算所述聲音訓(xùn)練數(shù)據(jù)的相似矩陣的持續(xù)時(shí)間,且:其中,X(i)表示第i個(gè)聲音數(shù)據(jù)訓(xùn)練集的特征矩陣,X(j)表示第j個(gè)聲音數(shù)據(jù)訓(xùn)練集 的特征矩陣。7. 根據(jù)權(quán)利要求6所述的語音識(shí)別方法,其特征在于,所述計(jì)算輸入聲音數(shù)據(jù)特征矩 陣的特征向量與所述聲音數(shù)據(jù)訓(xùn)練集特征矩陣的特征向量之間的似然距離,包括:其中,解表示所述似然距離,S0J)表示所述輸入聲音數(shù)據(jù)特征矩陣的特征向量的光譜 靈敏度,S (K)表示所述聲音數(shù)據(jù)訓(xùn)練集特征矩陣的特征向量的光譜靈敏度,0。、〇><分別表 示S扣)、S化)的預(yù)測(cè)誤差。8. 根據(jù)權(quán)利要求7所述的語音識(shí)別方法,其特征在于,所述計(jì)算得出所述輸入聲音數(shù) 據(jù)的VAD分值,包括:其中,VAD score表示所述輸入聲音數(shù)據(jù)的VAD分值,f(q))表示為具有數(shù)個(gè)預(yù)設(shè)闊值的 比較函數(shù)。9. 一種語音識(shí)別裝置,其特征在于,包括: 數(shù)據(jù)處理單元,適于將采集到的輸入聲音信號(hào)進(jìn)行處理,得到輸入聲音數(shù)據(jù); 幾何重塑單元,適于對(duì)所述輸入聲音數(shù)據(jù)進(jìn)行幾何重塑,得到降維后的所述輸入聲音 數(shù)據(jù)的低維表征數(shù)據(jù); 計(jì)算單元,適于采用所述輸入聲音數(shù)據(jù)的低維表征數(shù)據(jù)與預(yù)設(shè)的降維后的聲音訓(xùn)練數(shù) 據(jù)的低維表征數(shù)據(jù),計(jì)算得出所述輸入聲音數(shù)據(jù)的VAD分值,所述聲音訓(xùn)練數(shù)據(jù)的低維數(shù) 據(jù)表征通過對(duì)所述聲音訓(xùn)練數(shù)據(jù)進(jìn)行幾何重塑得到; 語音識(shí)別單元,適于當(dāng)確定計(jì)算得出的VAD分值大于預(yù)設(shè)的分值闊值時(shí),對(duì)所述聲音 數(shù)據(jù)進(jìn)行語音識(shí)別。10. 根據(jù)權(quán)利要求9所述的語音識(shí)別裝置,其特征在于,所述幾何重塑單元適于獲取所 述輸入聲音數(shù)據(jù)的MFCC,及其對(duì)應(yīng)的MFCC頻帶數(shù)量的信息;將所獲取的所述輸入聲音數(shù)據(jù) 的MFCC劃分成不同的時(shí)隙,并根據(jù)所得到的MFCC頻帶數(shù)量的信息,計(jì)算得出所述輸入聲音 數(shù)據(jù)的對(duì)數(shù)似然比;采用計(jì)算得出的所述輸入聲音數(shù)據(jù)的對(duì)數(shù)似然比,構(gòu)建所述輸入聲音 數(shù)據(jù)的特征矩陣;構(gòu)建所述輸入聲音數(shù)據(jù)的特征矩陣對(duì)應(yīng)的相似矩陣;對(duì)所述輸入聲音數(shù) 據(jù)的特征矩陣對(duì)應(yīng)的相似矩陣進(jìn)行拉普拉斯特征提取,得到拉普拉斯特征矩陣和特征值, 將最小的預(yù)設(shè)個(gè)數(shù)的非零特征值對(duì)應(yīng)的特征向量作為所述輸入聲音數(shù)據(jù)的低維表征數(shù)據(jù)。11. 根據(jù)權(quán)利要求9所述的語音識(shí)別裝置,其特征在于,還包括訓(xùn)練單元,適于通過對(duì) 所述聲音訓(xùn)練數(shù)據(jù)進(jìn)行幾何重塑得到所述聲音訓(xùn)練數(shù)據(jù)的低維數(shù)據(jù)表征,包括: 采用預(yù)設(shè)的純凈語音數(shù)據(jù)庫、非穩(wěn)態(tài)噪聲數(shù)據(jù)庫和穩(wěn)態(tài)噪聲數(shù)據(jù)庫,分別得到純凈語 音數(shù)據(jù)的MFCC及其對(duì)應(yīng)的MFCC頻帶數(shù)量的信息、非穩(wěn)態(tài)噪聲數(shù)據(jù)的MFCC及其對(duì)應(yīng)的MFCC 頻帶數(shù)量的信息,W及穩(wěn)態(tài)噪聲信息對(duì)應(yīng)的MFCC及其對(duì)應(yīng)的MFCC頻帶數(shù)量的信息; 根據(jù)得到純凈語音數(shù)據(jù)、非穩(wěn)態(tài)噪聲數(shù)據(jù),W及穩(wěn)態(tài)噪聲信息對(duì)應(yīng)的MFCC及其對(duì)應(yīng)的 MFCC頻帶數(shù)量的信息,分別得到第一、第二、第S、第四和第五聲音數(shù)據(jù)訓(xùn)練集的MFCC及其 對(duì)應(yīng)的MFCC頻帶數(shù)量的信息; 將所述第一、第二、第S、第四和第五聲音數(shù)據(jù)訓(xùn)練集的MFCC分別劃分成為不同的時(shí) 隙,并根據(jù)所得到的第一、第二、第S、第四和第五聲音數(shù)據(jù)訓(xùn)練集的MFCC及對(duì)應(yīng)的MFCC頻 帶數(shù)量的信息,分別計(jì)算得出所述第一、第二、第=、第四和第五聲音數(shù)據(jù)訓(xùn)練集的對(duì)數(shù)似 然比; 根據(jù)計(jì)算得出的所述第一、第二、第=、第四和第五聲音數(shù)據(jù)訓(xùn)練集的對(duì)數(shù)似然比,分 別計(jì)算得出第一、第二、第=、第四和第五聲音數(shù)據(jù)訓(xùn)練集的特征矩陣; 為第一、第二、第=、第四和第五聲音數(shù)據(jù)訓(xùn)練集的特征矩陣分配相應(yīng)的權(quán)重并相加, 得到所述聲音訓(xùn)練數(shù)據(jù)的相似矩陣; 對(duì)所述聲音訓(xùn)練數(shù)據(jù)的相似矩陣進(jìn)行拉普拉斯特征提取,得到拉普拉斯特征矩陣和特 征值,將最小的預(yù)設(shè)個(gè)數(shù)的非零特征值對(duì)應(yīng)的特征向量作為所述聲音訓(xùn)練數(shù)據(jù)的低維表征 數(shù)據(jù)。
      【文檔編號(hào)】G10L15/14GK105989838SQ201510051345
      【公開日】2016年10月5日
      【申請(qǐng)日】2015年1月30日
      【發(fā)明人】孫廷瑋, 林福輝
      【申請(qǐng)人】展訊通信(上海)有限公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1