基于車聯(lián)網(wǎng)的語音識別方法

文檔序號：10657694閱讀：850來源：國知局

基于車聯(lián)網(wǎng)的語音識別方法
【專利摘要】本發(fā)明提供了一種基于車聯(lián)網(wǎng)的語音識別方法，該方法包括：對帶噪語音信號進行頻域分離，以獲得純凈的語音信號；選擇待端點檢測的語音信號、將檢測到的有效語音段保存為語音文件，選擇多個語音文件導入車載語音識別系統(tǒng)中識別。本發(fā)明提出了一種基于車聯(lián)網(wǎng)的語音識別方法，減弱了背景噪聲對車載語音識別系統(tǒng)的干擾，有效地改善了在噪聲環(huán)境下車載語音識別系統(tǒng)的性能。
【專利說明】
基于車聯(lián)網(wǎng)的語音識別方法
技術(shù)領域
[0001] 本發(fā)明設及語音信號處理，特別設及一種基于車聯(lián)網(wǎng)的語音識別方法。
【背景技術(shù)】
[0002] 語音識別是通過利用識別算法讓機器能夠準確地識別出人類所發(fā)出的語音命令并執(zhí)行相應的操作。目前，隨著語音信號處理技術(shù)的發(fā)展，一些較成熟的語音識別系統(tǒng)相繼誕生。然而在車載現(xiàn)場環(huán)境下使用時，其識別性能會急劇下降。假設一個孤立詞識別系統(tǒng)是由純凈語音訓練得到的，那么它在相對安靜環(huán)境下進行語音識別，其識別率可達到100%，但是如果在W90Km/h行駛的汽車內(nèi)，其識別率下降到了30%。從上述對比數(shù)據(jù)中可W發(fā)現(xiàn)，在行駛中的車輛等噪聲環(huán)境下語音識別系統(tǒng)性能無法滿足人們的需求。在真實環(huán)境中，語音信號不可避免地受到各種外部噪聲的干擾，而運些噪聲的存在會使得帶噪語音與原先由純凈語音訓練出的模型之間失配，從而影響車載語音識別系統(tǒng)性能。

【發(fā)明內(nèi)容】

[0003] 為解決上述現(xiàn)有技術(shù)所存在的問題，本發(fā)明提出了一種基于車聯(lián)網(wǎng)的語音識別方法，包括：
[0004] 對帶噪語音信號進行頻域分離，W獲得純凈的語音信號;選擇待端點檢測的語音信號，將檢測到的有效語音段保存為語音文件，選擇多個語音文件導入車載語音識別系統(tǒng) 中識別。
[0005] 優(yōu)選地，所述對帶噪語音信號進行頻域分離，W獲得純凈的語音信號，進一步包括：
[0006] 利用短時FFT將帶噪語音信號XI，a = l，2)從時域變換到頻域，生成LXM點采樣信號矩陣，其中L表示FFT變換后頻域下的頻點個數(shù)，M表示對信號加窗分帖后的帖數(shù);然后實現(xiàn)混合信號的頻域分離，對提取出的頻域分量進行FFT逆變換得到時域獨立成分;最后對獲得的Mni或特征和其對應的一階差分系數(shù)進行線性組合，并將組合后的特征用于后續(xù)識別過程；
[0007] 其中所述短時FFT將帶噪語音信號Xi從時域變換到頻域，進一步包括：
[000引對語音信號加窗，并讓該窗在時間軸上平移，卷積混合過程描述為：
[0009]
[0010] 其中P為卷積混合濾波器階數(shù)，au為第j個聲源到第i個傳感器的沖激響應，N為聲源數(shù)量，Sj為源信號;對上式進行短時FFT變換，得到的信號表示為：
[0011]
[0012]其中，win表示在預處理過程中所加的窗口函數(shù)，T為窗口函數(shù)的位置;fs為采樣頻率，f為離散頻點，其取值為f = fsl/L;l = 0，l，…レl;
[001引對輸入的語音進行短時FFT變換之后，將時域采樣信號Xi(t)變換到時頻域，得到一個L*M點的采樣信號矩陣：
[0014]
[0015] 將同頻點fk(kG[0，L-l])的Xi(fk)作為該頻點進行獨立成分提取的新采樣數(shù)據(jù)，對新采樣數(shù)據(jù)進行頻域分離矩陣w(f O的估計，進而實現(xiàn)對信號頻域分量Yi (f O的提取;對各頻點進行頻域分離得到短時頻域分量Yi(f，T)，再消除模糊性后得到化(f，T)，作為對純凈頻域源信號Si(f，T)的逼近；
[0016] 所述混合信號的頻域分離，進一步包括：
[0017] 對Ui (f，T)進行短時FFT逆變換，即按列對Ui (f，T)時頻矩陣求逆離散FFT運算，得到在不同時窗位置Tm，（m = 0，l，. . .M-1)上的時間信號Ui(f，Tm):
[0018；
[0019] 然后按Tm從小到大的順序?qū)i(f ,Tm)進行拼接，得到源的完整時間信號，即：
[0020] Ui(t)=Ui(t,T〇)+Ui(t-Tl,T：i) + ...+Ui(t-TM-l,TM-l)
[0021] 如果進行拼接處理時，相鄰窗口內(nèi)的時間信號出現(xiàn)部分重疊，則對重疊區(qū)域的數(shù) 據(jù)采用相加求平均的處理方法。
[0022] 本發(fā)明相比現(xiàn)有技術(shù)，具有W下優(yōu)點：
[0023] 本發(fā)明提出了一種基于車聯(lián)網(wǎng)的語音識別方法，減弱了背景噪聲對車載語音識別系統(tǒng)的干擾，有效地改善了在噪聲環(huán)境下車載語音識別系統(tǒng)的性能。
【附圖說明】
[0024] 圖1是根據(jù)本發(fā)明實施例的基于車聯(lián)網(wǎng)的語音識別方法的流程圖。
【具體實施方式】
[0025] 下文與圖示本發(fā)明原理的附圖一起提供對本發(fā)明一個或者多個實施例的詳細描述。結(jié)合運樣的實施例描述本發(fā)明，但是本發(fā)明不限于任何實施例。本發(fā)明的范圍僅由權(quán)利要求書限定，并且本發(fā)明涵蓋諸多替代、修改和等同物。在下文描述中闡述諸多具體細節(jié)W 提供對本發(fā)明的透徹理解。出于示例的目的而提供運些細節(jié)，并且無運些具體細節(jié)中的一些或者所有細節(jié)也可W根據(jù)權(quán)利要求書實現(xiàn)本發(fā)明。
[0026] 本發(fā)明的一方面提供了一種基于車聯(lián)網(wǎng)的語音識別方法。圖1是根據(jù)本發(fā)明實施例的基于車聯(lián)網(wǎng)的語音識別方法流程圖。
[0027] 本發(fā)明首先在車載語音識別系統(tǒng)的前端處理過程中增加了成分分析，對帶噪語音信號進行頻域分離從而獲得純凈的語音信號;對所獲得的純凈語音信號進行端點檢測；最后提取所獲語音段的特征參數(shù)，并導入車載語音識別系統(tǒng)中進行識別。
[0028] 車載語音識別系統(tǒng)包括四個單元。卷積混合單元，進行語音信號與噪聲的仿真卷積混合，W獲得帶噪語音信號；分離單元:對帶噪語音信號進行頻域分離，W獲得純凈的語音信號;端點檢測單元，采用語音端點檢測算法，并選擇待檢測的語音信號、調(diào)整端點檢測參數(shù)、并在檢測后將檢測到的有效語音段保存為語音文件。語音識別單元，用于語音識別、顯示識別結(jié)果和計算識別率，可W選擇多個語音文件導入車載語音識別系統(tǒng)中識別。
[0029] 本發(fā)明利用基于動態(tài)峰度和能量雙闊值的端點檢測算法。首先計算出語音信號的滑動窗峰度值，記為Kt(n)，并同時記錄下中間值S2(n)，其中n是語音信號的長度。利用公式 th=max化t)/10來計算整個語音信號的峰度闊值。
[0030] 將n記為起點start,在n不斷遞增的過程中，開始向后檢索，若n為空白段，則判斷空白段樣本點數(shù)nc與空白段所允許的最大樣本點常數(shù)maxnc，W及語音段樣本點數(shù)SC與語音段所允許的最小樣本點常數(shù)minsc ;僅當滿足nc〉maxnc并且sc>minsc，輸入語音段
[St曰rt,St曰rt+sc+nc-1]C
[0031] 考慮到混合系統(tǒng)對源信號產(chǎn)生的延遲和卷積效應，本發(fā)明采用W下方法提取相對純凈的語音特征參數(shù)。首先利用短時FF門尋帶噪語音信號XI，a = l，2)從時域變換到頻域，生成LXM點采樣信號矩陣，其中L表示FFT變換后頻域下的頻點個數(shù)，M表示對信號加窗分帖后的帖數(shù);然后實現(xiàn)混合信號的頻域分離，對提取出的頻域分量進行FFT逆變換得到時域獨立成分;最后對獲得的MHi或特征和其對應的一階差分系數(shù)進行線性組合，并將組合后的特征用于后續(xù)識別過程中。在特征提取前端，獨立成分分析可W有效地減少噪聲對源語音信號的干擾，使得在卷積噪聲環(huán)境下所提取的語音特征參數(shù)也能較好地反映語音信號的本質(zhì) 特征。
[0032] 本發(fā)明對語音信號進行FFT變換時是逐段進行的。對語音信號加窗，并讓該窗在時間軸上平移。卷積混合過程可W描述為：
[0033]
[0034] 其中P為卷積混合濾波器階數(shù)，曰1功第j個聲源到第i個傳感器的沖激響應，N為聲源數(shù)量。對上式進行短時FFT變換，所得信號可W表示為：
[0035]
1;:=1，2; T=To, ..Tm-I
[0036] 具甲，win巧不巧頂處埋巧巧甲所加的簡U幽數(shù)，T為窗口函數(shù)的位置；fS為采樣頻率，f為離散頻點，其取值為f = fsl/L; 1 = 0，1，…心！。
[0037] 對輸入的語音進行短時FFT變換之后，將時域采樣信號xi(t)變換到時頻域，得到一個L*M點的采樣信號矩陣：
[00；3 引
[0039] 將同頻點fk(kG[0，L-l])的Xi(fk)作為該頻點進行獨立成分提取的新采樣數(shù)據(jù)，對新采樣數(shù)據(jù)進行頻域分離矩陣W(fk)的估計，進而實現(xiàn)對信號頻域分量Yi(fk)的提取。
[0040] 其中獨立成分分析算法對各頻點進行頻域分離，得到了短時頻域分量Yi(f，T)，再消除幅值和排序模糊性之后得到化(f，T)，它們是對純凈頻域源信號Si(f，T)的逼近。
[0041] 接下來就是將信號從頻域轉(zhuǎn)換到時域，則對化(f，T)進行短時FFT逆變換，即按列對化(f，T)時頻矩陣求逆離散FFT運算，得到在不同時窗位置（而，111 = 0，1，...1-1)上的時間 f曰號Ui(f , Tm);
[0042]
[0043] 然后按Tm從小到大的順序?qū)(f ,Tm)進行拼接，得到源的完整時間信號，即：
[0044] Ui(t；)=Ui(t,T〇；)+Ui(t-Tl,T：i；) + ...+Ui(t-TM-l,TM-l)
[0045] 如果進行拼接處理時，相鄰窗口內(nèi)的時間信號出現(xiàn)部分重疊，則對重疊區(qū)域的數(shù) 據(jù)采用相加求平均的處理方法。
[0046] 為了提取語音M化參數(shù)，首先對經(jīng)過頻域去卷積的處理的語音信號進行預加重處理，再使其通過M化濾波器組，對每組輸出結(jié)果做對數(shù)運算后再進行DCT變換，最后輸出即為語音信號的MFL域特征。
[0047] 此外，為了獲得語音信號的動態(tài)信息，算法對提取出的M化參數(shù)進行了差分運算，計算過程如下：
[004引
[0049] 其中R是ffiL系數(shù)的階數(shù)，d反映信號的動態(tài)特征，a表示加權(quán)因子，K為進行一階差分求取的帖的長度，Cm表示信號倒譜。經(jīng)過上式計算可W獲得與MHi或特征參數(shù)階數(shù)R相同的差分MEL參數(shù)。最后將所得MEL參數(shù)和差分MEL參數(shù)進行組合得到2*R維的新組合特征作為語音信號特征矢量。
[0050] 其中，頻域去卷積處理是用于實現(xiàn)卷積混合信號的分離，具體包括，首先利用短時 FFT將時域下的卷積混合變換成頻域下的瞬時混合，然后采用獨立成分分析對其中每個頻點進行頻域分離。最后為了獲得時域下對應的語音信號，還通過短時FFT逆變換將頻域信號變換成時域信號。
[0051] 首先對采樣信號進行FFT變換，可得：
[0052] X(f)=A(f)S(f)
[0053] 其中，X(f)和S(f)分別表示采樣信號和源信號經(jīng)FFT變換后得到的頻域信號，A(f) 是各混合濾波器頻率響應構(gòu)成的矩陣，經(jīng)過FFT之后，語音信號從時域下的卷積混合變成了頻域下的瞬時混合。對每個頻點fk(k = 0，l，…，i-1)利用瞬時獨立成分分析算法進行頻域分離，如下所示
[0054] X化）=4化)5化），4 = 0，1，...心化為頻點序號
[0055] 經(jīng)過FFT變換后，采樣信號從時域變到頻域，同時也使得待處理數(shù)據(jù)的數(shù)值從實數(shù) 域變到了復數(shù)域，對于復數(shù)域的獨立成分分析，本發(fā)明引入了多變量數(shù)據(jù)的四維累加量矩陣，并對其做特征分解，從而實現(xiàn)對信號的分離。
[0056] 令;義=[義1，義2-別]為一組采樣信號，對其進行白化處理，即找到一個使得的自相關矩陣為單位矩陣I的線性變換矩陣B。其中，
[0化7] Z = Bx = BAs = Vs
[005引令M是NXN維的矩陣，則Z的四階累加矩陣為化(M)，其第ij個元素定義如下：
[0化9]
[0060]式中，Cu為四階累加量矩陣中第化，I)個位置的累加量子矩陣的第i行第j列的元素。mki為矩陣M中化，1)個元素。
[0061 ] 令V=[Vi，V2-Vn]，取矩陣M=[Mi，M2-Mp]，對每個Mi求取化(Mi),計算使得化(Mi)非對角元素平方和即yH化(Mi)V出現(xiàn)極小值的矩陣V，最后提取獨立成分u=W'x = vHbx
[0062] 對于幅值模糊性的出現(xiàn)，本發(fā)明通過幅值補償來消除運種幅值模糊性問題，補償算法如下：
[0063] 設W(fk)是對頻點fk對應的頻域采樣信號進行獨立成分提取過程中計算得到的分離矩陣，則所提取的各通道獨立成分構(gòu)成向量:Y(fk，T)，其中T表示滑動窗的位置，則該頻點上的混合矩陣A(fk)可計算為
[0064] A(fk)=W_i(fk)
[0065] 利用混合矩陣A(fk)對對應頻點獨立成分進行補償，計算如下：
[0066]
[0067] 其中Y^fk, T)表示幅值補償前所提取的第j通道頻域分量，Vu(fk，T)表示經(jīng)過幅值補償后第i個頻域采樣信號中實際上屬于第j通道頻域分量的部分。經(jīng)過幅值補償后，fk頻點對應的獨立成分會產(chǎn)生N個補償分量，經(jīng)過一系列的后續(xù)處理，最終可W得到N個對應于同一個信號源的純凈語音信號。最后從N個信號求取平均作為最終輸出信號。
[0068] 在對各頻點進行頻域分離后得到的對應頻點的分離結(jié)果是隨機分配的，所W在分離之后對各頻點的分離結(jié)果進行重新組合時可能會出現(xiàn)不同頻點分離信號對應不同的源信號。本發(fā)明采用一種基于相鄰頻點相關性檢測的方法來消除排序模糊性的問題。假設經(jīng) 獨立成分提取后得到的信號分量為Y(fk) =化化，T)，Y2(fk，T)]T
[0069] 則根據(jù)幅值補償公式可得
[0070]
[0071]
[0072]
[0073]
[0074] 式中d表示平均寬度。根據(jù)上式可得包絡函數(shù)3也，1)=[虹化，1)，1?2化，1)]。通過對相鄰頻點的包絡函數(shù)R(fk，T)和R(fk+1，T)進行匹配，并根據(jù)匹配結(jié)果對頻域分量進行排序。
[00巧]排序算法如下：
[0076] 首先根據(jù)選定的匹配方法計算包絡參數(shù)。定義相鄰頻點fk和fk+i之間的包絡參數(shù) Pij定義如下：
[0077]
[0078] 式中M表示在對信號進行加窗FFT變換后的語音帖數(shù)。
[0079] 根據(jù)所定義的包絡參數(shù)構(gòu)造調(diào)整矩陣P。對于相鄰頻點fk和fk+i的包絡系數(shù)m構(gòu)成一個如下調(diào)整矩陣
[0080；
[0081]根據(jù)調(diào)整矩陣判斷是否要進行重新排序。若P11+P22〉P12+P21，則表示相鄰頻點中，同源獨立成分位置一致，則無需調(diào)整。若P11+P22小于P12+P21，則表示相鄰頻點中，同源獨立成分的位置不一致，需要重新進行排序。若經(jīng)過幅值補償后的輸出成分為 [00 劇 V(fk) = [Vl(fk，T)，V2(fk，T)]T
[008；3 ] V 化+1) = [ Vl 化+1，T )，V2 ( f k+1，T ) ] T
[0084] 貝恃U用P對后一個頻點fk+i的V(fk+i)進行左乘，即
[0085] PXV(fk+i)^V(fk+i)
[0086] 綜上所述，本發(fā)明提出了一種基于車聯(lián)網(wǎng)的語音識別方法，減弱了背景噪聲對車載語音識別系統(tǒng)的干擾，有效地改善了在噪聲環(huán)境下車載語音識別系統(tǒng)的性能。
[0087] 顯然，本領域的技術(shù)人員應該理解，上述的本發(fā)明的各單元或各步驟可W用通用的計算系統(tǒng)來實現(xiàn)，它們可W集中在單個的計算系統(tǒng)上，或者分布在多個計算系統(tǒng)所組成的網(wǎng)絡上，可選地，它們可W用計算系統(tǒng)可執(zhí)行的程序代碼來實現(xiàn)，從而，可W將它們存儲在存儲系統(tǒng)中由計算系統(tǒng)來執(zhí)行。運樣，本發(fā)明不限制于任何特定的硬件和軟件結(jié)合。
[0088] 應當理解的是，本發(fā)明的上述【具體實施方式】僅僅用于示例性說明或解釋本發(fā)明的原理，而不構(gòu)成對本發(fā)明的限制。因此，在不偏離本發(fā)明的精神和范圍的情況下所做的任何修改、等同替換、改進等，均應包含在本發(fā)明的保護范圍之內(nèi)。此外，本發(fā)明所附權(quán)利要求旨在涵蓋落入所附權(quán)利要求范圍和邊界、或者運種范圍和邊界的等同形式內(nèi)的全部變化和修改例。
【主權(quán)項】
1. 一種基于車聯(lián)網(wǎng)的語音識別方法，其特征在于，包括：對帶噪語音信號進行頻域分離，以獲得純凈的語音信號;選擇待端點檢測的語音信號，將檢測到的有效語音段保存為語音文件，選擇多個語音文件導入車載語音識別系統(tǒng)中識別。2. 根據(jù)權(quán)利要求1所述的方法，其特征在于，所述對帶噪語音信號進行頻域分離，以獲得純凈的語音信號，進一步包括：利用短時FFT將帶噪語音信號Xl，（i = l，2)從時域變換到頻域，生成LXM點采樣信號矩陣，其中L表示FFT變換后頻域下的頻點個數(shù)，M表示對信號加窗分幀后的幀數(shù);然后實現(xiàn)混合信號的頻域分離，對提取出的頻域分量進行FFT逆變換得到時域獨立成分;最后對獲得的 MFL域特征和其對應的一階差分系數(shù)進行線性組合，并將組合后的特征用于后續(xù)識別過程；其中所述短時FFT將帶噪語音信號^從時域變換到頻域，進一步包括：對語音信號加窗，并讓該窗在時間軸上平移，卷積混合過程描述為：其中P為卷積混合濾波器階數(shù)，為第j個聲源到第i個傳感器的沖激響應，N為聲源數(shù) 量，為源信號;對上式進行短時FFT變換，得到的信號表示為：其中，win表示在預處理過程中所加的窗口函數(shù)，τ為窗口函數(shù)的位置;fs為采樣頻率，f 為離散頻點，其取值為f = f sI/L; I = O，1，…L-1; 對輸入的語音進行短時FFT變換之后，將時域采樣信號Xl(t)變換到時頻域，得到一個L* M點的采樣信號矩陣：將同頻點fk(ke[〇，L-l])的XJfk)作為該頻點進行獨立成分提取的新采樣數(shù)據(jù)，對新采樣數(shù)據(jù)進行頻域分離矩陣W(fk)的估計，進而實現(xiàn)對信號頻域分量Ydfk)的提取;對各頻點進行頻域分離得到短時頻域分量Y 1(Lt)，再消除模糊性后得到IMf，τ)，作為對純凈頻域源信號SKfj)的逼近；所述混合信號的頻域分離，進一步包括：對Ui (f，τ)進行短時FFT逆變換，即按列對Ui (f，τ)時頻矩陣求逆離散FFT運算，得到在不同時窗位置Tm，（m=0，l，· · ·Μ-1)上的時間信號m(f，τη):然后按Tm從小到大的順序?qū)(f，Tm)進行拼接，得到源的完整時間信號，即： Ui(t) = Ui(t, T〇)+Ui(t-Tl, Ti) + -"+Ui(t-TM-l, Tm-I) 如果進行拼接處理時，相鄰窗口內(nèi)的時間信號出現(xiàn)部分重疊，則對重疊區(qū)域的數(shù)據(jù)采用相加求平均的處理方法。
【文檔編號】G10L15/04GK106023984SQ201610280673
【公開日】2016年10月12日
【申請日】2016年4月28日
【發(fā)明人】謝欣霖, 陳波
【申請人】成都之達科技有限公司, 成都同創(chuàng)合科技有限公司, 成都同創(chuàng)合一科技有限公司

完整全部詳細技術(shù)資料下載