本發(fā)明涉及語音識(shí)別,具體涉及用于多維ai平臺(tái)的語音識(shí)別方法。
背景技術(shù):
1、隨著人工智能(ai)和語音識(shí)別技術(shù)的迅猛發(fā)展,語音交互已成為智能駕駛和車載系統(tǒng)中的重要功能。傳統(tǒng)的車載語音識(shí)別系統(tǒng)通常依賴單一麥克風(fēng)或簡(jiǎn)單的麥克風(fēng)陣列來捕捉駕駛員的語音指令,這些車載語音識(shí)別系統(tǒng)在安靜環(huán)境中表現(xiàn)良好,但在復(fù)雜的車內(nèi)環(huán)境中(如背景噪音、多個(gè)乘客對(duì)話等)語音識(shí)別效果往往不夠準(zhǔn)確可靠?,F(xiàn)有技術(shù)在處理多個(gè)智能座艙音頻數(shù)據(jù)時(shí),為了更好的進(jìn)行語音識(shí)別,往往需要將所得音頻數(shù)據(jù)轉(zhuǎn)換為mel語譜圖,但傳統(tǒng)的mel頻譜圖轉(zhuǎn)換方法對(duì)所有輸入語音采用相同的頻率轉(zhuǎn)換策略,缺乏對(duì)不同用戶語音特征的自適應(yīng)處理能力,這會(huì)導(dǎo)致在車載的多維ai平臺(tái)獲取的多用戶環(huán)境即車輛中的多個(gè)不同的用戶的語音混疊的情況中,mel頻譜圖的表現(xiàn)不夠理想,難以有效區(qū)分和處理多個(gè)語音數(shù)據(jù),使得語音識(shí)別的準(zhǔn)確性下降。
技術(shù)實(shí)現(xiàn)思路
1、為了解決車載語音識(shí)別系統(tǒng)在多用戶環(huán)境下語音識(shí)別效果不佳的問題,本發(fā)明的目的在于提供用于多維ai平臺(tái)的語音識(shí)別方法,所采用的技術(shù)方案具體如下:
2、獲取至少兩個(gè)音頻接收設(shè)備發(fā)送而來的語音數(shù)據(jù);
3、根據(jù)所述語音數(shù)據(jù)在不同頻率下的語音響應(yīng)程度來修正對(duì)應(yīng)的原始濾波器組,獲取修正后的濾波器組;
4、采用所述修正后的濾波器組來對(duì)應(yīng)生成所述語音數(shù)據(jù)的梅爾語譜圖;
5、將所述梅爾語譜圖均輸入至預(yù)設(shè)語音識(shí)別網(wǎng)絡(luò),獲取各所述語音數(shù)據(jù)所對(duì)應(yīng)的語音識(shí)別結(jié)果。
6、其中,根據(jù)所述語音數(shù)據(jù)在不同頻率下的語音響應(yīng)程度來修正對(duì)應(yīng)的原始濾波器組,獲取修正后的濾波器組包括:
7、對(duì)各所述語音數(shù)據(jù)分別進(jìn)行獨(dú)立成分分析來獲取獨(dú)立分量,將各所述語音數(shù)據(jù)和各所述獨(dú)立分量轉(zhuǎn)換為語譜圖;
8、基于所述語譜圖來獲取各所述語音數(shù)據(jù)在不同頻率下的語音響應(yīng)程度;
9、基于所述語音響應(yīng)程度來對(duì)應(yīng)修正所述原始濾波器組。
10、其中,基于所述語譜圖來獲取各所述語音數(shù)據(jù)在不同頻率下的語音響應(yīng)程度包括:
11、獲取各時(shí)刻下各所述語音數(shù)據(jù)的語音混亂程度;
12、根據(jù)對(duì)應(yīng)的所述語音混亂程度來對(duì)所述語音數(shù)據(jù)進(jìn)行時(shí)間段的劃分;
13、計(jì)算所述語音數(shù)據(jù)在不同頻率下的語音響應(yīng)程度。
14、其中,所述獲取各時(shí)刻下各所述語音數(shù)據(jù)的語音混亂程度包括:
15、獲取各所述語音數(shù)據(jù)中獨(dú)立分量的能量變化數(shù)據(jù);
16、根據(jù)所述能量變化數(shù)據(jù)選取對(duì)應(yīng)的待分析能量變化數(shù)據(jù);
17、分別采集所述待分析能量變化數(shù)據(jù)對(duì)應(yīng)的待分析頻率并對(duì)所述待分析頻率進(jìn)行排序;
18、基于排序過后的所述待分析頻率來分別對(duì)應(yīng)計(jì)算得出所述語音混亂程度。
19、其中,根據(jù)對(duì)應(yīng)的所述語音混亂程度來對(duì)所述語音數(shù)據(jù)進(jìn)行時(shí)間段的劃分包括:
20、獲取所述語音混亂程度關(guān)于第一時(shí)間的一階差分的均值,所述第一時(shí)間處于距離待檢驗(yàn)時(shí)間點(diǎn)預(yù)設(shè)時(shí)間鄰域的時(shí)間范圍內(nèi);
21、當(dāng)所述語音混亂程度關(guān)于待檢驗(yàn)時(shí)間點(diǎn)的一階差分大于所述均值時(shí),則所述待檢驗(yàn)時(shí)間點(diǎn)為時(shí)間分段點(diǎn),所述時(shí)間分段點(diǎn)用于將所述語音數(shù)據(jù)進(jìn)行所述時(shí)間段的劃分。
22、其中,計(jì)算所述語音數(shù)據(jù)在不同頻率下的語音響應(yīng)程度包括:
23、對(duì)第一時(shí)間分段內(nèi)的語音混亂程度的均值的相反數(shù)進(jìn)行歸一化來獲取歸一化結(jié)果,所述第一時(shí)間分段為所述時(shí)間段劃分后的任一時(shí)間分段;
24、獲取所述語音數(shù)據(jù)在所述第一時(shí)間分段內(nèi)在所述待分析頻率下的第一分段初始語音響應(yīng)程度;
25、將所述第一分段初始語音響應(yīng)程度與所述歸一化結(jié)果相乘來獲取所述語音數(shù)據(jù)在所述待分析頻率下的第一分段語音響應(yīng)程度;
26、重復(fù)上述步驟依次遍歷各所述時(shí)間分段和更換所述待分析頻率值即可獲取所述語音數(shù)據(jù)在各時(shí)間分段內(nèi)在不同頻率下的語音響應(yīng)程度。
27、其中,獲取所述語音數(shù)據(jù)在所述第一時(shí)間分段內(nèi)在所述待分析頻率下的第一分段初始語音響應(yīng)程度包括:
28、在第一時(shí)間分段內(nèi)部,獲取不同頻率下所述語音數(shù)據(jù)中獨(dú)立分量的能量,計(jì)算在待分析頻率下能量比值的最大值,所述最大值是所述待分析頻率為語音數(shù)據(jù)頻率的概率;
29、根據(jù)所述概率,所述語音數(shù)據(jù)在第一時(shí)間分段內(nèi)的能量來獲取所述語音數(shù)據(jù)在所述待分析頻率下的第一分段初始語音響應(yīng)程度。
30、其中,所述方法還包括:所述能量比值的求取過程包括:
31、獲取所述語音數(shù)據(jù)的獨(dú)立分量在第一頻率下的能量的最小值,所述第一頻率為使得所述語音數(shù)據(jù)的獨(dú)立分量的能量最小所對(duì)應(yīng)的頻率;
32、將所述最小值加上預(yù)設(shè)正數(shù)來獲取預(yù)設(shè)分母;
33、將所述語音數(shù)據(jù)的獨(dú)立分量在所述待分析頻率下的能量值與所述預(yù)設(shè)分母相除來獲取所述能量比值。
34、其中,所述方法還包括:根據(jù)所述概率,獲取所述語音數(shù)據(jù)在所述第一時(shí)間分段內(nèi)在所述待分析頻率下的第一分段初始語音響應(yīng)程度包括:
35、獲取在第一時(shí)間分段內(nèi)的不同時(shí)間下,所述待分析頻率所對(duì)應(yīng)的能量值與所述待分析頻率所對(duì)應(yīng)的概率的乘積之和;
36、將所述乘積之和除以所述第一時(shí)間分段的時(shí)長(zhǎng)來得到所述第一分段初始語音響應(yīng)程度。
37、其中,基于所述語音響應(yīng)程度來對(duì)應(yīng)修正所述原始濾波器組包括:
38、待修正原始濾波器的中心頻率為初始中心頻率,獲取所述待修正原始濾波器的前一個(gè)濾波器修正前的前一初始中心頻率以及修正后的前一修正中心頻率;
39、獲取所述前一初始中心頻率至所述初始中心頻率這一頻率區(qū)間內(nèi)的語音響應(yīng)程度均值,將所述語音響應(yīng)程度均值取相反數(shù)并進(jìn)行歸一化來獲取歸一化結(jié)果;
40、將所述初始中心頻率減去所述前一初始中心頻率來獲取差值結(jié)果;
41、將所述歸一化結(jié)果與所述差值結(jié)果相乘之后,再與所述前一修正中心頻率相加來得到所述待修正原始濾波器修正后的中心頻率。
42、本發(fā)明具有如下有益效果:
43、本發(fā)明通過多維ai平臺(tái)來識(shí)別車內(nèi)語音數(shù)據(jù),首先通過智能座艙搭建的音頻接收設(shè)備來采集座艙內(nèi)人員發(fā)出的語音數(shù)據(jù),音頻接收設(shè)備的數(shù)量為至少兩個(gè),這些語音數(shù)據(jù)往往包含了車輛內(nèi)各個(gè)人員的語音數(shù)據(jù),還包含了各種噪聲如車輛運(yùn)行噪聲等等。為了使得智艙內(nèi)不同人員的語音數(shù)據(jù)進(jìn)行更精準(zhǔn)的分離和增強(qiáng),根據(jù)所述語音數(shù)據(jù)在不同頻率下的語音響應(yīng)程度來修正對(duì)應(yīng)的原始濾波器組,修正了原始濾波器組的中心頻率,修正后的mel濾波器組所生成的mel語譜圖可以更好的表征對(duì)應(yīng)座艙內(nèi)人員的語音特征。在mel頻譜圖轉(zhuǎn)換過程中,對(duì)主要人物的語音部分進(jìn)行頻率分量增強(qiáng),使得mel頻譜圖能夠自適應(yīng)地調(diào)整其關(guān)注的語音部分分量。這樣可以更有效地捕捉主要人物的語音特征,提高語音識(shí)別系統(tǒng)對(duì)主要人物語音的敏感度和識(shí)別效果,車載語音識(shí)別系統(tǒng)在復(fù)雜車內(nèi)環(huán)境下的魯棒性也得到了極大的提升。
1.用于多維ai平臺(tái)的語音識(shí)別方法,其特征在于,所述方法包括:
2.如權(quán)利要求1所述的用于多維ai平臺(tái)的語音識(shí)別方法,其特征在于,根據(jù)所述語音數(shù)據(jù)在不同頻率下的語音響應(yīng)程度來修正對(duì)應(yīng)的原始濾波器組,獲取修正后的濾波器組包括:
3.如權(quán)利要求2所述的用于多維ai平臺(tái)的語音識(shí)別方法,其特征在于,基于所述語譜圖來獲取各所述語音數(shù)據(jù)在不同頻率下的語音響應(yīng)程度包括:
4.如權(quán)利要求3所述的用于多維ai平臺(tái)的語音識(shí)別方法,其特征在于,所述獲取各時(shí)刻下各所述語音數(shù)據(jù)的語音混亂程度包括:
5.如權(quán)利要求3所述的用于多維ai平臺(tái)的語音識(shí)別方法,其特征在于,根據(jù)對(duì)應(yīng)的所述語音混亂程度來對(duì)所述語音數(shù)據(jù)進(jìn)行時(shí)間段的劃分包括:
6.如權(quán)利要求4所述的用于多維ai平臺(tái)的語音識(shí)別方法,其特征在于,計(jì)算所述語音數(shù)據(jù)在不同頻率下的語音響應(yīng)程度包括:
7.如權(quán)利要求6所述的用于多維ai平臺(tái)的語音識(shí)別方法,其特征在于,獲取所述語音數(shù)據(jù)在所述第一時(shí)間分段內(nèi)在所述待分析頻率下的第一分段初始語音響應(yīng)程度包括:
8.如權(quán)利要求7所述的用于多維ai平臺(tái)的語音識(shí)別方法,其特征在于,所述方法還包括:所述能量比值的求取過程包括:
9.如權(quán)利要求7所述的用于多維ai平臺(tái)的語音識(shí)別方法,其特征在于,所述方法還包括:根據(jù)所述概率,獲取所述語音數(shù)據(jù)在所述第一時(shí)間分段內(nèi)在所述待分析頻率下的第一分段初始語音響應(yīng)程度包括: