本發(fā)明屬于音頻特征處理領(lǐng)域,特別涉及一種基于動(dòng)態(tài)密碼聲紋鑒權(quán)的機(jī)器人臨時(shí)控制方法及系統(tǒng)。
背景技術(shù):
1、隨著智能家居和智能機(jī)器人進(jìn)入家庭及相關(guān)行業(yè)應(yīng)用,智能語音交互成為一種更加便利,更加快捷的交互方式。語音交互技術(shù)在給用戶帶來便利的同時(shí)也帶來了另一個(gè)需求,那就是聲紋識(shí)別。聲紋識(shí)別(voiceprint?recognition,vpr),也稱為說話人識(shí)別(speakerrecognition),其可以實(shí)現(xiàn)說話人辨認(rèn)(speaker?identification)或說話人確認(rèn)(speakerverification)的功能。說話人辨認(rèn)是指判斷某段語音是若干人中的哪一個(gè)所說的,是“多選一”問題;而說話人確認(rèn)是指確認(rèn)某段語音是否是指定的某個(gè)人所說的,是“一對(duì)一判別”問題。
2、隨著信息安全和身份驗(yàn)證需求的增加,聲紋識(shí)別作為一種非侵入性、便捷和高度可靠的生物識(shí)別技術(shù),得到了廣泛的應(yīng)用和研究。在機(jī)器人控制控制領(lǐng)域,用聲紋進(jìn)行鑒權(quán)分析,每次人員要指揮機(jī)器人時(shí),首先呼叫其編號(hào)或名稱,語音識(shí)別進(jìn)行全部文字化轉(zhuǎn)變,發(fā)現(xiàn)其中相關(guān)的指令需要鑒權(quán),就要對(duì)之前呼叫的編號(hào)或名稱進(jìn)行聲紋分析。發(fā)現(xiàn)是授權(quán)用戶,就直接執(zhí)行對(duì)應(yīng)的命令,如果不是則提示操作。對(duì)聲紋鑒權(quán)的準(zhǔn)確率有較高的要求。
3、公開號(hào)為cn116013324a的中國發(fā)明專利申請(qǐng)公開了一種基于聲紋識(shí)別的機(jī)器人語音控制權(quán)限管理方法,包括以下步驟:用戶登錄,發(fā)出語音指令;機(jī)器人接收語音指令;采用聲紋識(shí)別模塊對(duì)語音指令中的聲紋信息進(jìn)行聲紋識(shí)別,驗(yàn)證語音指令發(fā)出者的身份;聲紋識(shí)別成功,通過語音識(shí)別模塊識(shí)別語音指令中的語音內(nèi)容并通過機(jī)器人控制模塊執(zhí)行語音指令。通過在機(jī)器人語音控制系統(tǒng)中加入聲紋識(shí)別模塊,該模塊的作用是鑒別語音指令發(fā)出者的身份,只有當(dāng)說話者的身份與當(dāng)前登錄用戶的身份一致時(shí),機(jī)器人才執(zhí)行語音指令,否則不予執(zhí)行。
4、該方案進(jìn)行聲紋特征提取及匹配,存在效率及準(zhǔn)確率較低的問題,同時(shí)存在者多用戶下,不同用戶權(quán)限和命令時(shí)效性控制的問題,無法滿足準(zhǔn)確率精準(zhǔn)要求較高的行業(yè)機(jī)器人控制領(lǐng)域的需求。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明提供一種基于動(dòng)態(tài)密碼聲紋鑒權(quán)的機(jī)器人臨時(shí)控制方法及系統(tǒng),旨在解決現(xiàn)有語音控制中聲紋匹配時(shí)效率、準(zhǔn)確率不足以及無法滿足多用戶權(quán)限分配的問題。
2、為解決上述技術(shù)問題,本發(fā)明的第一方面提出一種基于動(dòng)態(tài)密碼聲紋鑒權(quán)的機(jī)器人臨時(shí)控制方法,包括以下步驟:
3、s1:提取用戶的第一聲紋特征,構(gòu)建聲紋模型;
4、s2:生成具有時(shí)效性的動(dòng)態(tài)口令并通知授權(quán)用戶,提取口令特征并保存;
5、s3:實(shí)時(shí)監(jiān)聽環(huán)境聲音,檢測(cè)到關(guān)鍵詞時(shí)連續(xù)錄音,生成音頻文件;
6、s4:提取所述音頻文件的第二聲紋特征,將所述第二聲紋特征與聲紋模型進(jìn)行比對(duì),比對(duì)通過后提取所述音頻文件中的口令特征,與保存的口令特征比對(duì);
7、s5:使用自然語言處理技術(shù)解析第二聲紋特征及口令特征均比對(duì)通過的音頻文件,生成動(dòng)作指令發(fā)送至執(zhí)行終端;
8、s6:執(zhí)行終端根據(jù)收到的動(dòng)作指令執(zhí)行相應(yīng)的動(dòng)作。
9、優(yōu)選地,所述步驟s4還對(duì)音頻文件進(jìn)行預(yù)處理,所述預(yù)處理包括去噪、降噪、語音活動(dòng)檢測(cè),所述去噪使用頻譜減法、自適應(yīng)濾波及深度學(xué)習(xí)方法中的一種,所述降噪使用靜聲抑制、自適應(yīng)濾波及深度學(xué)習(xí)方法中的一種,所述語音活動(dòng)檢測(cè)使用能量閾值、頻譜特征及深度學(xué)習(xí)方法中的一種。
10、優(yōu)選地,所述第一聲紋特征及第二聲紋特征包括頻譜特征、聲調(diào)特征及時(shí)長特征,將頻譜特征、聲調(diào)特征及時(shí)長特征組合成一個(gè)綜合特征向量,作為最終的聲紋特征,組合方法如下:
11、使用均值歸一化或標(biāo)準(zhǔn)分?jǐn)?shù)對(duì)頻譜特征、聲調(diào)特征及時(shí)長特征分別進(jìn)行標(biāo)準(zhǔn)化處理;
12、將標(biāo)準(zhǔn)化后的頻譜特征、聲調(diào)特征和時(shí)長特征進(jìn)行串聯(lián),形成一個(gè)高維向量作為綜合特征向量。
13、優(yōu)選地,所述頻譜特征的提取方法如下:
14、使用音頻處理庫加載音頻文件,獲取音頻數(shù)據(jù)及對(duì)應(yīng)的采樣率,對(duì)音頻信號(hào)進(jìn)行去噪、歸一化操作,將音頻信號(hào)分割成短時(shí)幀,并在每幀上加窗,對(duì)每一幀應(yīng)用快速傅里葉變換,得到頻譜;
15、將頻譜轉(zhuǎn)換到梅爾尺度,得到梅爾頻譜圖;
16、對(duì)梅爾頻譜圖進(jìn)行對(duì)數(shù)變換,得到對(duì)數(shù)梅爾頻譜圖;
17、從對(duì)數(shù)梅爾頻譜圖中提取梅爾頻率倒譜系數(shù)作為頻譜特征。
18、優(yōu)選地,所述聲調(diào)特征的提取方法如下:
19、使用音頻處理庫加載音頻文件,獲取音頻數(shù)據(jù)及對(duì)應(yīng)的采樣率,對(duì)音頻信號(hào)進(jìn)行去噪、歸一化操作,將音頻信號(hào)分割成短時(shí)幀,并在每幀上加窗,對(duì)每一幀應(yīng)用快速傅里葉變換,得到頻譜;
20、將頻譜映射到12個(gè)獨(dú)立的chroma向量,每個(gè)向量表示音階的一個(gè)半音;
21、對(duì)于頻率范圍內(nèi)的每個(gè)半音,計(jì)算該半音中所有頻率的能量和,并分配到對(duì)應(yīng)的chroma向量中;
22、對(duì)每個(gè)chroma向量進(jìn)行歸一化,使得每個(gè)chroma向量中元素之和為1,得到最終的聲調(diào)特征向量。
23、優(yōu)選地,所述時(shí)長特征的提取方法如下:
24、使用音頻處理庫加載音頻文件,獲取音頻數(shù)據(jù)及對(duì)應(yīng)的采樣率;
25、計(jì)算音頻文件中音頻信號(hào)的總時(shí)長;
26、使用語音活動(dòng)檢測(cè)方法將音頻信號(hào)分割成單個(gè)音素或語音段,計(jì)算每個(gè)音素或語音段的時(shí)長;
27、將總時(shí)長、每個(gè)音素或語音段的時(shí)長等特征組合起來,形成時(shí)長特征向量。
28、優(yōu)選地,所述第一聲紋特征及第二聲紋特征還包括基音周期,將頻譜特征、聲調(diào)特征、時(shí)長特征及基音周期組合成一個(gè)綜合特征向量,所述基音周期的提取方法如下:
29、使用音頻處理庫加載音頻文件,獲取音頻數(shù)據(jù)和采樣率,對(duì)音頻信號(hào)進(jìn)行去噪、歸一化操作,將音頻信號(hào)分割成短時(shí)幀,并對(duì)每一幀加窗;對(duì)每一幀信號(hào)計(jì)算自相關(guān)函數(shù),尋找自相關(guān)函數(shù)中的峰值,確定峰值對(duì)應(yīng)的延遲,基音周期對(duì)應(yīng)于自相關(guān)函數(shù)的第一個(gè)明顯峰值的延遲。
30、優(yōu)選地,所述自相關(guān)函數(shù)定義為:
31、
32、式中,x(t)是音頻信號(hào),τ是延遲,n是幀長。
33、優(yōu)選地,所述聲紋模型采用動(dòng)態(tài)時(shí)間規(guī)整、高斯混合模型及支持向量機(jī)中的一種方法構(gòu)建。
34、優(yōu)選地,所述執(zhí)行終端在執(zhí)行動(dòng)作指令前還進(jìn)行指令沖突檢測(cè),所述指令沖突檢測(cè)方法如下:
35、執(zhí)行終端檢測(cè)待執(zhí)行的動(dòng)作指令,將待執(zhí)行的動(dòng)作指令分類為原子性指令或非原子性指令;
36、根據(jù)指令類別選擇不同執(zhí)行方式:對(duì)于可執(zhí)行的原子性指令,執(zhí)行終端根據(jù)原子性指令執(zhí)行相應(yīng)的動(dòng)作;對(duì)于存在指令沖突或無法執(zhí)行的原子性指令,執(zhí)行終端拒絕執(zhí)行并提供反饋,然后等待下一條原子性指令;對(duì)于非原子性指令,則檢查執(zhí)行終端當(dāng)前的狀態(tài),若執(zhí)行終端狀態(tài)為空閑則執(zhí)行所述非原子性指令,若執(zhí)行終端正忙則提供反饋。
37、本發(fā)明的第二方面,還提出一種基于動(dòng)態(tài)密碼聲紋鑒權(quán)的機(jī)器人臨時(shí)控制系統(tǒng),所述控制系統(tǒng)執(zhí)行如第一方面所述的控制方法,包括:音頻接收模塊、預(yù)處理模塊、聲紋提取模塊、模型構(gòu)建模塊、數(shù)據(jù)庫模塊及指令生成模塊;
38、所述音頻接收模塊用于監(jiān)測(cè)環(huán)境中的特定聲音后記錄生成音頻文件;
39、所述預(yù)處理模塊對(duì)音頻文件進(jìn)行預(yù)處理,所述預(yù)處理包括去噪、降噪、語音活動(dòng)檢測(cè),所述去噪使用頻譜減法、自適應(yīng)濾波及深度學(xué)習(xí)方法中的一種,所述降噪使用靜聲抑制、自適應(yīng)濾波及深度學(xué)習(xí)方法中的一種,所述語音活動(dòng)檢測(cè)使用能量閾值、頻譜特征及深度學(xué)習(xí)方法中的一種;
40、所述聲紋提取模塊提取第一聲紋特征及第二聲紋特征,所述第一聲紋特征及第二聲紋特征均包括頻譜特征、聲調(diào)特征及時(shí)長特征,使用均值歸一化或標(biāo)準(zhǔn)分?jǐn)?shù)對(duì)頻譜特征、聲調(diào)特征及時(shí)長特征分別進(jìn)行標(biāo)準(zhǔn)化處理,然后將標(biāo)準(zhǔn)化后的頻譜特征、聲調(diào)特征和時(shí)長特征進(jìn)行串聯(lián),形成一個(gè)高維向量作為綜合特征向量;所述聲紋提取模塊還提取動(dòng)態(tài)口令的口令特征,發(fā)送至數(shù)據(jù)庫模塊保存;所述模型構(gòu)建模塊用于根據(jù)第一聲紋特征采用動(dòng)態(tài)時(shí)間規(guī)整、高斯混合模型及支持向量機(jī)中的一種方法構(gòu)建聲紋模型,還用于更新聲紋模型;
41、所述數(shù)據(jù)庫模塊用于存儲(chǔ)聲紋模型及口令特征,并根據(jù)匹配請(qǐng)求進(jìn)行聲紋匹配及口令匹配;
42、所述指令生成模塊使用自然語言處理技術(shù)解析比對(duì)成功的音頻文件,生成動(dòng)作指令發(fā)送至執(zhí)行終端。
43、與現(xiàn)有技術(shù)相比,本發(fā)明具有以下技術(shù)效果:
44、1.本發(fā)明提出的機(jī)器人臨時(shí)控制方法的實(shí)時(shí)聲紋提取算法,能夠快速準(zhǔn)確地從短時(shí)錄音中提取聲紋特征;對(duì)于同時(shí)存在多用戶的情況下,提供不同的用戶權(quán)限。
45、2.本發(fā)明提出的機(jī)器人臨時(shí)控制方法將頻譜特征、聲調(diào)特征、時(shí)長特征及基音周期組合生成一個(gè)綜合的聲紋特征,并使用該綜合特征進(jìn)行比對(duì)匹配,相對(duì)于單獨(dú)使用一種特征進(jìn)行比對(duì)匹配,可有效提高提高識(shí)別準(zhǔn)確率,增強(qiáng)魯棒性以及增加聲紋特征的區(qū)分能力。
46、3.本發(fā)明提出的機(jī)器人臨時(shí)控制方法使用高斯混合模型或支持向量機(jī)算法將綜合特征向量構(gòu)建為聲紋模型,可描述語音信號(hào)中的多模態(tài)分布,從而更精確地捕捉每個(gè)說話者的聲紋特征,以及可在高維特征空間中尋找最優(yōu)分類超平面,能夠有效處理復(fù)雜分類問題,提高識(shí)別的準(zhǔn)確性。
47、4.本發(fā)明提出的機(jī)器人臨時(shí)控制方法在使用前事先生成具有時(shí)效性的動(dòng)態(tài)口令,使用時(shí)同時(shí)識(shí)別使用者的聲紋特征和動(dòng)態(tài)口令,同時(shí)可設(shè)置不同用戶命令的時(shí)效,提高系統(tǒng)的安全性。