一種基于動(dòng)態(tài)密碼聲紋鑒權(quán)的機(jī)器人臨時(shí)控制方法及系統(tǒng)與流程

文檔序號(hào)：39345878發(fā)布日期：2024-09-10 12:09閱讀：65來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

一種基于動(dòng)態(tài)密碼聲紋鑒權(quán)的機(jī)器人臨時(shí)控制方法及系統(tǒng)與流程

本發(fā)明屬于音頻特征處理領(lǐng)域，特別涉及一種基于動(dòng)態(tài)密碼聲紋鑒權(quán)的機(jī)器人臨時(shí)控制方法及系統(tǒng)。

背景技術(shù)：

1、隨著智能家居和智能機(jī)器人進(jìn)入家庭及相關(guān)行業(yè)應(yīng)用，智能語音交互成為一種更加便利，更加快捷的交互方式。語音交互技術(shù)在給用戶帶來便利的同時(shí)也帶來了另一個(gè)需求，那就是聲紋識(shí)別。聲紋識(shí)別(voiceprint?recognition,vpr)，也稱為說話人識(shí)別(speakerrecognition)，其可以實(shí)現(xiàn)說話人辨認(rèn)(speaker?identification)或說話人確認(rèn)(speakerverification)的功能。說話人辨認(rèn)是指判斷某段語音是若干人中的哪一個(gè)所說的，是“多選一”問題；而說話人確認(rèn)是指確認(rèn)某段語音是否是指定的某個(gè)人所說的，是“一對(duì)一判別”問題。

2、隨著信息安全和身份驗(yàn)證需求的增加，聲紋識(shí)別作為一種非侵入性、便捷和高度可靠的生物識(shí)別技術(shù)，得到了廣泛的應(yīng)用和研究。在機(jī)器人控制控制領(lǐng)域，用聲紋進(jìn)行鑒權(quán)分析，每次人員要指揮機(jī)器人時(shí)，首先呼叫其編號(hào)或名稱，語音識(shí)別進(jìn)行全部文字化轉(zhuǎn)變,發(fā)現(xiàn)其中相關(guān)的指令需要鑒權(quán)，就要對(duì)之前呼叫的編號(hào)或名稱進(jìn)行聲紋分析。發(fā)現(xiàn)是授權(quán)用戶，就直接執(zhí)行對(duì)應(yīng)的命令，如果不是則提示操作。對(duì)聲紋鑒權(quán)的準(zhǔn)確率有較高的要求。

3、公開號(hào)為cn116013324a的中國發(fā)明專利申請(qǐng)公開了一種基于聲紋識(shí)別的機(jī)器人語音控制權(quán)限管理方法，包括以下步驟：用戶登錄，發(fā)出語音指令；機(jī)器人接收語音指令；采用聲紋識(shí)別模塊對(duì)語音指令中的聲紋信息進(jìn)行聲紋識(shí)別，驗(yàn)證語音指令發(fā)出者的身份；聲紋識(shí)別成功，通過語音識(shí)別模塊識(shí)別語音指令中的語音內(nèi)容并通過機(jī)器人控制模塊執(zhí)行語音指令。通過在機(jī)器人語音控制系統(tǒng)中加入聲紋識(shí)別模塊，該模塊的作用是鑒別語音指令發(fā)出者的身份，只有當(dāng)說話者的身份與當(dāng)前登錄用戶的身份一致時(shí)，機(jī)器人才執(zhí)行語音指令，否則不予執(zhí)行。

4、該方案進(jìn)行聲紋特征提取及匹配，存在效率及準(zhǔn)確率較低的問題，同時(shí)存在者多用戶下，不同用戶權(quán)限和命令時(shí)效性控制的問題，無法滿足準(zhǔn)確率精準(zhǔn)要求較高的行業(yè)機(jī)器人控制領(lǐng)域的需求。

技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明提供一種基于動(dòng)態(tài)密碼聲紋鑒權(quán)的機(jī)器人臨時(shí)控制方法及系統(tǒng)，旨在解決現(xiàn)有語音控制中聲紋匹配時(shí)效率、準(zhǔn)確率不足以及無法滿足多用戶權(quán)限分配的問題。

2、為解決上述技術(shù)問題，本發(fā)明的第一方面提出一種基于動(dòng)態(tài)密碼聲紋鑒權(quán)的機(jī)器人臨時(shí)控制方法，包括以下步驟：

3、s1：提取用戶的第一聲紋特征，構(gòu)建聲紋模型；

4、s2：生成具有時(shí)效性的動(dòng)態(tài)口令并通知授權(quán)用戶，提取口令特征并保存；

5、s3：實(shí)時(shí)監(jiān)聽環(huán)境聲音，檢測(cè)到關(guān)鍵詞時(shí)連續(xù)錄音，生成音頻文件；

6、s4：提取所述音頻文件的第二聲紋特征，將所述第二聲紋特征與聲紋模型進(jìn)行比對(duì)，比對(duì)通過后提取所述音頻文件中的口令特征，與保存的口令特征比對(duì)；

7、s5：使用自然語言處理技術(shù)解析第二聲紋特征及口令特征均比對(duì)通過的音頻文件，生成動(dòng)作指令發(fā)送至執(zhí)行終端；

8、s6：執(zhí)行終端根據(jù)收到的動(dòng)作指令執(zhí)行相應(yīng)的動(dòng)作。

9、優(yōu)選地，所述步驟s4還對(duì)音頻文件進(jìn)行預(yù)處理，所述預(yù)處理包括去噪、降噪、語音活動(dòng)檢測(cè)，所述去噪使用頻譜減法、自適應(yīng)濾波及深度學(xué)習(xí)方法中的一種，所述降噪使用靜聲抑制、自適應(yīng)濾波及深度學(xué)習(xí)方法中的一種，所述語音活動(dòng)檢測(cè)使用能量閾值、頻譜特征及深度學(xué)習(xí)方法中的一種。

10、優(yōu)選地，所述第一聲紋特征及第二聲紋特征包括頻譜特征、聲調(diào)特征及時(shí)長特征，將頻譜特征、聲調(diào)特征及時(shí)長特征組合成一個(gè)綜合特征向量，作為最終的聲紋特征，組合方法如下：

11、使用均值歸一化或標(biāo)準(zhǔn)分?jǐn)?shù)對(duì)頻譜特征、聲調(diào)特征及時(shí)長特征分別進(jìn)行標(biāo)準(zhǔn)化處理；

12、將標(biāo)準(zhǔn)化后的頻譜特征、聲調(diào)特征和時(shí)長特征進(jìn)行串聯(lián)，形成一個(gè)高維向量作為綜合特征向量。

13、優(yōu)選地，所述頻譜特征的提取方法如下：

14、使用音頻處理庫加載音頻文件，獲取音頻數(shù)據(jù)及對(duì)應(yīng)的采樣率，對(duì)音頻信號(hào)進(jìn)行去噪、歸一化操作，將音頻信號(hào)分割成短時(shí)幀，并在每幀上加窗，對(duì)每一幀應(yīng)用快速傅里葉變換，得到頻譜；

15、將頻譜轉(zhuǎn)換到梅爾尺度，得到梅爾頻譜圖；

16、對(duì)梅爾頻譜圖進(jìn)行對(duì)數(shù)變換，得到對(duì)數(shù)梅爾頻譜圖；

17、從對(duì)數(shù)梅爾頻譜圖中提取梅爾頻率倒譜系數(shù)作為頻譜特征。

18、優(yōu)選地，所述聲調(diào)特征的提取方法如下：

19、使用音頻處理庫加載音頻文件，獲取音頻數(shù)據(jù)及對(duì)應(yīng)的采樣率，對(duì)音頻信號(hào)進(jìn)行去噪、歸一化操作，將音頻信號(hào)分割成短時(shí)幀，并在每幀上加窗，對(duì)每一幀應(yīng)用快速傅里葉變換，得到頻譜；

20、將頻譜映射到12個(gè)獨(dú)立的chroma向量，每個(gè)向量表示音階的一個(gè)半音；

21、對(duì)于頻率范圍內(nèi)的每個(gè)半音，計(jì)算該半音中所有頻率的能量和，并分配到對(duì)應(yīng)的chroma向量中；

22、對(duì)每個(gè)chroma向量進(jìn)行歸一化，使得每個(gè)chroma向量中元素之和為1，得到最終的聲調(diào)特征向量。

23、優(yōu)選地，所述時(shí)長特征的提取方法如下：

24、使用音頻處理庫加載音頻文件，獲取音頻數(shù)據(jù)及對(duì)應(yīng)的采樣率；

25、計(jì)算音頻文件中音頻信號(hào)的總時(shí)長；

26、使用語音活動(dòng)檢測(cè)方法將音頻信號(hào)分割成單個(gè)音素或語音段，計(jì)算每個(gè)音素或語音段的時(shí)長；

27、將總時(shí)長、每個(gè)音素或語音段的時(shí)長等特征組合起來，形成時(shí)長特征向量。

28、優(yōu)選地，所述第一聲紋特征及第二聲紋特征還包括基音周期，將頻譜特征、聲調(diào)特征、時(shí)長特征及基音周期組合成一個(gè)綜合特征向量，所述基音周期的提取方法如下：

29、使用音頻處理庫加載音頻文件，獲取音頻數(shù)據(jù)和采樣率，對(duì)音頻信號(hào)進(jìn)行去噪、歸一化操作，將音頻信號(hào)分割成短時(shí)幀，并對(duì)每一幀加窗；對(duì)每一幀信號(hào)計(jì)算自相關(guān)函數(shù)，尋找自相關(guān)函數(shù)中的峰值，確定峰值對(duì)應(yīng)的延遲，基音周期對(duì)應(yīng)于自相關(guān)函數(shù)的第一個(gè)明顯峰值的延遲。

30、優(yōu)選地，所述自相關(guān)函數(shù)定義為：

31、

32、式中，x(t)是音頻信號(hào)，τ是延遲，n是幀長。

33、優(yōu)選地，所述聲紋模型采用動(dòng)態(tài)時(shí)間規(guī)整、高斯混合模型及支持向量機(jī)中的一種方法構(gòu)建。

34、優(yōu)選地，所述執(zhí)行終端在執(zhí)行動(dòng)作指令前還進(jìn)行指令沖突檢測(cè)，所述指令沖突檢測(cè)方法如下：

35、執(zhí)行終端檢測(cè)待執(zhí)行的動(dòng)作指令，將待執(zhí)行的動(dòng)作指令分類為原子性指令或非原子性指令；

36、根據(jù)指令類別選擇不同執(zhí)行方式：對(duì)于可執(zhí)行的原子性指令，執(zhí)行終端根據(jù)原子性指令執(zhí)行相應(yīng)的動(dòng)作；對(duì)于存在指令沖突或無法執(zhí)行的原子性指令，執(zhí)行終端拒絕執(zhí)行并提供反饋，然后等待下一條原子性指令；對(duì)于非原子性指令，則檢查執(zhí)行終端當(dāng)前的狀態(tài)，若執(zhí)行終端狀態(tài)為空閑則執(zhí)行所述非原子性指令，若執(zhí)行終端正忙則提供反饋。

37、本發(fā)明的第二方面，還提出一種基于動(dòng)態(tài)密碼聲紋鑒權(quán)的機(jī)器人臨時(shí)控制系統(tǒng)，所述控制系統(tǒng)執(zhí)行如第一方面所述的控制方法，包括：音頻接收模塊、預(yù)處理模塊、聲紋提取模塊、模型構(gòu)建模塊、數(shù)據(jù)庫模塊及指令生成模塊；

38、所述音頻接收模塊用于監(jiān)測(cè)環(huán)境中的特定聲音后記錄生成音頻文件；

39、所述預(yù)處理模塊對(duì)音頻文件進(jìn)行預(yù)處理，所述預(yù)處理包括去噪、降噪、語音活動(dòng)檢測(cè)，所述去噪使用頻譜減法、自適應(yīng)濾波及深度學(xué)習(xí)方法中的一種，所述降噪使用靜聲抑制、自適應(yīng)濾波及深度學(xué)習(xí)方法中的一種，所述語音活動(dòng)檢測(cè)使用能量閾值、頻譜特征及深度學(xué)習(xí)方法中的一種；

40、所述聲紋提取模塊提取第一聲紋特征及第二聲紋特征，所述第一聲紋特征及第二聲紋特征均包括頻譜特征、聲調(diào)特征及時(shí)長特征，使用均值歸一化或標(biāo)準(zhǔn)分?jǐn)?shù)對(duì)頻譜特征、聲調(diào)特征及時(shí)長特征分別進(jìn)行標(biāo)準(zhǔn)化處理，然后將標(biāo)準(zhǔn)化后的頻譜特征、聲調(diào)特征和時(shí)長特征進(jìn)行串聯(lián)，形成一個(gè)高維向量作為綜合特征向量；所述聲紋提取模塊還提取動(dòng)態(tài)口令的口令特征，發(fā)送至數(shù)據(jù)庫模塊保存；所述模型構(gòu)建模塊用于根據(jù)第一聲紋特征采用動(dòng)態(tài)時(shí)間規(guī)整、高斯混合模型及支持向量機(jī)中的一種方法構(gòu)建聲紋模型，還用于更新聲紋模型；

41、所述數(shù)據(jù)庫模塊用于存儲(chǔ)聲紋模型及口令特征，并根據(jù)匹配請(qǐng)求進(jìn)行聲紋匹配及口令匹配；

42、所述指令生成模塊使用自然語言處理技術(shù)解析比對(duì)成功的音頻文件，生成動(dòng)作指令發(fā)送至執(zhí)行終端。

43、與現(xiàn)有技術(shù)相比，本發(fā)明具有以下技術(shù)效果：

44、1.本發(fā)明提出的機(jī)器人臨時(shí)控制方法的實(shí)時(shí)聲紋提取算法，能夠快速準(zhǔn)確地從短時(shí)錄音中提取聲紋特征；對(duì)于同時(shí)存在多用戶的情況下，提供不同的用戶權(quán)限。

45、2.本發(fā)明提出的機(jī)器人臨時(shí)控制方法將頻譜特征、聲調(diào)特征、時(shí)長特征及基音周期組合生成一個(gè)綜合的聲紋特征，并使用該綜合特征進(jìn)行比對(duì)匹配，相對(duì)于單獨(dú)使用一種特征進(jìn)行比對(duì)匹配，可有效提高提高識(shí)別準(zhǔn)確率，增強(qiáng)魯棒性以及增加聲紋特征的區(qū)分能力。

46、3.本發(fā)明提出的機(jī)器人臨時(shí)控制方法使用高斯混合模型或支持向量機(jī)算法將綜合特征向量構(gòu)建為聲紋模型，可描述語音信號(hào)中的多模態(tài)分布，從而更精確地捕捉每個(gè)說話者的聲紋特征，以及可在高維特征空間中尋找最優(yōu)分類超平面，能夠有效處理復(fù)雜分類問題，提高識(shí)別的準(zhǔn)確性。

47、4.本發(fā)明提出的機(jī)器人臨時(shí)控制方法在使用前事先生成具有時(shí)效性的動(dòng)態(tài)口令，使用時(shí)同時(shí)識(shí)別使用者的聲紋特征和動(dòng)態(tài)口令，同時(shí)可設(shè)置不同用戶命令的時(shí)效，提高系統(tǒng)的安全性。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：李揚(yáng)笛,林爽,楊彥,錢健,林晨翔,謝煒,熊嘉麗,姚文旭,周晨曦,馬騰
技術(shù)所有人：國家電網(wǎng)有限公司
我是此專利的發(fā)明人

上一篇：一種骨傷復(fù)位取釘裝置的制作方法
上一篇：經(jīng)修飾的IL-2分子及其用途的制作方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種基于動(dòng)態(tài)密碼聲紋鑒權(quán)的機(jī)器人臨時(shí)控制方法及系統(tǒng)與流程