本技術涉及顯示設備,尤其涉及一種顯示設備及基于喚醒詞聲紋的指令識別方法。
背景技術:
1、顯示設備在長時間沒有接收到控制指令時,可以從工作模式切換為待機模式以節(jié)省功耗。在待機模式下,顯示設備會持續(xù)檢測顯示設備所在環(huán)境的語音信號,用戶可以通過語音喚醒功能(kws,keyword?spotting),說出顯示設備預設的喚醒詞,顯示設備在識別出語音信號中包含喚醒詞的音頻波形時,會從待機模式切換為工作模式,以實現(xiàn)語音喚醒。
2、為了提高控制顯示設備的效率,用戶可以連續(xù)說出喚醒詞和指令詞,以在喚醒顯示設備后,使顯示設備相應指令詞執(zhí)行交互動作。當顯示設備處于多人說話的環(huán)境時,目標說話人外的語音或噪音會影響顯示設備對指令詞的識別。此時,顯示設備可以通過識別目標說話人的聲紋,根據(jù)聲紋從音頻中提取目標說話人的語音音頻,從而提高對目標說話人指令詞的識別。但是,這種方式需要預先對目標說話人執(zhí)行聲紋注冊,當顯示設備獲取存在多個已注冊說話人的語音時,無法對目標說話人進行有效的指令詞提取。
技術實現(xiàn)思路
1、本技術提供一種顯示設備及基于喚醒詞聲紋的指令識別方法,以解決顯示設備在處于嘈雜環(huán)境下識別指令詞不準確的問題。
2、第一方面,本技術一些實施例提供一種顯示設備,所述顯示設備包括顯示器、存儲器、聲音采集器和控制器,所述顯示器用于顯示用戶界面,所述存儲器用于存儲語音提取模型,語音提取模型根據(jù)樣本數(shù)據(jù)訓練得到,所述樣本數(shù)據(jù)包括來源于相同聲源的喚醒詞音頻和指令詞音頻;所述聲音采集器被配置為獲取音頻數(shù)據(jù);所述控制器被配置為:
3、在通過所述聲音采集器獲取待提取音頻后,通過所述語音提取模型在所述待提取音頻中識別喚醒詞音頻;
4、通過所述語音提取模型提取所述喚醒詞音頻的目標聲紋向量;
5、根據(jù)所述目標聲紋向量在所述待提取音頻中提取目標指令詞音頻,所述目標指令詞音頻為聲紋向量與所述目標聲紋向量的相似度大于或等于相似度閾值的指令詞音頻;
6、根據(jù)所述目標指令詞音頻生成控制指令,以及,響應于所述控制指令,控制所述顯示器顯示執(zhí)行所述控制指令后的目標用戶界面。
7、在一些實施例中,所述語音提取模型包括第一模塊,所述第一模塊被配置為提取所述喚醒詞音頻的目標聲紋向量,所述控制器還被配置為:
8、獲取樣本數(shù)據(jù)集,所述樣本數(shù)據(jù)集包括樣本喚醒詞音頻、樣本指令詞音頻和干擾指令詞音頻;
9、通過第一待訓練模塊分別提取所述樣本喚醒詞音頻、所述樣本指令詞音頻和所述干擾指令詞音頻的聲紋向量,得到喚醒詞聲紋向量、指令詞聲紋向量和干擾詞聲紋向量;
10、根據(jù)第一損失函數(shù)計算所述喚醒詞聲紋向量和所述指令詞聲紋向量的第一相似值,以及,根據(jù)第一損失函數(shù)計算所述喚醒詞聲紋向量和所述干擾詞聲紋向量的第二相似值;
11、當所述第一相似值大于所述第二相似值時,根據(jù)第一待訓練模塊的當前訓練參數(shù)輸出所述第一模塊的模型參數(shù)。
12、在一些實施例中,所述語音提取模型還包括第二模塊,所述第二模塊被配置為根據(jù)目標聲紋向量在所述待提取音頻中提取目標指令詞音頻,所述控制器還被配置為:
13、疊加所述樣本喚醒詞音頻、所述樣本指令詞音頻和所述干擾指令詞音頻,得到疊加樣本音頻;
14、提取所述疊加樣本音頻的疊加聲紋向量;
15、將所述疊加聲紋向量和喚醒詞聲紋向量輸入第一學習器,以及,通過所述第一學習器輸出所述第一學習器向量,所述第一學習器被配置為濾除疊加聲紋向量中,除喚醒詞聲紋向量以外的其他聲紋向量;
16、根據(jù)所述第一學習器向量從所述疊加樣本音頻中提取訓練指令詞音頻;
17、根據(jù)第二損失函數(shù)計算所述訓練指令詞音頻與所述指令詞標簽的損失值;
18、若所述損失值大于或等于判定閾值,則根據(jù)第一學習器的當前訓練參數(shù)輸出所述第二模塊的模型參數(shù)。
19、在一些實施例中,所述控制器執(zhí)行提取所述疊加樣本音頻的疊加聲紋向量的步驟后,還被配置為:
20、將所述疊加聲紋向量和指令詞聲紋向量輸入第二學習器,以及,通過所述第二學習器輸出第二學習器向量,所述第二學習器被配置為濾除疊加聲紋向量中,除指令詞聲紋向量以外的其他聲紋向量;
21、根據(jù)所述第二學習器向量從所述疊加樣本音頻中提取訓練指令詞音頻;
22、根據(jù)第二損失函數(shù)計算所述訓練指令詞音頻與所述指令詞標簽的損失值;
23、若所述損失值大于或等于判定閾值,則根據(jù)第二學習器的當前訓練參數(shù)輸出所述第二模塊的模型參數(shù)。
24、在一些實施例中,所述控制器還被配置為:
25、設置所述第一損失函數(shù)的第一權重值和所述第二損失函數(shù)的第二權重值;
26、根據(jù)所述第一權重值和所述第二權重值對所述第一損失函數(shù)和所述第二損失函數(shù)執(zhí)行加權求和,得到加權求和結果;
27、根據(jù)所述加權求和結果更新所述第一模塊的訓練參數(shù)和所述第二模塊的訓練參數(shù)。
28、在一些實施例中,所述控制器執(zhí)行疊加所述樣本喚醒詞音頻、所述樣本指令詞音頻和所述干擾指令詞音頻,被配置為:
29、設置信噪比;
30、根據(jù)所述信噪比,基于所述樣本喚醒詞音頻和所述樣本指令詞音頻的樣本量,確定干擾指令詞音頻的疊加量;
31、根據(jù)所述疊加量,疊加所述樣本喚醒詞音頻、所述樣本指令詞音頻和所述干擾指令詞音頻。
32、在一些實施例中,所述第一模塊包括編碼器和聲紋提取器,所述控制器還被配置為:
33、通過所述編碼器編碼所述喚醒詞音頻,得到喚醒詞音頻編碼;
34、通過所述聲紋編碼器提取所述喚醒詞音頻編碼的因果依賴關系,以及,根據(jù)因果依賴關系得到所述目標聲紋向量。
35、在一些實施例中,所述控制器執(zhí)行通過所述編碼器編碼所述喚醒詞音頻,被配置為:
36、在所述編碼器的卷積層設置第一卷積核、第二卷積核和第三卷積核,所述第一卷積核大于所述第二卷積核,所述第二卷積核大于所述第三卷積核;
37、通過所述第一卷積核提取所述喚醒詞音頻的長時音頻特征,以及,通過所述第二卷積核提取所述喚醒詞音頻的中時音頻特征,以及,通過所述第三卷積核提取所述喚醒詞音頻的短時音頻特征;
38、編碼所述長時音頻特征、中時音頻特征和短時音頻特征,得到長時音頻編碼、中時音頻編碼和短時音頻編碼;
39、拼接所述長時音頻編碼、所述中時音頻編碼和所述短時音頻編碼,以得到喚醒詞音頻編碼。
40、在一些實施例中,所述控制器執(zhí)行根據(jù)所述第一學習器向量從所述疊加樣本音頻中提取訓練指令詞音頻,被配置為:
41、獲取所述疊加樣本音頻的多尺度特征;
42、計算所述多尺度特征和所述第一學習器向量的乘積,得到多尺度音頻向量;
43、對所述多尺度音頻向量執(zhí)行轉置卷積,得到時域音頻信號;
44、根據(jù)所述時域音頻信號生成所述訓練指令詞音頻。
45、第二方面,本技術部分實施例還提供一種基于喚醒詞聲紋的指令識別方法,應用于第一方面所述的顯示設備,所述方法包括:
46、在通過所述聲音采集器獲取待提取音頻后,通過所述語音提取模型在所述待提取音頻中識別喚醒詞音頻;
47、通過所述語音提取模型提取所述喚醒詞音頻的目標聲紋向量;
48、根據(jù)所述目標聲紋向量在所述待提取音頻中提取目標指令詞音頻,所述目標指令詞音頻為聲紋向量與所述目標聲紋向量的相似度大于或等于相似度閾值的指令詞音頻;
49、根據(jù)所述目標指令詞音頻生成控制指令,以及,響應于所述控制指令,控制所述顯示器顯示執(zhí)行所述控制指令后的目標用戶界面。
50、由以上技術方案可知,本技術提供一種顯示設備及基于喚醒詞聲紋的指令識別方法,所述方法通過聲音采集器獲取待提取音頻后,通過語音提取模型在待提取音頻中識別喚醒詞音頻,并通過語音提取模型提取喚醒詞音頻的目標聲紋向量,根據(jù)目標聲紋向量在待提取音頻中提取目標指令詞音頻,根據(jù)目標指令詞音頻生成控制指令,以及,響應于控制指令,控制顯示器顯示執(zhí)行控制指令后的目標用戶界面。通過對喚醒詞音頻對應的聲紋向量進行識別,并基于聲紋向量獲取有效的指令詞音頻以生成對應的控制指令,減少待提取音頻中的其他指令詞音頻對有效指令詞音頻的干擾,提高顯示設備識別指令的準確性。