一種基于語音識別的控制方法與流程

文檔序號：40396500發(fā)布日期：2024-12-20 12:19閱讀：14來源：國知局

本發(fā)明屬于語音識別，具體涉及一種基于語音識別的控制方法。

背景技術：

1、隨著科技的不斷進步，智能化的發(fā)展也隨之不斷進步，其中智能家居系統(tǒng)與人們的生活有著密切的關系，為人們提供著一個更舒適、更便利且更安全的生活環(huán)境，因此得到了人們廣泛的關注。智能家居的優(yōu)勢之一是可以通過語音控制。然而在部分應用場景中，智能家居的使用會產生噪音，例如，燃氣灶和抽油煙機等設備在開啟使用后會產生足以影響用戶語音的噪聲；由于噪音導致用戶無法通過發(fā)出語音對智能家居進行準確控制，影響對智能家居的控制效果。并且現(xiàn)有技術中通過語音識別進行智能家居控制的方法存在控制效果較差的問題。

技術實現(xiàn)思路

1、本發(fā)明為了解決以上問題，提出了一種基于語音識別的控制方法。

2、本發(fā)明的技術方案是：一種基于語音識別的控制方法包括以下步驟：

3、s1、采集用戶的控制語音，并對控制語音進行分幀處理；

4、s2、根據(jù)分幀處理得到的若干幀控制語音段，生成全局音頻矩陣、第一組合矩陣和第二組合矩陣，并根據(jù)全局音頻矩陣、第一組合矩陣和第二組合矩陣構建控制語音目標函數(shù)；

5、s3、利用控制語音目標函數(shù)對控制語音進行處理，得到最優(yōu)控制語音；

6、s4、根據(jù)最優(yōu)控制語音，生成控制口令。

7、s4中，可以利用深度學習等將最優(yōu)控制語音轉換為文本，即控制口令。

8、進一步地，s2包括以下子步驟：

9、s21、根據(jù)每幀控制語音段的線性預測倒譜系數(shù)，構建每幀控制語音段的頻譜矩陣；

10、s22、根據(jù)所有幀控制語音段的頻譜矩陣，得到全局音頻矩陣；

11、s23、對用戶的控制語音進行遍歷，生成第一組合矩陣和第二組合矩陣；

12、s24、根據(jù)全局音頻矩陣、第一組合矩陣和第二組合矩陣，構建控制語音目標函數(shù)。

13、上述進一步方案的有益效果是：在本發(fā)明中，線性預測倒譜系數(shù)作為音頻信號的特征參數(shù)，通過每幀控制語音段的線性預測倒譜系數(shù)可以生成全局音頻矩陣，該全局音頻矩陣由于考慮了所有幀的特征參數(shù)，因此可以有效地表示控制語音的頻譜特性，提高語音識別的準確性和魯棒性。另外，對控制語音進行遍歷，通過幀移和短時過零率等參數(shù)，再生成對應的第一組合矩陣和第二組合矩陣，這兩個矩陣可以對信號的能量和長度進行分析，參與構建目標函數(shù)。通過控制語音目標函數(shù)結合高通濾波器對控制語音進行處理，有效去除無效噪聲，使得語音更加清晰。

14、進一步地，s21中，第i幀控制語音段的頻譜矩陣pi的表達式為：

15、；式中，di表示第i幀控制語音段的線性預測倒譜系數(shù)，e表示指數(shù)，n表示控制語音的信噪比。

16、進一步地，s22中，全局音頻矩陣p的表達式為：

17、；式中，qave表示所有頻譜矩陣的最大奇異值的均值，λave表示所有頻譜矩陣的最大特征值的均值。

18、進一步地，述s23包括以下子步驟：

19、s231、根據(jù)相鄰兩幀控制語音段的幀移以及每幀控制語音段的幀長，計算每幀控制語音段的特征幀系數(shù)；

20、s232、將所有幀語音段的特征幀系數(shù)按照時間順序組成幀系數(shù)數(shù)列；

21、s233、計算幀系數(shù)數(shù)列的所有差分值，將所有正差分值作為第一系數(shù)序列，將所有負差分值作為第二系數(shù)序列；

22、s234、根據(jù)第一系數(shù)序列和第二系數(shù)序列生成第一組合矩陣；

23、s235、將用戶的控制語音隨機劃分為第一控制語音片段和第二控制語音片段；

24、s236、根據(jù)第一控制語音片段和第二控制語音片段，生成第二組合矩陣。

25、上述進一步方案的有益效果是：在本發(fā)明中，通過對相鄰幀的幀移分析，確定控制語音中所有幀之間幀系數(shù)數(shù)列，通過幀系數(shù)數(shù)列的所有差分值的正負情況，生成兩個系數(shù)序列，得到第一組合矩陣。短時過零率是指在語音信號中信號波形通過零值（或某一特定門限值）的次數(shù)。它反映了信號在該時間段內的頻率特性，短時過零率較高的部分通常對應語音信號中的清音段或高頻噪聲，由此生成第二組合矩陣。

26、進一步地，s231中，第i幀控制語音段的特征幀系數(shù)mi的計算公式為：

27、；式中，li表示第i幀控制語音段的幀長，e表示指數(shù)，li-1,i表示第i-1幀控制語音段與第i幀控制語音段之間的幀移，li,i+1表示第i幀控制語音段與第i+1幀控制語音段之間的幀移。

28、進一步地，s234中，第一組合矩陣a的表達式為：

29、；式中，a1表示第一系數(shù)序列中所有元素的總和，a2表示第二系數(shù)序列中所有元素的總和。

30、進一步地，s236中，第二組合矩陣b的表達式為：

31、；式中，b1表示第一控制語音片段的短時過零率，b2表示第二控制語音片段的短時過零率。

32、進一步地，s24中，控制語音目標函數(shù)z的表達式為：

33、；式中，a表示第一組合矩陣，b表示第二組合矩陣，p表示全局音頻矩陣，tr(·)表示矩陣的跡運算，||·||f表示f范數(shù)運算。

34、進一步地，s3中，得到最優(yōu)控制語音的方法為：將控制語音目標函數(shù)值作為高通濾波器的品質因子，利用高通濾波器對控制語音進行處理，得到最優(yōu)控制語音。

35、本發(fā)明的有益效果是：本發(fā)明公開了一種基于語音識別的控制方法，對用戶發(fā)出的控制語音進行特征分析，提取每幀控制語音段的特征參數(shù)來生成全局音頻矩陣、第一組合矩陣和第二組合矩陣，生成控制語音目標函數(shù)，完成對控制語音的質量處理，提高控制語音轉換為控制口令的準確率，使得家居控制更加直觀和易用，有助于智能家居的普及。

技術特征：

1.一種基于語音識別的控制方法，其特征在于，包括以下步驟：

2.根據(jù)權利要求1所述的基于語音識別的控制方法，其特征在于，所述s2包括以下子步驟：

3.根據(jù)權利要求2所述的基于語音識別的控制方法，其特征在于，所述s21中，第i幀控制語音段的頻譜矩陣pi的表達式為：

4.根據(jù)權利要求2所述的基于語音識別的控制方法，其特征在于，所述s22中，全局音頻矩陣p的表達式為：

5.根據(jù)權利要求2所述的基于語音識別的控制方法，其特征在于，所述s23包括以下子步驟：

6.根據(jù)權利要求5所述的基于語音識別的控制方法，其特征在于，所述s231中，第i幀控制語音段的特征幀系數(shù)mi的計算公式為：

7.根據(jù)權利要求5所述的基于語音識別的控制方法，其特征在于，所述s234中，第一組合矩陣a的表達式為：

8.根據(jù)權利要求5所述的基于語音識別的控制方法，其特征在于，所述s236中，第二組合矩陣b的表達式為：

9.根據(jù)權利要求2所述的基于語音識別的控制方法，其特征在于，所述s24中，控制語音目標函數(shù)z的表達式為：

10.根據(jù)權利要求1所述的基于語音識別的控制方法，其特征在于，所述s3中，得到最優(yōu)控制語音的方法為：將控制語音目標函數(shù)值作為高通濾波器的品質因子，利用高通濾波器對控制語音進行處理，得到最優(yōu)控制語音。

技術總結
本發(fā)明公開了一種基于語音識別的控制方法，屬于語音識別技術領域，包括以下步驟：S1、采集用戶的控制語音，并對控制語音進行分幀處理；S2、根據(jù)分幀處理得到的若干幀控制語音段，生成全局音頻矩陣、第一組合矩陣和第二組合矩陣，并根據(jù)全局音頻矩陣、第一組合矩陣和第二組合矩陣構建控制語音目標函數(shù)；S3、利用控制語音目標函數(shù)對控制語音進行處理，得到最優(yōu)控制語音；S4、根據(jù)最優(yōu)控制語音，生成控制口令。本發(fā)明生成控制語音目標函數(shù)，完成對控制語音的質量處理，提高控制語音轉換為控制口令的準確率，使得家居控制更加直觀和易用，有助于智能家居的普及。

技術研發(fā)人員：李飛,陳妙波,孫斌
受保護的技術使用者：四川易景智能終端有限公司
技術研發(fā)日：
技術公布日：2024/12/19

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：李飛,陳妙波,孫斌
技術所有人：四川易景智能終端有限公司
我是此專利的發(fā)明人

上一篇：上電工裝、吸取模塊及串焊機的制作方法
上一篇：一種熱熔膠過濾網(wǎng)生產安裝用輔助小車的制作方法

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種基于語音識別的控制方法與流程