語音活動檢測方法、裝置、計算機設(shè)備和存儲介質(zhì)與流程

文檔序號：39619206發(fā)布日期：2024-10-11 13:35閱讀：64來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本申請涉及智能語音，特別是涉及一種語音活動檢測方法、裝置、計算機設(shè)備和存儲介質(zhì)。

背景技術(shù)：

1、隨著智能語音技術(shù)的發(fā)展，越來越多的智能設(shè)備開始使用智能語音技術(shù)來完成語音交互，比如智能汽車，智能手機以及智能音箱等。

2、語音活動檢測技術(shù)是智能語音技術(shù)的關(guān)鍵步驟之一，它的目的是從包含語音的一段音頻文件中確定出語音信號。語音活動檢測不僅涉及到數(shù)字信號處理的問題，還涉及到聽覺感知特性和人類的語音特征。同時，噪聲的多樣性也增加了語音活動檢測的困難。

3、傳統(tǒng)技術(shù)中，采用傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)來建模音頻時序信息，從而進行語音活動檢測，然而，雖然基于深度學(xué)習(xí)的循環(huán)神經(jīng)網(wǎng)絡(luò)對非平穩(wěn)的噪聲信號達到較好的檢測效果，但是，它存在模型過于單一且對特征的表達不夠多樣等問題，因此，對于語音活動的檢測仍然不夠準(zhǔn)確。

技術(shù)實現(xiàn)思路

1、基于此，有必要針對上述技術(shù)問題，提供一種能夠提高語音活動檢測準(zhǔn)確性的語音活動檢測方法、裝置、計算機設(shè)備和存儲介質(zhì)。

2、一種語音活動檢測方法，該方法包括：

3、獲取音頻采樣數(shù)據(jù)的各音頻幀的聲學(xué)特征；

4、根據(jù)聲學(xué)特征以及預(yù)先訓(xùn)練的長短期記憶網(wǎng)絡(luò)，得到第一張量；

5、根據(jù)聲學(xué)特征以及預(yù)先訓(xùn)練的門循環(huán)神經(jīng)網(wǎng)絡(luò)，得到第二張量；

6、基于軟注意力權(quán)重分配機制將第一張量、第二張量進行融合，得到特征融合后的融合張量；以及

7、根據(jù)融合張量進行語音活動的檢測。

8、在一些實施例中，基于軟注意力權(quán)重分配機制將第一張量、第二張量進行融合，得到特征融合后的融合張量，包括：將第一張量和第二張量進行同位相加處理，得到第三張量；將第三張量進行全局池化處理，得到池化輸出；將池化輸出經(jīng)過兩個分組卷積層的卷積變化處理，得到卷積輸出；根據(jù)卷積輸出和軟注意力權(quán)重分配機制，得到融合權(quán)重；將第一張量、第二張量與融合權(quán)重進行加權(quán)求和處理，得到融合張量。

9、在一些實施例中，將第三張量進行全局池化處理，得到池化輸出，包括：獲取第三張量的全局特征圖，確定全局特征圖的高和寬；根據(jù)高、寬以及第三張量進行全局池化處理，得到池化輸出。

10、在一些實施例中，根據(jù)卷積輸出和軟注意力權(quán)重分配機制，得到融合權(quán)重，包括：將卷積輸出最為輸入輸至歸一化激活函數(shù)層；基于歸一化激活函數(shù)層、軟注意力機制以及指數(shù)函數(shù)對卷積輸出進行歸一化處理；得到融合權(quán)重。

11、在一些實施例中，根據(jù)聲學(xué)特征以及預(yù)先訓(xùn)練的長短期記憶網(wǎng)絡(luò)，得到第一張量，包括：將聲學(xué)特征輸入長短期記憶網(wǎng)絡(luò)，得到長短期記憶網(wǎng)絡(luò)輸出的輸出張量，根據(jù)預(yù)設(shè)的批大小、序列長度和隱層的維度對輸出張量進行擴展處理，得到第一張量。

12、在一些實施例中，根據(jù)聲學(xué)特征以及預(yù)先訓(xùn)練的門循環(huán)神經(jīng)網(wǎng)絡(luò)，得到第二張量，包括：將聲學(xué)特征輸入門循環(huán)神經(jīng)網(wǎng)絡(luò)，得到門循環(huán)神經(jīng)網(wǎng)絡(luò)輸出的輸出張量，根據(jù)預(yù)設(shè)的批大小、序列長度和隱層的維度對輸出張量進行擴展處理，得到第二張量。

13、在一些實施例中，根據(jù)融合張量進行語音活動的檢測，包括：對融合張量進行維度壓縮處理；將維度壓縮處理后的融合張量進行全連接層映射以及歸一化處理，得到用于判斷各音頻幀是否為語音幀的概率；根據(jù)概率進行語音活動檢測。

14、在一些實施例中，該方法還包括：獲取車載噪聲，車載噪聲包括車輛在公路上行駛中開窗時的噪聲、車輛在公路上行駛中關(guān)窗時的噪聲、車輛在停車場環(huán)境下開窗時的噪聲以及車輛在停車場環(huán)境下關(guān)窗時的噪聲之中的至少一種；根據(jù)車載噪聲生成音頻樣本集；利用音頻樣本集并按照交叉熵損失函數(shù)最小化對長短期記憶網(wǎng)絡(luò)和門循環(huán)神經(jīng)網(wǎng)絡(luò)進行參數(shù)優(yōu)化；利用音頻樣本集以及自適應(yīng)力矩估計優(yōu)化算法對長短期記憶網(wǎng)絡(luò)和門循環(huán)神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練。

15、一種語音活動檢測裝置，該裝置包括：

16、聲學(xué)特征獲取模塊，用于獲取音頻采樣的各音頻幀的聲學(xué)特征；

17、第一張量獲取模塊，用于根據(jù)聲學(xué)特征以及預(yù)先訓(xùn)練的長短期記憶網(wǎng)絡(luò)，得到第一張量；

18、第二張量獲取模塊，用于根據(jù)聲學(xué)特征以及預(yù)先訓(xùn)練的門循環(huán)神經(jīng)網(wǎng)絡(luò)，得到第二張量；

19、張量融合模塊，用于基于軟注意力權(quán)重分配機制將第一張量、第二張量進行融合，得到特征融合后的融合張量；以及

20、語音活動檢測模塊，用于根據(jù)融合張量進行語音活動的檢測。

21、一種計算機設(shè)備，包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序，所述處理器執(zhí)行所述計算機程序時實現(xiàn)上述任一項語音活動檢測方法的步驟。

22、一種計算機可讀存儲介質(zhì)，其上存儲有計算機程序，所述計算機程序被處理器執(zhí)行時實現(xiàn)上述任一項語音活動檢測方法的步驟。

23、上述語音活動檢測方法、裝置、計算機設(shè)備和存儲介質(zhì)，將音頻采樣數(shù)據(jù)的各音頻幀的聲學(xué)特征分別通過長短期記憶網(wǎng)絡(luò)和門循環(huán)神經(jīng)網(wǎng)絡(luò)進行特征處理，再將兩種不同的神經(jīng)網(wǎng)絡(luò)的處理結(jié)構(gòu)進行融合，并進一步結(jié)合軟注意力機制實現(xiàn)特征權(quán)重的合理分配，從而實現(xiàn)了特征表達多樣化，并且權(quán)重化了重要特征，因此，再將融合張量用于語音活動的檢測，能夠?qū)崿F(xiàn)提高語音活動檢測準(zhǔn)確性的目的。

技術(shù)特征：

1.一種語音活動檢測方法，所述方法包括：

2.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述基于軟注意力權(quán)重分配機制將所述第一張量、所述第二張量進行融合，得到特征融合后的融合張量，包括：

3.根據(jù)權(quán)利要求2所述的方法，其特征在于，所述將所述第三張量進行全局池化處理，得到池化輸出，包括：

4.根據(jù)權(quán)利要求2所述的方法，其特征在于，所述根據(jù)所述卷積輸出和所述軟注意力權(quán)重分配機制，得到融合權(quán)重，包括：

5.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述根據(jù)所述聲學(xué)特征以及預(yù)先訓(xùn)練的長短期記憶網(wǎng)絡(luò)，得到第一張量，包括：

6.根據(jù)權(quán)利要求1-5任一項所述的方法，其特征在于，所述根據(jù)所述融合張量進行語音活動的檢測，包括：

7.根據(jù)權(quán)利要求1-5任一項所述的方法，其特征在于，還包括：

8.一種語音活動檢測裝置，其特征在于，所述裝置包括：

9.一種計算機設(shè)備，包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序，其特征在于，所述處理器執(zhí)行所述計算機程序時實現(xiàn)權(quán)利要求1至7中任一項所述方法的步驟。

10.一種計算機可讀存儲介質(zhì)，其上存儲有計算機程序，其特征在于，所述計算機程序被處理器執(zhí)行時實現(xiàn)權(quán)利要求1至7中任一項所述的方法的步驟。

技術(shù)總結(jié)
本申請涉及一種語音活動檢測方法、裝置、計算機設(shè)備和存儲介質(zhì)。該方法包括：獲取音頻采樣數(shù)據(jù)的各音頻幀的聲學(xué)特征；根據(jù)聲學(xué)特征以及預(yù)先訓(xùn)練的長短期記憶網(wǎng)絡(luò)，得到第一張量；根據(jù)聲學(xué)特征以及預(yù)先訓(xùn)練的門循環(huán)神經(jīng)網(wǎng)絡(luò)，得到第二張量；基于軟注意力權(quán)重分配機制將第一張量、第二張量進行融合，得到特征融合后的融合張量；以及根據(jù)融合張量進行語音活動的檢測。采用本方法能夠語音活動檢測的準(zhǔn)確性。

技術(shù)研發(fā)人員：譚應(yīng)偉,張人杰,丁雪楓
受保護的技術(shù)使用者：大眾問問（北京）信息科技有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2024/10/10

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：譚應(yīng)偉,張人杰,丁雪楓
技術(shù)所有人：大眾問問（北京）信息科技有限公司
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

語音活動檢測方法、裝置、計算機設(shè)備和存儲介質(zhì)與流程

語音活動檢測方法、裝置、計算機設(shè)備和存儲介質(zhì)與流程