本申請涉及智能語音,特別是涉及一種語音活動檢測方法、裝置、計算機設(shè)備和存儲介質(zhì)。
背景技術(shù):
1、隨著智能語音技術(shù)的發(fā)展,越來越多的智能設(shè)備開始使用智能語音技術(shù)來完成語音交互,比如智能汽車,智能手機以及智能音箱等。
2、語音活動檢測技術(shù)是智能語音技術(shù)的關(guān)鍵步驟之一,它的目的是從包含語音的一段音頻文件中確定出語音信號。語音活動檢測不僅涉及到數(shù)字信號處理的問題,還涉及到聽覺感知特性和人類的語音特征。同時,噪聲的多樣性也增加了語音活動檢測的困難。
3、傳統(tǒng)技術(shù)中,采用傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)來建模音頻時序信息,從而進行語音活動檢測,然而,雖然基于深度學(xué)習(xí)的循環(huán)神經(jīng)網(wǎng)絡(luò)對非平穩(wěn)的噪聲信號達到較好的檢測效果,但是,它存在模型過于單一且對特征的表達不夠多樣等問題,因此,對于語音活動的檢測仍然不夠準(zhǔn)確。
技術(shù)實現(xiàn)思路
1、基于此,有必要針對上述技術(shù)問題,提供一種能夠提高語音活動檢測準(zhǔn)確性的語音活動檢測方法、裝置、計算機設(shè)備和存儲介質(zhì)。
2、一種語音活動檢測方法,該方法包括:
3、獲取音頻采樣數(shù)據(jù)的各音頻幀的聲學(xué)特征;
4、根據(jù)聲學(xué)特征以及預(yù)先訓(xùn)練的長短期記憶網(wǎng)絡(luò),得到第一張量;
5、根據(jù)聲學(xué)特征以及預(yù)先訓(xùn)練的門循環(huán)神經(jīng)網(wǎng)絡(luò),得到第二張量;
6、基于軟注意力權(quán)重分配機制將第一張量、第二張量進行融合,得到特征融合后的融合張量;以及
7、根據(jù)融合張量進行語音活動的檢測。
8、在一些實施例中,基于軟注意力權(quán)重分配機制將第一張量、第二張量進行融合,得到特征融合后的融合張量,包括:將第一張量和第二張量進行同位相加處理,得到第三張量;將第三張量進行全局池化處理,得到池化輸出;將池化輸出經(jīng)過兩個分組卷積層的卷積變化處理,得到卷積輸出;根據(jù)卷積輸出和軟注意力權(quán)重分配機制,得到融合權(quán)重;將第一張量、第二張量與融合權(quán)重進行加權(quán)求和處理,得到融合張量。
9、在一些實施例中,將第三張量進行全局池化處理,得到池化輸出,包括:獲取第三張量的全局特征圖,確定全局特征圖的高和寬;根據(jù)高、寬以及第三張量進行全局池化處理,得到池化輸出。
10、在一些實施例中,根據(jù)卷積輸出和軟注意力權(quán)重分配機制,得到融合權(quán)重,包括:將卷積輸出最為輸入輸至歸一化激活函數(shù)層;基于歸一化激活函數(shù)層、軟注意力機制以及指數(shù)函數(shù)對卷積輸出進行歸一化處理;得到融合權(quán)重。
11、在一些實施例中,根據(jù)聲學(xué)特征以及預(yù)先訓(xùn)練的長短期記憶網(wǎng)絡(luò),得到第一張量,包括:將聲學(xué)特征輸入長短期記憶網(wǎng)絡(luò),得到長短期記憶網(wǎng)絡(luò)輸出的輸出張量,根據(jù)預(yù)設(shè)的批大小、序列長度和隱層的維度對輸出張量進行擴展處理,得到第一張量。
12、在一些實施例中,根據(jù)聲學(xué)特征以及預(yù)先訓(xùn)練的門循環(huán)神經(jīng)網(wǎng)絡(luò),得到第二張量,包括:將聲學(xué)特征輸入門循環(huán)神經(jīng)網(wǎng)絡(luò),得到門循環(huán)神經(jīng)網(wǎng)絡(luò)輸出的輸出張量,根據(jù)預(yù)設(shè)的批大小、序列長度和隱層的維度對輸出張量進行擴展處理,得到第二張量。
13、在一些實施例中,根據(jù)融合張量進行語音活動的檢測,包括:對融合張量進行維度壓縮處理;將維度壓縮處理后的融合張量進行全連接層映射以及歸一化處理,得到用于判斷各音頻幀是否為語音幀的概率;根據(jù)概率進行語音活動檢測。
14、在一些實施例中,該方法還包括:獲取車載噪聲,車載噪聲包括車輛在公路上行駛中開窗時的噪聲、車輛在公路上行駛中關(guān)窗時的噪聲、車輛在停車場環(huán)境下開窗時的噪聲以及車輛在停車場環(huán)境下關(guān)窗時的噪聲之中的至少一種;根據(jù)車載噪聲生成音頻樣本集;利用音頻樣本集并按照交叉熵損失函數(shù)最小化對長短期記憶網(wǎng)絡(luò)和門循環(huán)神經(jīng)網(wǎng)絡(luò)進行參數(shù)優(yōu)化;利用音頻樣本集以及自適應(yīng)力矩估計優(yōu)化算法對長短期記憶網(wǎng)絡(luò)和門循環(huán)神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練。
15、一種語音活動檢測裝置,該裝置包括:
16、聲學(xué)特征獲取模塊,用于獲取音頻采樣的各音頻幀的聲學(xué)特征;
17、第一張量獲取模塊,用于根據(jù)聲學(xué)特征以及預(yù)先訓(xùn)練的長短期記憶網(wǎng)絡(luò),得到第一張量;
18、第二張量獲取模塊,用于根據(jù)聲學(xué)特征以及預(yù)先訓(xùn)練的門循環(huán)神經(jīng)網(wǎng)絡(luò),得到第二張量;
19、張量融合模塊,用于基于軟注意力權(quán)重分配機制將第一張量、第二張量進行融合,得到特征融合后的融合張量;以及
20、語音活動檢測模塊,用于根據(jù)融合張量進行語音活動的檢測。
21、一種計算機設(shè)備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)上述任一項語音活動檢測方法的步驟。
22、一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)上述任一項語音活動檢測方法的步驟。
23、上述語音活動檢測方法、裝置、計算機設(shè)備和存儲介質(zhì),將音頻采樣數(shù)據(jù)的各音頻幀的聲學(xué)特征分別通過長短期記憶網(wǎng)絡(luò)和門循環(huán)神經(jīng)網(wǎng)絡(luò)進行特征處理,再將兩種不同的神經(jīng)網(wǎng)絡(luò)的處理結(jié)構(gòu)進行融合,并進一步結(jié)合軟注意力機制實現(xiàn)特征權(quán)重的合理分配,從而實現(xiàn)了特征表達多樣化,并且權(quán)重化了重要特征,因此,再將融合張量用于語音活動的檢測,能夠?qū)崿F(xiàn)提高語音活動檢測準(zhǔn)確性的目的。
1.一種語音活動檢測方法,所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于軟注意力權(quán)重分配機制將所述第一張量、所述第二張量進行融合,得到特征融合后的融合張量,包括:
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述將所述第三張量進行全局池化處理,得到池化輸出,包括:
4.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述根據(jù)所述卷積輸出和所述軟注意力權(quán)重分配機制,得到融合權(quán)重,包括:
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述聲學(xué)特征以及預(yù)先訓(xùn)練的長短期記憶網(wǎng)絡(luò),得到第一張量,包括:
6.根據(jù)權(quán)利要求1-5任一項所述的方法,其特征在于,所述根據(jù)所述融合張量進行語音活動的檢測,包括:
7.根據(jù)權(quán)利要求1-5任一項所述的方法,其特征在于,還包括:
8.一種語音活動檢測裝置,其特征在于,所述裝置包括:
9.一種計算機設(shè)備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,其特征在于,所述處理器執(zhí)行所述計算機程序時實現(xiàn)權(quán)利要求1至7中任一項所述方法的步驟。
10.一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執(zhí)行時實現(xiàn)權(quán)利要求1至7中任一項所述的方法的步驟。