本申請(qǐng)涉及智能語音,特別是涉及一種語音活動(dòng)檢測方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)。
背景技術(shù):
1、隨著智能語音技術(shù)的發(fā)展,越來越多的智能設(shè)備開始使用智能語音技術(shù)來完成語音交互,比如智能汽車,智能手機(jī)以及智能音箱等。
2、語音活動(dòng)檢測技術(shù)是智能語音技術(shù)的關(guān)鍵步驟之一,它的目的是從包含語音的一段音頻文件中確定出語音信號(hào)。語音活動(dòng)檢測不僅涉及到數(shù)字信號(hào)處理的問題,還涉及到聽覺感知特性和人類的語音特征。同時(shí),噪聲的多樣性也增加了語音活動(dòng)檢測的困難。
3、傳統(tǒng)技術(shù)中,采用傳統(tǒng)的卷積循環(huán)神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)來建模音頻時(shí)序信息,從而進(jìn)行語音活動(dòng)檢測,然而,傳統(tǒng)的卷積循環(huán)神經(jīng)網(wǎng)絡(luò)無法增強(qiáng)特征之間的表達(dá),從而使得檢測結(jié)果不夠準(zhǔn)確。
技術(shù)實(shí)現(xiàn)思路
1、基于此,有必要針對(duì)上述技術(shù)問題,提供一種能夠提高語音活動(dòng)檢測準(zhǔn)確性的語音活動(dòng)檢測方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)。
2、一種語音活動(dòng)檢測方法,該方法包括:獲取音頻采樣數(shù)據(jù)的各音頻幀的聲學(xué)特征;將聲學(xué)特征輸入預(yù)先訓(xùn)練的語音活動(dòng)檢測模型,得到語音活動(dòng)檢測模型的各個(gè)特征通道分別對(duì)應(yīng)輸出的中間特征;根據(jù)各個(gè)特征通道的全局特征圖以及各中間特征進(jìn)行信息壓縮處理,得到各個(gè)特征通道對(duì)應(yīng)的第一輸出;對(duì)第一輸出進(jìn)行非線性變化,得到第二輸出;將第二輸出與中間特征相乘,得到權(quán)重化特征;根據(jù)權(quán)重化特征計(jì)算音頻幀為語音的概率,根據(jù)概率進(jìn)行語音活動(dòng)檢測。
3、在一些實(shí)施例中,獲取音頻采樣數(shù)據(jù)的各音頻幀的聲學(xué)特征,包括:獲取音頻采樣數(shù)據(jù);對(duì)音頻采樣數(shù)據(jù)進(jìn)行分幀處理,得到至少一個(gè)音頻幀;對(duì)各音頻幀進(jìn)行聲學(xué)特征提取,得到各音頻幀對(duì)應(yīng)的聲學(xué)特征。
4、在一些實(shí)施例中,將聲學(xué)特征輸入預(yù)先訓(xùn)練的語音活動(dòng)檢測模型,得到語音活動(dòng)檢測模型的各個(gè)特征通道分別對(duì)應(yīng)輸出的中間特征,包括:將各聲學(xué)特征依次進(jìn)行第一卷積運(yùn)算、批歸一化處理、線性整流處理和最大池化處理,得到第一卷積輸出;將第一卷積輸出依次進(jìn)行第二卷積運(yùn)算、批歸一化處理、線性整流處理和最大池化處理,得到第二卷積輸出;將第二卷積輸出進(jìn)行長短期記憶訓(xùn)練,得到各特征通道分別對(duì)應(yīng)輸出的中間特征。
5、在一些實(shí)施例中,根據(jù)各個(gè)特征通道的全局特征圖以及各中間特征進(jìn)行信息壓縮處理,得到各特征通道對(duì)應(yīng)的第一輸出,包括:確定全局特征圖的高和寬;根據(jù)特征圖的高和寬,并利用全局平均池化處理,生成各中間特征對(duì)應(yīng)的通道統(tǒng)計(jì)信息,將通道統(tǒng)計(jì)信息作為第一輸出。
6、在一些實(shí)施例中,對(duì)第一輸出進(jìn)行非線性變化,得到第二輸出,包括:獲取第一全連接層權(quán)重和第二全連接層權(quán)重;根據(jù)第一全連接層權(quán)重以及線性整流激活函數(shù)對(duì)第一輸出進(jìn)行第一非線性變化;根據(jù)第二全連接層權(quán)重以及s型生長曲線激活函數(shù)對(duì)經(jīng)第一非線性變化后的第一輸出進(jìn)行第二非線性變化,得到第二輸出。
7、在一些實(shí)施例中,根據(jù)權(quán)重化特征計(jì)算音頻幀為語音的概率,根據(jù)概率進(jìn)行語音活動(dòng)檢測,包括:將權(quán)重化特征進(jìn)行全連接層映射和指數(shù)歸一化處理,得到音頻幀為語音的概率;將概率與預(yù)設(shè)閾值進(jìn)行比較,若概率大于預(yù)設(shè)閾值,則判定音頻幀為包含語音活動(dòng)的幀。
8、在一些實(shí)施例中,語音活動(dòng)檢測模型的訓(xùn)練方法包括:獲取車載噪聲,車載噪聲包括車輛在公路上行駛中開窗時(shí)的噪聲、車輛在公路上行駛中關(guān)窗時(shí)的噪聲、車輛在停車場環(huán)境下開窗時(shí)的噪聲以及車輛在停車場環(huán)境下關(guān)窗時(shí)的噪聲之中的至少一種;根據(jù)車載噪聲生成音頻樣本集;利用音頻樣本集并按照交叉熵?fù)p失函數(shù)最小化對(duì)語音活動(dòng)檢測模型進(jìn)行參數(shù)優(yōu)化;利用音頻樣本集以及自適應(yīng)力矩估計(jì)優(yōu)化算法對(duì)語音活動(dòng)檢測模型進(jìn)行模型訓(xùn)練。
9、一種語音活動(dòng)檢測裝置,該裝置包括:
10、聲學(xué)特征獲取模塊,用于獲取音頻采樣數(shù)據(jù)的各音頻幀的聲學(xué)特征;
11、中間特征計(jì)算模塊,用于將所述聲學(xué)特征輸入預(yù)先訓(xùn)練的語音活動(dòng)檢測模型,得到所述語音活動(dòng)檢測模型的各個(gè)特征通道分別對(duì)應(yīng)輸出的中間特征;
12、特征壓縮模塊,用于根據(jù)各個(gè)所述特征通道的全局特征圖以及各所述中間特征進(jìn)行信息壓縮處理,得到各所述特征通道對(duì)應(yīng)的第一輸出;
13、特征激勵(lì)模塊,用于對(duì)所述第一輸出進(jìn)行非線性變化,得到第二輸出;
14、特征加權(quán)模塊,用于將所述第二輸出與所述中間特征相乘,得到權(quán)重化特征;
15、語音活動(dòng)檢測模塊,用于根據(jù)所述權(quán)重化特征計(jì)算所述音頻幀為語音的概率,根據(jù)所述概率進(jìn)行語音活動(dòng)檢測。
16、一種計(jì)算機(jī)設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)上述任一項(xiàng)的語音活動(dòng)檢測方法的步驟。
17、一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述任一項(xiàng)的語音活動(dòng)檢測方法的步驟。
18、上述語音活動(dòng)檢測方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì),通過獲取音頻采樣數(shù)據(jù)的各音頻幀的聲學(xué)特征,并基于預(yù)先訓(xùn)練的語音活動(dòng)檢測模型得到中間特征,再對(duì)中間特征進(jìn)行信息壓縮處理以及非線性變化,并將處理后的結(jié)果作為權(quán)重與中間特征相乘,從而得到權(quán)重化特征以用于進(jìn)行語音活動(dòng)檢測。采用本方案,利用壓縮與激勵(lì)的方式,通過對(duì)不同特征通道賦予不同權(quán)重的方式產(chǎn)生了具有新的通道間依賴關(guān)系的建模,權(quán)重化了不同特征表達(dá)下的語音活動(dòng)檢測的結(jié)果,這種方法被應(yīng)用于語音活動(dòng)檢測,有效提高了將信號(hào)中的語音片段和非語音片段分開的性能,從而提高了語音活動(dòng)檢測的準(zhǔn)確性。
1.一種語音活動(dòng)檢測方法,所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述獲取音頻采樣數(shù)據(jù)的各音頻幀的聲學(xué)特征,包括:
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述將所述聲學(xué)特征輸入預(yù)先訓(xùn)練的語音活動(dòng)檢測模型,得到所述語音活動(dòng)檢測模型的各個(gè)特征通道分別對(duì)應(yīng)輸出的中間特征,包括:
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)各個(gè)所述特征通道的全局特征圖以及各所述中間特征進(jìn)行信息壓縮處理,得到各所述特征通道對(duì)應(yīng)的第一輸出,包括:
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對(duì)所述第一輸出進(jìn)行非線性變化,得到第二輸出,包括:
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述權(quán)重化特征計(jì)算所述音頻幀為語音的概率,根據(jù)所述概率進(jìn)行語音活動(dòng)檢測,包括:
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述語音活動(dòng)檢測模型的訓(xùn)練方法包括:
8.一種語音活動(dòng)檢測裝置,其特征在于,所述裝置包括:
9.一種計(jì)算機(jī)設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)權(quán)利要求1至7中任一項(xiàng)所述方法的步驟。
10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1至7中任一項(xiàng)所述的方法的步驟。