語音活動(dòng)檢測方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)與流程

文檔序號(hào)：39617148發(fā)布日期：2024-10-11 13:30閱讀：50來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

語音活動(dòng)檢測方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)與流程

本申請(qǐng)涉及智能語音，特別是涉及一種語音活動(dòng)檢測方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)。

背景技術(shù)：

1、隨著智能語音技術(shù)的發(fā)展，越來越多的智能設(shè)備開始使用智能語音技術(shù)來完成語音交互，比如智能汽車，智能手機(jī)以及智能音箱等。

2、語音活動(dòng)檢測技術(shù)是智能語音技術(shù)的關(guān)鍵步驟之一，它的目的是從包含語音的一段音頻文件中確定出語音信號(hào)。語音活動(dòng)檢測不僅涉及到數(shù)字信號(hào)處理的問題，還涉及到聽覺感知特性和人類的語音特征。同時(shí)，噪聲的多樣性也增加了語音活動(dòng)檢測的困難。

3、傳統(tǒng)技術(shù)中，采用傳統(tǒng)的卷積循環(huán)神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)來建模音頻時(shí)序信息，從而進(jìn)行語音活動(dòng)檢測，然而，傳統(tǒng)的卷積循環(huán)神經(jīng)網(wǎng)絡(luò)無法增強(qiáng)特征之間的表達(dá)，從而使得檢測結(jié)果不夠準(zhǔn)確。

技術(shù)實(shí)現(xiàn)思路

1、基于此，有必要針對(duì)上述技術(shù)問題，提供一種能夠提高語音活動(dòng)檢測準(zhǔn)確性的語音活動(dòng)檢測方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)。

2、一種語音活動(dòng)檢測方法，該方法包括：獲取音頻采樣數(shù)據(jù)的各音頻幀的聲學(xué)特征；將聲學(xué)特征輸入預(yù)先訓(xùn)練的語音活動(dòng)檢測模型，得到語音活動(dòng)檢測模型的各個(gè)特征通道分別對(duì)應(yīng)輸出的中間特征；根據(jù)各個(gè)特征通道的全局特征圖以及各中間特征進(jìn)行信息壓縮處理，得到各個(gè)特征通道對(duì)應(yīng)的第一輸出；對(duì)第一輸出進(jìn)行非線性變化，得到第二輸出；將第二輸出與中間特征相乘，得到權(quán)重化特征；根據(jù)權(quán)重化特征計(jì)算音頻幀為語音的概率，根據(jù)概率進(jìn)行語音活動(dòng)檢測。

3、在一些實(shí)施例中，獲取音頻采樣數(shù)據(jù)的各音頻幀的聲學(xué)特征，包括：獲取音頻采樣數(shù)據(jù)；對(duì)音頻采樣數(shù)據(jù)進(jìn)行分幀處理，得到至少一個(gè)音頻幀；對(duì)各音頻幀進(jìn)行聲學(xué)特征提取，得到各音頻幀對(duì)應(yīng)的聲學(xué)特征。

4、在一些實(shí)施例中，將聲學(xué)特征輸入預(yù)先訓(xùn)練的語音活動(dòng)檢測模型，得到語音活動(dòng)檢測模型的各個(gè)特征通道分別對(duì)應(yīng)輸出的中間特征，包括：將各聲學(xué)特征依次進(jìn)行第一卷積運(yùn)算、批歸一化處理、線性整流處理和最大池化處理，得到第一卷積輸出；將第一卷積輸出依次進(jìn)行第二卷積運(yùn)算、批歸一化處理、線性整流處理和最大池化處理，得到第二卷積輸出；將第二卷積輸出進(jìn)行長短期記憶訓(xùn)練，得到各特征通道分別對(duì)應(yīng)輸出的中間特征。

5、在一些實(shí)施例中，根據(jù)各個(gè)特征通道的全局特征圖以及各中間特征進(jìn)行信息壓縮處理，得到各特征通道對(duì)應(yīng)的第一輸出，包括：確定全局特征圖的高和寬；根據(jù)特征圖的高和寬，并利用全局平均池化處理，生成各中間特征對(duì)應(yīng)的通道統(tǒng)計(jì)信息，將通道統(tǒng)計(jì)信息作為第一輸出。

6、在一些實(shí)施例中，對(duì)第一輸出進(jìn)行非線性變化，得到第二輸出，包括：獲取第一全連接層權(quán)重和第二全連接層權(quán)重；根據(jù)第一全連接層權(quán)重以及線性整流激活函數(shù)對(duì)第一輸出進(jìn)行第一非線性變化；根據(jù)第二全連接層權(quán)重以及s型生長曲線激活函數(shù)對(duì)經(jīng)第一非線性變化后的第一輸出進(jìn)行第二非線性變化，得到第二輸出。

7、在一些實(shí)施例中，根據(jù)權(quán)重化特征計(jì)算音頻幀為語音的概率，根據(jù)概率進(jìn)行語音活動(dòng)檢測，包括：將權(quán)重化特征進(jìn)行全連接層映射和指數(shù)歸一化處理，得到音頻幀為語音的概率；將概率與預(yù)設(shè)閾值進(jìn)行比較，若概率大于預(yù)設(shè)閾值，則判定音頻幀為包含語音活動(dòng)的幀。

8、在一些實(shí)施例中，語音活動(dòng)檢測模型的訓(xùn)練方法包括：獲取車載噪聲，車載噪聲包括車輛在公路上行駛中開窗時(shí)的噪聲、車輛在公路上行駛中關(guān)窗時(shí)的噪聲、車輛在停車場環(huán)境下開窗時(shí)的噪聲以及車輛在停車場環(huán)境下關(guān)窗時(shí)的噪聲之中的至少一種；根據(jù)車載噪聲生成音頻樣本集；利用音頻樣本集并按照交叉熵?fù)p失函數(shù)最小化對(duì)語音活動(dòng)檢測模型進(jìn)行參數(shù)優(yōu)化；利用音頻樣本集以及自適應(yīng)力矩估計(jì)優(yōu)化算法對(duì)語音活動(dòng)檢測模型進(jìn)行模型訓(xùn)練。

9、一種語音活動(dòng)檢測裝置，該裝置包括：

10、聲學(xué)特征獲取模塊，用于獲取音頻采樣數(shù)據(jù)的各音頻幀的聲學(xué)特征；

11、中間特征計(jì)算模塊，用于將所述聲學(xué)特征輸入預(yù)先訓(xùn)練的語音活動(dòng)檢測模型，得到所述語音活動(dòng)檢測模型的各個(gè)特征通道分別對(duì)應(yīng)輸出的中間特征；

12、特征壓縮模塊，用于根據(jù)各個(gè)所述特征通道的全局特征圖以及各所述中間特征進(jìn)行信息壓縮處理，得到各所述特征通道對(duì)應(yīng)的第一輸出；

13、特征激勵(lì)模塊，用于對(duì)所述第一輸出進(jìn)行非線性變化，得到第二輸出；

14、特征加權(quán)模塊，用于將所述第二輸出與所述中間特征相乘，得到權(quán)重化特征；

15、語音活動(dòng)檢測模塊，用于根據(jù)所述權(quán)重化特征計(jì)算所述音頻幀為語音的概率，根據(jù)所述概率進(jìn)行語音活動(dòng)檢測。

16、一種計(jì)算機(jī)設(shè)備，包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序，所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)上述任一項(xiàng)的語音活動(dòng)檢測方法的步驟。

17、一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其上存儲(chǔ)有計(jì)算機(jī)程序，所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述任一項(xiàng)的語音活動(dòng)檢測方法的步驟。

18、上述語音活動(dòng)檢測方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)，通過獲取音頻采樣數(shù)據(jù)的各音頻幀的聲學(xué)特征，并基于預(yù)先訓(xùn)練的語音活動(dòng)檢測模型得到中間特征，再對(duì)中間特征進(jìn)行信息壓縮處理以及非線性變化，并將處理后的結(jié)果作為權(quán)重與中間特征相乘，從而得到權(quán)重化特征以用于進(jìn)行語音活動(dòng)檢測。采用本方案，利用壓縮與激勵(lì)的方式，通過對(duì)不同特征通道賦予不同權(quán)重的方式產(chǎn)生了具有新的通道間依賴關(guān)系的建模，權(quán)重化了不同特征表達(dá)下的語音活動(dòng)檢測的結(jié)果，這種方法被應(yīng)用于語音活動(dòng)檢測，有效提高了將信號(hào)中的語音片段和非語音片段分開的性能，從而提高了語音活動(dòng)檢測的準(zhǔn)確性。

技術(shù)特征：

1.一種語音活動(dòng)檢測方法，所述方法包括：

2.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述獲取音頻采樣數(shù)據(jù)的各音頻幀的聲學(xué)特征，包括：

3.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述將所述聲學(xué)特征輸入預(yù)先訓(xùn)練的語音活動(dòng)檢測模型，得到所述語音活動(dòng)檢測模型的各個(gè)特征通道分別對(duì)應(yīng)輸出的中間特征，包括：

4.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述根據(jù)各個(gè)所述特征通道的全局特征圖以及各所述中間特征進(jìn)行信息壓縮處理，得到各所述特征通道對(duì)應(yīng)的第一輸出，包括：

5.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述對(duì)所述第一輸出進(jìn)行非線性變化，得到第二輸出，包括：

6.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述根據(jù)所述權(quán)重化特征計(jì)算所述音頻幀為語音的概率，根據(jù)所述概率進(jìn)行語音活動(dòng)檢測，包括：

7.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述語音活動(dòng)檢測模型的訓(xùn)練方法包括：

8.一種語音活動(dòng)檢測裝置，其特征在于，所述裝置包括：

9.一種計(jì)算機(jī)設(shè)備，包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序，其特征在于，所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)權(quán)利要求1至7中任一項(xiàng)所述方法的步驟。

10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其上存儲(chǔ)有計(jì)算機(jī)程序，其特征在于，所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1至7中任一項(xiàng)所述的方法的步驟。

技術(shù)總結(jié)
本申請(qǐng)涉及一種語音活動(dòng)檢測方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)。所述方法包括：獲取音頻采樣數(shù)據(jù)的各音頻幀的聲學(xué)特征；將聲學(xué)特征輸入預(yù)先訓(xùn)練的語音活動(dòng)檢測模型，得到語音活動(dòng)檢測模型的各個(gè)特征通道分別對(duì)應(yīng)輸出的中間特征；根據(jù)各個(gè)特征通道的全局特征圖以及各中間特征進(jìn)行信息壓縮處理，得到各個(gè)特征通道對(duì)應(yīng)的第一輸出；對(duì)第一輸出進(jìn)行非線性變化，得到第二輸出；將第二輸出與中間特征相乘，得到權(quán)重化特征；根據(jù)權(quán)重化特征計(jì)算音頻幀為語音的概率，根據(jù)該概率進(jìn)行語音活動(dòng)檢測。采用本方法能夠提高語音活動(dòng)檢測的準(zhǔn)確性。

技術(shù)研發(fā)人員：譚應(yīng)偉,張人杰,丁雪楓
受保護(hù)的技術(shù)使用者：大眾問問（北京）信息科技有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2024/10/10

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：譚應(yīng)偉,張人杰,丁雪楓
技術(shù)所有人：大眾問問（北京）信息科技有限公司
我是此專利的發(fā)明人

上一篇：一種Z-式烯丙胺類化合物及其合成方法和應(yīng)用
上一篇：一種方向盤角度自學(xué)習(xí)方法及系統(tǒng)與流程

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

語音活動(dòng)檢測方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)與流程

語音活動(dòng)檢測方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)與流程