国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      語音活動檢測方法、裝置、計算機設(shè)備和存儲介質(zhì)與流程

      文檔序號:39619206發(fā)布日期:2024-10-11 13:35閱讀:64來源:國知局
      語音活動檢測方法、裝置、計算機設(shè)備和存儲介質(zhì)與流程

      本申請涉及智能語音,特別是涉及一種語音活動檢測方法、裝置、計算機設(shè)備和存儲介質(zhì)。


      背景技術(shù):

      1、隨著智能語音技術(shù)的發(fā)展,越來越多的智能設(shè)備開始使用智能語音技術(shù)來完成語音交互,比如智能汽車,智能手機以及智能音箱等。

      2、語音活動檢測技術(shù)是智能語音技術(shù)的關(guān)鍵步驟之一,它的目的是從包含語音的一段音頻文件中確定出語音信號。語音活動檢測不僅涉及到數(shù)字信號處理的問題,還涉及到聽覺感知特性和人類的語音特征。同時,噪聲的多樣性也增加了語音活動檢測的困難。

      3、傳統(tǒng)技術(shù)中,采用傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)來建模音頻時序信息,從而進行語音活動檢測,然而,雖然基于深度學(xué)習(xí)的循環(huán)神經(jīng)網(wǎng)絡(luò)對非平穩(wěn)的噪聲信號達到較好的檢測效果,但是,它存在模型過于單一且對特征的表達不夠多樣等問題,因此,對于語音活動的檢測仍然不夠準(zhǔn)確。


      技術(shù)實現(xiàn)思路

      1、基于此,有必要針對上述技術(shù)問題,提供一種能夠提高語音活動檢測準(zhǔn)確性的語音活動檢測方法、裝置、計算機設(shè)備和存儲介質(zhì)。

      2、一種語音活動檢測方法,該方法包括:

      3、獲取音頻采樣數(shù)據(jù)的各音頻幀的聲學(xué)特征;

      4、根據(jù)聲學(xué)特征以及預(yù)先訓(xùn)練的長短期記憶網(wǎng)絡(luò),得到第一張量;

      5、根據(jù)聲學(xué)特征以及預(yù)先訓(xùn)練的門循環(huán)神經(jīng)網(wǎng)絡(luò),得到第二張量;

      6、基于軟注意力權(quán)重分配機制將第一張量、第二張量進行融合,得到特征融合后的融合張量;以及

      7、根據(jù)融合張量進行語音活動的檢測。

      8、在一些實施例中,基于軟注意力權(quán)重分配機制將第一張量、第二張量進行融合,得到特征融合后的融合張量,包括:將第一張量和第二張量進行同位相加處理,得到第三張量;將第三張量進行全局池化處理,得到池化輸出;將池化輸出經(jīng)過兩個分組卷積層的卷積變化處理,得到卷積輸出;根據(jù)卷積輸出和軟注意力權(quán)重分配機制,得到融合權(quán)重;將第一張量、第二張量與融合權(quán)重進行加權(quán)求和處理,得到融合張量。

      9、在一些實施例中,將第三張量進行全局池化處理,得到池化輸出,包括:獲取第三張量的全局特征圖,確定全局特征圖的高和寬;根據(jù)高、寬以及第三張量進行全局池化處理,得到池化輸出。

      10、在一些實施例中,根據(jù)卷積輸出和軟注意力權(quán)重分配機制,得到融合權(quán)重,包括:將卷積輸出最為輸入輸至歸一化激活函數(shù)層;基于歸一化激活函數(shù)層、軟注意力機制以及指數(shù)函數(shù)對卷積輸出進行歸一化處理;得到融合權(quán)重。

      11、在一些實施例中,根據(jù)聲學(xué)特征以及預(yù)先訓(xùn)練的長短期記憶網(wǎng)絡(luò),得到第一張量,包括:將聲學(xué)特征輸入長短期記憶網(wǎng)絡(luò),得到長短期記憶網(wǎng)絡(luò)輸出的輸出張量,根據(jù)預(yù)設(shè)的批大小、序列長度和隱層的維度對輸出張量進行擴展處理,得到第一張量。

      12、在一些實施例中,根據(jù)聲學(xué)特征以及預(yù)先訓(xùn)練的門循環(huán)神經(jīng)網(wǎng)絡(luò),得到第二張量,包括:將聲學(xué)特征輸入門循環(huán)神經(jīng)網(wǎng)絡(luò),得到門循環(huán)神經(jīng)網(wǎng)絡(luò)輸出的輸出張量,根據(jù)預(yù)設(shè)的批大小、序列長度和隱層的維度對輸出張量進行擴展處理,得到第二張量。

      13、在一些實施例中,根據(jù)融合張量進行語音活動的檢測,包括:對融合張量進行維度壓縮處理;將維度壓縮處理后的融合張量進行全連接層映射以及歸一化處理,得到用于判斷各音頻幀是否為語音幀的概率;根據(jù)概率進行語音活動檢測。

      14、在一些實施例中,該方法還包括:獲取車載噪聲,車載噪聲包括車輛在公路上行駛中開窗時的噪聲、車輛在公路上行駛中關(guān)窗時的噪聲、車輛在停車場環(huán)境下開窗時的噪聲以及車輛在停車場環(huán)境下關(guān)窗時的噪聲之中的至少一種;根據(jù)車載噪聲生成音頻樣本集;利用音頻樣本集并按照交叉熵損失函數(shù)最小化對長短期記憶網(wǎng)絡(luò)和門循環(huán)神經(jīng)網(wǎng)絡(luò)進行參數(shù)優(yōu)化;利用音頻樣本集以及自適應(yīng)力矩估計優(yōu)化算法對長短期記憶網(wǎng)絡(luò)和門循環(huán)神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練。

      15、一種語音活動檢測裝置,該裝置包括:

      16、聲學(xué)特征獲取模塊,用于獲取音頻采樣的各音頻幀的聲學(xué)特征;

      17、第一張量獲取模塊,用于根據(jù)聲學(xué)特征以及預(yù)先訓(xùn)練的長短期記憶網(wǎng)絡(luò),得到第一張量;

      18、第二張量獲取模塊,用于根據(jù)聲學(xué)特征以及預(yù)先訓(xùn)練的門循環(huán)神經(jīng)網(wǎng)絡(luò),得到第二張量;

      19、張量融合模塊,用于基于軟注意力權(quán)重分配機制將第一張量、第二張量進行融合,得到特征融合后的融合張量;以及

      20、語音活動檢測模塊,用于根據(jù)融合張量進行語音活動的檢測。

      21、一種計算機設(shè)備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)上述任一項語音活動檢測方法的步驟。

      22、一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)上述任一項語音活動檢測方法的步驟。

      23、上述語音活動檢測方法、裝置、計算機設(shè)備和存儲介質(zhì),將音頻采樣數(shù)據(jù)的各音頻幀的聲學(xué)特征分別通過長短期記憶網(wǎng)絡(luò)和門循環(huán)神經(jīng)網(wǎng)絡(luò)進行特征處理,再將兩種不同的神經(jīng)網(wǎng)絡(luò)的處理結(jié)構(gòu)進行融合,并進一步結(jié)合軟注意力機制實現(xiàn)特征權(quán)重的合理分配,從而實現(xiàn)了特征表達多樣化,并且權(quán)重化了重要特征,因此,再將融合張量用于語音活動的檢測,能夠?qū)崿F(xiàn)提高語音活動檢測準(zhǔn)確性的目的。



      技術(shù)特征:

      1.一種語音活動檢測方法,所述方法包括:

      2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于軟注意力權(quán)重分配機制將所述第一張量、所述第二張量進行融合,得到特征融合后的融合張量,包括:

      3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述將所述第三張量進行全局池化處理,得到池化輸出,包括:

      4.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述根據(jù)所述卷積輸出和所述軟注意力權(quán)重分配機制,得到融合權(quán)重,包括:

      5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述聲學(xué)特征以及預(yù)先訓(xùn)練的長短期記憶網(wǎng)絡(luò),得到第一張量,包括:

      6.根據(jù)權(quán)利要求1-5任一項所述的方法,其特征在于,所述根據(jù)所述融合張量進行語音活動的檢測,包括:

      7.根據(jù)權(quán)利要求1-5任一項所述的方法,其特征在于,還包括:

      8.一種語音活動檢測裝置,其特征在于,所述裝置包括:

      9.一種計算機設(shè)備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,其特征在于,所述處理器執(zhí)行所述計算機程序時實現(xiàn)權(quán)利要求1至7中任一項所述方法的步驟。

      10.一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執(zhí)行時實現(xiàn)權(quán)利要求1至7中任一項所述的方法的步驟。


      技術(shù)總結(jié)
      本申請涉及一種語音活動檢測方法、裝置、計算機設(shè)備和存儲介質(zhì)。該方法包括:獲取音頻采樣數(shù)據(jù)的各音頻幀的聲學(xué)特征;根據(jù)聲學(xué)特征以及預(yù)先訓(xùn)練的長短期記憶網(wǎng)絡(luò),得到第一張量;根據(jù)聲學(xué)特征以及預(yù)先訓(xùn)練的門循環(huán)神經(jīng)網(wǎng)絡(luò),得到第二張量;基于軟注意力權(quán)重分配機制將第一張量、第二張量進行融合,得到特征融合后的融合張量;以及根據(jù)融合張量進行語音活動的檢測。采用本方法能夠語音活動檢測的準(zhǔn)確性。

      技術(shù)研發(fā)人員:譚應(yīng)偉,張人杰,丁雪楓
      受保護的技術(shù)使用者:大眾問問(北京)信息科技有限公司
      技術(shù)研發(fā)日:
      技術(shù)公布日:2024/10/10
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1