国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      語音活動(dòng)檢測方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)與流程

      文檔序號(hào):39617148發(fā)布日期:2024-10-11 13:30閱讀:50來源:國知局
      語音活動(dòng)檢測方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)與流程

      本申請(qǐng)涉及智能語音,特別是涉及一種語音活動(dòng)檢測方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)。


      背景技術(shù):

      1、隨著智能語音技術(shù)的發(fā)展,越來越多的智能設(shè)備開始使用智能語音技術(shù)來完成語音交互,比如智能汽車,智能手機(jī)以及智能音箱等。

      2、語音活動(dòng)檢測技術(shù)是智能語音技術(shù)的關(guān)鍵步驟之一,它的目的是從包含語音的一段音頻文件中確定出語音信號(hào)。語音活動(dòng)檢測不僅涉及到數(shù)字信號(hào)處理的問題,還涉及到聽覺感知特性和人類的語音特征。同時(shí),噪聲的多樣性也增加了語音活動(dòng)檢測的困難。

      3、傳統(tǒng)技術(shù)中,采用傳統(tǒng)的卷積循環(huán)神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)來建模音頻時(shí)序信息,從而進(jìn)行語音活動(dòng)檢測,然而,傳統(tǒng)的卷積循環(huán)神經(jīng)網(wǎng)絡(luò)無法增強(qiáng)特征之間的表達(dá),從而使得檢測結(jié)果不夠準(zhǔn)確。


      技術(shù)實(shí)現(xiàn)思路

      1、基于此,有必要針對(duì)上述技術(shù)問題,提供一種能夠提高語音活動(dòng)檢測準(zhǔn)確性的語音活動(dòng)檢測方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)。

      2、一種語音活動(dòng)檢測方法,該方法包括:獲取音頻采樣數(shù)據(jù)的各音頻幀的聲學(xué)特征;將聲學(xué)特征輸入預(yù)先訓(xùn)練的語音活動(dòng)檢測模型,得到語音活動(dòng)檢測模型的各個(gè)特征通道分別對(duì)應(yīng)輸出的中間特征;根據(jù)各個(gè)特征通道的全局特征圖以及各中間特征進(jìn)行信息壓縮處理,得到各個(gè)特征通道對(duì)應(yīng)的第一輸出;對(duì)第一輸出進(jìn)行非線性變化,得到第二輸出;將第二輸出與中間特征相乘,得到權(quán)重化特征;根據(jù)權(quán)重化特征計(jì)算音頻幀為語音的概率,根據(jù)概率進(jìn)行語音活動(dòng)檢測。

      3、在一些實(shí)施例中,獲取音頻采樣數(shù)據(jù)的各音頻幀的聲學(xué)特征,包括:獲取音頻采樣數(shù)據(jù);對(duì)音頻采樣數(shù)據(jù)進(jìn)行分幀處理,得到至少一個(gè)音頻幀;對(duì)各音頻幀進(jìn)行聲學(xué)特征提取,得到各音頻幀對(duì)應(yīng)的聲學(xué)特征。

      4、在一些實(shí)施例中,將聲學(xué)特征輸入預(yù)先訓(xùn)練的語音活動(dòng)檢測模型,得到語音活動(dòng)檢測模型的各個(gè)特征通道分別對(duì)應(yīng)輸出的中間特征,包括:將各聲學(xué)特征依次進(jìn)行第一卷積運(yùn)算、批歸一化處理、線性整流處理和最大池化處理,得到第一卷積輸出;將第一卷積輸出依次進(jìn)行第二卷積運(yùn)算、批歸一化處理、線性整流處理和最大池化處理,得到第二卷積輸出;將第二卷積輸出進(jìn)行長短期記憶訓(xùn)練,得到各特征通道分別對(duì)應(yīng)輸出的中間特征。

      5、在一些實(shí)施例中,根據(jù)各個(gè)特征通道的全局特征圖以及各中間特征進(jìn)行信息壓縮處理,得到各特征通道對(duì)應(yīng)的第一輸出,包括:確定全局特征圖的高和寬;根據(jù)特征圖的高和寬,并利用全局平均池化處理,生成各中間特征對(duì)應(yīng)的通道統(tǒng)計(jì)信息,將通道統(tǒng)計(jì)信息作為第一輸出。

      6、在一些實(shí)施例中,對(duì)第一輸出進(jìn)行非線性變化,得到第二輸出,包括:獲取第一全連接層權(quán)重和第二全連接層權(quán)重;根據(jù)第一全連接層權(quán)重以及線性整流激活函數(shù)對(duì)第一輸出進(jìn)行第一非線性變化;根據(jù)第二全連接層權(quán)重以及s型生長曲線激活函數(shù)對(duì)經(jīng)第一非線性變化后的第一輸出進(jìn)行第二非線性變化,得到第二輸出。

      7、在一些實(shí)施例中,根據(jù)權(quán)重化特征計(jì)算音頻幀為語音的概率,根據(jù)概率進(jìn)行語音活動(dòng)檢測,包括:將權(quán)重化特征進(jìn)行全連接層映射和指數(shù)歸一化處理,得到音頻幀為語音的概率;將概率與預(yù)設(shè)閾值進(jìn)行比較,若概率大于預(yù)設(shè)閾值,則判定音頻幀為包含語音活動(dòng)的幀。

      8、在一些實(shí)施例中,語音活動(dòng)檢測模型的訓(xùn)練方法包括:獲取車載噪聲,車載噪聲包括車輛在公路上行駛中開窗時(shí)的噪聲、車輛在公路上行駛中關(guān)窗時(shí)的噪聲、車輛在停車場環(huán)境下開窗時(shí)的噪聲以及車輛在停車場環(huán)境下關(guān)窗時(shí)的噪聲之中的至少一種;根據(jù)車載噪聲生成音頻樣本集;利用音頻樣本集并按照交叉熵?fù)p失函數(shù)最小化對(duì)語音活動(dòng)檢測模型進(jìn)行參數(shù)優(yōu)化;利用音頻樣本集以及自適應(yīng)力矩估計(jì)優(yōu)化算法對(duì)語音活動(dòng)檢測模型進(jìn)行模型訓(xùn)練。

      9、一種語音活動(dòng)檢測裝置,該裝置包括:

      10、聲學(xué)特征獲取模塊,用于獲取音頻采樣數(shù)據(jù)的各音頻幀的聲學(xué)特征;

      11、中間特征計(jì)算模塊,用于將所述聲學(xué)特征輸入預(yù)先訓(xùn)練的語音活動(dòng)檢測模型,得到所述語音活動(dòng)檢測模型的各個(gè)特征通道分別對(duì)應(yīng)輸出的中間特征;

      12、特征壓縮模塊,用于根據(jù)各個(gè)所述特征通道的全局特征圖以及各所述中間特征進(jìn)行信息壓縮處理,得到各所述特征通道對(duì)應(yīng)的第一輸出;

      13、特征激勵(lì)模塊,用于對(duì)所述第一輸出進(jìn)行非線性變化,得到第二輸出;

      14、特征加權(quán)模塊,用于將所述第二輸出與所述中間特征相乘,得到權(quán)重化特征;

      15、語音活動(dòng)檢測模塊,用于根據(jù)所述權(quán)重化特征計(jì)算所述音頻幀為語音的概率,根據(jù)所述概率進(jìn)行語音活動(dòng)檢測。

      16、一種計(jì)算機(jī)設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)上述任一項(xiàng)的語音活動(dòng)檢測方法的步驟。

      17、一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述任一項(xiàng)的語音活動(dòng)檢測方法的步驟。

      18、上述語音活動(dòng)檢測方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì),通過獲取音頻采樣數(shù)據(jù)的各音頻幀的聲學(xué)特征,并基于預(yù)先訓(xùn)練的語音活動(dòng)檢測模型得到中間特征,再對(duì)中間特征進(jìn)行信息壓縮處理以及非線性變化,并將處理后的結(jié)果作為權(quán)重與中間特征相乘,從而得到權(quán)重化特征以用于進(jìn)行語音活動(dòng)檢測。采用本方案,利用壓縮與激勵(lì)的方式,通過對(duì)不同特征通道賦予不同權(quán)重的方式產(chǎn)生了具有新的通道間依賴關(guān)系的建模,權(quán)重化了不同特征表達(dá)下的語音活動(dòng)檢測的結(jié)果,這種方法被應(yīng)用于語音活動(dòng)檢測,有效提高了將信號(hào)中的語音片段和非語音片段分開的性能,從而提高了語音活動(dòng)檢測的準(zhǔn)確性。



      技術(shù)特征:

      1.一種語音活動(dòng)檢測方法,所述方法包括:

      2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述獲取音頻采樣數(shù)據(jù)的各音頻幀的聲學(xué)特征,包括:

      3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述將所述聲學(xué)特征輸入預(yù)先訓(xùn)練的語音活動(dòng)檢測模型,得到所述語音活動(dòng)檢測模型的各個(gè)特征通道分別對(duì)應(yīng)輸出的中間特征,包括:

      4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)各個(gè)所述特征通道的全局特征圖以及各所述中間特征進(jìn)行信息壓縮處理,得到各所述特征通道對(duì)應(yīng)的第一輸出,包括:

      5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對(duì)所述第一輸出進(jìn)行非線性變化,得到第二輸出,包括:

      6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述權(quán)重化特征計(jì)算所述音頻幀為語音的概率,根據(jù)所述概率進(jìn)行語音活動(dòng)檢測,包括:

      7.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述語音活動(dòng)檢測模型的訓(xùn)練方法包括:

      8.一種語音活動(dòng)檢測裝置,其特征在于,所述裝置包括:

      9.一種計(jì)算機(jī)設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)權(quán)利要求1至7中任一項(xiàng)所述方法的步驟。

      10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1至7中任一項(xiàng)所述的方法的步驟。


      技術(shù)總結(jié)
      本申請(qǐng)涉及一種語音活動(dòng)檢測方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)。所述方法包括:獲取音頻采樣數(shù)據(jù)的各音頻幀的聲學(xué)特征;將聲學(xué)特征輸入預(yù)先訓(xùn)練的語音活動(dòng)檢測模型,得到語音活動(dòng)檢測模型的各個(gè)特征通道分別對(duì)應(yīng)輸出的中間特征;根據(jù)各個(gè)特征通道的全局特征圖以及各中間特征進(jìn)行信息壓縮處理,得到各個(gè)特征通道對(duì)應(yīng)的第一輸出;對(duì)第一輸出進(jìn)行非線性變化,得到第二輸出;將第二輸出與中間特征相乘,得到權(quán)重化特征;根據(jù)權(quán)重化特征計(jì)算音頻幀為語音的概率,根據(jù)該概率進(jìn)行語音活動(dòng)檢測。采用本方法能夠提高語音活動(dòng)檢測的準(zhǔn)確性。

      技術(shù)研發(fā)人員:譚應(yīng)偉,張人杰,丁雪楓
      受保護(hù)的技術(shù)使用者:大眾問問(北京)信息科技有限公司
      技術(shù)研發(fā)日:
      技術(shù)公布日:2024/10/10
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1