国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      車載語音激活檢測方法、裝置、設(shè)備及存儲介質(zhì)與流程

      文檔序號:40430625發(fā)布日期:2024-12-24 15:04閱讀:9來源:國知局
      車載語音激活檢測方法、裝置、設(shè)備及存儲介質(zhì)與流程

      本技術(shù)屬于語音激活檢測,尤其涉及一種車載語音激活檢測方法、裝置、設(shè)備及存儲介質(zhì)。


      背景技術(shù):

      1、語音激活檢測(voice?activity?detection,vad)是指對音頻流中的語音段進(jìn)行檢測。在車載環(huán)境中,需要實時對車內(nèi)的音頻流進(jìn)行檢測,這對檢測的準(zhǔn)確性提出了更高的要求。

      2、傳統(tǒng)的語音激活檢測方案主要是通過確定音頻流中語音信號與噪聲信號之間的能量差異,再根據(jù)能量閾值判定語音段和噪聲段。在車載環(huán)境中,背景音頻變化頻繁,上述傳統(tǒng)方案難以滿足環(huán)境的瞬變,容易產(chǎn)生誤判。因此,如何提高車載環(huán)境下語音激活檢測的準(zhǔn)確性是亟需解決的問題。


      技術(shù)實現(xiàn)思路

      1、本技術(shù)的實施例提供了一種車載語音激活檢測方法、裝置、設(shè)備及存儲介質(zhì),進(jìn)而至少在一定程度上提高了車載環(huán)境下語音激活檢測的準(zhǔn)確性。

      2、本技術(shù)的其他特性和優(yōu)點將通過下面的詳細(xì)描述變得顯然,或部分地通過本技術(shù)的實踐而習(xí)得。

      3、根據(jù)本技術(shù)實施例的第一方面,提供了一種車載語音激活檢測方法,包括:

      4、根據(jù)車內(nèi)音頻流確定當(dāng)前音頻塊和前一音頻塊;

      5、獲取所述前一音頻塊對應(yīng)的歷史音頻信息;

      6、將所述當(dāng)前音頻塊和所述歷史音頻信息輸入至預(yù)設(shè)分類模型,得到所述預(yù)設(shè)分類模型輸出的所述當(dāng)前音頻塊的類別,其中,所述當(dāng)前音頻塊的類別包括:語音首端、語音中間段、語音尾端和非語音段。

      7、在本技術(shù)的一些實施例中,基于前述方案,所述預(yù)設(shè)模型包括依次連接的卷積層、多頭注意力層、長短期記憶網(wǎng)絡(luò)和線性分類層,所述將所述當(dāng)前音頻塊和所述歷史音頻信息輸入至預(yù)設(shè)分類模型,得到所述預(yù)設(shè)分類模型輸出的所述當(dāng)前音頻塊的類別,包括:

      8、將所述當(dāng)前音頻塊輸入至所述卷積層,得到當(dāng)前語譜圖;

      9、將所述當(dāng)前語譜圖輸入至所述多頭注意力層,得到當(dāng)前注意力向量;

      10、將所述當(dāng)前注意力向量和所述所述歷史音頻信息輸入至所述長短期記憶網(wǎng)絡(luò),得到所述長短期記憶網(wǎng)絡(luò)的當(dāng)前輸出值和當(dāng)前狀態(tài);

      11、將所述當(dāng)前輸出值輸入至所述線性分類層,得到所述當(dāng)前音頻塊的類別。

      12、在本技術(shù)的一些實施例中,基于前述方案,所述將所述當(dāng)前語譜圖輸入至所述多頭注意力層,得到當(dāng)前注意力向量,包括:

      13、將所述當(dāng)前語譜圖輸入至所述多頭注意力層,以使所述多頭注意力層對所述當(dāng)前語譜圖進(jìn)行特征提取,根據(jù)提取到的特征進(jìn)行預(yù)分類,并輸出預(yù)分類結(jié)果對應(yīng)的當(dāng)前注意力向量。

      14、在本技術(shù)的一些實施例中,基于前述方案,所述獲取所述前一音頻塊對應(yīng)的歷史音頻信息,包括:

      15、將所述長短期記憶網(wǎng)絡(luò)基于所述前一音頻塊得到的前一輸出值和前一狀態(tài),確定為所述前一音頻塊對應(yīng)的歷史音頻信息。

      16、在本技術(shù)的一些實施例中,基于前述方案,在所述根據(jù)車內(nèi)音頻流確定當(dāng)前音頻塊和前一音頻塊之前,所述方法還包括:

      17、利用樣本音頻塊對所述卷積層進(jìn)行訓(xùn)練,得到樣本語譜圖;

      18、在所述卷積層訓(xùn)練完成后,利用所述樣本語譜圖對所述多頭注意力層和所述長短期記憶網(wǎng)絡(luò)進(jìn)行訓(xùn)練,以得到所述預(yù)設(shè)分類模型。

      19、在本技術(shù)的一些實施例中,基于前述方案,所述卷積層的目標(biāo)函數(shù)為均方差損失函數(shù)。

      20、在本技術(shù)的一些實施例中,基于前述方案,所述利用所述樣本語譜圖對所述多頭注意力層和所述長短期記憶網(wǎng)絡(luò)進(jìn)行訓(xùn)練,包括:

      21、控制所述多頭注意力層和所述長短期記憶網(wǎng)絡(luò)的目標(biāo)函數(shù)中所述語音首端和所述語音尾端的權(quán)重均大于所述語音中間段和所述非語音段的權(quán)重。

      22、根據(jù)本技術(shù)實施例的第二方面,提供了一種車載語音激活檢測裝置,包括:

      23、當(dāng)前音頻塊獲取模塊,用于根據(jù)車內(nèi)音頻流確定當(dāng)前音頻塊和前一音頻塊;

      24、歷史音頻塊獲取模塊,用于獲取所述前一音頻塊對應(yīng)的歷史音頻信息;

      25、當(dāng)前音頻塊分類模塊,用于將所述當(dāng)前音頻塊和所述歷史音頻信息輸入至預(yù)設(shè)分類模型,得到所述預(yù)設(shè)分類模型輸出的所述當(dāng)前音頻塊的類別,其中,所述當(dāng)前音頻塊的類別包括:語音首端、語音中間段、語音尾端和非語音段。

      26、在本技術(shù)的一些實施例中,基于前述方案,所述預(yù)設(shè)模型包括依次連接的卷積層、多頭注意力層、長短期記憶網(wǎng)絡(luò)和線性分類層,當(dāng)前音頻塊分類模塊,還用于將所述當(dāng)前音頻塊輸入至所述卷積層,得到當(dāng)前語譜圖;將所述當(dāng)前語譜圖輸入至所述多頭注意力層,得到當(dāng)前注意力向量;將所述當(dāng)前注意力向量和所述所述歷史音頻信息輸入至所述長短期記憶網(wǎng)絡(luò),得到所述長短期記憶網(wǎng)絡(luò)的當(dāng)前輸出值和當(dāng)前狀態(tài);將所述當(dāng)前輸出值輸入至所述線性分類層,得到所述當(dāng)前音頻塊的類別。

      27、在本技術(shù)的一些實施例中,基于前述方案,當(dāng)前音頻塊分類模塊,還用于將所述當(dāng)前語譜圖輸入至所述多頭注意力層,以使所述多頭注意力層對所述當(dāng)前語譜圖進(jìn)行特征提取,根據(jù)提取到的特征進(jìn)行預(yù)分類,并輸出預(yù)分類結(jié)果對應(yīng)的當(dāng)前注意力向量。

      28、在本技術(shù)的一些實施例中,基于前述方案,歷史音頻塊獲取模塊,還用于將所述長短期記憶網(wǎng)絡(luò)基于所述前一音頻塊得到的前一輸出值和前一狀態(tài),確定為所述前一音頻塊對應(yīng)的歷史音頻信息。

      29、在本技術(shù)的一些實施例中,基于前述方案,當(dāng)前音頻塊分類模塊,還用于利用樣本音頻塊對所述卷積層進(jìn)行訓(xùn)練,得到樣本語譜圖;在所述卷積層訓(xùn)練完成后,利用所述樣本語譜圖對所述多頭注意力層和所述長短期記憶網(wǎng)絡(luò)進(jìn)行訓(xùn)練,以得到所述預(yù)設(shè)分類模型。

      30、在本技術(shù)的一些實施例中,基于前述方案,所述卷積層的目標(biāo)函數(shù)為均方差損失函數(shù)。

      31、在本技術(shù)的一些實施例中,基于前述方案,當(dāng)前音頻塊分類模塊,還用于控制所述多頭注意力層和所述長短期記憶網(wǎng)絡(luò)的目標(biāo)函數(shù)中所述語音首端和所述語音尾端的權(quán)重均大于所述語音中間段和所述非語音段的權(quán)重。

      32、根據(jù)本技術(shù)實施例的第三方面,提供了一種車載語音激活檢測設(shè)備,包括處理器和存儲器,所述存儲器存儲有能夠被所述處理器執(zhí)行的計算機程序指令,所述處理器執(zhí)行所述計算機程序指令時,實現(xiàn)如上述第一方面任一項所述的方法的步驟。

      33、根據(jù)本技術(shù)實施例的第四方面,提供了一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)中存儲有計算機程序指令,所述計算機程序指令被處理器執(zhí)行時,促使所述處理器實現(xiàn)如上述第一方面任一項所述的方法的步驟。

      34、在本技術(shù)中,通過根據(jù)車內(nèi)音頻流確定當(dāng)前音頻塊和前一音頻塊;獲取所述前一音頻塊對應(yīng)的歷史音頻信息;將所述當(dāng)前音頻塊和所述歷史音頻信息輸入至預(yù)設(shè)分類模型,得到所述預(yù)設(shè)分類模型輸出的所述當(dāng)前音頻塊的類別,其中,所述當(dāng)前音頻塊的類別包括:語音首端、語音中間段、語音尾端和非語音段。其中,通過在當(dāng)前音頻塊的基礎(chǔ)上增加了歷史音頻信息輸入至預(yù)設(shè)分類模型,使得預(yù)設(shè)分類模型可以基于歷史音頻信息更準(zhǔn)確地對當(dāng)前音頻塊進(jìn)行分類,提高了車載環(huán)境下語音激活檢測的穩(wěn)定性和準(zhǔn)確性。

      35、應(yīng)當(dāng)理解的是,以上的一般描述和后文的細(xì)節(jié)描述僅是示例性和解釋性的,并不能限制本技術(shù)。

      當(dāng)前第1頁1 2 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1