用于使用遞歸神經(jīng)網(wǎng)絡(luò)進(jìn)行統(tǒng)一聲學(xué)回聲抑制的技術(shù)的制作方法

文檔序號(hào)：39344675發(fā)布日期：2024-09-10 12:07閱讀：73來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

用于使用遞歸神經(jīng)網(wǎng)絡(luò)進(jìn)行統(tǒng)一聲學(xué)回聲抑制的技術(shù)的制作方法

與本公開的示例實(shí)施例一致的裝置和方法總體上涉及利用神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)處理和用于語音增強(qiáng)的深度學(xué)習(xí)。具體地，實(shí)施例涉及訓(xùn)練神經(jīng)回聲(neuralecho)模型和統(tǒng)一模型中的自動(dòng)增益控制(agc)任務(wù)以執(zhí)行聲學(xué)回聲消除(aec)并改善回聲和噪聲抑制。相關(guān)技術(shù)的描述聲學(xué)回聲消除(aec)在全雙工語音通信以及在揚(yáng)聲器播放時(shí)的條件下用于識(shí)別的前端語音增強(qiáng)中起重要作用。在相關(guān)技術(shù)中，已經(jīng)研究了用于估計(jì)聲學(xué)回聲路徑和線性回聲消除的自適應(yīng)濾波方法。歸一化最小均方濾波器(例如，頻域自適應(yīng)濾波器和多延遲塊頻域自適應(yīng)濾波器)由于其穩(wěn)健性和低復(fù)雜度而被廣泛使用。非線性后處理通常被級(jí)聯(lián)用于殘余回聲抑制。然而，這些方法對(duì)于非線性回聲失真、回聲路徑變化和非平穩(wěn)噪聲并不有效。因此，已經(jīng)采用深度神經(jīng)網(wǎng)絡(luò)(例如，復(fù)值dnn、長(zhǎng)短期記憶網(wǎng)絡(luò)和多頭自注意力)來開發(fā)回聲抑制系統(tǒng)，以更好地處理非線性回聲失真和回聲路徑延遲。在相關(guān)技術(shù)中，采用線性自適應(yīng)濾波，繼之以基于神經(jīng)網(wǎng)絡(luò)的殘余回聲抑制，以形成用于aec系統(tǒng)設(shè)計(jì)的混合系統(tǒng)，并且取得了有希望的結(jié)果。相關(guān)技術(shù)還描述了兩階段多通道聯(lián)合aec和波束成形以及支持音頻前端aec、噪聲抑制和agc的nn3a模型。aec還被公式化為一種端到端監(jiān)督語音增強(qiáng)問題，其中采用神經(jīng)網(wǎng)絡(luò)來預(yù)測(cè)用于提取近端目標(biāo)說話者的掩碼。在一些相關(guān)技術(shù)中，aec任務(wù)采用雙信號(hào)變換lstm網(wǎng)絡(luò)(dtln)，并且提出一種基于wave-u-net的具有注意力機(jī)制的聲學(xué)回聲消除來聯(lián)合抑制聲學(xué)回聲和背景噪聲。使用復(fù)雜神經(jīng)網(wǎng)絡(luò)和頻率-時(shí)間-lstm(f-t-lstm)提供了重要的相位信息建模和時(shí)間建模，優(yōu)于aec中的最佳方法。

背景技術(shù)：

技術(shù)實(shí)現(xiàn)思路

1、根據(jù)實(shí)施例，提供了用于經(jīng)由neuralecho模型和在統(tǒng)一模型中訓(xùn)練的自動(dòng)增益控制(agc)進(jìn)行聲學(xué)回聲抑制的方法，以執(zhí)行聲學(xué)回聲消除(aec)并改善回聲和噪聲抑制。

2、根據(jù)本公開的一方面，提供了一種由至少一個(gè)處理器執(zhí)行的用于使用遞歸神經(jīng)網(wǎng)絡(luò)進(jìn)行聲學(xué)回聲抑制的方法。該方法包括：接收麥克風(fēng)信號(hào)和遠(yuǎn)端參考信號(hào)；基于麥克風(fēng)信號(hào)和遠(yuǎn)端參考信號(hào)來估計(jì)回聲抑制信號(hào)和回聲信號(hào)；基于回聲抑制信號(hào)和回聲信號(hào)來估計(jì)用于麥克風(fēng)信號(hào)的增強(qiáng)濾波器；基于增強(qiáng)濾波器來生成增強(qiáng)信號(hào)；以及使用自動(dòng)增益控制(agc)來調(diào)整增強(qiáng)信號(hào)并且輸出經(jīng)調(diào)整的信號(hào)。

3、該方法可以進(jìn)一步包括第一階段和第二階段，其中由第一階段估計(jì)回聲抑制信號(hào)和回聲信號(hào)，并且由第二階段估計(jì)增強(qiáng)濾波器。

4、在第一階段中，該方法可以進(jìn)一步包括：基于麥克風(fēng)信號(hào)和遠(yuǎn)端參考信號(hào)來計(jì)算第一協(xié)方差矩陣；通過第一線性投影濾波器處理第一協(xié)方差矩陣，并且對(duì)第一線性投影濾波器的結(jié)果進(jìn)行編碼以估計(jì)第一階段濾波器；將第一階段濾波器應(yīng)用于時(shí)間-頻率移位的麥克風(fēng)信號(hào)和遠(yuǎn)端參考信號(hào)；以及輸出回聲抑制信號(hào)和回聲信號(hào)。

5、在第二階段中，該方法可以進(jìn)一步包括：基于第一線性投影濾波器和回聲抑制信號(hào)和回聲信號(hào)的歸一化對(duì)數(shù)功率譜來生成第二階段輸入特征；通過第二線性投影濾波器處理第二階段輸入特征；對(duì)第二線性投影濾波器的結(jié)果進(jìn)行編碼以估計(jì)第二階段濾波器，并且應(yīng)用第二階段濾波器以估計(jì)目標(biāo)語音和麥克風(fēng)噪聲的通道；基于目標(biāo)語音和麥克風(fēng)噪聲的估計(jì)通道來計(jì)算第二協(xié)方差矩陣；以及通過遞歸神經(jīng)網(wǎng)絡(luò)處理第二協(xié)方差矩陣并且輸出增強(qiáng)濾波器。

6、該方法可以進(jìn)一步包括其中麥克風(fēng)信號(hào)包括目標(biāo)語音、失真遠(yuǎn)端參考信號(hào)和麥克風(fēng)噪聲。

7、該方法可以進(jìn)一步包括基于時(shí)域中的尺度不變信號(hào)失真比和增強(qiáng)信號(hào)與目標(biāo)信號(hào)之間的頻譜幅度差的l1范數(shù)來計(jì)算損失函數(shù)。

8、該方法可以進(jìn)一步包括其中調(diào)節(jié)增強(qiáng)信號(hào)包括：對(duì)增強(qiáng)信號(hào)幅度進(jìn)行編碼以預(yù)測(cè)agc幅度；基于增強(qiáng)信號(hào)的相位在時(shí)域中生成agc信號(hào)；以及基于agc信號(hào)來調(diào)整增強(qiáng)信號(hào)。

9、根據(jù)本公開的另一方面，一種用于使用遞歸神經(jīng)網(wǎng)絡(luò)進(jìn)行聲學(xué)回聲抑制的裝置包括：至少一個(gè)存儲(chǔ)器，該至少一個(gè)存儲(chǔ)器被配置為存儲(chǔ)程序代碼；以及至少一個(gè)處理器，該至少一個(gè)處理器被配置為讀取該程序代碼并且按照該程序代碼的指示進(jìn)行操作。該程序代碼包括：接收代碼，該接收代碼被配置為使至少一個(gè)處理器接收麥克風(fēng)信號(hào)和遠(yuǎn)端參考信號(hào)；信號(hào)估計(jì)代碼，該信號(hào)估計(jì)代碼被配置為使至少一個(gè)處理器基于麥克風(fēng)信號(hào)和遠(yuǎn)端參考信號(hào)來估計(jì)回聲抑制信號(hào)和回聲信號(hào)；濾波器估計(jì)代碼，該濾波器估計(jì)代碼被配置為使至少一個(gè)處理器基于回聲抑制信號(hào)和回聲信號(hào)來估計(jì)用于麥克風(fēng)信號(hào)的增強(qiáng)濾波器；生成代碼，該生成代碼被配置為使至少一個(gè)處理器基于增強(qiáng)濾波器來生成增強(qiáng)信號(hào)；以及調(diào)整代碼，該調(diào)整代碼被配置為使至少一個(gè)處理器使用自動(dòng)增益控制(agc)來調(diào)整增強(qiáng)信號(hào)并且輸出經(jīng)調(diào)整的信號(hào)。

10、該裝置可以進(jìn)一步包括第一階段和第二階段，其中由第一階段估計(jì)回聲抑制信號(hào)和回聲信號(hào)，并且由第二階段估計(jì)增強(qiáng)濾波器。

11、在第一階段中，該裝置可以進(jìn)一步包括：計(jì)算代碼，該計(jì)算代碼被配置為使至少一個(gè)處理器基于麥克風(fēng)信號(hào)和遠(yuǎn)端參考信號(hào)來計(jì)算第一協(xié)方差矩陣；處理代碼，該處理代碼被配置為使至少一個(gè)處理器通過第一線性投影濾波器處理第一協(xié)方差矩陣并且對(duì)第一線性投影濾波器的結(jié)果進(jìn)行編碼以估計(jì)第一階段濾波器；應(yīng)用代碼，該應(yīng)用代碼被配置為使至少一個(gè)處理器將第一階段濾波器應(yīng)用于時(shí)間-頻率移位的麥克風(fēng)信號(hào)和遠(yuǎn)端參考信號(hào)；以及輸出代碼，該輸出代碼被配置為使至少一個(gè)處理器輸出回聲抑制信號(hào)和回聲信號(hào)。

12、在第二階段中，該裝置可以進(jìn)一步包括：第二生成代碼，該第二生成代碼被配置為使至少一個(gè)處理器基于第一線性投影濾波器以及回聲抑制信號(hào)和回聲信號(hào)的歸一化對(duì)數(shù)功率譜來生成第二階段輸入特征；第二處理代碼，該第二處理代碼被配置為使至少一個(gè)處理器通過第二線性投影濾波器處理第二階段輸入特征，對(duì)第二線性投影濾波器的結(jié)果進(jìn)行編碼以估計(jì)第二階段濾波器，并且應(yīng)用第二階段濾波器以估計(jì)目標(biāo)語音和麥克風(fēng)噪聲的通道；第二計(jì)算代碼，該第二計(jì)算代碼被配置為使至少一個(gè)處理器基于目標(biāo)語音和麥克風(fēng)噪聲的估計(jì)通道來計(jì)算第二協(xié)方差矩陣；以及第三處理代碼，該第三處理代碼被配置為使至少一個(gè)處理器通過遞歸神經(jīng)網(wǎng)絡(luò)處理第二協(xié)方差矩陣并且輸出增強(qiáng)濾波器。

13、該裝置可以進(jìn)一步包括其中麥克風(fēng)信號(hào)包括目標(biāo)語音、失真遠(yuǎn)端參考信號(hào)和麥克風(fēng)噪聲。

14、該裝置可以進(jìn)一步包括計(jì)算代碼，該計(jì)算代碼被配置為使至少一個(gè)處理器基于時(shí)域中的尺度不變信號(hào)失真比和增強(qiáng)信號(hào)與目標(biāo)信號(hào)之間的頻譜幅度差的l1范數(shù)來計(jì)算損失函數(shù)。

15、該裝置可以進(jìn)一步包括：在調(diào)整代碼中的編碼代碼，該編碼代碼被配置為使至少一個(gè)處理器對(duì)增強(qiáng)信號(hào)幅度進(jìn)行編碼以預(yù)測(cè)agc幅度；在調(diào)整代碼中的agc生成代碼，該agc生成代碼被配置為使至少一個(gè)處理器基于增強(qiáng)信號(hào)的相位在時(shí)域中生成agc信號(hào)；以及在調(diào)整代碼中的第二調(diào)整代碼，該第二調(diào)整代碼被配置為使至少一個(gè)處理器基于agc信號(hào)來調(diào)整增強(qiáng)信號(hào)。

16、根據(jù)本公開的另一方面，一種存儲(chǔ)指令的非易失性計(jì)算機(jī)可讀介質(zhì)，該指令由用于使用遞歸神經(jīng)網(wǎng)絡(luò)進(jìn)行聲學(xué)回聲抑制的裝置的至少一個(gè)處理器執(zhí)行。該指令使至少一個(gè)處理器生成麥克風(fēng)信號(hào)和遠(yuǎn)端參考信號(hào)；基于麥克風(fēng)信號(hào)和遠(yuǎn)端參考信號(hào)來估計(jì)回聲抑制信號(hào)和回聲信號(hào)；基于回聲抑制信號(hào)和回聲信號(hào)來估計(jì)用于麥克風(fēng)信號(hào)的增強(qiáng)濾波器；基于增強(qiáng)濾波器來生成增強(qiáng)信號(hào)；以及使用自動(dòng)增益控制(agc)來調(diào)整增強(qiáng)信號(hào)并且輸出經(jīng)調(diào)整的信號(hào)。

17、該非易失性計(jì)算機(jī)可讀介質(zhì)可以進(jìn)一步包括第一階段和第二階段，其中由第一階段估計(jì)回聲抑制信號(hào)和回聲信號(hào)，并且由第二階段估計(jì)增強(qiáng)濾波器。

18、該非易失性計(jì)算機(jī)可讀介質(zhì)可以進(jìn)一步包括其中在第一階段中，該指令進(jìn)一步使至少一個(gè)處理器：基于麥克風(fēng)信號(hào)和遠(yuǎn)端參考信號(hào)來計(jì)算第一協(xié)方差矩陣；通過第一線性投影濾波器處理第一協(xié)方差矩陣，并且對(duì)第一線性投影濾波器的結(jié)果進(jìn)行編碼以估計(jì)第一階段濾波器；將第一階段濾波器應(yīng)用于時(shí)間-頻率移位的麥克風(fēng)信號(hào)和遠(yuǎn)端參考信號(hào)；以及輸出回聲抑制信號(hào)和回聲信號(hào)。

19、該非易失性計(jì)算機(jī)可讀介質(zhì)可以進(jìn)一步包括其中在第二階段中，該指令進(jìn)一步使至少一個(gè)處理器：基于第一線性投影濾波器和回聲抑制信號(hào)和回聲信號(hào)的歸一化對(duì)數(shù)功率譜來生成第二階段輸入特征；通過第二線性投影濾波器處理第二階段輸入特征；對(duì)第二線性投影濾波器的結(jié)果進(jìn)行編碼以估計(jì)第二階段濾波器，并且應(yīng)用第二階段濾波器以估計(jì)目標(biāo)語音和麥克風(fēng)噪聲的通道；基于目標(biāo)語音和麥克風(fēng)噪聲的估計(jì)通道來計(jì)算第二協(xié)方差矩陣；以及通過遞歸神經(jīng)網(wǎng)絡(luò)處理第二協(xié)方差矩陣并且輸出增強(qiáng)濾波器。

20、該非易失性計(jì)算機(jī)可讀介質(zhì)可以進(jìn)一步包括其中麥克風(fēng)信號(hào)包括目標(biāo)語音、失真遠(yuǎn)端參考信號(hào)和麥克風(fēng)噪聲。

21、該非易失性計(jì)算機(jī)可讀介質(zhì)可以進(jìn)一步包括其中該指令進(jìn)一步使至少一個(gè)處理器基于時(shí)域中的尺度不變信號(hào)失真比和增強(qiáng)信號(hào)與目標(biāo)信號(hào)之間的頻譜幅度差的l1范數(shù)來計(jì)算損失函數(shù)。

22、附加的實(shí)施例將在隨后的描述中闡述，并且部分地將從描述中顯而易見，和/或可以通過實(shí)踐本公開的所呈現(xiàn)的實(shí)施例來實(shí)現(xiàn)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：于蒙,徐勇,張春雷,張世雄,俞棟
技術(shù)所有人：騰訊美國(guó)有限責(zé)任公司
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

用于使用遞歸神經(jīng)網(wǎng)絡(luò)進(jìn)行統(tǒng)一聲學(xué)回聲抑制的技術(shù)的制作方法