與本公開的示例實(shí)施例一致的裝置和方法總體上涉及利用神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)處理和用于語音增強(qiáng)的深度學(xué)習(xí)。具體地,實(shí)施例涉及訓(xùn)練神經(jīng)回聲(neuralecho)模型和統(tǒng)一模型中的自動(dòng)增益控制(agc)任務(wù)以執(zhí)行聲學(xué)回聲消除(aec)并改善回聲和噪聲抑制。相關(guān)技術(shù)的描述聲學(xué)回聲消除(aec)在全雙工語音通信以及在揚(yáng)聲器播放時(shí)的條件下用于識(shí)別的前端語音增強(qiáng)中起重要作用。在相關(guān)技術(shù)中,已經(jīng)研究了用于估計(jì)聲學(xué)回聲路徑和線性回聲消除的自適應(yīng)濾波方法。歸一化最小均方濾波器(例如,頻域自適應(yīng)濾波器和多延遲塊頻域自適應(yīng)濾波器)由于其穩(wěn)健性和低復(fù)雜度而被廣泛使用。非線性后處理通常被級(jí)聯(lián)用于殘余回聲抑制。然而,這些方法對(duì)于非線性回聲失真、回聲路徑變化和非平穩(wěn)噪聲并不有效。因此,已經(jīng)采用深度神經(jīng)網(wǎng)絡(luò)(例如,復(fù)值dnn、長(zhǎng)短期記憶網(wǎng)絡(luò)和多頭自注意力)來開發(fā)回聲抑制系統(tǒng),以更好地處理非線性回聲失真和回聲路徑延遲。在相關(guān)技術(shù)中,采用線性自適應(yīng)濾波,繼之以基于神經(jīng)網(wǎng)絡(luò)的殘余回聲抑制,以形成用于aec系統(tǒng)設(shè)計(jì)的混合系統(tǒng),并且取得了有希望的結(jié)果。相關(guān)技術(shù)還描述了兩階段多通道聯(lián)合aec和波束成形以及支持音頻前端aec、噪聲抑制和agc的nn3a模型。aec還被公式化為一種端到端監(jiān)督語音增強(qiáng)問題,其中采用神經(jīng)網(wǎng)絡(luò)來預(yù)測(cè)用于提取近端目標(biāo)說話者的掩碼。在一些相關(guān)技術(shù)中,aec任務(wù)采用雙信號(hào)變換lstm網(wǎng)絡(luò)(dtln),并且提出一種基于wave-u-net的具有注意力機(jī)制的聲學(xué)回聲消除來聯(lián)合抑制聲學(xué)回聲和背景噪聲。使用復(fù)雜神經(jīng)網(wǎng)絡(luò)和頻率-時(shí)間-lstm(f-t-lstm)提供了重要的相位信息建模和時(shí)間建模,優(yōu)于aec中的最佳方法。
背景技術(shù):
技術(shù)實(shí)現(xiàn)思路
1、根據(jù)實(shí)施例,提供了用于經(jīng)由neuralecho模型和在統(tǒng)一模型中訓(xùn)練的自動(dòng)增益控制(agc)進(jìn)行聲學(xué)回聲抑制的方法,以執(zhí)行聲學(xué)回聲消除(aec)并改善回聲和噪聲抑制。
2、根據(jù)本公開的一方面,提供了一種由至少一個(gè)處理器執(zhí)行的用于使用遞歸神經(jīng)網(wǎng)絡(luò)進(jìn)行聲學(xué)回聲抑制的方法。該方法包括:接收麥克風(fēng)信號(hào)和遠(yuǎn)端參考信號(hào);基于麥克風(fēng)信號(hào)和遠(yuǎn)端參考信號(hào)來估計(jì)回聲抑制信號(hào)和回聲信號(hào);基于回聲抑制信號(hào)和回聲信號(hào)來估計(jì)用于麥克風(fēng)信號(hào)的增強(qiáng)濾波器;基于增強(qiáng)濾波器來生成增強(qiáng)信號(hào);以及使用自動(dòng)增益控制(agc)來調(diào)整增強(qiáng)信號(hào)并且輸出經(jīng)調(diào)整的信號(hào)。
3、該方法可以進(jìn)一步包括第一階段和第二階段,其中由第一階段估計(jì)回聲抑制信號(hào)和回聲信號(hào),并且由第二階段估計(jì)增強(qiáng)濾波器。
4、在第一階段中,該方法可以進(jìn)一步包括:基于麥克風(fēng)信號(hào)和遠(yuǎn)端參考信號(hào)來計(jì)算第一協(xié)方差矩陣;通過第一線性投影濾波器處理第一協(xié)方差矩陣,并且對(duì)第一線性投影濾波器的結(jié)果進(jìn)行編碼以估計(jì)第一階段濾波器;將第一階段濾波器應(yīng)用于時(shí)間-頻率移位的麥克風(fēng)信號(hào)和遠(yuǎn)端參考信號(hào);以及輸出回聲抑制信號(hào)和回聲信號(hào)。
5、在第二階段中,該方法可以進(jìn)一步包括:基于第一線性投影濾波器和回聲抑制信號(hào)和回聲信號(hào)的歸一化對(duì)數(shù)功率譜來生成第二階段輸入特征;通過第二線性投影濾波器處理第二階段輸入特征;對(duì)第二線性投影濾波器的結(jié)果進(jìn)行編碼以估計(jì)第二階段濾波器,并且應(yīng)用第二階段濾波器以估計(jì)目標(biāo)語音和麥克風(fēng)噪聲的通道;基于目標(biāo)語音和麥克風(fēng)噪聲的估計(jì)通道來計(jì)算第二協(xié)方差矩陣;以及通過遞歸神經(jīng)網(wǎng)絡(luò)處理第二協(xié)方差矩陣并且輸出增強(qiáng)濾波器。
6、該方法可以進(jìn)一步包括其中麥克風(fēng)信號(hào)包括目標(biāo)語音、失真遠(yuǎn)端參考信號(hào)和麥克風(fēng)噪聲。
7、該方法可以進(jìn)一步包括基于時(shí)域中的尺度不變信號(hào)失真比和增強(qiáng)信號(hào)與目標(biāo)信號(hào)之間的頻譜幅度差的l1范數(shù)來計(jì)算損失函數(shù)。
8、該方法可以進(jìn)一步包括其中調(diào)節(jié)增強(qiáng)信號(hào)包括:對(duì)增強(qiáng)信號(hào)幅度進(jìn)行編碼以預(yù)測(cè)agc幅度;基于增強(qiáng)信號(hào)的相位在時(shí)域中生成agc信號(hào);以及基于agc信號(hào)來調(diào)整增強(qiáng)信號(hào)。
9、根據(jù)本公開的另一方面,一種用于使用遞歸神經(jīng)網(wǎng)絡(luò)進(jìn)行聲學(xué)回聲抑制的裝置包括:至少一個(gè)存儲(chǔ)器,該至少一個(gè)存儲(chǔ)器被配置為存儲(chǔ)程序代碼;以及至少一個(gè)處理器,該至少一個(gè)處理器被配置為讀取該程序代碼并且按照該程序代碼的指示進(jìn)行操作。該程序代碼包括:接收代碼,該接收代碼被配置為使至少一個(gè)處理器接收麥克風(fēng)信號(hào)和遠(yuǎn)端參考信號(hào);信號(hào)估計(jì)代碼,該信號(hào)估計(jì)代碼被配置為使至少一個(gè)處理器基于麥克風(fēng)信號(hào)和遠(yuǎn)端參考信號(hào)來估計(jì)回聲抑制信號(hào)和回聲信號(hào);濾波器估計(jì)代碼,該濾波器估計(jì)代碼被配置為使至少一個(gè)處理器基于回聲抑制信號(hào)和回聲信號(hào)來估計(jì)用于麥克風(fēng)信號(hào)的增強(qiáng)濾波器;生成代碼,該生成代碼被配置為使至少一個(gè)處理器基于增強(qiáng)濾波器來生成增強(qiáng)信號(hào);以及調(diào)整代碼,該調(diào)整代碼被配置為使至少一個(gè)處理器使用自動(dòng)增益控制(agc)來調(diào)整增強(qiáng)信號(hào)并且輸出經(jīng)調(diào)整的信號(hào)。
10、該裝置可以進(jìn)一步包括第一階段和第二階段,其中由第一階段估計(jì)回聲抑制信號(hào)和回聲信號(hào),并且由第二階段估計(jì)增強(qiáng)濾波器。
11、在第一階段中,該裝置可以進(jìn)一步包括:計(jì)算代碼,該計(jì)算代碼被配置為使至少一個(gè)處理器基于麥克風(fēng)信號(hào)和遠(yuǎn)端參考信號(hào)來計(jì)算第一協(xié)方差矩陣;處理代碼,該處理代碼被配置為使至少一個(gè)處理器通過第一線性投影濾波器處理第一協(xié)方差矩陣并且對(duì)第一線性投影濾波器的結(jié)果進(jìn)行編碼以估計(jì)第一階段濾波器;應(yīng)用代碼,該應(yīng)用代碼被配置為使至少一個(gè)處理器將第一階段濾波器應(yīng)用于時(shí)間-頻率移位的麥克風(fēng)信號(hào)和遠(yuǎn)端參考信號(hào);以及輸出代碼,該輸出代碼被配置為使至少一個(gè)處理器輸出回聲抑制信號(hào)和回聲信號(hào)。
12、在第二階段中,該裝置可以進(jìn)一步包括:第二生成代碼,該第二生成代碼被配置為使至少一個(gè)處理器基于第一線性投影濾波器以及回聲抑制信號(hào)和回聲信號(hào)的歸一化對(duì)數(shù)功率譜來生成第二階段輸入特征;第二處理代碼,該第二處理代碼被配置為使至少一個(gè)處理器通過第二線性投影濾波器處理第二階段輸入特征,對(duì)第二線性投影濾波器的結(jié)果進(jìn)行編碼以估計(jì)第二階段濾波器,并且應(yīng)用第二階段濾波器以估計(jì)目標(biāo)語音和麥克風(fēng)噪聲的通道;第二計(jì)算代碼,該第二計(jì)算代碼被配置為使至少一個(gè)處理器基于目標(biāo)語音和麥克風(fēng)噪聲的估計(jì)通道來計(jì)算第二協(xié)方差矩陣;以及第三處理代碼,該第三處理代碼被配置為使至少一個(gè)處理器通過遞歸神經(jīng)網(wǎng)絡(luò)處理第二協(xié)方差矩陣并且輸出增強(qiáng)濾波器。
13、該裝置可以進(jìn)一步包括其中麥克風(fēng)信號(hào)包括目標(biāo)語音、失真遠(yuǎn)端參考信號(hào)和麥克風(fēng)噪聲。
14、該裝置可以進(jìn)一步包括計(jì)算代碼,該計(jì)算代碼被配置為使至少一個(gè)處理器基于時(shí)域中的尺度不變信號(hào)失真比和增強(qiáng)信號(hào)與目標(biāo)信號(hào)之間的頻譜幅度差的l1范數(shù)來計(jì)算損失函數(shù)。
15、該裝置可以進(jìn)一步包括:在調(diào)整代碼中的編碼代碼,該編碼代碼被配置為使至少一個(gè)處理器對(duì)增強(qiáng)信號(hào)幅度進(jìn)行編碼以預(yù)測(cè)agc幅度;在調(diào)整代碼中的agc生成代碼,該agc生成代碼被配置為使至少一個(gè)處理器基于增強(qiáng)信號(hào)的相位在時(shí)域中生成agc信號(hào);以及在調(diào)整代碼中的第二調(diào)整代碼,該第二調(diào)整代碼被配置為使至少一個(gè)處理器基于agc信號(hào)來調(diào)整增強(qiáng)信號(hào)。
16、根據(jù)本公開的另一方面,一種存儲(chǔ)指令的非易失性計(jì)算機(jī)可讀介質(zhì),該指令由用于使用遞歸神經(jīng)網(wǎng)絡(luò)進(jìn)行聲學(xué)回聲抑制的裝置的至少一個(gè)處理器執(zhí)行。該指令使至少一個(gè)處理器生成麥克風(fēng)信號(hào)和遠(yuǎn)端參考信號(hào);基于麥克風(fēng)信號(hào)和遠(yuǎn)端參考信號(hào)來估計(jì)回聲抑制信號(hào)和回聲信號(hào);基于回聲抑制信號(hào)和回聲信號(hào)來估計(jì)用于麥克風(fēng)信號(hào)的增強(qiáng)濾波器;基于增強(qiáng)濾波器來生成增強(qiáng)信號(hào);以及使用自動(dòng)增益控制(agc)來調(diào)整增強(qiáng)信號(hào)并且輸出經(jīng)調(diào)整的信號(hào)。
17、該非易失性計(jì)算機(jī)可讀介質(zhì)可以進(jìn)一步包括第一階段和第二階段,其中由第一階段估計(jì)回聲抑制信號(hào)和回聲信號(hào),并且由第二階段估計(jì)增強(qiáng)濾波器。
18、該非易失性計(jì)算機(jī)可讀介質(zhì)可以進(jìn)一步包括其中在第一階段中,該指令進(jìn)一步使至少一個(gè)處理器:基于麥克風(fēng)信號(hào)和遠(yuǎn)端參考信號(hào)來計(jì)算第一協(xié)方差矩陣;通過第一線性投影濾波器處理第一協(xié)方差矩陣,并且對(duì)第一線性投影濾波器的結(jié)果進(jìn)行編碼以估計(jì)第一階段濾波器;將第一階段濾波器應(yīng)用于時(shí)間-頻率移位的麥克風(fēng)信號(hào)和遠(yuǎn)端參考信號(hào);以及輸出回聲抑制信號(hào)和回聲信號(hào)。
19、該非易失性計(jì)算機(jī)可讀介質(zhì)可以進(jìn)一步包括其中在第二階段中,該指令進(jìn)一步使至少一個(gè)處理器:基于第一線性投影濾波器和回聲抑制信號(hào)和回聲信號(hào)的歸一化對(duì)數(shù)功率譜來生成第二階段輸入特征;通過第二線性投影濾波器處理第二階段輸入特征;對(duì)第二線性投影濾波器的結(jié)果進(jìn)行編碼以估計(jì)第二階段濾波器,并且應(yīng)用第二階段濾波器以估計(jì)目標(biāo)語音和麥克風(fēng)噪聲的通道;基于目標(biāo)語音和麥克風(fēng)噪聲的估計(jì)通道來計(jì)算第二協(xié)方差矩陣;以及通過遞歸神經(jīng)網(wǎng)絡(luò)處理第二協(xié)方差矩陣并且輸出增強(qiáng)濾波器。
20、該非易失性計(jì)算機(jī)可讀介質(zhì)可以進(jìn)一步包括其中麥克風(fēng)信號(hào)包括目標(biāo)語音、失真遠(yuǎn)端參考信號(hào)和麥克風(fēng)噪聲。
21、該非易失性計(jì)算機(jī)可讀介質(zhì)可以進(jìn)一步包括其中該指令進(jìn)一步使至少一個(gè)處理器基于時(shí)域中的尺度不變信號(hào)失真比和增強(qiáng)信號(hào)與目標(biāo)信號(hào)之間的頻譜幅度差的l1范數(shù)來計(jì)算損失函數(shù)。
22、附加的實(shí)施例將在隨后的描述中闡述,并且部分地將從描述中顯而易見,和/或可以通過實(shí)踐本公開的所呈現(xiàn)的實(shí)施例來實(shí)現(xiàn)。