本技術(shù)涉及音頻處理領(lǐng)域,尤其涉及一種音頻多場景化加噪處理方法、相應(yīng)的裝置、電子設(shè)備及計算機可讀存儲介質(zhì)。
背景技術(shù):
1、隨著市場的不斷發(fā)展,各種音頻任務(wù)模型層出不窮,提供語音喚醒、語音識別等服務(wù),然而,大多數(shù)訓(xùn)練數(shù)據(jù)集直接處理音頻信號,僅能起到數(shù)據(jù)增強的作用,無法確保在特定應(yīng)用場景中的效果。因此,急需一種能夠針對特定應(yīng)用場景的音頻場景化方法,音頻場景化需要在音頻信號中添加場景噪聲,以模擬真實的聲學(xué)環(huán)境,這就是音頻信號處理中的音頻加噪方法。
2、在生產(chǎn)進入市場后,大多數(shù)音頻任務(wù)模型在實際應(yīng)用中受場景因素影響,逐漸偏向不同噪聲環(huán)境的需求。在內(nèi)容不變的情況下,聲學(xué)場景發(fā)生了演變,導(dǎo)致模型的實際執(zhí)行效果與預(yù)期效果出現(xiàn)偏差,用戶的使用體驗得不到保障。
3、隨著硬件算力的快速發(fā)展,場景化加噪技術(shù)也有了很大的進步,場景化加噪方法主要分為兩類:一類是通過實際搭建場景進行聲音錄制,另一類是通過軟件仿真模擬聲學(xué)場景。由于實際搭建需要消耗大量人力資源和時間,越來越多的研究者傾向于對軟件仿真進行進一步探索。由于場景化加噪方法基于記錄的實際噪聲,并根據(jù)已有的場景信息進行構(gòu)建或模擬,又稱為非生成式場景化加噪方法。盡管非生成式方法能夠針對性地提高模型在目標(biāo)聲學(xué)場景中的效果,但其應(yīng)用場景僅限于已知或可預(yù)見的場景。在實際應(yīng)用中,復(fù)刻聲學(xué)場景耗時耗力,研究人員很難收集到足夠的場景化音頻來訓(xùn)練模型。
4、綜上所述,適應(yīng)現(xiàn)有技術(shù)中實際搭建需要消耗大量人力資源和時間,以及應(yīng)用場景僅限于已知或可預(yù)見的場景,在實際應(yīng)用中,復(fù)刻聲學(xué)場景耗時耗力,研究人員很難收集到足夠的場景化音頻來訓(xùn)練模型等問題,本技術(shù)人出于解決該問題的考慮作出相應(yīng)的探索。
技術(shù)實現(xiàn)思路
1、本技術(shù)的目的在于解決上述問題而提供一種音頻多場景化加噪處理方法、相應(yīng)的裝置、電子設(shè)備及計算機可讀存儲介質(zhì)。
2、為滿足本技術(shù)的各個目的,本技術(shù)采用如下技術(shù)方案:
3、適應(yīng)本技術(shù)的目的之一而提出的一種音頻多場景化加噪處理方法,包括:
4、響應(yīng)音頻多場景化加噪處理指令,音頻服務(wù)系統(tǒng)獲取目標(biāo)聲學(xué)場景中的噪聲類型以及需要進行音頻多場景化加噪處理的原始音頻;
5、所述音頻服務(wù)系統(tǒng)將每種噪聲類型作為文本嵌入傳輸至噪聲生成系統(tǒng)中的潛在擴散模型,在所述潛在擴散模型中采用高斯噪聲分布和所述文本嵌入作為起點,逐步生成噪聲音頻樣本;
6、所述音頻服務(wù)系統(tǒng)將每條噪聲音頻樣本按照多個預(yù)設(shè)音量倍數(shù)閾值進行復(fù)制,以確定所述多個預(yù)設(shè)音量倍數(shù)閾值相對應(yīng)的噪聲音頻樣本;
7、所述音頻服務(wù)系統(tǒng)在每種噪聲類型中隨機選取一個或多個預(yù)設(shè)音量倍數(shù)閾值相對應(yīng)的噪聲音頻樣本,并與需要進行音頻多場景化加噪處理的原始音頻進行合成,得到加噪音頻。
8、可選的,所述音頻服務(wù)系統(tǒng)將每種噪聲類型作為文本嵌入傳輸至噪聲生成系統(tǒng)中的潛在擴散模型,在所述潛在擴散模型中采用高斯噪聲分布和所述文本嵌入作為起點,逐步生成噪聲音頻樣本的步驟,包括:
9、在所述潛在擴散模型中生成基于對比文本音頻預(yù)訓(xùn)練的音頻先驗;
10、采用變分自編碼器作為解碼器,并根據(jù)所述音頻先驗重構(gòu)出梅爾頻譜圖;
11、采用預(yù)設(shè)的對抗生成網(wǎng)絡(luò)作為聲碼器,根據(jù)所述梅爾頻譜圖生成高質(zhì)量的所述噪聲音頻樣本。
12、可選的,所述音頻服務(wù)系統(tǒng)將每種噪聲類型作為文本嵌入傳輸至噪聲生成系統(tǒng)中的潛在擴散模型,在所述潛在擴散模型中采用高斯噪聲分布和所述文本嵌入作為起點,逐步生成噪聲音頻樣本的步驟,包括:
13、所述潛在擴散模型包括擴散過程以及逆擴散過程;
14、在所述擴散過程中,文本嵌入在每個時間步n∈[1,...,n],轉(zhuǎn)移概率由如下公式給出:
15、
16、其中,βn是預(yù)定義的噪聲尺度,且滿足0<β1<···<βn<...<βn<1,αn是1-βn的重新參數(shù)化,表示每一步的噪聲水平,表示注入的標(biāo)準(zhǔn)高斯分布噪聲,在最后的時間步n,具有標(biāo)準(zhǔn)的各向同性高斯分布;
17、對于模型優(yōu)化,采用重新加權(quán)的噪聲估計訓(xùn)練目標(biāo):
18、
19、其中,θ是當(dāng)前參數(shù)情況,表示計算∈和∈θ(zn,n,ey)的相似度,∈是注入噪聲,∈θ(zn,n,ey)是預(yù)測噪聲,zn是預(yù)測噪聲的高斯分布,n是時間步,ex是對比文本音頻預(yù)訓(xùn)練中的預(yù)訓(xùn)練音頻編碼器faudio(·)生成的音頻波形x的嵌入;
20、在逆擴散過程中,從高斯噪聲分布和文本嵌入ey開始,以所述文本嵌入ey為條件的去噪過程,通過以下過程逐漸生成音頻先驗z0,包括:
21、
22、均值和方差參數(shù)化為:
23、
24、其中,∈θ(zn,n,ey)是預(yù)測噪聲,在訓(xùn)練階段,根據(jù)音頻樣本x的音頻嵌入ex學(xué)習(xí)生成音頻先驗z0,在預(yù)測階段,提供文本嵌入ey來預(yù)測噪聲∈θ(zn,n,ey)。
25、可選的,所述音頻服務(wù)系統(tǒng)將每種噪聲類型作為文本嵌入傳輸至噪聲生成系統(tǒng)中的潛在擴散模型,在所述潛在擴散模型中采用高斯噪聲分布和所述文本嵌入作為起點,逐步生成噪聲音頻樣本的步驟,包括:
26、在對比文本音頻預(yù)訓(xùn)練中,噪聲音頻樣本表示為x,文本描述表示為y,其使用文本編碼器ftext(·)和音頻編碼器faudio(·)分別提取文本嵌入ey和音頻嵌入ex。
27、可選的,所述音頻服務(wù)系統(tǒng)將每種噪聲類型作為文本嵌入傳輸至噪聲生成系統(tǒng)中的潛在擴散模型,在所述潛在擴散模型中采用高斯噪聲分布和所述文本嵌入作為起點,逐步生成噪聲音頻樣本的步驟,包括:
28、在變分自編碼器中,所述變分自編碼器由一個編碼器和一個帶有堆疊卷積模塊的解碼器組成;
29、所述編碼器將所述梅爾頻譜圖x壓縮到潛在空間其中,r表示壓縮比;
30、所述解碼器從所述潛在擴散模型中生成的音頻先驗表示構(gòu)建梅爾頻譜圖采用預(yù)設(shè)的對抗生成網(wǎng)絡(luò)作為聲碼器,從所述梅爾頻譜圖成噪聲音頻樣本
31、可選的,所述音頻服務(wù)系統(tǒng)在每種噪聲類型中隨機選取一個或多個預(yù)設(shè)音量倍數(shù)閾值相對應(yīng)的噪聲音頻樣本,并與需要進行音頻多場景化加噪處理的原始音頻進行合成的步驟,包括:
32、所述音頻服務(wù)系統(tǒng)打開并讀取每個音頻文件,將其轉(zhuǎn)換為numpy數(shù)組;
33、確定所有音頻數(shù)據(jù)中的最大長度,并對長度不足的數(shù)據(jù)用零進行填充;
34、將所有音頻數(shù)據(jù)按列堆疊為一個二維數(shù)組,然后展平為一維數(shù)組;
35、創(chuàng)建一個新的wav音頻文件,并將展平后的音頻數(shù)據(jù)寫入其中。
36、可選的,所述對抗生成網(wǎng)絡(luò)的基礎(chǔ)網(wǎng)絡(luò)架構(gòu)為hifi-gan對抗生成網(wǎng)絡(luò)。
37、適應(yīng)本技術(shù)的另一目的而提供的一種音頻多場景化加噪處理裝置,包括:
38、音頻獲取模塊,設(shè)置為響應(yīng)音頻多場景化加噪處理指令,音頻服務(wù)系統(tǒng)獲取目標(biāo)聲學(xué)場景中的噪聲類型以及需要進行音頻多場景化加噪處理的原始音頻;
39、噪聲音頻生成模塊,設(shè)置為所述音頻服務(wù)系統(tǒng)將每種噪聲類型作為文本嵌入傳輸至噪聲生成系統(tǒng)中的潛在擴散模型,在所述潛在擴散模型中采用高斯噪聲分布和所述文本嵌入作為起點,逐步生成噪聲音頻樣本;
40、音頻樣本復(fù)制模塊,設(shè)置為所述音頻服務(wù)系統(tǒng)將每條噪聲音頻樣本按照多個預(yù)設(shè)音量倍數(shù)閾值進行復(fù)制,以確定所述多個預(yù)設(shè)音量倍數(shù)閾值相對應(yīng)的噪聲音頻樣本;
41、音頻合成模塊,設(shè)置為所述音頻服務(wù)系統(tǒng)在每種噪聲類型中隨機選取一個或多個預(yù)設(shè)音量倍數(shù)閾值相對應(yīng)的噪聲音頻樣本,并與需要進行音頻多場景化加噪處理的原始音頻進行合成,得到加噪音頻。
42、適應(yīng)本技術(shù)的另一目的而提供的一種電子設(shè)備,包括中央處理器和存儲器,所述中央處理器用于調(diào)用運行存儲于所述存儲器中的計算機程序以執(zhí)行本技術(shù)所述音頻多場景化加噪處理方法的步驟。
43、適應(yīng)本技術(shù)的另一目的而提供的一種計算機可讀存儲介質(zhì),其以計算機可讀指令的形式存儲有依據(jù)所述音頻多場景化加噪處理方法所實現(xiàn)的計算機程序,該計算機程序被計算機調(diào)用運行時,執(zhí)行相應(yīng)的方法所包括的步驟。
44、相對于現(xiàn)有技術(shù),本技術(shù)針對現(xiàn)有技術(shù)中實際搭建需要消耗大量人力資源和時間,以及應(yīng)用場景僅限于已知或可預(yù)見的場景,在實際應(yīng)用中,復(fù)刻聲學(xué)場景耗時耗力,研究人員很難收集到足夠的場景化音頻來訓(xùn)練模型等問題,本技術(shù)包括但不限于如下有益效果:
45、本技術(shù)的音頻多場景化加噪處理方法,能夠在多種聲學(xué)場景下,通過音頻多場景化加噪處理大大提高模型訓(xùn)練和學(xué)習(xí)提高模型的準(zhǔn)確性,能夠顯著提高模型魯棒性和評估模型性能,通過將真實世界中的各種噪聲添加到訓(xùn)練數(shù)據(jù)中,使模型更好地適應(yīng)實際環(huán)境,提高其魯棒性,通過在測試數(shù)據(jù)中添加噪聲,評估模型在實際應(yīng)用中的表現(xiàn)。
46、進一步的,本技術(shù)的音頻多場景化加噪處理方法,能夠同時添加不同類型的噪聲,操作簡單,耗時較短,顯著提升了音頻添加噪聲的處理效率。