本發(fā)明涉及音頻數(shù)據(jù)處理領(lǐng)域,具體涉及一種基于resunet的多任務(wù)語音恢復(fù)方法。
背景技術(shù):
1、語音信號(hào)是人類在通信過程中產(chǎn)生的聲學(xué)波形,人的發(fā)音器官發(fā)出的具有一定信息的聲音,是我們生活中不可缺失的獲取信息和傳遞信息的手段。近年來隨著信息時(shí)代數(shù)據(jù)的爆炸式增長,人類已經(jīng)進(jìn)入數(shù)據(jù)驅(qū)動(dòng)的智能語音時(shí)代?,F(xiàn)如今語音技術(shù)在網(wǎng)絡(luò)音視頻會(huì)議、語音助手、實(shí)時(shí)翻譯、智能音箱、安防監(jiān)控、智能客服等方面都有著重要的作用。隨著音頻技術(shù)的廣泛應(yīng)用,例如語音通信、音樂播放、語音識(shí)別等,對(duì)音頻信號(hào)的質(zhì)量要求越來越高。然而,音頻信號(hào)常受到噪聲、壓縮、各種其他失真等因素的影響,導(dǎo)致音質(zhì)下降,提高語音理解難度。為了提高語音的質(zhì)量,提高語音理解度,處理各種語音失真,基于深度學(xué)習(xí)的語音恢復(fù)方法成為了研究的重點(diǎn)。
2、語音恢復(fù)是將退化的語音信號(hào)恢復(fù)為高質(zhì)量語音信號(hào)的過程,過去的語音恢復(fù)通常處理噪聲和混響,而少有處理比如混響、削波、帶寬降低、丟包等等帶來的失真。傳統(tǒng)的語音恢復(fù)方法通常需要假設(shè)噪聲是平穩(wěn)的線性的加性高斯噪聲,通過對(duì)信號(hào)進(jìn)行頻域或時(shí)域處理來減少平穩(wěn)噪聲的干擾,比如使用維納濾波法、譜減法或者其他數(shù)字信號(hào)處理技術(shù)。隨著深度學(xué)習(xí)的發(fā)展,基于dnn、unet和gan的語音增強(qiáng)方法已經(jīng)獲得了先進(jìn)的結(jié)果,這些方法可以自動(dòng)學(xué)習(xí)復(fù)雜的噪聲模型,適應(yīng)非平穩(wěn)噪聲環(huán)境。但是過去幾年的基于深度學(xué)習(xí)的語音恢復(fù)方法,主要針對(duì)的是單任務(wù)的恢復(fù),比如語音去噪、語音去混響和語音超分辨率等等,這些方法的缺點(diǎn)在于只關(guān)注了個(gè)別失真帶來的影響的恢復(fù),而現(xiàn)實(shí)中很有可能出現(xiàn)多種失真同時(shí)干擾語音的情況,而在這種情況下,過去的語音恢復(fù)方法就難以恢復(fù)出高質(zhì)量的干凈語音。因此學(xué)者們進(jìn)行了更深入的研究,嘗試同時(shí)解決多種類型失真,但現(xiàn)在的方法仍存在以下問題:
3、1)失真種類少:目前所設(shè)計(jì)的模型只能同時(shí)解決兩三種失真類型,失真類型涵蓋不多,無法適應(yīng)復(fù)雜的現(xiàn)實(shí)環(huán)境,通用性差;
4、2)網(wǎng)絡(luò)結(jié)構(gòu)不先進(jìn),導(dǎo)致訓(xùn)練難度高,模型性能差:過去的模型往往在提取特征時(shí),由于網(wǎng)絡(luò)結(jié)構(gòu)的問題,可能導(dǎo)致梯度消失、梯度爆炸等問題,導(dǎo)致網(wǎng)絡(luò)深度不夠,無法提取語音信號(hào)更深層次的特征,導(dǎo)致最終語音恢復(fù)效果無法進(jìn)一步改善。
技術(shù)實(shí)現(xiàn)思路
1、為解決上述問題,本發(fā)明提供了一種基于resunet的多任務(wù)語音恢復(fù)方法,實(shí)現(xiàn)在多種復(fù)雜環(huán)境下針對(duì)不同語音失真情況均能進(jìn)行高質(zhì)量恢復(fù)。
2、具體方案包括:
3、s1.將采集的干凈語音數(shù)據(jù)和噪聲數(shù)據(jù)進(jìn)行混合處理得到帶噪語音數(shù)據(jù);
4、s2.對(duì)帶噪語音數(shù)據(jù)進(jìn)行失真處理,得到退化語音數(shù)據(jù);所述退化語音數(shù)據(jù)包括不同失真類型的低質(zhì)量語音數(shù)據(jù);
5、s3.構(gòu)建基于resunet的多任務(wù)語音恢復(fù)模型,其包括上采樣模塊、瓶頸層、下采樣模塊;
6、s4.采用退化語音數(shù)據(jù)訓(xùn)練多任務(wù)語音恢復(fù)模型,并采用多分辨率短時(shí)傅里葉變換損失函數(shù)計(jì)算損失;
7、s5.將待處理低質(zhì)量語音送入訓(xùn)練好的多任務(wù)語音恢復(fù)模型,生成高質(zhì)量語音。
8、本發(fā)明的有益效果:
9、本發(fā)明中所提出的方法不僅能完成恢復(fù)帶有噪聲、混響的語音,還能同時(shí)恢復(fù)具有其他失真的語音,失真包括削波、丟包、低分辨率、編解碼器等因素為語音帶來的失真,以此來對(duì)復(fù)雜環(huán)境下的失真語音進(jìn)行通用語音恢復(fù)。另外,過去的模型往往在提取特征時(shí),由于網(wǎng)絡(luò)結(jié)構(gòu)的問題,可能導(dǎo)致梯度消失、梯度爆炸等問題,訓(xùn)練困難,也會(huì)導(dǎo)致網(wǎng)絡(luò)深度不夠,無法提取語音信號(hào)更深層次的特征,導(dǎo)致最終語音恢復(fù)效果無法進(jìn)一步改善。對(duì)此,我們結(jié)合了unet和resnet的兩種模型的優(yōu)點(diǎn),還改進(jìn)了瓶頸層,添加了掩碼自注意力機(jī)制,改善了模型的訓(xùn)練效率和性能。
1.一種基于resunet的多任務(wù)語音恢復(fù)方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的一種基于resunet的多任務(wù)語音恢復(fù)方法,其特征在于,步驟s2對(duì)帶噪語音數(shù)據(jù)進(jìn)行失真處理得到退化語音數(shù)據(jù)包括:
3.根據(jù)權(quán)利要求1所述的一種基于resunet的多任務(wù)語音恢復(fù)方法,其特征在于,上采樣模塊包括8個(gè)級(jí)聯(lián)的編碼層,所有編碼層結(jié)構(gòu)相同;每一編碼層包括第一主分支和第一殘差分支,第一主分支包括級(jí)聯(lián)的跨步一維卷積層、整流線性單元層、1×1卷積層和門控線性單元層;第一殘差分支包括級(jí)聯(lián)的跨步一維卷積層和整流線性單元層;
4.根據(jù)權(quán)利要求3所述的一種基于resunet的多任務(wù)語音恢復(fù)方法,其特征在于,每一個(gè)跨步一維卷積層的核大小為4、跨步卷積步長為2;在第一主分支中,1×1卷積層的輸出通道數(shù)是跨步一維卷積層的輸出通道數(shù)的兩倍;每一個(gè)一維轉(zhuǎn)置卷積層的核大小為4、步長為2;在第二主分支中,1×1卷積層的輸出通道數(shù)是一維轉(zhuǎn)置卷積層的輸出通道數(shù)的兩倍。
5.根據(jù)權(quán)利要求1所述的一種基于resunet的多任務(wù)語音恢復(fù)方法,其特征在于,瓶頸層由5個(gè)自注意模塊組成,每個(gè)自注意模塊由多頭自注意層和位置全連接層組成;多頭自注意層的頭數(shù)為8;位置全連接層的輸入通道大小為512,輸出通道大小為2048。
6.根據(jù)權(quán)利要求1所述的一種基于resunet的多任務(wù)語音恢復(fù)方法,其特征在于,多分辨率短時(shí)傅里葉變換損失函數(shù)表示為:
7.根據(jù)權(quán)利要求6所述的一種基于resunet的多任務(wù)語音恢復(fù)方法,其特征在于,stftm(x;θi)的具體計(jì)算公式為: