本發(fā)明屬于語(yǔ)音情感識(shí)別,具體涉及一種基于師生模型的多任務(wù)約束端到端含噪語(yǔ)音情感識(shí)別方法。
背景技術(shù):
1、目前,在理想環(huán)境條件下,語(yǔ)音情感識(shí)別系統(tǒng)已展現(xiàn)出卓越性能。然而,當(dāng)這些系統(tǒng)應(yīng)用于現(xiàn)實(shí)世界時(shí),環(huán)境噪聲會(huì)干擾語(yǔ)音信號(hào)中的有效信息,從而使得檢測(cè)顯著的語(yǔ)音情感表征變得極為困難。研究人員從多個(gè)方面展開(kāi)了針對(duì)性的嘗試,包括預(yù)處理操作以改善或消除原始語(yǔ)音信號(hào)中的噪聲,選擇對(duì)噪聲更具魯棒性的特征,以及構(gòu)建更為魯棒和穩(wěn)定的模型。
2、預(yù)處理算法通過(guò)減少或消除噪聲的影響來(lái)改善語(yǔ)音信號(hào)質(zhì)量?,F(xiàn)有的方法包括譜減法、基于最優(yōu)修正對(duì)數(shù)譜幅度估計(jì)器的音頻增強(qiáng)方法,以及使用濾波器進(jìn)行預(yù)處理的方法等等?;谏疃葘W(xué)習(xí)的語(yǔ)音增強(qiáng)在識(shí)別嘈雜語(yǔ)音中的情緒方面也逐漸顯現(xiàn)出優(yōu)勢(shì)。例如,一項(xiàng)研究使用長(zhǎng)短期記憶(long?short?term?memory,lstm)架構(gòu)構(gòu)建增強(qiáng)模型,結(jié)合改進(jìn)的語(yǔ)音存在概率來(lái)估計(jì)lstm結(jié)構(gòu)掩碼的后處理方法,從而提高了識(shí)別準(zhǔn)確性。chakraborty等人研究了一種基于噪聲梅爾頻率倒譜系數(shù)的矢量泰勒級(jí)數(shù)展開(kāi)的特征補(bǔ)償技術(shù),并通過(guò)具有聽(tīng)覺(jué)掩蔽公式的矢量泰勒級(jí)數(shù)展開(kāi)改進(jìn)該技術(shù),展示了顯著的性能優(yōu)勢(shì)。
3、特征選擇旨在確定最相關(guān)的特征,從更廣泛的特征集合中提取特征并降低數(shù)據(jù)維數(shù),以減少過(guò)擬合并增加可解釋性。在噪聲環(huán)境下的語(yǔ)音情感識(shí)別研究中,研究者們探討并提出了多種特征提取策略,包括噪聲自適應(yīng)、說(shuō)話人自適應(yīng)、結(jié)合說(shuō)話人和噪聲的自適應(yīng)以及噪聲特定特征選擇等。這些方法通常與基于相關(guān)性的特征子集選擇和順序浮動(dòng)前向搜索相結(jié)合,以提高模型在含噪環(huán)境下的性能。bandela等人提出了一種基于低級(jí)描述符性能的特征選擇方法,使用卷積神經(jīng)網(wǎng)絡(luò)(convolutional?neural?network,cnn)結(jié)構(gòu)在compare2013特征集的65個(gè)低級(jí)描述符上進(jìn)行測(cè)試,評(píng)估不同特征選擇方法的噪聲魯棒性。實(shí)驗(yàn)結(jié)果顯示,該方法在10db噪聲下將語(yǔ)音情感識(shí)別性能分別提高24.4%(喚醒)、23.9%(優(yōu)勢(shì))和43.2%(效價(jià))。
4、針對(duì)噪聲干擾的情況,建立更具魯棒性和穩(wěn)健性的模型是提高整體模型識(shí)別率的關(guān)鍵方法之一。triantafyllopoulos等人研究了訓(xùn)練可擴(kuò)展的深度學(xué)習(xí)架構(gòu),以增強(qiáng)低信噪比環(huán)境下的音頻信號(hào)。zhu?zhou等人提出了一種虛擬放大法和一個(gè)魯棒的多場(chǎng)景語(yǔ)音情感識(shí)別系統(tǒng),通過(guò)修改音頻的環(huán)境條件后合成新的數(shù)據(jù)庫(kù),模擬不同水平的高斯白噪聲、真實(shí)世界噪聲和混響下的實(shí)驗(yàn)。tan等人使用半監(jiān)督學(xué)習(xí)技術(shù)識(shí)別音樂(lè)情感,并進(jìn)行了嘈雜環(huán)境下的學(xué)生訓(xùn)練實(shí)驗(yàn),貢獻(xiàn)了更多的靈感與思考。guimaraes等人使用噪聲和混響來(lái)增強(qiáng)訓(xùn)練數(shù)據(jù),并將課程學(xué)習(xí)和多任務(wù)學(xué)習(xí)方法相結(jié)合,構(gòu)建了一個(gè)基于hubert的語(yǔ)音情感識(shí)別模型,實(shí)驗(yàn)結(jié)果表明,該模型在“野外”語(yǔ)音應(yīng)用中表現(xiàn)出一定的優(yōu)勢(shì)。jaiswal等人研究了噪聲對(duì)人類和機(jī)器感知情緒的影響,并探索了去噪特征空間和語(yǔ)音增強(qiáng)算法與情緒識(shí)別模型的集成方法。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明目的在于針對(duì)上述現(xiàn)有技術(shù)的缺陷和不足,提出了一種基于師生模型的多任務(wù)約束端到端含噪語(yǔ)音情感識(shí)別方法,利用教師模型通過(guò)多任務(wù)訓(xùn)練提煉顯著情感特征,并借鑒知識(shí)蒸餾指導(dǎo)學(xué)生模型訓(xùn)練,提升準(zhǔn)確性和魯棒性;引入多級(jí)增強(qiáng)損失機(jī)制,使學(xué)生模型在中間層學(xué)習(xí)教師模型的關(guān)鍵情感信息,使含噪語(yǔ)音特征逼近干凈語(yǔ)音特征,結(jié)合超參數(shù)損失函數(shù)提升含噪環(huán)境下的模型準(zhǔn)確率;采用語(yǔ)音增強(qiáng)輔助任務(wù)與多級(jí)增強(qiáng)損失結(jié)合,構(gòu)建復(fù)合型多層級(jí)語(yǔ)音增強(qiáng)輔助結(jié)構(gòu),增強(qiáng)含噪環(huán)境下的魯棒性;測(cè)試階段僅關(guān)注學(xué)生模型的核心流程,無(wú)需依賴教師模型或輔助任務(wù),降低測(cè)試復(fù)雜度,提升測(cè)試速率。
2、本發(fā)明為解決其技術(shù)問(wèn)題所采用的技術(shù)方案是:提供一種基于師生模型的多任務(wù)約束端到端含噪語(yǔ)音情感識(shí)別方法,所述該方法包括如下步驟,
3、步驟1:將干凈語(yǔ)音信號(hào)輸入到教師模型,教師模型由7個(gè)一維卷積層構(gòu)成的cnn特征編碼器和12個(gè)transformer層組成的wav2vec?2.0模型級(jí)聯(lián)構(gòu)成,然后通過(guò)全連接層,獲得字母向量和情感軟標(biāo)簽,在語(yǔ)音識(shí)別和情感識(shí)別聯(lián)合約束下精調(diào)教師模型網(wǎng)絡(luò);
4、步驟2:將含噪語(yǔ)音信號(hào)輸入到學(xué)生模型,學(xué)生模型情感預(yù)測(cè)任務(wù)由7個(gè)一維卷積層構(gòu)成的cnn特征編碼器和12個(gè)transformer層組成的wav2vec?2.0模型級(jí)聯(lián)構(gòu)成,然后通過(guò)全連接層,獲得預(yù)測(cè)標(biāo)簽;
5、步驟3:將含噪語(yǔ)音信號(hào)輸入到學(xué)生模型,學(xué)生模型語(yǔ)音增強(qiáng)任務(wù)由7個(gè)一維卷積層構(gòu)成的cnn特征編碼器與12個(gè)transformer層和7個(gè)一維轉(zhuǎn)置卷積層組成的語(yǔ)音增強(qiáng)結(jié)構(gòu)組成,輸出預(yù)測(cè)語(yǔ)音;
6、步驟4:根據(jù)所提出多重聯(lián)合損失函數(shù),形成了一個(gè)復(fù)合型的約束機(jī)制,用以引導(dǎo)和規(guī)范學(xué)生模型的訓(xùn)練過(guò)程,提升含噪環(huán)境下模型準(zhǔn)確率的效果;
7、步驟5:對(duì)所提出的一種基于師生模型的多任務(wù)約束端到端含噪語(yǔ)音情感識(shí)別方法進(jìn)行性能評(píng)估。
8、進(jìn)一步地,所述步驟1的具體步驟為:
9、步驟1-1:輸入的含噪語(yǔ)音信號(hào)音頻波形x經(jīng)過(guò)7個(gè)一維卷積層得到下采樣的音頻特征z;
10、步驟1-2:特征編碼器輸出下采樣的音頻特征z經(jīng)過(guò)12個(gè)transformer層得到上下文表示c;
11、步驟1-3:上下文表示c經(jīng)過(guò)全連接層得到字母向量和情感軟標(biāo)簽yit,其中字母向量不再參與后續(xù)任務(wù)。
12、進(jìn)一步地,所述步驟2的具體步驟為:
13、步驟2-1:輸入的干凈語(yǔ)音信號(hào)音頻波形x’經(jīng)過(guò)7個(gè)一維卷積層得到下采樣的音頻特征z’;
14、步驟2-2:特征編碼器輸出下采樣的音頻特征z’經(jīng)過(guò)12個(gè)transformer層得到上下文表示c’;
15、步驟2-3:上下文表示c’經(jīng)過(guò)全連接層得到情感標(biāo)簽參與后續(xù)任務(wù)。
16、進(jìn)一步地,所述步驟3的具體步驟為:
17、步驟3-1:輸入的干凈語(yǔ)音信號(hào)音頻波形x’經(jīng)過(guò)7個(gè)一維卷積層得到下采樣的音頻特征z’;
18、步驟3-2:特征編碼器輸出下采樣的音頻特征z’經(jīng)過(guò)12個(gè)transformer層得到上下文表示c’;
19、步驟3-3:上下文表示c’經(jīng)過(guò)語(yǔ)音重建模塊得到預(yù)測(cè)語(yǔ)音參與后續(xù)任務(wù)。
20、進(jìn)一步地,所述步驟3-3中,實(shí)現(xiàn)語(yǔ)音重建模塊的具體方法包括如下步驟:
21、步驟3-3-1:構(gòu)建語(yǔ)音重建模塊模塊,由7個(gè)與cnn特征提取器維度匹配的轉(zhuǎn)置卷積神經(jīng)網(wǎng)絡(luò)構(gòu)成;
22、步驟3-3-2:使用殘差連接技術(shù),將cnn特征提取器的奇數(shù)層網(wǎng)絡(luò)輸出與語(yǔ)音重建模塊的對(duì)應(yīng)層輸出相連接,有效地促進(jìn)了網(wǎng)絡(luò)內(nèi)部信息的流通。
23、進(jìn)一步地,所述步驟4的具體步驟為:
24、步驟4-1:蒸餾損失kl的計(jì)算公式表達(dá)為:
25、
26、其中,是教師模型得到的第i個(gè)樣本的軟標(biāo)簽,是由學(xué)生模型得到的第i個(gè)樣本的軟預(yù)測(cè),t為蒸餾溫度系數(shù),為情感軟標(biāo)簽,為情感標(biāo)簽,得到蒸餾損失;
27、步驟4-2:構(gòu)建情感標(biāo)簽損失函數(shù)為多分類交叉熵?fù)p失函數(shù):
28、
29、其中,m表示樣本數(shù),n表示情感類別數(shù),p(xij)表示對(duì)于觀測(cè)樣本i屬于類別j的預(yù)測(cè)概率,得到情感標(biāo)簽損失;
30、步驟4-3:構(gòu)建多級(jí)增強(qiáng)損失函數(shù):
31、
32、其中,定義m為樣本數(shù)量,為教師模型第i層的輸出,代表學(xué)生網(wǎng)絡(luò)模型第i層輸出的特征向量,即學(xué)生模型模型第i層的預(yù)測(cè)值,i表示教師模型和學(xué)生模型的transformer網(wǎng)絡(luò)的層數(shù);
33、分別計(jì)算了教師模型與學(xué)生模型transformer網(wǎng)絡(luò)偶數(shù)層間的損失,共計(jì)6層,公式如下:
34、
35、得到多級(jí)增強(qiáng)損失;
36、步驟4-4:構(gòu)建尺度不變信噪比損失函數(shù)(si-snr):
37、
38、其中,stargct表示目標(biāo)信號(hào)(即原始干凈語(yǔ)音信號(hào)),enoisc表示噪聲信號(hào)(即增強(qiáng)信號(hào)與目標(biāo)信號(hào)之間的差異),||·||2表示l2范數(shù),即信號(hào)能量的度量,得到語(yǔ)音增強(qiáng)損失;
39、步驟4-5:將蒸餾損失、情感標(biāo)簽損失、多級(jí)增強(qiáng)損失與語(yǔ)音增強(qiáng)損失聯(lián)合約束的形式,共同約束學(xué)生模型的訓(xùn)練:
40、lall=αlkl+(1-α)lce+βls+γlsi-snr,
41、其中,α為蒸餾損失的權(quán)重,β為多級(jí)增強(qiáng)損失的權(quán)重,γ為語(yǔ)音增強(qiáng)損失的權(quán)重。
42、進(jìn)一步地,所述步驟5中,對(duì)所提出的一種基于師生模型的多任務(wù)約束端到端含噪語(yǔ)音情感識(shí)別方法進(jìn)行性能評(píng)估的的具體步驟為:
43、步驟5-1:將基于師生模型的多任務(wù)約束端到端含噪語(yǔ)音情感識(shí)方法與去除教師模型的方法進(jìn)行消融實(shí)驗(yàn),驗(yàn)證師生模型的有效性;
44、步驟5-2:將基于師生模型的多任務(wù)約束端到端含噪語(yǔ)音情感識(shí)方法與去除多級(jí)增強(qiáng)連接的方法進(jìn)行消融實(shí)驗(yàn),驗(yàn)證師生模型的有效性;
45、步驟5-3:將基于師生模型的多任務(wù)約束端到端含噪語(yǔ)音情感識(shí)方法與去除語(yǔ)音增強(qiáng)的方法進(jìn)行消融實(shí)驗(yàn),驗(yàn)證語(yǔ)音增強(qiáng)模塊的有效性;
46、步驟5-4:討論聯(lián)合約束中權(quán)重?fù)p失的權(quán)重的具體取值,探究出最優(yōu)的權(quán)重值。
47、有益效果:
48、1、本發(fā)明使用教師學(xué)生模型并借鑒知識(shí)蒸餾的思想,通過(guò)教師模型的多任務(wù)訓(xùn)練,提煉出純凈、顯著的情感特征,以指導(dǎo)學(xué)生模型的訓(xùn)練過(guò)程,提升了模型的準(zhǔn)確性和魯棒性,增強(qiáng)了泛化能力。
49、2、本發(fā)明引入了一種多級(jí)增強(qiáng)損失機(jī)制,讓學(xué)生模型能夠在中間層學(xué)習(xí)到教師模型從干凈語(yǔ)音中提取的關(guān)鍵情感信息,使學(xué)生模型從含噪語(yǔ)音中學(xué)習(xí)到的特征逼近干凈語(yǔ)音的特征,本發(fā)明通過(guò)多個(gè)超參數(shù)將多個(gè)損失函數(shù)聯(lián)合起來(lái),可以達(dá)到針對(duì)含噪環(huán)境下提升模型準(zhǔn)確率的效果。
50、3、本發(fā)明采用了語(yǔ)音增強(qiáng)輔助任務(wù)的思想,將語(yǔ)音增強(qiáng)輔助任務(wù)與多級(jí)增強(qiáng)損失相結(jié)合,實(shí)現(xiàn)了復(fù)合型多層級(jí)的語(yǔ)音增強(qiáng)輔助結(jié)構(gòu),提升了語(yǔ)音情感識(shí)別任務(wù)在含噪環(huán)境下的魯棒性。
51、4、本發(fā)明在測(cè)試階段時(shí),僅需關(guān)注學(xué)生模型中特定于語(yǔ)音情感識(shí)別分類的核心流程,而無(wú)需依賴教師模型或?qū)W生模型中設(shè)計(jì)的輔助任務(wù)支線,顯著降低了測(cè)試過(guò)程中所需處理的模型復(fù)雜度,從而在不犧牲準(zhǔn)確性的前提下,有效地提升了測(cè)試的執(zhí)行速率。