一種基于師生模型的多任務(wù)約束端到端含噪語(yǔ)音情感識(shí)別方法

文檔序號(hào)：40434250發(fā)布日期：2024-12-24 15:08閱讀：14來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本發(fā)明屬于語(yǔ)音情感識(shí)別，具體涉及一種基于師生模型的多任務(wù)約束端到端含噪語(yǔ)音情感識(shí)別方法。

背景技術(shù)：

1、目前，在理想環(huán)境條件下，語(yǔ)音情感識(shí)別系統(tǒng)已展現(xiàn)出卓越性能。然而，當(dāng)這些系統(tǒng)應(yīng)用于現(xiàn)實(shí)世界時(shí)，環(huán)境噪聲會(huì)干擾語(yǔ)音信號(hào)中的有效信息，從而使得檢測(cè)顯著的語(yǔ)音情感表征變得極為困難。研究人員從多個(gè)方面展開(kāi)了針對(duì)性的嘗試，包括預(yù)處理操作以改善或消除原始語(yǔ)音信號(hào)中的噪聲，選擇對(duì)噪聲更具魯棒性的特征，以及構(gòu)建更為魯棒和穩(wěn)定的模型。

2、預(yù)處理算法通過(guò)減少或消除噪聲的影響來(lái)改善語(yǔ)音信號(hào)質(zhì)量?，F(xiàn)有的方法包括譜減法、基于最優(yōu)修正對(duì)數(shù)譜幅度估計(jì)器的音頻增強(qiáng)方法，以及使用濾波器進(jìn)行預(yù)處理的方法等等?；谏疃葘W(xué)習(xí)的語(yǔ)音增強(qiáng)在識(shí)別嘈雜語(yǔ)音中的情緒方面也逐漸顯現(xiàn)出優(yōu)勢(shì)。例如，一項(xiàng)研究使用長(zhǎng)短期記憶(long?short?term?memory，lstm)架構(gòu)構(gòu)建增強(qiáng)模型，結(jié)合改進(jìn)的語(yǔ)音存在概率來(lái)估計(jì)lstm結(jié)構(gòu)掩碼的后處理方法，從而提高了識(shí)別準(zhǔn)確性。chakraborty等人研究了一種基于噪聲梅爾頻率倒譜系數(shù)的矢量泰勒級(jí)數(shù)展開(kāi)的特征補(bǔ)償技術(shù)，并通過(guò)具有聽(tīng)覺(jué)掩蔽公式的矢量泰勒級(jí)數(shù)展開(kāi)改進(jìn)該技術(shù)，展示了顯著的性能優(yōu)勢(shì)。

3、特征選擇旨在確定最相關(guān)的特征，從更廣泛的特征集合中提取特征并降低數(shù)據(jù)維數(shù)，以減少過(guò)擬合并增加可解釋性。在噪聲環(huán)境下的語(yǔ)音情感識(shí)別研究中，研究者們探討并提出了多種特征提取策略，包括噪聲自適應(yīng)、說(shuō)話人自適應(yīng)、結(jié)合說(shuō)話人和噪聲的自適應(yīng)以及噪聲特定特征選擇等。這些方法通常與基于相關(guān)性的特征子集選擇和順序浮動(dòng)前向搜索相結(jié)合，以提高模型在含噪環(huán)境下的性能。bandela等人提出了一種基于低級(jí)描述符性能的特征選擇方法，使用卷積神經(jīng)網(wǎng)絡(luò)(convolutional?neural?network，cnn)結(jié)構(gòu)在compare2013特征集的65個(gè)低級(jí)描述符上進(jìn)行測(cè)試，評(píng)估不同特征選擇方法的噪聲魯棒性。實(shí)驗(yàn)結(jié)果顯示，該方法在10db噪聲下將語(yǔ)音情感識(shí)別性能分別提高24.4％(喚醒)、23.9％(優(yōu)勢(shì))和43.2％(效價(jià))。

4、針對(duì)噪聲干擾的情況，建立更具魯棒性和穩(wěn)健性的模型是提高整體模型識(shí)別率的關(guān)鍵方法之一。triantafyllopoulos等人研究了訓(xùn)練可擴(kuò)展的深度學(xué)習(xí)架構(gòu)，以增強(qiáng)低信噪比環(huán)境下的音頻信號(hào)。zhu?zhou等人提出了一種虛擬放大法和一個(gè)魯棒的多場(chǎng)景語(yǔ)音情感識(shí)別系統(tǒng)，通過(guò)修改音頻的環(huán)境條件后合成新的數(shù)據(jù)庫(kù)，模擬不同水平的高斯白噪聲、真實(shí)世界噪聲和混響下的實(shí)驗(yàn)。tan等人使用半監(jiān)督學(xué)習(xí)技術(shù)識(shí)別音樂(lè)情感，并進(jìn)行了嘈雜環(huán)境下的學(xué)生訓(xùn)練實(shí)驗(yàn)，貢獻(xiàn)了更多的靈感與思考。guimaraes等人使用噪聲和混響來(lái)增強(qiáng)訓(xùn)練數(shù)據(jù)，并將課程學(xué)習(xí)和多任務(wù)學(xué)習(xí)方法相結(jié)合，構(gòu)建了一個(gè)基于hubert的語(yǔ)音情感識(shí)別模型，實(shí)驗(yàn)結(jié)果表明，該模型在“野外”語(yǔ)音應(yīng)用中表現(xiàn)出一定的優(yōu)勢(shì)。jaiswal等人研究了噪聲對(duì)人類和機(jī)器感知情緒的影響，并探索了去噪特征空間和語(yǔ)音增強(qiáng)算法與情緒識(shí)別模型的集成方法。

技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明目的在于針對(duì)上述現(xiàn)有技術(shù)的缺陷和不足，提出了一種基于師生模型的多任務(wù)約束端到端含噪語(yǔ)音情感識(shí)別方法，利用教師模型通過(guò)多任務(wù)訓(xùn)練提煉顯著情感特征，并借鑒知識(shí)蒸餾指導(dǎo)學(xué)生模型訓(xùn)練，提升準(zhǔn)確性和魯棒性；引入多級(jí)增強(qiáng)損失機(jī)制，使學(xué)生模型在中間層學(xué)習(xí)教師模型的關(guān)鍵情感信息，使含噪語(yǔ)音特征逼近干凈語(yǔ)音特征，結(jié)合超參數(shù)損失函數(shù)提升含噪環(huán)境下的模型準(zhǔn)確率；采用語(yǔ)音增強(qiáng)輔助任務(wù)與多級(jí)增強(qiáng)損失結(jié)合，構(gòu)建復(fù)合型多層級(jí)語(yǔ)音增強(qiáng)輔助結(jié)構(gòu)，增強(qiáng)含噪環(huán)境下的魯棒性；測(cè)試階段僅關(guān)注學(xué)生模型的核心流程，無(wú)需依賴教師模型或輔助任務(wù)，降低測(cè)試復(fù)雜度，提升測(cè)試速率。

2、本發(fā)明為解決其技術(shù)問(wèn)題所采用的技術(shù)方案是：提供一種基于師生模型的多任務(wù)約束端到端含噪語(yǔ)音情感識(shí)別方法，所述該方法包括如下步驟，

3、步驟1：將干凈語(yǔ)音信號(hào)輸入到教師模型，教師模型由7個(gè)一維卷積層構(gòu)成的cnn特征編碼器和12個(gè)transformer層組成的wav2vec?2.0模型級(jí)聯(lián)構(gòu)成，然后通過(guò)全連接層，獲得字母向量和情感軟標(biāo)簽，在語(yǔ)音識(shí)別和情感識(shí)別聯(lián)合約束下精調(diào)教師模型網(wǎng)絡(luò)；

4、步驟2：將含噪語(yǔ)音信號(hào)輸入到學(xué)生模型，學(xué)生模型情感預(yù)測(cè)任務(wù)由7個(gè)一維卷積層構(gòu)成的cnn特征編碼器和12個(gè)transformer層組成的wav2vec?2.0模型級(jí)聯(lián)構(gòu)成，然后通過(guò)全連接層，獲得預(yù)測(cè)標(biāo)簽；

5、步驟3：將含噪語(yǔ)音信號(hào)輸入到學(xué)生模型，學(xué)生模型語(yǔ)音增強(qiáng)任務(wù)由7個(gè)一維卷積層構(gòu)成的cnn特征編碼器與12個(gè)transformer層和7個(gè)一維轉(zhuǎn)置卷積層組成的語(yǔ)音增強(qiáng)結(jié)構(gòu)組成，輸出預(yù)測(cè)語(yǔ)音；

6、步驟4：根據(jù)所提出多重聯(lián)合損失函數(shù)，形成了一個(gè)復(fù)合型的約束機(jī)制，用以引導(dǎo)和規(guī)范學(xué)生模型的訓(xùn)練過(guò)程，提升含噪環(huán)境下模型準(zhǔn)確率的效果；

7、步驟5：對(duì)所提出的一種基于師生模型的多任務(wù)約束端到端含噪語(yǔ)音情感識(shí)別方法進(jìn)行性能評(píng)估。

8、進(jìn)一步地，所述步驟1的具體步驟為：

9、步驟1-1：輸入的含噪語(yǔ)音信號(hào)音頻波形x經(jīng)過(guò)7個(gè)一維卷積層得到下采樣的音頻特征z；

10、步驟1-2：特征編碼器輸出下采樣的音頻特征z經(jīng)過(guò)12個(gè)transformer層得到上下文表示c；

11、步驟1-3：上下文表示c經(jīng)過(guò)全連接層得到字母向量和情感軟標(biāo)簽yit，其中字母向量不再參與后續(xù)任務(wù)。

12、進(jìn)一步地，所述步驟2的具體步驟為：

13、步驟2-1：輸入的干凈語(yǔ)音信號(hào)音頻波形x’經(jīng)過(guò)7個(gè)一維卷積層得到下采樣的音頻特征z’；

14、步驟2-2：特征編碼器輸出下采樣的音頻特征z’經(jīng)過(guò)12個(gè)transformer層得到上下文表示c’；

15、步驟2-3：上下文表示c’經(jīng)過(guò)全連接層得到情感標(biāo)簽參與后續(xù)任務(wù)。

16、進(jìn)一步地，所述步驟3的具體步驟為：

17、步驟3-1：輸入的干凈語(yǔ)音信號(hào)音頻波形x’經(jīng)過(guò)7個(gè)一維卷積層得到下采樣的音頻特征z’；

18、步驟3-2：特征編碼器輸出下采樣的音頻特征z’經(jīng)過(guò)12個(gè)transformer層得到上下文表示c’；

19、步驟3-3：上下文表示c’經(jīng)過(guò)語(yǔ)音重建模塊得到預(yù)測(cè)語(yǔ)音參與后續(xù)任務(wù)。

20、進(jìn)一步地，所述步驟3-3中，實(shí)現(xiàn)語(yǔ)音重建模塊的具體方法包括如下步驟：

21、步驟3-3-1：構(gòu)建語(yǔ)音重建模塊模塊，由7個(gè)與cnn特征提取器維度匹配的轉(zhuǎn)置卷積神經(jīng)網(wǎng)絡(luò)構(gòu)成；

22、步驟3-3-2：使用殘差連接技術(shù)，將cnn特征提取器的奇數(shù)層網(wǎng)絡(luò)輸出與語(yǔ)音重建模塊的對(duì)應(yīng)層輸出相連接，有效地促進(jìn)了網(wǎng)絡(luò)內(nèi)部信息的流通。

23、進(jìn)一步地，所述步驟4的具體步驟為：

24、步驟4-1：蒸餾損失kl的計(jì)算公式表達(dá)為：

25、

26、其中，是教師模型得到的第i個(gè)樣本的軟標(biāo)簽，是由學(xué)生模型得到的第i個(gè)樣本的軟預(yù)測(cè)，t為蒸餾溫度系數(shù)，為情感軟標(biāo)簽，為情感標(biāo)簽，得到蒸餾損失；

27、步驟4-2：構(gòu)建情感標(biāo)簽損失函數(shù)為多分類交叉熵?fù)p失函數(shù)：

28、

29、其中，m表示樣本數(shù)，n表示情感類別數(shù)，p(xij)表示對(duì)于觀測(cè)樣本i屬于類別j的預(yù)測(cè)概率，得到情感標(biāo)簽損失；

30、步驟4-3：構(gòu)建多級(jí)增強(qiáng)損失函數(shù)：

31、

32、其中，定義m為樣本數(shù)量，為教師模型第i層的輸出，代表學(xué)生網(wǎng)絡(luò)模型第i層輸出的特征向量，即學(xué)生模型模型第i層的預(yù)測(cè)值，i表示教師模型和學(xué)生模型的transformer網(wǎng)絡(luò)的層數(shù)；

33、分別計(jì)算了教師模型與學(xué)生模型transformer網(wǎng)絡(luò)偶數(shù)層間的損失，共計(jì)6層，公式如下：

34、

35、得到多級(jí)增強(qiáng)損失；

36、步驟4-4：構(gòu)建尺度不變信噪比損失函數(shù)(si-snr)：

37、

38、其中，stargct表示目標(biāo)信號(hào)(即原始干凈語(yǔ)音信號(hào))，enoisc表示噪聲信號(hào)(即增強(qiáng)信號(hào)與目標(biāo)信號(hào)之間的差異)，||·||2表示l2范數(shù)，即信號(hào)能量的度量，得到語(yǔ)音增強(qiáng)損失；

39、步驟4-5：將蒸餾損失、情感標(biāo)簽損失、多級(jí)增強(qiáng)損失與語(yǔ)音增強(qiáng)損失聯(lián)合約束的形式，共同約束學(xué)生模型的訓(xùn)練：

40、lall＝αlkl+(1-α)lce+βls+γlsi-snr，

41、其中，α為蒸餾損失的權(quán)重，β為多級(jí)增強(qiáng)損失的權(quán)重，γ為語(yǔ)音增強(qiáng)損失的權(quán)重。

42、進(jìn)一步地，所述步驟5中，對(duì)所提出的一種基于師生模型的多任務(wù)約束端到端含噪語(yǔ)音情感識(shí)別方法進(jìn)行性能評(píng)估的的具體步驟為：

43、步驟5-1：將基于師生模型的多任務(wù)約束端到端含噪語(yǔ)音情感識(shí)方法與去除教師模型的方法進(jìn)行消融實(shí)驗(yàn)，驗(yàn)證師生模型的有效性；

44、步驟5-2：將基于師生模型的多任務(wù)約束端到端含噪語(yǔ)音情感識(shí)方法與去除多級(jí)增強(qiáng)連接的方法進(jìn)行消融實(shí)驗(yàn)，驗(yàn)證師生模型的有效性；

45、步驟5-3：將基于師生模型的多任務(wù)約束端到端含噪語(yǔ)音情感識(shí)方法與去除語(yǔ)音增強(qiáng)的方法進(jìn)行消融實(shí)驗(yàn)，驗(yàn)證語(yǔ)音增強(qiáng)模塊的有效性；

46、步驟5-4：討論聯(lián)合約束中權(quán)重?fù)p失的權(quán)重的具體取值，探究出最優(yōu)的權(quán)重值。

47、有益效果：

48、1、本發(fā)明使用教師學(xué)生模型并借鑒知識(shí)蒸餾的思想，通過(guò)教師模型的多任務(wù)訓(xùn)練，提煉出純凈、顯著的情感特征，以指導(dǎo)學(xué)生模型的訓(xùn)練過(guò)程，提升了模型的準(zhǔn)確性和魯棒性，增強(qiáng)了泛化能力。

49、2、本發(fā)明引入了一種多級(jí)增強(qiáng)損失機(jī)制，讓學(xué)生模型能夠在中間層學(xué)習(xí)到教師模型從干凈語(yǔ)音中提取的關(guān)鍵情感信息，使學(xué)生模型從含噪語(yǔ)音中學(xué)習(xí)到的特征逼近干凈語(yǔ)音的特征，本發(fā)明通過(guò)多個(gè)超參數(shù)將多個(gè)損失函數(shù)聯(lián)合起來(lái)，可以達(dá)到針對(duì)含噪環(huán)境下提升模型準(zhǔn)確率的效果。

50、3、本發(fā)明采用了語(yǔ)音增強(qiáng)輔助任務(wù)的思想，將語(yǔ)音增強(qiáng)輔助任務(wù)與多級(jí)增強(qiáng)損失相結(jié)合，實(shí)現(xiàn)了復(fù)合型多層級(jí)的語(yǔ)音增強(qiáng)輔助結(jié)構(gòu)，提升了語(yǔ)音情感識(shí)別任務(wù)在含噪環(huán)境下的魯棒性。

51、4、本發(fā)明在測(cè)試階段時(shí)，僅需關(guān)注學(xué)生模型中特定于語(yǔ)音情感識(shí)別分類的核心流程，而無(wú)需依賴教師模型或?qū)W生模型中設(shè)計(jì)的輔助任務(wù)支線，顯著降低了測(cè)試過(guò)程中所需處理的模型復(fù)雜度，從而在不犧牲準(zhǔn)確性的前提下，有效地提升了測(cè)試的執(zhí)行速率。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：孫林慧,雷云龍,張子曉,葉蕾,李平安
技術(shù)所有人：南京郵電大學(xué)
我是此專利的發(fā)明人

上一篇：一種單樁豎向抗壓靜載試驗(yàn)裝置的制作方法
上一篇：一種可調(diào)的砍排機(jī)用砍排刀的制作方法

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種基于師生模型的多任務(wù)約束端到端含噪語(yǔ)音情感識(shí)別方法