国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于師生模型的多任務(wù)約束端到端含噪語(yǔ)音情感識(shí)別方法

      文檔序號(hào):40434250發(fā)布日期:2024-12-24 15:08閱讀:14來(lái)源:國(guó)知局
      一種基于師生模型的多任務(wù)約束端到端含噪語(yǔ)音情感識(shí)別方法

      本發(fā)明屬于語(yǔ)音情感識(shí)別,具體涉及一種基于師生模型的多任務(wù)約束端到端含噪語(yǔ)音情感識(shí)別方法。


      背景技術(shù):

      1、目前,在理想環(huán)境條件下,語(yǔ)音情感識(shí)別系統(tǒng)已展現(xiàn)出卓越性能。然而,當(dāng)這些系統(tǒng)應(yīng)用于現(xiàn)實(shí)世界時(shí),環(huán)境噪聲會(huì)干擾語(yǔ)音信號(hào)中的有效信息,從而使得檢測(cè)顯著的語(yǔ)音情感表征變得極為困難。研究人員從多個(gè)方面展開(kāi)了針對(duì)性的嘗試,包括預(yù)處理操作以改善或消除原始語(yǔ)音信號(hào)中的噪聲,選擇對(duì)噪聲更具魯棒性的特征,以及構(gòu)建更為魯棒和穩(wěn)定的模型。

      2、預(yù)處理算法通過(guò)減少或消除噪聲的影響來(lái)改善語(yǔ)音信號(hào)質(zhì)量?,F(xiàn)有的方法包括譜減法、基于最優(yōu)修正對(duì)數(shù)譜幅度估計(jì)器的音頻增強(qiáng)方法,以及使用濾波器進(jìn)行預(yù)處理的方法等等?;谏疃葘W(xué)習(xí)的語(yǔ)音增強(qiáng)在識(shí)別嘈雜語(yǔ)音中的情緒方面也逐漸顯現(xiàn)出優(yōu)勢(shì)。例如,一項(xiàng)研究使用長(zhǎng)短期記憶(long?short?term?memory,lstm)架構(gòu)構(gòu)建增強(qiáng)模型,結(jié)合改進(jìn)的語(yǔ)音存在概率來(lái)估計(jì)lstm結(jié)構(gòu)掩碼的后處理方法,從而提高了識(shí)別準(zhǔn)確性。chakraborty等人研究了一種基于噪聲梅爾頻率倒譜系數(shù)的矢量泰勒級(jí)數(shù)展開(kāi)的特征補(bǔ)償技術(shù),并通過(guò)具有聽(tīng)覺(jué)掩蔽公式的矢量泰勒級(jí)數(shù)展開(kāi)改進(jìn)該技術(shù),展示了顯著的性能優(yōu)勢(shì)。

      3、特征選擇旨在確定最相關(guān)的特征,從更廣泛的特征集合中提取特征并降低數(shù)據(jù)維數(shù),以減少過(guò)擬合并增加可解釋性。在噪聲環(huán)境下的語(yǔ)音情感識(shí)別研究中,研究者們探討并提出了多種特征提取策略,包括噪聲自適應(yīng)、說(shuō)話人自適應(yīng)、結(jié)合說(shuō)話人和噪聲的自適應(yīng)以及噪聲特定特征選擇等。這些方法通常與基于相關(guān)性的特征子集選擇和順序浮動(dòng)前向搜索相結(jié)合,以提高模型在含噪環(huán)境下的性能。bandela等人提出了一種基于低級(jí)描述符性能的特征選擇方法,使用卷積神經(jīng)網(wǎng)絡(luò)(convolutional?neural?network,cnn)結(jié)構(gòu)在compare2013特征集的65個(gè)低級(jí)描述符上進(jìn)行測(cè)試,評(píng)估不同特征選擇方法的噪聲魯棒性。實(shí)驗(yàn)結(jié)果顯示,該方法在10db噪聲下將語(yǔ)音情感識(shí)別性能分別提高24.4%(喚醒)、23.9%(優(yōu)勢(shì))和43.2%(效價(jià))。

      4、針對(duì)噪聲干擾的情況,建立更具魯棒性和穩(wěn)健性的模型是提高整體模型識(shí)別率的關(guān)鍵方法之一。triantafyllopoulos等人研究了訓(xùn)練可擴(kuò)展的深度學(xué)習(xí)架構(gòu),以增強(qiáng)低信噪比環(huán)境下的音頻信號(hào)。zhu?zhou等人提出了一種虛擬放大法和一個(gè)魯棒的多場(chǎng)景語(yǔ)音情感識(shí)別系統(tǒng),通過(guò)修改音頻的環(huán)境條件后合成新的數(shù)據(jù)庫(kù),模擬不同水平的高斯白噪聲、真實(shí)世界噪聲和混響下的實(shí)驗(yàn)。tan等人使用半監(jiān)督學(xué)習(xí)技術(shù)識(shí)別音樂(lè)情感,并進(jìn)行了嘈雜環(huán)境下的學(xué)生訓(xùn)練實(shí)驗(yàn),貢獻(xiàn)了更多的靈感與思考。guimaraes等人使用噪聲和混響來(lái)增強(qiáng)訓(xùn)練數(shù)據(jù),并將課程學(xué)習(xí)和多任務(wù)學(xué)習(xí)方法相結(jié)合,構(gòu)建了一個(gè)基于hubert的語(yǔ)音情感識(shí)別模型,實(shí)驗(yàn)結(jié)果表明,該模型在“野外”語(yǔ)音應(yīng)用中表現(xiàn)出一定的優(yōu)勢(shì)。jaiswal等人研究了噪聲對(duì)人類和機(jī)器感知情緒的影響,并探索了去噪特征空間和語(yǔ)音增強(qiáng)算法與情緒識(shí)別模型的集成方法。


      技術(shù)實(shí)現(xiàn)思路

      1、本發(fā)明目的在于針對(duì)上述現(xiàn)有技術(shù)的缺陷和不足,提出了一種基于師生模型的多任務(wù)約束端到端含噪語(yǔ)音情感識(shí)別方法,利用教師模型通過(guò)多任務(wù)訓(xùn)練提煉顯著情感特征,并借鑒知識(shí)蒸餾指導(dǎo)學(xué)生模型訓(xùn)練,提升準(zhǔn)確性和魯棒性;引入多級(jí)增強(qiáng)損失機(jī)制,使學(xué)生模型在中間層學(xué)習(xí)教師模型的關(guān)鍵情感信息,使含噪語(yǔ)音特征逼近干凈語(yǔ)音特征,結(jié)合超參數(shù)損失函數(shù)提升含噪環(huán)境下的模型準(zhǔn)確率;采用語(yǔ)音增強(qiáng)輔助任務(wù)與多級(jí)增強(qiáng)損失結(jié)合,構(gòu)建復(fù)合型多層級(jí)語(yǔ)音增強(qiáng)輔助結(jié)構(gòu),增強(qiáng)含噪環(huán)境下的魯棒性;測(cè)試階段僅關(guān)注學(xué)生模型的核心流程,無(wú)需依賴教師模型或輔助任務(wù),降低測(cè)試復(fù)雜度,提升測(cè)試速率。

      2、本發(fā)明為解決其技術(shù)問(wèn)題所采用的技術(shù)方案是:提供一種基于師生模型的多任務(wù)約束端到端含噪語(yǔ)音情感識(shí)別方法,所述該方法包括如下步驟,

      3、步驟1:將干凈語(yǔ)音信號(hào)輸入到教師模型,教師模型由7個(gè)一維卷積層構(gòu)成的cnn特征編碼器和12個(gè)transformer層組成的wav2vec?2.0模型級(jí)聯(lián)構(gòu)成,然后通過(guò)全連接層,獲得字母向量和情感軟標(biāo)簽,在語(yǔ)音識(shí)別和情感識(shí)別聯(lián)合約束下精調(diào)教師模型網(wǎng)絡(luò);

      4、步驟2:將含噪語(yǔ)音信號(hào)輸入到學(xué)生模型,學(xué)生模型情感預(yù)測(cè)任務(wù)由7個(gè)一維卷積層構(gòu)成的cnn特征編碼器和12個(gè)transformer層組成的wav2vec?2.0模型級(jí)聯(lián)構(gòu)成,然后通過(guò)全連接層,獲得預(yù)測(cè)標(biāo)簽;

      5、步驟3:將含噪語(yǔ)音信號(hào)輸入到學(xué)生模型,學(xué)生模型語(yǔ)音增強(qiáng)任務(wù)由7個(gè)一維卷積層構(gòu)成的cnn特征編碼器與12個(gè)transformer層和7個(gè)一維轉(zhuǎn)置卷積層組成的語(yǔ)音增強(qiáng)結(jié)構(gòu)組成,輸出預(yù)測(cè)語(yǔ)音;

      6、步驟4:根據(jù)所提出多重聯(lián)合損失函數(shù),形成了一個(gè)復(fù)合型的約束機(jī)制,用以引導(dǎo)和規(guī)范學(xué)生模型的訓(xùn)練過(guò)程,提升含噪環(huán)境下模型準(zhǔn)確率的效果;

      7、步驟5:對(duì)所提出的一種基于師生模型的多任務(wù)約束端到端含噪語(yǔ)音情感識(shí)別方法進(jìn)行性能評(píng)估。

      8、進(jìn)一步地,所述步驟1的具體步驟為:

      9、步驟1-1:輸入的含噪語(yǔ)音信號(hào)音頻波形x經(jīng)過(guò)7個(gè)一維卷積層得到下采樣的音頻特征z;

      10、步驟1-2:特征編碼器輸出下采樣的音頻特征z經(jīng)過(guò)12個(gè)transformer層得到上下文表示c;

      11、步驟1-3:上下文表示c經(jīng)過(guò)全連接層得到字母向量和情感軟標(biāo)簽yit,其中字母向量不再參與后續(xù)任務(wù)。

      12、進(jìn)一步地,所述步驟2的具體步驟為:

      13、步驟2-1:輸入的干凈語(yǔ)音信號(hào)音頻波形x’經(jīng)過(guò)7個(gè)一維卷積層得到下采樣的音頻特征z’;

      14、步驟2-2:特征編碼器輸出下采樣的音頻特征z’經(jīng)過(guò)12個(gè)transformer層得到上下文表示c’;

      15、步驟2-3:上下文表示c’經(jīng)過(guò)全連接層得到情感標(biāo)簽參與后續(xù)任務(wù)。

      16、進(jìn)一步地,所述步驟3的具體步驟為:

      17、步驟3-1:輸入的干凈語(yǔ)音信號(hào)音頻波形x’經(jīng)過(guò)7個(gè)一維卷積層得到下采樣的音頻特征z’;

      18、步驟3-2:特征編碼器輸出下采樣的音頻特征z’經(jīng)過(guò)12個(gè)transformer層得到上下文表示c’;

      19、步驟3-3:上下文表示c’經(jīng)過(guò)語(yǔ)音重建模塊得到預(yù)測(cè)語(yǔ)音參與后續(xù)任務(wù)。

      20、進(jìn)一步地,所述步驟3-3中,實(shí)現(xiàn)語(yǔ)音重建模塊的具體方法包括如下步驟:

      21、步驟3-3-1:構(gòu)建語(yǔ)音重建模塊模塊,由7個(gè)與cnn特征提取器維度匹配的轉(zhuǎn)置卷積神經(jīng)網(wǎng)絡(luò)構(gòu)成;

      22、步驟3-3-2:使用殘差連接技術(shù),將cnn特征提取器的奇數(shù)層網(wǎng)絡(luò)輸出與語(yǔ)音重建模塊的對(duì)應(yīng)層輸出相連接,有效地促進(jìn)了網(wǎng)絡(luò)內(nèi)部信息的流通。

      23、進(jìn)一步地,所述步驟4的具體步驟為:

      24、步驟4-1:蒸餾損失kl的計(jì)算公式表達(dá)為:

      25、

      26、其中,是教師模型得到的第i個(gè)樣本的軟標(biāo)簽,是由學(xué)生模型得到的第i個(gè)樣本的軟預(yù)測(cè),t為蒸餾溫度系數(shù),為情感軟標(biāo)簽,為情感標(biāo)簽,得到蒸餾損失;

      27、步驟4-2:構(gòu)建情感標(biāo)簽損失函數(shù)為多分類交叉熵?fù)p失函數(shù):

      28、

      29、其中,m表示樣本數(shù),n表示情感類別數(shù),p(xij)表示對(duì)于觀測(cè)樣本i屬于類別j的預(yù)測(cè)概率,得到情感標(biāo)簽損失;

      30、步驟4-3:構(gòu)建多級(jí)增強(qiáng)損失函數(shù):

      31、

      32、其中,定義m為樣本數(shù)量,為教師模型第i層的輸出,代表學(xué)生網(wǎng)絡(luò)模型第i層輸出的特征向量,即學(xué)生模型模型第i層的預(yù)測(cè)值,i表示教師模型和學(xué)生模型的transformer網(wǎng)絡(luò)的層數(shù);

      33、分別計(jì)算了教師模型與學(xué)生模型transformer網(wǎng)絡(luò)偶數(shù)層間的損失,共計(jì)6層,公式如下:

      34、

      35、得到多級(jí)增強(qiáng)損失;

      36、步驟4-4:構(gòu)建尺度不變信噪比損失函數(shù)(si-snr):

      37、

      38、其中,stargct表示目標(biāo)信號(hào)(即原始干凈語(yǔ)音信號(hào)),enoisc表示噪聲信號(hào)(即增強(qiáng)信號(hào)與目標(biāo)信號(hào)之間的差異),||·||2表示l2范數(shù),即信號(hào)能量的度量,得到語(yǔ)音增強(qiáng)損失;

      39、步驟4-5:將蒸餾損失、情感標(biāo)簽損失、多級(jí)增強(qiáng)損失與語(yǔ)音增強(qiáng)損失聯(lián)合約束的形式,共同約束學(xué)生模型的訓(xùn)練:

      40、lall=αlkl+(1-α)lce+βls+γlsi-snr,

      41、其中,α為蒸餾損失的權(quán)重,β為多級(jí)增強(qiáng)損失的權(quán)重,γ為語(yǔ)音增強(qiáng)損失的權(quán)重。

      42、進(jìn)一步地,所述步驟5中,對(duì)所提出的一種基于師生模型的多任務(wù)約束端到端含噪語(yǔ)音情感識(shí)別方法進(jìn)行性能評(píng)估的的具體步驟為:

      43、步驟5-1:將基于師生模型的多任務(wù)約束端到端含噪語(yǔ)音情感識(shí)方法與去除教師模型的方法進(jìn)行消融實(shí)驗(yàn),驗(yàn)證師生模型的有效性;

      44、步驟5-2:將基于師生模型的多任務(wù)約束端到端含噪語(yǔ)音情感識(shí)方法與去除多級(jí)增強(qiáng)連接的方法進(jìn)行消融實(shí)驗(yàn),驗(yàn)證師生模型的有效性;

      45、步驟5-3:將基于師生模型的多任務(wù)約束端到端含噪語(yǔ)音情感識(shí)方法與去除語(yǔ)音增強(qiáng)的方法進(jìn)行消融實(shí)驗(yàn),驗(yàn)證語(yǔ)音增強(qiáng)模塊的有效性;

      46、步驟5-4:討論聯(lián)合約束中權(quán)重?fù)p失的權(quán)重的具體取值,探究出最優(yōu)的權(quán)重值。

      47、有益效果:

      48、1、本發(fā)明使用教師學(xué)生模型并借鑒知識(shí)蒸餾的思想,通過(guò)教師模型的多任務(wù)訓(xùn)練,提煉出純凈、顯著的情感特征,以指導(dǎo)學(xué)生模型的訓(xùn)練過(guò)程,提升了模型的準(zhǔn)確性和魯棒性,增強(qiáng)了泛化能力。

      49、2、本發(fā)明引入了一種多級(jí)增強(qiáng)損失機(jī)制,讓學(xué)生模型能夠在中間層學(xué)習(xí)到教師模型從干凈語(yǔ)音中提取的關(guān)鍵情感信息,使學(xué)生模型從含噪語(yǔ)音中學(xué)習(xí)到的特征逼近干凈語(yǔ)音的特征,本發(fā)明通過(guò)多個(gè)超參數(shù)將多個(gè)損失函數(shù)聯(lián)合起來(lái),可以達(dá)到針對(duì)含噪環(huán)境下提升模型準(zhǔn)確率的效果。

      50、3、本發(fā)明采用了語(yǔ)音增強(qiáng)輔助任務(wù)的思想,將語(yǔ)音增強(qiáng)輔助任務(wù)與多級(jí)增強(qiáng)損失相結(jié)合,實(shí)現(xiàn)了復(fù)合型多層級(jí)的語(yǔ)音增強(qiáng)輔助結(jié)構(gòu),提升了語(yǔ)音情感識(shí)別任務(wù)在含噪環(huán)境下的魯棒性。

      51、4、本發(fā)明在測(cè)試階段時(shí),僅需關(guān)注學(xué)生模型中特定于語(yǔ)音情感識(shí)別分類的核心流程,而無(wú)需依賴教師模型或?qū)W生模型中設(shè)計(jì)的輔助任務(wù)支線,顯著降低了測(cè)試過(guò)程中所需處理的模型復(fù)雜度,從而在不犧牲準(zhǔn)確性的前提下,有效地提升了測(cè)試的執(zhí)行速率。

      當(dāng)前第1頁(yè)1 2 
      網(wǎng)友詢問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1