本發(fā)明屬于多模態(tài)情感識別,具體涉及一種基于transformer模態(tài)內(nèi)感知和模態(tài)間交叉融合的多模態(tài)情感識別方法。
背景技術(shù):
1、情感識別是人工智能領(lǐng)域的一個重要組成。它主要致力于探索如何借助一系列數(shù)學(xué)處理方法對輸入數(shù)據(jù)進行深度分析,從而使計算機能夠精準(zhǔn)捕捉人類的情感狀態(tài)。通過構(gòu)建這樣的情感識別系統(tǒng),人們將更有希望打造一種自然且無障礙的人機交互環(huán)境。情感識別一般可以分為直接情感識別和間接情感識別兩類。直接情感識別主要涉及對多種模態(tài)信息的使用,包括文本、語音、圖像、視頻等。間接情感識別主要依賴于監(jiān)測人類的生理反應(yīng)進行隱式情感識別,包括眼動信號、肢體動作信號、腦電信號、心電信號等。當(dāng)人類的情感狀態(tài)發(fā)生變化時,往往伴隨著多種信息的變化。不同模態(tài)的信息往往具有高度的關(guān)聯(lián)性,從而綜合地作用于人類情感識別。因此,將多種模態(tài)的情感信息整合作用于情感計算的多模態(tài)情感識別研究具有重要的意義。
2、在早期的情感識別領(lǐng)域,研究人員大多采用單模態(tài)情感識別技術(shù)來實現(xiàn)人類情感的識別。單模態(tài)情感識別指的是僅利用單一類型的數(shù)據(jù)源來識別和理解情感的過程。通常情況下,這種單一數(shù)據(jù)源可以是語音、文本、圖像等。由于情緒是通過多種方式表達的,人類可以通過綜合面部表情、言語或其它信息來感知他人的情緒或意圖。因此,基于多模態(tài)信息的情感識別領(lǐng)域受到越來越多的關(guān)注。在多模態(tài)情感識別研究的初期,研究人員大多采用傳統(tǒng)的機器模型的方法進行特征提取,如隱馬爾可夫模型(hmm)、高斯混合模型(gmm)等。然而,這些模型只能研究有限的情感語境信息,并不能充分利用人類情感變化緩慢、對語境信息依賴性強的特點。
3、近年來,隨著深度學(xué)習(xí)算法的快速發(fā)展,基于深度學(xué)習(xí)的情感識別技術(shù)展現(xiàn)了全新的活力。深度學(xué)習(xí)技術(shù)使得研究人員能夠從多模態(tài)數(shù)據(jù)中提取復(fù)雜的模態(tài)信息和微妙的細微差距,從而促進對復(fù)雜情感表達的深層次理解。2021年,cao等人為了更好的捕獲高情感區(qū)分度特征,利用堆疊網(wǎng)絡(luò)hnsd構(gòu)建了一個多模態(tài)情感識別系統(tǒng)。2023年,xie等人提出了一種基于多任務(wù)學(xué)習(xí)和注意力機制的多模態(tài)情感識別方法,并在cmu-mosi和cmu-mosei數(shù)據(jù)庫上分別獲得85.36%和84.61%的情感識別率。2024年,li等人提出了一個具有跨模態(tài)約束的多模態(tài)共享網(wǎng)絡(luò)來實現(xiàn)連續(xù)情感識別任務(wù)。
4、語音和文本作為人類日常生活的情感信息的重要表現(xiàn)形式,為多模態(tài)情感識別系統(tǒng)提供了關(guān)鍵的判斷信息??紤]到實際情況下語音和文本信息的異構(gòu)性,多模態(tài)情感識別技術(shù)能否有效地獲取語音和文本數(shù)據(jù)中的關(guān)鍵情感信息和互補信息,能否將提取到的語音和文本信息進行有效地融合,這些都將影響著多模態(tài)情感識別系統(tǒng)的性能。
技術(shù)實現(xiàn)思路
1、本發(fā)明目的在于針對上述現(xiàn)有技術(shù)的缺陷和不足,提出了一種基于transformer模態(tài)內(nèi)感知和模態(tài)間交叉融合的多模態(tài)情感識別方法,通過引入基于transformer的模態(tài)內(nèi)感知模塊,捕獲各個模態(tài)內(nèi)部的長距離依賴關(guān)系,實現(xiàn)情感特征的局部感知學(xué)習(xí),降低深度特征中的冗余信息,還通過引入基于transformer的模態(tài)間交互融合模塊來捕捉不同模態(tài)間信息依賴關(guān)系,獲得融合后的多模態(tài)全局信息,充分利用了不同模態(tài)信息的互補性。本發(fā)明實現(xiàn)了對多模態(tài)情感識別的有效并行計算,提高了訓(xùn)練速度和識別性能,且具有更好的泛化能力和實用性。
2、本發(fā)明為解決其技術(shù)問題所采用的技術(shù)方案是:一種基于transformer模態(tài)內(nèi)感知和模態(tài)間交叉融合的多模態(tài)情感識別方法,所述該方法包括如下步驟:
3、步驟1:對原始輸入的語音和文本模態(tài)分別進行淺層特征提取,并引入梅爾譜圖-alexnet分支來彌補語音特征中空間信息的不足;
4、步驟2:將所提取的各類淺層特征輸入到深度編碼網(wǎng)絡(luò)獲取深層特征,針對文本模態(tài),構(gòu)建grus網(wǎng)絡(luò)進行深度編碼,針對語音模態(tài),構(gòu)建cnns網(wǎng)絡(luò)進行深度編碼,針對梅爾譜圖,構(gòu)建梅爾譜圖-alexnet分支;
5、步驟3:將深度編碼后的文本特征、多尺度話語級語音特征和梅爾譜圖特征輸入到基于transformer的模態(tài)內(nèi)感知模塊,獲取對模態(tài)內(nèi)關(guān)鍵情感信息的感知學(xué)習(xí)特征;
6、步驟4:將感知學(xué)習(xí)文本特征、感知學(xué)習(xí)多尺度語音特征和感知學(xué)習(xí)梅爾譜圖特征輸入到基于transformer的模態(tài)間交叉融合模塊,采用梅爾譜圖作為復(fù)用數(shù)據(jù)信息進行交互融合,不同模態(tài)信息之間能夠進行互補,將結(jié)果輸入情感分類器進行情感判別分類;
7、步驟5:對所提出的一種基于transformer模態(tài)內(nèi)感知和模態(tài)間交叉融合的多模態(tài)情感識別方法進行性能評估。
8、進一步地,所述步驟1的具體步驟包括:
9、步驟1-1:將各條文本信息通過word2vec子網(wǎng)絡(luò),獲取300維話語級的文本特征向量;
10、步驟1-2:對每條語音信號采用不同的幀長進行預(yù)處理,其中幀長分別取256、512,并使用librosa進行特征提取,將不同尺度的語音特征進行融合,得到750維多尺度話語級語音特征;
11、步驟1-3:采用librosa生成窗口大小為25ms,步長為10ms的梅爾譜圖并裁剪為224×224的大小,以獲得均勻大小的輸入,獲取語音信號中的時頻空間情感信息。
12、進一步地,所述步驟2的具體步驟包括:
13、步驟2-1:輸入300維的word2vec特征到grus網(wǎng)絡(luò),輸出為經(jīng)過1個masking層、2個gru層、1個dropout層提取后的深層特征;
14、步驟2-2:將750維的多尺度話語級語音特征輸入到由2個一維卷積塊組成的cnns網(wǎng)絡(luò),其中,每個卷積塊包含1個一維卷積層、1個relu激活層和1個最大池化層;
15、步驟2-3:將224×224的梅爾譜圖輸入到預(yù)訓(xùn)練的alexnet網(wǎng)絡(luò)進行深度編碼,設(shè)置alexnet網(wǎng)絡(luò)的最后一層全連接層的濾波器個數(shù)為300,獲得300維的梅爾譜圖信息。
16、進一步地,所述步驟3的具體步驟包括:
17、步驟3-1:將深度編碼后的文本特征、多尺度話語級語音特征和梅爾譜圖特征分別輸入到transformer模塊運算,提高模型對模態(tài)內(nèi)信息的感知學(xué)習(xí)效果;
18、步驟3-2:對通過transformer模塊運算后得到的特征信息采用tanh層進行非線性變化,進一步增加感知模塊對于數(shù)據(jù)的捕獲能力,同時對來自transformer模塊的數(shù)據(jù)信息進行sigmod函數(shù)運算,使得特征數(shù)據(jù)的概率映射到(0,1)的區(qū)間;
19、步驟3-3:將上述步驟3-2兩輸出采用哈達瑪積運算實現(xiàn)相同維度特征數(shù)據(jù)的逐元素乘積,獲得模態(tài)內(nèi)感知學(xué)習(xí)的輸出;
20、步驟3-4:考慮到各個模態(tài)數(shù)據(jù)的維度信息,分別在各個模態(tài)分支添加flatten層,進行模態(tài)數(shù)據(jù)的拉平操作。
21、進一步地,所述步驟3-1中,transformer模塊運算的具體方法包括如下步驟:
22、步驟3-1-1:將深度編碼的文本特征和深度編碼的多尺度話語級語音特征輸入transformer_1模塊進行運算,其中,transformer_1模塊的層數(shù)為4,隱藏單元維度設(shè)置為128,前饋神經(jīng)網(wǎng)絡(luò)中隱藏層的維度為512,多頭注意力機制的頭數(shù)目為8,輸入形狀為300×256,位置編碼的最大長度為1000;
23、步驟3-1-2:深度編碼的梅爾譜圖特征輸入到transformer_2模塊,其參數(shù)與transformer_1的參數(shù)設(shè)置基本相同,不同的在于transformer_2的輸入形狀為300×512。
24、進一步地,所述步驟4的具體步驟包括:
25、步驟4-1:將不同模態(tài)的信息輸入到多模態(tài)門控融合機制,采用梅爾譜圖作為復(fù)用數(shù)據(jù)信息進行交互融合,得到文本-梅爾譜圖信息和多尺度語音-梅爾譜圖信息;
26、步驟4-2:將輸出的文本-梅爾譜圖信息和多尺度語音-梅爾譜圖信息分別輸入到transformer模塊中進行特征計算,其中,transformer模塊的層數(shù)為4,隱藏單元維度設(shè)置為128,前饋神經(jīng)網(wǎng)絡(luò)中隱藏層的維度為512,多頭注意力機制的頭數(shù)目為8,輸入形狀為300×256,位置編碼的最大長度為1000;
27、步驟4-3:通過sigmoid函數(shù)進行加權(quán)值計算,獲取transformer特征信息的激活值,對樣本數(shù)據(jù)中關(guān)鍵情感特征信息進行有效篩選;
28、步驟4-4:將上述特征信息的激活值與transformer特征信息進行哈達瑪積運算,并通過concat操作獲得最終的多模態(tài)情感特征表征。
29、進一步地,所述步驟5中,對所提出的一種基于transformer模態(tài)內(nèi)感知和模態(tài)間交叉融合的多模態(tài)情感識別方法進行性能評估的具體方法包括如下步驟:
30、步驟5-1:將基于transformer模態(tài)內(nèi)感知和模態(tài)間門控交互的多模態(tài)情感識別方法和基于模態(tài)內(nèi)感知和模態(tài)間門控交互的多模態(tài)情感識別方法進行對比實驗,驗證基于transformer模態(tài)內(nèi)感知模塊的有效性;
31、步驟5-2:將基于transformer模態(tài)內(nèi)感知和模態(tài)間交叉融合的多模態(tài)情感識別方法與基于transformer模態(tài)內(nèi)感知和模態(tài)間門控交互的多模態(tài)情感識別方法進行對比實驗,驗證基于transformer模態(tài)間交叉融合模塊的有效性;
32、有益效果:
33、1、本發(fā)明提出了基于transformer的模態(tài)內(nèi)感知模塊,利用transformer的自注意力機制實現(xiàn)情感特征的局部學(xué)習(xí),降低深度特征中的冗余信息,實現(xiàn)特征的有效篩選。
34、2、本發(fā)明為了融合未對齊的多模態(tài)序列信息,充分利用不同模態(tài)信息的互補性,本發(fā)明引入了基于transformer的模態(tài)間交互融合模塊,該模塊用來探索不同模態(tài)間信息依賴關(guān)系,獲得融合后的多模態(tài)全局信息。
35、3、本發(fā)明通過transformer機制可以實現(xiàn)序列內(nèi)信息依賴關(guān)系的建模,實現(xiàn)完全的并行計算,并提高訓(xùn)練速度和識別性能,且具有更好的泛化能力和實用性。