本申請(qǐng)涉及信息技術(shù)和通信,主要涉及一種基于多模態(tài)對(duì)比學(xué)習(xí)的蒙語(yǔ)情感識(shí)別方法。
背景技術(shù):
1、在人工智能領(lǐng)域,情感識(shí)別已成為一個(gè)極具挑戰(zhàn)性和價(jià)值的研究領(lǐng)域。尤其是對(duì)于多模態(tài)情感識(shí)別,它涉及到從視頻、音頻和文本等多種數(shù)據(jù)源中提取情感信號(hào)。針對(duì)蒙語(yǔ)這樣的低資源語(yǔ)言,開(kāi)發(fā)有效的多模態(tài)情感識(shí)別技術(shù)尤為重要,因?yàn)檫@可以促進(jìn)語(yǔ)言技術(shù)的多樣性和包容性,同時(shí)也對(duì)實(shí)際應(yīng)用如教育、媒體監(jiān)控和客戶(hù)服務(wù)等領(lǐng)域提供支持。情感分類(lèi)問(wèn)題通常分為固定類(lèi)別與開(kāi)放集零樣本分類(lèi)。固定類(lèi)別分類(lèi)這一方法通常依賴(lài)于大量標(biāo)注好的訓(xùn)練數(shù)據(jù),通過(guò)訓(xùn)練深度神經(jīng)網(wǎng)絡(luò),如卷積神經(jīng)網(wǎng)絡(luò)(cnn)或循環(huán)神經(jīng)網(wǎng)絡(luò)(rnn),來(lái)識(shí)別圖像中的標(biāo)準(zhǔn)情感標(biāo)簽。固定類(lèi)別分類(lèi)的挑戰(zhàn)在于如何處理非標(biāo)準(zhǔn)表情或文化特定的情感表達(dá),這在蒙語(yǔ)視頻中尤為常見(jiàn)。開(kāi)放集零樣本分類(lèi)技術(shù)使得模型能識(shí)別訓(xùn)練階段未見(jiàn)過(guò)的情感類(lèi)別,通常依賴(lài)于算法的泛化能力。實(shí)現(xiàn)這一目標(biāo)的技術(shù)之一是零樣本學(xué)習(xí),它通過(guò)理解情感的高層語(yǔ)義屬性來(lái)推斷未知類(lèi)別。此外,引入外部知識(shí)庫(kù)和語(yǔ)義網(wǎng)絡(luò),如詞匯網(wǎng)絡(luò)(wordnet)或知識(shí)圖網(wǎng)絡(luò)(conceptnet),可以幫助模型理解情感之間的關(guān)系,從而提高其識(shí)別新情感的能力。
2、情感分類(lèi)問(wèn)題主要有兩種形式:一種是固定類(lèi)別的分類(lèi),另一種是開(kāi)放集零樣本分類(lèi)。固定類(lèi)別的分類(lèi)方法主要依賴(lài)于大量已標(biāo)注的訓(xùn)練數(shù)據(jù),通過(guò)訓(xùn)練深度神經(jīng)網(wǎng)絡(luò),可以識(shí)別圖像中的標(biāo)準(zhǔn)情感標(biāo)簽,然而這種方法難以處理蒙語(yǔ)視頻圖像中非標(biāo)準(zhǔn)表情或特定文化背景下的情感表達(dá)。另一方面,開(kāi)放集零樣本分類(lèi)技術(shù)則讓模型具備了識(shí)別訓(xùn)練階段未曾見(jiàn)過(guò)的情感類(lèi)別的能力,這種方法通過(guò)理解和把握情感的高層語(yǔ)義屬性,從而推斷出未知的情感類(lèi)別。
技術(shù)實(shí)現(xiàn)思路
1、針對(duì)目前的現(xiàn)有技術(shù)中存在的問(wèn)題,本申請(qǐng)?zhí)岢隽艘环N高可靠性可編程智能消息處理方法和裝置。
2、根據(jù)本發(fā)明的一方面,提出了一種基于多模態(tài)對(duì)比學(xué)習(xí)的蒙語(yǔ)情感識(shí)別方法,包括:
3、s1、收集蒙語(yǔ)資料,構(gòu)造圖文對(duì)數(shù)據(jù)集,利用bpe字節(jié)對(duì)編碼算法對(duì)所述蒙語(yǔ)資料進(jìn)行詞切分生成語(yǔ)言模型,利用roberta模型結(jié)構(gòu)對(duì)所述語(yǔ)言模型進(jìn)行預(yù)訓(xùn)練,得到預(yù)訓(xùn)練模型;
4、s2、所述預(yù)訓(xùn)練模型第一階段初始化為chinese-clip圖像塔,利用凍結(jié)圖像編碼器對(duì)訓(xùn)練數(shù)據(jù)集中的圖像參數(shù)進(jìn)行凍結(jié),得到凍結(jié)參數(shù)的圖像數(shù)據(jù);利用文本編碼器讀出所述訓(xùn)練數(shù)據(jù)集中的高質(zhì)量文本表示,利用對(duì)比損失函數(shù)對(duì)所述凍結(jié)參數(shù)的圖像數(shù)據(jù)和所述高質(zhì)量文本表示進(jìn)行對(duì)比損失優(yōu)化;
5、s3、所述預(yù)訓(xùn)練模型第二階段初始化為蒙語(yǔ)語(yǔ)言預(yù)訓(xùn)練roberta模型,利用開(kāi)放圖像編碼器解凍所述第一階段中凍結(jié)的圖像參數(shù),再次利用對(duì)比損失函數(shù)對(duì)圖像數(shù)據(jù)和蒙語(yǔ)文本數(shù)據(jù)進(jìn)行對(duì)比損失優(yōu)化。
6、進(jìn)一步的,所述圖文對(duì)數(shù)據(jù)集的采集具體步驟包括:遍歷所述蒙語(yǔ)資料中的圖像,將選中的圖像與其配對(duì)的文本組合為正樣本對(duì),與其他所有文本組合為負(fù)樣本對(duì),從而構(gòu)造出所述圖文對(duì)數(shù)據(jù)集。
7、在預(yù)訓(xùn)練階段,在蒙語(yǔ)新聞網(wǎng)站中收集蒙語(yǔ)資料,構(gòu)造大規(guī)模的圖文對(duì)數(shù)據(jù)集。圖文對(duì)數(shù)據(jù)集結(jié)合了視覺(jué)和文本兩種不同的信息源,使得模型能夠同時(shí)從圖像和相關(guān)文本描述中學(xué)習(xí),從而理解更復(fù)雜的概念和上下文,即多模態(tài)信息融合。
8、進(jìn)一步的,所述圖文對(duì)數(shù)據(jù)集進(jìn)一步構(gòu)造訓(xùn)練數(shù)據(jù)集,具體步驟包括:利用chinese-clip刪除所述圖文對(duì)數(shù)據(jù)集中分?jǐn)?shù)低于0.3、少于5個(gè)字符或超過(guò)50個(gè)字符的樣本,同時(shí)將帶有特定文本表達(dá)的樣本列為黑名單,剩下的樣本數(shù)據(jù)調(diào)整分辨率為vit-l/14@336px模型結(jié)構(gòu)支持的336*336,構(gòu)成訓(xùn)練數(shù)據(jù)集。
9、其中,vit-l/14@336px模型是指vision?transformer(vit)的一個(gè)特定變體,其中"l"代表large,"14"指的是圖像被分割成14×14的補(bǔ)丁(patch),而"@336px"表示該模型接受的輸入圖像大小為336像素×336像素。
10、vit-l/14一個(gè)較大的模型配置,會(huì)有更多的層和更大的參數(shù)量,以實(shí)現(xiàn)更高的準(zhǔn)確度。輸入圖像大小為336像素×336像素,相比于標(biāo)準(zhǔn)的224×224或其他尺寸,可以提供更詳細(xì)的圖像信息。
11、其中,chinese-clip的工作原理是通過(guò)對(duì)比學(xué)習(xí)的方式,將文本和圖像編碼為相同的向量空間,使得語(yǔ)義上相關(guān)的文本和圖像在向量空間中彼此靠近。這樣,模型就能夠?qū)W會(huì)在語(yǔ)義層面上將文本和圖像關(guān)聯(lián)起來(lái)。
12、進(jìn)一步的,所述對(duì)比損失函數(shù)采用infonce?loss,具體公式表示為:
13、
14、其中,q表示正樣本,p表示負(fù)樣本,k表示負(fù)樣本的數(shù)量,表示溫度系數(shù),表示第i個(gè)負(fù)樣本,i的范圍為0到k,exp表示指數(shù)函數(shù)。
15、對(duì)比損失函數(shù)采用infonce?loss是為了學(xué)習(xí)一個(gè)共同的嵌入空間,其中文本和圖像可以被映射到一起,以便于它們可以根據(jù)語(yǔ)義相似性相互檢索或匹配。
16、同時(shí),可以概率計(jì)算,使用softmax函數(shù)將這些相似度分?jǐn)?shù)轉(zhuǎn)換為概率分布。這樣,正樣本將有較高的概率值,而負(fù)樣本將有較低的概率值。
17、根據(jù)本發(fā)明的第二方面,提出了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有一或多個(gè)計(jì)算機(jī)程序,該一或多個(gè)計(jì)算機(jī)程序被計(jì)算機(jī)處理器執(zhí)行時(shí)實(shí)施上述的方法。
18、本申請(qǐng)實(shí)施例中的上述一個(gè)或多個(gè)技術(shù)方案,至少具有如下技術(shù)效果之一:
19、本發(fā)明方法能夠高效地將中文語(yǔ)義遷移至蒙語(yǔ)語(yǔ)義,同時(shí)在特征空間中實(shí)現(xiàn)齊蒙語(yǔ)語(yǔ)義與圖像語(yǔ)義對(duì)齊。蒙語(yǔ)多模態(tài)情感識(shí)別技術(shù)的發(fā)展將大大促進(jìn)人工智能領(lǐng)域的多樣性和包容性,為蒙語(yǔ)使用者提供更貼心、更智能的服務(wù),同時(shí)推動(dòng)相關(guān)技術(shù)在全球范圍內(nèi)的應(yīng)用和發(fā)展。通過(guò)不斷的技術(shù)創(chuàng)新和應(yīng)用實(shí)踐,我們可以期待未來(lái)人機(jī)交互領(lǐng)域?qū)⒏尤诵曰?、智能化。將這些技術(shù)應(yīng)用到實(shí)際中,如在線(xiàn)客戶(hù)服務(wù)可以通過(guò)情感識(shí)別來(lái)改進(jìn)服務(wù)質(zhì)量,教育領(lǐng)域中,教師可以根據(jù)學(xué)生的情緒狀態(tài)調(diào)整教學(xué)策略。在安全監(jiān)控領(lǐng)域,情感識(shí)別可以幫助預(yù)測(cè)并防范潛在的沖突和危險(xiǎn)行為。
1.一種基于多模態(tài)對(duì)比學(xué)習(xí)的蒙語(yǔ)情感識(shí)別方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的蒙語(yǔ)情感識(shí)別方法,其特征在于,所述圖文對(duì)數(shù)據(jù)集的采集具體步驟包括:遍歷所述蒙語(yǔ)資料中的圖像,將選中的圖像與其配對(duì)的文本組合為正樣本對(duì),與其他所有文本組合為負(fù)樣本對(duì),從而構(gòu)造出所述圖文對(duì)數(shù)據(jù)集。
3.根據(jù)權(quán)利要求1或2所述的蒙語(yǔ)情感識(shí)別方法,其特征在于,利用所述圖文對(duì)數(shù)據(jù)集,進(jìn)一步構(gòu)造訓(xùn)練數(shù)據(jù)集,具體步驟包括:利用chinese-clip刪除所述圖文對(duì)數(shù)據(jù)集中分?jǐn)?shù)低于0.3、少于5個(gè)字符或超過(guò)50個(gè)字符的樣本,同時(shí)將帶有特定文本表達(dá)的樣本列為黑名單,剩下的樣本數(shù)據(jù)調(diào)整分辨率為vit-l/14@336px模型結(jié)構(gòu)支持的336*336,構(gòu)成訓(xùn)練數(shù)據(jù)集。
4.根據(jù)權(quán)利要求1所述的蒙語(yǔ)情感識(shí)別方法,其特征在于,所述對(duì)比學(xué)習(xí)損失函數(shù)采用infonce?loss,具體公式表示為:
5.一種計(jì)算機(jī)程序產(chǎn)品,其特征在于,其上存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序在被處理器執(zhí)行時(shí)實(shí)施如權(quán)利要求1-4中任一項(xiàng)所述的方法。
6.一種計(jì)算系統(tǒng),其特征在于,包括處理器和存儲(chǔ)器,所述處理器被配置為執(zhí)行如權(quán)利要求1-4中任一項(xiàng)所述的方法。