一種基于多模態(tài)對(duì)比學(xué)習(xí)的蒙語(yǔ)情感識(shí)別方法與流程

文檔序號(hào)：40476534發(fā)布日期：2024-12-27 13:20閱讀：108450來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于多模態(tài)對(duì)比學(xué)習(xí)的蒙語(yǔ)情感識(shí)別方法與流程

本申請(qǐng)涉及信息技術(shù)和通信，主要涉及一種基于多模態(tài)對(duì)比學(xué)習(xí)的蒙語(yǔ)情感識(shí)別方法。

背景技術(shù)：

1、在人工智能領(lǐng)域，情感識(shí)別已成為一個(gè)極具挑戰(zhàn)性和價(jià)值的研究領(lǐng)域。尤其是對(duì)于多模態(tài)情感識(shí)別，它涉及到從視頻、音頻和文本等多種數(shù)據(jù)源中提取情感信號(hào)。針對(duì)蒙語(yǔ)這樣的低資源語(yǔ)言，開(kāi)發(fā)有效的多模態(tài)情感識(shí)別技術(shù)尤為重要，因?yàn)檫@可以促進(jìn)語(yǔ)言技術(shù)的多樣性和包容性，同時(shí)也對(duì)實(shí)際應(yīng)用如教育、媒體監(jiān)控和客戶(hù)服務(wù)等領(lǐng)域提供支持。情感分類(lèi)問(wèn)題通常分為固定類(lèi)別與開(kāi)放集零樣本分類(lèi)。固定類(lèi)別分類(lèi)這一方法通常依賴(lài)于大量標(biāo)注好的訓(xùn)練數(shù)據(jù)，通過(guò)訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)，如卷積神經(jīng)網(wǎng)絡(luò)(cnn)或循環(huán)神經(jīng)網(wǎng)絡(luò)(rnn)，來(lái)識(shí)別圖像中的標(biāo)準(zhǔn)情感標(biāo)簽。固定類(lèi)別分類(lèi)的挑戰(zhàn)在于如何處理非標(biāo)準(zhǔn)表情或文化特定的情感表達(dá)，這在蒙語(yǔ)視頻中尤為常見(jiàn)。開(kāi)放集零樣本分類(lèi)技術(shù)使得模型能識(shí)別訓(xùn)練階段未見(jiàn)過(guò)的情感類(lèi)別，通常依賴(lài)于算法的泛化能力。實(shí)現(xiàn)這一目標(biāo)的技術(shù)之一是零樣本學(xué)習(xí)，它通過(guò)理解情感的高層語(yǔ)義屬性來(lái)推斷未知類(lèi)別。此外，引入外部知識(shí)庫(kù)和語(yǔ)義網(wǎng)絡(luò)，如詞匯網(wǎng)絡(luò)(wordnet)或知識(shí)圖網(wǎng)絡(luò)(conceptnet)，可以幫助模型理解情感之間的關(guān)系，從而提高其識(shí)別新情感的能力。

2、情感分類(lèi)問(wèn)題主要有兩種形式：一種是固定類(lèi)別的分類(lèi)，另一種是開(kāi)放集零樣本分類(lèi)。固定類(lèi)別的分類(lèi)方法主要依賴(lài)于大量已標(biāo)注的訓(xùn)練數(shù)據(jù)，通過(guò)訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)，可以識(shí)別圖像中的標(biāo)準(zhǔn)情感標(biāo)簽，然而這種方法難以處理蒙語(yǔ)視頻圖像中非標(biāo)準(zhǔn)表情或特定文化背景下的情感表達(dá)。另一方面，開(kāi)放集零樣本分類(lèi)技術(shù)則讓模型具備了識(shí)別訓(xùn)練階段未曾見(jiàn)過(guò)的情感類(lèi)別的能力，這種方法通過(guò)理解和把握情感的高層語(yǔ)義屬性，從而推斷出未知的情感類(lèi)別。

技術(shù)實(shí)現(xiàn)思路

1、針對(duì)目前的現(xiàn)有技術(shù)中存在的問(wèn)題，本申請(qǐng)?zhí)岢隽艘环N高可靠性可編程智能消息處理方法和裝置。

2、根據(jù)本發(fā)明的一方面，提出了一種基于多模態(tài)對(duì)比學(xué)習(xí)的蒙語(yǔ)情感識(shí)別方法，包括：

3、s1、收集蒙語(yǔ)資料，構(gòu)造圖文對(duì)數(shù)據(jù)集，利用bpe字節(jié)對(duì)編碼算法對(duì)所述蒙語(yǔ)資料進(jìn)行詞切分生成語(yǔ)言模型，利用roberta模型結(jié)構(gòu)對(duì)所述語(yǔ)言模型進(jìn)行預(yù)訓(xùn)練，得到預(yù)訓(xùn)練模型；

4、s2、所述預(yù)訓(xùn)練模型第一階段初始化為chinese-clip圖像塔，利用凍結(jié)圖像編碼器對(duì)訓(xùn)練數(shù)據(jù)集中的圖像參數(shù)進(jìn)行凍結(jié)，得到凍結(jié)參數(shù)的圖像數(shù)據(jù)；利用文本編碼器讀出所述訓(xùn)練數(shù)據(jù)集中的高質(zhì)量文本表示，利用對(duì)比損失函數(shù)對(duì)所述凍結(jié)參數(shù)的圖像數(shù)據(jù)和所述高質(zhì)量文本表示進(jìn)行對(duì)比損失優(yōu)化；

5、s3、所述預(yù)訓(xùn)練模型第二階段初始化為蒙語(yǔ)語(yǔ)言預(yù)訓(xùn)練roberta模型，利用開(kāi)放圖像編碼器解凍所述第一階段中凍結(jié)的圖像參數(shù)，再次利用對(duì)比損失函數(shù)對(duì)圖像數(shù)據(jù)和蒙語(yǔ)文本數(shù)據(jù)進(jìn)行對(duì)比損失優(yōu)化。

6、進(jìn)一步的，所述圖文對(duì)數(shù)據(jù)集的采集具體步驟包括：遍歷所述蒙語(yǔ)資料中的圖像，將選中的圖像與其配對(duì)的文本組合為正樣本對(duì)，與其他所有文本組合為負(fù)樣本對(duì)，從而構(gòu)造出所述圖文對(duì)數(shù)據(jù)集。

7、在預(yù)訓(xùn)練階段，在蒙語(yǔ)新聞網(wǎng)站中收集蒙語(yǔ)資料，構(gòu)造大規(guī)模的圖文對(duì)數(shù)據(jù)集。圖文對(duì)數(shù)據(jù)集結(jié)合了視覺(jué)和文本兩種不同的信息源，使得模型能夠同時(shí)從圖像和相關(guān)文本描述中學(xué)習(xí)，從而理解更復(fù)雜的概念和上下文，即多模態(tài)信息融合。

8、進(jìn)一步的，所述圖文對(duì)數(shù)據(jù)集進(jìn)一步構(gòu)造訓(xùn)練數(shù)據(jù)集，具體步驟包括：利用chinese-clip刪除所述圖文對(duì)數(shù)據(jù)集中分?jǐn)?shù)低于0.3、少于5個(gè)字符或超過(guò)50個(gè)字符的樣本，同時(shí)將帶有特定文本表達(dá)的樣本列為黑名單，剩下的樣本數(shù)據(jù)調(diào)整分辨率為vit-l/14@336px模型結(jié)構(gòu)支持的336*336，構(gòu)成訓(xùn)練數(shù)據(jù)集。

9、其中，vit-l/14@336px模型是指vision?transformer(vit)的一個(gè)特定變體，其中"l"代表large，"14"指的是圖像被分割成14×14的補(bǔ)丁(patch)，而"@336px"表示該模型接受的輸入圖像大小為336像素×336像素。

10、vit-l/14一個(gè)較大的模型配置，會(huì)有更多的層和更大的參數(shù)量，以實(shí)現(xiàn)更高的準(zhǔn)確度。輸入圖像大小為336像素×336像素，相比于標(biāo)準(zhǔn)的224×224或其他尺寸，可以提供更詳細(xì)的圖像信息。

11、其中，chinese-clip的工作原理是通過(guò)對(duì)比學(xué)習(xí)的方式，將文本和圖像編碼為相同的向量空間，使得語(yǔ)義上相關(guān)的文本和圖像在向量空間中彼此靠近。這樣，模型就能夠?qū)W會(huì)在語(yǔ)義層面上將文本和圖像關(guān)聯(lián)起來(lái)。

12、進(jìn)一步的，所述對(duì)比損失函數(shù)采用infonce?loss，具體公式表示為：

13、

14、其中，q表示正樣本，p表示負(fù)樣本，k表示負(fù)樣本的數(shù)量，表示溫度系數(shù)，表示第i個(gè)負(fù)樣本，i的范圍為0到k，exp表示指數(shù)函數(shù)。

15、對(duì)比損失函數(shù)采用infonce?loss是為了學(xué)習(xí)一個(gè)共同的嵌入空間，其中文本和圖像可以被映射到一起，以便于它們可以根據(jù)語(yǔ)義相似性相互檢索或匹配。

16、同時(shí)，可以概率計(jì)算，使用softmax函數(shù)將這些相似度分?jǐn)?shù)轉(zhuǎn)換為概率分布。這樣，正樣本將有較高的概率值，而負(fù)樣本將有較低的概率值。

17、根據(jù)本發(fā)明的第二方面，提出了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其上存儲(chǔ)有一或多個(gè)計(jì)算機(jī)程序，該一或多個(gè)計(jì)算機(jī)程序被計(jì)算機(jī)處理器執(zhí)行時(shí)實(shí)施上述的方法。

18、本申請(qǐng)實(shí)施例中的上述一個(gè)或多個(gè)技術(shù)方案，至少具有如下技術(shù)效果之一：

19、本發(fā)明方法能夠高效地將中文語(yǔ)義遷移至蒙語(yǔ)語(yǔ)義，同時(shí)在特征空間中實(shí)現(xiàn)齊蒙語(yǔ)語(yǔ)義與圖像語(yǔ)義對(duì)齊。蒙語(yǔ)多模態(tài)情感識(shí)別技術(shù)的發(fā)展將大大促進(jìn)人工智能領(lǐng)域的多樣性和包容性，為蒙語(yǔ)使用者提供更貼心、更智能的服務(wù)，同時(shí)推動(dòng)相關(guān)技術(shù)在全球范圍內(nèi)的應(yīng)用和發(fā)展。通過(guò)不斷的技術(shù)創(chuàng)新和應(yīng)用實(shí)踐，我們可以期待未來(lái)人機(jī)交互領(lǐng)域?qū)⒏尤诵曰?、智能化。將這些技術(shù)應(yīng)用到實(shí)際中，如在線(xiàn)客戶(hù)服務(wù)可以通過(guò)情感識(shí)別來(lái)改進(jìn)服務(wù)質(zhì)量，教育領(lǐng)域中，教師可以根據(jù)學(xué)生的情緒狀態(tài)調(diào)整教學(xué)策略。在安全監(jiān)控領(lǐng)域，情感識(shí)別可以幫助預(yù)測(cè)并防范潛在的沖突和危險(xiǎn)行為。

技術(shù)特征：

1.一種基于多模態(tài)對(duì)比學(xué)習(xí)的蒙語(yǔ)情感識(shí)別方法，其特征在于，包括以下步驟：

2.根據(jù)權(quán)利要求1所述的蒙語(yǔ)情感識(shí)別方法，其特征在于，所述圖文對(duì)數(shù)據(jù)集的采集具體步驟包括：遍歷所述蒙語(yǔ)資料中的圖像，將選中的圖像與其配對(duì)的文本組合為正樣本對(duì)，與其他所有文本組合為負(fù)樣本對(duì)，從而構(gòu)造出所述圖文對(duì)數(shù)據(jù)集。

3.根據(jù)權(quán)利要求1或2所述的蒙語(yǔ)情感識(shí)別方法，其特征在于，利用所述圖文對(duì)數(shù)據(jù)集，進(jìn)一步構(gòu)造訓(xùn)練數(shù)據(jù)集，具體步驟包括：利用chinese-clip刪除所述圖文對(duì)數(shù)據(jù)集中分?jǐn)?shù)低于0.3、少于5個(gè)字符或超過(guò)50個(gè)字符的樣本，同時(shí)將帶有特定文本表達(dá)的樣本列為黑名單，剩下的樣本數(shù)據(jù)調(diào)整分辨率為vit-l/14@336px模型結(jié)構(gòu)支持的336*336，構(gòu)成訓(xùn)練數(shù)據(jù)集。

4.根據(jù)權(quán)利要求1所述的蒙語(yǔ)情感識(shí)別方法，其特征在于，所述對(duì)比學(xué)習(xí)損失函數(shù)采用infonce?loss，具體公式表示為：

5.一種計(jì)算機(jī)程序產(chǎn)品，其特征在于，其上存儲(chǔ)有計(jì)算機(jī)程序，所述計(jì)算機(jī)程序在被處理器執(zhí)行時(shí)實(shí)施如權(quán)利要求1-4中任一項(xiàng)所述的方法。

6.一種計(jì)算系統(tǒng)，其特征在于，包括處理器和存儲(chǔ)器，所述處理器被配置為執(zhí)行如權(quán)利要求1-4中任一項(xiàng)所述的方法。

技術(shù)總結(jié)
本發(fā)明公開(kāi)了一種基于多模態(tài)對(duì)比學(xué)習(xí)的蒙語(yǔ)情感識(shí)別方法，具體步驟包括：引入從自然語(yǔ)言監(jiān)督中學(xué)習(xí)視覺(jué)情感的多模態(tài)開(kāi)放集零樣本分類(lèi)技術(shù)，利用大量的圖像文本對(duì)預(yù)訓(xùn)練一個(gè)圖像編碼器和一個(gè)蒙語(yǔ)文本編碼器，利用這個(gè)構(gòu)造的雙塔結(jié)構(gòu)，采用兩階段微調(diào)方法，利用對(duì)比學(xué)習(xí)損失實(shí)現(xiàn)圖像和蒙語(yǔ)文本的特征對(duì)齊。在數(shù)據(jù)的處理上，利用Chinese?CLIP模型對(duì)翻譯的圖文對(duì)數(shù)據(jù)進(jìn)行過(guò)濾，以獲得高質(zhì)量的圖文對(duì)數(shù)據(jù)集。本方法促進(jìn)人工智能領(lǐng)域的多樣性和包容性，為蒙語(yǔ)使用者提供智能的服務(wù)，同時(shí)推動(dòng)相關(guān)技術(shù)在全球范圍內(nèi)的應(yīng)用和發(fā)展。

技術(shù)研發(fā)人員：滿(mǎn)君怡,高志鵬,趙建強(qiáng),王志永,畢永輝,陳子灃
受保護(hù)的技術(shù)使用者：廈門(mén)市美亞柏科信息安全研究所有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2024/12/26

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：滿(mǎn)君怡,高志鵬,趙建強(qiáng),王志永,畢永輝,陳子灃
技術(shù)所有人：廈門(mén)市美亞柏科信息安全研究所有限公司
我是此專(zhuān)利的發(fā)明人

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話(huà)進(jìn)行咨詢(xún)。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線(xiàn)網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種基于多模態(tài)對(duì)比學(xué)習(xí)的蒙語(yǔ)情感識(shí)別方法與流程