国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于多模態(tài)對(duì)比學(xué)習(xí)的蒙語(yǔ)情感識(shí)別方法與流程

      文檔序號(hào):40476534發(fā)布日期:2024-12-27 13:20閱讀:108450來(lái)源:國(guó)知局
      一種基于多模態(tài)對(duì)比學(xué)習(xí)的蒙語(yǔ)情感識(shí)別方法與流程

      本申請(qǐng)涉及信息技術(shù)和通信,主要涉及一種基于多模態(tài)對(duì)比學(xué)習(xí)的蒙語(yǔ)情感識(shí)別方法。


      背景技術(shù):

      1、在人工智能領(lǐng)域,情感識(shí)別已成為一個(gè)極具挑戰(zhàn)性和價(jià)值的研究領(lǐng)域。尤其是對(duì)于多模態(tài)情感識(shí)別,它涉及到從視頻、音頻和文本等多種數(shù)據(jù)源中提取情感信號(hào)。針對(duì)蒙語(yǔ)這樣的低資源語(yǔ)言,開(kāi)發(fā)有效的多模態(tài)情感識(shí)別技術(shù)尤為重要,因?yàn)檫@可以促進(jìn)語(yǔ)言技術(shù)的多樣性和包容性,同時(shí)也對(duì)實(shí)際應(yīng)用如教育、媒體監(jiān)控和客戶(hù)服務(wù)等領(lǐng)域提供支持。情感分類(lèi)問(wèn)題通常分為固定類(lèi)別與開(kāi)放集零樣本分類(lèi)。固定類(lèi)別分類(lèi)這一方法通常依賴(lài)于大量標(biāo)注好的訓(xùn)練數(shù)據(jù),通過(guò)訓(xùn)練深度神經(jīng)網(wǎng)絡(luò),如卷積神經(jīng)網(wǎng)絡(luò)(cnn)或循環(huán)神經(jīng)網(wǎng)絡(luò)(rnn),來(lái)識(shí)別圖像中的標(biāo)準(zhǔn)情感標(biāo)簽。固定類(lèi)別分類(lèi)的挑戰(zhàn)在于如何處理非標(biāo)準(zhǔn)表情或文化特定的情感表達(dá),這在蒙語(yǔ)視頻中尤為常見(jiàn)。開(kāi)放集零樣本分類(lèi)技術(shù)使得模型能識(shí)別訓(xùn)練階段未見(jiàn)過(guò)的情感類(lèi)別,通常依賴(lài)于算法的泛化能力。實(shí)現(xiàn)這一目標(biāo)的技術(shù)之一是零樣本學(xué)習(xí),它通過(guò)理解情感的高層語(yǔ)義屬性來(lái)推斷未知類(lèi)別。此外,引入外部知識(shí)庫(kù)和語(yǔ)義網(wǎng)絡(luò),如詞匯網(wǎng)絡(luò)(wordnet)或知識(shí)圖網(wǎng)絡(luò)(conceptnet),可以幫助模型理解情感之間的關(guān)系,從而提高其識(shí)別新情感的能力。

      2、情感分類(lèi)問(wèn)題主要有兩種形式:一種是固定類(lèi)別的分類(lèi),另一種是開(kāi)放集零樣本分類(lèi)。固定類(lèi)別的分類(lèi)方法主要依賴(lài)于大量已標(biāo)注的訓(xùn)練數(shù)據(jù),通過(guò)訓(xùn)練深度神經(jīng)網(wǎng)絡(luò),可以識(shí)別圖像中的標(biāo)準(zhǔn)情感標(biāo)簽,然而這種方法難以處理蒙語(yǔ)視頻圖像中非標(biāo)準(zhǔn)表情或特定文化背景下的情感表達(dá)。另一方面,開(kāi)放集零樣本分類(lèi)技術(shù)則讓模型具備了識(shí)別訓(xùn)練階段未曾見(jiàn)過(guò)的情感類(lèi)別的能力,這種方法通過(guò)理解和把握情感的高層語(yǔ)義屬性,從而推斷出未知的情感類(lèi)別。


      技術(shù)實(shí)現(xiàn)思路

      1、針對(duì)目前的現(xiàn)有技術(shù)中存在的問(wèn)題,本申請(qǐng)?zhí)岢隽艘环N高可靠性可編程智能消息處理方法和裝置。

      2、根據(jù)本發(fā)明的一方面,提出了一種基于多模態(tài)對(duì)比學(xué)習(xí)的蒙語(yǔ)情感識(shí)別方法,包括:

      3、s1、收集蒙語(yǔ)資料,構(gòu)造圖文對(duì)數(shù)據(jù)集,利用bpe字節(jié)對(duì)編碼算法對(duì)所述蒙語(yǔ)資料進(jìn)行詞切分生成語(yǔ)言模型,利用roberta模型結(jié)構(gòu)對(duì)所述語(yǔ)言模型進(jìn)行預(yù)訓(xùn)練,得到預(yù)訓(xùn)練模型;

      4、s2、所述預(yù)訓(xùn)練模型第一階段初始化為chinese-clip圖像塔,利用凍結(jié)圖像編碼器對(duì)訓(xùn)練數(shù)據(jù)集中的圖像參數(shù)進(jìn)行凍結(jié),得到凍結(jié)參數(shù)的圖像數(shù)據(jù);利用文本編碼器讀出所述訓(xùn)練數(shù)據(jù)集中的高質(zhì)量文本表示,利用對(duì)比損失函數(shù)對(duì)所述凍結(jié)參數(shù)的圖像數(shù)據(jù)和所述高質(zhì)量文本表示進(jìn)行對(duì)比損失優(yōu)化;

      5、s3、所述預(yù)訓(xùn)練模型第二階段初始化為蒙語(yǔ)語(yǔ)言預(yù)訓(xùn)練roberta模型,利用開(kāi)放圖像編碼器解凍所述第一階段中凍結(jié)的圖像參數(shù),再次利用對(duì)比損失函數(shù)對(duì)圖像數(shù)據(jù)和蒙語(yǔ)文本數(shù)據(jù)進(jìn)行對(duì)比損失優(yōu)化。

      6、進(jìn)一步的,所述圖文對(duì)數(shù)據(jù)集的采集具體步驟包括:遍歷所述蒙語(yǔ)資料中的圖像,將選中的圖像與其配對(duì)的文本組合為正樣本對(duì),與其他所有文本組合為負(fù)樣本對(duì),從而構(gòu)造出所述圖文對(duì)數(shù)據(jù)集。

      7、在預(yù)訓(xùn)練階段,在蒙語(yǔ)新聞網(wǎng)站中收集蒙語(yǔ)資料,構(gòu)造大規(guī)模的圖文對(duì)數(shù)據(jù)集。圖文對(duì)數(shù)據(jù)集結(jié)合了視覺(jué)和文本兩種不同的信息源,使得模型能夠同時(shí)從圖像和相關(guān)文本描述中學(xué)習(xí),從而理解更復(fù)雜的概念和上下文,即多模態(tài)信息融合。

      8、進(jìn)一步的,所述圖文對(duì)數(shù)據(jù)集進(jìn)一步構(gòu)造訓(xùn)練數(shù)據(jù)集,具體步驟包括:利用chinese-clip刪除所述圖文對(duì)數(shù)據(jù)集中分?jǐn)?shù)低于0.3、少于5個(gè)字符或超過(guò)50個(gè)字符的樣本,同時(shí)將帶有特定文本表達(dá)的樣本列為黑名單,剩下的樣本數(shù)據(jù)調(diào)整分辨率為vit-l/14@336px模型結(jié)構(gòu)支持的336*336,構(gòu)成訓(xùn)練數(shù)據(jù)集。

      9、其中,vit-l/14@336px模型是指vision?transformer(vit)的一個(gè)特定變體,其中"l"代表large,"14"指的是圖像被分割成14×14的補(bǔ)丁(patch),而"@336px"表示該模型接受的輸入圖像大小為336像素×336像素。

      10、vit-l/14一個(gè)較大的模型配置,會(huì)有更多的層和更大的參數(shù)量,以實(shí)現(xiàn)更高的準(zhǔn)確度。輸入圖像大小為336像素×336像素,相比于標(biāo)準(zhǔn)的224×224或其他尺寸,可以提供更詳細(xì)的圖像信息。

      11、其中,chinese-clip的工作原理是通過(guò)對(duì)比學(xué)習(xí)的方式,將文本和圖像編碼為相同的向量空間,使得語(yǔ)義上相關(guān)的文本和圖像在向量空間中彼此靠近。這樣,模型就能夠?qū)W會(huì)在語(yǔ)義層面上將文本和圖像關(guān)聯(lián)起來(lái)。

      12、進(jìn)一步的,所述對(duì)比損失函數(shù)采用infonce?loss,具體公式表示為:

      13、

      14、其中,q表示正樣本,p表示負(fù)樣本,k表示負(fù)樣本的數(shù)量,表示溫度系數(shù),表示第i個(gè)負(fù)樣本,i的范圍為0到k,exp表示指數(shù)函數(shù)。

      15、對(duì)比損失函數(shù)采用infonce?loss是為了學(xué)習(xí)一個(gè)共同的嵌入空間,其中文本和圖像可以被映射到一起,以便于它們可以根據(jù)語(yǔ)義相似性相互檢索或匹配。

      16、同時(shí),可以概率計(jì)算,使用softmax函數(shù)將這些相似度分?jǐn)?shù)轉(zhuǎn)換為概率分布。這樣,正樣本將有較高的概率值,而負(fù)樣本將有較低的概率值。

      17、根據(jù)本發(fā)明的第二方面,提出了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有一或多個(gè)計(jì)算機(jī)程序,該一或多個(gè)計(jì)算機(jī)程序被計(jì)算機(jī)處理器執(zhí)行時(shí)實(shí)施上述的方法。

      18、本申請(qǐng)實(shí)施例中的上述一個(gè)或多個(gè)技術(shù)方案,至少具有如下技術(shù)效果之一:

      19、本發(fā)明方法能夠高效地將中文語(yǔ)義遷移至蒙語(yǔ)語(yǔ)義,同時(shí)在特征空間中實(shí)現(xiàn)齊蒙語(yǔ)語(yǔ)義與圖像語(yǔ)義對(duì)齊。蒙語(yǔ)多模態(tài)情感識(shí)別技術(shù)的發(fā)展將大大促進(jìn)人工智能領(lǐng)域的多樣性和包容性,為蒙語(yǔ)使用者提供更貼心、更智能的服務(wù),同時(shí)推動(dòng)相關(guān)技術(shù)在全球范圍內(nèi)的應(yīng)用和發(fā)展。通過(guò)不斷的技術(shù)創(chuàng)新和應(yīng)用實(shí)踐,我們可以期待未來(lái)人機(jī)交互領(lǐng)域?qū)⒏尤诵曰?、智能化。將這些技術(shù)應(yīng)用到實(shí)際中,如在線(xiàn)客戶(hù)服務(wù)可以通過(guò)情感識(shí)別來(lái)改進(jìn)服務(wù)質(zhì)量,教育領(lǐng)域中,教師可以根據(jù)學(xué)生的情緒狀態(tài)調(diào)整教學(xué)策略。在安全監(jiān)控領(lǐng)域,情感識(shí)別可以幫助預(yù)測(cè)并防范潛在的沖突和危險(xiǎn)行為。



      技術(shù)特征:

      1.一種基于多模態(tài)對(duì)比學(xué)習(xí)的蒙語(yǔ)情感識(shí)別方法,其特征在于,包括以下步驟:

      2.根據(jù)權(quán)利要求1所述的蒙語(yǔ)情感識(shí)別方法,其特征在于,所述圖文對(duì)數(shù)據(jù)集的采集具體步驟包括:遍歷所述蒙語(yǔ)資料中的圖像,將選中的圖像與其配對(duì)的文本組合為正樣本對(duì),與其他所有文本組合為負(fù)樣本對(duì),從而構(gòu)造出所述圖文對(duì)數(shù)據(jù)集。

      3.根據(jù)權(quán)利要求1或2所述的蒙語(yǔ)情感識(shí)別方法,其特征在于,利用所述圖文對(duì)數(shù)據(jù)集,進(jìn)一步構(gòu)造訓(xùn)練數(shù)據(jù)集,具體步驟包括:利用chinese-clip刪除所述圖文對(duì)數(shù)據(jù)集中分?jǐn)?shù)低于0.3、少于5個(gè)字符或超過(guò)50個(gè)字符的樣本,同時(shí)將帶有特定文本表達(dá)的樣本列為黑名單,剩下的樣本數(shù)據(jù)調(diào)整分辨率為vit-l/14@336px模型結(jié)構(gòu)支持的336*336,構(gòu)成訓(xùn)練數(shù)據(jù)集。

      4.根據(jù)權(quán)利要求1所述的蒙語(yǔ)情感識(shí)別方法,其特征在于,所述對(duì)比學(xué)習(xí)損失函數(shù)采用infonce?loss,具體公式表示為:

      5.一種計(jì)算機(jī)程序產(chǎn)品,其特征在于,其上存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序在被處理器執(zhí)行時(shí)實(shí)施如權(quán)利要求1-4中任一項(xiàng)所述的方法。

      6.一種計(jì)算系統(tǒng),其特征在于,包括處理器和存儲(chǔ)器,所述處理器被配置為執(zhí)行如權(quán)利要求1-4中任一項(xiàng)所述的方法。


      技術(shù)總結(jié)
      本發(fā)明公開(kāi)了一種基于多模態(tài)對(duì)比學(xué)習(xí)的蒙語(yǔ)情感識(shí)別方法,具體步驟包括:引入從自然語(yǔ)言監(jiān)督中學(xué)習(xí)視覺(jué)情感的多模態(tài)開(kāi)放集零樣本分類(lèi)技術(shù),利用大量的圖像文本對(duì)預(yù)訓(xùn)練一個(gè)圖像編碼器和一個(gè)蒙語(yǔ)文本編碼器,利用這個(gè)構(gòu)造的雙塔結(jié)構(gòu),采用兩階段微調(diào)方法,利用對(duì)比學(xué)習(xí)損失實(shí)現(xiàn)圖像和蒙語(yǔ)文本的特征對(duì)齊。在數(shù)據(jù)的處理上,利用Chinese?CLIP模型對(duì)翻譯的圖文對(duì)數(shù)據(jù)進(jìn)行過(guò)濾,以獲得高質(zhì)量的圖文對(duì)數(shù)據(jù)集。本方法促進(jìn)人工智能領(lǐng)域的多樣性和包容性,為蒙語(yǔ)使用者提供智能的服務(wù),同時(shí)推動(dòng)相關(guān)技術(shù)在全球范圍內(nèi)的應(yīng)用和發(fā)展。

      技術(shù)研發(fā)人員:滿(mǎn)君怡,高志鵬,趙建強(qiáng),王志永,畢永輝,陳子灃
      受保護(hù)的技術(shù)使用者:廈門(mén)市美亞柏科信息安全研究所有限公司
      技術(shù)研發(fā)日:
      技術(shù)公布日:2024/12/26
      網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1