国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種雙通道信息融合的情感識(shí)別方法

      文檔序號(hào):6372795閱讀:445來(lái)源:國(guó)知局
      專(zhuān)利名稱(chēng):一種雙通道信息融合的情感識(shí)別方法
      技術(shù)領(lǐng)域
      本發(fā)明涉及一種雙通道信息融合的情感識(shí)別方法,特別涉及一種基于BOLTZMANN拉鏈的雙通道信息融合的情感識(shí)別方法,屬于自動(dòng)情感識(shí)別領(lǐng)域。
      背景技術(shù)
      各個(gè)學(xué)科的研究人員已經(jīng)在自動(dòng)情感識(shí)別領(lǐng)域做了很多工作。情感可以使用離散類(lèi)別方法表示(如Ekman提出的6種基本情感類(lèi)別),或者使用連續(xù)維度方法表示(如activation-evaluation空間方法),或者使用基于評(píng)價(jià)的方法表示。臉部表情、語(yǔ)音、身體姿勢(shì)及上下文等多種不同的特征都可以用來(lái)識(shí)別人的情感狀態(tài)。研究人員針對(duì)單模態(tài)情感識(shí)別與分析做了很多工作。融合語(yǔ)音和視覺(jué)兩個(gè)通道的信息可以提高情感識(shí)別的準(zhǔn)確度。原因在于語(yǔ) 音-視覺(jué)雙模態(tài)融合可以利用這兩個(gè)通道的互補(bǔ)信息。語(yǔ)音-視覺(jué)情感識(shí)別中使用的數(shù)據(jù)融合方法大都可以歸為以下三類(lèi)特征層融合、模型層融合和決策層融合。然而,多個(gè)模態(tài)特征時(shí)間尺度和度量尺度的不同影響了特征層融合方法的有效性,決策層融合損失了多個(gè)通道之間內(nèi)在的關(guān)聯(lián)信息。模型層融合使用了多個(gè)數(shù)據(jù)流之間的關(guān)聯(lián)信息,可能是該融合問(wèn)題的最佳選擇。Zeng等人在文獻(xiàn)《Audio - Visual AffectiveExpression Recognition Through Multistream Fused HMM》 (IEEE TRANSACTIONS ONMULTIMEDIA, vol. 10, no. 4, June 2008)中提出了一種多流融合 HMM (MFHMM)方法,根據(jù)最大熵和最大相互信息準(zhǔn)則,建立多個(gè)語(yǔ)音-視覺(jué)流間的優(yōu)化連接。MFHMM通過(guò)將ー個(gè)分量HMM的隱節(jié)點(diǎn)和其它分量HMM的觀察變量相連來(lái)融合多個(gè)分量HMM。他們接著在文獻(xiàn)《TrainingCombination Strategy of Multi-Stream Fused Hidden Markov Model for Audio—Visua丄Affect Recognition》(Proc. 14th ACM Int’I Conf. Multimedia (Multimedia’06),pp. 65-68,2006.)中擴(kuò)展了該框架,采用訓(xùn)練組合策略,使多個(gè)HMM的組合機(jī)制既可以是線(xiàn)性的也可以是非線(xiàn)性的。Petridis等人在文獻(xiàn)《Audiovisual Discrimination between Laughterand Speech)) (IEEE Int,I Conf. Acoustics, Speech, and Signal Processing (ICASSP), pp. 5117-5120,2008.)中使用神經(jīng)網(wǎng)絡(luò)來(lái)合并語(yǔ)音-視覺(jué)通道的信息。這些方法的缺點(diǎn)是語(yǔ)音和視頻數(shù)據(jù)的采樣時(shí)間間隔一般存在差異,上述方法不能很方便、很準(zhǔn)確的處理這種差異,造成識(shí)別率的降低。本發(fā)明中涉及到的重要已有技術(shù)是Boltzmann鏈(chain)、Boltzmann拉鏈(Boltzmann zipper)、Boltzmann 網(wǎng)絡(luò)的構(gòu)型、Boltzmann 網(wǎng)絡(luò)的最優(yōu)構(gòu)型。(I) Boltzmann鏈?zhǔn)签`種結(jié)構(gòu)化的Boltzmann網(wǎng)絡(luò),其格拓?fù)浣Y(jié)構(gòu)如圖I所示,包含可見(jiàn)節(jié)點(diǎn)和隱節(jié)點(diǎn)。Boltzmann鏈在ー個(gè)采樣時(shí)間點(diǎn)上包含I個(gè)可見(jiàn)節(jié)點(diǎn)集合和I個(gè)隱節(jié)點(diǎn)集合。I個(gè)可見(jiàn)節(jié)點(diǎn)集合中包含若干個(gè)可見(jiàn)節(jié)點(diǎn),圖I矩形中橫向排列的節(jié)點(diǎn)為可見(jiàn)節(jié)點(diǎn);1個(gè)隱節(jié)點(diǎn)集合中包含若干個(gè)隱節(jié)點(diǎn),圖I矩形中縱向排列的節(jié)點(diǎn)為隱節(jié)點(diǎn)。同一采樣時(shí)間點(diǎn)的可見(jiàn)節(jié)點(diǎn)與隱節(jié)點(diǎn)之間由權(quán)矩陣Bjk實(shí)現(xiàn)互聯(lián),相鄰采樣時(shí)間點(diǎn)的隱節(jié)點(diǎn)之間由權(quán)矩陣Au實(shí)現(xiàn)互聯(lián)。
      (2) Boltzmann拉鏈由2條交叉連接的分量Boltzmann鏈(chain)組成,2條分量BOLTZMANN鏈的采樣時(shí)間尺度不同,通常將采樣時(shí)間間隔短的分量BOLTZMANN鏈稱(chēng)為快鏈;采樣時(shí)間間隔長(zhǎng)的分量BOLTZMANN鏈稱(chēng)為慢鏈。圖2展示了慢鏈采樣時(shí)間間隔是快鏈采樣時(shí)間間隔2倍的Boltzmann拉鏈結(jié)構(gòu)示意圖??戽溨心骋徊蓸訒r(shí)間點(diǎn)的可見(jiàn)節(jié)點(diǎn)與隱節(jié)點(diǎn)由權(quán)矩陣B實(shí)現(xiàn)互聯(lián),相鄰采樣時(shí)間點(diǎn)的隱節(jié)點(diǎn)之間由權(quán)矩陣A實(shí)現(xiàn)互聯(lián)。慢鏈中某ー采樣時(shí)間點(diǎn)的可見(jiàn)節(jié)點(diǎn)與隱節(jié)點(diǎn)由權(quán)矩陣Q實(shí)現(xiàn)互聯(lián),相鄰采樣時(shí)間點(diǎn)的隱節(jié)點(diǎn)之間由權(quán)矩陣P實(shí)現(xiàn)互聯(lián)??戽満吐湹碾[節(jié)點(diǎn)之間由權(quán)矩陣E實(shí)現(xiàn)互聯(lián)。(3) Boltzmann網(wǎng)絡(luò)的構(gòu)型。Boltzmann網(wǎng)絡(luò)中的各個(gè)節(jié)點(diǎn)在其取值范圍內(nèi),確定了各個(gè)節(jié)點(diǎn)的取值,就得到一種構(gòu)型;其中某個(gè)或某些節(jié)點(diǎn)的取值發(fā)生變化,就得到ー種新的構(gòu)型。由于Boltzmann網(wǎng)絡(luò)的節(jié)點(diǎn)個(gè)數(shù)是確定的,因此對(duì)于ー個(gè)Boltzmann網(wǎng)絡(luò),其構(gòu)型個(gè)數(shù)是有限的。(4)Boltzmann網(wǎng)絡(luò)的最優(yōu)構(gòu)型。Boltzmann網(wǎng)絡(luò)的能量函數(shù)如公式(I)所示。對(duì)于ー個(gè)Boltzmann網(wǎng)絡(luò)的某ー種Boltzmann網(wǎng)絡(luò)構(gòu)型,其能量用E'表示,E'可通過(guò)公式 (I)計(jì)算得到;在其所有網(wǎng)絡(luò)構(gòu)型中,能量E'最低的構(gòu)型被稱(chēng)為最優(yōu)構(gòu)型。
      權(quán)利要求
      1.一種雙通道信息融合的情感識(shí)別方法,其特征在于該方法包括訓(xùn)練過(guò)程和識(shí)別過(guò)程; 所述訓(xùn)練過(guò)程的具體實(shí)施步驟如下 步驟一、對(duì)訓(xùn)練數(shù)據(jù)中的情感視頻數(shù)據(jù)進(jìn)行預(yù)處理; 訓(xùn)練數(shù)據(jù)中的每種情感視頻數(shù)據(jù)不少于20個(gè);分別對(duì)訓(xùn)練數(shù)據(jù)中的每個(gè)情感視頻數(shù)據(jù)做預(yù)處理,得到表情離散觀察變量序列和音頻離散觀察變量序列; 所述得到表情離散觀察變量序列的具體步驟為 第I步從每個(gè)情感視頻中提取臉部表情特征,具體為 第I. I步從每個(gè)情感視頻中以等間隔的方式提取m幀圖像組成一個(gè)表情圖像序列,m ≥ 20 ; 第I. 2步依次從每個(gè)表情圖像序列中的各幀圖像中提取Θ個(gè)臉部表情特征值,分別用T1至Te表示,≥5 ;所述臉部表情特征值包括但不限于臉部幾何特征值;臉部紋理特征值; 第I. 3步為了解決因不同人臉型不同造成的對(duì)臉部表情特征值1\至1\的影響,對(duì)所有圖像的臉部表情特征值T1至Te進(jìn)行歸一化處理,具體為 第I. 3. I步從全部表情圖像序列中找出包含待處理圖像中人臉的所有表情圖像序列;所述待處理圖像為當(dāng)前等待做歸一化處理的圖像; 第I. 3. 2步分別計(jì)算經(jīng)過(guò)第I. 3. I步處理后得到的包含待處理圖像中人臉的所有表情圖像序列的第一幀圖像中臉部表情特征值T1的均值、T2的均值、……、Te的均值,分別用畀至%表示; 第I. 3. 3步用$對(duì)待處理圖像的臉部表情特征值!\進(jìn)行歸一化處理,歸一化處理后的臉部表情特征值T1用符號(hào)T' !新、,Τ{=ΤλΙΤλ ;用石對(duì)待處理圖像的臉部表情特征值T2進(jìn)行歸一化處理,歸一化處理后的臉部表情特征值T2用符號(hào)T' 2表示,z2' = r2/f2 ;……;以此類(lèi)推,用$對(duì)待處理圖像的臉部表情特征值Te進(jìn)行歸一化處理,歸一化處理后的臉部表情特征值Te用符號(hào)T' 0表示,2 = / ; 第I. 4步獲得每個(gè)表情圖像序列中各巾貞圖像的表情特征向量,用Vr表不,I ^ r ^ m ;一個(gè)表情圖像序列中第r幀圖像的表情特征向量Vr由經(jīng)過(guò)第I. 3步歸一化處理后的Θ個(gè)特征值組成,Vr=[fn,fr2,……,^]'匕為該表情圖像序列的第r幀圖像中經(jīng)過(guò)歸一化處理的第I個(gè)臉部表情特征值T' 1;42為該表情圖像序列的第r幀圖像中經(jīng)過(guò)歸一化處理的第2個(gè)臉部表情特征值T, 2,……,以此類(lèi)推,為該表情圖像序列的第r幀圖像中經(jīng)過(guò)歸一化處理的第Θ個(gè)臉部表情特征值T' θ ; 第I. 5步對(duì)于一個(gè)情感視頻,使用矩陣M來(lái)表示其臉部表情特征,M=LV1, V2,……,VJ e Rexm5 第2步將表情特征向量轉(zhuǎn)換成表情離散觀察變量; 全部表情圖像序列中各幀圖像的表情特征向量的個(gè)數(shù)用符號(hào)NUM1表示,NUM1為表情圖像序列的個(gè)數(shù)與m的乘積;依次為每一個(gè)表情特征向量從I到NUM1編號(hào),用Ug表示第g個(gè)表情特征向量,NUM1 ;使用聚類(lèi)算法對(duì)全部NUM1個(gè)表情特征向量進(jìn)行聚類(lèi),得到Hi1個(gè)類(lèi)別,Hl1為人為設(shè)定的正整數(shù),Hl1 ^ 10 ;對(duì)聚類(lèi)后得到的Hl1個(gè)類(lèi)別分別編號(hào)為1、2、……、Hl1 ;使用表情特征向量Ug對(duì)應(yīng)的聚類(lèi)后的類(lèi)別編號(hào)作為該表情特征向量Ug對(duì)應(yīng)的表情離散觀察變量; 第3步對(duì)于一個(gè)情感視頻,使用其臉部表情特征矩陣M中的表情特征向量I對(duì)應(yīng)的表情離散觀察 變量組成的序列作為該情感視頻的表情離散觀察變量序列; 所述得到音頻離散觀察變量序列的具體步驟為 步驟I :從每個(gè)情感視頻中提取語(yǔ)音情感特征,具體為 步驟I. I :從每個(gè)情感視頻中以等間隔的方式提取P個(gè)音頻巾貞組成一條音頻序列;p =a Xm, a=2 或 3 ; 步驟I. 2 :依次從每條音頻序列的各音頻幀中提取λ個(gè)音頻特征值,分別用表示,λ >4;所述音頻特征值包括但不限于信號(hào)強(qiáng)度;短時(shí)過(guò)零率;基音頻率;共振峰頻率;線(xiàn)性預(yù)測(cè)倒譜系數(shù);線(xiàn)譜對(duì)參數(shù);Mel頻率倒譜系數(shù);感知線(xiàn)性預(yù)測(cè)倒譜系數(shù); 步驟I. 3 :對(duì)所有音頻幀的音頻特征值進(jìn)行歸一化處理,具體為 步驟I. 3. I :找出與待處理音頻幀為同一發(fā)聲人物的所有中性情感的音頻序列;所述待處理音頻幀為當(dāng)前等待做歸一化處理的音頻幀; 步驟I. 3. 2 :分別計(jì)算經(jīng)過(guò)步驟I. 3. I處理后得到的與待處理音頻幀為同一發(fā)聲人物的所有中性情感的音頻序列中各音頻幀的音頻特征值均值、F2的均值、……、Fa的均值,分別用巧至巧表示; 步驟I. 3. 3 :用巧對(duì)待處理音頻幀的音頻特征值F1進(jìn)行歸一化處理,歸一化處理后的音頻特征值匕用符號(hào)F' i表示,打=巧/巧;用歹2對(duì)待處理音頻幀的音頻特征值F2進(jìn)行歸一化處理,歸一化處理后的音頻特征值F2用符號(hào)F' 2表示,K = FjF2 ;……;以此類(lèi)推,用馬對(duì)待處理音頻幀的音頻特征值Fa進(jìn)行歸一化處理,歸一化處理后的音頻特征值Fa用符號(hào)F' λ表示,C=巧/巧; 步驟I. 4 :獲得每個(gè)首頻序列中各首頻巾貞的首頻特征向量,用V' t表不,I ^ t ^ P ;一個(gè)音頻序列中的第t幀音頻幀的音頻特征向量V',由經(jīng)過(guò)歸一化處理后的λ個(gè)特征值組成,V' t=[f' tl,f' t2,……,f' λ]Τ, f' U為該音頻序列的第t幀音頻幀中經(jīng)過(guò)歸一化處理的第I個(gè)音頻特征值F' 1; f/ t2為該音頻序列的第t幀音頻幀中經(jīng)過(guò)歸一化處理的第2個(gè)音頻特征值F, 2,……,以此類(lèi)推,f' λ為該音頻序列的第t幀音頻幀中經(jīng)過(guò)歸一化處理的第λ個(gè)音頻特征值F' λ ; 步驟I. 5 :對(duì)于一個(gè)情感視頻,使用矩陣M '來(lái)表示其語(yǔ)音情感特征,M' =[v' ur 2,……’r p] e rAXp; 步驟2 :將音頻特征向量轉(zhuǎn)換成音頻離散觀察變量; 全部音頻序列中各音頻幀的音頻特征向量的個(gè)數(shù)用符號(hào)NUM2表示,NUM2為音頻序列的個(gè)數(shù)與P的乘積;依次為每一個(gè)音頻特征向量從I到NUM2編號(hào),用U' g,表示第^個(gè)音頻特征向量,^ NUM2 ;使用聚類(lèi)算法對(duì)全部NUM2個(gè)音頻特征向量進(jìn)行聚類(lèi),得到m2個(gè)類(lèi)別,m2為人為設(shè)定的正整數(shù),m2 ^ 15 ;對(duì)聚類(lèi)后得到的m2個(gè)類(lèi)別分別編號(hào)為1、2、……、m2 ;使用音頻特征向量U' g,對(duì)應(yīng)的聚類(lèi)后的類(lèi)別編碼作為該音頻特征向量U' g,對(duì)應(yīng)的音頻離散觀察變量; 步驟3:對(duì)于一個(gè)情感視頻,使用其語(yǔ)音情感特征矩陣M'中的音頻特征向量V' t對(duì)應(yīng)的音頻離散觀察變量組成的序列作為該情感視頻的音頻離散觀察變量序列; 步驟二、建立BOLTZMANN拉鏈; 此步驟可以與步驟一同步操作Boltzmann拉鏈由2個(gè)分量BOLTZMANN鏈互聯(lián)而成,2條分量BOLTZMANN鏈的采樣時(shí)間尺度不同,其中I條分量BOLTZMANN鏈的采樣時(shí)間間隔是另外一條分量BOLTZMANN鏈的采樣時(shí)間間隔的a倍,a = 2或3 ;采樣時(shí)間間隔短的分量BOLTZMANN鏈被稱(chēng)為快鏈;采樣時(shí)間間隔長(zhǎng)的分量BOLTZMANN鏈被稱(chēng)為慢鏈;慢鏈對(duì)應(yīng)m個(gè)采樣時(shí)間點(diǎn);對(duì)應(yīng)每個(gè)采樣時(shí)間點(diǎn),慢鏈中的可見(jiàn)節(jié)點(diǎn)的數(shù)量Sm1個(gè),隱節(jié)點(diǎn)的數(shù)量為m' II < 30 ;快鏈對(duì)應(yīng)P個(gè)采樣時(shí)間點(diǎn);對(duì)應(yīng)每個(gè)采樣時(shí)間點(diǎn),快鏈中的可見(jiàn)節(jié)點(diǎn)的數(shù)量為m2個(gè),隱節(jié)點(diǎn)的數(shù)量為m' 2個(gè),2彡30 ;所述Boltzmann拉鏈中的所有可見(jiàn)節(jié)點(diǎn)和隱節(jié)點(diǎn)的數(shù)量用N表示,N = (m^m' J Xm+ (m2+m/ 2) Xp ;依次為Boltzmann拉鏈中的所有可見(jiàn)節(jié)點(diǎn)和隱節(jié)點(diǎn)從I到N編號(hào);用Wu表示第i個(gè)節(jié)點(diǎn)和第j個(gè)節(jié)點(diǎn)之間的網(wǎng)絡(luò)權(quán)值,I彡i, j彡N, i關(guān)j ; 步驟三、訓(xùn)練BOLTZMANN拉鏈; 步驟一和步驟二操作的基礎(chǔ)上,針對(duì)每一種情感訓(xùn)練一個(gè)Boltzmann拉鏈;每一種情感的訓(xùn)練數(shù)據(jù)稱(chēng)為一個(gè)訓(xùn)練樣本集,訓(xùn)練樣本集中的每一個(gè)訓(xùn)練樣本經(jīng)過(guò)步驟一的處理后得到一個(gè)表情離散觀察變量序列和一個(gè)音頻離散觀察變量序列;每個(gè)Boltzmann拉鏈的訓(xùn)練過(guò)程為使用表情離散觀察變量序列初始化Boltzmann拉鏈中慢鏈的可見(jiàn)節(jié)點(diǎn)的狀態(tài)值,慢鏈的隱節(jié)點(diǎn)狀態(tài)值隨機(jī)給定;使用音頻離散觀察變量序列初始化Boltzmann拉鏈中快鏈的可見(jiàn)節(jié)點(diǎn)的狀態(tài)值,快鏈的隱節(jié)點(diǎn)狀態(tài)值隨機(jī)給定,然后對(duì)所述BOLTZMANN拉鏈進(jìn)行訓(xùn)練,確定BOLTZMANN拉鏈的網(wǎng)絡(luò)權(quán)值Wij ; 所述識(shí)別過(guò)程是使用經(jīng)過(guò)訓(xùn)練過(guò)程的操作后得到的多個(gè)BOLTZMANN拉鏈對(duì)待識(shí)別情感視頻中的人的情感進(jìn)行識(shí)別,其具體操作步驟為 步驟四、對(duì)待識(shí)別情感視頻進(jìn)行預(yù)處理,得到待識(shí)別情感視頻的表情離散觀察變量序列和音頻離散觀察變量序列; 所述得到待識(shí)別情感視頻的表情離散觀察變量序列的具體步驟與訓(xùn)練過(guò)程的步驟一中所述得到表情離散觀察變量序列的具體步驟為一致; 所述得到待識(shí)別情感視頻的音頻離散觀察變量序列的具體步驟與訓(xùn)練過(guò)程的步驟一中所述得到音頻離散觀察變量序列的具體步驟為一致; 步驟五、依次使用待識(shí)別情感視頻的表情離散觀察變量序列和音頻離散觀察變量序列初始化訓(xùn)練過(guò)程得到的每一種情感的Boltzmann拉鏈的可見(jiàn)節(jié)點(diǎn),隱節(jié)點(diǎn)的狀態(tài)值隨機(jī)給定,然后將Boltzmann拉鏈的可見(jiàn)節(jié)點(diǎn)箝位,對(duì)Boltzmann拉鏈執(zhí)行確定性模擬退火算法,得到每一種情感的Boltzmann拉鏈的最優(yōu)構(gòu)型; 步驟六、判斷待識(shí)別情感視頻的情感類(lèi)別; 在步驟五的基礎(chǔ)上,用公式(8)依次計(jì)算待識(shí)別情感視頻在每一種情感的Boltzmann拉鏈下的后驗(yàn)概率,后驗(yàn)概率最大的Boltzmann拉鏈對(duì)應(yīng)的情感即為待識(shí)別情感視頻所屬的情感類(lèi)別;其中,P為后驗(yàn)概率;Y表示經(jīng)過(guò)步驟五的操作后得到的可見(jiàn)節(jié)點(diǎn)箝位狀態(tài)下Boltzmann拉鏈的最優(yōu)構(gòu)型;Εγ為經(jīng)過(guò)步驟五的操作后得到的可見(jiàn)節(jié)點(diǎn)箝位狀態(tài)下Boltzmann拉鏈最優(yōu)構(gòu)型的能量,將該Boltzmann拉鏈的網(wǎng)絡(luò)權(quán)值以及經(jīng)過(guò)步驟五的操作后得到的可見(jiàn)節(jié)點(diǎn)箝位狀態(tài)下該Boltzmann拉鏈最優(yōu)構(gòu)型的各節(jié)點(diǎn)的狀態(tài)值代入能量函數(shù)即可得到,能量函數(shù)如公式(9)所示;Te為步驟五中Boltzmann拉鏈執(zhí)行確定性模擬退火算法后得到的最低溫度;Z(Te)是分配函數(shù),如公式(10)所示;
      2.如權(quán)利要求I所述的一種雙通道信息融合的情感識(shí)別方法,其特征在于訓(xùn)練過(guò)程的步驟一第I步第I. 2步中所述依次從每個(gè)表情圖像序列中的各幀圖像中提取Θ個(gè)臉部幾何特征值,9=10,其具體步驟為 第I. 2. I步依次在每個(gè)表情圖像序列中的第一幀圖像中標(biāo)識(shí)出20個(gè)臉部特征點(diǎn);其中,第1、2特征點(diǎn)分別位于右邊眉毛和左邊眉毛的眉頭位置,分別用(Xl,yi)、(x2,y2)表示;第3、4特征點(diǎn)分別位于右邊眉毛和左邊眉毛的眉尾位置,分別用(x3,y3)、(x4, y4)表示;第5、6特征點(diǎn)分別位于右邊眼睛和左邊眼睛的內(nèi)眼角位置,分別用(x5,y5)、(x6, y6)表示;第7、8特征點(diǎn)分別位于右邊眼睛和左邊眼睛的最低點(diǎn),分別用(x7,y7)、(x8, y8)表示;第9、10特征點(diǎn)分別位于右邊眼睛和左邊眼睛的外眼角位置,分別用(x9,y9)、(xlcl,y1(l)表示;第11、12特征點(diǎn)分別位于右邊眼睛和左邊眼睛的最高點(diǎn),分別用(Xll,yn)、(x12, y12)表示;第13、14特征點(diǎn)分別位于鼻翼的最右側(cè)位置和鼻翼的最左側(cè)位置,分別用(x13,y13)、(x14, y14)表示;第15特征點(diǎn)位于鼻尖位置,用(x15,y15)表示;第16、17特征點(diǎn)分別位于嘴角的最右側(cè)位置和嘴角的最左側(cè)位置,分別用(x16,y16)、(x17, y17)表示;第18、19特征點(diǎn)分別位于唇部中心線(xiàn)與唇部輪廓線(xiàn)相交的最高點(diǎn)和最低點(diǎn),分別用(x18, y18)、(x19, y19)表示;第20特征點(diǎn)位于臉部中心線(xiàn)與臉部輪廓線(xiàn)相交的最低點(diǎn),用(x2C1,y2(1)表示; 第I. 2. 2步根據(jù)每個(gè)表情圖像序列中的第一幀圖像中的20個(gè)特征點(diǎn)的位置,定位出該表情圖像序列中除第一幀圖像以外的后續(xù)幀圖像中的20個(gè)臉部特征點(diǎn); 第I. 2. 3步根據(jù)各圖像中的20個(gè)特征點(diǎn)的位置,分別計(jì)算每個(gè)表情圖像序列中的各幀圖像的10個(gè)臉部表情特征值T1至Tltl,具體為(I)兩眼寬度的平均值,用T1表示,T^d X9-X51+ I X10-X6I )/2 ;⑵兩眼高度的平均值,用 T2 表示,T2=(|yn-y7| + |y12-y8|)/2 ;(3)兩支眉毛寬度的平均值,用T3表示,T3=(Ix3-X1KlX4-X2I)^ ;(4)兩支眉毛高度的平均值,用T4表示,T4= (I Y3-Y11+ I Y4-Y21 )/2; (5)內(nèi)眼角和眉頭之間垂直距離的均值,用1~5表示,T5=(|y5-yi| + |y6-y2|)/2;(6)鼻尖和左右嘴角的垂直距離均值,用T6表示,T6= (I y16-y151 +1 y17-y151) /2 ; (7)嘴角和外眼角垂直距離的均值,用T7表示,T7= (I Y16-Y9I+ I Y17-Yiol)/2; (8)嘴張開(kāi)寬度,用 T8 表示,T8=IX17-X16 ;(9)嘴張開(kāi)高度,用 T9表示,T9=|y18_y19| ; (10)鼻尖和下巴的距離,用 Tltl 表示,T1(l=|y15-y2(l|。
      3.如權(quán)利要求2所述的一種雙通道信息融合的情感識(shí)別方法,其特征在于訓(xùn)練過(guò)程的步驟一第I步第I. 2步第I. 2. I步中所述標(biāo)識(shí)20個(gè)臉部特征點(diǎn)的方法包括但不限于①人工手動(dòng)標(biāo)識(shí);②使用基于Gabor特征的增強(qiáng)分類(lèi)器方法實(shí)現(xiàn)對(duì)20個(gè)臉部特征點(diǎn)的自動(dòng)定位。
      4.如權(quán)利要求2或3所述的一種雙通道信息融合的情感識(shí)別方法,其特征在于步驟一第I步第I. 2步第I. 2. 2步中所述定位出該表情圖像序列中除第一幀圖像以外的后續(xù)幀圖像中的20個(gè)臉部特征點(diǎn)的方法包括但不限于①人工手動(dòng)標(biāo)識(shí)使用基于分解概率的粒子濾波跟蹤算法實(shí)現(xiàn)對(duì)20個(gè)臉部特征點(diǎn)的自動(dòng)跟蹤。
      5.如權(quán)利要求2至4之一所述的一種雙通道信息融合的情感識(shí)別方法,其特征在于訓(xùn)練過(guò)程的步驟一第I步第I. 2步第I. 2. 3步中所述計(jì)算臉部表情特征值T8至Tltl的優(yōu)選方法是在第I. 2. 3步操作的基礎(chǔ)上,在每個(gè)表情圖像序列中的第η幀圖像中,l〈n〈m,將T8至Tltl這三個(gè)特征值分別用相應(yīng)特征在第(η-i)幀、第η巾貞、第(η+1)幀圖像中的均值來(lái)替換。
      6.如權(quán)利要求I至5之一所述的一種雙通道信息融合的情感識(shí)別方法,其特征在于訓(xùn)練過(guò)程的步驟三中所述BOLTZMANN拉鏈進(jìn)行訓(xùn)練,確定BOLTZMANN拉鏈的網(wǎng)絡(luò)權(quán)值Wij的具體步驟為 第3. O步設(shè)定所述BOLTZMANN拉鏈的所有節(jié)點(diǎn)取值范圍均為I或者_(dá)1 ;人為給定參數(shù)η的值;η表示訓(xùn)練樣本集中每個(gè)樣本被選中的最少次數(shù),n ^ 2 ;隨機(jī)給定網(wǎng)絡(luò)權(quán)值1!^的初始值; 第3. I步從訓(xùn)練樣本集中隨機(jī)選擇一個(gè)訓(xùn)練樣本; 第3. 2步使用第3. I步選擇的訓(xùn)練樣本的表情離散觀察變量序列初始化Boltzmann拉鏈中慢鏈的可見(jiàn)節(jié)點(diǎn)的狀態(tài)值,該表情離散觀察變量序列中的m個(gè)表情離散觀察變量分別對(duì)應(yīng)慢鏈的m個(gè)采樣時(shí)間點(diǎn),在每個(gè)采樣時(shí)間點(diǎn)上,根據(jù)對(duì)應(yīng)表情離散觀察變量Ug的值,將慢鏈的該采樣時(shí)間點(diǎn)上第Ug個(gè)可見(jiàn)節(jié)點(diǎn)初始化為1,慢鏈的該采樣時(shí)間點(diǎn)上的其他可見(jiàn)節(jié)點(diǎn)初始化為-I ;慢鏈的隱節(jié)點(diǎn)狀態(tài)值隨機(jī)給定為I或者-I ;使用第3. I步選擇的訓(xùn)練樣本的音頻離散觀察變量序列初始化Boltzmann拉鏈中快鏈的可見(jiàn)節(jié)點(diǎn)的狀態(tài)值,該音頻離散觀察變量序列中的P個(gè)音頻離散觀察變量分別對(duì)應(yīng)快鏈的P個(gè)采樣時(shí)間點(diǎn),在每個(gè)采樣時(shí)間點(diǎn)上,根據(jù)對(duì)應(yīng)音頻離散觀察變量U' g,的值,將快鏈的該采樣時(shí)間點(diǎn)上第U' g,個(gè)可見(jiàn)節(jié)點(diǎn)初始化為1,快鏈的該采樣時(shí)間點(diǎn)上的其他可見(jiàn)節(jié)點(diǎn)初始化為-I ;快鏈的隱節(jié)點(diǎn)狀態(tài)值隨機(jī)給定為I或者-I ; 第3. 3步將所述Boltzmann拉鏈中的可見(jiàn)節(jié)點(diǎn)箝位,使用當(dāng)前網(wǎng)絡(luò)權(quán)值Wij,對(duì)經(jīng)過(guò)第.3.2步的初始化后的Boltzmann拉鏈執(zhí)行確定性模擬退火算法,得到可見(jiàn)節(jié)點(diǎn)箝位狀態(tài)下的Boltzmann拉鏈的最優(yōu)構(gòu)型; 第3. 4步用Qij表示可見(jiàn)節(jié)點(diǎn)箝位狀態(tài)下的Boltzmann拉鏈的最優(yōu)構(gòu)型中,第i個(gè)節(jié)點(diǎn)和第j個(gè)節(jié)點(diǎn)的狀態(tài)值乘積,通過(guò)公式(2)計(jì)算Qij值;Qij=Si X Sj (2) 其中,Si表示可見(jiàn)節(jié)點(diǎn)箝位狀態(tài)下的Boltzmann拉鏈的最優(yōu)構(gòu)型中,第i個(gè)節(jié)點(diǎn)的狀態(tài)值;Sj表示可見(jiàn)節(jié)點(diǎn)箝位狀態(tài)下的Boltzmann拉鏈的最優(yōu)構(gòu)型中,第j個(gè)節(jié)點(diǎn)的狀態(tài)值; 第3. 5步可見(jiàn)節(jié)點(diǎn)不箝位,使用當(dāng)前網(wǎng)絡(luò)權(quán)值Wu,對(duì)經(jīng)過(guò)第3. 2步初始化操作后的Boltzmann拉鏈執(zhí)行確定性模擬退火算法,得到可見(jiàn)節(jié)點(diǎn)自由狀態(tài)下的Boltzmann拉鏈的最優(yōu)構(gòu)型; 第3. 6步用Q' 表示可見(jiàn)節(jié)點(diǎn)自由狀態(tài)下的Boltzmann拉鏈的最優(yōu)構(gòu)型中,第i個(gè)節(jié)點(diǎn)和第j個(gè)節(jié)點(diǎn)的狀態(tài)值乘積,通過(guò)公式(3)計(jì)算Q' ,j值; Q' - W j (3) 其中,S' i表示可見(jiàn)節(jié)點(diǎn)自由狀態(tài)下的BoItzmann拉鏈的最優(yōu)構(gòu)型中,第i個(gè)節(jié)點(diǎn)的狀態(tài)值;S^ j表示可見(jiàn)節(jié)點(diǎn)自由狀態(tài)下的Boltzmann拉鏈的最優(yōu)構(gòu)型中,第j個(gè)節(jié)點(diǎn)的狀態(tài)值; 第3. 7步使用公式(4)和公式(5)調(diào)整網(wǎng)絡(luò)權(quán)值Wij ; r(η/Τα) X (Qij-Q' ^.) (4) 其中,r ij為臨時(shí)變量;H為學(xué)習(xí)步長(zhǎng),取正實(shí)數(shù)-Ja的取值為第3. 5步執(zhí)行確定性模擬退火算法后得到的最低溫度; Wij=Wi(5) 第3. 8步判斷訓(xùn)練樣本集中的每個(gè)樣本是否都被選中了 n次;如果每個(gè)樣本都被選中了 n次,則完成對(duì)BOLTZMANN拉鏈的訓(xùn)練,固定網(wǎng)絡(luò)權(quán)值Wu,結(jié)束操作;否則,回到第3. I步; 其中,第3. 3步中所述執(zhí)行確定性模擬退火算法的迭代次數(shù)與步驟三第3. 5步中所述執(zhí)行確定性模擬退火算法的迭代次數(shù)相等; 經(jīng)過(guò)上述步驟的操作,即可完成對(duì)一個(gè)Boltzmann拉鏈的訓(xùn)練。
      7.如權(quán)利要求I至6之一所述的一種雙通道信息融合的情感識(shí)別方法,其特征在于識(shí)別過(guò)程的步驟五中所述得到每一種情感的Boltzmann拉鏈的最優(yōu)構(gòu)型的具體步驟為 第5. I步依次使用待識(shí)別情感視頻的表情離散觀察變量序列初始化訓(xùn)練過(guò)程得到的每一種情感的Boltzmann拉鏈中慢鏈的可見(jiàn)節(jié)點(diǎn)的狀態(tài)值,表情離散觀察變量序列中的m個(gè)表情離散觀察變量分別對(duì)應(yīng)慢鏈的m個(gè)采樣時(shí)間點(diǎn),在每個(gè)采樣時(shí)間點(diǎn)上,根據(jù)對(duì)應(yīng)表情離散觀察變量的值,將慢鏈的該采樣時(shí)間點(diǎn)上對(duì)應(yīng)可見(jiàn)節(jié)點(diǎn)初始化為1,慢鏈的該采樣時(shí)間點(diǎn)上的其他可見(jiàn)節(jié)點(diǎn)初始化為-I ;慢鏈的隱節(jié)點(diǎn)狀態(tài)值隨機(jī)給定為I或者-I ;依次使用待識(shí)別情感視頻的音頻離散觀察變量序列初始化訓(xùn)練過(guò)程得到的每一種情感的Boltzmann拉鏈中快鏈的可見(jiàn)節(jié)點(diǎn)的狀態(tài)值,音頻離散觀察變量序列中的P個(gè)音頻離散觀察變量分別對(duì)應(yīng)快鏈的P個(gè)采樣時(shí)間點(diǎn),在每個(gè)采樣時(shí)間點(diǎn)上,根據(jù)對(duì)應(yīng)音頻離散觀察變量的值,將快鏈的該采樣時(shí)間點(diǎn)上對(duì)應(yīng)可見(jiàn)節(jié)點(diǎn)初始化為I,快鏈的該采樣時(shí)間點(diǎn)上的其他可見(jiàn)節(jié)點(diǎn)初始化為-I ;快鏈的隱節(jié)點(diǎn)狀態(tài)值隨機(jī)給定為I或者-I ; 第5. 2步將每一種情感的Boltzmann拉鏈中的可見(jiàn)節(jié)點(diǎn)箝位,對(duì)經(jīng)過(guò)第5. I步的初始化后的每一種情感的Boltzmann拉鏈執(zhí)行確定性模擬退火算法,得到可見(jiàn)節(jié)點(diǎn)箝位狀態(tài)下的每一種情感的Boltzmann拉鏈的最優(yōu)構(gòu)型。
      8.如權(quán)利要求I至7之一所述的一種雙通道信息融合的情感識(shí)別方法,其特征在于識(shí)別過(guò)程中步驟六中所述判斷待識(shí)別情感視頻的情感類(lèi)別的方法還可以是在步驟五操作的基礎(chǔ)上,使用公式(9)依次計(jì)算待識(shí)別情感視頻在每一種情感的Boltzmann拉鏈最優(yōu)構(gòu)型下的能量值,其中能量值最小的Boltzmann拉鏈對(duì)應(yīng)的情感即為待識(shí)別情感視頻所屬的情感類(lèi)別。
      9.如權(quán)利要求I至8之一所述的一種雙通道信息融合的情感識(shí)別方法,其特征在于訓(xùn)練過(guò)程中步驟三第3. 3步、第3. 5步以及識(shí)別過(guò)程中步驟五中所述確定性模擬退火算法的操作步驟包括步驟a至步驟e,具體為 步驟a :設(shè)定確定性模擬退火算法的迭代次數(shù),用K表示,K的取值由人為確定,K > 5 ;用k表示當(dāng)前迭代次數(shù),設(shè)定其初始值為I ;用符號(hào)SiGO表示第k次迭代過(guò)程中BOLTZMANN拉鏈中第i節(jié)點(diǎn)的狀態(tài)值; 步驟b :隨機(jī)選擇一個(gè)節(jié)點(diǎn),用q表示該節(jié)點(diǎn)的編號(hào),I 5 q 5 N,對(duì)節(jié)點(diǎn)q做選中標(biāo)記,并通過(guò)公式(6)計(jì)算該節(jié)點(diǎn)的外力;
      10.如權(quán)利要求6至9之一所述的一種雙通道信息融合的情感識(shí)別方法,其特征在于訓(xùn)練過(guò)程中步驟三第3. 3步、第3. 5步中所述確定性模擬退火算法的操作步驟與識(shí)別過(guò)程的步驟五中所述確定性模擬退火算法的操作步驟一致。
      全文摘要
      本發(fā)明提出的一種雙通道信息融合的情感識(shí)別方法,屬于自動(dòng)情感識(shí)別領(lǐng)域。其基本思想是從情感視頻數(shù)據(jù)中提取臉部表情和語(yǔ)音特征數(shù)據(jù);然后使用臉部表情特征數(shù)據(jù)初始化Boltzmann拉鏈中慢鏈的可見(jiàn)節(jié)點(diǎn)的狀態(tài)值;使用語(yǔ)音特征數(shù)據(jù)初始化Boltzmann拉鏈中快鏈的可見(jiàn)節(jié)點(diǎn)的狀態(tài)值,對(duì)BOLTZMANN拉鏈進(jìn)行訓(xùn)練;使用訓(xùn)練好的BOLTZMANN拉鏈識(shí)別情感視頻的情感類(lèi)別。本發(fā)明使用Boltzmann拉鏈來(lái)融合緊密耦合的語(yǔ)音-視覺(jué)模態(tài),有效利用了兩個(gè)通道的內(nèi)在關(guān)聯(lián),解決了兩個(gè)通道數(shù)據(jù)不同的時(shí)間尺度問(wèn)題,并在訓(xùn)練過(guò)程中避免了局部能量極小,實(shí)驗(yàn)結(jié)果證明了該方法的高準(zhǔn)確率和有效性。
      文檔編號(hào)G06K9/00GK102819744SQ201210225169
      公開(kāi)日2012年12月12日 申請(qǐng)日期2012年6月29日 優(yōu)先權(quán)日2012年6月29日
      發(fā)明者呂坤, 賈云得, 張欣 申請(qǐng)人:北京理工大學(xué)
      網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1