一種基于情感顯著性特征融合的視頻情感識(shí)別方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及多媒體內(nèi)容理解和計(jì)算機(jī)網(wǎng)絡(luò)內(nèi)容檢索領(lǐng)域,特別涉及一種基于情感 顯著性特征融合的視頻情感識(shí)別方法。
【背景技術(shù)】
[0002] 隨著計(jì)算機(jī)技術(shù)、通信技術(shù)和多媒體技術(shù)的飛速發(fā)展,Internet已成為一個(gè)浩瀚 的海量多媒體信息源,人們迫切希望可以利用計(jì)算機(jī)對(duì)規(guī)模急劇增長(zhǎng)的數(shù)字化圖像/視頻 信息加以自動(dòng)理解,從而方便用戶(hù)選擇有效的技術(shù)手段對(duì)這些視覺(jué)信息進(jìn)行有效的組織、 管理和查找?;趦?nèi)容的視頻檢索成為了一個(gè)重要的研究課題。其中,對(duì)于認(rèn)知層面的視 頻檢索研究開(kāi)展的較早,已經(jīng)涌現(xiàn)出了很多可行的算法。而基于情感分析的視頻檢索研究 并未受到很多的關(guān)注,在國(guó)內(nèi)尚處于起步階段。對(duì)于諸如"找出本段體育視頻中最激動(dòng)人心 的片斷",或者"最適合某人品味的電影",或者"定位并跳過(guò)最不適合用戶(hù)子女觀看的片斷" 這一類(lèi)面向情感層視頻內(nèi)容理解的應(yīng)用正逐步引起業(yè)界廣泛的關(guān)注,其研究具有重要的學(xué) 術(shù)意義,必將推動(dòng)互聯(lián)網(wǎng)檢索技術(shù)的全面深入發(fā)展。
[0003] 當(dāng)前已有一些技術(shù)開(kāi)始嘗試應(yīng)用于視頻情感識(shí)別。B. Adams等提出一種檢 測(cè)電影節(jié)奏和動(dòng)態(tài)故事單元的方法,并利用了視頻幀間運(yùn)動(dòng)差和鏡頭變化率等信息。 AyaAner-Wolf結(jié)合電影語(yǔ)法規(guī)則分析了視頻幀亮度分量對(duì)觀眾情感的影響。ChingHau Chan等對(duì)電影伴音的低級(jí)特征做了大量的研究和實(shí)驗(yàn)。基于這些特征,他們?cè)O(shè)計(jì)了一套基 于情感的電影索引與檢索的方法并給出了初步的實(shí)驗(yàn)結(jié)果。Min Xu等通過(guò)構(gòu)造聲音情感特 征向量,基于HMM對(duì)情景喜劇和恐怖電影中的情感事件進(jìn)行檢測(cè)和識(shí)別。Chen等通過(guò)分析 視頻中的配樂(lè),結(jié)合視頻節(jié)奏來(lái)進(jìn)行視頻情感事件的檢測(cè)。
[0004] 目前的這些方法從視頻特征及分類(lèi)模型等不同方面展開(kāi)了對(duì)視頻情感分類(lèi)和識(shí) 別的研究。視頻是一種多媒體,其包括語(yǔ)、聲、像等特征數(shù)據(jù),但已有的研究中對(duì)視頻多媒體 特征的融合未有做深入研究,導(dǎo)致視頻的情感特征判別性不明顯,從而影響了視頻分類(lèi)和 識(shí)別的準(zhǔn)確率。一種有效的特征融合策略刻不容緩。
【發(fā)明內(nèi)容】
[0005] 為解決現(xiàn)有技術(shù)存在的不足,本發(fā)明公開(kāi)了一種基于情感顯著性特征融合的視頻 情感識(shí)別方法,本發(fā)明的融合算法實(shí)現(xiàn)簡(jiǎn)單,訓(xùn)練器成熟可靠,預(yù)測(cè)快捷,可以更高效的完 成視頻的情感識(shí)別過(guò)程。
[0006] 為實(shí)現(xiàn)上述目的,本發(fā)明的具體方案如下:
[0007] -種基于情感顯著性特征融合的視頻情感識(shí)別方法,包括以下步驟:
[0008] 獲得訓(xùn)練視頻集合并對(duì)其中的視頻提取視頻鏡頭,對(duì)每個(gè)視頻鏡頭選取情感關(guān)鍵 幀;
[0009] 對(duì)訓(xùn)練視頻集合中每個(gè)視頻鏡頭提取音頻特征和視覺(jué)情感特征,其中視覺(jué)情感特 征基于所提取的情感關(guān)鍵幀提取,首頻特征基于視頻鏡頭提取;
[0010] 音頻特征基于詞包模型構(gòu)成情感分布直方圖特征;
[0011] 視覺(jué)情感特征基于視覺(jué)詞典構(gòu)成情感注意力特征,情感注意力特征與情感分布直 方圖特征進(jìn)行自上而下的加權(quán)融合,構(gòu)成具有情感顯著性的視頻特征;
[0012] 將訓(xùn)練視頻集合中形成的具有情感顯著性的視頻特征送入SVM分類(lèi)器進(jìn)行訓(xùn)練, 得到訓(xùn)練模型的參數(shù),訓(xùn)練模型用于對(duì)測(cè)試視頻的情感類(lèi)別進(jìn)行預(yù)測(cè)。
[0013] 進(jìn)一步的,對(duì)每個(gè)視頻鏡頭選取情感關(guān)鍵幀時(shí),以視頻鏡頭為單位計(jì)算每個(gè)視頻 幀的顏色情感強(qiáng)度值,以時(shí)間作為橫軸,顏色情感強(qiáng)度值為縱軸得到鏡頭情感波動(dòng)曲線(xiàn);找 到情感波動(dòng)曲線(xiàn)最大值對(duì)應(yīng)的視頻幀,選擇該幀作為情感關(guān)鍵幀。
[0014] 其中,顏色情感強(qiáng)度值計(jì)算方法如下:
[0015]
[0016] 其中,M,N,IT1分別表示第i個(gè)視頻幀的長(zhǎng)、寬和顏色情感強(qiáng)度值,IT (p,q)為第i 個(gè)視頻幀中第P行q列像素點(diǎn)的顏色情感強(qiáng)度值,計(jì)算如下:
[0017]
[0018] 其中,H表示熱度,W表示重要性,A表示活動(dòng)性。
[0019] 進(jìn)一步的,情感分布直方圖特征獲取時(shí),將訓(xùn)練視頻集合中所有訓(xùn)練視頻的音頻 特征基于k近鄰方法進(jìn)行聚類(lèi),得到K個(gè)聚類(lèi)中心;
[0020] 將K個(gè)聚類(lèi)中心作為詞包模型的音頻情感單詞,構(gòu)成音頻情感詞典;
[0021] 將每個(gè)視頻的音頻特征投影到音頻情感詞典,得到每個(gè)視頻的情感分布直方圖。
[0022] 進(jìn)一步的,情感注意力特征的構(gòu)成方式為:將每個(gè)視頻的視覺(jué)情感特征同樣進(jìn)行 k近鄰聚類(lèi),得到N個(gè)聚類(lèi)中心,并由此N個(gè)聚類(lèi)中心作為視覺(jué)單詞組成視覺(jué)情感詞典;
[0023] 將視頻的視覺(jué)情感特征投影到視覺(jué)情感詞典,按視頻情感類(lèi)別分別得到每個(gè)類(lèi)別 對(duì)應(yīng)的視覺(jué)情感單詞的后驗(yàn)概率分布,即得到各情感類(lèi)別的情感注意力特征。
[0024] 更進(jìn)一步的,視覺(jué)情感單詞的后驗(yàn)概率分布計(jì)算如下:
[0025]
[0026] 其中,I wf )為視覺(jué)情感單詞的后驗(yàn)概率分布,class為視頻情感類(lèi)別, 為視覺(jué)詞典的第j個(gè)視覺(jué)情感單詞;P (class)為類(lèi)別class的情感視頻概率分布,通過(guò)統(tǒng) 計(jì)該類(lèi)別情感視頻占總視頻的比例得到是類(lèi)別為class的視覺(jué)情感詞典的 第j個(gè)視覺(jué)情感單詞的分布,根據(jù)下式獲得:
[0027]
[0028] 其中,Scene^f類(lèi)別為class的視頻場(chǎng)景數(shù),D是類(lèi)別為class的視頻情感詞典 所含單詞數(shù),是類(lèi)別為class的場(chǎng)景所包含的第1個(gè)視覺(jué)單詞。δ為符號(hào)函數(shù),其定義 為:
。X,y為符號(hào)函數(shù)δ的輸入變量。
[0029] 進(jìn)一步的,將情感注意力特征與每個(gè)視頻的情感分布直方圖特征進(jìn)行加權(quán)融合, 得到具有情感顯著性的視頻特征;具體加權(quán)融合過(guò)程如下:
[0030] 計(jì)算每個(gè)情感單詞直方圖分布的加權(quán)結(jié)果:
[0031] 將得到的所有音頻情感單詞直方圖加權(quán)以后的結(jié)果按行排列起來(lái)即得到具有情 感顯著性的視頻特征。
[0032] 計(jì)算每個(gè)情感單詞直方圖分布的加權(quán)結(jié)果為:
[0033]
[0034] Waud為音頻情感詞典中的情感單詞,V s為第s個(gè)視頻,為音頻情感詞典中的第 j個(gè)情感單詞,F(xiàn)為視頻鏡頭Vs對(duì)應(yīng)的音頻幀集合;
[0035] 進(jìn)一步的,對(duì)測(cè)試視頻的情感類(lèi)別進(jìn)行預(yù)測(cè)時(shí),首先獲得具有情感顯著性的視頻 特征;其獲取方式與訓(xùn)練視頻獲取的具有情感顯著性的視頻特征的方式相同。
[0036] 將測(cè)試視頻的具有情感顯著性的視頻特征送入已訓(xùn)練好的SVM分類(lèi)器,得到預(yù)測(cè) 的視頻情感類(lèi)別。
[0037] 本發(fā)明的有益效果:
[0038] (1)本發(fā)明在進(jìn)行視頻情感分類(lèi)時(shí)充分考慮了音視頻特征的融合。
[0039] (2)本發(fā)明將情感顯著性信息融合到了視頻特征中,使得視頻情感特征更具有判 別性。
[0040] (3)本發(fā)明的融合算法實(shí)現(xiàn)簡(jiǎn)單,訓(xùn)練器成熟可靠,預(yù)測(cè)快捷,可以更高效的完成 視頻的情感識(shí)別過(guò)程。
[0041] (4)本發(fā)明提出了一種新的基于情感顯著性融合的視頻情感識(shí)別方法,該技術(shù)具 有重要的學(xué)術(shù)意義和社會(huì)意義,并具有廣闊的應(yīng)用前景。
【附圖說(shuō)明】
[0042] 圖1為本發(fā)明提供的基于情感顯著性特征融合的視頻情感識(shí)別框架圖。
【具體實(shí)施方式】:
[0043] 下面結(jié)合附圖對(duì)本發(fā)明進(jìn)行詳細(xì)說(shuō)明:
[0044] 圖1示出了本發(fā)明提供的基于情感顯著性特征融合的視頻情感識(shí)別方法。如圖1 所示,該方法具體包括以下步驟:
[0045] 步驟1 :對(duì)視頻進(jìn)行結(jié)構(gòu)化分析,采用基于信息論的互信息熵理論檢測(cè)鏡頭邊界 并提取視頻鏡頭,然后,針對(duì)每個(gè)鏡頭選取情感關(guān)鍵幀,具體提取步驟包括:
[0046] 步驟I. 1 :以鏡頭為單位計(jì)算每個(gè)視頻幀的顏色情感強(qiáng)度值,以時(shí)間作為橫軸,顏 色情感強(qiáng)度值為縱軸得到鏡頭情感波動(dòng)曲線(xiàn);顏色情感強(qiáng)度值計(jì)算方法如下:
[0047]
[0048] 其中,IT1表示第i個(gè)視頻幀的顏色情感強(qiáng)度值,IT(p,q)為第i個(gè)視頻幀中第p 行q列像素點(diǎn)的顏色情感強(qiáng)度值,計(jì)算如下: CN 105138991 A 說(shuō)明書(shū) 4/7 頁(yè)
[0049]
[0050] 其中,H表示熱度,W表示重要性,A表示活動(dòng)性。其具體計(jì)算如下:
[0051]
[0052] weight = -1. 8+0. 04(100-L*)+0. 45cos(h-100。)
[0053] heat = -0· 5+0. 02 (C*) 107Cos (h-50。)
[0054] H = -0· 5+0. 02 (Cf) i q7Cos (h-50。)
[0055] W =-I. 8+0. 04(100-L*)+0. 45cos(h-100。)
[0056]
[0057] 其中,0Λ a#,b〇和〇Λ Cf, h)分別是顏色空間CIELAB和CIELCH的顏色分量。
[0058] 步驟1. 2 :找到情感波動(dòng)曲線(xiàn)最大值對(duì)應(yīng)的視頻幀,選擇該幀作為情感關(guān)鍵幀;
[0059] 步驟2 :對(duì)訓(xùn)練視頻集合中每個(gè)視頻提取音視頻情感特征,其中音頻情感特征基 于視頻鏡頭提取,具體特征如表1所示;
[0060] 表1音頻特征匯總表
[0061]
[0062] 視覺(jué)情感特征基于情感關(guān)鍵幀提取,具體特征如表2所示。
[0063] 表2視覺(jué)特征匯總表
[0064] CN 105138991 A 說(shuō)明書(shū) 5/7 頁(yè)
[0065] 步驟3 :由音頻情感特征構(gòu)成情感分布直方圖;具體構(gòu)建方法如下:
[0066] 步驟3. 1 :將所有訓(xùn)練視頻的音頻情感特征進(jìn)行聚類(lèi),得到K個(gè)聚類(lèi)中心;聚類(lèi)方 法采用k近鄰聚類(lèi)方法。具體步驟為:
[0067] 步驟3. I