本發(fā)明屬于多模態(tài)情感分析領域,尤其是涉及一種基于多模態(tài)超圖學習的微博情感預測方法。
背景技術:
近來,隨著新浪微博等大型社交平臺的迅速發(fā)展,每天社交網絡的多媒體數(shù)據(jù)規(guī)模不斷增長,以新浪微博為例,截止2014年5月,新浪微博月活躍用戶達到1.4億,相比2013年12月增長了10.9%。作為最受歡迎的平臺之一,新浪微博使得互聯(lián)網用戶能夠在他們感興趣的話題下表達他們的情感。因此,它吸引了大量的關于情感信息挖掘的研究,這些研究涉及一些新興的應用包括事件檢測、社交網絡分析和商業(yè)推薦。
微博發(fā)展的一個明顯特征在于多模態(tài)信息的增長,比如圖像、視頻、短文本以及豐富的表情符號。主要原因在于越來越多的互聯(lián)網用戶使用越來越多樣的設備來發(fā)布內容,也因此,發(fā)布圖片和表情符號成為一種方便的形式,而非平白的文本。然而對于情感分析與預測,目前大多數(shù)的研究還是處于單一的文本通道,而非豐富的多模態(tài)信息。而根據(jù)認知科學的理論,對于情感分析,不同模態(tài)之間的差異性是很大的,不能作簡單的融合,因此多模態(tài)分析是很有必要的。
當前,微博情感分析方法主要利用純文本通道信息,比如《一種基于大規(guī)模語料特征學習的微博情感分析方法(中國專利CN201510310710.9)》、《基于規(guī)則和統(tǒng)計模型的中文微博情感分析方法(中國專利CN201510127310.4)》、《一種融合顯性和隱性特征的中文微博情感分析方法(中國專利CN201410723617.6)》、《一種中文微博的情感傾向分析方法(中國專利CN201310072472.3)》。然而,由于微博文本具有結構隨意,內容較少等特點,單從簡單的純文本通道進行微博情感類別分析難度大,情感預測的準確度低?!兑环N面向微博短文本的情感分析方法(中國專利CN201210088366.X)》提出一種短文本情感分析方法,但是其面向特定領域和特定主題,不具有普適性。《一種利用表情符號對微博進行情感傾向分類的方法(中國專利CN201310664725.6)》提出基于表情符號詞典使用樸素貝葉斯方法構建中性情感分類器和極性情感分類器的方法進行微博情感分類,然而含有表情符號的微博僅占32%,利用表情符號單一通道進行微博情感預測難以適用于所有微博?!兑环N基于微博群環(huán)境的微博多模態(tài)情感分析方法(中國專利CN201410006867.8)》提出的多模態(tài)情感分析方法還是基于單一文本通道上的微博原文本和評論文本。
現(xiàn)有技術主要針對單一文本通道的微博情感分析,而微博的文本具有微博文本具有結構隨意,內容較少等特點,單從簡單的純文本通道進行微博情感類別分析難度大,情感預測的準確度低。
技術實現(xiàn)要素:
本發(fā)明的目的是針對在微博多通道內容(多模態(tài))上的情感預測中存在的問題,提供一種基于多模態(tài)超圖學習的微博情感預測方法。
本發(fā)明包括以下步驟:
步驟1提取微博多模態(tài)特征(Feature Extraction),具體方法如下:
步驟1.1對于文本模態(tài),首先使用中科院自動分詞工具ICTCLAS對微博文本內容進行分詞(Text segment),然后利用處理后的中文情感詞典(Text word dictionary)對分詞后的每條微博文本構建詞袋模型(Bag-of-textual-word),作為最后篩選后的文本情感特征,所述中文情感詞典由知網HowNet中文情感詞典和臺灣大學NTUSD中文情感詞典組成,并篩選出在微博文本語料中出現(xiàn)的較高頻度的2547個情感詞,將其組成中文情感詞典。第i條微博文本特征表示為Fibotw;
步驟1.2對于視覺模態(tài),首先提取圖片底層視覺特征(low-level visual feature),包括局部二值模式特征(LBP)、彩色直方圖特征(color histogram)、GIST特征以及PHOW描述子詞袋特征,然后使用形容詞-動詞對(ANP)檢測器庫SentiBank對提取了底層視覺特征的每張微博圖片進行中層特征(mid-level visual feature)的提取,獲得1200個形容詞-動詞對的置信度值,并保留在0.8以上的置信度值,其余置為0,這樣最終獲得視覺情感特征(Bag-of-visual-word)。第i條微博圖像特征表示為Fibovw;
步驟1.3對于表情符號情感特征,首先收集文本語料里所有的表情符號,然后篩選出高頻使用的49個表情符號,最后為每條微博構建表情符號詞袋模型最為表情符號特征(Bag-of-emoticon-word)。第i條微博表情符號特征表示為Fiboew;
步驟2計算微博間距離(Distance computing),具體方法如下:
對于文本、視覺、表情符號三個模態(tài)特征,都使用歐氏距離進行計算,得到所有任意兩條微博間三種模態(tài)的距離,分別用距離矩陣表示為Distbotw,Distbovw和Distboew;
步驟3構建多模態(tài)超圖模型(Hypergraph construction),具體方法如下:
步驟3.1計算不同模態(tài)下樣本間的相似度,具體方法如下:使用歐式距離計算得到的三種模態(tài)下任意兩條微博i和j間的情感距離,進而計算其相似度s(i,j)。
步驟3.2計算超圖的關聯(lián)矩陣。超圖可表示成G={V,E,w},其中V表示所有結點(樣本)集合,E表示所有超邊(以某個結點為中心點的k近鄰范圍內所有點的集合)集合,w表示超邊的權重集合。構建超圖關聯(lián)矩陣H:若結點vi在超邊ej(中心結點為結點vi)內,則H(vi,ej)=s(i,j);反之,H(vi,ej)=0。
步驟3.3計算結點度數(shù)和超邊的度數(shù):
結點v度數(shù)的計算如下:對于所有包含結點v的超邊e,將超邊e對應的權重w(e)與關聯(lián)矩陣H中結點v和超邊e對應關聯(lián)值h(v,e)相乘并累加,得到結點v度數(shù);
超邊e度數(shù)的計算如下:將超邊e與其包含的所有結點v對應的關聯(lián)值h(v,e)作累加,得到超邊e的度數(shù)。
步驟3.4計算超圖拉普拉斯矩陣(Laplacian Matrix)Δ和拉普拉斯正則化項Ω:
Ω(f)=fTΔf
其中,Dv、De、W和I分別表示結點度數(shù)對角矩陣、超邊度數(shù)對角矩陣、超邊權重對角矩陣和單位矩陣,f表示預測的情感類別向量。超圖拉普拉斯矩陣反映了各結點的關聯(lián)情況,拉普拉斯正則化項則反映了帶有不同類別標簽的結點的關聯(lián)情況。
步驟3.5構建目標函數(shù),即最小化由拉普拉斯正則化項Ω、期望損失項Remp(f)以及關于W正則化項組成的損失函數(shù),求得最優(yōu)的f和W。
其中Remp(f)=||f-y||2,表示預測類別向量f和標簽向量y間的期望損失,表示L2正正則項,wi表示W對角線上的第i項,ne表示超邊的個數(shù),λ和μ分別為損失項系數(shù)和正則項系數(shù);步驟4介紹如何在目標函數(shù)上進行超圖學習來得到最優(yōu)的f和W。
步驟4超圖學習(Hypergraph learning),具體方法如下:
使用交替迭代優(yōu)化方法對步驟3.5中的目標函數(shù)進行優(yōu)化,即每次迭代,先固定W,令目標函數(shù)對f求偏導數(shù),求得當前迭代最優(yōu)f,然后固定優(yōu)化的f,令目標函數(shù)對W求偏導數(shù),求得當前迭代最優(yōu)W。將每次迭代后優(yōu)化的f和W的值來初始化下一次迭代中f和W,如此反復迭代優(yōu)化,直到損失函數(shù)值收斂,即得最終最優(yōu)的f和W。其中f包含對無情感標簽微博的情感預測。
實驗評價標準為準確度(Accuracy),反映了預測的微博情感極性類別與事先標注的情感類別之間的一致程度。
文本模態(tài)上各種方法的實驗效果比較參見表1。
表1
其中,NB表示樸素貝葉斯方法(Bayes),LR表示邏輯斯蒂回歸方法(Logistic Regression),SVM為支持向量機方法,HG_text為文本單模態(tài)上超圖學習方法,下同。
多模態(tài)上各種方法的實驗效果比較參見表2。
表2
其中,CBM-NB表示跨模態(tài)樸素貝葉斯方法,CBM-LR表示跨模態(tài)邏輯斯蒂回歸方法,CBM-SVM表示跨模態(tài)支持向量機方法,MHG為我們提出的多模態(tài)超圖學習方法,下同。
表1和表2對比反映了多模態(tài)的預測效果明顯好于純文本模態(tài)的預測效果,同時也看到我們提出的多模態(tài)超圖學習方法效果最好。
圖4和圖5分別為不同方法在2類情感極性類別預測和3類情感極性類別預測上的效果比較。
常見方法在模態(tài)獨立性實驗上的效果比較參見表3。
表3
由表3可以看出,本發(fā)明提出的多模態(tài)超圖學習方法更好關聯(lián)不同的模態(tài)解決模態(tài)間的獨立性。
附圖說明
圖1為不同模態(tài)組合上微博-微博對相似的數(shù)目,其中TV、TE、TVE和TOTAL分別表示文本和視覺模態(tài)組合、文本和表情符號模態(tài)組合、視覺和表情符號模態(tài)組合以及數(shù)據(jù)集中所有微博對。
圖2為不同模態(tài)組合上微博-微博對相似的比例,其中TV、TE、TVE和TOTAL分別表示文本和視覺模態(tài)組合、文本和表情符號模態(tài)組合、視覺和表情符號模態(tài)組合以及數(shù)據(jù)集中所有微博對。
圖3為基于多模態(tài)超圖學習的微博情感預測方法流程示意圖。
圖4為不同方法在2類情感極性類別預測上的效果比較。
圖5為不同方法在3類情感極性類別預測上的效果比較。
圖6為實例1圖像。
圖7為實例2圖像。
圖8為實例3圖像。
圖9為實例4圖像。
圖10為實例5圖像。
圖11為實例6圖像。
圖12為實例表情符號1圖像。
圖13為實例表情符號2圖像。
圖14為實例表情符號3圖像。
圖15為實例表情符號4圖像。
圖16為實例表情符號5圖像。
圖17為實例表情符號6圖像。
具體實施方式
本發(fā)明實施例包括以下步驟:
步驟1提取微博多模態(tài)特征(Feature Extraction),具體方法如下:
步驟1.1對于文本模態(tài),首先使用中科院自動分詞工具ICTCLAS對微博文本內容進行分詞(Text segment),然后利用處理后的中文情感詞典(Text word dictionary)對分詞后的每條微博文本構建詞袋模型(Bag-of-textual-word),作為最后篩選后的文本情感特征,所述中文情感詞典由知網HowNet中文情感詞典和臺灣大學NTUSD中文情感詞典組成,并篩選出在微博文本語料中出現(xiàn)的較高頻度的2547個情感詞,將其組成中文情感詞典。第i條微博文本特征表示為Fibotw;
步驟1.2對于視覺模態(tài),首先提取圖片底層視覺特征(low-level visual feature),包括局部二值模式特征(LBP)、彩色直方圖特征(color histogram)、GIST特征以及PHOW描述子詞袋特征,然后使用形容詞-動詞對(ANP)檢測器庫SentiBank對提取了底層視覺特征的每張微博圖片進行中層特征(mid-level visual feature)的提取,獲得1200個形容詞-動詞對的置信度值,并保留在0.8以上的置信度值,其余置為0,這樣最終獲得視覺情感特征(Bag-of-visual-word)。第i條微博圖像特征表示為Fibovw;
步驟1.3對于表情符號情感特征,首先收集文本語料里所有的表情符號,然后篩選出高頻使用的49個表情符號,最后為每條微博構建表情符號詞袋模型最為表情符號特征(Bag-of-emoticon-word)。第i條微博表情符號特征表示為Fiboew;
步驟2計算微博間距離(Distance computing),具體方法如下:
對于文本、視覺、表情符號三個模態(tài)特征,都使用歐氏距離進行計算,得到所有任意兩條微博間三種模態(tài)的距離,分別用距離矩陣表示為Distbotw,Distbovw和Distboew;
步驟3構建多模態(tài)超圖模型(Hypergraph construction),具體方法如下:
步驟3.1計算不同模態(tài)下樣本間的相似度,具體方法如下:使用歐式距離計算得到的三種模態(tài)下任意兩條微博i和j間的情感距離,進而計算其相似度s(i,j)。
步驟3.2計算超圖的關聯(lián)矩陣。超圖可表示成其中表示所有結點(樣本)集合,表示所有超邊(以某個結點為中心點的k近鄰范圍內所有點的集合)集合,w表示超邊的權重集合。構建超圖關聯(lián)矩陣H:若結點vi在超邊ej(中心結點為結點vi)內,則H(vi,ej)=s(i,j);反之,H(vi,ej)=0。
步驟3.3計算結點度數(shù)和超邊的度數(shù):
結點v度數(shù)的計算如下:對于所有包含結點v的超邊e,將超邊e對應的權重w(e)與關聯(lián)矩陣H中結點v和超邊e對應關聯(lián)值h(v,e)相乘并累加,得到結點v度數(shù);
超邊e度數(shù)的計算如下:將超邊e與其包含的所有結點v對應的關聯(lián)值h(v,e)作累加,得到超邊e的度數(shù)。
步驟3.4計算超圖拉普拉斯矩陣(Laplacian Matrix)Δ和拉普拉斯正則化項Ω:
Ω(f)=fTΔf
其中,Dv、De、W和I分別表示結點度數(shù)對角矩陣、超邊度數(shù)對角矩陣、超邊權重對角矩陣和單位矩陣,f表示預測的情感類別向量。超圖拉普拉斯矩陣反映了各結點的關聯(lián)情況,拉普拉斯正則化項則反映了帶有不同類別標簽的結點的關聯(lián)情況。
步驟3.5構建目標函數(shù),即最小化由拉普拉斯正則化項Ω、期望損失項Remp(f)以及關于W正則化項組成的損失函數(shù),求得最優(yōu)的f和W。
其中Remp(f)=||f-y||2,表示預測類別向量f和標簽向量y間的期望損失,表示L2正正則項,wi表示W對角線上的第i項,ne表示超邊的個數(shù),λ和μ分別為損失項系數(shù)和正則項系數(shù);步驟4介紹如何在目標函數(shù)上進行超圖學習來得到最優(yōu)的f和W。
步驟4超圖學習(Hypergraph learning),具體方法如下:
使用交替迭代優(yōu)化方法對步驟3.5中的目標函數(shù)進行優(yōu)化,即每次迭代,先固定W,令目標函數(shù)對f求偏導數(shù),求得當前迭代最優(yōu)f,然后固定優(yōu)化的f,令目標函數(shù)對W求偏導數(shù),求得當前迭代最優(yōu)W。將每次迭代后優(yōu)化的f和W的值來初始化下一次迭代中f和W,如此反復迭代優(yōu)化,直到損失函數(shù)值收斂,即得最終最優(yōu)的f和W。其中f包含對無情感標簽微博的情感預測。
實驗評價標準為準確度(Accuracy),反映了預測的微博情感極性類別與事先標注的情感類別之間的一致程度。
文本模態(tài)上各種方法的實驗效果比較參見表1。
表1
其中,NB表示樸素貝葉斯方法(Bayes),LR表示邏輯斯蒂回歸方法(Logistic Regression),SVM為支持向量機方法,HG_text為文本單模態(tài)上超圖學習方法,下同。
多模態(tài)上各種方法的實驗效果比較參見表2。
表2
其中,CBM-NB表示跨模態(tài)樸素貝葉斯方法,CBM-LR表示跨模態(tài)邏輯斯蒂回歸方法,CBM-SVM表示跨模態(tài)支持向量機方法,MHG為我們提出的多模態(tài)超圖學習方法,下同。
表1和表2對比反映了多模態(tài)的預測效果明顯好于純文本模態(tài)的預測效果,同時也看到我們提出的多模態(tài)超圖學習方法效果最好。
圖1給出不同模態(tài)組合上微博-微博對相似的數(shù)目,其中TV、TE、TVE和TOTAL分別表示文本和視覺模態(tài)組合、文本和表情符號模態(tài)組合、視覺和表情符號模態(tài)組合以及數(shù)據(jù)集中所有微博對。圖2給出不同模態(tài)組合上微博-微博對相似的比例,其中TV、TE、TVE和TOTAL分別表示文本和視覺模態(tài)組合、文本和表情符號模態(tài)組合、視覺和表情符號模態(tài)組合以及數(shù)據(jù)集中所有微博對。圖3給出基于多模態(tài)超圖學習的微博情感預測方法流程示意圖。
圖4和5分別為不同方法在2類情感極性類別預測和3類情感極性類別預測上的效果比較。
常見方法在模態(tài)獨立性實驗上的效果比較參見表3。
表3
由表3可以看出,本發(fā)明提出的多模態(tài)超圖學習方法更好關聯(lián)不同的模態(tài)解決模態(tài)間的獨立性。
一些多模態(tài)微博情感預測實例參見表4。
表4多模態(tài)微博情感預測實例
其中,gt表示類別標簽(ground true)。由結果可以看出,本發(fā)明在微博情感預測上有比較好的效果。