專利名稱:基于混合模型的web文本情感主題識(shí)別方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種情感主題識(shí)別方法,特別涉及基于混合模型的TOB文本情感主題 識(shí)別方法。屬于網(wǎng)絡(luò)信息安全領(lǐng)域。
背景技術(shù):
WEB文本主題提取和情感傾向分析是網(wǎng)絡(luò)信息安全領(lǐng)域重要的研究?jī)?nèi)容。文獻(xiàn)“網(wǎng)絡(luò)環(huán)境下中文情感傾向的分類方法,語(yǔ)言文字應(yīng)用,2008,Vol. 2 (5), P139-144”公開了一種基于語(yǔ)義傾向的文本情感分類方法。該方法通過(guò)語(yǔ)義學(xué)與數(shù)據(jù)挖掘 相關(guān)理論的結(jié)合,利用中文文本中詞組的感情色彩來(lái)研究整個(gè)文本的情感傾向。但是此方 法單一的分析網(wǎng)絡(luò)文本的情感,并不能同時(shí)識(shí)別網(wǎng)絡(luò)文本的主題和情感傾向,無(wú)法滿足網(wǎng) 絡(luò)信息處理中用戶的需求,同時(shí)該方法的情感識(shí)別準(zhǔn)確率不高,平均準(zhǔn)確率為67. 81%。
發(fā)明內(nèi)容
為了克服現(xiàn)有技術(shù)方法情感識(shí)別準(zhǔn)確率低的缺陷,本發(fā)明提供一種基于混合模型 的TOB文本情感主題識(shí)別方法。該方法通過(guò)在文本集合中進(jìn)行模型訓(xùn)練,真實(shí)模擬不同情 感傾向以及不同主題的文本語(yǔ)言表達(dá)模式,將情感表達(dá)與主題表達(dá)的語(yǔ)言方式模型化,分 別產(chǎn)生情感和主題兩類語(yǔ)言模型。對(duì)于需要進(jìn)行分析的待處理的文本,通過(guò)將其自身模型 與這兩類模型進(jìn)行比較,評(píng)估它與兩類模型之間的相似程度,最終能夠同時(shí)識(shí)別確定文本 的主題和情感傾向。在統(tǒng)計(jì)建模中引入語(yǔ)言信息知識(shí),捕捉和探尋情感及主題表達(dá)的特性 和規(guī)律,充分利用語(yǔ)言表達(dá)的特點(diǎn)和習(xí)慣,建立能夠同時(shí)分析識(shí)別主題和情感的混合模型, 可以提高情感識(shí)別的準(zhǔn)確率。為解決本發(fā)明技術(shù)問(wèn)題所采用的技術(shù)方案一種基于混合模型的WEB文本情感主 題識(shí)別方法,其特點(diǎn)是包括以下步驟(a)對(duì)訓(xùn)練集中的文本進(jìn)行手工標(biāo)注,分別標(biāo)記每個(gè)文本的情感傾向和所屬主題 類別。根據(jù)不同情感語(yǔ)言表達(dá)方式的不同,估計(jì)出兩類情感模型“褒義”模型和“貶義”模 型;同時(shí)根據(jù)不同主題文本的語(yǔ)言表達(dá)方式,分別估計(jì)各類主題語(yǔ)言模型;(b)對(duì)于步驟(a)建立的情感模型和主題模型分別進(jìn)行參數(shù)估計(jì)。首先采用最大 似然估計(jì)(MLE)方法對(duì)各個(gè)模型的參數(shù)進(jìn)行估計(jì)。利用最大似然估計(jì)方法必然會(huì)引起零概 率問(wèn)題,因此還需要采用Jelinek-Mercer平滑方法進(jìn)行數(shù)據(jù)平滑,調(diào)整概率分布的取值;(c)對(duì)于待處理的文本,計(jì)算其語(yǔ)言模型與兩類情感模型的距離,選取距離最近的 情感模型的情感傾向賦予該文本;計(jì)算與各個(gè)主題模型的距離,選取距離最近的主題模型 的主題屬性作為該文本的主題。本發(fā)明的有益效果是由于在文本集合中進(jìn)行模型訓(xùn)練,真實(shí)模擬不同情感傾向 以及不同主題的文本語(yǔ)言表達(dá)模式,將情感表達(dá)與主題表達(dá)的語(yǔ)言方式模型化,分別產(chǎn)生 情感和主題兩類語(yǔ)言模型。對(duì)于需要進(jìn)行分析的待處理的文本,通過(guò)將其自身模型與這兩 類模型進(jìn)行比較,評(píng)估它與兩類模型之間的相似程度,最終能夠同時(shí)識(shí)別確定文本的主題和情感傾向。在統(tǒng)計(jì)建模中引入語(yǔ)言信息知識(shí),捕捉和探尋情感及主題表達(dá)的特性和規(guī)律, 充分利用語(yǔ)言表達(dá)的特點(diǎn)和習(xí)慣,建立能夠同時(shí)分析識(shí)別主題和情感的混合模型,情感識(shí) 別的平均準(zhǔn)確率由現(xiàn)有技術(shù)的67. 81%提高到81. 36%。下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明作詳細(xì)說(shuō)明。
附圖是本發(fā)明基于混合模型的WEB文本情感主題識(shí)別方法的流程圖。
具體實(shí)施例方式對(duì)于一個(gè)待測(cè)文本,根據(jù)本方法分析文本情感傾向和文本主題,具體步驟如下第一步,手工標(biāo)注訓(xùn)練集文本的情感和主題,建立主題和情感模型。設(shè)X是文檔的 集合X = {xl,X2,. . .,xn},C表示類別的集合,是對(duì)X的一個(gè)劃分C = {Cl,c2,. . .,cj, Cj U Cj = (t, V/ 的密度函數(shù)為
K= J>(x|c,)p(c,)(1)
(=i為了計(jì)算模型與待處理文本間的距離,采用了 Kullback-Liebler測(cè)度作為衡量 類別之間差別的判據(jù)。兩個(gè)概率分布q(x)與P(x)之間的KL距離通常定義為KL(q(x)\\p(x)) = (V(x)lncbc(2)
J LPW.當(dāng)q(x) =p(x)時(shí),KL距離等于0。也就是兩類差別越大時(shí),KL距離越大,當(dāng)兩類 概率分布完全相同時(shí),KL距離最小為0。數(shù)據(jù)x在第i類上的概率密度函數(shù)為q(x) = &|(^),密度函數(shù)?00與q(x)之 間的KL距離定義為¥ = -KL(p(x|Ci) | |p(x))(3)對(duì)于情感模型,i = 2,表示有兩種模型“褒義”模型和“貶義”模型;而對(duì)于主題 模型,i = s,s是從訓(xùn)練集合中估計(jì)的主題模型的個(gè)數(shù)。在建立語(yǔ)言模型時(shí),模型階數(shù)是影響模型性能的重要因素。在建模單元相同的情 況下,高階模型的性能要優(yōu)于低階模型,但高階模型的構(gòu)造難度要大于低階模型。理論上 而言,雖然采用更高階的n-gram能更準(zhǔn)確的描述語(yǔ)言模型,使模型能更逼近真實(shí)的語(yǔ)言現(xiàn) 象,但是實(shí)際上在現(xiàn)有的語(yǔ)料庫(kù)中應(yīng)用更高階語(yǔ)言單元,會(huì)引起嚴(yán)重的數(shù)據(jù)稀疏問(wèn)題,影響 模型的效果。因此,式(1)中的語(yǔ)言單元,采用常用的詞語(yǔ)的bigram作為模型的參數(shù)。第二步,模型參數(shù)估計(jì)。采用常用的最大似然估計(jì)(MLE)方法對(duì)模型參數(shù)進(jìn)行估 計(jì)。應(yīng)用MLE方法對(duì)模型參數(shù)的初步估計(jì)如下Pm(^\T) = C-^(4)
counter)在式子(4)中,T既可以表示待處理文本,也可以代表褒義文本集合,貶義文本集 合或者主題文本集合。count (Wi)表示中出現(xiàn)的次數(shù),相應(yīng)的count (r)表示任意一 個(gè)詞在T中出現(xiàn)的次數(shù)。由于數(shù)據(jù)的稀疏性,利用極大似然估計(jì)方法必然會(huì)引起零概率問(wèn) 題對(duì)于某個(gè)沒(méi)有出現(xiàn)在文檔t中的詞項(xiàng)w,使用MLE將導(dǎo)致P(w |t) =0。零概率問(wèn)題會(huì)大大削弱了模型描述能力和后處理能力。數(shù)據(jù)平滑技術(shù)通過(guò)調(diào)整概率分布的取值,使低概率 (包括零概率)被調(diào)高,高概率被調(diào)低,從而避免了零概率的出現(xiàn),能有效解決數(shù)據(jù)稀疏問(wèn) 題,同時(shí)還能使模型參數(shù)概率分布更加均勻,概率的計(jì)算更加精確。本發(fā)明中采用基于線性 插值的Jelinek-Mercer平滑方法,該方法常用于解決由于訓(xùn)練樣本集較小而引起的參數(shù) 估計(jì)的偏置問(wèn)題。根據(jù)Jelinek-Mercer平滑方法的思想,模型參數(shù)的平滑計(jì)算可以定義如 下Ps(Wi|T) = APM(Wi|T) + (l-A)P(Wi|C)(5)式(5)中,入是一個(gè)平滑參數(shù),0 <入< 1。A需要通過(guò)實(shí)驗(yàn)確定,直接影響模型 的性能。通過(guò)式(4)和(5),完成對(duì)情感模型和主題模型中的參數(shù)估計(jì)和平滑。第三步,模型距離函數(shù)的定義。為了準(zhǔn)確評(píng)估待處理文本與模型之間的相似程度, 引入了距離函數(shù)。通過(guò)計(jì)算待處理文本模型與各模型之間的距離,判斷模型之間的相似度。情感模型的距離函數(shù)定義如下0 (t, 6p, 6N) = d1-d2(6)其中t表示待處理文本,S p和S N分別表示“褒”模型和“貶”模型,dl代表文本 t與“褒”模型之間的KL距離,而d2代表文本t “貶”模型之間的KL距離。當(dāng)0大于0, 表明待處理文本更接近“貶”模型,判斷文本表達(dá)的感情為貶斥類;反之,當(dāng)e小于0,判斷 其為褒揚(yáng)類。當(dāng)e等于0,表示文本表達(dá)的情感中立。對(duì)于主題模型的建立,首先手工標(biāo)注訓(xùn)練數(shù)據(jù)集合中的文本主題,對(duì)各個(gè)主題的 語(yǔ)言模型進(jìn)行估計(jì),然后分別評(píng)估待處理文本自身的語(yǔ)言模型與這兩種模型之間的相似程 度。如果待處理文本自身的語(yǔ)言模型與某個(gè)情感模型更為相似,那么就認(rèn)為該文本的主題 與這個(gè)模型的主題是一致的。主題模型的距離函數(shù)定義如下0 (t, yys) = dmin(t,ri)(7)其中,ri表示第i個(gè)主題模型,dfflin(t, r,)表示待處理文本自身模型與各個(gè)主題模 型之間最小的KL距離。若文本與第i個(gè)主題模型之間的KL距離最小,則認(rèn)為該文本的主 題為第i個(gè)主題。經(jīng)檢測(cè),本發(fā)明方法對(duì)情感識(shí)別的平均準(zhǔn)確率是81. 36%。
權(quán)利要求
一種基于混合模型的WEB文本情感主題識(shí)別方法,其特征在于包括以下步驟(a)對(duì)訓(xùn)練集中的文本進(jìn)行手工標(biāo)注,分別標(biāo)記每個(gè)文本的情感傾向和所屬主題類別,根據(jù)不同情感語(yǔ)言表達(dá)方式的不同,估計(jì)出兩類情感模型“褒義”模型和“貶義”模型;同時(shí)根據(jù)不同主題文本的語(yǔ)言表達(dá)方式,分別估計(jì)各類主題語(yǔ)言模型;(b)對(duì)于步驟(a)建立的情感模型和主題模型分別進(jìn)行參數(shù)估計(jì),首先采用最大似然估計(jì)(MLE)方法對(duì)各個(gè)模型的參數(shù)進(jìn)行估計(jì),利用最大似然估計(jì)方法必然會(huì)引起零概率問(wèn)題,因此還需要采用Jelinek-Mercer平滑方法進(jìn)行數(shù)據(jù)平滑,調(diào)整概率分布的取值;(c)對(duì)于待處理的文本,計(jì)算其語(yǔ)言模型與兩類情感模型的距離,選取距離最近的情感模型的情感傾向賦予該文本;計(jì)算與各個(gè)主題模型的距離,選取距離最近的主題模型的主題屬性作為該文本的主題。
全文摘要
本發(fā)明公開了一種基于混合模型的WEB文本情感主題識(shí)別方法。屬于網(wǎng)絡(luò)信息安全領(lǐng)域。該方法在文本集合中進(jìn)行模型訓(xùn)練,真實(shí)模擬不同情感傾向以及不同主題的文本語(yǔ)言表達(dá)模式,將情感表達(dá)與主題表達(dá)的語(yǔ)言方式模型化,分別產(chǎn)生情感和主題兩類語(yǔ)言模型。對(duì)于需要進(jìn)行分析的待處理的文本,通過(guò)將其自身模型與這兩類模型進(jìn)行比較,評(píng)估它與兩類模型之間的相似程度,最終能夠同時(shí)識(shí)別確定文本的主題和情感傾向。在統(tǒng)計(jì)建模中引入語(yǔ)言信息知識(shí),捕捉和探尋情感及主題表達(dá)的特性和規(guī)律,充分利用語(yǔ)言表達(dá)的特點(diǎn)和習(xí)慣,建立能夠同時(shí)分析識(shí)別主題和情感的混合模型,情感識(shí)別的平均準(zhǔn)確率由現(xiàn)有技術(shù)的67.81%提高到81.36%。
文檔編號(hào)G06F17/30GK101876985SQ20091021916
公開日2010年11月3日 申請(qǐng)日期2009年11月26日 優(yōu)先權(quán)日2009年11月26日
發(fā)明者樊娜, 蔡皖東 申請(qǐng)人:西北工業(yè)大學(xué)