基于混合模型的web文本情感主題識(shí)別方法

文檔序號(hào)：6583472閱讀：666來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：基于混合模型的web文本情感主題識(shí)別方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種情感主題識(shí)別方法，特別涉及基于混合模型的TOB文本情感主題識(shí)別方法。屬于網(wǎng)絡(luò)信息安全領(lǐng)域。
背景技術(shù)：
WEB文本主題提取和情感傾向分析是網(wǎng)絡(luò)信息安全領(lǐng)域重要的研究?jī)?nèi)容。文獻(xiàn)“網(wǎng)絡(luò)環(huán)境下中文情感傾向的分類方法，語(yǔ)言文字應(yīng)用，2008，Vol. 2 (5)， P139-144”公開了一種基于語(yǔ)義傾向的文本情感分類方法。該方法通過(guò)語(yǔ)義學(xué)與數(shù)據(jù)挖掘相關(guān)理論的結(jié)合，利用中文文本中詞組的感情色彩來(lái)研究整個(gè)文本的情感傾向。但是此方法單一的分析網(wǎng)絡(luò)文本的情感，并不能同時(shí)識(shí)別網(wǎng)絡(luò)文本的主題和情感傾向，無(wú)法滿足網(wǎng) 絡(luò)信息處理中用戶的需求，同時(shí)該方法的情感識(shí)別準(zhǔn)確率不高，平均準(zhǔn)確率為67. 81%。

發(fā)明內(nèi)容
為了克服現(xiàn)有技術(shù)方法情感識(shí)別準(zhǔn)確率低的缺陷，本發(fā)明提供一種基于混合模型的TOB文本情感主題識(shí)別方法。該方法通過(guò)在文本集合中進(jìn)行模型訓(xùn)練，真實(shí)模擬不同情感傾向以及不同主題的文本語(yǔ)言表達(dá)模式，將情感表達(dá)與主題表達(dá)的語(yǔ)言方式模型化，分別產(chǎn)生情感和主題兩類語(yǔ)言模型。對(duì)于需要進(jìn)行分析的待處理的文本，通過(guò)將其自身模型與這兩類模型進(jìn)行比較，評(píng)估它與兩類模型之間的相似程度，最終能夠同時(shí)識(shí)別確定文本的主題和情感傾向。在統(tǒng)計(jì)建模中引入語(yǔ)言信息知識(shí)，捕捉和探尋情感及主題表達(dá)的特性和規(guī)律，充分利用語(yǔ)言表達(dá)的特點(diǎn)和習(xí)慣，建立能夠同時(shí)分析識(shí)別主題和情感的混合模型，可以提高情感識(shí)別的準(zhǔn)確率。為解決本發(fā)明技術(shù)問(wèn)題所采用的技術(shù)方案一種基于混合模型的WEB文本情感主題識(shí)別方法，其特點(diǎn)是包括以下步驟(a)對(duì)訓(xùn)練集中的文本進(jìn)行手工標(biāo)注，分別標(biāo)記每個(gè)文本的情感傾向和所屬主題類別。根據(jù)不同情感語(yǔ)言表達(dá)方式的不同，估計(jì)出兩類情感模型“褒義”模型和“貶義”模型；同時(shí)根據(jù)不同主題文本的語(yǔ)言表達(dá)方式，分別估計(jì)各類主題語(yǔ)言模型；(b)對(duì)于步驟(a)建立的情感模型和主題模型分別進(jìn)行參數(shù)估計(jì)。首先采用最大似然估計(jì)(MLE)方法對(duì)各個(gè)模型的參數(shù)進(jìn)行估計(jì)。利用最大似然估計(jì)方法必然會(huì)引起零概率問(wèn)題，因此還需要采用Jelinek-Mercer平滑方法進(jìn)行數(shù)據(jù)平滑，調(diào)整概率分布的取值；(c)對(duì)于待處理的文本，計(jì)算其語(yǔ)言模型與兩類情感模型的距離，選取距離最近的情感模型的情感傾向賦予該文本；計(jì)算與各個(gè)主題模型的距離，選取距離最近的主題模型的主題屬性作為該文本的主題。本發(fā)明的有益效果是由于在文本集合中進(jìn)行模型訓(xùn)練，真實(shí)模擬不同情感傾向以及不同主題的文本語(yǔ)言表達(dá)模式，將情感表達(dá)與主題表達(dá)的語(yǔ)言方式模型化，分別產(chǎn)生情感和主題兩類語(yǔ)言模型。對(duì)于需要進(jìn)行分析的待處理的文本，通過(guò)將其自身模型與這兩類模型進(jìn)行比較，評(píng)估它與兩類模型之間的相似程度，最終能夠同時(shí)識(shí)別確定文本的主題和情感傾向。在統(tǒng)計(jì)建模中引入語(yǔ)言信息知識(shí)，捕捉和探尋情感及主題表達(dá)的特性和規(guī)律，充分利用語(yǔ)言表達(dá)的特點(diǎn)和習(xí)慣，建立能夠同時(shí)分析識(shí)別主題和情感的混合模型，情感識(shí) 別的平均準(zhǔn)確率由現(xiàn)有技術(shù)的67. 81%提高到81. 36%。下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明作詳細(xì)說(shuō)明。

附圖是本發(fā)明基于混合模型的WEB文本情感主題識(shí)別方法的流程圖。
具體實(shí)施例方式對(duì)于一個(gè)待測(cè)文本，根據(jù)本方法分析文本情感傾向和文本主題，具體步驟如下第一步，手工標(biāo)注訓(xùn)練集文本的情感和主題，建立主題和情感模型。設(shè)X是文檔的集合X = {xl，X2，. . .，xn}，C表示類別的集合，是對(duì)X的一個(gè)劃分C = {Cl，c2，. . .，cj， Cj U Cj = (t, V/ 的密度函數(shù)為
K= J>(x|c,)p(c,)(1)
(=i為了計(jì)算模型與待處理文本間的距離，采用了 Kullback-Liebler測(cè)度作為衡量類別之間差別的判據(jù)。兩個(gè)概率分布q(x)與P(x)之間的KL距離通常定義為KL(q(x)\\p(x)) = (V(x)lncbc(2)
J LPW.當(dāng)q(x) =p(x)時(shí)，KL距離等于0。也就是兩類差別越大時(shí)，KL距離越大，當(dāng)兩類概率分布完全相同時(shí)，KL距離最小為0。數(shù)據(jù)x在第i類上的概率密度函數(shù)為q(x) = &|(^)，密度函數(shù)？00與q(x)之間的KL距離定義為￥ = -KL(p(x|Ci) | |p(x))(3)對(duì)于情感模型，i = 2，表示有兩種模型“褒義”模型和“貶義”模型；而對(duì)于主題模型，i = s,s是從訓(xùn)練集合中估計(jì)的主題模型的個(gè)數(shù)。在建立語(yǔ)言模型時(shí)，模型階數(shù)是影響模型性能的重要因素。在建模單元相同的情況下，高階模型的性能要優(yōu)于低階模型，但高階模型的構(gòu)造難度要大于低階模型。理論上而言，雖然采用更高階的n-gram能更準(zhǔn)確的描述語(yǔ)言模型，使模型能更逼近真實(shí)的語(yǔ)言現(xiàn) 象，但是實(shí)際上在現(xiàn)有的語(yǔ)料庫(kù)中應(yīng)用更高階語(yǔ)言單元，會(huì)引起嚴(yán)重的數(shù)據(jù)稀疏問(wèn)題，影響模型的效果。因此，式(1)中的語(yǔ)言單元，采用常用的詞語(yǔ)的bigram作為模型的參數(shù)。第二步，模型參數(shù)估計(jì)。采用常用的最大似然估計(jì)(MLE)方法對(duì)模型參數(shù)進(jìn)行估計(jì)。應(yīng)用MLE方法對(duì)模型參數(shù)的初步估計(jì)如下Pm(^\T) = C-^(4)
counter)在式子(4)中，T既可以表示待處理文本，也可以代表褒義文本集合，貶義文本集合或者主題文本集合。count (Wi)表示中出現(xiàn)的次數(shù)，相應(yīng)的count (r)表示任意一個(gè)詞在T中出現(xiàn)的次數(shù)。由于數(shù)據(jù)的稀疏性，利用極大似然估計(jì)方法必然會(huì)引起零概率問(wèn) 題對(duì)于某個(gè)沒(méi)有出現(xiàn)在文檔t中的詞項(xiàng)w，使用MLE將導(dǎo)致P(w |t) =0。零概率問(wèn)題會(huì)大大削弱了模型描述能力和后處理能力。數(shù)據(jù)平滑技術(shù)通過(guò)調(diào)整概率分布的取值，使低概率 (包括零概率)被調(diào)高，高概率被調(diào)低，從而避免了零概率的出現(xiàn)，能有效解決數(shù)據(jù)稀疏問(wèn) 題，同時(shí)還能使模型參數(shù)概率分布更加均勻，概率的計(jì)算更加精確。本發(fā)明中采用基于線性插值的Jelinek-Mercer平滑方法，該方法常用于解決由于訓(xùn)練樣本集較小而引起的參數(shù) 估計(jì)的偏置問(wèn)題。根據(jù)Jelinek-Mercer平滑方法的思想，模型參數(shù)的平滑計(jì)算可以定義如下Ps(Wi|T) = APM(Wi|T) + (l-A)P(Wi|C)(5)式(5)中，入是一個(gè)平滑參數(shù)，0 <入< 1。A需要通過(guò)實(shí)驗(yàn)確定，直接影響模型的性能。通過(guò)式(4)和(5)，完成對(duì)情感模型和主題模型中的參數(shù)估計(jì)和平滑。第三步，模型距離函數(shù)的定義。為了準(zhǔn)確評(píng)估待處理文本與模型之間的相似程度，引入了距離函數(shù)。通過(guò)計(jì)算待處理文本模型與各模型之間的距離，判斷模型之間的相似度。情感模型的距離函數(shù)定義如下0 (t, 6p, 6N) = d1－d2(6)其中t表示待處理文本，S p和S N分別表示“褒”模型和“貶”模型，dl代表文本 t與“褒”模型之間的KL距離，而d2代表文本t “貶”模型之間的KL距離。當(dāng)0大于0，表明待處理文本更接近“貶”模型，判斷文本表達(dá)的感情為貶斥類；反之，當(dāng)e小于0，判斷其為褒揚(yáng)類。當(dāng)e等于0，表示文本表達(dá)的情感中立。對(duì)于主題模型的建立，首先手工標(biāo)注訓(xùn)練數(shù)據(jù)集合中的文本主題，對(duì)各個(gè)主題的語(yǔ)言模型進(jìn)行估計(jì)，然后分別評(píng)估待處理文本自身的語(yǔ)言模型與這兩種模型之間的相似程度。如果待處理文本自身的語(yǔ)言模型與某個(gè)情感模型更為相似，那么就認(rèn)為該文本的主題與這個(gè)模型的主題是一致的。主題模型的距離函數(shù)定義如下0 (t, yys) = dmin(t，ri)(7)其中，ri表示第i個(gè)主題模型，dfflin(t, r,)表示待處理文本自身模型與各個(gè)主題模型之間最小的KL距離。若文本與第i個(gè)主題模型之間的KL距離最小，則認(rèn)為該文本的主題為第i個(gè)主題。經(jīng)檢測(cè)，本發(fā)明方法對(duì)情感識(shí)別的平均準(zhǔn)確率是81. 36%。
權(quán)利要求
一種基于混合模型的WEB文本情感主題識(shí)別方法，其特征在于包括以下步驟(a)對(duì)訓(xùn)練集中的文本進(jìn)行手工標(biāo)注，分別標(biāo)記每個(gè)文本的情感傾向和所屬主題類別，根據(jù)不同情感語(yǔ)言表達(dá)方式的不同，估計(jì)出兩類情感模型“褒義”模型和“貶義”模型；同時(shí)根據(jù)不同主題文本的語(yǔ)言表達(dá)方式，分別估計(jì)各類主題語(yǔ)言模型；(b)對(duì)于步驟(a)建立的情感模型和主題模型分別進(jìn)行參數(shù)估計(jì)，首先采用最大似然估計(jì)(MLE)方法對(duì)各個(gè)模型的參數(shù)進(jìn)行估計(jì)，利用最大似然估計(jì)方法必然會(huì)引起零概率問(wèn)題，因此還需要采用Jelinek-Mercer平滑方法進(jìn)行數(shù)據(jù)平滑，調(diào)整概率分布的取值；(c)對(duì)于待處理的文本，計(jì)算其語(yǔ)言模型與兩類情感模型的距離，選取距離最近的情感模型的情感傾向賦予該文本；計(jì)算與各個(gè)主題模型的距離，選取距離最近的主題模型的主題屬性作為該文本的主題。
全文摘要
本發(fā)明公開了一種基于混合模型的WEB文本情感主題識(shí)別方法。屬于網(wǎng)絡(luò)信息安全領(lǐng)域。該方法在文本集合中進(jìn)行模型訓(xùn)練，真實(shí)模擬不同情感傾向以及不同主題的文本語(yǔ)言表達(dá)模式，將情感表達(dá)與主題表達(dá)的語(yǔ)言方式模型化，分別產(chǎn)生情感和主題兩類語(yǔ)言模型。對(duì)于需要進(jìn)行分析的待處理的文本，通過(guò)將其自身模型與這兩類模型進(jìn)行比較，評(píng)估它與兩類模型之間的相似程度，最終能夠同時(shí)識(shí)別確定文本的主題和情感傾向。在統(tǒng)計(jì)建模中引入語(yǔ)言信息知識(shí)，捕捉和探尋情感及主題表達(dá)的特性和規(guī)律，充分利用語(yǔ)言表達(dá)的特點(diǎn)和習(xí)慣，建立能夠同時(shí)分析識(shí)別主題和情感的混合模型，情感識(shí)別的平均準(zhǔn)確率由現(xiàn)有技術(shù)的67.81％提高到81.36％。
文檔編號(hào)G06F17/30GK101876985SQ20091021916
公開日2010年11月3日申請(qǐng)日期2009年11月26日優(yōu)先權(quán)日2009年11月26日
發(fā)明者樊娜, 蔡皖東申請(qǐng)人:西北工業(yè)大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：蔡皖東;樊娜
技術(shù)所有人：西北工業(yè)大學(xué)
我是此專利的發(fā)明人

上一篇：基于遺傳算法的網(wǎng)絡(luò)文本分割方法
上一篇：基于剪影的二維人體姿態(tài)處理方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

文本主題模型相關(guān)技術(shù)

文本表示模型相關(guān)技術(shù)

文本分類模型相關(guān)技術(shù)

文本向量空間模型相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

基于混合模型的web文本情感主題識(shí)別方法