一種針對(duì)詞語級(jí)別的漢語情感詞極性強(qiáng)度量化方法
【專利摘要】本發(fā)明公開了一種針對(duì)詞語級(jí)別的漢語情感詞極性強(qiáng)度量化方法,屬于計(jì)算機(jī)自然語言處理領(lǐng)域。首先獲取情感詞典中每個(gè)字的情感傾向值,然后根據(jù)字的情感傾向值獲取所測(cè)基礎(chǔ)情感詞的極性強(qiáng)度度量值,最后根據(jù)基礎(chǔ)情感詞的極性強(qiáng)度度量值獲取復(fù)合情感詞的極性強(qiáng)度度量值。本發(fā)明對(duì)比現(xiàn)有技術(shù),通過采用高斯分布函數(shù)修正統(tǒng)計(jì)得出的字的情感傾向值誤差,大幅提高了基礎(chǔ)情感詞極性強(qiáng)度度量的準(zhǔn)確率。在此基礎(chǔ)上對(duì)復(fù)合情感詞詳細(xì)分類,分別設(shè)計(jì)經(jīng)Sigmoid函數(shù)倒推得出的計(jì)算公式,大幅提高了復(fù)合情感詞的極性強(qiáng)度度量準(zhǔn)確率。另外引入Sim(A,B)函數(shù),利用HowNet對(duì)副詞自動(dòng)分類,減輕了手工標(biāo)注的工作量,提高了工作效率。
【專利說明】一種針對(duì)詞語級(jí)別的漢語情感詞極性強(qiáng)度量化方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于計(jì)算機(jī)自然語言處理領(lǐng)域,涉及應(yīng)用于漢語文本情感分析中的一種針對(duì)詞語級(jí)別的漢語情感詞極性強(qiáng)度量化方法。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)技術(shù)的不斷進(jìn)步,特別是Web2.0技術(shù)的逐漸普及,網(wǎng)絡(luò)表現(xiàn)出了強(qiáng)大的數(shù)據(jù)處理能力,網(wǎng)絡(luò)社會(huì)也變得紛繁復(fù)雜。在百度貼吧、天涯論壇等各大網(wǎng)站上都可以看到大量網(wǎng)民對(duì)新聞、產(chǎn)品、服務(wù)等的各種評(píng)論信息和意見,在此背景下興起了基于網(wǎng)絡(luò)文本的情感傾向性分析研究,對(duì)信息檢索、電子商務(wù)、網(wǎng)絡(luò)輿情預(yù)警等領(lǐng)域有著重要意義。
[0003]目前,對(duì)文本情感分析的研究對(duì)象主要分為詞語級(jí)別、句子級(jí)別、篇章級(jí)別三種,而基于詞語級(jí)別的文本情感分析主要依賴于模糊情感詞的極性強(qiáng)度度量值。已有的情感詞極性強(qiáng)度量化方法主要有Ku等人在AAAI’ 2006人工智能頂級(jí)國際會(huì)議上發(fā)表論文闡述的利用漢字的情感統(tǒng)計(jì)來計(jì)算詞的情感極性強(qiáng)度度量值。
[0004]上述情感詞極性強(qiáng)度量化方法主要包括基礎(chǔ)情感詞的極性強(qiáng)度量化和復(fù)合情感詞的極性強(qiáng)度量化兩個(gè)環(huán)節(jié),主要包括以下幾個(gè)步驟:首先計(jì)算情感詞典中每個(gè)字的情感傾向值;然后計(jì)算每個(gè)基礎(chǔ)情感詞的極性強(qiáng)度度量值;之后計(jì)算每個(gè)復(fù)合情感詞的極性強(qiáng)
度度量值。
[0005]現(xiàn)有的情感詞極性強(qiáng)度量化方法主要存在以下幾個(gè)方面的不足:一是在進(jìn)行文本情感分析時(shí),主要依賴于情感詞典規(guī)模,這樣僅僅基于統(tǒng)計(jì)得到每個(gè)字的情感傾向值,準(zhǔn)確率較低;二是針對(duì)復(fù)合情感詞的極性強(qiáng)度量化方法設(shè)計(jì)簡單,雖易于實(shí)現(xiàn),但準(zhǔn)確率較低,影響了文本情感分析效果。
【發(fā)明內(nèi)容】
[0006]本發(fā)明的目的是為了克服現(xiàn)有技術(shù)存在的缺陷,為有效解決當(dāng)前在漢語文本情感分析過程中,針對(duì)詞語級(jí)別的漢語情感詞進(jìn)行極性強(qiáng)度量化時(shí)準(zhǔn)確率低的問題,提出一種有效的極性強(qiáng)度量化方法。
[0007]本發(fā)明方法所采用的技術(shù)方案如下:
[0008]一種針對(duì)詞語級(jí)別的漢語情感詞極性強(qiáng)度量化方法,包括以下步驟:
[0009]步驟一、獲取情感詞典中每個(gè)字的情感傾向值。首先,統(tǒng)計(jì)每個(gè)字在情感詞典中作為褒義詞、貶義詞的權(quán)重。
[0010]然后,根據(jù)每個(gè)字的褒義詞、貶義詞的權(quán)重,獲得情感詞典中每個(gè)字的情感傾向值,具體過程如下:
[0011]定義一個(gè)RandomC ns( μ,δ ))函數(shù),其中,ns(y, δ )是高斯密度函數(shù),Random(ns(y, δ))表示在此高斯分布函數(shù)上隨機(jī)選取一個(gè)值。鑒于字的情感傾向值度量
滿足高斯分布,每個(gè)字的情感傾向值計(jì)算公式如下:
[0012]
【權(quán)利要求】
1.一種針對(duì)詞語級(jí)別的漢語情感詞極性強(qiáng)度量化方法,其特征在于,包括以下步驟: 步驟一、獲取情感詞典中每個(gè)字的情感傾向值; 首先,統(tǒng)計(jì)每個(gè)字在情感詞典中作為褒義詞、貶義詞的權(quán)重; 然后,根據(jù)每個(gè)字的褒義詞、貶義詞的權(quán)重,獲得情感詞典中每個(gè)字的情感傾向值,具體過程如下: 定義一個(gè)RandomC η s( μ,δ))函數(shù),其中ns(y,S)是高斯密度函數(shù),Random(ns(y, δ))表示在此高斯分布函數(shù)上隨機(jī)選取一個(gè)值;鑒于字的情感傾向值度量滿足高斯分布,每個(gè)字的情感傾向值計(jì)算公式如下:
【文檔編號(hào)】G06F17/30GK103838712SQ201310576097
【公開日】2014年6月4日 申請(qǐng)日期:2013年11月18日 優(yōu)先權(quán)日:2013年11月18日
【發(fā)明者】史樹敏, 李瑞靜, 黃河燕 申請(qǐng)人:北京理工大學(xué)