一種針對(duì)詞語級(jí)別的漢語情感詞極性強(qiáng)度量化方法

文檔序號(hào)：6519313閱讀：1550來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種針對(duì)詞語級(jí)別的漢語情感詞極性強(qiáng)度量化方法
【專利摘要】本發(fā)明公開了一種針對(duì)詞語級(jí)別的漢語情感詞極性強(qiáng)度量化方法，屬于計(jì)算機(jī)自然語言處理領(lǐng)域。首先獲取情感詞典中每個(gè)字的情感傾向值，然后根據(jù)字的情感傾向值獲取所測(cè)基礎(chǔ)情感詞的極性強(qiáng)度度量值，最后根據(jù)基礎(chǔ)情感詞的極性強(qiáng)度度量值獲取復(fù)合情感詞的極性強(qiáng)度度量值。本發(fā)明對(duì)比現(xiàn)有技術(shù)，通過采用高斯分布函數(shù)修正統(tǒng)計(jì)得出的字的情感傾向值誤差，大幅提高了基礎(chǔ)情感詞極性強(qiáng)度度量的準(zhǔn)確率。在此基礎(chǔ)上對(duì)復(fù)合情感詞詳細(xì)分類，分別設(shè)計(jì)經(jīng)Sigmoid函數(shù)倒推得出的計(jì)算公式，大幅提高了復(fù)合情感詞的極性強(qiáng)度度量準(zhǔn)確率。另外引入Sim(A,B)函數(shù)，利用HowNet對(duì)副詞自動(dòng)分類，減輕了手工標(biāo)注的工作量，提高了工作效率。
【專利說明】一種針對(duì)詞語級(jí)別的漢語情感詞極性強(qiáng)度量化方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于計(jì)算機(jī)自然語言處理領(lǐng)域，涉及應(yīng)用于漢語文本情感分析中的一種針對(duì)詞語級(jí)別的漢語情感詞極性強(qiáng)度量化方法。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)技術(shù)的不斷進(jìn)步，特別是Web2.0技術(shù)的逐漸普及，網(wǎng)絡(luò)表現(xiàn)出了強(qiáng)大的數(shù)據(jù)處理能力，網(wǎng)絡(luò)社會(huì)也變得紛繁復(fù)雜。在百度貼吧、天涯論壇等各大網(wǎng)站上都可以看到大量網(wǎng)民對(duì)新聞、產(chǎn)品、服務(wù)等的各種評(píng)論信息和意見，在此背景下興起了基于網(wǎng)絡(luò)文本的情感傾向性分析研究，對(duì)信息檢索、電子商務(wù)、網(wǎng)絡(luò)輿情預(yù)警等領(lǐng)域有著重要意義。
[0003]目前，對(duì)文本情感分析的研究對(duì)象主要分為詞語級(jí)別、句子級(jí)別、篇章級(jí)別三種，而基于詞語級(jí)別的文本情感分析主要依賴于模糊情感詞的極性強(qiáng)度度量值。已有的情感詞極性強(qiáng)度量化方法主要有Ku等人在AAAI’ 2006人工智能頂級(jí)國際會(huì)議上發(fā)表論文闡述的利用漢字的情感統(tǒng)計(jì)來計(jì)算詞的情感極性強(qiáng)度度量值。
[0004]上述情感詞極性強(qiáng)度量化方法主要包括基礎(chǔ)情感詞的極性強(qiáng)度量化和復(fù)合情感詞的極性強(qiáng)度量化兩個(gè)環(huán)節(jié)，主要包括以下幾個(gè)步驟:首先計(jì)算情感詞典中每個(gè)字的情感傾向值；然后計(jì)算每個(gè)基礎(chǔ)情感詞的極性強(qiáng)度度量值；之后計(jì)算每個(gè)復(fù)合情感詞的極性強(qiáng)
度度量值。
[0005]現(xiàn)有的情感詞極性強(qiáng)度量化方法主要存在以下幾個(gè)方面的不足:一是在進(jìn)行文本情感分析時(shí)，主要依賴于情感詞典規(guī)模，這樣僅僅基于統(tǒng)計(jì)得到每個(gè)字的情感傾向值，準(zhǔn)確率較低；二是針對(duì)復(fù)合情感詞的極性強(qiáng)度量化方法設(shè)計(jì)簡單，雖易于實(shí)現(xiàn)，但準(zhǔn)確率較低，影響了文本情感分析效果。

【發(fā)明內(nèi)容】

[0006]本發(fā)明的目的是為了克服現(xiàn)有技術(shù)存在的缺陷，為有效解決當(dāng)前在漢語文本情感分析過程中，針對(duì)詞語級(jí)別的漢語情感詞進(jìn)行極性強(qiáng)度量化時(shí)準(zhǔn)確率低的問題，提出一種有效的極性強(qiáng)度量化方法。
[0007]本發(fā)明方法所采用的技術(shù)方案如下:
[0008]一種針對(duì)詞語級(jí)別的漢語情感詞極性強(qiáng)度量化方法，包括以下步驟:
[0009]步驟一、獲取情感詞典中每個(gè)字的情感傾向值。首先，統(tǒng)計(jì)每個(gè)字在情感詞典中作為褒義詞、貶義詞的權(quán)重。
[0010]然后，根據(jù)每個(gè)字的褒義詞、貶義詞的權(quán)重，獲得情感詞典中每個(gè)字的情感傾向值，具體過程如下:
[0011]定義一個(gè)RandomC ns( μ，δ ))函數(shù)，其中，ns(y, δ )是高斯密度函數(shù)，Random(ns(y, δ))表示在此高斯分布函數(shù)上隨機(jī)選取一個(gè)值。鑒于字的情感傾向值度量
滿足高斯分布，每個(gè)字的情感傾向值計(jì)算公式如下:
[0012]
【權(quán)利要求】
1.一種針對(duì)詞語級(jí)別的漢語情感詞極性強(qiáng)度量化方法，其特征在于，包括以下步驟: 步驟一、獲取情感詞典中每個(gè)字的情感傾向值；首先，統(tǒng)計(jì)每個(gè)字在情感詞典中作為褒義詞、貶義詞的權(quán)重；然后，根據(jù)每個(gè)字的褒義詞、貶義詞的權(quán)重，獲得情感詞典中每個(gè)字的情感傾向值，具體過程如下: 定義一個(gè)RandomC η s( μ，δ))函數(shù)，其中ns(y，S)是高斯密度函數(shù)，Random(ns(y, δ))表示在此高斯分布函數(shù)上隨機(jī)選取一個(gè)值；鑒于字的情感傾向值度量滿足高斯分布，每個(gè)字的情感傾向值計(jì)算公式如下:
【文檔編號(hào)】G06F17/30GK103838712SQ201310576097
【公開日】2014年6月4日申請(qǐng)日期:2013年11月18日優(yōu)先權(quán)日:2013年11月18日
【發(fā)明者】史樹敏, 李瑞靜, 黃河燕申請(qǐng)人:北京理工大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：史樹敏;李瑞靜;黃河燕
技術(shù)所有人：北京理工大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

情感極性相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種針對(duì)詞語級(jí)別的漢語情感詞極性強(qiáng)度量化方法