基于規(guī)則和統(tǒng)計模型的中文微博情感分析方法
【技術(shù)領(lǐng)域】
[0001 ] 本發(fā)明涉及中文文本情感分析領(lǐng)域,特別是涉及一種基于規(guī)則和統(tǒng)計模型的中文 微博情感分析方法。
【背景技術(shù)】
[0002] 隨著信息技術(shù)的不斷發(fā)展,互聯(lián)網(wǎng)的普及利用,各種終端設(shè)備記錄了人類社會復(fù) 雜頻繁的信息行為,從而產(chǎn)生了驚人的數(shù)據(jù)量。據(jù)國際數(shù)據(jù)公司(IDC)的研宄報告預(yù)測,到 2020年,全球?qū)碛?5ZB (IZB=IO億TB)的數(shù)據(jù)量。微博作為近年來最熱門的新型社交媒 體和信息交流平臺,亦貢獻了海量的數(shù)據(jù)。僅就新浪微博來說,其數(shù)據(jù)中心發(fā)布的2014年 用戶發(fā)展報告顯示,截止2014年9月30日,新浪微博月活躍用戶數(shù)(MAU)已經(jīng)達到1. 67億 人,較去年同期增長36%,日活躍用戶也已達到7660萬人。每秒鐘數(shù)以千計的新微博發(fā)布數(shù) 量,是人們交流想法,表達情感的一種重要體現(xiàn)。用戶通過微博發(fā)布的信息中包含著不同趨 向的情感特征,深度分析這些特征對于輿情監(jiān)控、市場營銷、謠言控制都有著重要意義。
[0003] 由于微博的內(nèi)容極其簡潔,一般控制在140個中文字符內(nèi),所以表達的信息有限。 用戶也可以隨時發(fā)布微博,發(fā)布的內(nèi)容也是各種各樣,用戶可以抒發(fā)當(dāng)時的情緒,也可以對 某熱點話題表達自己的觀點,亦可發(fā)表對影視作品的評論等等,所以,將微博進行情感分類 就顯得尤為必要。由于微博文本較短,同時伴有話題、表情符號等等,因此需要用特殊的方 式進行分類。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明主要解決的技術(shù)問題是提供一種基于規(guī)則和統(tǒng)計模型的中文微博情感分 析方法,將微博文本分類為正面情感、負(fù)面情感和中性情感,而對微博的情感分析并不止于 此,通過對微博文本的深入分析,進一步將微博劃分為喜好、憤怒、悲傷、恐懼、厭惡、驚訝和 平靜七類情感。通過情感的進一步劃分,可以直觀的顯示出微博文本的情感傾向,而對微博 文本情感傾向的研宄可以延伸到各領(lǐng)域,具有廣泛的應(yīng)用前景。
[0005] 為解決上述技術(shù)問題,本發(fā)明采用的一個技術(shù)方案是: 提供一種基于規(guī)則和統(tǒng)計模型的中文微博情感分析方法,其包括: 步驟一:文本預(yù)處理及觀點句識別,即針對每個句子,首先判斷出該條句子觀點句還是 非觀點句; 步驟二:情感極性分析,即在情感詞典的基礎(chǔ)上,對觀點句進行分詞處理,從而抽取詞 語特征,構(gòu)建SVM模型,對觀點句進行情感極性分類; 步驟三:情感劃分,即在情感極性判斷基礎(chǔ)上,將觀點句進行具體的情感劃分。
[0006] 在本發(fā)明一個較佳實施例中,所述情感極性包括正面情感(Pos),負(fù)面情感(Neg) 和中性情感(NEUTRAL)。
[0007] 在本發(fā)明一個較佳實施例中,所述文本預(yù)處理及觀點句識別的具體步驟包括: 預(yù)處理: (I. I)對微博語料進行預(yù)處理,刪除無意義微博,所述無意義微博包括垃圾微博文本和 廣告營銷微博文本; (1. 2)刪除微博中的話題標(biāo)簽,即去除"#"和其間的文字內(nèi)容,得到預(yù)處理語料; (1. 3)創(chuàng)建主觀詞詞典,并標(biāo)注主觀詞的詞性; 觀點句判斷: (2. 1)對預(yù)處理語料進行分詞并標(biāo)注詞性,進行句子分詞和特征提取,構(gòu)建特征分類模 型; (2. 2)將分詞語句與主觀詞詞典進行匹配,并判斷主觀詞是否為動詞詞性; (2. 3)如果主觀詞為動詞詞性,則在分詞語句的前后找代詞和情感詞; (2. 4)在分詞語句中尋找名詞或名詞短語,如果出現(xiàn)名詞或名詞短語,則判定該分詞語 句為觀點句; (2. 5)如果沒有出現(xiàn)名詞或名詞短語,并且滿足步驟(2. 3)和步驟(2. 4)的要求,則直 接判定該分詞語句為非觀點句。
[0008] 在本發(fā)明一個較佳實施例中,所述情感極性分析的具體步驟包括: 創(chuàng)建或引用對照詞典,并對對照詞典中的詞語進行情感極性標(biāo)注; 創(chuàng)建網(wǎng)絡(luò)用語詞典和表情符號詞典,并對詞典中的詞語進行情感極性標(biāo)注; 對觀點句進行分詞,獲得極性分詞; 采用十折交叉驗證法,將極性分詞投入特征分類模型中進行訓(xùn)練,得到極性分詞的情 感極性,其中,60%的極性分詞用來作訓(xùn)練集,40%的極性分詞作測試集; 根據(jù)極性分詞的情感極性,得到觀點句的情感極性。
[0009] 在本發(fā)明一個較佳實施例中,所述情感極性標(biāo)注包括正面評價詞語、負(fù)面評價詞 語、負(fù)面情感詞語、正面情感詞語、程度級別詞語以及主張詞語。
[0010] 在本發(fā)明一個較佳實施例中,所述情感劃分的具體步驟包括: 創(chuàng)建和收集語料庫,所述語料庫包括教材、科學(xué)雜志、期刊、報紙,童話故事和文學(xué)名 著; 對語料進行情感標(biāo)注,創(chuàng)建語料庫的標(biāo)注體系,即對每一個待標(biāo)注的語料進行情感信 息的填充和集合; 將微博語料逐句切割成分類句,并將分類句放入語句解析器中,語句解析器將會對句 子的情感復(fù)雜程度進行分類; 提取分類好的分類句的語義特征,并對語義特征進行解析; 將解析結(jié)果傳到條件隨機場CRFs,利用語料庫計算微博語料中每個分類句表示的情感 色彩,得到文章的情感鏈; 對情感鏈進行分析評估; 根據(jù)情感鏈的分析評估結(jié)果和觀點句的情感極性,得出最終情感劃分。
[0011] 在本發(fā)明一個較佳實施例中,所述對情感鏈進行分析評估的具體步驟包括:采用 多句互相影響聯(lián)合評估法對語料進行情感劃分;采用共現(xiàn)的多元情感在語料標(biāo)注中匹配的 準(zhǔn)確率來衡量情感標(biāo)注的連貫性。
[0012] 在本發(fā)明一個較佳實施例中,所述采用多句互相影響聯(lián)合評估法對語料進行情感 劃分的具體步驟包括:對每個分類句進行情感評估;判斷分類句之間的情感聯(lián)系,即上下 文的聯(lián)系以及語法語義之間的聯(lián)系;在表達情感及句意相似或相同的基礎(chǔ)上進行多句互相 影響聯(lián)合評估。
[0013] 本發(fā)明的有益效果是:對中文微博進行情感分析,利用中文微博文本對微博進行 情感分類的方法,可以直觀的顯示出微博文本的情感傾向,而對微博文本情感傾向的研宄 可以延伸到各領(lǐng)域,具有廣泛的應(yīng)用前景。
【附圖說明】
[0014] 為了更清楚地說明本發(fā)明實施例中的技術(shù)方案,下面將對實施例描述中所需要使 用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于 本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其它 的附圖,其中: 圖1是本發(fā)明的步驟文本預(yù)處理及觀點句識別的流程示意圖; 圖2是本發(fā)明的步驟情感極性分析的流程示意圖; 圖3是本發(fā)明的步驟情感劃分的流程示意圖。
【具體實施方式】
[0015] 下面將對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施 例僅是本發(fā)明的一部分