一種基于觀點的文本分類方法
【專利摘要】本發(fā)明公開了一種基于觀點的文本分類方法,具體步驟包括:(100)主題段的劃分;(200)語句主觀性的判別;(300)觀點句識別;(400)觀點句相似度計算;(500)觀點句聚類。通過上述方式,本發(fā)明一種基于觀點的文本分類方法,該方法可以實現(xiàn)動態(tài)的、語義的、低維高效的文本分類,使網(wǎng)絡(luò)文本信息處理更符合人的認知過程,更能滿足實際應(yīng)用的需求。
【專利說明】-種基于觀點的文本分類方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及文本挖掘和情感計算【技術(shù)領(lǐng)域】,尤其是涉及一種基于觀點的文本分類 方法。
【背景技術(shù)】
[0002] 隨著Web2. 0技術(shù)的發(fā)展,網(wǎng)絡(luò)社區(qū)、博客和論壇給網(wǎng)絡(luò)用戶提供了更寬廣的平臺 來交流信息和表達意見,商業(yè)機構(gòu)可W通過網(wǎng)絡(luò)調(diào)查客戶對產(chǎn)品的評論來了解客戶意見并 進行市場調(diào)查與分析,對產(chǎn)品進行在線跟蹤,不斷趕緊產(chǎn)品性能和售后服務(wù),培育潛在的消 費群體,同時消費者也可W通過瀏覽某產(chǎn)品的用戶評價信息來選擇是否購買該產(chǎn)品,政府 部口可W網(wǎng)絡(luò)論壇來了解人們對某個政策法規(guī)或者時事的看法及時的了解民眾對社會管 理者的社會政治態(tài)度并作出科學(xué)合理的決策,因此,如何快速,有效處理和分析該些主觀性 的評論文本,了解其他人的想法和對事物的觀點和態(tài)度是網(wǎng)絡(luò)文本信息處理領(lǐng)域待解決的 重要問題之一。
[0003] 所謂觀點,是指一個人對某事物的想法和理解,觀點并非是事實,因為觀點既沒有 得到驗證,也沒有得到證明和確認,如果一個觀點后來能夠得到證明和確認,那它就不再是 一個觀點,而變成一個事實,根據(jù)Kim和化vy對觀點的定義;觀點由四個要素組成:即主 題、持有者、陳述、情感,該四個元素之間存在著內(nèi)在的聯(lián)系,即觀點的持有者針對某主題發(fā) 表了具有情感的意見陳述。
[0004] 作為一個新興的研究領(lǐng)域,觀點挖掘研究引起NLP研究界的廣泛關(guān)注,近年來, NLP相關(guān)的一些國際會議都設(shè)有專題來討論觀點挖掘問題,眾多的研究成果可W分為兩大 類;文檔級(粗粒度)觀點挖掘和句子級(中粒度)觀點挖掘。
[0005] 粗粒度觀點挖掘?qū)⒃u價文本劃分為支持、反對和中立H大類,粗粒度觀點挖掘雖 然可W看做文本分類,但與傳統(tǒng)的面向主題的文本分類有很大的不同,在傳統(tǒng)面向主題的 文本分類中,與主題相關(guān)的詞非常重要;而在粗粒度觀點挖掘中,表明褒義或眶義觀點的情 感詞最有用。
[0006] 粗粒度觀點挖掘不能發(fā)現(xiàn)用戶喜歡與不喜歡的具體細節(jié),例如用戶可能對一款數(shù) 碼相機的外形設(shè)計滿意,但是對其電池的使用壽命卻不太滿意,在很多時候僅僅是該種總 體上的判斷還不夠,因為人們對于某一話題進行觀點和態(tài)度表達的時候除了對總體上的評 價外,往往還包括了對其中某個部分或者特性的評價。
[0007] 中粒度觀點挖掘主要是應(yīng)用于對事物特性發(fā)表觀點的抽取,該方法進入到語句層 次,W便能夠提取觀點的具體細節(jié),當(dāng)然該里的事物可W是一個產(chǎn)品、一種服務(wù)、一個人、一 個組織、一個事件等,例如"該臺照相機的電池壽命太短"該句話,用戶評價的產(chǎn)品特征是該 款相機的"電池壽命",并且該用戶給出的結(jié)論(觀點)是消極的。
[0008] 無論是粗粒度觀點挖掘還是中粒度觀點挖掘,像"美國先打伊拉克"和"伊拉克先 打美國"兩種不同的觀點都會歸類為相同的一類,因為它們是W詞為基本特征,并沒有用到 語義特征(觀點),細粒度觀點挖掘是按觀點將文本或句子分類,類別的數(shù)量是動態(tài)的,因為 不同的人對同一事物有不同的看法,不僅僅是贊成、反對和中立,由于細粒度觀點挖掘無法 得到一個通用的語料庫,所W基于觀點的文本分類是觀點聚類。
[0009] 提出基于觀點的文本分類的另一個動機是在過去的幾十年中,語義計算、情感計 算有了長足的發(fā)展,動態(tài)文本分類、基于語義的文本分類、多技術(shù)綜合的文本分類、低維高 效的文本分類有著迫切的應(yīng)用需求。
【發(fā)明內(nèi)容】
[0010] 本發(fā)明主要解決的技術(shù)問題是提供一種基于觀點的文本分類方法,該方法可W實 現(xiàn)動態(tài)的、語義的、低維高效的文本分類,使網(wǎng)絡(luò)文本信息處理更符合人的認知過程,更能 滿足實際應(yīng)用的需求。
[0011] 為解決上述技術(shù)問題,本發(fā)明采用的一個技術(shù)方案是:一種基于觀點的文本分類 方法,具體步驟包括: (100)主題段的劃分:首先輸入文本,通過
【權(quán)利要求】
1. 一種基于觀點的文本分類方法,其特征在于,具體步驟包括: (I O O ) 主題段的劃分:首先輸入文本,通過
(I £i,j £n)計算文本中每兩個段落之間的語義相似度, 然后逐個找出主題發(fā)生轉(zhuǎn)換的段落候選點Pkl,Pk2,……,Pt,若P t滿足
,矣-1^>1, ,則確定辱為主題段落的劃分候選點,繼續(xù)處理下一個候 選點,如果全部主題段落劃分候選點都處理完畢則結(jié)束,若不滿足,判斷巧M是否滿足
,若滿足,則認為為主題段落劃分候選點,并繼續(xù)處理下一個主題 段落劃分候選點,若不滿足,則判斷主題段落劃分候選點的下一個段落是否滿足
,認為&不是劃分段,直至全部主題段落劃分候選點處理完畢則結(jié) 束,確定文本中的主題段落劃分點,將文本中的所有自然段落合并為若干個主題段,即文本 可以表示為D=S1Ss2J:......£sn,Sn表示主題段; 其中,
(WillWi2,……,……,Wik)為段落特征向量,Wu表示文本特征詞列表中第j個元素在段 落i中的權(quán)值,權(quán)值根據(jù)詞語在該段出現(xiàn)的頻率計算,k為特征向量元素的個數(shù),文本特征 向量F(D) = ^W2,......,W1),W1表示文本特征詞列表中第1個元素在全文中的權(quán)值,權(quán)值 根據(jù)詞語在文本中出現(xiàn)的頻率計算,*^是第r個主題段落劃分候選點的段落的下標(biāo); (200)語句主觀性的判別:采用CHI統(tǒng)計方法分別對主觀文本和客觀文本進行2-P0S主 觀模式提取,首先對訓(xùn)練語料庫中的句子進行分詞和詞性標(biāo)注,然后構(gòu)造2-POS統(tǒng)計語言 模型,最后根據(jù)公式(1)分別為主、客觀模式集合中的每個2-POS類型計算CHI統(tǒng)計量,并 依據(jù)CHI值排序,
其中表示屬于類Ci的句子中包含第k個2-POS模式句子數(shù), 表示不屬于類Ci的句子中包含第k個2-POS模式句子數(shù),表 示屬于類Ci的句子中不包含第k個2-POS模式句子數(shù),表示既不屬于類Ci也不包含第k個2-POS模式句子數(shù),N表示語料中的句子總數(shù); 利用統(tǒng)計方法在康奈爾大學(xué)提供的影評數(shù)據(jù)集上獲得主觀規(guī)則; 所述主觀模式和所述主觀規(guī)則統(tǒng)稱為主觀線索,首先根據(jù)公式(2)計算主觀線索Clue 權(quán)重, Wight (Clue) =Max (CHI 值 / 最大 CHI 值,置信度 *falg) (2) 其中flag=l,則主觀線索為主觀句置信度,否則flag=0 ; 然后跟據(jù)主觀線索密度定義公式(3)計算主觀線索密度:
其中,句子包含的主觀線索詞總數(shù)為見相鄰的兩個主觀線索詞^和wi+1之間的非主觀 線索詞數(shù)量表示為(Jfi, ri+1),關(guān)鍵詞ri+1在句子中的權(quán)重表示為(ri+1); 根據(jù)公式(4)采用dWW/方法計算主觀線索詞的權(quán)重:
其中,表示包含詞的句子數(shù),是總句子數(shù),在句子幻中出現(xiàn)的次數(shù)表 示為; 句子是主觀性句子的可能性大小與SD(S)值的大小成正比關(guān)系; (300)觀點句識別:觀點句不同于主觀句,是主觀句子集,觀點句識別首先要構(gòu)造觀點 詞語字典,然后利用觀點詞語字典對句子出現(xiàn)的觀點詞語進行統(tǒng)計,將統(tǒng)計的結(jié)果,利用 ID3算法生成決策樹,從而用于觀點句的識別; (400)觀點句相似度計算:首先進行觀點抽取,根據(jù)步驟(100)對主題聚類,然后對同 一主題,抽取描述主題的屬性,對同一屬性評價的褒貶詞類別即為觀點詞,最后根據(jù)公式 (5)計算詞語的權(quán)重,
其中,k表示句子中出現(xiàn)的詞類數(shù),Iii表示句中i類詞的個數(shù),表示第i個觀點的 權(quán)重。
2.假設(shè)句子A包含詞語的觀點權(quán)重集合為WordSet (A) = (W1, W2……Wj,句子B包 含詞語的觀點權(quán)重集合為WordSet (B) = (W1, W2,…….,Wj,如果句子B的觀點權(quán)重集合 WordSet (B)包含 WordSet (A)中的第 i 個詞(I < i < n),即 Wi G WordSet (A) n WordSet (B), 則第i個詞出現(xiàn),Wi對句A和句B相似度的貢獻為Si,同理,如果Wi不在WordSet (B) 中出現(xiàn),而 Wj(Wj G WordSet (A),l 彡 j 彡 n)在 WordSet(B)中出現(xiàn),即 Wj G WordSet (A) n WordSet (B),設(shè)此時詞第j個詞的出現(xiàn),Wj對句A和句B相似度的貢獻為Sj, 如果第i個詞和第j個詞同時在句A和句B中出現(xiàn),則Wi和%對句A和句B的相似度的 貢獻為Sij,且有SiPSJSj,則相近詞對Wi和W j對A,B相似度的貢獻度為Sij- (SJSjXWi和 Wj的相似度大小與Sij- (SJSj)的值的大小成反比,Sij- (SJSj)的值越小,則Wi和Wj越相 似; (500)觀點句聚類:結(jié)合步驟(100)至步驟(400),根據(jù)公式(6)進行觀點聚類,
優(yōu)先級權(quán)重,并不是所有特征都對相似度有貢獻,有效配對指滿足優(yōu)先級規(guī)則的特征匹配, PairCiunt1為觀點句1的詞語數(shù),PairCiunt2為觀點句2的詞語數(shù)。
3.根據(jù)權(quán)利要求1所述的一種基于觀點的文本分類方法,其特征在于:所述步驟(200) 中的主觀規(guī)則包括: 規(guī)則1 :程度副詞(絕對、非常、相當(dāng)主觀句(0.75) 規(guī)則2 :第一人稱代詞(我、本人、個人)> 主觀句(0. 85) 規(guī)則3 :疑問詞(難道、為什么)> 主觀句(0. 90) 規(guī)則4 :指示詞(這個、那個、某些)> 主觀句(0. 72) 規(guī)則5 :連詞(而、反而、反之)> 主觀句(0.64) 規(guī)則6 :引用語(他說,他認為)> 客觀句(1. 0) 規(guī)則7 :概念定義核心動詞(是、包含、稱為、叫做、定義為)> 客觀句(0.99) 規(guī)則8 :事實陳述核心動詞(譽為、報道、講述)> 客觀句(0. 98) 規(guī)則9 :主張類觀點詞(認為、應(yīng)該、決定、希望、想)> 主觀句(0.77) 其中觀點詞分為18類,不同類對主觀句判別貢獻不同,所述主觀規(guī)則后括號的數(shù)字為 該所述主觀規(guī)則的置信度。
【文檔編號】G06F17/30GK104331394SQ201410434035
【公開日】2015年2月4日 申請日期:2014年8月29日 優(yōu)先權(quán)日:2014年8月29日
【發(fā)明者】程實, 何海棠, 沈?qū)W華, 程顯毅, 施佺 申請人:南通大學(xué)