基于用戶評(píng)論文本的上下文情感分類方法及分類系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及計(jì)算機(jī)應(yīng)用于互聯(lián)網(wǎng)技術(shù)領(lǐng)域,特別涉及一種基于用戶評(píng)論文本的上 下文情感分類方法及分類系統(tǒng)。
【背景技術(shù)】
[0002] 近些年來(lái),在論壇、博客、電子商務(wù)、微博等新興互聯(lián)網(wǎng)元素的推動(dòng)下,越來(lái)越多的 用戶習(xí)慣于在這些網(wǎng)絡(luò)平臺(tái)上發(fā)表自己的觀點(diǎn)和表達(dá)自己的感受。但是,隨之而來(lái)的一個(gè) 問(wèn)題就是互聯(lián)網(wǎng)上的用戶越來(lái)越多,用戶評(píng)論數(shù)量也呈爆炸式增長(zhǎng),導(dǎo)致光靠人力進(jìn)行分 析總結(jié)變得很難。尤其是大型電商網(wǎng)站上的熱門商品的評(píng)論往往都會(huì)有成千上萬(wàn)條,對(duì)于 用戶來(lái)說(shuō),要完全瀏覽這些評(píng)論是不現(xiàn)實(shí)的,而瀏覽少量信息又會(huì)得到有偏差的結(jié)論,無(wú)法 獲得大眾對(duì)于此款產(chǎn)品的綜合評(píng)價(jià)。更加復(fù)雜的是,這些海量評(píng)論中還會(huì)存在著許多相互 矛盾的觀點(diǎn),在這種情況下,用戶很難甄別出對(duì)自己有價(jià)值的信息。因此,讓計(jì)算機(jī)來(lái)幫助 用戶對(duì)海量評(píng)論進(jìn)行分析甄選,從中抽取出有價(jià)值的信息就變得尤為重要。
[0003] 這種新的上下文情感分類方法具有如下幾個(gè)主要特點(diǎn):1)時(shí)間成本低。對(duì)于產(chǎn)品 的用戶評(píng)論,用戶不需要進(jìn)行人工分析,便可以獲知大眾對(duì)該產(chǎn)品的褒貶傾向。2)適用范 圍廣。該方法可以由電商網(wǎng)站或生產(chǎn)廠商使用,分析用戶對(duì)于產(chǎn)品的總體評(píng)價(jià),方便改進(jìn) 產(chǎn)品;也可以由用戶和消費(fèi)者使用,分析自己和他人的情感傾向,以作出購(gòu)買決策。3)特征 篩選準(zhǔn)。然而,以往的情感分類方法很少關(guān)注對(duì)于文本中語(yǔ)義特征的提取,降低了分類準(zhǔn)確 度,無(wú)法很好地識(shí)別出文本中用戶的情感傾向。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明旨在至少在一定程度上解決上述相關(guān)技術(shù)中的技術(shù)問(wèn)題之一。
[0005] 為此,本發(fā)明的一個(gè)目的在于提出一種能夠提高了分類準(zhǔn)確度,更好地識(shí)別出文 本中用戶的情感傾向的基于用戶評(píng)論文本的上下文情感分類方法。
[0006] 本發(fā)明的另一個(gè)目的在于提出一種基于用戶評(píng)論文本的上下文情感分類系統(tǒng)。
[0007] 為達(dá)到上述目的,本發(fā)明一方面實(shí)施例提出了一種基于用戶評(píng)論文本的上下文情 感分類方法,包括以下步驟:從互聯(lián)網(wǎng)上獲取多條用戶評(píng)論文本;對(duì)所述多條用戶評(píng)論文 本進(jìn)行分詞;對(duì)分詞后的多條用戶評(píng)論文本進(jìn)行訓(xùn)練,以獲取每個(gè)詞的特征向量得到候選 特征集;通過(guò)基于情感詞典或詞性的特征選擇方法從所述候選特征集中根據(jù)上下文結(jié)構(gòu)特 征提取有效特征,以得到訓(xùn)練集;以及根據(jù)所述訓(xùn)練集訓(xùn)練分類模型,以通過(guò)所述分類模型 對(duì)用戶評(píng)論文本進(jìn)行情感分類。
[0008] 根據(jù)本發(fā)明實(shí)施例提出的基于用戶評(píng)論文本的上下文情感分類方法,首先通過(guò)對(duì) 用戶評(píng)論文本進(jìn)行分詞得到候選特征集,其次根據(jù)上下文結(jié)構(gòu)特征從候選集中提取有效特 征,從而訓(xùn)練分類模型,實(shí)現(xiàn)對(duì)用戶評(píng)論文本的情感分類,通過(guò)上下文結(jié)構(gòu)特征提取有效特 征,實(shí)現(xiàn)情感分類,提高了分類準(zhǔn)確度,更好地識(shí)別出文本中用戶的情感傾向,具有時(shí)間成 本低、適用范圍廣、特征篩選準(zhǔn)確等優(yōu)點(diǎn),簡(jiǎn)單方便,更好地滿足用戶的使用需求。
[0009] 另外,根據(jù)本發(fā)明上述實(shí)施例的基于用戶評(píng)論文本的上下文情感分類方法還可以 具有如下附加的技術(shù)特征:
[0010] 進(jìn)一步地,在本發(fā)明的一個(gè)實(shí)施例中,根據(jù)HowNet情感詞典與IAR情感詞典獲取 所述情感詞典。
[0011] 進(jìn)一步地,在本發(fā)明的一個(gè)實(shí)施例中,通過(guò)word2vec對(duì)分詞后的多條用戶評(píng)論文 本進(jìn)行訓(xùn)練以獲得所述候選特征集。
[0012] 進(jìn)一步地,在本發(fā)明的一個(gè)實(shí)施例中,所述分類模型可以為SVMperf分類模型。
[0013] 進(jìn)一步地,在本發(fā)明的一個(gè)實(shí)施例中,所述上下文結(jié)構(gòu)特征包括否定詞特征、程度 詞特征和轉(zhuǎn)折詞特征。
[0014] 本發(fā)明另一方面實(shí)施例提出了一種基于用戶評(píng)論文本的上下文情感分類系統(tǒng),包 括:數(shù)據(jù)獲取模塊,用于從互聯(lián)網(wǎng)上獲取多條用戶評(píng)論文本;分詞模塊,用于對(duì)所述多條用 戶評(píng)論文本進(jìn)行分詞;詞向量訓(xùn)練模塊,用于對(duì)分詞后的多條用戶評(píng)論文本進(jìn)行訓(xùn)練,以獲 取每個(gè)詞的特征向量得到候選特征集;特征選擇模塊,用于通過(guò)基于情感詞典或詞性的特 征選擇方法從所述候選特征集中根據(jù)上下文結(jié)構(gòu)特征提取有效特征,以得到訓(xùn)練集;以及 分類模塊,用于根據(jù)所述訓(xùn)練集訓(xùn)練分類模型,以通過(guò)所述分類模型對(duì)用戶評(píng)論文本進(jìn)行 情感分類。
[0015] 根據(jù)本發(fā)明實(shí)施例提出的基于用戶評(píng)論文本的上下文情感分類系統(tǒng),首先通過(guò)對(duì) 用戶評(píng)論文本進(jìn)行分詞得到候選特征集,其次根據(jù)上下文結(jié)構(gòu)特征從候選集中提取有效特 征,從而訓(xùn)練分類模型,實(shí)現(xiàn)對(duì)用戶評(píng)論文本的情感分類,通過(guò)上下文結(jié)構(gòu)特征提取有效特 征,實(shí)現(xiàn)情感分類,提高了分類準(zhǔn)確度,更好地識(shí)別出文本中用戶的情感傾向,具有時(shí)間成 本低、適用范圍廣、特征篩選準(zhǔn)確等優(yōu)點(diǎn),簡(jiǎn)單方便,更好地滿足用戶的使用需求。
[0016] 另外,根據(jù)本發(fā)明上述實(shí)施例的基于用戶評(píng)論文本的上下文情感分類系統(tǒng)還可以 具有如下附加的技術(shù)特征:
[0017] 進(jìn)一步地,在本發(fā)明的一個(gè)實(shí)施例中,上述系統(tǒng)還包括:獲取模塊,用于根據(jù) HowNet情感詞典與IAR情感詞典獲取所述情感詞典。
[0018] 進(jìn)一步地,在本發(fā)明的一個(gè)實(shí)施例中,所述詞向量訓(xùn)練模塊通過(guò)word2vec對(duì)分詞 后的多條用戶評(píng)論文本進(jìn)行訓(xùn)練以獲得所述候選特征集。
[0019] 進(jìn)一步地,在本發(fā)明的一個(gè)實(shí)施例中,所述分類模型可以為SVMperf分類模型。
[0020] 進(jìn)一步地,在本發(fā)明的一個(gè)實(shí)施例中,所述上下文結(jié)構(gòu)特征包括否定詞特征、程度 詞特征和轉(zhuǎn)折詞特征。
[0021] 本發(fā)明附加的方面和優(yōu)點(diǎn)將在下面的描述中部分給出,部分將從下面的描述中變 得明顯,或通過(guò)本發(fā)明的實(shí)踐了解到。
【附圖說(shuō)明】
[0022] 本發(fā)明的上述和/或附加的方面和優(yōu)點(diǎn)從結(jié)合下面附圖對(duì)實(shí)施例的描述中將變 得明顯和容易理解,其中:
[0023] 圖1為根據(jù)本發(fā)明實(shí)施例的基于用戶評(píng)論文本的上下文情感分類方法的流程圖;
[0024] 圖2為根據(jù)本發(fā)明一個(gè)實(shí)施例的基于用戶評(píng)論文本的上下文情感分類方法的流 程圖;
[0025] 圖3為根據(jù)本發(fā)明一個(gè)實(shí)施例的基于用戶評(píng)論文本的上下文情感分類系統(tǒng)的結(jié) 構(gòu)示意圖;
[0026] 圖4為根據(jù)本發(fā)明一個(gè)具體實(shí)施例的基于用戶評(píng)論文本的上下文情感分類系統(tǒng) 的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0027] 下面詳細(xì)描述本發(fā)明的實(shí)施例,所述實(shí)施例的示例在附圖中示出,其中自始至終 相同或類似的標(biāo)號(hào)表示相同或類似的元件或具有相同或類似功能的元件。下面通過(guò)參考附 圖描述的實(shí)施例是示例性的,旨在用于解釋本發(fā)明,而不能理解為對(duì)本發(fā)明的限制。
[0028] 此外,術(shù)語(yǔ)"第一"、"第二"僅用于描述目的,而不能理解為指示或暗示相對(duì)重要性 或者隱含指明所指示的技術(shù)特征的數(shù)量。由此,限定有"第一"、"第二"的特征可以明示或 者隱含地包括一個(gè)或者更多個(gè)該特征。在本發(fā)明的描述中,"多個(gè)"的含義是兩個(gè)或兩個(gè)以 上,除非另有明確具體的限定。
[0029] 在本發(fā)明中,除非另有明確的規(guī)定和限定,術(shù)語(yǔ)"安裝"、"相連"、"連接"、"固定"等 術(shù)語(yǔ)應(yīng)做廣義理解,例如,可以是固定連接,也可以是可拆卸連接,或一體地連接;可以是機(jī) 械連接,也可以是電連接;可以是直接相連,也可以通過(guò)中間媒介間接相連,可以是兩個(gè)元 件內(nèi)部的連通。對(duì)于本領(lǐng)域的普通技術(shù)人員而言,可以根據(jù)具體情況理解上述術(shù)語(yǔ)在本發(fā) 明中的具體含義。
[0030] 在本發(fā)明中,除非另有明確的規(guī)定和限定,第一特征在第二特征之"上"或之"下" 可以包括第一和第二特征直接接觸,也可以包括第一和第二特征不是直接接觸而是通過(guò)它 們之間的另外的特征接觸。而且,第一特征在第二特征"之上"、"上方"和"上面"包括第一 特征在第二特征正上方和斜上方,或僅僅表示第一特征水平高度高于第二特征。第一特征 在第二特征"之下"、"下方"和"下面"包括第一特征在第二特征正上方和斜上方,或僅僅表 示第一特征水平高度小于第二特征。
[0031] 下面參照附圖描述根據(jù)本發(fā)明實(shí)施例提出的基于用戶評(píng)論文本的上下文情感分 類方法及分類系統(tǒng),首先將參照附圖描述根據(jù)本發(fā)明實(shí)施例提出的基于用戶評(píng)論文本的上 下文情感分類方法。參照?qǐng)D1所示,該方法包括以下步驟:
[0032] S101,從互聯(lián)網(wǎng)上獲取多條用戶評(píng)論文本。
[0033] 在本發(fā)明的一個(gè)實(shí)施例中,參照?qǐng)D2所示,本發(fā)明實(shí)施例主要是從互聯(lián)網(wǎng)上爬取 大量的用戶評(píng)論作為語(yǔ)料,以便進(jìn)行情感分類工作。本發(fā)明實(shí)施例的數(shù)據(jù)主要是通過(guò)JAVA 爬蟲(chóng)程序從中文亞馬遜網(wǎng)站(amazon.cn)上獲取的服裝產(chǎn)品的用戶評(píng)論文本,并保存到數(shù) 據(jù)庫(kù)中。
[0034] S102,對(duì)多條用戶評(píng)論文本進(jìn)行分詞。
[0035] S103,對(duì)分詞后的多條用戶評(píng)論文本進(jìn)行訓(xùn)練,以獲取每個(gè)詞的特征向量得到候 選特征集。
[0036] 進(jìn)一步地,在本發(fā)明的一個(gè)實(shí)施例中,通過(guò)word2vec對(duì)分詞后的多條用戶評(píng)論文 本進(jìn)行訓(xùn)練以獲得候選特征集。
[0037] 具體地,本發(fā)明實(shí)施例利用W〇rd2VeC工具對(duì)分詞后的文本語(yǔ)料進(jìn)行訓(xùn)練,得到每 個(gè)詞的詞向量表示,作為候選特征向量。其中,獲得的詞向量可以很好地提取出蘊(yùn)含在詞之 間的語(yǔ)義特征,為情感分類工作做好鋪墊。
[0038] S104,通過(guò)基于情感詞典或詞性的特征選擇方法從候選特征集中根據(jù)上下文結(jié)構(gòu) 特征提取有效特征,以得到訓(xùn)練集。其中,采用基于情感詞典和基于詞性的特征選擇方法來(lái) 對(duì)候選特征進(jìn)行篩選,只保留對(duì)情感分類工作有價(jià)值的特征。在實(shí)際應(yīng)用中,兩種特征選擇 方法是可選的,可以靈活對(duì)比兩種方法的情感分類結(jié)果。
[0039] 具體地,本發(fā)明實(shí)施例采用基于情感詞典和基于詞性的兩種特征選擇方法從候選 特征集中篩選出有效特征。
[0040] 其中,基于情感詞典的特征選擇方法需要用到已經(jīng)構(gòu)建好的中文領(lǐng)域的情感詞典 來(lái)做特征的篩選。當(dāng)下述的分類模型為SVMperf模型時(shí),為了生成SVMperf模型所支持的 數(shù)據(jù)格式,本發(fā)明實(shí)施例在用W〇rd2vec訓(xùn)練語(yǔ)料庫(kù)獲取詞向量時(shí),將-size參數(shù)設(shè)為1,即 訓(xùn)練得到的模型文件中每個(gè)詞只包含1維詞向量。然后將模型文件與擴(kuò)