本發(fā)明涉及一種自然語言處理與神經(jīng)網(wǎng)絡(luò)技術(shù)領(lǐng)域,尤其是一種融合多特征的雙向循環(huán)神經(jīng)網(wǎng)絡(luò)細(xì)粒度意見挖掘方法。
背景技術(shù):
目前,隨著互聯(lián)網(wǎng)上文本數(shù)據(jù)的不斷增加,對于數(shù)據(jù)的挖掘和分析任務(wù)就顯得非常重要,對于文本挖掘和意見分析領(lǐng)域來說,傳統(tǒng)的方法有基于詞典,基于人工特征模版,還有基于頻繁模式挖掘的方法。這一類方法中主要完成了兩個任務(wù),一是屬性抽取和實體識別,一是情感分析和基于屬性詞的極性分析,對于意見挖掘的相關(guān)研究主要集中在句子或篇章級別的情感分類,用戶更期待細(xì)粒度級別的意見挖掘結(jié)果,現(xiàn)有意見挖掘的主流方法中,利用規(guī)則的抽取方法靈活性和擴(kuò)展性有待提高,而基于隱馬爾科夫模型或條件隨機場(crf)的屬性抽取方法則不能很好的處理長距離情感要素依賴的問題。
現(xiàn)在大部分的研究工作都是在特定條件下的意見分析和情感分類,如給定一個評論文本和一個目標(biāo)詞,分詞目標(biāo)詞在當(dāng)前句子中的情感極性,或者是基于給定評論文本中出現(xiàn)的不同屬性和實體詞,判斷每個實體的情感極性,而能夠完成這個任務(wù)的前提是要有大量標(biāo)記數(shù)據(jù),要對每一條數(shù)據(jù)標(biāo)出目標(biāo)詞或者屬性詞,同時標(biāo)注情感極性,一般屬性詞的抽取模型還要有人工選擇特征和制定模版的過程,這些過程又需要有相關(guān)專業(yè)背景的人才能夠完成,需要消耗大量的人力,而且人工標(biāo)注語料效率低下,并且主要用神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)的方法都是基于詞的表示學(xué)習(xí)作為特征輸入,這樣傳統(tǒng)的語言學(xué)特征如詞性,依存關(guān)系等就會丟失。
技術(shù)實現(xiàn)要素:
針對現(xiàn)有技術(shù)的不足,本發(fā)明提供一種融合多特征的雙向循環(huán)神經(jīng)網(wǎng)絡(luò)細(xì)粒度意見挖掘方法。
本發(fā)明的技術(shù)方案為:一種融合多特征的雙向循環(huán)神經(jīng)網(wǎng)絡(luò)細(xì)粒度意見挖掘方法,其特征在于,包括以下步驟:
s1)、抓取特定網(wǎng)站的評論數(shù)據(jù)作為訓(xùn)練樣本集;
s2)、通過人工標(biāo)注訓(xùn)練樣本集中每條評論數(shù)據(jù)中所需要的屬性或?qū)嶓w,根據(jù)人工標(biāo)注結(jié)果使用實體標(biāo)記方法(bio)標(biāo)記每條評論數(shù)據(jù)的屬性或?qū)嶓w后,并進(jìn)行情感極性標(biāo)注,即(b1,i1,o)表示評論數(shù)據(jù)的情感極性為正面,(b2,i2,o)表示評論數(shù)據(jù)的情感極性為負(fù)面,(b3,i3,o)表示評論數(shù)據(jù)的情感極性為中性,從而得到評論數(shù)據(jù)中每個詞的7個情感極性標(biāo)記分類結(jié)果,即
s3)、對訓(xùn)練樣本集進(jìn)行分詞,詞性標(biāo)注和依存關(guān)系標(biāo)注等預(yù)處理;
s4)、選取一個漢語的維基百科語料庫,并對其進(jìn)行分詞,詞性標(biāo)注和依存關(guān)系標(biāo)注等預(yù)處理,使用word2vec或glove模型算法,輸入預(yù)處理后的訓(xùn)練樣本集與預(yù)處理后的維基百科語料庫,訓(xùn)練輸出評論數(shù)據(jù)與維基百科語料庫中每個詞的詞向量vec_model;
s5)、將預(yù)處理后的訓(xùn)練樣本集中的每一條評論數(shù)據(jù)轉(zhuǎn)化為序列x={x1,x2,…,xn},其中,xi表示該條評論數(shù)據(jù)的第i個詞,并將序列x={x1,x2,…,xn}對應(yīng)的詞性標(biāo)注(part-of-speech)序列記為p={p1,p2,…,pn},其中,pi表示xi的詞性,以及對應(yīng)的依存關(guān)系標(biāo)注(dependencyrelation)序列記為d={d1,d2,…,dn},依存關(guān)系對記為r={r1,r2,…,rn},其中,ri表示任意2個詞的依存關(guān)系,
對于每一條評論數(shù)據(jù),在t時刻,任意詞xt、詞性標(biāo)注dt、依存關(guān)系標(biāo)注pt、依存關(guān)系對rt四個特征向量化后融合拼接得到向量
s6)、將向量
將前、后隱藏層
yt是一個緯度為7的概率分布向量,即
其中,n為詞向量緯度,n1為依存關(guān)系種類個數(shù),n2為詞性標(biāo)簽種類個數(shù),
s7)、將預(yù)測值yi與真實值
其中,i表示每條評論數(shù)據(jù)中每個詞的索引,j表示每條評論數(shù)據(jù)的7類情感極性標(biāo)記分類的索引;
并通過梯度下降算法更新網(wǎng)絡(luò)中的權(quán)重矩陣
s8)、獲取新的評論數(shù)據(jù)作為測試語料集,并對測試語料集按照步驟s2-s5進(jìn)行相應(yīng)的處理后輸入步驟s7)中訓(xùn)練好的雙向循環(huán)神經(jīng)網(wǎng)絡(luò)序列標(biāo)注模型,對測試語料集進(jìn)行情感極性分類。
上述技術(shù)方案中,步驟s5)中,在t時刻,詞性標(biāo)注dt、依存關(guān)系標(biāo)注pt向量化采用one-hot模型,若依存關(guān)系對rt=(xt,xj),取xt的詞向量
本發(fā)明的有益效果為:通過一個模型的訓(xùn)練同時抽取細(xì)粒度意見挖掘中屬性詞以及情感極性判斷,不同于傳統(tǒng)的需要兩階段分開訓(xùn)練,先訓(xùn)練一個屬性詞抽取模型,抽取出屬性詞后在去訓(xùn)練一個基于屬性詞的情感分類模型,從而進(jìn)一步節(jié)約的大量的模型訓(xùn)練時間,提高訓(xùn)練效率,而且,無需專業(yè)技術(shù)人員對屬性詞進(jìn)行人工抽取,從而節(jié)約了大量的人工成本以及大量的工作量,本發(fā)明簡化了特征提取和模型構(gòu)建的任務(wù),進(jìn)一步提高了意見挖掘和情感分析任務(wù)的效率,并通過加入評論數(shù)據(jù)的詞性、依存關(guān)系等語言學(xué)信息,相比單一的詞向量,可以更好的學(xué)習(xí)評論數(shù)據(jù)文本中上下文的語義信息;另外,可以通過用多種數(shù)據(jù)源訓(xùn)練模型,從而可以完成跨領(lǐng)域的細(xì)粒度意見分析,從而解決長距離情感要素依賴的問題。
附圖說明
圖1為本發(fā)明的流程示意圖;
圖2為本發(fā)明雙向循環(huán)神經(jīng)網(wǎng)絡(luò)序列標(biāo)注的模型圖。
具體實施方式
下面結(jié)合附圖對本發(fā)明的具體實施方式作進(jìn)一步說明:
如圖1和圖2所示,一種融合多特征的雙向循環(huán)神經(jīng)網(wǎng)絡(luò)細(xì)粒度意見挖掘方法,其特征在于,包括以下步驟:
s1)、抓取特定網(wǎng)站的評論數(shù)據(jù)作為訓(xùn)練樣本集;
s2)、通過人工標(biāo)注訓(xùn)練樣本集的每條評論數(shù)據(jù)中所需要的屬性或?qū)嶓w,根據(jù)人工標(biāo)注結(jié)果使用實體標(biāo)記方法(bio)標(biāo)記每條評論數(shù)據(jù)的屬性或?qū)嶓w后,并進(jìn)行情感極性標(biāo)注,即(b1,i1,o)表示評論數(shù)據(jù)的情感極性為正面,(b2,i2,o)表示評論數(shù)據(jù)的情感極性為負(fù)面,(b3,i3,o)表示評論數(shù)據(jù)的情感極性為中性,從而得到評論數(shù)據(jù)中每個詞的7個情感極性標(biāo)記分類結(jié)果,即
s3)、對訓(xùn)練樣本集進(jìn)行分詞,詞性標(biāo)注和依存關(guān)系標(biāo)注等預(yù)處理;
s4)、選取一個漢語的維基百科語料庫,并對其進(jìn)行分詞,詞性標(biāo)注和依存關(guān)系標(biāo)注等預(yù)處理,使用word2vec或glove模型算法,輸入預(yù)處理后的訓(xùn)練樣本集與預(yù)處理后的維基百科語料庫,訓(xùn)練輸出評論數(shù)據(jù)與維基百科語料庫中每個詞的詞向量vec_model;
s5)、將預(yù)處理后的訓(xùn)練樣本集中的每一條評論數(shù)據(jù)轉(zhuǎn)化為序列x={x1,x2,…,xn},其中,xi表示該條評論數(shù)據(jù)的第i個詞,并將序列x={x1,x2,…,xn}對應(yīng)的詞性標(biāo)注(part-of-speech)序列記為p={p1,p2,…,pn},其中,pi表示xi的詞性,以及對應(yīng)的依存關(guān)系標(biāo)注(dependencyrelation)序列記為d={d1,d2,…,dn},依存關(guān)系對記為r={r1,r2,…,rn},其中,ri表示任意2個詞的依存關(guān)系,
對于每一條評論數(shù)據(jù),在t時刻,任意詞xt、詞性標(biāo)注pt、依存關(guān)系標(biāo)注dt、依存關(guān)系對rt四個特征向量化后融合拼接得到向量
s6)、將向量
將前、后隱藏層
其中,n為詞向量緯度,n1為依存關(guān)系種類個數(shù),n2為詞性標(biāo)簽種類個數(shù),
s7)、將預(yù)測值yi與真實值
其中,i表示每條評論數(shù)據(jù)中每個詞的索引,j表示每條評論數(shù)據(jù)的7類情感極性標(biāo)記分類的索引;
并通過梯度下降算法更新網(wǎng)絡(luò)中的權(quán)重矩陣
s8)、獲取新的評論數(shù)據(jù)作為測試語料集,并對測試語料集按照步驟s2-s5進(jìn)行相應(yīng)的處理后輸入步驟s7)中訓(xùn)練好的雙向循環(huán)神經(jīng)網(wǎng)絡(luò)序列標(biāo)注模型,對測試語料集進(jìn)行情感極性分類。
上述技術(shù)方案中,步驟s5)中,在t時刻,詞性標(biāo)注dt、依存關(guān)系標(biāo)注pt向量化采用one-hot模型,若依存關(guān)系對rt=(xt,xj),取xt的詞向量
上述實施例和說明書中描述的只是說明本發(fā)明的原理和最佳實施例,在不脫離本發(fā)明精神和范圍的前提下,本發(fā)明還會有各種變化和改進(jìn),這些變化和改進(jìn)都落入要求保護(hù)的本發(fā)明范圍內(nèi)。