一種融合多特征的雙向循環(huán)神經(jīng)網(wǎng)絡(luò)細(xì)粒度意見挖掘方法與流程

文檔序號：11250863閱讀：1331來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種融合多特征的雙向循環(huán)神經(jīng)網(wǎng)絡(luò)細(xì)粒度意見挖掘方法與流程

本發(fā)明涉及一種自然語言處理與神經(jīng)網(wǎng)絡(luò)技術(shù)領(lǐng)域，尤其是一種融合多特征的雙向循環(huán)神經(jīng)網(wǎng)絡(luò)細(xì)粒度意見挖掘方法。

背景技術(shù)：

目前，隨著互聯(lián)網(wǎng)上文本數(shù)據(jù)的不斷增加，對于數(shù)據(jù)的挖掘和分析任務(wù)就顯得非常重要，對于文本挖掘和意見分析領(lǐng)域來說，傳統(tǒng)的方法有基于詞典，基于人工特征模版，還有基于頻繁模式挖掘的方法。這一類方法中主要完成了兩個任務(wù)，一是屬性抽取和實體識別，一是情感分析和基于屬性詞的極性分析，對于意見挖掘的相關(guān)研究主要集中在句子或篇章級別的情感分類，用戶更期待細(xì)粒度級別的意見挖掘結(jié)果，現(xiàn)有意見挖掘的主流方法中，利用規(guī)則的抽取方法靈活性和擴(kuò)展性有待提高，而基于隱馬爾科夫模型或條件隨機場(crf)的屬性抽取方法則不能很好的處理長距離情感要素依賴的問題。

現(xiàn)在大部分的研究工作都是在特定條件下的意見分析和情感分類，如給定一個評論文本和一個目標(biāo)詞，分詞目標(biāo)詞在當(dāng)前句子中的情感極性，或者是基于給定評論文本中出現(xiàn)的不同屬性和實體詞，判斷每個實體的情感極性，而能夠完成這個任務(wù)的前提是要有大量標(biāo)記數(shù)據(jù)，要對每一條數(shù)據(jù)標(biāo)出目標(biāo)詞或者屬性詞，同時標(biāo)注情感極性，一般屬性詞的抽取模型還要有人工選擇特征和制定模版的過程，這些過程又需要有相關(guān)專業(yè)背景的人才能夠完成，需要消耗大量的人力，而且人工標(biāo)注語料效率低下，并且主要用神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)的方法都是基于詞的表示學(xué)習(xí)作為特征輸入，這樣傳統(tǒng)的語言學(xué)特征如詞性，依存關(guān)系等就會丟失。

技術(shù)實現(xiàn)要素：

針對現(xiàn)有技術(shù)的不足，本發(fā)明提供一種融合多特征的雙向循環(huán)神經(jīng)網(wǎng)絡(luò)細(xì)粒度意見挖掘方法。

本發(fā)明的技術(shù)方案為：一種融合多特征的雙向循環(huán)神經(jīng)網(wǎng)絡(luò)細(xì)粒度意見挖掘方法，其特征在于，包括以下步驟：

s1)、抓取特定網(wǎng)站的評論數(shù)據(jù)作為訓(xùn)練樣本集；

s2)、通過人工標(biāo)注訓(xùn)練樣本集中每條評論數(shù)據(jù)中所需要的屬性或?qū)嶓w，根據(jù)人工標(biāo)注結(jié)果使用實體標(biāo)記方法(bio)標(biāo)記每條評論數(shù)據(jù)的屬性或?qū)嶓w后，并進(jìn)行情感極性標(biāo)注，即(b1,i1,o)表示評論數(shù)據(jù)的情感極性為正面，(b2,i2,o)表示評論數(shù)據(jù)的情感極性為負(fù)面，(b3,i3,o)表示評論數(shù)據(jù)的情感極性為中性，從而得到評論數(shù)據(jù)中每個詞的7個情感極性標(biāo)記分類結(jié)果，即其中，b、i、o分別表示實體的開始、內(nèi)部、外部；

s3)、對訓(xùn)練樣本集進(jìn)行分詞，詞性標(biāo)注和依存關(guān)系標(biāo)注等預(yù)處理；

s4)、選取一個漢語的維基百科語料庫，并對其進(jìn)行分詞，詞性標(biāo)注和依存關(guān)系標(biāo)注等預(yù)處理，使用word2vec或glove模型算法，輸入預(yù)處理后的訓(xùn)練樣本集與預(yù)處理后的維基百科語料庫，訓(xùn)練輸出評論數(shù)據(jù)與維基百科語料庫中每個詞的詞向量vec_model；

s5)、將預(yù)處理后的訓(xùn)練樣本集中的每一條評論數(shù)據(jù)轉(zhuǎn)化為序列x＝{x1,x2,…,xn}，其中，xi表示該條評論數(shù)據(jù)的第i個詞，并將序列x＝{x1,x2,…,xn}對應(yīng)的詞性標(biāo)注(part-of-speech)序列記為p＝{p1,p2,…,pn}，其中，pi表示xi的詞性，以及對應(yīng)的依存關(guān)系標(biāo)注(dependencyrelation)序列記為d＝{d1,d2,…,dn}，依存關(guān)系對記為r＝{r1,r2,…,rn}，其中，ri表示任意2個詞的依存關(guān)系，

對于每一條評論數(shù)據(jù)，在t時刻，任意詞xt、詞性標(biāo)注dt、依存關(guān)系標(biāo)注pt、依存關(guān)系對rt四個特征向量化后融合拼接得到向量

s6)、將向量輸入雙向循環(huán)神經(jīng)網(wǎng)絡(luò)構(gòu)建得到雙向循環(huán)神經(jīng)網(wǎng)絡(luò)序列標(biāo)注模型，其網(wǎng)絡(luò)的前后向隱藏層的循環(huán)計算為：

將前、后隱藏層接入到輸出層，最后接一個激活函數(shù)得到預(yù)測值yt，這里輸出的

yt是一個緯度為7的概率分布向量，即

其中，n為詞向量緯度，n1為依存關(guān)系種類個數(shù)，n2為詞性標(biāo)簽種類個數(shù)，u為權(quán)重矩陣，c為偏置，

s7)、將預(yù)測值yi與真實值通過計算交叉熵作為損失函數(shù)loss，從而最小化損失函數(shù)值，其計算式為：

其中，i表示每條評論數(shù)據(jù)中每個詞的索引，j表示每條評論數(shù)據(jù)的7類情感極性標(biāo)記分類的索引；

并通過梯度下降算法更新網(wǎng)絡(luò)中的權(quán)重矩陣u和偏置c，然后依據(jù)更新后的權(quán)重矩陣u和偏置c重新計算上述損失函數(shù)loss的值，重復(fù)迭代多次直至損失函數(shù)loss的值不再減小，從而得到訓(xùn)練好的雙向循環(huán)神經(jīng)網(wǎng)絡(luò)細(xì)粒度意見挖掘模型；

s8)、獲取新的評論數(shù)據(jù)作為測試語料集，并對測試語料集按照步驟s2-s5進(jìn)行相應(yīng)的處理后輸入步驟s7)中訓(xùn)練好的雙向循環(huán)神經(jīng)網(wǎng)絡(luò)序列標(biāo)注模型，對測試語料集進(jìn)行情感極性分類。

上述技術(shù)方案中，步驟s5)中，在t時刻，詞性標(biāo)注dt、依存關(guān)系標(biāo)注pt向量化采用one-hot模型，若依存關(guān)系對rt＝(xt,xj)，取xt的詞向量

本發(fā)明的有益效果為：通過一個模型的訓(xùn)練同時抽取細(xì)粒度意見挖掘中屬性詞以及情感極性判斷，不同于傳統(tǒng)的需要兩階段分開訓(xùn)練，先訓(xùn)練一個屬性詞抽取模型，抽取出屬性詞后在去訓(xùn)練一個基于屬性詞的情感分類模型，從而進(jìn)一步節(jié)約的大量的模型訓(xùn)練時間，提高訓(xùn)練效率，而且，無需專業(yè)技術(shù)人員對屬性詞進(jìn)行人工抽取，從而節(jié)約了大量的人工成本以及大量的工作量，本發(fā)明簡化了特征提取和模型構(gòu)建的任務(wù)，進(jìn)一步提高了意見挖掘和情感分析任務(wù)的效率，并通過加入評論數(shù)據(jù)的詞性、依存關(guān)系等語言學(xué)信息，相比單一的詞向量，可以更好的學(xué)習(xí)評論數(shù)據(jù)文本中上下文的語義信息；另外，可以通過用多種數(shù)據(jù)源訓(xùn)練模型，從而可以完成跨領(lǐng)域的細(xì)粒度意見分析，從而解決長距離情感要素依賴的問題。

附圖說明

圖1為本發(fā)明的流程示意圖；

圖2為本發(fā)明雙向循環(huán)神經(jīng)網(wǎng)絡(luò)序列標(biāo)注的模型圖。

具體實施方式

下面結(jié)合附圖對本發(fā)明的具體實施方式作進(jìn)一步說明：

如圖1和圖2所示，一種融合多特征的雙向循環(huán)神經(jīng)網(wǎng)絡(luò)細(xì)粒度意見挖掘方法，其特征在于，包括以下步驟：

s1)、抓取特定網(wǎng)站的評論數(shù)據(jù)作為訓(xùn)練樣本集；

s2)、通過人工標(biāo)注訓(xùn)練樣本集的每條評論數(shù)據(jù)中所需要的屬性或?qū)嶓w，根據(jù)人工標(biāo)注結(jié)果使用實體標(biāo)記方法(bio)標(biāo)記每條評論數(shù)據(jù)的屬性或?qū)嶓w后，并進(jìn)行情感極性標(biāo)注，即(b1,i1,o)表示評論數(shù)據(jù)的情感極性為正面，(b2,i2,o)表示評論數(shù)據(jù)的情感極性為負(fù)面，(b3,i3,o)表示評論數(shù)據(jù)的情感極性為中性，從而得到評論數(shù)據(jù)中每個詞的7個情感極性標(biāo)記分類結(jié)果，即其中，b、i、o分別表示實體的開始、內(nèi)部、外部；

s3)、對訓(xùn)練樣本集進(jìn)行分詞，詞性標(biāo)注和依存關(guān)系標(biāo)注等預(yù)處理；

對于每一條評論數(shù)據(jù)，在t時刻，任意詞xt、詞性標(biāo)注pt、依存關(guān)系標(biāo)注dt、依存關(guān)系對rt四個特征向量化后融合拼接得到向量

將前、后隱藏層接入到輸出層，最后接一個激活函數(shù)得到預(yù)測值yt，這里輸出的yt是一個緯度為7的概率分布向量，即

其中，n為詞向量緯度，n1為依存關(guān)系種類個數(shù)，n2為詞性標(biāo)簽種類個數(shù)，u為權(quán)重矩陣，c為偏置，

s7)、將預(yù)測值yi與真實值通過計算交叉熵作為損失函數(shù)loss，從而最小化損失函數(shù)值，其計算式為：

其中，i表示每條評論數(shù)據(jù)中每個詞的索引，j表示每條評論數(shù)據(jù)的7類情感極性標(biāo)記分類的索引；

上述實施例和說明書中描述的只是說明本發(fā)明的原理和最佳實施例，在不脫離本發(fā)明精神和范圍的前提下，本發(fā)明還會有各種變化和改進(jìn)，這些變化和改進(jìn)都落入要求保護(hù)的本發(fā)明范圍內(nèi)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：郝志峰;黃浩;蔡瑞初;溫雯;王麗娟;蔡曉鳳;陳炳豐
技術(shù)所有人：廣東工業(yè)大學(xué)
我是此專利的發(fā)明人

上一篇：一種醫(yī)療文本數(shù)據(jù)的命名實體識別方法與流程
上一篇：一種LDA并行優(yōu)化方法與流程

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

卷積神經(jīng)網(wǎng)絡(luò)特征提取相關(guān)技術(shù)

神經(jīng)網(wǎng)絡(luò)用于特征提取相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種融合多特征的雙向循環(huán)神經(jīng)網(wǎng)絡(luò)細(xì)粒度意見挖掘方法與流程