基于概念代數(shù)的微博文本特征擴(kuò)展方法與流程

文檔序號(hào)：11829920閱讀：397來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明屬于自然語言處理領(lǐng)域，涉及一種基于概念代數(shù)的微博文本特征擴(kuò)展方法。

背景技術(shù)：

隨著社交網(wǎng)絡(luò)的出現(xiàn)，微博作為一種新的文化滲透到網(wǎng)絡(luò)中來。微博傳播迅速，極大的方便了人們的交流，同時(shí)特對自然語言處理提出了新的挑戰(zhàn)。微博文本與傳統(tǒng)文本相比，一方面，微博文本篇幅較短，包含的詞語個(gè)數(shù)較少，進(jìn)而詞切分帶來的錯(cuò)誤對微博文本處理的影響變得更為明顯。另一方面，微博文本特征詞少導(dǎo)致了微博文本的表示能力較弱，微博文本在使用向量空間模型(VSM)做文本表示時(shí)的高維度高稀疏性使得傳統(tǒng)文本處理的性能下降。因此，對微博進(jìn)行特征擴(kuò)展，增加微博文本表示的語義具有十分重要的意義。

技術(shù)實(shí)現(xiàn)要素：

為了解決微博文本特征稀疏的問題，并且找到一種特征擴(kuò)展后的微博文本表示方法，本發(fā)明提出了一種基于概念代數(shù)的微博文本特征擴(kuò)展方法。

本發(fā)明主要利用了概念代數(shù)和維基百科進(jìn)行微博文本特征擴(kuò)展方法的設(shè)計(jì)。

概念代數(shù)可以表示為一個(gè)5元組：

C@(O，A，R^c，Rⁱ，R^o)

其中，O為對象集，A為屬性集，R^c為O與A的關(guān)系集，Rⁱ為A的輸出關(guān)系，R^o為A的輸出關(guān)系。根據(jù)Wang等人的研究，相比于傳統(tǒng)的文本表示，概念代數(shù)是基于關(guān)鍵詞的語義表示，能夠充分的表示同一關(guān)鍵詞在不同語境中所表達(dá)的不同的含義，是一種有效的知識(shí)表示方法。在本發(fā)明中，將微博文本原特征看做概念代數(shù)的對象集O，微博文本特征的擴(kuò)展信息作為概念代數(shù)的屬性集A、輸入關(guān)系Rⁱ和輸出關(guān)系R^o。

維基百科在本發(fā)明中起到輔助作用，作為微博文本特征的外部知識(shí)庫，根據(jù)盛志超，汪洋等人的研究，維基百科中的頁面網(wǎng)絡(luò)和類別網(wǎng)絡(luò)包含豐富的語義信息，可以利用這些語義信息生成微博文本特征的擴(kuò)展特征。由于維基百科中的頁面網(wǎng)絡(luò)中存在入度節(jié)點(diǎn)和出度節(jié)點(diǎn)，聯(lián)想到上述概念代數(shù)的結(jié)構(gòu)特性，維基百科作為知識(shí)庫可以有效的與概念代數(shù)相結(jié)合，有利于概念代數(shù)中的屬性集A、輸入關(guān)系Rⁱ和輸出關(guān)系R^o的構(gòu)建。

本發(fā)明為了實(shí)現(xiàn)上述目的采用的技術(shù)方案如下：

1)構(gòu)建維基百科的頁面網(wǎng)絡(luò)和類別網(wǎng)絡(luò)信息存儲(chǔ)到數(shù)據(jù)庫中，主要包括數(shù)據(jù)信息為：頁面信息(Page)、頁面網(wǎng)絡(luò)(pagelink)、類別網(wǎng)絡(luò)(category)和重定向頁面(redirect)。

2)微博文本預(yù)處理，主要為微博文本內(nèi)容擴(kuò)充和詞義糾正。其中文本內(nèi)容擴(kuò)充利用微博的評(píng)論信息，采用了簡單詞共現(xiàn)方法挑選有價(jià)值的微博評(píng)論信息；詞義糾正利用維基百科的重定向頁面(redirect)對微博中的縮寫進(jìn)行擴(kuò)展，生成維基百科對應(yīng)的概念詞條。

3)基于概念代數(shù)的微博文本特征的屬性集(A)構(gòu)建，利用維基百科的類別網(wǎng)絡(luò)計(jì)算微博文本特征與維基百科解釋頁面對應(yīng)每個(gè)概念的相關(guān)度，選擇相關(guān)度較大的解釋頁面中的概念作為微博文本特征的屬性集A，相關(guān)度計(jì)算公式為：

$<mrow> <mi>Rel</mi> <mrow> <mo>(</mo> <mi>a</mi> <mo>,</mo> <mi>b</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>log</mi> <mrow> <mo>(</mo> <mo>|</mo> <msub> <mi>F</mi> <mi>a</mi> </msub> <mo>∩</mo> <msub> <mi>F</mi> <mi>b</mi> </msub> <mo>|</mo> <mo>)</mo> </mrow> <mo>+</mo> <mfrac> <mrow> <munderover> <mi>Σ</mi> <mi>i</mi> <mi>n</mi> </munderover> <mi>abs</mi> <mrow> <mo>(</mo> <msub> <mi>des</mi> <mi>a</mi> </msub> <mo>-</mo> <msub> <mi>des</mi> <mi>b</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <munderover> <mi>Σ</mi> <mi>i</mi> <mi>n</mi> </munderover> <msub> <mi>des</mi> <mi>a</mi> </msub> <mo>+</mo> <msub> <mi>des</mi> <mi>b</mi> </msub> </mrow> </mfrac> </mrow>$

在此公式中主要考慮：在a，b在維基百科類別網(wǎng)絡(luò)上的所有公共祖先節(jié)點(diǎn)的數(shù)目，為公式的第一部分；概念a和概念b在維基百科類別網(wǎng)絡(luò)所有公共路勁的長度，在維基百科類別網(wǎng)絡(luò)上的距離，距離越大則表示其相關(guān)程度越低；概念a和概念b是否在維基百科類別網(wǎng)的同一層上。若差值等于0，則表示概念a和概念b在維基百科類別網(wǎng)絡(luò)的同一層上，那么其相關(guān)度相對不在同一層上的概念較高。

4)構(gòu)建概念代數(shù)的微博文本特征的輸入關(guān)系Rⁱ和輸出關(guān)系R^o，利用維基百科頁面網(wǎng)絡(luò)(pagelink)中的入度節(jié)點(diǎn)和出度節(jié)點(diǎn)，對每個(gè)微博文本特征和其對應(yīng)的屬性集生成輸入關(guān)系Rⁱ和輸出關(guān)系R^o

5)生成基于概念代數(shù)的微博文本特征擴(kuò)展后的微博文本特征表示形式。

本發(fā)明的積極進(jìn)步效果在于：提出了一種基于概念代數(shù)的微博文本特征擴(kuò)展方法，引入維基百科作為知識(shí)庫，使得微博文本的特征擴(kuò)展具有有效知識(shí)庫的支持，實(shí)現(xiàn)了微博文本特征的語義擴(kuò)展，同時(shí)以概念代數(shù)作為微博文本表示特征擴(kuò)展后的形式克服了傳統(tǒng)向量空間模型(VSM)文本表示缺乏層次性的不足。

附圖說明

圖1為基于概念代數(shù)微博文本特征擴(kuò)展方法的實(shí)現(xiàn)框架

圖2為基于概念代數(shù)微博文本特征擴(kuò)展方法的數(shù)據(jù)流程圖

具體實(shí)施方式

下面通過實(shí)施例的方式進(jìn)一步說明本發(fā)明，但并不因此將本發(fā)明限制在所述的實(shí)施例范圍之中。

在實(shí)施例中主要的微博文本來源為新浪微博，通過新浪微博提供的API下載微博原文和微博原文的評(píng)論信息。

如圖1所示，本發(fā)明的基于概念代數(shù)的微博文本特征擴(kuò)展方法主要包括以下幾個(gè)步驟：

步驟1、維基百科知識(shí)庫信息預(yù)處理，將維基百科中的相關(guān)信息存儲(chǔ)到數(shù)據(jù)庫表格中，方便以后信息查詢。

步驟2、微博文本預(yù)處理，對微博文本內(nèi)容進(jìn)行擴(kuò)充，以及分詞操作，進(jìn)行必要的詞以糾正操作。

步驟3、基于概念代數(shù)的微博文本特征的屬性集構(gòu)建，利用維基百科的類別網(wǎng)信息，進(jìn)行文本特征與維基百科的解釋信息的相關(guān)度計(jì)算，選擇相關(guān)度較大的解釋信息作為微博文本特征的屬性集。

步驟4、基于概念代數(shù)的微博文本特征的輸入關(guān)系和輸出關(guān)系構(gòu)建，利用維基百科的頁面網(wǎng)信息，查詢文本特征及其屬性集在頁面網(wǎng)中的出度節(jié)點(diǎn)和入度節(jié)點(diǎn)作為微博文本特征的輸入關(guān)系和輸出關(guān)系。

步驟5、生成微博文本的概念代數(shù)表示形式，將步驟3和步驟4產(chǎn)生的屬性集、輸入關(guān)系和輸出關(guān)系進(jìn)行組織表示，以XML文件存儲(chǔ)。

本發(fā)明的具體算法流程如圖2所示：

1)輸入微博文本，并進(jìn)行分詞操作生成特征集C(C1，C2........Cn)。

2)采用詞共現(xiàn)方法逐條判斷微博文本的評(píng)論信息是否存在于微博文本相同的詞語，若存在，則評(píng)論信息添加到微博文本特征集C中。否則，處理下一條評(píng)論信息。若評(píng)論信息已經(jīng)處理完，則跳轉(zhuǎn)到步驟3

3)對每個(gè)微博文本特征Ci查詢維基百科page信息，找到其對應(yīng)的解釋信息，并利用維基百科的類別網(wǎng)絡(luò)(category)逐個(gè)相關(guān)度計(jì)算，選擇維基百科解釋信息，構(gòu)建文本特征Ci屬性集，并將生成的屬性集存儲(chǔ)在中間文件中。

4)對文本特征Ci對應(yīng)的屬性集中的每個(gè)屬性A查詢維基百科的頁面網(wǎng)絡(luò)(pagelink)中的入度節(jié)點(diǎn)和出度節(jié)點(diǎn)作為輸入關(guān)系和輸出關(guān)系，并存儲(chǔ)到步驟3的中間文件中。

5)判斷微博文本特征集C是否處理結(jié)束，若是，則轉(zhuǎn)到步驟6，否則，轉(zhuǎn)到步驟3

6)生成特征擴(kuò)展后的微博文本的概念代數(shù)表示形式，并且以XML的形式保存。

通過上述算法便完成了對一篇微博文本的特征擴(kuò)展，并且實(shí)現(xiàn)了微博文本的新的表示形式，豐富了微博文本的語義信息，這樣有利于對微博文本的后續(xù)處理，如文本分類、輿情分析和情感分析等。

雖然以上描述了本發(fā)明的具體實(shí)施方式，但是本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解，這些僅是舉例說明，本發(fā)明的保護(hù)范圍是所附權(quán)利要求書限定的。本領(lǐng)域的技術(shù)人員在不背離本發(fā)明的原理和實(shí)質(zhì)的前提下，可以對這些實(shí)施方式做出多種變更或修改，但這些變更或修改均落入本發(fā)明的保護(hù)范圍。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：吳善鵬;葉飛躍;
技術(shù)所有人：吳善鵬;葉飛躍;
我是此專利的發(fā)明人

上一篇：一種方便出料的膠囊排列盤的制作方法與工藝
上一篇：防水覆膜的紙質(zhì)托盤的制作方法與工藝

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

基于概念代數(shù)的微博文本特征擴(kuò)展方法與流程