本發(fā)明屬于自然語言處理領(lǐng)域,涉及一種基于概念代數(shù)的微博文本特征擴(kuò)展方法。
背景技術(shù):
隨著社交網(wǎng)絡(luò)的出現(xiàn),微博作為一種新的文化滲透到網(wǎng)絡(luò)中來。微博傳播迅速,極大的方便了人們的交流,同時(shí)特對自然語言處理提出了新的挑戰(zhàn)。微博文本與傳統(tǒng)文本相比,一方面,微博文本篇幅較短,包含的詞語個(gè)數(shù)較少,進(jìn)而詞切分帶來的錯(cuò)誤對微博文本處理的影響變得更為明顯。另一方面,微博文本特征詞少導(dǎo)致了微博文本的表示能力較弱,微博文本在使用向量空間模型(VSM)做文本表示時(shí)的高維度高稀疏性使得傳統(tǒng)文本處理的性能下降。因此,對微博進(jìn)行特征擴(kuò)展,增加微博文本表示的語義具有十分重要的意義。
技術(shù)實(shí)現(xiàn)要素:
為了解決微博文本特征稀疏的問題,并且找到一種特征擴(kuò)展后的微博文本表示方法,本發(fā)明提出了一種基于概念代數(shù)的微博文本特征擴(kuò)展方法。
本發(fā)明主要利用了概念代數(shù)和維基百科進(jìn)行微博文本特征擴(kuò)展方法的設(shè)計(jì)。
概念代數(shù)可以表示為一個(gè)5元組:
C@(O,A,Rc,Ri,Ro)
其中,O為對象集,A為屬性集,Rc為O與A的關(guān)系集,Ri為A的輸出關(guān)系,Ro為A的輸出關(guān)系。根據(jù)Wang等人的研究,相比于傳統(tǒng)的文本表示,概念代數(shù)是基于關(guān)鍵詞的語義表示,能夠充分的表示同一關(guān)鍵詞在不同語境中所表達(dá)的不同的含義,是一種有效的知識(shí)表示方法。在本發(fā)明中,將微博文本原特征看做概念代數(shù)的對象集O,微博文本特征的擴(kuò)展信息作為概念代數(shù)的屬性集A、輸入關(guān)系Ri和輸出關(guān)系Ro。
維基百科在本發(fā)明中起到輔助作用,作為微博文本特征的外部知識(shí)庫,根據(jù)盛志超,汪洋等人的研究,維基百科中的頁面網(wǎng)絡(luò)和類別網(wǎng)絡(luò)包含豐富的語義信息,可以利用這些語義信息生成微博文本特征的擴(kuò)展特征。由于維基百科中的頁面網(wǎng)絡(luò)中存在入度節(jié)點(diǎn)和出度節(jié)點(diǎn),聯(lián)想到上述概念代數(shù)的結(jié)構(gòu)特性,維基百科作為知識(shí)庫可以有效的與概念代數(shù)相結(jié)合,有利于概念代數(shù)中的屬性集A、輸入關(guān)系Ri和輸出關(guān)系Ro的構(gòu)建。
本發(fā)明為了實(shí)現(xiàn)上述目的采用的技術(shù)方案如下:
1)構(gòu)建維基百科的頁面網(wǎng)絡(luò)和類別網(wǎng)絡(luò)信息存儲(chǔ)到數(shù)據(jù)庫中,主要包括數(shù)據(jù)信息為:頁面信息(Page)、頁面網(wǎng)絡(luò)(pagelink)、類別網(wǎng)絡(luò)(category)和重定向頁面(redirect)。
2)微博文本預(yù)處理,主要為微博文本內(nèi)容擴(kuò)充和詞義糾正。其中文本內(nèi)容擴(kuò)充利用微博的評(píng)論信息,采用了簡單詞共現(xiàn)方法挑選有價(jià)值的微博評(píng)論信息;詞義糾正利用維基百科的重定向頁面(redirect)對微博中的縮寫進(jìn)行擴(kuò)展,生成維基百科對應(yīng)的概念詞條。
3)基于概念代數(shù)的微博文本特征的屬性集(A)構(gòu)建,利用維基百科的類別網(wǎng)絡(luò)計(jì)算微博文本特征與維基百科解釋頁面對應(yīng)每個(gè)概念的相關(guān)度,選擇相關(guān)度較大的解釋頁面中的概念作為微博文本特征的屬性集A,相關(guān)度計(jì)算公式為:
在此公式中主要考慮:在a,b在維基百科類別網(wǎng)絡(luò)上的所有公共祖先節(jié)點(diǎn)的數(shù)目,為公式的第一部分;概念a和概念b在維基百科類別網(wǎng)絡(luò)所有公共路勁的長度,在維基百科類別網(wǎng)絡(luò)上的距離,距離越大則表示其相關(guān)程度越低;概念a和概念b是否在維基百科類別網(wǎng)的同一層上。若差值等于0,則表示概念a和概念b在維基百科類別網(wǎng)絡(luò)的同一層上,那么其相關(guān)度相對不在同一層上的概念較 高。
4)構(gòu)建概念代數(shù)的微博文本特征的輸入關(guān)系Ri和輸出關(guān)系Ro,利用維基百科頁面網(wǎng)絡(luò)(pagelink)中的入度節(jié)點(diǎn)和出度節(jié)點(diǎn),對每個(gè)微博文本特征和其對應(yīng)的屬性集生成輸入關(guān)系Ri和輸出關(guān)系Ro
5)生成基于概念代數(shù)的微博文本特征擴(kuò)展后的微博文本特征表示形式。
本發(fā)明的積極進(jìn)步效果在于:提出了一種基于概念代數(shù)的微博文本特征擴(kuò)展方法,引入維基百科作為知識(shí)庫,使得微博文本的特征擴(kuò)展具有有效知識(shí)庫的支持,實(shí)現(xiàn)了微博文本特征的語義擴(kuò)展,同時(shí)以概念代數(shù)作為微博文本表示特征擴(kuò)展后的形式克服了傳統(tǒng)向量空間模型(VSM)文本表示缺乏層次性的不足。
附圖說明
圖1為基于概念代數(shù)微博文本特征擴(kuò)展方法的實(shí)現(xiàn)框架
圖2為基于概念代數(shù)微博文本特征擴(kuò)展方法的數(shù)據(jù)流程圖
具體實(shí)施方式
下面通過實(shí)施例的方式進(jìn)一步說明本發(fā)明,但并不因此將本發(fā)明限制在所述的實(shí)施例范圍之中。
在實(shí)施例中主要的微博文本來源為新浪微博,通過新浪微博提供的API下載微博原文和微博原文的評(píng)論信息。
如圖1所示,本發(fā)明的基于概念代數(shù)的微博文本特征擴(kuò)展方法主要包括以下幾個(gè)步驟:
步驟1、維基百科知識(shí)庫信息預(yù)處理,將維基百科中的相關(guān)信息存儲(chǔ)到數(shù)據(jù)庫表格中,方便以后信息查詢。
步驟2、微博文本預(yù)處理,對微博文本內(nèi)容進(jìn)行擴(kuò)充,以及分詞操作,進(jìn)行必要的詞以糾正操作。
步驟3、基于概念代數(shù)的微博文本特征的屬性集構(gòu)建,利用維基百科的類別網(wǎng)信息,進(jìn)行文本特征與維基百科的解釋信息的相關(guān)度計(jì)算,選擇相關(guān)度較大的解釋信息作為微博文本特征的屬性集。
步驟4、基于概念代數(shù)的微博文本特征的輸入關(guān)系和輸出關(guān)系構(gòu)建,利用維基百科的頁面網(wǎng)信息,查詢文本特征及其屬性集在頁面網(wǎng)中的出度節(jié)點(diǎn)和入度節(jié)點(diǎn)作為微博文本特征的輸入關(guān)系和輸出關(guān)系。
步驟5、生成微博文本的概念代數(shù)表示形式,將步驟3和步驟4產(chǎn)生的屬性集、輸入關(guān)系和輸出關(guān)系進(jìn)行組織表示,以XML文件存儲(chǔ)。
本發(fā)明的具體算法流程如圖2所示:
1)輸入微博文本,并進(jìn)行分詞操作生成特征集C(C1,C2........Cn)。
2)采用詞共現(xiàn)方法逐條判斷微博文本的評(píng)論信息是否存在于微博文本相同的詞語,若存在,則評(píng)論信息添加到微博文本特征集C中。否則,處理下一條評(píng)論信息。若評(píng)論信息已經(jīng)處理完,則跳轉(zhuǎn)到步驟3
3)對每個(gè)微博文本特征Ci查詢維基百科page信息,找到其對應(yīng)的解釋信息,并利用維基百科的類別網(wǎng)絡(luò)(category)逐個(gè)相關(guān)度計(jì)算,選擇維基百科解釋信息,構(gòu)建文本特征Ci屬性集,并將生成的屬性集存儲(chǔ)在中間文件中。
4)對文本特征Ci對應(yīng)的屬性集中的每個(gè)屬性A查詢維基百科的頁面網(wǎng)絡(luò)(pagelink)中的入度節(jié)點(diǎn)和出度節(jié)點(diǎn)作為輸入關(guān)系和輸出關(guān)系,并存儲(chǔ)到步驟3的中間文件中。
5)判斷微博文本特征集C是否處理結(jié)束,若是,則轉(zhuǎn)到步驟6,否則,轉(zhuǎn)到步驟3
6)生成特征擴(kuò)展后的微博文本的概念代數(shù)表示形式,并且以XML的形式保存。
通過上述算法便完成了對一篇微博文本的特征擴(kuò)展,并且實(shí)現(xiàn)了微博文本的新的表示形式,豐富了微博文本的語義信息,這樣有利于對微博文本的后續(xù)處理,如文本分類、輿情分析和情感分析等。
雖然以上描述了本發(fā)明的具體實(shí)施方式,但是本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,這些僅是舉例說明,本發(fā)明的保護(hù)范圍是所附權(quán)利要求書限定的。本領(lǐng)域的技術(shù)人員在不背離本發(fā)明的原理和實(shí)質(zhì)的前提下,可以對這些實(shí)施方式做出多種變更或修改,但這些變更或修改均落入本發(fā)明的保護(hù)范圍。