国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      基于概念代數(shù)的微博文本特征擴(kuò)展方法與流程

      文檔序號(hào):11829920閱讀:397來源:國知局
      基于概念代數(shù)的微博文本特征擴(kuò)展方法與流程

      本發(fā)明屬于自然語言處理領(lǐng)域,涉及一種基于概念代數(shù)的微博文本特征擴(kuò)展方法。



      背景技術(shù):

      隨著社交網(wǎng)絡(luò)的出現(xiàn),微博作為一種新的文化滲透到網(wǎng)絡(luò)中來。微博傳播迅速,極大的方便了人們的交流,同時(shí)特對自然語言處理提出了新的挑戰(zhàn)。微博文本與傳統(tǒng)文本相比,一方面,微博文本篇幅較短,包含的詞語個(gè)數(shù)較少,進(jìn)而詞切分帶來的錯(cuò)誤對微博文本處理的影響變得更為明顯。另一方面,微博文本特征詞少導(dǎo)致了微博文本的表示能力較弱,微博文本在使用向量空間模型(VSM)做文本表示時(shí)的高維度高稀疏性使得傳統(tǒng)文本處理的性能下降。因此,對微博進(jìn)行特征擴(kuò)展,增加微博文本表示的語義具有十分重要的意義。



      技術(shù)實(shí)現(xiàn)要素:

      為了解決微博文本特征稀疏的問題,并且找到一種特征擴(kuò)展后的微博文本表示方法,本發(fā)明提出了一種基于概念代數(shù)的微博文本特征擴(kuò)展方法。

      本發(fā)明主要利用了概念代數(shù)和維基百科進(jìn)行微博文本特征擴(kuò)展方法的設(shè)計(jì)。

      概念代數(shù)可以表示為一個(gè)5元組:

      C@(O,A,Rc,Ri,Ro)

      其中,O為對象集,A為屬性集,Rc為O與A的關(guān)系集,Ri為A的輸出關(guān)系,Ro為A的輸出關(guān)系。根據(jù)Wang等人的研究,相比于傳統(tǒng)的文本表示,概念代數(shù)是基于關(guān)鍵詞的語義表示,能夠充分的表示同一關(guān)鍵詞在不同語境中所表達(dá)的不同的含義,是一種有效的知識(shí)表示方法。在本發(fā)明中,將微博文本原特征看做概念代數(shù)的對象集O,微博文本特征的擴(kuò)展信息作為概念代數(shù)的屬性集A、輸入關(guān)系Ri和輸出關(guān)系Ro。

      維基百科在本發(fā)明中起到輔助作用,作為微博文本特征的外部知識(shí)庫,根據(jù)盛志超,汪洋等人的研究,維基百科中的頁面網(wǎng)絡(luò)和類別網(wǎng)絡(luò)包含豐富的語義信息,可以利用這些語義信息生成微博文本特征的擴(kuò)展特征。由于維基百科中的頁面網(wǎng)絡(luò)中存在入度節(jié)點(diǎn)和出度節(jié)點(diǎn),聯(lián)想到上述概念代數(shù)的結(jié)構(gòu)特性,維基百科作為知識(shí)庫可以有效的與概念代數(shù)相結(jié)合,有利于概念代數(shù)中的屬性集A、輸入關(guān)系Ri和輸出關(guān)系Ro的構(gòu)建。

      本發(fā)明為了實(shí)現(xiàn)上述目的采用的技術(shù)方案如下:

      1)構(gòu)建維基百科的頁面網(wǎng)絡(luò)和類別網(wǎng)絡(luò)信息存儲(chǔ)到數(shù)據(jù)庫中,主要包括數(shù)據(jù)信息為:頁面信息(Page)、頁面網(wǎng)絡(luò)(pagelink)、類別網(wǎng)絡(luò)(category)和重定向頁面(redirect)。

      2)微博文本預(yù)處理,主要為微博文本內(nèi)容擴(kuò)充和詞義糾正。其中文本內(nèi)容擴(kuò)充利用微博的評(píng)論信息,采用了簡單詞共現(xiàn)方法挑選有價(jià)值的微博評(píng)論信息;詞義糾正利用維基百科的重定向頁面(redirect)對微博中的縮寫進(jìn)行擴(kuò)展,生成維基百科對應(yīng)的概念詞條。

      3)基于概念代數(shù)的微博文本特征的屬性集(A)構(gòu)建,利用維基百科的類別網(wǎng)絡(luò)計(jì)算微博文本特征與維基百科解釋頁面對應(yīng)每個(gè)概念的相關(guān)度,選擇相關(guān)度較大的解釋頁面中的概念作為微博文本特征的屬性集A,相關(guān)度計(jì)算公式為:

      <mrow> <mi>Rel</mi> <mrow> <mo>(</mo> <mi>a</mi> <mo>,</mo> <mi>b</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>log</mi> <mrow> <mo>(</mo> <mo>|</mo> <msub> <mi>F</mi> <mi>a</mi> </msub> <mo>&cap;</mo> <msub> <mi>F</mi> <mi>b</mi> </msub> <mo>|</mo> <mo>)</mo> </mrow> <mo>+</mo> <mfrac> <mrow> <munderover> <mi>&Sigma;</mi> <mi>i</mi> <mi>n</mi> </munderover> <mi>abs</mi> <mrow> <mo>(</mo> <msub> <mi>des</mi> <mi>a</mi> </msub> <mo>-</mo> <msub> <mi>des</mi> <mi>b</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <munderover> <mi>&Sigma;</mi> <mi>i</mi> <mi>n</mi> </munderover> <msub> <mi>des</mi> <mi>a</mi> </msub> <mo>+</mo> <msub> <mi>des</mi> <mi>b</mi> </msub> </mrow> </mfrac> </mrow>

      在此公式中主要考慮:在a,b在維基百科類別網(wǎng)絡(luò)上的所有公共祖先節(jié)點(diǎn)的數(shù)目,為公式的第一部分;概念a和概念b在維基百科類別網(wǎng)絡(luò)所有公共路勁的長度,在維基百科類別網(wǎng)絡(luò)上的距離,距離越大則表示其相關(guān)程度越低;概念a和概念b是否在維基百科類別網(wǎng)的同一層上。若差值等于0,則表示概念a和概念b在維基百科類別網(wǎng)絡(luò)的同一層上,那么其相關(guān)度相對不在同一層上的概念較 高。

      4)構(gòu)建概念代數(shù)的微博文本特征的輸入關(guān)系Ri和輸出關(guān)系Ro,利用維基百科頁面網(wǎng)絡(luò)(pagelink)中的入度節(jié)點(diǎn)和出度節(jié)點(diǎn),對每個(gè)微博文本特征和其對應(yīng)的屬性集生成輸入關(guān)系Ri和輸出關(guān)系Ro

      5)生成基于概念代數(shù)的微博文本特征擴(kuò)展后的微博文本特征表示形式。

      本發(fā)明的積極進(jìn)步效果在于:提出了一種基于概念代數(shù)的微博文本特征擴(kuò)展方法,引入維基百科作為知識(shí)庫,使得微博文本的特征擴(kuò)展具有有效知識(shí)庫的支持,實(shí)現(xiàn)了微博文本特征的語義擴(kuò)展,同時(shí)以概念代數(shù)作為微博文本表示特征擴(kuò)展后的形式克服了傳統(tǒng)向量空間模型(VSM)文本表示缺乏層次性的不足。

      附圖說明

      圖1為基于概念代數(shù)微博文本特征擴(kuò)展方法的實(shí)現(xiàn)框架

      圖2為基于概念代數(shù)微博文本特征擴(kuò)展方法的數(shù)據(jù)流程圖

      具體實(shí)施方式

      下面通過實(shí)施例的方式進(jìn)一步說明本發(fā)明,但并不因此將本發(fā)明限制在所述的實(shí)施例范圍之中。

      在實(shí)施例中主要的微博文本來源為新浪微博,通過新浪微博提供的API下載微博原文和微博原文的評(píng)論信息。

      如圖1所示,本發(fā)明的基于概念代數(shù)的微博文本特征擴(kuò)展方法主要包括以下幾個(gè)步驟:

      步驟1、維基百科知識(shí)庫信息預(yù)處理,將維基百科中的相關(guān)信息存儲(chǔ)到數(shù)據(jù)庫表格中,方便以后信息查詢。

      步驟2、微博文本預(yù)處理,對微博文本內(nèi)容進(jìn)行擴(kuò)充,以及分詞操作,進(jìn)行必要的詞以糾正操作。

      步驟3、基于概念代數(shù)的微博文本特征的屬性集構(gòu)建,利用維基百科的類別網(wǎng)信息,進(jìn)行文本特征與維基百科的解釋信息的相關(guān)度計(jì)算,選擇相關(guān)度較大的解釋信息作為微博文本特征的屬性集。

      步驟4、基于概念代數(shù)的微博文本特征的輸入關(guān)系和輸出關(guān)系構(gòu)建,利用維基百科的頁面網(wǎng)信息,查詢文本特征及其屬性集在頁面網(wǎng)中的出度節(jié)點(diǎn)和入度節(jié)點(diǎn)作為微博文本特征的輸入關(guān)系和輸出關(guān)系。

      步驟5、生成微博文本的概念代數(shù)表示形式,將步驟3和步驟4產(chǎn)生的屬性集、輸入關(guān)系和輸出關(guān)系進(jìn)行組織表示,以XML文件存儲(chǔ)。

      本發(fā)明的具體算法流程如圖2所示:

      1)輸入微博文本,并進(jìn)行分詞操作生成特征集C(C1,C2........Cn)。

      2)采用詞共現(xiàn)方法逐條判斷微博文本的評(píng)論信息是否存在于微博文本相同的詞語,若存在,則評(píng)論信息添加到微博文本特征集C中。否則,處理下一條評(píng)論信息。若評(píng)論信息已經(jīng)處理完,則跳轉(zhuǎn)到步驟3

      3)對每個(gè)微博文本特征Ci查詢維基百科page信息,找到其對應(yīng)的解釋信息,并利用維基百科的類別網(wǎng)絡(luò)(category)逐個(gè)相關(guān)度計(jì)算,選擇維基百科解釋信息,構(gòu)建文本特征Ci屬性集,并將生成的屬性集存儲(chǔ)在中間文件中。

      4)對文本特征Ci對應(yīng)的屬性集中的每個(gè)屬性A查詢維基百科的頁面網(wǎng)絡(luò)(pagelink)中的入度節(jié)點(diǎn)和出度節(jié)點(diǎn)作為輸入關(guān)系和輸出關(guān)系,并存儲(chǔ)到步驟3的中間文件中。

      5)判斷微博文本特征集C是否處理結(jié)束,若是,則轉(zhuǎn)到步驟6,否則,轉(zhuǎn)到步驟3

      6)生成特征擴(kuò)展后的微博文本的概念代數(shù)表示形式,并且以XML的形式保存。

      通過上述算法便完成了對一篇微博文本的特征擴(kuò)展,并且實(shí)現(xiàn)了微博文本的新的表示形式,豐富了微博文本的語義信息,這樣有利于對微博文本的后續(xù)處理,如文本分類、輿情分析和情感分析等。

      雖然以上描述了本發(fā)明的具體實(shí)施方式,但是本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,這些僅是舉例說明,本發(fā)明的保護(hù)范圍是所附權(quán)利要求書限定的。本領(lǐng)域的技術(shù)人員在不背離本發(fā)明的原理和實(shí)質(zhì)的前提下,可以對這些實(shí)施方式做出多種變更或修改,但這些變更或修改均落入本發(fā)明的保護(hù)范圍。

      當(dāng)前第1頁1 2 3 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1