国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種面向在線百科的事件識(shí)別方法和事件關(guān)系抽取方法

      文檔序號(hào):6538858閱讀:336來(lái)源:國(guó)知局
      一種面向在線百科的事件識(shí)別方法和事件關(guān)系抽取方法
      【專利摘要】本發(fā)明提供一種面向在線百科的事件識(shí)別方法和事件關(guān)系抽取方法。所述事件識(shí)別方法包括:從在線百科的分類體系中得到事件類分類標(biāo)簽;所述事件類分類標(biāo)簽表示該分類標(biāo)簽下的詞條與一個(gè)或多個(gè)事件有關(guān)。以及對(duì)于所述在線百科中的詞條,根據(jù)其所有分類標(biāo)簽中屬于所述事件類分類標(biāo)簽的分類標(biāo)簽所占比率,判斷所述詞條是否是事件類詞條。本發(fā)明能夠快速且準(zhǔn)確地識(shí)別出事件類詞條,并且能夠在事件識(shí)別的基礎(chǔ)上進(jìn)行事件關(guān)系的抽取,適用于對(duì)事件進(jìn)行預(yù)測(cè)和溯源。
      【專利說(shuō)明】一種面向在線百科的事件識(shí)別方法和事件關(guān)系抽取方法
      【技術(shù)領(lǐng)域】
      [0001]本發(fā)明涉及信息【技術(shù)領(lǐng)域】,尤其涉及一種面向在線百科的事件識(shí)別方法和事件關(guān)系抽取方法。
      技術(shù)背景
      [0002]在線百科是一種在線的、內(nèi)容開(kāi)放、自由的網(wǎng)絡(luò)百科全書(shū),涵蓋了所有領(lǐng)域的知識(shí)。其采用群體在線合作編輯的機(jī)制,所有人共同編寫(xiě),讓知識(shí)在一定的技術(shù)規(guī)則和文化脈絡(luò)下得到不斷的組合發(fā)展。在線百科是用來(lái)構(gòu)建語(yǔ)義知識(shí)庫(kù)的優(yōu)質(zhì)來(lái)源,具有下列特點(diǎn):
      [0003](I)開(kāi)放共享:大部分頁(yè)面都可以由任意用戶使用瀏覽器進(jìn)行閱覽、修改、創(chuàng)建主題及條目等,并且任何用戶都可以免費(fèi)下載、引用、收藏及分享它的內(nèi)容。
      [0004](2)互動(dòng)協(xié)作:來(lái)自世界各地的用戶都可以基于該平臺(tái)針對(duì)某一主題內(nèi)容展開(kāi)交流研討,通過(guò)不斷編寫(xiě)和修訂,最終完善相應(yīng)的詞條與內(nèi)容。
      [0005](3)實(shí)效性高:與傳統(tǒng)的百科全書(shū)相比,在線百科會(huì)在第一時(shí)間補(bǔ)充社會(huì)科技文化的新概念、新動(dòng)態(tài),保證知識(shí)的時(shí)效性。由于計(jì)算機(jī)的高效率,在線百科便于快速的詞條定位,比起紙質(zhì)百科要迅速的多。
      [0006](4)信息全面、相對(duì)準(zhǔn)確:在線百科的大部分知識(shí)點(diǎn)都是經(jīng)過(guò)不同的用戶多次編輯形成的,保證了內(nèi)容的準(zhǔn)確性。
      [0007]著名的在線百科包括維基百科和互動(dòng)百科等。截至2012年8月為止,維基百科整個(gè)計(jì)劃總共有285種各自獨(dú)立運(yùn)作的語(yǔ)言版本,包括2,247,890,085個(gè)詞條。中文維基百科于2002年10月24日正式成立,截至2012年12月21日,已擁有611,358個(gè)詞條?;?dòng)百科是全球最大的中文百科網(wǎng)站,截止到目前,已有6,866,625位網(wǎng)友共同編寫(xiě)了 7,895,067個(gè)詞條。
      [0008]對(duì)于數(shù)目如此龐大的詞條,在線百科大多具有相對(duì)完善的分類體系。該分類體系提取詞條之間共同的特征作為分類,將大規(guī)模的詞條有效地組織到一起。通常,分類體系以“分類樹(shù)”的形式存在,每個(gè)分類有父類和子類(即子分類)用來(lái)概述或細(xì)化這些概念。分類反映了詞條的共同特征,從而可以作為識(shí)別詞條類別的有效工具。由于在線百科具有時(shí)效性和信息全面性等特點(diǎn),人們往往希望通過(guò)在線百科來(lái)了解事件(事件一般是指歷史上或社會(huì)上已經(jīng)發(fā)生的產(chǎn)生相當(dāng)影響的事情)的經(jīng)過(guò)、預(yù)測(cè)同類事件在將來(lái)的發(fā)展,以及對(duì)事件進(jìn)行溯源,以便對(duì)特定事件采取預(yù)防措施。這就需要從在線百科中識(shí)別出“事件”類詞條,并且抽取事件與事件之間的關(guān)系,然而現(xiàn)有的在線百科并沒(méi)有提供識(shí)別“事件”類詞條以及分析事件之間關(guān)系的功能。

      【發(fā)明內(nèi)容】

      [0009]針對(duì)上述問(wèn)題,根據(jù)本發(fā)明的一個(gè)實(shí)施例,提供一種面向在線百科的事件識(shí)別方法,所述方法包括:
      [0010]步驟I)、從在線百科的分類體系中得到事件類分類標(biāo)簽;所述事件類分類標(biāo)簽表示該分類標(biāo)簽下的詞條與一個(gè)或多個(gè)事件有關(guān)。
      [0011]步驟2)、對(duì)于所述在線百科中的詞條,根據(jù)其所有分類標(biāo)簽中屬于所述事件類分類標(biāo)簽的分類標(biāo)簽所占比率,判斷所述詞條是否是事件類詞條。
      [0012]上述技術(shù)方案中,所述步驟I)包括:
      [0013]步驟11)、從在線百科的分類體系中找到表示該分類下的詞條與一個(gè)或多個(gè)事件有關(guān)的分類,作為種子分類;
      [0014]步驟12)、將種子分類以及該種子分類下的所有子分類加入事件類分類標(biāo)簽。
      [0015]上述技術(shù)方案中,所述步驟I)還包括:
      [0016]將所述種子分類下的詞條作為種子詞條;以及
      [0017]根據(jù)種子詞條的命名規(guī)則或者對(duì)應(yīng)的頁(yè)面特征,統(tǒng)計(jì)具有事件特征的種子詞條的分類標(biāo)簽,將該分類標(biāo)簽加入所述事件類分類標(biāo)簽。
      [0018]上述技術(shù)方案中,所述步驟2)包括:
      [0019]對(duì)于所述在線百科中的詞條,計(jì)算其屬于所述事件類分類標(biāo)簽的分類標(biāo)簽個(gè)數(shù)與其所有分類標(biāo)簽個(gè)數(shù)的比率,如果該比率大于預(yù)定閾值,則將所述詞條作為事件類詞條。
      [0020]上述技術(shù)方案中,所述步驟2)還包括:
      [0021]對(duì)于所述在線百科中的詞條,根據(jù)其命名規(guī)則或者對(duì)應(yīng)的頁(yè)面特征來(lái)判斷所述詞條是否是事件類詞條。
      [0022]根據(jù)本發(fā)明的一個(gè)實(shí)施例,還提供一種面向在線百科的事件關(guān)系抽取方法,包括:
      [0023]步驟A)、根據(jù)權(quán)利要求1-6中任何一個(gè)所述的面向在線百科的事件識(shí)別方法得到所述在線百科的所有事件類詞條;
      [0024]步驟B)、對(duì)于所述在線百科中的每個(gè)事件類詞條,在其對(duì)應(yīng)頁(yè)面按照頁(yè)面層級(jí)結(jié)構(gòu)抽取其子事件,并且確定所得到的子事件與所述事件類詞條的關(guān)聯(lián)關(guān)系。
      [0025]上述技術(shù)方案中,所述步驟B)包括:
      [0026]步驟BI)、對(duì)于所述在線百科中的每個(gè)事件類詞條,根據(jù)所述在線百科的頁(yè)面結(jié)構(gòu)提取該事件類詞條對(duì)應(yīng)頁(yè)面下每一級(jí)頁(yè)面的段落作為子事件,并且將該事件類詞條對(duì)應(yīng)頁(yè)面到該子事件對(duì)應(yīng)頁(yè)面的所有標(biāo)題合并作為該子事件的標(biāo)題;
      [0027]步驟B2)、根據(jù)子事件的標(biāo)題判斷該子事件與該事件類詞條的關(guān)聯(lián)類型;
      [0028]步驟B3)、將該事件類詞條與該子事件存儲(chǔ)到數(shù)據(jù)庫(kù),并且根據(jù)關(guān)聯(lián)類型建立該事件類詞條與該子事件的關(guān)聯(lián)。
      [0029]上述技術(shù)方案中,所述步驟B2)包括:
      [0030]根據(jù)子事件的標(biāo)題中的關(guān)系類型的同義詞來(lái)判斷子事件與所述事件類詞條的關(guān)聯(lián)關(guān)系。
      [0031]上述技術(shù)方案中,所述步驟B)還包括:
      [0032]對(duì)于所述在線百科中的每個(gè)事件類詞條,在所述在線百科中尋找屬于該事件類詞條的分類標(biāo)簽的詞條,將所找到的詞條作為同類事件存儲(chǔ)到數(shù)據(jù)庫(kù),并且建立該事件類詞條與該同類事件的關(guān)聯(lián)。
      [0033]本發(fā)明根據(jù)在線百科的分類體系、詞條命名規(guī)則及其對(duì)應(yīng)的頁(yè)面特征,能夠快速且準(zhǔn)確地識(shí)別出事件類詞條;并且在事件識(shí)別的基礎(chǔ)上進(jìn)行事件關(guān)系的完整抽取,抽取出的事件關(guān)系包括起因、背景、結(jié)果和同類事件等,適用于對(duì)事件進(jìn)行預(yù)測(cè)和溯源。
      【專利附圖】

      【附圖說(shuō)明】
      [0034]圖1是根據(jù)本發(fā)明一個(gè)實(shí)施例的事件特征提取方法的流程圖;
      [0035]圖2是根據(jù)本發(fā)明一個(gè)實(shí)施例的事件類型判別方法的流程圖;
      [0036]圖3是根據(jù)本發(fā)明一個(gè)實(shí)施例的面向在線百科的事件關(guān)系抽取方法的流程圖;
      [0037]圖4是根據(jù)本發(fā)明一個(gè)實(shí)施例的抽取事件類詞條的子事件和同類事件的方法的流程圖;以及
      [0038]圖5是根據(jù)本發(fā)明一個(gè)實(shí)施例的分類特征的示意圖。
      【具體實(shí)施方式】
      [0039]下面結(jié)合附圖和【具體實(shí)施方式】對(duì)本發(fā)明進(jìn)行說(shuō)明。
      [0040]根據(jù)本發(fā)明的一個(gè)實(shí)施例,提供一種面向在線百科的事件識(shí)別方法,包括事件特征提取和事件類型判別過(guò)程,下面分別描述這兩個(gè)步驟:
      [0041]第一步:事件特征提取
      [0042]在線百科都具有完整的分類體系,每個(gè)詞條大多屬于一個(gè)或者多個(gè)分類,主題相關(guān)的詞條大多屬于相同的分類。因此,分類可以反映該分類下所有詞條的共同特征。在一個(gè)實(shí)施例中,可提取與事件相關(guān)的分類作為用于識(shí)別事件類詞條的主要特征。此外,還可以結(jié)合詞條的詞干結(jié)構(gòu)、頁(yè)面特殊標(biāo)簽等特征來(lái)識(shí)別事件類詞條(將在第二步中進(jìn)行描述)。
      [0043]如圖1所示,在一個(gè)實(shí)施例中,提取事件類的分類標(biāo)簽作為特征可包括以下子步驟:
      [0044]步驟1、從在線百科的分類體系中找到與事件相關(guān)的分類,作為種子分類,將種子分類以及種子分類的所有子分類加入分類標(biāo)簽集合。
      [0045]其中,事件是指在線百科中記載的、具有一定影響的所有事情。與事件相關(guān)的分類表示分類體系中該分類下的詞條可能與一個(gè)或多個(gè)事件有關(guān),例如“社會(huì)事件”、“政治事件”、“軍事事件”等等分類。
      [0046]步驟2、將種子分類下的詞條作為種子詞條,分析種子詞條本身的頁(yè)面特征和命名規(guī)則,將具有“事件”特征的種子詞條(例如以“**事件”作為標(biāo)題的詞條)標(biāo)注為“事件”類詞條,并且統(tǒng)計(jì)該事件類詞條的分類標(biāo)簽。
      [0047]在一個(gè)實(shí)施例中,根據(jù)種子詞條對(duì)應(yīng)的頁(yè)面特征和命名規(guī)則來(lái)判斷該詞條是否是事件類詞條可以包括但不限于:
      [0048](I)、根據(jù)詞條名稱本身的命名規(guī)則來(lái)進(jìn)行判斷,例如將以“林事件”、“林之戰(zhàn)”、“**命案”等詞結(jié)尾的詞條判定為事件類詞條。
      [0049](2)、根據(jù)詞條文本內(nèi)容中是否有特定的標(biāo)簽來(lái)進(jìn)行判斷。如果該詞條對(duì)應(yīng)的頁(yè)面中有指示“事件”類別的特定標(biāo)簽,則判定該詞條為事件類詞條。
      [0050](3)、根據(jù)詞條文本概述目錄來(lái)進(jìn)行判斷,例如,如果詞條對(duì)應(yīng)的文本概述目錄中有“事件經(jīng)過(guò)”、“事件起因”等關(guān)鍵詞,則判定該詞條為事件類詞條。
      [0051](4)、根據(jù)詞條所屬的類別條目來(lái)判斷。
      [0052](5)、使用命名實(shí)體識(shí)別工具來(lái)判斷詞條是否是事件類詞條。[0053]步驟3、合并從上述兩個(gè)步驟得到的分類標(biāo)簽。
      [0054]步驟4、過(guò)濾掉不合理的分類標(biāo)簽,將過(guò)濾后的分類標(biāo)簽存儲(chǔ)到分類特征詞表,該分類特征詞表中存儲(chǔ)的分類標(biāo)簽作為事件類分類標(biāo)簽,方便第二步對(duì)事件類型進(jìn)行判別。
      [0055]其中,不合理的分類標(biāo)簽指有歧義、編輯人為了自己方便而編輯的那些不準(zhǔn)確的分類標(biāo)簽。
      [0056]在一個(gè)實(shí)施例中,在進(jìn)行事件特征提取之前,還要對(duì)在線百科中的詞條進(jìn)行清洗,即過(guò)濾掉不需要的數(shù)據(jù)。詞條包括詞條的名稱、詞條頁(yè)面信息、所屬類別信息(分類標(biāo)簽)
      坐寸ο
      [0057]第二步:事件類型判別
      [0058]在一個(gè)實(shí)施例中,可根據(jù)所提取出的詞條的相關(guān)特征(例如上一步討論的分類標(biāo)簽),來(lái)判斷在線百科中的詞條是否屬于事件類詞條。例如,要判斷一個(gè)詞條是否是事件類詞條,可首先查找該詞條的所有分類標(biāo)簽,統(tǒng)計(jì)事件類的分類標(biāo)簽占其所有分類標(biāo)簽的比率,如果該比率大于一個(gè)預(yù)定的閾值,則將該詞條判定為事件類詞條。
      [0059]本領(lǐng)域技術(shù)人員應(yīng)理解,還可以提取其他特征來(lái)進(jìn)行事件類型的判別。圖2示出了事件類型判別方法的一個(gè)實(shí)施例,包括以下步驟:
      [0060]步驟1、根據(jù)命名規(guī)則來(lái)判斷詞條是否是事件類詞條。例如,將以“**事件”、“**之戰(zhàn)”、“**案件”等詞結(jié)尾的詞條判定為事件類詞條。
      [0061]步驟2、根據(jù)詞條對(duì)應(yīng)的頁(yè)面特征來(lái)判斷,如果頁(yè)面中有特定的指示“事件”類別的標(biāo)簽,則判定該詞條為事件類詞條。
      [0062]步驟3、利用詞性標(biāo)注工具對(duì)詞條的標(biāo)題進(jìn)行分詞,對(duì)分詞結(jié)果包括人、機(jī)構(gòu)、地點(diǎn)等的詞條直接排除。
      [0063]步驟4、根據(jù)詞條對(duì)應(yīng)頁(yè)面中的概述目錄來(lái)判斷,如果概述目錄中有“事件經(jīng)過(guò)”、“事件起因”等關(guān)鍵詞,則判定為事件類詞條。
      [0064]步驟5、統(tǒng)計(jì)詞條的分類標(biāo)簽,將該詞條屬于事件類分類標(biāo)簽的分類標(biāo)簽占其所有分類標(biāo)簽的比率作為該詞條的分類特征得分Score,將分類特征得分Score大于一定閾值Nf的詞條判定為事件類詞條,Score的計(jì)算公式如下:
      [0065]Score=NNt0tal
      [0066]其中,N表示詞條的全部分類標(biāo)簽中屬于事件類分類標(biāo)簽的數(shù)目,Nttrtal表示該詞條全部的分類標(biāo)簽數(shù)目。
      [0067]本實(shí)施例示例性地描述了用于判別詞條是否是事件類詞條的一種方法,應(yīng)理解,也可以通過(guò)改變上述步驟的順序、或者增加或刪除一些步驟來(lái)進(jìn)行事件類型的判別。
      [0068]在上文提供的面向在線百科的事件識(shí)別方法的基礎(chǔ)上,本發(fā)明還提供一種面向在線百科的事件關(guān)系抽取方法。如圖3所示,該方法包括以下步驟:
      [0069]第一步:使用上文描述的面向在線百科的事件識(shí)別方法來(lái)識(shí)別出在線百科中所有的事件類詞條。
      [0070]第二步:對(duì)于在線百科中的每個(gè)事件類詞條,進(jìn)行事件關(guān)系的抽取。
      [0071]概括而言,抽取事件關(guān)系包括:將事件類詞條作為主事件進(jìn)行存儲(chǔ);將抽取得到的事件作為子事件或者同類事件進(jìn)行存儲(chǔ),同時(shí)存儲(chǔ)主事件和子事件或者同類事件的關(guān)聯(lián)關(guān)系。其中,根據(jù)事件的發(fā)展過(guò)程,子事件與主事件的關(guān)系可以包括但不限于:起因、經(jīng)過(guò)、結(jié)果。參考圖4,抽取事件關(guān)系可以包括以下子步驟:
      [0072]步驟1、將從第一步得到的事件類詞條作為主事件存儲(chǔ)到數(shù)據(jù)庫(kù)中。
      [0073]在一個(gè)實(shí)施例中,存儲(chǔ)主事件包括但不限于存儲(chǔ)以下內(nèi)容:
      [0074](I)、主事件的詞條標(biāo)題;
      [0075](2)、采集時(shí)間,錄入時(shí)間;
      [0076](3)、摘要;
      [0077](4)、事件檢索關(guān)鍵詞,包括所屬的分類(分類標(biāo)簽)、頁(yè)面中的內(nèi)部鏈接和標(biāo)題的分詞結(jié)果;以及
      [0078](5)、事件元素(如事件的類別,內(nèi)部鏈接)。
      [0079]步驟2、根據(jù)主事件對(duì)應(yīng)的頁(yè)面,按頁(yè)面層級(jí)結(jié)構(gòu)進(jìn)行子事件的抽取,提取每一層級(jí)的標(biāo)題、正文內(nèi)容。
      [0080]針對(duì)不同類型的在線百科,可采取相應(yīng)的配置模板來(lái)進(jìn)行抽取。
      [0081]步驟3、將每一級(jí)頁(yè)面下的每個(gè)段落作為該級(jí)下的子事件,將從一級(jí)標(biāo)題(主事件對(duì)應(yīng)的標(biāo)題)到該級(jí)標(biāo)題的所有標(biāo)題進(jìn)行合并,作為這個(gè)子事件的標(biāo)題。
      [0082]步驟4、根據(jù)子事件的標(biāo)題來(lái)判斷子事件與主事件的關(guān)系。
      [0083]在一個(gè)實(shí)施例中,可根據(jù)子事件的標(biāo)題中是否含有關(guān)系類型的同義詞來(lái)判斷子事件與主事件的關(guān)系。例如,對(duì)于背景類型,如果子事件的標(biāo)題中含有“背景”、“起因”等同義詞,則判定該子事件與主事件是背景關(guān)系。
      [0084]步驟5、將子事件存儲(chǔ)到數(shù)據(jù)庫(kù)中,并且對(duì)于主事件和子事件建立事件關(guān)聯(lián)。
      [0085]盡管上文中已經(jīng)在步驟I將主事件存儲(chǔ)到數(shù)據(jù)庫(kù)中,應(yīng)理解,也可以在步驟5 (或者其他步驟)將主事件與子事件一起存儲(chǔ)到數(shù)據(jù)庫(kù)中。
      [0086]在一個(gè)實(shí)施例中,存儲(chǔ)子事件包括但不限于存儲(chǔ)以下內(nèi)容:
      [0087](I)、子事件的詞條標(biāo)題;
      [0088](2)、采集時(shí)間,錄入時(shí)間;
      [0089](3)、摘要;
      [0090](4)、事件檢索關(guān)鍵詞(子事件中存在的相關(guān)地點(diǎn)、組織、人等)。在一個(gè)實(shí)施例中,將子事件中的百科內(nèi)部鏈接詞條作為子事件的檢索關(guān)鍵詞(或稱檢索標(biāo)簽),并且將首句作為“子事件”的摘要存儲(chǔ)到數(shù)據(jù)庫(kù)中。
      [0091]在一個(gè)實(shí)施例中,主事件和子事件的事件關(guān)聯(lián)格式可以是“主事件ID”+ “子事件ID”+ “關(guān)系類型”。其中,子事件與主事件的關(guān)系類型包括但不限于:
      [0092](I)、起因,背景;
      [0093](2)、下級(jí)事件;
      [0094](3)、結(jié)果。
      [0095]步驟6、確定主事件的同類事件。
      [0096]其中,將與主事件屬于同一分類標(biāo)簽的其他詞條與主事件建立關(guān)聯(lián)關(guān)系,其關(guān)系類型為“同類事件”。將該同類事件存儲(chǔ)到數(shù)據(jù)庫(kù)中,并且對(duì)主事件和同類事件建立事件關(guān)聯(lián)。
      [0097]下文詳細(xì)描述了采用面向在線百科的事件關(guān)系抽取方法對(duì)維基百科進(jìn)行事件關(guān)系抽取的一個(gè)實(shí)施例,并根據(jù)抽取結(jié)果,以維基百科中的事件類詞條一 “第二次世界大戰(zhàn)”為例,列舉出該詞條的子事件及事件之間的關(guān)聯(lián)關(guān)系。該方法包括以下三個(gè)步驟:
      [0098]一、事件特征的提取
      [0099]1、將分類體系中的“事件”、“社會(huì)事件”、“政治事件”、“歷史事件”、“軍事事件”作為種子分類,標(biāo)注種子分類及子分類作為分類標(biāo)簽,圖5給出了所得到的分類特征中的一個(gè)分支。
      [0100]2、將種子分類下的詞條作為種子詞條,將以“事件”、“沖突”、“戰(zhàn)爭(zhēng)”、“命案”結(jié)尾的種子詞條標(biāo)記為事件類詞條,統(tǒng)計(jì)這些詞條的分類標(biāo)簽。
      [0101]3、合并上面1、2兩步的結(jié)果。
      [0102]4、刪除不合理的分類標(biāo)簽,將其余的分類標(biāo)簽存儲(chǔ)到分類特征詞表中。
      [0103]二、事件類型判別
      [0104]讀取分類特征詞表,結(jié)合詞條本身的命名規(guī)則、頁(yè)面結(jié)構(gòu)、分詞結(jié)果等特征,判斷該詞條是否屬于事件類詞條,包括以下子步驟:
      [0105]1、規(guī)則判別。對(duì)詞條本身進(jìn)行分析,如果詞條的標(biāo)題規(guī)則符合規(guī)則模板的定義(例如**事件、**會(huì)戰(zhàn)、**案件等),則將該詞條判定為事件類詞條。接著對(duì)詞條標(biāo)題進(jìn)行分詞,并且進(jìn)行詞性標(biāo)注,標(biāo)注為人、地點(diǎn)、機(jī)構(gòu)的直接排除。
      [0106]2、根據(jù)頁(yè)面特征判別。例如,判斷頁(yè)面結(jié)果中是否具有特定的標(biāo)簽,是否在概要目錄中有“事件經(jīng)過(guò)”、“事件起因”等關(guān)鍵詞,如果具有這些特征,則將詞條判定為事件類詞條。
      [0107]3、分類特征判別。將該詞條的分類標(biāo)簽中屬于事件類分類標(biāo)簽(即在分類特征詞表中)的個(gè)數(shù)與該詞條的所有分類標(biāo)簽個(gè)數(shù)的比率作為分類特征得分,如果分類特征得分的值大于Nf,則判定該詞條為事件類詞條。這里為了保證判別事件類型的準(zhǔn)確率,取Nf =
      0.5。
      [0108]三、事件關(guān)系抽取
      [0109]其中,按頁(yè)面層次抽取詞條的子事件,根據(jù)子事件的標(biāo)題來(lái)判斷子事件與主事件的關(guān)系,并且將相關(guān)信息存儲(chǔ)到數(shù)據(jù)庫(kù)。
      [0110]1、查找主事件語(yǔ)料中的內(nèi)部鏈接,在已有數(shù)據(jù)中查找這些元素中屬于人、機(jī)構(gòu)、地點(diǎn)的內(nèi)部鏈接作為事件元素保存。分類信息作為主事件的檢索標(biāo)簽、首段作為摘要,將主事件存儲(chǔ)到數(shù)據(jù)庫(kù)中。
      [0111]2、解析頁(yè)面,按層級(jí)拆分標(biāo)題和正文內(nèi)容。其中,按段落來(lái)拆分每一層級(jí)子事件,根據(jù)標(biāo)題判斷子事件與主事件的關(guān)聯(lián)關(guān)系類型,在數(shù)據(jù)庫(kù)中建立“主子事件”的關(guān)聯(lián)關(guān)系。獲取該子事件的內(nèi)部鏈接作為檢索標(biāo)簽,子事件內(nèi)容中出現(xiàn)的人、地點(diǎn)、機(jī)構(gòu)作為事件元素,存儲(chǔ)到數(shù)據(jù)庫(kù)中。
      [0112]3、將與主事件屬于同一分類標(biāo)簽的其他事件與主事件建立關(guān)聯(lián)關(guān)系,關(guān)系類型為“同類事件”,將同類事件存儲(chǔ)到數(shù)據(jù)庫(kù)中。
      [0113]經(jīng)過(guò)上述操作后,得到每個(gè)主事件詞條的子事件、同類事件以及事件之間的關(guān)系。以主事件詞條一 “第二次世界大戰(zhàn)”為例,可從數(shù)據(jù)庫(kù)中查詢到該詞條的子事件、同類事件及事件關(guān)系,表I示出了該詞條的部分子事件及主子事件的關(guān)系。
      [0114]表I
      [0115]
      【權(quán)利要求】
      1.一種面向在線百科的事件識(shí)別方法,包括: 步驟I)、從在線百科的分類體系中得到事件類分類標(biāo)簽;所述事件類分類標(biāo)簽表示該分類標(biāo)簽下的詞條與一個(gè)或多個(gè)事件有關(guān)。 步驟2)、對(duì)于所述在線百科中的詞條,根據(jù)其所有分類標(biāo)簽中屬于所述事件類分類標(biāo)簽的分類標(biāo)簽所占比率,判斷所述詞條是否是事件類詞條。
      2.根據(jù)權(quán)利要求1所述的方法,其中,步驟I)包括: 步驟11)、從在線百科的分類體系中找到表示該分類下的詞條與一個(gè)或多個(gè)事件有關(guān)的分類,作為種子分類; 步驟12)、將種子分類以及該種子分類下的所有子分類加入事件類分類標(biāo)簽。
      3.根據(jù)權(quán)利要求2所述的方法,其中,步驟I)還包括: 將所述種子分類下的詞條作為種子詞條;以及 根據(jù)種子詞條的命名規(guī)則或者對(duì)應(yīng)的頁(yè)面特征,統(tǒng)計(jì)具有事件特征的種子詞條的分類標(biāo)簽,將該分類標(biāo)簽加入所述事件類分類標(biāo)簽。
      4.根據(jù)權(quán)利要求1-3中任何一個(gè)所述的方法,其中,步驟I)還包括: 在所述事件類分類標(biāo)簽中過(guò)濾掉有歧義的分類標(biāo)簽。
      5.根據(jù)權(quán)利要求1-3中任何一個(gè)所述的方法,其中,步驟2)包括:· 對(duì)于所述在線百科中的詞條,計(jì)算其屬于所述事件類分類標(biāo)簽的分類標(biāo)簽個(gè)數(shù)與其所有分類標(biāo)簽個(gè)數(shù)的比率,如果該比率大于預(yù)定閾值,則將所述詞條作為事件類詞條。
      6.根據(jù)權(quán)利要求5所述的方法,其中,步驟2)還包括: 對(duì)于所述在線百科中的詞條,根據(jù)其命名規(guī)則或者對(duì)應(yīng)的頁(yè)面特征來(lái)判斷所述詞條是否是事件類詞條。
      7.一種面向在線百科的事件關(guān)系抽取方法,包括: 步驟A)、根據(jù)權(quán)利要求1-6中任何一個(gè)所述的面向在線百科的事件識(shí)別方法得到所述在線百科的所有事件類詞條; 步驟B)、對(duì)于所述在線百科中的每個(gè)事件類詞條,在其對(duì)應(yīng)頁(yè)面按照頁(yè)面層級(jí)結(jié)構(gòu)抽取其子事件,并且確定所得到的子事件與所述事件類詞條的關(guān)聯(lián)關(guān)系。
      8.根據(jù)權(quán)利要求7所述的方法,其中,步驟B)包括: 步驟BI)、對(duì)于所述在線百科中的每個(gè)事件類詞條,根據(jù)所述在線百科的頁(yè)面結(jié)構(gòu)提取該事件類詞條對(duì)應(yīng)頁(yè)面下每一級(jí)頁(yè)面的段落作為子事件,并且將該事件類詞條對(duì)應(yīng)頁(yè)面到該子事件對(duì)應(yīng)頁(yè)面的所有標(biāo)題合并作為該子事件的標(biāo)題; 步驟B2)、根據(jù)子事件的標(biāo)題判斷該子事件與該事件類詞條的關(guān)聯(lián)類型; 步驟B3)、將該事件類詞條與該子事件存儲(chǔ)到數(shù)據(jù)庫(kù),并且根據(jù)關(guān)聯(lián)類型建立該事件類詞條與該子事件的關(guān)聯(lián)。
      9.根據(jù)權(quán)利要求8所述的方法,其中,步驟B2)包括: 根據(jù)子事件的標(biāo)題中的關(guān)系類型的同義詞來(lái)判斷子事件與所述事件類詞條的關(guān)聯(lián)關(guān)系O
      10.根據(jù)權(quán)利要求7-9中任何一個(gè)所述的方法,其中,所述關(guān)聯(lián)關(guān)系包括: 起因、背景或者結(jié)果。
      11.根據(jù)權(quán)利要求7-9中任何一個(gè)所述的方法,其中,步驟B)還包括:對(duì)于所述在線百科中的每個(gè)事件類詞條,在所述在線百科中尋找屬于該事件類詞條的分類標(biāo)簽的詞條,將所找到的詞條作為同類事件存儲(chǔ)到數(shù)據(jù)庫(kù),并且建立該事件類詞條與該同類事件的關(guān)聯(lián)。`
      【文檔編號(hào)】G06F17/30GK103823868SQ201410066711
      【公開(kāi)日】2014年5月28日 申請(qǐng)日期:2014年2月26日 優(yōu)先權(quán)日:2014年2月26日
      【發(fā)明者】程學(xué)旗, 賈巖濤, 李曉靜, 王元卓, 馮凱, 熊錦華, 許洪波 申請(qǐng)人:中國(guó)科學(xué)院計(jì)算技術(shù)研究所
      網(wǎng)友詢問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1