国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      基于信息單元融合的新聞原子事件抽取方法

      文檔序號(hào):6541341閱讀:194來源:國知局
      基于信息單元融合的新聞原子事件抽取方法
      【專利摘要】本發(fā)明涉及一種基于信息單元融合的新聞原子事件抽取方法。其技術(shù)方案是:先對(duì)新聞?wù)倪M(jìn)行除雜處理,利用自然語言處理軟件對(duì)新聞標(biāo)題和除雜處理后的新聞?wù)倪M(jìn)行中文分詞、詞性標(biāo)注和命名實(shí)體識(shí)別處理;再過濾掉詞性標(biāo)注結(jié)果中的意向動(dòng)詞、致使動(dòng)詞、言說動(dòng)詞和趨向動(dòng)詞;利用初步融合規(guī)則庫和信息單元融合規(guī)則庫對(duì)動(dòng)詞過濾后的詞性標(biāo)注結(jié)果和命名實(shí)體識(shí)別結(jié)果進(jìn)行融合;然后利用核心詞表和事件抽取規(guī)則庫對(duì)新聞?wù)牡男畔卧诤辖Y(jié)果進(jìn)行原子事件抽取。本發(fā)明利用信息單元融合的方法能快速地處理新聞?wù)Z料,對(duì)文本長度沒有嚴(yán)格限制,能夠?qū)⑿侣務(wù)闹械娜吭邮录槿〕鰜?,不受事件類型的約束,具有執(zhí)行效率高和普遍適用性的特點(diǎn)。
      【專利說明】基于信息單元融合的新聞原子事件抽取方法【技術(shù)領(lǐng)域】
      [0001]本發(fā)明屬于新聞原子事件抽取【技術(shù)領(lǐng)域】。具體涉及到一種基于信息單元融合的新聞原子事件抽取方法。
      【背景技術(shù)】
      [0002]隨著計(jì)算機(jī)在各領(lǐng)域的廣泛應(yīng)用以及互聯(lián)網(wǎng)的日益普及,海量文本信息的處理技術(shù)在各領(lǐng)域的作用日趨重要。如何從海量文本信息中提取出用戶感興趣的內(nèi)容成為信息抽取領(lǐng)域研究熱點(diǎn)。事件抽取隸屬于信息抽取領(lǐng)域,主要研究如何把含有事件信息的非結(jié)構(gòu)化文本以結(jié)構(gòu)化的形式呈現(xiàn)出來。它涉及自然語言處理、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)等多個(gè)學(xué)科的技術(shù)和方法,目前主要應(yīng)用于自動(dòng)問答、自動(dòng)摘要、信息檢索等領(lǐng)域。
      [0003]事件抽取包括原子事件抽取和主題事件抽取。原子事件表示一個(gè)動(dòng)作的發(fā)生或狀態(tài)變化,一般由謂詞驅(qū)動(dòng),包括參與該動(dòng)作或狀態(tài)的時(shí)間、地點(diǎn)、人物、工具和方法等其他論元。主題事件表示某一類核心事件或活動(dòng)以及所有與之相關(guān)的其他事件或活動(dòng),可由多個(gè)原子事件組成。原子事件抽取的主要研究方法有模式匹配和機(jī)器學(xué)習(xí)兩類。模式匹配方法在某一領(lǐng)域能夠取得較好的抽取結(jié)果,但是可移植性較差。機(jī)器學(xué)習(xí)方法與領(lǐng)域無關(guān),具有較好的可移植性,但是需要大規(guī)模的標(biāo)準(zhǔn)語料,現(xiàn)階段的語料規(guī)模尚不能滿足應(yīng)用需求,且人工標(biāo)注語料耗時(shí)耗力。
      [0004]當(dāng)前絕大多數(shù)研究方法都是基于短語信息或句子層級(jí)信息的方法,這依賴于對(duì)語料的深層句法分析?,F(xiàn)有深層句法分析技術(shù)不僅執(zhí)行效率過慢,而且對(duì)語料文本長度限制嚴(yán)格。此外,由于目前的研究大多是基于MUC評(píng)測會(huì)議展開或ACE評(píng)測會(huì)議展開,只針對(duì)某個(gè)特定領(lǐng)域或特定類型的事件進(jìn)行研究,系統(tǒng)的應(yīng)用領(lǐng)域具有一定的局限性。

      【發(fā)明內(nèi)容】

      [0005]本發(fā)明旨在克服現(xiàn)有技術(shù)不足,目的是提供一種執(zhí)行效率高和適用性強(qiáng)的基于信息單元融合的新聞原子事件抽取方法。
      [0006]為實(shí)現(xiàn)上述目的,本發(fā)明所采用的技術(shù)方案包括以下步驟:
      [0007]步驟一、對(duì)新聞?wù)Z料的新聞?wù)倪M(jìn)行除雜處理:
      [0008]①、去掉小括號(hào)和方括號(hào)中的內(nèi)容;
      [0009]②、將英文雙引號(hào)替換為中文雙引號(hào);
      [0010]③、去掉“O”符號(hào);
      [0011]④、根據(jù)新聞?wù)慕Y(jié)尾的記者信息模式和媒體信息模式過濾掉新聞?wù)慕Y(jié)尾與事件抽取無關(guān)的信息。
      [0012]得到除雜處理后的新聞?wù)摹?br> [0013]本發(fā)明所述新聞?wù)Z料是指新聞標(biāo)題和新聞?wù)摹?br> [0014]步驟二、利用Stanford Word Segmenter軟件對(duì)新聞標(biāo)題和除雜處理后的新聞?wù)倪M(jìn)行中文分詞,得到新聞標(biāo)題的中文分詞結(jié)果和新聞?wù)牡闹形姆衷~結(jié)果。[0015]步驟三、利用Stanford Named Entity Recognizer軟件對(duì)新聞?wù)牡闹形姆衷~結(jié)果和新聞標(biāo)題的中文分詞結(jié)果進(jìn)行命名實(shí)體識(shí)別,得到新聞?wù)牡拿麑?shí)體識(shí)別結(jié)果和新聞標(biāo)題的命名實(shí)體識(shí)別結(jié)果。
      [0016]步驟四、利用Stanford POS Tagger軟件對(duì)新聞?wù)牡闹形姆衷~結(jié)果和新聞標(biāo)題的中文分詞結(jié)果進(jìn)行詞性標(biāo)注,得到新聞?wù)牡脑~性標(biāo)注結(jié)果和新聞標(biāo)題的詞性標(biāo)注結(jié)
      果O
      [0017]步驟五、根據(jù)待過濾動(dòng)詞詞表對(duì)新聞?wù)牡脑~性標(biāo)注結(jié)果和新聞標(biāo)題的詞性標(biāo)注結(jié)果進(jìn)行動(dòng)詞過濾,得到動(dòng)詞過濾后的新聞?wù)牡脑~性標(biāo)注結(jié)果和動(dòng)詞過濾后的新聞標(biāo)題的詞性標(biāo)注結(jié)果。
      [0018]步驟六、根據(jù)初步融合規(guī)則庫對(duì)所述動(dòng)詞過濾后的新聞?wù)牡脑~性標(biāo)注結(jié)果和所述新聞?wù)牡拿麑?shí)體識(shí)別結(jié)果進(jìn)行初步融合,得到新聞?wù)牡某醪饺诤辖Y(jié)果;根據(jù)初步融合規(guī)則庫對(duì)所述動(dòng)詞過濾后的新聞標(biāo)題的詞性標(biāo)注結(jié)果和所述新聞標(biāo)題的命名實(shí)體識(shí)別結(jié)果進(jìn)行初步融合,得到新聞標(biāo)題的初步融合結(jié)果。
      [0019]步驟七、根據(jù)信息單元融合規(guī)則庫對(duì)新聞?wù)牡某醪饺诤辖Y(jié)果和新聞標(biāo)題的初步融合結(jié)果進(jìn)行信息單元融合,得到新聞?wù)牡男畔卧诤辖Y(jié)果和新聞標(biāo)題的信息單元融合結(jié)果。
      [0020]步驟八、根據(jù)核心詞表和事件抽取規(guī)則庫對(duì)新聞?wù)牡男畔卧诤辖Y(jié)果進(jìn)行原子事件抽取,得到新聞?wù)牡脑邮录槿〗Y(jié)果。
      [0021]所述新聞?wù)慕Y(jié)尾的記者信息模式和媒體信息模式是通過對(duì)所收集的新聞?wù)慕Y(jié)尾的記者信息和媒體信息進(jìn)行模式聚類得出的信息模式。
      [0022]所述待過濾動(dòng)詞詞表是由對(duì)選取事件謂詞影響較大和在新聞?wù)闹谐霈F(xiàn)頻率較高的趨向動(dòng)詞、意向動(dòng)詞、言說動(dòng)詞和致使動(dòng)詞構(gòu)成的動(dòng)詞詞表。
      [0023]所述初步融合規(guī)則庫是由命名實(shí)體標(biāo)簽的選擇規(guī)則、書名號(hào)所標(biāo)志成分的識(shí)別規(guī)貝U、時(shí)間信息單元的識(shí)別規(guī)則、連續(xù)相同標(biāo)簽的合并規(guī)則和“PU”標(biāo)簽的省略規(guī)則所構(gòu)成的規(guī)則庫。
      [0024]所述信息單元融合規(guī)則庫是由介詞單元融合規(guī)則、名詞單元融合規(guī)則、狀語單元融合規(guī)則、命名實(shí)體單元融合規(guī)則和修飾語單元融合規(guī)則所構(gòu)成的規(guī)則庫。
      [0025]所述核心詞表是通過統(tǒng)計(jì)新聞標(biāo)題的信息單元融合結(jié)果所得詞表和通過統(tǒng)計(jì)新聞?wù)牡男畔卧诤辖Y(jié)果所得詞表的集合。其中:通過統(tǒng)計(jì)新聞標(biāo)題的信息單元融合結(jié)果所得詞表是通過統(tǒng)計(jì)新聞標(biāo)題的信息單元融合結(jié)果中的動(dòng)詞和名詞所得詞表;通過統(tǒng)計(jì)新聞?wù)牡男畔卧诤辖Y(jié)果所得詞表是通過統(tǒng)計(jì)新聞?wù)牡男畔卧诤辖Y(jié)果中的命名實(shí)體、被標(biāo)記為“DEG”標(biāo)簽的“的”字后邊的名詞、詞頻大于I次的動(dòng)詞和詞頻大于I次的名詞所得詞表。
      [0026]所述事件抽取規(guī)則庫是由權(quán)值分配規(guī)則、新聞?wù)牡男畔卧诤辖Y(jié)果的句子切分規(guī)則、新聞?wù)牡男畔卧诤辖Y(jié)果的原子句切分規(guī)則、“把”字句抽取規(guī)則、“被”字句抽取規(guī)則、一般句抽取規(guī)則和時(shí)間空間抽取規(guī)則構(gòu)成的規(guī)則庫。
      [0027]由于采用上述技術(shù)方案,本發(fā)明與現(xiàn)有技術(shù)相比具有如下積極效果:
      [0028]1、原子事件抽取是一種由事件謂詞驅(qū)動(dòng)的信息抽取方法,本發(fā)明對(duì)選取事件謂詞影響較大和在新聞?wù)闹谐霈F(xiàn)頻率較高的趨向動(dòng)詞、意向動(dòng)詞、言說動(dòng)詞和致使動(dòng)詞進(jìn)行過濾,能夠更加準(zhǔn)確的抽取事件謂詞,進(jìn)而提高事件抽取的準(zhǔn)確率。
      [0029]2、現(xiàn)有深層句法分析技術(shù)處理新聞?wù)Z料,不僅執(zhí)行效率過慢,且對(duì)文本長度限制嚴(yán)格;本發(fā)明利用信息單元融合的方法處理新聞?wù)Z料,達(dá)到了淺層句法分析的效果,這樣就能夠不依賴于深層句法分析技術(shù);故本發(fā)明不僅執(zhí)行效率高,而且對(duì)文本長度沒有嚴(yán)格限制。
      [0030]3、核心詞表中的動(dòng)詞比新聞?wù)闹械钠渌麆?dòng)詞作為原子事件謂詞的可能性更大,核心詞表中的名詞和命名實(shí)體比新聞?wù)闹械钠渌~作為原子事件論元的可能性更大,本發(fā)明采用核心詞表能夠更加準(zhǔn)確的抽取原子事件謂詞和原子事件論元,進(jìn)而提高事件抽取的準(zhǔn)確率,
      [0031]4、在原子事件抽取時(shí),本發(fā)明先將新聞?wù)牡男畔卧诤辖Y(jié)果根據(jù)標(biāo)點(diǎn)符號(hào)和關(guān)聯(lián)詞切分為原子句,然后把原子句的句子結(jié)構(gòu)分為“把”字句結(jié)構(gòu)、“被”字句結(jié)構(gòu)和一般句結(jié)構(gòu)三種,此時(shí)再利用原子事件抽取規(guī)則庫進(jìn)行原子事件抽取,這種方法能夠?qū)⑿侣務(wù)闹腥渴录愋偷脑邮录槿〕鰜恚皇苁录愋秃皖I(lǐng)域的限定。
      [0032]因此,本發(fā)明具有執(zhí)行效率高和普遍適用性的特點(diǎn)。
      【專利附圖】

      【附圖說明】
      [0033]圖1為本發(fā)明的一種流程框圖。
      【具體實(shí)施方式】
      [0034]下面通過【具體實(shí)施方式】和實(shí)施示例對(duì)本發(fā)明做進(jìn)一步的描述,并非對(duì)其保護(hù)范圍的限制。
      [0035]實(shí)施例1
      [0036]一種基于信息單元融合的新聞原子事件抽取方法。本實(shí)施例的新聞?wù)Z料(新聞?wù)Z料是指新聞標(biāo)題和新聞?wù)?為:
      [0037]本實(shí)施例的新聞標(biāo)題是:男子翻入女生寢室被發(fā)現(xiàn)后墜樓身亡;
      [0038]本實(shí)施例的新聞?wù)氖?
      [0039]據(jù)@荊州開發(fā)區(qū)警方[微博]介紹,昨晨2時(shí),某校5號(hào)女生宿舍樓5樓一位女生小瑩(化名)發(fā)現(xiàn),一男子借助停在一樓的一輛木板拖車,順著一樓的鐵質(zhì)防盜網(wǎng),翻入該宿舍二樓,她把此事通知宿管員。宿管員的丈夫便向樓上巡查,當(dāng)行到3樓時(shí),只聽見〃咚〃的一聲,大家查看時(shí),發(fā)現(xiàn)一男子墜樓,遂報(bào)警。民警趕到時(shí),墜樓男子已身亡。校方負(fù)責(zé)人稱,死者并非校內(nèi)人員。事發(fā)后,校內(nèi)也未發(fā)現(xiàn)財(cái)物損失。記者盧成漢。
      [0040]本實(shí)施例的新聞?wù)牡男侣勗邮录槿〔襟E如圖1所示:
      [0041]步驟一、對(duì)新聞?wù)Z料的新聞?wù)倪M(jìn)行除雜處理:
      [0042]①、去掉小括號(hào)和方括號(hào)中的內(nèi)容。如將本實(shí)施例的新聞?wù)闹械摹澳承?號(hào)女生宿舍樓5樓一位女生小瑩(化名)發(fā)現(xiàn)”替換為“某校5號(hào)女生宿舍樓5樓一位女生小瑩發(fā)現(xiàn)”;又如將本實(shí)施例的新聞?wù)闹械摹皳?jù)@荊州開發(fā)區(qū)警方[微博]介紹”替換為“據(jù)@荊州開發(fā)區(qū)警方介紹”。
      [0043]②、將英文雙引號(hào)替換為中文雙引號(hào)。如將本實(shí)施例的新聞?wù)闹械摹爸宦犚姟ㄟ恕ǖ囊宦暋碧鎿Q為“只聽見“咚”的一聲”。[0044]③、去掉符號(hào)。如將本實(shí)施例的新聞?wù)闹械摹皳?jù)O荊州開發(fā)區(qū)警方[微博]介紹”替換為“據(jù)荊州開發(fā)區(qū)警方介紹”。
      [0045]④、根據(jù)新聞?wù)慕Y(jié)尾的記者信息模式和媒體信息模式過濾掉新聞?wù)慕Y(jié)尾與事件抽取無關(guān)的信息。本實(shí)施例所述的新聞?wù)慕Y(jié)尾的記者信息模式和媒體信息模式是通過對(duì)所收集的新聞?wù)慕Y(jié)尾的記者信息和媒體信息進(jìn)行模式聚類得出的信息模式。其中新聞?wù)慕Y(jié)尾的記者信息模式是:新聞?wù)淖詈笠粋€(gè)句子長度不超過10個(gè)漢字且含有“記者”二字,則為新聞?wù)慕Y(jié)尾與事件抽取無關(guān)的信息;其中新聞?wù)慕Y(jié)尾的媒體信息模式是:新聞?wù)淖詈笠粋€(gè)句子中含有“媒體名+報(bào)社I報(bào)I社I網(wǎng)+報(bào)道I訊”結(jié)構(gòu),則為新聞?wù)慕Y(jié)尾與事件抽取無關(guān)的信息。如本實(shí)施例的新聞?wù)淖詈笠粋€(gè)句子“記者盧成漢。”長度不超過?ο個(gè)漢字且含有“記者”二字,符合所述記者信息模式,故將該句去掉。[0046]得到除雜處理后的新聞?wù)?
      [0047]據(jù)荊州開發(fā)區(qū)警方介紹,昨晨2時(shí),某校5號(hào)女生宿舍樓5樓一位女生小瑩發(fā)現(xiàn),一男子借助停在一樓的一輛木板拖車,順著一樓的鐵質(zhì)防盜網(wǎng),翻入該宿舍二樓,她把此事通知宿管員。宿管員的丈夫便向樓上巡查,當(dāng)行到3樓時(shí),只聽見“咚”的一聲,大家查看時(shí),發(fā)現(xiàn)一男子墜樓,遂報(bào)警。民警趕到時(shí),墜樓男子已身亡。校方負(fù)責(zé)人稱,死者并非校內(nèi)人員。事發(fā)后,校內(nèi)也未發(fā)現(xiàn)財(cái)物損失。
      [0048]步驟二、利用Stanford Word Segmenter軟件對(duì)新聞標(biāo)題和除雜處理后的新聞?wù)倪M(jìn)行中文分詞,得到新聞標(biāo)題的中文分詞結(jié)果和新聞?wù)牡闹形姆衷~結(jié)果。
      [0049]本實(shí)施例的新聞標(biāo)題的中文分詞結(jié)果是:
      [0050]男子翻入女生寢室被發(fā)現(xiàn)后墜樓身亡
      [0051]本實(shí)施例的新聞?wù)牡闹形姆衷~結(jié)果是:
      [0052]據(jù)荊州開發(fā)區(qū)警方介紹,昨晨2時(shí),某校5號(hào)女生宿舍樓5樓一位女生小瑩發(fā)現(xiàn),一男子借助停在一樓的一輛木板拖車,順著一樓的鐵質(zhì)防盜網(wǎng),翻入該宿舍二樓,她把此事通知宿管員。宿管員的丈夫便向樓上巡查,當(dāng)行到3樓時(shí),只聽見“咚”的一聲,大家查看時(shí),發(fā)現(xiàn)一男子墜樓,遂報(bào)警。民警趕到時(shí),墜樓男子已身亡。校方負(fù)責(zé)人稱,死者并非校內(nèi)人員。事發(fā)后,校內(nèi)也未發(fā)現(xiàn)財(cái)物損失。
      [0053]步驟三、利用Stanford Named Entity Recognizer軟件對(duì)新聞?wù)牡闹形姆衷~結(jié)果和新聞標(biāo)題的中文分詞結(jié)果進(jìn)行命名實(shí)體識(shí)別,得到新聞?wù)牡拿麑?shí)體識(shí)別結(jié)果和新聞標(biāo)題的命名實(shí)體識(shí)別結(jié)果。
      [0054]本實(shí)施例的新聞標(biāo)題的命名實(shí)體識(shí)別結(jié)果是:
      [0055]男子/0翻入/0女生/0寢室/0被/0發(fā)現(xiàn)/0后/0墜樓/0身亡/0
      [0056]本實(shí)施例的新聞?wù)牡拿麑?shí)體識(shí)別結(jié)果是:
      [0057]據(jù)/0荊州/GPE開發(fā)區(qū)/LOC警方/0介紹/0,/0昨晨/02/0時(shí)/0,/0某/0校/05/0號(hào)/0女生/0宿舍樓/05/0樓/0 — /0位/0女生/0小瑩/PERSON發(fā)現(xiàn)/0,/0 一 /0男子/0借助/0停/0在/0 — /MISC樓/0的/0 — /0輛/0木板/0拖車/0,/0順/0著/
      O一 /MISC樓/0的/0鐵質(zhì)/0防盜網(wǎng)/0,/0翻入/0該/0宿舍/0 二 /MISC樓/0,/0她/O把/0此/0事/0通知/0宿管員/O。/0宿管員/0的/0丈夫/0便/0向/0樓上/0巡查 /0,/0 當(dāng)行 /0 到 /03/0 樓 /0 時(shí) /0,/0 只 /0 聽見 /0 “/0 咚 /O,,/0 的 /0 — /0 聲 /0,/O大家/0查看/0時(shí)/0,/0發(fā)現(xiàn)/0 — /0男子/0墜樓/0,/0遂/0報(bào)警/O。/0民警/0趕到/0時(shí)/0,/0墜樓/0男子/0已/0身亡/O。/0校方/0負(fù)責(zé)人/0稱/0,/0死者/0并/O非/0校內(nèi)/0人員/O。/0事/0發(fā)/0后/0,/0校內(nèi)/0也/0未/0發(fā)現(xiàn)/0財(cái)物/0損失
      /O。/0
      [0058]步驟四、利用Stanford POS Tagger軟件對(duì)新聞?wù)牡闹形姆衷~結(jié)果和新聞標(biāo)題的中文分詞結(jié)果進(jìn)行詞性標(biāo)注,得到新聞?wù)牡脑~性標(biāo)注結(jié)果和新聞標(biāo)題的詞性標(biāo)注結(jié)
      果O
      [0059]本實(shí)施例的新聞標(biāo)題的詞性標(biāo)注結(jié)果是:
      [0060]男子/NN,IlA /VV,女生/NN,寢室/NN,被/SB,發(fā)現(xiàn)/W,后/LC,墜樓/W,身亡/W,
      [0061]本實(shí)施例的新聞?wù)牡脑~性標(biāo)注結(jié)果是:
      [0062]據(jù)/P,荊州 /NR,開發(fā)區(qū) /NN,警方 /NN,介紹 /VV,,/PU,昨晨 /NN, 2/CD,時(shí) /NN,,/PU,某/DT,校/NN,5/CD,號(hào)/M,女生/NN,宿舍樓/NN,5/0D,樓/NN,一/CD,位/M,女生 /NN,小瑩 /NR,發(fā)現(xiàn) /VV,,/PU, 一 /CD,男子 /NN,借助 /VV,停 /VV,在 /P,一 /CD,樓/M,的/DEG,一/CD,輛/M,木板/NN,拖車/NN,,/PU,順/W,著/AS,一/CD,樓/M,的 /DEG,鐵質(zhì) /NN,防盜網(wǎng) /NN,,/PU,翻入 /VV,該 /DT,宿舍 /NN, 二 /0D,樓 /NN,,/PU,她 /PN,把/BA,此/DT,事/NN,通知/VV,宿管員/NN,。/PU,宿管員/NN,的/DEG,丈夫/NN,便 /AD,向 /P,樓上 /NN,巡查 /W,,/PU,當(dāng)行 /W,到 /W,3/0D,樓 /M,時(shí) /NN,,/PU,只/AD,聽見 /VV, “/CD,咚 /M, "/NN,的 /DEG, 一 /CD,聲 /M,,/PU,大家 /PN,查看 /VV,時(shí)/LC,,/PU,發(fā)現(xiàn) /W,一 /CD,男子 /NN,墜樓 /W,,/PU,遂 /AD,報(bào)警 /W,。/PU,民警 /NN,趕到/W,時(shí)/LC,,/PU,墜樓/W,男子/NN,B/AD,身亡/W,。/PU,校方/NN,負(fù)責(zé)人 /NN,稱 /VV,,/PU,死者 /NN,并 /AD,非 /VC,校內(nèi) /NN,人員 /NN,。/PU,事 /NN,發(fā) /VV,后 /LC,,/PU,校內(nèi) /NN,也 /AD,未 /AD,發(fā)現(xiàn) /W,財(cái)物 /NN,損失 /NN,。/PU,
      [0063]步驟五、根據(jù)待過濾動(dòng)詞詞表對(duì)新聞?wù)牡脑~性標(biāo)注結(jié)果和新聞標(biāo)題的詞性標(biāo)注結(jié)果進(jìn)行動(dòng)詞過濾,得到動(dòng)詞過濾后的新聞?wù)牡脑~性標(biāo)注結(jié)果和動(dòng)詞過濾后的新聞標(biāo)題的詞性標(biāo)注結(jié)果。
      [0064]本實(shí)施例的所述待過濾動(dòng)詞詞表是由對(duì)選取事件謂詞影響較大和在新聞?wù)闹谐霈F(xiàn)頻率較高的趨向動(dòng)詞、意向動(dòng)詞、言說動(dòng)詞和致使動(dòng)詞構(gòu)成的動(dòng)詞詞表。待過濾動(dòng)詞詞表的具體使用方法是:
      [0065]趨向動(dòng)詞詞表使用方法:(I)如果相鄰的兩個(gè)詞符合“動(dòng)詞+介詞”結(jié)構(gòu),則將這個(gè)動(dòng)詞確定為趨向動(dòng)詞,將其標(biāo)簽替換為“FilterVV”;如本實(shí)施例的新聞?wù)牡脑~性標(biāo)注結(jié)果中相鄰的兩個(gè)詞“停/W,在/P,”符合“動(dòng)詞+介詞”結(jié)構(gòu),則將“?!贝_定為趨向動(dòng)詞,將其標(biāo)簽替換為“FilterVV”。(2)如果一句話中含有“動(dòng)詞+內(nèi)容+動(dòng)詞”結(jié)構(gòu)且第一個(gè)動(dòng)詞能夠和趨向動(dòng)詞詞表中的一項(xiàng)匹配,則將第一個(gè)動(dòng)詞確定為趨向動(dòng)詞,將其標(biāo)簽替換為“FilterVV”。如本實(shí)施例的新聞?wù)牡脑~性標(biāo)注結(jié)果中“到/W,3/0D,樓/M,時(shí)/NN,,/PU,只/AD,聽見/W,”符合“動(dòng)詞+內(nèi)容+動(dòng)詞”結(jié)構(gòu)且第一個(gè)動(dòng)詞“到”能夠和趨向動(dòng)詞詞表中的一項(xiàng)匹配,則將“到”確定為趨向動(dòng)詞,將其標(biāo)簽替換為“FilterVV”。
      [0066]意向動(dòng)詞詞表使用方法:如果一句話中含有“動(dòng)詞+內(nèi)容+動(dòng)詞”結(jié)構(gòu)且第一個(gè)動(dòng)詞能夠和意向動(dòng)詞詞表詞表中的一項(xiàng)進(jìn)行匹配,則將第一個(gè)動(dòng)詞確定為意向動(dòng)詞,將其標(biāo)簽替換為“FilterVV”。如本實(shí)施例的新聞標(biāo)題的詞性標(biāo)注結(jié)果中“發(fā)現(xiàn)/W,后/LC,墜樓/VV, ”符合“動(dòng)詞+內(nèi)容+動(dòng)詞”結(jié)構(gòu)且第一個(gè)動(dòng)詞“發(fā)現(xiàn)”能夠和意向動(dòng)詞詞表中的一項(xiàng)進(jìn)行匹配,則將“發(fā)現(xiàn)”確定為意向動(dòng)詞,將其標(biāo)簽替換為“FilterVV”。
      [0067]言說動(dòng)詞詞表使用方法:如果一句話中含有“動(dòng)詞+內(nèi)容+動(dòng)詞”結(jié)構(gòu)且第一個(gè)動(dòng)詞能夠和言說動(dòng)詞詞表中的一項(xiàng)進(jìn)行匹配,則將第一個(gè)動(dòng)詞確定為言說動(dòng)詞,將其標(biāo)簽替換為“FilterVV”。如本實(shí)施例的新聞?wù)牡脑~性標(biāo)注結(jié)果中“稱/W,,/PU,死者/NN,并/AD,非/VC,”符合“動(dòng)詞+內(nèi)容+動(dòng)詞”結(jié)構(gòu)且第一個(gè)動(dòng)詞“稱”能夠和言說動(dòng)詞詞表中的一項(xiàng)進(jìn)行匹配,則“稱”屬于言說動(dòng)詞,將其標(biāo)簽替換為“FilterVV”。
      [0068]致使動(dòng)詞詞表使用方法:如果一句話中含有“動(dòng)詞+內(nèi)容+名詞+動(dòng)詞”結(jié)構(gòu)且第一個(gè)動(dòng)詞能夠和致使動(dòng)詞詞表中的一項(xiàng)進(jìn)行匹配、或一句話中含有“動(dòng)詞+內(nèi)容+名詞+動(dòng)詞+名詞”結(jié)構(gòu)且第一個(gè)動(dòng)詞能夠和致使動(dòng)詞詞表中的一項(xiàng)進(jìn)行匹配,則將第一個(gè)動(dòng)詞確定為致使動(dòng)詞,將其標(biāo)簽替換為“FilterVV”。
      [0069]本實(shí)施例的動(dòng)詞過濾后的新聞標(biāo)題的詞性標(biāo)注結(jié)果是:
      [0070]男子/NN,翻入/W,女生/NN,寢室/NN,被/SB,發(fā)現(xiàn)/FilterVV,后/LC,墜樓/VV,身亡/W,
      [0071]本實(shí)施例的動(dòng)詞過濾后的新聞?wù)牡脑~性標(biāo)注結(jié)果是:
      [0072]據(jù)/P,荊州 /NR,開發(fā)區(qū) /NN,警方 /NN,介紹 /FilterVV,,/PU,昨晨 /NN, 2/CD,時(shí) /NN,,/PU,某 /DT,校 /NN, 5/CD,號(hào) /M,女生 /NN,宿舍樓 /NN, 5/0D 樓 /NN 一 /CD,位 /M,女生/NN,小瑩/NR,發(fā)現(xiàn)/FilterVV, ,/PU,一/CD,男子/NN,借助/W,停/FilterVV,在 /P,一 /CD,樓 /M,的 /DEG, 一 /CD,輛 /M,木板 /NN,拖車 /NN,,/PU,順 /VV,著 /AS,一/CD,m/% 的/DEG,鐵質(zhì)/NN,防盜網(wǎng)/NN,,/PU,IlA /VV,該/DT,宿舍/NN,二/0D,樓 /NN,,/PU,她 /PN,把 /BA,此 /DT,事 /NN,通知 /VV,宿管員 /NN,。/PU,宿管員 /NN,的/DEG,丈夫/NN,便/AD,向/P,樓上/NN,巡查/W,,/PU,當(dāng)行/W,到/FilterVV, 3/0D,樓 /M,時(shí) /NN,,/PU,只 /AD,聽見 /FilterVV, “/CD,咚 /M, ”/NN,的 /DEG, 一 /CD,聲 /M, ,/PU,大家 /PN,查看 /VV,時(shí) /LC, ,/PU,發(fā)現(xiàn) /FilterVV, 一 /CD,男子 /NN,墜樓 /VV, ,/PU,遂/AD,報(bào)警/W,。/PU,民警/NN,趕到/W,時(shí)/LC,,/PU,墜樓/W,男子/NN,已/AD,身亡/W,。/PU,校方/NN,負(fù)責(zé)人/NN,稱/FilterVV,,/PU,死者/NN,并/AD,非/VC,校內(nèi) /NN,人員 /NN,。/PU,事 /NN,發(fā) /VV,后 /LC,,/PU,校內(nèi) /NN,也 /AD,未 /AD,發(fā)現(xiàn)/W,財(cái)物/NN,損失/NN,。/PU,
      [0073]步驟六、根據(jù)初步融合規(guī)則庫對(duì)所述動(dòng)詞過濾后的新聞?wù)牡脑~性標(biāo)注結(jié)果和所述新聞?wù)牡拿麑?shí)體識(shí)別結(jié)果進(jìn)行初步融合,得到新聞?wù)牡某醪饺诤辖Y(jié)果;根據(jù)初步融合規(guī)則庫對(duì)所述動(dòng)詞過濾后的新聞標(biāo)題的詞性標(biāo)注結(jié)果和所述新聞標(biāo)題的命名實(shí)體識(shí)別結(jié)果進(jìn)行初步融合,得到新聞標(biāo)題的初步融合結(jié)果。
      [0074]本實(shí)施例所述的初步融合規(guī)則庫是由命名實(shí)體標(biāo)簽的選擇規(guī)則、書名號(hào)所標(biāo)志成分的識(shí)別規(guī)則、時(shí)間信息單元的識(shí)別規(guī)則、連續(xù)相同標(biāo)簽的合并規(guī)則和“PU”標(biāo)簽的省略規(guī)則所構(gòu)成的規(guī)則庫。具體規(guī)則是:
      [0075]命名實(shí)體標(biāo)簽的選擇規(guī)則:如果一個(gè)詞在命名實(shí)體識(shí)別結(jié)果中的標(biāo)簽為“PERS0N”、“L0C”、“0RG”或“GPE”,則將該詞在動(dòng)詞過濾后的詞性標(biāo)注結(jié)果中的標(biāo)簽替換為該詞在命名實(shí)體識(shí)別結(jié)果中的標(biāo)簽。如本實(shí)施例的新聞?wù)牡拿麑?shí)體識(shí)別結(jié)果中的“荊州”標(biāo)簽為“GPE”,則將“荊州”在本實(shí)施例的動(dòng)詞過濾后的新聞?wù)牡脑~性標(biāo)注結(jié)果中的標(biāo)簽“NR”替換為“荊州”在本實(shí)施例的新聞?wù)牡拿麑?shí)體識(shí)別結(jié)果中的標(biāo)簽“GPE”。
      [0076]書名號(hào)所標(biāo)志成分的識(shí)別規(guī)則:根據(jù)書名號(hào)把書名號(hào)和被拆分的書名號(hào)之間的成分進(jìn)行合并,賦予“NN”標(biāo)簽。
      [0077]時(shí)間信息單元的識(shí)別規(guī)則:1)如果相鄰的兩個(gè)詞符合“數(shù)字+年I月I日I時(shí)分I秒”結(jié)構(gòu),將相鄰的兩個(gè)詞合并,賦予標(biāo)簽“T”;如本實(shí)施例的動(dòng)詞過濾后的新聞?wù)牡脑~性標(biāo)注結(jié)果中相鄰的兩個(gè)詞“2時(shí)”符合“數(shù)字+時(shí)”結(jié)構(gòu),將相鄰的兩個(gè)詞“2時(shí)”合并為“2時(shí)”,賦予標(biāo)簽“T”。2)如果一個(gè)詞被標(biāo)記為“NT”,則將其標(biāo)簽替換為“T”。
      [0078]連續(xù)相同標(biāo)簽的合并規(guī)則:將動(dòng)詞過濾后的詞性標(biāo)注結(jié)果中連續(xù)具有相同標(biāo)簽的詞進(jìn)行合并,合并后詞語的標(biāo)簽類型與合并前詞語的標(biāo)簽類型相同。如本實(shí)施例動(dòng)詞過濾后的新聞?wù)牡脑~性標(biāo)注結(jié)果中的“校內(nèi)人員”連續(xù)具有相同標(biāo)簽“NN”,將其合并為“校內(nèi)人員”,合并后詞語“校內(nèi)人員”的標(biāo)簽類型與合并前詞語“人員”的標(biāo)簽類型“NN”相同。
      [0079]“TO”標(biāo)簽的省略規(guī)則:省略掉動(dòng)詞過濾后的新聞?wù)牡脑~性標(biāo)注結(jié)果中所有標(biāo)點(diǎn)符號(hào)的“PU”標(biāo)簽。如本實(shí)施例的動(dòng)詞過濾后的新聞?wù)牡脑~性標(biāo)注結(jié)果中標(biāo)點(diǎn)符號(hào)“。/PU, ’’替換為“?!?。
      [0080]本實(shí)施例的新聞標(biāo)題的初步融合結(jié)果是:
      [0081]男子/NN,翻入/W,女生寢室/NN,被/SB,發(fā)現(xiàn)/FilterVV,后/LC,墜樓身亡/W,
      [0082]本實(shí)施例的新聞?wù)牡某醪饺诤辖Y(jié)果是:
      [0083]據(jù)/P荊州/GPE開發(fā)區(qū)/LOC警方/NN介紹/FilterVV,昨晨/NN2時(shí)/T,某/DT校/NN5/CD號(hào)/M女生宿舍樓/NN5/0D樓/NN — /CD位/M女生/NN小瑩/PERSON發(fā)現(xiàn)/FilterVV, 一 /CD 男子 /NN 借助 /W 停 /FilterVV 在 /P — /CD 樓 /M 的 /DEG — /CD 輛 /M木板拖車/NN,順/VV著/AS — /⑶樓/M的/DEG鐵質(zhì)防盜網(wǎng)/NN,翻入/VV該/DT宿舍/NN二 /OD樓/NN,她/PN把/BA此/DT事/NN通知/VV宿管員/NN。宿管員/NN的/DEG丈夫/NN便/AD向/P樓上/NN巡查/W,當(dāng)行/VV到/FilterVV3/0D樓/M時(shí)/NN,只/AD聽見/FilterVV “/CD 咚 /M” /NN 的 /DEG 一 /CD 聲 /M,大家 /PN 查看 /VV 時(shí) /LC,發(fā)現(xiàn) /FilterVV一 /⑶男子/NN墜樓/W,遂/AD報(bào)警/W。民警/NN趕到/VV時(shí)/LC,墜樓/VV男子/NN已/AD身亡/W。校方負(fù)責(zé)人/NN稱/FilterVV,死者/NN并/AD非/VC校內(nèi)人員/NN。事/NN發(fā)/VV后/LC,校內(nèi)/NN也未/AD發(fā)現(xiàn)/VV財(cái)物損失/NN。
      [0084]步驟七、根據(jù)信息單元融合規(guī)則庫對(duì)新聞?wù)牡某醪饺诤辖Y(jié)果和新聞標(biāo)題的初步融合結(jié)果進(jìn)行信息單元融合,得到新聞?wù)牡男畔卧诤辖Y(jié)果和新聞標(biāo)題的信息單元融合結(jié)果。
      [0085]本實(shí)施例的所述信息單元融合規(guī)則庫是由介詞單元融合規(guī)則、名詞單元融合規(guī)貝U、狀語單元融合規(guī)則、命名實(shí)體單元融合規(guī)則和修飾語單元融合規(guī)則所構(gòu)成的規(guī)則庫。信息單元融合規(guī)則庫如表I所示。
      [0086]表I信息單元融合規(guī)則庫
      [0087]
      【權(quán)利要求】
      1.一種基于信息單元融合的新聞原子事件抽取方法,其特征在于所述方法 的具體步驟是: 步驟一、對(duì)新聞?wù)Z料的新聞?wù)倪M(jìn)行除雜處理: ①、去掉小括號(hào)和方括號(hào)中的內(nèi)容, ②、將英文雙引號(hào)替換為中文雙引號(hào), ③、去掉“O”符號(hào), ④、根據(jù)新聞?wù)慕Y(jié)尾的記者信息模式和媒體信息模式過濾掉新聞?wù)慕Y(jié)尾與事件抽取無關(guān)的信息, 得到除雜處理后的新聞?wù)模? 步驟二、利用Stanford Word Segmenter軟件對(duì)新聞標(biāo)題和除雜處理后的新聞?wù)倪M(jìn)行中文分詞,得到新聞標(biāo)題的中文分詞結(jié)果和新聞?wù)牡闹形姆衷~結(jié)果; 步驟三、利用Stanford Named Entity Recognizer軟件對(duì)新聞?wù)牡闹形姆衷~結(jié)果和新聞標(biāo)題的中文分詞結(jié)果進(jìn)行命名實(shí)體識(shí)別,得到新聞?wù)牡拿麑?shí)體識(shí)別結(jié)果和新聞標(biāo)題的命名實(shí)體識(shí)別結(jié)果; 步驟四、利用Stanford POS Tagger軟件對(duì)新聞?wù)牡闹形姆衷~結(jié)果和新聞標(biāo)題的中文分詞結(jié)果進(jìn)行詞性標(biāo)注,得到新聞?wù)牡脑~性標(biāo)注結(jié)果和新聞標(biāo)題的詞性標(biāo)注結(jié)果; 步驟五、根據(jù)待過濾動(dòng)詞詞表對(duì)新聞?wù)牡脑~性標(biāo)注結(jié)果和新聞標(biāo)題的詞性標(biāo)注結(jié)果進(jìn)行動(dòng)詞過濾,得到動(dòng)詞過濾后的新聞?wù)牡脑~性標(biāo)注結(jié)果和動(dòng)詞過濾后的新聞標(biāo)題的詞性標(biāo)注結(jié)果; 步驟六、根據(jù)初步融合規(guī)則庫對(duì)所述動(dòng)詞過濾后的新聞?wù)牡脑~性標(biāo)注結(jié)果和所述新聞?wù)牡拿麑?shí)體識(shí)別結(jié)果進(jìn)行初步融合,得到新聞?wù)牡某醪饺诤辖Y(jié)果;根據(jù)初步融合規(guī)則庫對(duì)所述動(dòng)詞過濾后的新聞標(biāo)題的詞性標(biāo)注結(jié)果和所述新聞標(biāo)題的命名實(shí)體識(shí)別結(jié)果進(jìn)行初步融合,得到新聞標(biāo)題的初步融合結(jié)果; 步驟七、根據(jù)信息單元融合規(guī)則庫對(duì)新聞?wù)牡某醪饺诤辖Y(jié)果和新聞標(biāo)題 的初步融合結(jié)果進(jìn)行信息單元融合,得到新聞?wù)牡男畔卧诤辖Y(jié)果和新聞標(biāo)題的信息單元融合結(jié)果; 步驟八、根據(jù)核心詞表和事件抽取規(guī)則庫對(duì)新聞?wù)牡男畔卧诤辖Y(jié)果進(jìn)行原子事件抽取,得到新聞?wù)牡脑邮录槿〗Y(jié)果。
      2.根據(jù)權(quán)利要求1所述的基于信息單元融合的新聞原子事件抽取方法,其特征在于所述新聞?wù)慕Y(jié)尾的記者信息模式和媒體信息模式是通過對(duì)所收集的新聞?wù)慕Y(jié)尾的記者信息和媒體信息進(jìn)行模式聚類得出的信息模式。
      3.根據(jù)權(quán)利要求1所述的基于信息單元融合的新聞原子事件抽取方法,其特征在于所述待過濾動(dòng)詞詞表是由對(duì)選取事件謂詞影響較大和在新聞?wù)闹谐霈F(xiàn)頻率較高的趨向動(dòng)詞、意向動(dòng)詞、言說動(dòng)詞和致使動(dòng)詞構(gòu)成的動(dòng)詞詞表。
      4.根據(jù)權(quán)利要求1所述的基于信息單元融合的新聞原子事件抽取方法,其特征在于所述初步融合規(guī)則庫是由命名實(shí)體標(biāo)簽的選擇規(guī)則、書名號(hào)所標(biāo)志成分的識(shí)別規(guī)則、時(shí)間信息單元的識(shí)別規(guī)則、連續(xù)相同標(biāo)簽的合并規(guī)則和“PU”標(biāo)簽的省略規(guī)則所構(gòu)成的規(guī)則庫。
      5.根據(jù)權(quán)利要求1所述的基于信息單元融合的新聞原子事件抽取方法,其特征在于所述信息單元融合規(guī)則庫是由介詞單元融合規(guī)則、名詞單元融合規(guī)則、狀語單元融合規(guī)則、命名實(shí)體單元融合規(guī)則和修飾語單元融合規(guī)則所構(gòu)成的規(guī)則庫。
      6.根據(jù)權(quán)利要求1所述的基于信息單元融合的新聞原子事件抽取方法,其特征在于所述核心詞表是通過統(tǒng)計(jì)新聞標(biāo)題的信息單元融合結(jié)果所得詞表和通過統(tǒng)計(jì)新聞?wù)牡男畔卧诤辖Y(jié)果所得詞表的集合;其中:通過統(tǒng)計(jì)新聞標(biāo)題的信息單元融合結(jié)果所得詞表是通過統(tǒng)計(jì)新聞標(biāo)題的信息單元融合結(jié)果中的動(dòng)詞和名詞所得詞表;通過統(tǒng)計(jì)新聞?wù)牡男畔卧诤辖Y(jié)果所得詞表是通過統(tǒng)計(jì)新聞?wù)牡男畔卧诤辖Y(jié)果中的命名實(shí)體、被標(biāo)記為“DEG”標(biāo)簽的“的”字后邊的名詞、詞頻大于I次的動(dòng)詞和詞頻大于I次的名詞所得詞表。
      7.根據(jù)權(quán)利要求1所述的基于信息單元融合的新聞原子事件抽取方法,其特征在于所述事件抽取規(guī)則庫是由權(quán)值分配規(guī)則、新聞?wù)牡男畔卧诤辖Y(jié)果的句子切分規(guī)則、新聞?wù)牡男畔卧诤辖Y(jié)果的原子句切分規(guī)則、“把” 字句抽取規(guī)則、“被”字句抽取規(guī)則、一般句抽取規(guī)則和時(shí)間空間抽取規(guī)則構(gòu)成的規(guī)則庫。
      【文檔編號(hào)】G06F17/30GK103838870SQ201410108447
      【公開日】2014年6月4日 申請(qǐng)日期:2014年3月21日 優(yōu)先權(quán)日:2014年3月21日
      【發(fā)明者】劉茂福, 張賀 申請(qǐng)人:武漢科技大學(xué)
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1