国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于模式自學(xué)習(xí)的中文開放式關(guān)系抽取方法_2

      文檔序號:9417340閱讀:來源:國知局
      1、nr、ns、nt、nz、r等類型的單詞聚合為n。對于給定例句而言,由于nr表示人名,根據(jù)上述聚合方法,最終得到的模式是“ SBV (n) -Root (V) -VOB (η) ”。
      [0029]步驟102、待抽取文本進(jìn)行模式匹配和實(shí)體關(guān)系元組抽取:
      [0030]首先對待抽取語句按照步驟202所述,使用自然語言處理工具進(jìn)行分詞、詞性標(biāo)注和依存分析等操作。然后使用經(jīng)步驟101學(xué)習(xí)得到的關(guān)系模式,對待抽取語句進(jìn)行模式匹配,得到目標(biāo)關(guān)系元組?;谀J狡ヅ鋵?shí)現(xiàn)關(guān)系抽取的流程圖如圖3所示,包括如下步驟:候選實(shí)體識別、關(guān)系模式選擇與關(guān)系抽取、關(guān)系擴(kuò)展。
      [0031]步驟301、候選實(shí)體識別:
      為識別待抽取語句的中候選實(shí)體短語,首先選擇其中的動詞作為候選關(guān)系詞。將該候選關(guān)系詞視為依存關(guān)系樹中的一個結(jié)點(diǎn),若其左子樹結(jié)點(diǎn)為名詞,則將其作為候選實(shí)體的核心詞。同理可以通過右子樹識別候選關(guān)系詞的另一候選實(shí)體的核心詞。通過依存關(guān)系分析得到的僅僅是實(shí)體的核心詞,為豐富候選實(shí)體的信息,需要將實(shí)體核心詞和所在子樹中名詞性成分進(jìn)行合并以實(shí)現(xiàn)實(shí)體擴(kuò)展。
      [0032]步驟302、關(guān)系模式選擇和關(guān)系抽取:
      [0033]在基于模式匹配實(shí)現(xiàn)關(guān)系抽取的過程中,會出現(xiàn)對于同一待抽取語句,可能存在多個模式同時適用的情況。針對這種情況,本發(fā)明根據(jù)先驗(yàn)概率進(jìn)行模式選擇。具體方法是,在步驟101的執(zhí)行階段,在進(jìn)行模式學(xué)習(xí)的同時,統(tǒng)計(jì)所學(xué)習(xí)到的模式在訓(xùn)練語料中的出現(xiàn)頻率,經(jīng)歸一化處理后作為模式的先驗(yàn)概率。當(dāng)出現(xiàn)多個模式同時匹配某一語句的情況時,選擇先驗(yàn)概率較高的模式作為關(guān)系抽取依據(jù),從目標(biāo)語句中抽取實(shí)體關(guān)系元組。
      [0034]步驟303、關(guān)系擴(kuò)展:
      [0035]本步驟的主要任務(wù)是對抽取的動詞性關(guān)系核心詞進(jìn)行擴(kuò)展,同時可以將基于模式匹配抽取得到的二元關(guān)系擴(kuò)展為多元關(guān)系。具體實(shí)現(xiàn)方法描述如下。
      [0036]若待抽取語句中存在某個動詞的依存分析角色為補(bǔ)足語(CMP),且該動詞和抽取得到的關(guān)系元組中的核心動詞間存在一條依存路徑直接相連,則將該動詞和關(guān)系元組中的核心動詞進(jìn)行合并。若待抽取語句中包含介詞,而且有抽取得到的關(guān)系元組之外的實(shí)體與該介詞相連,則將該二元關(guān)系擴(kuò)展為多元關(guān)系。
      [0037]步驟103、使用機(jī)器學(xué)習(xí)的方法對抽取的關(guān)系元組進(jìn)行質(zhì)量評估:
      [0038]采用機(jī)器學(xué)習(xí)的方法對從中文語料中自動抽取出的實(shí)體關(guān)系進(jìn)行質(zhì)量評估,得到高質(zhì)量的實(shí)體關(guān)系元組。本方法中使用邏輯斯蒂分類器進(jìn)行質(zhì)量評估,分類器采用淺層詞法特征和語義特征進(jìn)行構(gòu)造,典型特征包括句子的長短、實(shí)體和關(guān)系詞間的距離、實(shí)體和關(guān)系詞的依存語義角色等。對該分類器采用人工構(gòu)造的訓(xùn)練樣本進(jìn)行訓(xùn)練,訓(xùn)練樣本通過應(yīng)用本發(fā)明提出的實(shí)體關(guān)系抽取方法,對開放語料進(jìn)行關(guān)系抽取而得到。樣本經(jīng)專家人工判別后分為兩類,一類是正樣本,表示關(guān)系抽取的結(jié)果正確,一類是負(fù)樣本,表示關(guān)系抽取的結(jié)果不正確。經(jīng)過訓(xùn)練的邏輯斯蒂分類模型將被用于質(zhì)量評估,根據(jù)用戶選定的置信區(qū)間,對本發(fā)明提出的關(guān)系抽取方法的輸出結(jié)果進(jìn)行自動評估,并過濾掉低置信度的結(jié)果。
      [0039]本發(fā)明公布的一種基于模式自學(xué)習(xí)的中文開放式關(guān)系抽取方法具有以下特點(diǎn):本發(fā)明通過高質(zhì)量的實(shí)體關(guān)系元組和相應(yīng)的句子語料學(xué)習(xí)得到依存路徑關(guān)系模式,并用于抽取關(guān)系元組。本方法學(xué)習(xí)得到的依存路徑模式中包含詞匯的語義信息,相對于僅包含詞法、句法信息的模式,提高了關(guān)系抽取的準(zhǔn)確率和召回率。同時為減少關(guān)系抽取的信息損失,方法通過依存樹對抽取的實(shí)體核心詞進(jìn)行擴(kuò)展以及通過介詞將二元關(guān)系擴(kuò)展為多元關(guān)系。
      [0040]盡管上面對本發(fā)明說明性的【具體實(shí)施方式】進(jìn)行了描述,以便于本技術(shù)領(lǐng)的技術(shù)人員理解本發(fā)明,但應(yīng)該清楚,本發(fā)明不限于【具體實(shí)施方式】的范圍,對本技術(shù)領(lǐng)域的普通技術(shù)人員來講,只要各種變化在所附的權(quán)利要求限定和確定的本發(fā)明的精神和范圍內(nèi),這些變化是顯而易見的,一切利用本發(fā)明構(gòu)思的發(fā)明創(chuàng)造均在保護(hù)之列。
      【主權(quán)項(xiàng)】
      1.一種基于依存關(guān)系模式的開放式中文實(shí)體關(guān)系抽取方法,其特征在于,包括: 基于大量高質(zhì)量的實(shí)體關(guān)系元組和相應(yīng)語句的訓(xùn)練語料,通過本專利提出的模式學(xué)習(xí)方法得到實(shí)體和關(guān)系詞之間的依存路徑模式; 對待抽取文本進(jìn)行分詞、詞性標(biāo)注和依存分析等預(yù)處理,并使用之前學(xué)習(xí)得到的關(guān)系模式進(jìn)行實(shí)體關(guān)系抽??; 采用機(jī)器學(xué)習(xí)的方法對從中文語料中自動抽取出的實(shí)體關(guān)系進(jìn)行質(zhì)量評估,得到高質(zhì)量的實(shí)體關(guān)系元組。2.根據(jù)權(quán)利要求1所述的方法,其特征在于大量高質(zhì)量的實(shí)體關(guān)系元組和相應(yīng)語句的訓(xùn)練語料構(gòu)建,所述方法包括: 利用知識庫中已有大量高質(zhì)量關(guān)系元組和百科頁面信息框中關(guān)系元組,通過網(wǎng)絡(luò)爬蟲獲得包含每個關(guān)系元組中實(shí)體和關(guān)系詞的對應(yīng)語句,以構(gòu)建關(guān)系元組和相應(yīng)語句的訓(xùn)練語料,用于模式學(xué)習(xí)。 利用中文開放式關(guān)系抽取系統(tǒng)關(guān)系抽取并選擇高質(zhì)量的關(guān)系元組,以構(gòu)建包含關(guān)系元組和相應(yīng)語句的訓(xùn)練語料,用于模式學(xué)習(xí)。3.根據(jù)權(quán)利要求1所述的方法,其特征在于利用大量高質(zhì)量的實(shí)體關(guān)系元組和相應(yīng)語句的訓(xùn)練語料學(xué)習(xí)得到實(shí)體和關(guān)系詞之間的依存路徑模式,所述方法包括: 利用自然語言處理工具對語句進(jìn)行分詞、詞性標(biāo)注和依存分析。結(jié)合訓(xùn)練語句依存分析結(jié)果和對應(yīng)的高質(zhì)量關(guān)系元組進(jìn)行匹配學(xué)習(xí)得到實(shí)體和關(guān)系詞之間的依存路徑模式。4.根據(jù)權(quán)利要求3所述的方法,其特征在于對抽取的大量關(guān)系依存路徑模式進(jìn)行聚類: 通過訓(xùn)練語料學(xué)習(xí)得到的大量依存路徑模式中,存在一些模式表示的實(shí)際含義相同但形式不同。因此,本發(fā)明依據(jù)詞性對模型進(jìn)行聚類以提高模式的覆蓋率和粒度。5.根據(jù)權(quán)利要求1所述的方法,其特征在于,對待抽取文本進(jìn)行預(yù)處理并使用學(xué)習(xí)得到的關(guān)系模式進(jìn)行實(shí)體關(guān)系抽取,所述方法包括: 對待抽取文本進(jìn)行分詞、詞性標(biāo)注、依存分析,然后識別候選實(shí)體核心詞和候選關(guān)系核心詞,最后使用學(xué)習(xí)得到的模式抽取關(guān)系元組。 對同一待抽取語句有多個模式同時符合的情況,本發(fā)明選擇其中高頻率的二元關(guān)系模式抽取關(guān)系元組。然后對待抽取語句中包含介詞的,通過介詞擴(kuò)展為多元關(guān)系。6.根據(jù)權(quán)利要求5所述的方法,其特征在于,識別語句中候選實(shí)體核心詞以及通過依存分析樹對候選實(shí)體進(jìn)行擴(kuò)展,所述方法包括 首先選擇其中詞性為動詞的詞匯作為候選關(guān)系詞。若其依存左子樹結(jié)點(diǎn)為名詞,則將其作為候選實(shí)體的核心詞。同理識別關(guān)系詞的另一個候選實(shí)體的核心詞。 為豐富關(guān)系元組中實(shí)體的信息,對識別的實(shí)體核心詞進(jìn)行實(shí)體擴(kuò)展。具體的是將實(shí)體核心詞和其所在的子樹中名詞性成分進(jìn)行合并。7.根據(jù)權(quán)利要求5所述的方法,其特征在于,對初步抽取的關(guān)系元組中關(guān)系核心詞進(jìn)行擴(kuò)展,所述方法包括 若語句中有動詞的依存分析角色為CMP(Complement),且其和關(guān)系詞在依存樹中是直接相連的,則合并該動詞和關(guān)系元組中核心動詞。 若語句中有動詞和關(guān)系詞直接相連,則合并該動詞和關(guān)系元組中核心動詞。8.根據(jù)權(quán)利要求5所述的方法,其特征在于,對抽取的二元關(guān)系元組進(jìn)行多元擴(kuò)展,所述方法包括 對于抽取關(guān)系元組的語句,若其中包含介詞,而且有新的實(shí)體和介詞相連,則將該實(shí)體作為關(guān)系元組新的實(shí)體,達(dá)到多元擴(kuò)展的效果。9.根據(jù)權(quán)利要求1所述的方法,其特征在于,對抽取的關(guān)系元組進(jìn)行質(zhì)量評估,所述方法包括 對抽取的關(guān)系元組采用機(jī)器學(xué)習(xí)的方法對抽取出的實(shí)體關(guān)系進(jìn)行質(zhì)量評估,得到高質(zhì)量的實(shí)體關(guān)系元組。本方法結(jié)合使用了淺層詞法特征和語義特征。
      【專利摘要】開放式中文實(shí)體關(guān)系抽取是指在不限定語料領(lǐng)域和關(guān)系類別的前提下,自動地從中文語料中抽取出實(shí)體間的關(guān)系信息,得到實(shí)體關(guān)系元組。本發(fā)明公開了一種基于模式自學(xué)習(xí)的中文開放式關(guān)系抽取方法,包括如下三個主要步驟:首先,基于已有知識庫獲取高質(zhì)量的實(shí)體關(guān)系元組和相應(yīng)的句子作為訓(xùn)練語料,通過本發(fā)明提出的模式學(xué)習(xí)方法得到實(shí)體和關(guān)系詞之間的依存路徑模式;然后,對待抽取文本進(jìn)行分詞、詞性標(biāo)注和依存分析等預(yù)處理,并借助之前學(xué)習(xí)得到的關(guān)系模式進(jìn)行實(shí)體關(guān)系抽取;最后,采用機(jī)器學(xué)習(xí)的方法對從中文語料中自動抽取出的實(shí)體關(guān)系進(jìn)行質(zhì)量評估,得到高質(zhì)量的實(shí)體關(guān)系元組。
      【IPC分類】G06F17/27
      【公開號】CN105138507
      【申請?zhí)枴緾N201510475450
      【發(fā)明人】劉嶠, 劉瑤, 秦志光, 其他發(fā)明人請求不公開姓名
      【申請人】電子科技大學(xué)
      【公開日】2015年12月9日
      【申請日】2015年8月6日
      當(dāng)前第2頁1 2 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
      1