專利名稱:文本信息抽取方法和系統(tǒng)的制作方法
技術領域:
本發(fā)明涉及面向互聯(lián)網(wǎng)的自然語言處理領域,具體地說,是涉及一種抽取文本中某種現(xiàn)象或某個事件產(chǎn)生的原因的信息抽取方法和系統(tǒng)。
背景技術:
在互聯(lián)網(wǎng)上,文本是信息表示的最主要方式,人們經(jīng)常會通過互聯(lián)網(wǎng)上的文本來得到想要獲取的信息。文本信息抽取技術是一種精確化和高效的信息獲取手段,它是從一個或多個網(wǎng)頁中抽取指定的實體、關系、事件和事實等用戶需要的信息,并形成結構化的數(shù)據(jù),呈現(xiàn)給用戶,具有內(nèi)容精確、冗余度小、組織規(guī)范等優(yōu)點。目前,基于互聯(lián)網(wǎng)的文本信息抽取技術有兩種常見形式基于包裝器(Wrapper)半結構化文本信息抽取,和基于自然語言處理技術的無結構化文本信息抽取?;诎b器半結構化文本信息抽取技術主要根據(jù)網(wǎng)頁中的HTML 標注生成包裝器并利用包裝器來從半結構化的HTML文本中抽取所需要的信息。如互聯(lián)網(wǎng)的商品價格抽取系統(tǒng)就是它的一個應用實例。目前,絕大多數(shù)的Web信息抽取系統(tǒng)和方法就屬于這一類;基于自然語言處理技術的無結構化文本信息抽取處理的對象是由大段的文字組成的自然文本(如網(wǎng)頁的正文、郵件的正文等),在文字之間并無結構或標注信息。人們在生活中經(jīng)常會問為什么,如“為什么會感冒?”、“網(wǎng)癮的原因是什么? ”、“法航447航班為什么會失事? ”等,其目的是為了了解某個事情的原因。重要的是,從互聯(lián)網(wǎng)文本中抽取某種現(xiàn)象或某個事件的原因,對情報分析、或對軍事決策、或對災難的預警、或對醫(yī)學技術的研發(fā)等方面具有不可估量的價值。這種從互聯(lián)網(wǎng)文本中抽取某種現(xiàn)象或某個事件的原因信息的屬于無結構化文本信息抽取。目前在無結構化文本信息抽取方法中,根據(jù)其自動化程度,一般分為手工規(guī)則方法、有監(jiān)督方法、半監(jiān)督方法和無監(jiān)督方法。手工規(guī)則方法由人工閱讀大量的文檔信息,從中總結出規(guī)則,然后系統(tǒng)利用這些規(guī)則來抽取信息,該方法準確率高,但是耗時、耗力,成本過高;有監(jiān)督方法則是由用戶標注出大量的訓練樣本,然后采用機器學習的方法學習訓練樣本得到一個訓練后的分類器,用于抽取信息,該方法一般比手工規(guī)則方法準確率低,但是花費的成本相對也低;半監(jiān)督方法首先標注少量樣本,然后在此基礎上加入大量未標注樣本,學習該樣本得到一個訓練后的分類器,用于抽取信息,該方法一般比有監(jiān)督方法準確率低,但是標注的樣本同樣也少;無監(jiān)督方法則不需要用戶的任何標注信息,在抽取過程中不需要用戶的干預,自動化程度高、成本低,但是相比其它方法,準確率偏低。
發(fā)明內(nèi)容
為了解決現(xiàn)有技術方法中存在的不足,本發(fā)明實施例提供了一種文本信息抽取方法和系統(tǒng),用于抽取文本中有關一種現(xiàn)象或事件產(chǎn)生的原因信息?!N文本信息抽取方法,其步驟包括設置第一檢索條件,檢索并選取第一候選網(wǎng)頁,從所述第一候選網(wǎng)頁中提取第一候選語句;所述第一候選網(wǎng)頁與第一候選語句滿足第一檢索條件;根據(jù)第一候選語句生成第一句法樹,并得到第一標注候選語句;根據(jù)第一句法樹裁剪第一標注候選語句,生成裁剪依存樹;把裁剪依存樹分類為原因句依存樹集合和非原因句依存樹集合;根據(jù)第一句法樹中的依存路徑,合并原因句依存樹集合中的裁剪依存樹,生成原因句模式庫;合并非原因句依存樹集合中的依存樹生成非原因句模式庫;讀取用戶輸入的需要抽取原因的現(xiàn)象的關鍵詞,根據(jù)所述關鍵詞與原因句模式庫,設置第二檢索條件,檢索并選取第二候選網(wǎng)頁,從所述第二候選網(wǎng)頁中提取第二候選語句,所述第二候選網(wǎng)頁與第二候選語句滿足第二檢索條件;根據(jù)第二候選語句,生成第二標注候選語句;裁剪第二標注候選語句,抽取候選原因結點,構造候選原因結點到現(xiàn)象結構的依存路徑,并生成候選原因依存子樹集合,從候選原因依存子樹集合中抽取原因信息,添加到原因庫中。本發(fā)明實施例還提供了一種文本信息抽取系統(tǒng),包括原因句子采集模塊,用于設置第一檢索條件,檢索并選取第一候選網(wǎng)頁,從所述第一候選網(wǎng)頁中提取第一候選語句;所述第一候選網(wǎng)頁與第一候選語句滿足第一檢索條件;句子標注模塊,用于根據(jù)第一候選語句生成第一句法樹,并得到第一標注候選語句;依存模式抽取和歸并模塊,用于根據(jù)第一句法樹裁剪第一標注候選語句,生成裁剪依存樹;把裁剪依存樹分類為原因句依存樹集合和非原因句依存樹集合;根據(jù)第一句法樹中的依存路徑,合并原因句依存樹集合中的裁剪依存樹,生成原因句模式庫;合并非原因句依存樹集合中的依存樹生成非原因句模式庫;查詢和預處理模塊,用于讀取用戶輸入的需要抽取原因的現(xiàn)象的關鍵詞,根據(jù)所述關鍵詞與原因句模式庫,設置第二檢索條件,檢索并選取第二候選網(wǎng)頁,從所述第二候選網(wǎng)頁中提取第二候選語句,所述第二候選網(wǎng)頁與第二候選語句滿足第二檢索條件;根據(jù)第二候選語句,生成第二標注候選語句;原因信息抽取模塊,用于裁剪第二標注候選語句,抽取候選原因結點,構造候選原因結點到現(xiàn)象結構的依存路徑,并生成候選原因依存子樹集合,從候選原因依存子樹集合中抽取原因信息,添加到原因庫中。從以上技術方案可以看出,本發(fā)明實施例是從文本中提取的某種現(xiàn)象或某個事件產(chǎn)生的原因信息,其方法根據(jù)原因種子對對從互聯(lián)網(wǎng)中采集的語句進行分析,生成原因句抽取模式,并利用依存關系和依存路徑表示原因句的抽取模式,再基于該抽取模式來抽取原因信息,抽取過程大大減少了人工成本;且以抽取的原因句和非原因句作為訓練樣本,訓練一個支持向量機分類器在未分類的語句中進一步識別原因句,從而提高了性能。
圖1為本發(fā)明實施例提供的一種文本信息抽取方法的流程圖;圖2為圖1所述的一種文本信息抽取方法的第二次裁剪示意圖;圖3為圖1所述的一種文本信息抽取方法的第三次裁剪和生成替換依存樹的示意圖;圖4為圖1所述的一種文本信息抽取方法的候選原因依存樹的示意圖;圖5為本發(fā)明實施例提供的一種文本信息抽取系統(tǒng)的結構示意圖;圖6為圖5所述的一種文本信息抽取系統(tǒng)中依存模式抽取和歸并模塊的結構示意圖;圖7為圖5所述的一種文本信息抽取系統(tǒng)中原因信息抽取模塊的結構示意圖。
具體實施例方式本發(fā)明實施例提供了一種文本信息抽取方法和系統(tǒng),用于抽取文本中有關一種現(xiàn)象或事件產(chǎn)生的原因信息。以下實施例用于說明本發(fā)明,并不用于限制本發(fā)明的范圍。以下結合附圖對文本信息抽取方法和系統(tǒng)進行詳細描述為了簡化說明流程,下面以“失眠”現(xiàn)象及其原因作為種子對來獲取原因句模式庫和非原因句模式庫,然后從互聯(lián)網(wǎng)上抽取“感冒”現(xiàn)象的原因為例,請參考圖1,本發(fā)明的方法根據(jù)用戶輸入的“失眠”現(xiàn)象及其原因種子對進行查詢擴展、標注、裁剪和人工甄別等步驟生成原因句模式庫和非原因句模式庫,再以模式庫為依據(jù),抽取“感冒”的原因集合。S10、設置第一檢索條件,檢索并選取第一候選網(wǎng)頁,從第一候選網(wǎng)頁中提取第一候選語句;第一候選網(wǎng)頁與第一候選語句滿足第一檢索條件;以用戶提供的原因種子對作為檢索條件,并調(diào)用搜索引擎進行檢索,每次選取檢索結果中的前1000個網(wǎng)頁文本中滿足檢索條件的網(wǎng)頁作為第一候選網(wǎng)頁,從第一候選網(wǎng)頁中檢索包含原因種子對的句子,生成第一候選語句;以失眠現(xiàn)象為例,原因種子對即為“失眠,壓力過大”、“失眠,生物鐘未適應新環(huán)境”、“失眠,邊緣性人格障礙”等;需要說明的是,原因種子對是指用二元組表示的原因和現(xiàn)象的對應關系,如“法航飛機失事,雷擊”、“感冒,著涼”、“感冒,感染病毒”等;另外,對每次選取檢索結果中的網(wǎng)頁的數(shù)量不作限定,只要選取的第一候選網(wǎng)頁中包含原因種子對即可。S20、根據(jù)第一候選語句生成第一句法樹,并得到第一標注候選語句;調(diào)用分詞工具將第一候選語句分成詞或短語;調(diào)用實體識別工具在分詞后的第一候選語句中識別出實體;調(diào)用句法分析工具和依存關系分析工具對已識別出實體的第一候選語句進行標注,生成第一句法樹,并得到第一標注候選語句。如下,Si就是的失眠現(xiàn)象的第一標注候選句Sl ((IP (NP (NN 專家))(VP (W 指出)(IP (NP (NN 失眠))(VP (VC 是)(VP (PP (P 由) (IP(NP(NN 壓力))(VP(ADVP(AD 過))(VP(VA 大)))))(VP(MSP 所)(VP(W 導致))))))) (PU。)))在Sl中,IP、NP等標記是句法分析工具產(chǎn)生的標準標記信息。標記IP、VP、NP、 ADVP、PU、VV、NN、AD、VC、PP、P、VA、MSP分別標識子句、動詞性短語、名詞性短語、副詞性短語、 標點符號、一般動詞、名詞、副詞、動詞“是”、介詞性短語、介詞、謂語性形容詞和小品詞;需要說明的是,此處提到的實體是指一個語義類別中的對象或對象的集合,如人名、交通工具和地名等;另外,此處說到的分詞工具,句法分析工具,依存關系分析工具等, 是自然語言處理技術中通用的工具,如句法分析工具為Berkeley Parser,依存關系分析工: Stanford Parser。S30、根據(jù)第一句法樹裁剪第一標注候選語句,生成裁剪依存樹;S30的具體過程如下S301、根據(jù)第一句法樹中現(xiàn)象結構和原因結構的根結點,裁剪第一標注候選語句, 得到包含原因種子對的第一最小子句;根據(jù)原因種子對在第一標注候選語句的第一句法樹中找到現(xiàn)象結構和原因結構的根結點,從這兩個根結點開始分別向上遍歷它的上層結點,直到找到一個相同的結點且該結點帶有“IP”或“CP”標記,即查找包含了這兩個根結點的最小子樹,則執(zhí)行第一次裁剪,裁剪外層句法結構;接著把查找到的這個結點作為根結點,從第一標注候選語句的第一句法樹上裁剪得到包含原因種子對的第一最小子句,如從第一標注候選語句Sl的第一句法樹根據(jù)原因種子對“失眠,壓力過大”,則遍歷Sl得到的第一最小子句S2為S2 (IP (NP (NN 失眠))(VP (VC 是)(VP (PP (P 由)(IP (NP (NN 壓力))(VP (ADVP (AD 過))(VP(VA 大)))))(VP(M SP 所)(VP(VV 導致))))需要說明的是,原因種子對中表示現(xiàn)象/事件的詞/短語/子句,簡稱為現(xiàn)象結構,如現(xiàn)象結構“法航飛機失事”是子句,“感冒”是詞,“7. 23涌溫線特別重大鐵路交通事故” 是短語;原因種子對中表示原因的詞/短語/子句,簡稱原因結構。S302、根據(jù)第一最小子句的依存關系,生成第一依存樹,抽取所述第一依存樹中現(xiàn)象結構到原因結構的依存路徑,裁剪第一最小子句,得到初步裁剪依存樹;調(diào)用依存關系分析工具對第一最小子句進行依存關系分析,輸出句子的依存關系并生成依存樹,采用深度優(yōu)先的方法遍歷所述依存樹,抽取所述依存樹中現(xiàn)象結構到原因結構的依存路徑,執(zhí)行第二次裁剪,裁剪無關分支,刪除不在所述依存路徑中的結點,得到初步裁剪依存樹,以失眠現(xiàn)象為例,如圖2,為第二次裁剪的示意圖;進一步地,依存句法是由法國語言學家L. Tesniere提出,通過分析語言各成分之間的依存關系揭示其句法結構,主張句子中謂語動詞是支配其它成分的中心成分,而它本身卻不受其他任何成分的支配,所有受支配成分都以某種依存關系從屬于支配者。依存關系由支配成分(Government)、受支配成分(D印endent)和它們之間的語法關系(Relation) 組成的三元組,如“nsubj (是,傷風)”為形式主語,表示支配成分“傷風”是受支配成分“是” 的 “nsubj,,;更進一步地,依存樹是指一個句子的依存關系集合按照支配成分是受支配成分的下位的方法生成的樹,依存樹由結點和邊構成,結點是句子的語法成分,相鄰結點和結點間的邊由這兩個結點的依存關系表示;在依存樹上,任意兩個個結點之間不包含結點、只包含邊(即依存關系)的路徑就是依存路徑。S303、根據(jù)初步裁剪依存樹上的謂詞,裁剪初步裁剪依存樹,得到裁剪依存樹;把初步裁剪依存樹中依存關系為“rm”(名詞修飾名詞)的支配成分和受支配成分合并成一個成分;再遍歷初步裁剪依存樹,如果樹中有不止1個謂詞,則在所述樹的右分支上找到離葉子結點最近的謂詞,把不包含根結點的左分支直接連接到該謂詞(該左分支的根結點和該謂詞的依存關系設定為“top” (如果謂詞是“是”)或“nsubj” (其它謂詞)),執(zhí)行第三次裁剪,刪除所述謂詞上層的所有結點,形成裁剪依存樹,以失眠現(xiàn)象為例,如圖3, 為第三次裁剪的示意圖。
S40、把裁剪依存樹分類為原因句依存樹集合和非原因句依存樹集合;S40的具體過程如下S401、通過對裁剪依存樹的原因結構與現(xiàn)象結構進行替換,生成替換依存樹;首先把裁剪依存樹的原因結構用“REASON”結點替換,把現(xiàn)象結構用“PHENOMENON” 結點替換,生成替換依存樹,如圖3。S402、對替換依存樹進行分類,若每兩棵替換依存樹之間的相似度大于第一預設閥值,則將該兩棵替換依存樹視為同類別,生成分類依存樹;具體地說,把每棵替換依存樹歸為一類,對于任意兩個類Ci和Cj,按照以下方法進行聚類1)計算任意兩棵所述替換依存樹DTm和DTn(DTm e Ci, DTn e Cj)之間的相似度 SimTr (DTffl, DTn);相似度計算公式如下
權利要求
1.一種文本信息抽取方法,其特征在于,包括設置第一檢索條件,檢索并選取第一候選網(wǎng)頁,從所述第一候選網(wǎng)頁中提取第一候選語句;所述第一候選網(wǎng)頁與第一候選語句滿足第一檢索條件;根據(jù)第一候選語句生成第一句法樹,并得到第一標注候選語句; 根據(jù)第一句法樹裁剪第一標注候選語句,生成裁剪依存樹;把裁剪依存樹分類為原因句依存樹集合和非原因句依存樹集合;根據(jù)第一句法樹中的依存路徑,合并原因句依存樹集合中的裁剪依存樹,生成原因句模式庫;合并非原因句依存樹集合中的依存樹生成非原因句模式庫;讀取用戶輸入的需要抽取原因的現(xiàn)象的關鍵詞,根據(jù)所述關鍵詞與原因句模式庫,設置第二檢索條件,檢索并選取第二候選網(wǎng)頁,從所述第二候選網(wǎng)頁中提取第二候選語句,所述第二候選網(wǎng)頁與第二候選語句滿足第二檢索條件;根據(jù)第二候選語句,生成第二標注候選語句;裁剪第二標注候選語句,抽取候選原因結點,構造候選原因結點到現(xiàn)象結構的依存路徑,并生成候選原因依存子樹集合;從候選原因依存子樹集合中抽取原因信息,添加到原因庫中。
2.根據(jù)權利要求1所述的方法,其特征在于 所述第一檢索條件為原因種子對;所述第二檢索條件為需要抽取原因的現(xiàn)象的關鍵詞與原因句模式庫中的依存模式的每條路徑中出現(xiàn)的結點的組合。
3.根據(jù)權利要求2所述的方法,其特征在于,所述根據(jù)第一句法樹裁剪第一標注候選語句,生成裁剪依存樹具體包括根據(jù)第一句法樹中現(xiàn)象結構和原因結構的根結點,裁剪第一標注候選語句,得到包含原因種子對的第一最小子句;根據(jù)第一最小子句的依存關系,生成第一依存樹,抽取所述第一依存樹中現(xiàn)象結構到原因結構的依存路徑,裁剪第一最小子句,得到初步裁剪依存樹;根據(jù)初步裁剪依存樹上的謂詞,裁剪初步裁剪依存樹,得到裁剪依存樹。
4.根據(jù)權利要求1所述的方法,其特征在于,所述把裁剪依存樹分類為原因句依存樹集合和非原因句依存樹集合,包括通過對裁剪依存樹的原因結構與現(xiàn)象結構進行替換,生成替換依存樹; 對替換依存樹進行分類,若每兩棵替換依存樹之間的相似度大于第一預設閥值,則將該兩棵替換依存樹視為同類別,生成分類依存樹;判別各類別分類依存樹是否表示原因句,若是,則將分類依存樹標記為正例,并添加到原因句依存樹集合;若否,則將分類依存樹標記為負例,并添加到非原因句依存樹集合。
5.根據(jù)權利要求4所述的方法,其特征在于,所述根據(jù)第一句法樹中的依存路徑,合并原因句依存樹集合中的裁剪依存樹,生成原因句模式庫,包括原因句依存樹集合中,對同類別的任意兩棵替換依存樹的依存路徑進行比較,根據(jù)比較結果,對原因句依存樹集合中的分類依存樹進行合并,生成原因句模式庫。
6.根據(jù)權利要求1所述的方法,其特征在于,所述裁剪第二標注候選語句,抽取候選原因結點,構造候選原因結點到現(xiàn)象結構的依存路徑,并生成候選原因依存子樹集合包括根據(jù)第一句法樹中包含第二檢索條件的子句的根結點,裁剪第二標注候選語句,生成第二最小子句,并調(diào)用句法分析工具和依存關系分析工具,生成所述第二最小子句的第二句法樹和第二依存樹;從所述第二依存樹的根結點下抽取不包含現(xiàn)象結構的分支上的結點集合,從所述第二句法樹中抽取包含了所述結點集合的子樹,在所述子樹中查找子句和短語標記,把所述子句和短語標記內(nèi)的所有詞語合并成為一個詞語,標記為候選原因結點;查找每個所述候選原因結點到現(xiàn)象結構的依存路徑,并根據(jù)所述依存路徑生成候選依存樹,對所述候選依存樹進行裁剪,生成候選原因依存子樹和候選原因依存子樹集合。
7.根據(jù)權利要求6所述的方法,其特征在于,所述從候選原因依存子樹集合中抽取原因信息,添加到原因庫中之前進一步包括計算所述候選原因依存子樹集合中的候選原因依存子樹,和原因句模式庫中每個依存模式的相似度;若相似度的最大值大于第二預設閥值,則將候選原因依存子樹從候選原因依存子樹集合中刪除并添加到正例原因句集合,抽取所述候選原因依存子樹的候選原因結點添加到原因庫中;若候選原因依存子樹集合中存在一候選原因依存子樹的候選原因結點,和原因庫中任意一個候選原因結點的相似度大于所述第三預設閾值,則將候選原因依存子樹從候選原因依存子樹集合中刪除并添加到正例原因句集合。
8.根據(jù)權利要求7所述的方法,其特征在于,所述從候選原因依存子樹集合中抽取原因信息,添加到原因庫中之前還包括計算所述候選原因依存子樹集合中的未被刪除的候選原因依存子樹,和非原因句模式庫中每個依存模式的相似度;若相似度的最大值大于第四預設閥值,則將候選原因依存子樹從候選原因依存子樹集合中刪除并添加到負例原因句集合;若候選原因依存子樹集合中存在一候選原因依存子樹的候選原因結點,和所述負例原因句集合中任意一個候選原因結點的相似度大于第五預設閾值,則將候選原因依存子樹從候選原因依存子樹集合中刪除并添加到負例原因句集合。
9.根據(jù)權利要求8所述的方法,其特征在于,所述從候選原因依存子樹集合中抽取原因信息,添加到原因庫中包括對候選原因依存子樹集合中的未被刪除的候選原因依存子樹,以正例原因句集合中的候選原因依存子樹和負例原因句集合中的候選原因依存子樹作為訓練樣本,構造一個采用復合核的支持向量機分類器進行分類,把分到正例原因句集合的候選原因依存子樹中的候選原因結點添加到原因庫中。
10.一種文本信息抽取系統(tǒng),其特征在于,包括原因句子采集模塊,用于設置第一檢索條件,檢索并選取第一候選網(wǎng)頁,從所述第一候選網(wǎng)頁中提取第一候選語句;所述第一候選網(wǎng)頁與第一候選語句滿足第一檢索條件;句子標注模塊,用于根據(jù)第一候選語句生成第一句法樹,并得到第一標注候選語句;依存模式抽取和歸并模塊,用于根據(jù)第一句法樹裁剪第一標注候選語句,生成裁剪依存樹;把裁剪依存樹分類為原因句依存樹集合和非原因句依存樹集合;根據(jù)第一句法樹中的依存路徑,合并原因句依存樹集合中的裁剪依存樹,生成原因句模式庫;合并非原因句依存樹集合中的依存樹生成非原因句模式庫;查詢和預處理模塊,用于讀取用戶輸入的需要抽取原因的現(xiàn)象的關鍵詞,根據(jù)所述關鍵詞與原因句模式庫,設置第二檢索條件,檢索并選取第二候選網(wǎng)頁,從所述第二候選網(wǎng)頁中提取第二候選語句,所述第二候選網(wǎng)頁與第二候選語句滿足第二檢索條件;根據(jù)第二候選語句,生成第二標注候選語句;原因信息抽取模塊,用于裁剪第二標注候選語句,抽取候選原因結點,構造候選原因結點到現(xiàn)象結構的依存路徑,并生成候選原因依存子樹集合,從候選原因依存子樹集合中抽取原因信息,添加到原因庫中。
11.根據(jù)權利要求10所述的系統(tǒng),其特征在于,所述依存模式抽取和歸并模塊包括句法樹裁剪單元,用于根據(jù)第一句法樹中現(xiàn)象結構和原因結構的根結點,裁剪第一標注候選語句,得到包含原因種子對的第一最小子句;依存樹初步裁剪單元,用于根據(jù)第一最小子句的依存關系,生成第一依存樹,抽取所述第一依存樹中現(xiàn)象結構到原因結構的依存路徑,裁剪第一最小子句,得到初步裁剪依存樹;依存樹謂詞裁剪單元,用于根據(jù)初步裁剪依存樹上的謂詞,裁剪初步裁剪依存樹,得到裁剪依存樹;原因句甄別單元,用于通過對裁剪依存樹的原因結構與現(xiàn)象結構進行替換,生成替換依存樹;對替換依存樹進行分類,若每兩棵替換依存樹之間的相似度大于第一預設閥值,則將該兩棵替換依存樹視為同類別,生成分類依存樹;判別各類別分類依存樹是否表示原因句,若是,則將分類依存樹標記為正例,并添加到原因句依存樹集合;若否,則將分類依存樹標記為負例,并添加到非原因句依存樹集合;依存模式歸并單元,用于在原因句依存樹集合中,對同類別的任意兩棵替換依存樹的依存路徑進行比較,根據(jù)比較結果,對原因句依存樹集合中的分類依存樹進行合并,生成原因句模式庫;用于在非原因句依存樹集合中,對同類別的任意兩棵替換依存樹的依存路徑進行比較,根據(jù)比較結果,對非原因句依存樹集合中的分類依存樹進行合并,生成非原因句模式庫。
12.根據(jù)權利要求10所述的系統(tǒng),其特征在于,所述原因信息抽取模塊包括候選原因子樹抽取單元,用于根據(jù)第一句法樹中包含第二檢索條件的子句的根結點, 裁剪第二標注候選語句,生成第二最小子句,并調(diào)用句法分析工具和依存關系分析工具,生成所述第二最小子句的第二句法樹和第二依存樹;從所述第二依存樹的根結點下抽取不包含現(xiàn)象結構的分支上的結點集合,從所述第二句法樹中抽取包含了所述結點集合的子樹, 在所述子樹中查找子句和短語標記,把所述子句和短語標記內(nèi)的所有詞語合并成為一個詞語,標記為候選原因結點;查找每個所述候選原因結點到現(xiàn)象結構的依存路徑,并根據(jù)所述依存路徑生成候選依存樹,對所述候選依存樹進行裁剪,生成候選原因依存子樹和候選原因依存子樹集合;原因句匹配和原因抽取單元,用于計算所述候選原因依存子樹集合中的候選原因依存子樹,和原因句模式庫中每個依存模式的相似度;若相似度的最大值大于第二預設閥值,則將候選原因依存子樹從候選原因依存子樹集合中刪除并添加到正例原因句集合,抽取所述候選原因依存子樹的候選原因結點添加到原因庫中;若候選原因依存子樹集合中存在一候選原因依存子樹的候選原因結點,和原因庫中任意一個候選原因結點的相似度大于所述第三預設閾值,則將候選原因依存子樹從候選原因依存子樹集合中刪除并添加到正例原因句集合;非原因句匹配和抽取單元,用于計算所述候選原因依存子樹集合中的未被刪除的候選原因依存子樹,和非原因句模式庫中每個依存模式的相似度;若相似度的最大值大于第四預設閥值,則將候選原因依存子樹從候選原因依存子樹集合中刪除并添加到負例原因句集合;若候選原因依存子樹集合中存在一候選原因依存子樹的候選原因結點,和所述負例原因句集合中任意一個候選原因結點的相似度大于第五預設閾值,則將候選原因依存子樹從候選原因依存子樹集合中刪除并添加到負例原因句集合;原因句分類抽取單元,用于對候選原因依存子樹集合中的未被刪除的候選原因依存子樹,以正例原因句集合中的候選原因依存子樹和負例原因句集合中的候選原因依存子樹作為訓練樣本,構造一個采用復合核的支持向量機分類器進行分類,把分到正例原因句集合的候選原因依存子樹中的候選原因結點添加到原因庫中。
全文摘要
本發(fā)明實施例公開了一種文本信息抽取方法,實現(xiàn)從文本中抽取某種現(xiàn)象或某個事件產(chǎn)生的原因信息;其方法根據(jù)原因種子對對從互聯(lián)網(wǎng)中采集的語句進行分析,生成原因句抽取模式,并利用依存關系和依存路徑表示原因句的抽取模式,再基于該抽取模式來抽取原因信息,抽取過程大大減少了人工成本;且以抽取的原因句和非原因句作為訓練樣本,訓練一個支持向量機分類器在未分類的語句中進一步識別原因句,從而提高了性能;本發(fā)明還公開了一種文本信息抽取系統(tǒng),用于抽取文本中某種現(xiàn)象或某個事件產(chǎn)生的原因的信息。
文檔編號G06F17/30GK102298642SQ20111027332
公開日2011年12月28日 申請日期2011年9月15日 優(yōu)先權日2011年9月15日
發(fā)明者周國棟, 孔芳, 朱巧明, 李培峰, 錢龍華 申請人:蘇州大學