專利名稱:一種網頁信息抽取方法
技術領域:
本發(fā)明提供一種網頁信息抽取方法,具體涉及一種從網絡百科數據源提取概念屬性并對其進行處理的方法。
背景技術:
在互聯網文本呈現爆炸式增長的今天,如何合理有效地組織信息和表示知識,建立良好的知識庫以便于人們能從海量的網頁中迅速快捷地獲得自己想要的知識,是一項很重要的研究工作。在知識庫的構建中,概念和屬性是知識表示的核心要素。概念是反映客觀事物及其特有屬性的對象,而屬性是對概念所具有的特征的刻畫,從屬性信息能夠更全面地了解一個概念的特性。因此,在知識庫的自動構建中,找出一種良好的概念屬性的自動提取方法是非常重要的。當前國內外的研究學者提出了很多的方法用來從結構化的或者非結構化的文本中提取概念屬性。谷歌公司的Pasca等人以web搜索引擎查詢日志為語料,利用手工指定的模板去抽取指定概念的屬性列表,還有一些人用web上存在的結構化的數據,例如HTML 標簽表格,以及維基百科特有的信息框去獲得概念屬性。但是當前的這些方法都存在一個問題,即僅僅只是提取出了一些候選屬性,并沒有對提取出的屬性進行后期的處理,導致提取出的候選屬性粒度比較粗糙,準確度不高,出現很多一義多詞的表達,質量比較差,得經過人工的挑選才能加入到知識庫中。并且這些方法沒有對屬性進行評價,因為有些屬性會和目標概念聯系得比較緊,有些聯系得則比較弱, 將聯系較緊的屬性挑選出來能夠有利于進行概念的分類。比如搜索引擎公司有項任務是查詢日志的分類,當獲取了和相關概念聯系比較緊的屬性后,就可以通過判斷查詢日志中是否包含了這些屬性來更好地進行分類任務。
發(fā)明內容
本發(fā)明的目的是提供一種網頁信息抽取方法,能夠從百科類網站中提取概念屬性,提取出的屬性能直接用來進行知識庫的建設以及其他的自然語言處理任務。本發(fā)明提供的技術方案如下一種網頁信息抽取方法,包括如下步驟A.構建實例列表,從多源異構數據源中提取列表中實例的候選屬性;B.對提取到的屬性進行同義歸納,將同義屬性放在同一個集合中;C.對歸納后的屬性進行細分類;D.分析分類后的屬性所對應的屬性值類型;E.將屬性及其對應的屬性值類型信息推薦給用戶或者將其保存到結構化數據庫中。步驟A所述數據源為百科類網頁數據。所述百科類網站包括百度百科、維基百科、互動百科等。
所述步驟A的實現方法如下第一步構建實例列表,獲取百科網頁數據根據實例列表中的每一個實例,到百科數據源中獲得該實例詞條對應的網頁;第二步對網頁數據進行分析對獲取到的網頁內容進行字符串處理,抽取出指定的結構化數據;第三步挑選候選屬性對于每一種數據源,先單獨統計該數據源中出現的屬性, 給每個屬性一個權重,所述屬性的權重為該屬性出現在該數據源中的頻率;然后再對不同數據源中的屬性進行融合,將每個屬性在不同的數據源中的置信度值累加起來作為其最后的權重;最后將屬性按照權重大小排序,只選擇出前N個屬性作為候選屬性,所述N為人工指定的常數。所述步驟B的實現方法如下Bi.抽取屬性對應的屬性值;B2.計算屬性之間的相似性;B3.用啟發(fā)式過濾規(guī)則對相似性屬性對進行挑選;B4.合并相似屬性對,將同義屬性放在同一個集合中。所述步驟B2的實現方法如下對于任意兩個不同的屬性attl和att2,計算其相似性值,將屬性attl和att2表示為 attl = KVpConf1), (V2,Conf2),…,(VN,ConfN)}和 att2 = {(V' "Conf' ;),(y' 2, Conf' 2),…,(Ψ N,Conf' N)},其中 Vk 和 V' k 是第 k 個屬性值,Confk 和 Conf ‘ k 是屬性值在該屬性中的權重,定義下面的公式來計算兩個屬性的相似性
權利要求
1.一種網頁信息抽取方法,包括如下步驟A.構建實例列表,從多源異構數據源中提取列表中實例的候選屬性;B.對提取到的屬性進行同義歸納,將同義屬性放在同一個集合中;C.對歸納后的屬性進行細分類;D.分析分類后的屬性所對應的屬性值類型;E.將屬性及其對應的屬性值類型信息推薦給用戶或者將其保存到結構化數據庫中。
2.如權利要求1所述的網頁信息抽取方法,其特征是,步驟A所述數據源為百科類網頁數據。
3.如權利要求2所述的網頁信息抽取方法,其特征是,所述百科類網站包括百度百科、維基百科、互動百科。
4.如權利要求1所述的網頁信息抽取方法,其特征是,所述步驟A的實現方法如下 第一步構建實例列表,獲取百科網頁數據根據實例列表中的每一個實例,到百科數據源中獲得該實例詞條對應的網頁;第二步對網頁數據進行分析對獲取到的網頁內容進行字符串處理,抽取出指定的結構化數據;第三步挑選候選屬性對于每一種數據源,先單獨統計該數據源中出現的屬性,給每個屬性一個權重,所述屬性的權重為該屬性出現在該數據源中的頻率;然后再對不同數據源中的屬性進行融合,將每個屬性在不同的數據源中的置信度值累加起來作為其最后的權重;最后將屬性按照權重大小排序,只選擇出前N個屬性作為候選屬性,所述N為人工指定的常數。
5.如權利要求4所述的網頁信息抽取方法,其特征是,所述步驟B的實現方法如下 Bi.抽取屬性對應的屬性值;B2.計算屬性之間的相似性;B3.用啟發(fā)式過濾規(guī)則對相似性屬性對進行挑選;B4.合并相似屬性對,將同義屬性放在同一個集合中。
6.如權利要求5所述的網頁信息抽取方法,其特征是,所述步驟B2的實現方法如下 對于任意兩個不同的屬性attl和att2,計算其相似性值,將屬性attl和att2表示為attl = ((V1, Conf1), (V2, Conf2),…,(VN, ConfN)}和 att2 = {(V' Conf'》,(V' 2, Conf' 2),…,(Ψ N,Conf' N)},其中 Vk 和 V' k 是第 k 個屬性值,Confk 和 Conf ‘ k 是屬性值在該屬性中的權重,定義下面的公式來計算兩個屬性的相似性
7.如權利要求6所述的網頁信息抽取方法,其特征是,所述步驟B3的實現方法如下 1)在提取屬性所對應的屬性值的時候,同時也記錄擁有該屬性和屬性值的實例列表,在進行相似度計算的時候,若是發(fā)現兩個屬性有相同的屬性值,則要對比擁有該屬性和屬性值的實例列表,若是有m個實例都相同,則給這兩個屬性的相似性值增加m*0. 5 ;2)將在同一個信息框中出現的所有屬性抽取出來放在一個單獨的集合中,則同一個集合中的屬性互斥,每一個這樣的集合稱為一條互斥規(guī)則,對于上一步提取出的結果,若兩個候選的相似屬性對出現在某一條互斥規(guī)則中,則將其從候選相似對中去掉;3)對方法2)中的每條規(guī)則,開始時令其中的每個屬性都屬于一個單獨的不同的類,對于一個類中的屬性,若是有其他的屬性和它滿足前后綴關系,就將這些屬性都加入到這個類中,在執(zhí)行這條規(guī)則的時候,只有不同類中的屬性對才看作互斥的屬性對,將其從候選相似對列表中去掉。
8.如權利要求1所述的網頁信息抽取方法,其特征是,所述步驟C,把屬性分為一般屬性和特殊屬性兩類,用特異性值來區(qū)分所述兩類屬性,當屬性的特異性值大于指定閾值時, 認為該屬性是特殊屬性,否則為一般屬性。
9.如權利要求8所述的網頁信息抽取方法,其特征是,所述特異性值的計算方法為對于屬性a,首先在百科詞條中搜索該屬性a,取出和該屬性a相關的前M個詞條,然后將這M 個詞條在目標實例列表中查找,看所述前M個詞條中有多少個出現在該列表中,將個數記作Na,則屬性a的特異性值為Na/M,所述M為人工指定的常數。
10.如權利要求1所述的網頁信息抽取方法,其特征是,所述步驟D的實現方法如下 Dl.對于某個屬性,利用中科院分詞系統將其具有的屬性值進行分詞和詞性標注; D2.統計所有的詞,將相同詞性的詞看作一類,記錄每個不同類型的詞性的詞的頻率,然后按照頻率對出現過的不同的詞性進行排序;D3.挑出幾個代表性的詞性來表示該屬性的屬性值的詞性信息; D4.對挑選出的詞性信息進行分析,獲得其值的類型信息。
全文摘要
本發(fā)明公布了一種網頁信息抽取方法,具體涉及一種從網絡百科數據源提取概念屬性并對其進行處理的方法。包括構建實例列表,從多源異構數據源中提取列表中實例的候選屬性;對提取到的屬性進行同義歸納,將同義屬性放在同一個集合中;對歸納后的屬性進行細分類;分析分類后的屬性所對應的屬性值類型;將屬性及其對應的屬性值類型信息推薦給用戶或者將其保存到結構化數據庫中。利用本發(fā)明的方案,可以從網頁中抽取出高質量的概念屬性信息,可以用來更好地進行知識庫的構建以及其他的自然語言處理任務,例如屬性值的提取、文本分類以及搜索引擎中查詢日志的分類等。
文檔編號G06F17/30GK102495892SQ20111040987
公開日2012年6月13日 申請日期2011年12月9日 優(yōu)先權日2011年12月9日
發(fā)明者李文杰, 穗志方 申請人:北京大學