專利名稱:面向領(lǐng)域基于樣本的互聯(lián)網(wǎng)結(jié)構(gòu)化數(shù)據(jù)抽取方法及其系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計(jì)算機(jī)應(yīng)用領(lǐng)域,特別是涉及一種面向領(lǐng)域基于樣本的互聯(lián)網(wǎng)結(jié)構(gòu)化數(shù)據(jù)自動抽取方法及其系統(tǒng)。
背景技術(shù):
數(shù)據(jù)抽取技術(shù)是按照一定規(guī)則,利用計(jì)算機(jī)對自由、半自由文本中的有效數(shù)據(jù)進(jìn)行提取,并加以組織,展現(xiàn)給用戶的技術(shù)。特定領(lǐng)域的數(shù)據(jù)抽取以領(lǐng)域相關(guān)知識作為指導(dǎo),利用人工標(biāo)記的、規(guī)則的樣本集進(jìn)行訓(xùn)練,使數(shù)據(jù)抽取機(jī)制中的規(guī)則的抽象層次和覆蓋面達(dá)到最合理的程度,然后再對樣本集外的文本進(jìn)行數(shù)據(jù)提取。
中國專利文件(公開/公告號CN1410918)公開了一種基于信息抽取技術(shù)的搜索引擎,主要是利用機(jī)器學(xué)習(xí)的方法,對含有同類信息且布局基本一致的HTML頁面樣本集進(jìn)行學(xué)習(xí),從而得出對此類HTML頁面進(jìn)行信息抽取的規(guī)則,應(yīng)用這些規(guī)則,結(jié)合一個特定領(lǐng)域的搜索引擎,對網(wǎng)絡(luò)上的相關(guān)信息進(jìn)行大量地獲取,并從半自由的HTML文本中獲取結(jié)構(gòu)化的信息。因?yàn)樵搶@腔跈C(jī)器學(xué)習(xí)原理的,所以必須收集一定的學(xué)習(xí)頁面,并對該頁面進(jìn)行預(yù)處理,例如刪除圖片,再由一“學(xué)習(xí)模塊”進(jìn)行規(guī)則抽取,這樣就會降低處理速度;同時(shí)以“詞法分析、語法分析、語義解釋”等步驟的自然語言理解技術(shù)來實(shí)現(xiàn)頁面分析,這種方法又增大了實(shí)現(xiàn)的復(fù)雜程度;另外,通過一個搜索引擎的方式來實(shí)現(xiàn)本發(fā)明方法也限制其應(yīng)用范圍。
中國專利文件(公開/公告號CN1255680)公開了一種聯(lián)機(jī)商店產(chǎn)品信息自動檢索方法和系統(tǒng),其通過機(jī)器人獲取聯(lián)機(jī)商店的HTML文件,并從HTML文件中搜尋價(jià)格信息,且只保留所需要的信息,去除不需要的信息,讀入處理的結(jié)果并判斷網(wǎng)頁的類型,應(yīng)用一與所述類型符合的算法提取產(chǎn)品信息的階段及應(yīng)用與所述類型符合的算法通過盲探索提取產(chǎn)品信息,實(shí)現(xiàn)自動提取聯(lián)機(jī)商店的產(chǎn)品信息,從而按現(xiàn)有的直接服務(wù)對網(wǎng)上的連接商店進(jìn)行比較購物。該種方法適用的范圍較小,它是一種面向特定領(lǐng)域“商店產(chǎn)品信息”的檢索方法和系統(tǒng),另外,其利用硬件裝置讀取HTML文件,并從該HTML文件中搜尋價(jià)格信息,因而對非價(jià)格信息,本方法就無能為力了。
總之,所述的抽取方法較為復(fù)雜,不能有效提高數(shù)據(jù)抽取的效率,僅對特定領(lǐng)域或較小范圍內(nèi)的特定信息抽取有效。如何高效率地進(jìn)行數(shù)據(jù)抽取成為當(dāng)前業(yè)界的一大熱點(diǎn)問題。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題在于提供一種面向領(lǐng)域基于樣本的互聯(lián)網(wǎng)結(jié)構(gòu)化數(shù)據(jù)抽取方法及其系統(tǒng),用于實(shí)現(xiàn)快速、高效自動抽取互聯(lián)網(wǎng)結(jié)構(gòu)化數(shù)據(jù)。
為了實(shí)現(xiàn)上述目的,本發(fā)明提供了一種面向領(lǐng)域基于樣本的互聯(lián)網(wǎng)結(jié)構(gòu)化數(shù)據(jù)抽取方法,包括如下步驟一樣本收集的步驟,用于通過自動收集用戶訪問數(shù)據(jù)的過程獲得樣本;一樣本分析的步驟,用于通過面向一領(lǐng)域的語義知識庫,自動分析所述樣本,抽取所述樣本的特征信息;一數(shù)據(jù)抽取的步驟,用于通過所述樣本的特征信息,通過HTTP協(xié)議或驅(qū)動互聯(lián)網(wǎng)瀏覽器自動讀取網(wǎng)頁,并從所述網(wǎng)頁中抽取與所述樣本的特征信息相似或匹配的數(shù)據(jù);及一數(shù)據(jù)集成的步驟,用于通過所述語義知識庫,將與所述樣本的特征信息相似或相匹配的數(shù)據(jù)轉(zhuǎn)換成一統(tǒng)一格式的數(shù)據(jù)。
所述的互聯(lián)網(wǎng)結(jié)構(gòu)化數(shù)據(jù)抽取方法,其中,所述樣本收集的步驟中,通過用戶輸入網(wǎng)址方式或系統(tǒng)學(xué)習(xí)方式獲得樣本。
所述的互聯(lián)網(wǎng)結(jié)構(gòu)化數(shù)據(jù)抽取方法,其中,所述通過系統(tǒng)學(xué)習(xí)方式獲得樣本時(shí),系統(tǒng)根據(jù)用戶輸入的網(wǎng)站起點(diǎn)自動搜索網(wǎng)頁;且當(dāng)所述自動搜索到的網(wǎng)頁不含有所需數(shù)據(jù)時(shí),用戶返回至所述網(wǎng)頁的上一頁或網(wǎng)站首頁,由用戶點(diǎn)擊一鏈接引導(dǎo)系統(tǒng)至含有所需數(shù)據(jù)的網(wǎng)頁,并在該含有所需數(shù)據(jù)的網(wǎng)頁中系統(tǒng)自動尋找樣本,并將自動記錄的網(wǎng)頁尋找過程作為樣本的一部分。
所述的互聯(lián)網(wǎng)結(jié)構(gòu)化數(shù)據(jù)抽取方法,其中,所述數(shù)據(jù)抽取的步驟具體為41)、讀入所述樣本,并取得所述樣本的特征信息;42)、根據(jù)所述樣本中記錄的路徑下載對應(yīng)的網(wǎng)頁;
43)、根據(jù)所述樣本在所述網(wǎng)頁中的特征,從該網(wǎng)頁中找到與所述樣本的特征信息相似或匹配的數(shù)據(jù);及44)、根據(jù)所述網(wǎng)頁中的鏈接,識別該鏈接并瀏覽至下一網(wǎng)頁,重復(fù)所述步驟43,直至處理完所有網(wǎng)頁。
所述的互聯(lián)網(wǎng)結(jié)構(gòu)化數(shù)據(jù)抽取方法,其中,所述樣本的特征信息包括從互聯(lián)網(wǎng)的網(wǎng)站入口至所述頁面的用戶操作、所述樣本在所述網(wǎng)頁中的特征;所述樣本在所述網(wǎng)頁中的特征又包括字體、顏色、在動態(tài)超文本標(biāo)記語言樹中的位置、所用的超文本標(biāo)記語言標(biāo)識中的一個或多個。
所述的互聯(lián)網(wǎng)結(jié)構(gòu)化數(shù)據(jù)抽取方法,其中,所述數(shù)據(jù)集成的步驟具體為對與所述樣本的特征信息相似或匹配的數(shù)據(jù),刪除錯誤和/或重復(fù)的信息,和/或補(bǔ)充缺少的信息,使其具有相同的結(jié)構(gòu),并轉(zhuǎn)化成可擴(kuò)展標(biāo)記語言或關(guān)系數(shù)據(jù)庫格式的數(shù)據(jù)。
為了更好地實(shí)現(xiàn)上述目的,本發(fā)明還提供了一種面向領(lǐng)域基于樣本的互聯(lián)網(wǎng)結(jié)構(gòu)化數(shù)據(jù)抽取系統(tǒng),包括一樣本收集模塊,用于通過自動收集用戶訪問數(shù)據(jù)的過程獲得樣本;一樣本分析模塊,用于通過面向一領(lǐng)域的語義知識庫,自動分析所述樣本,抽取所述樣本的特征信息;一數(shù)據(jù)抽取模塊,用于通過所述樣本的特征信息,通過HTTP協(xié)議或驅(qū)動互聯(lián)網(wǎng)瀏覽器自動讀取網(wǎng)頁,并從所述網(wǎng)頁中抽取與所述樣本的特征信息相似或相匹配的數(shù)據(jù);及一數(shù)據(jù)集成模塊,用于通過所述語義知識庫,將與所述樣本的特征信息相似或相匹配的數(shù)據(jù)轉(zhuǎn)換成一統(tǒng)一格式的數(shù)據(jù)。
所述的互聯(lián)網(wǎng)結(jié)構(gòu)化數(shù)據(jù)抽取系統(tǒng),其中,所述樣本收集模塊具體通過用戶輸入網(wǎng)址方式或系統(tǒng)學(xué)習(xí)方式獲得樣本。
所述的互聯(lián)網(wǎng)結(jié)構(gòu)化數(shù)據(jù)抽取系統(tǒng),其中,所述樣本的特征信息包括從互聯(lián)網(wǎng)的網(wǎng)站入口至所述頁面的用戶操作、所述樣本在所述網(wǎng)頁中的特征;所述樣本在所述網(wǎng)頁中的特征又包括字體、顏色、在動態(tài)超文本標(biāo)記語言樹中的位置、所用的超文本標(biāo)記語言標(biāo)識中的一個或多個。
本發(fā)明所述的面向領(lǐng)域基于樣本的互聯(lián)網(wǎng)結(jié)構(gòu)化數(shù)據(jù)抽取方法使用了面向某個領(lǐng)域的語義知識庫,能自動識別該領(lǐng)域中的許多數(shù)據(jù)項(xiàng),從而極大地提高了數(shù)據(jù)抽取的效率,利用本發(fā)明方法,用戶僅需給出一個所需數(shù)據(jù)的樣本或?qū)嵗?,就能自動從多個頁面中抽取出具有類似特征的一組數(shù)據(jù),不需人工編程或干預(yù),本發(fā)明方法還能通過調(diào)用語義知識庫自動集成來自多個頁面的數(shù)據(jù),刪除錯誤或不完整的信息,并補(bǔ)充缺少的信息。
以下結(jié)合附圖和具體實(shí)施例對本發(fā)明進(jìn)行詳細(xì)描述,但不作為對本發(fā)明的限定。
圖1為本發(fā)明的系統(tǒng)的一顯示界面;圖2為本發(fā)明的系統(tǒng)結(jié)構(gòu)示意圖;圖3為本發(fā)明面向領(lǐng)域基于樣本的互聯(lián)網(wǎng)結(jié)構(gòu)化數(shù)據(jù)自動抽取流程圖;圖4為本發(fā)明的樣本獲取流程圖;圖5為本發(fā)明的數(shù)據(jù)抽取流程圖;圖6為本發(fā)明的一實(shí)施例示意圖。
具體實(shí)施例方式
圖1所示為本發(fā)明的系統(tǒng)的一顯示界面。該顯示界面10包括網(wǎng)址輸入欄100、標(biāo)題欄200、信息顯示部300、類型輸入窗口400及功能按鍵部500;功能按鍵部500又包括“收集”鍵51、“分析”鍵52、“抽取”鍵53、“區(qū)域”鍵54、“戶型”鍵55、“面積”鍵56、“價(jià)格”鍵57。
其中,“收集”鍵51、“分析”鍵52、“抽取”鍵53是本發(fā)明系統(tǒng)的基本按鍵,在所有領(lǐng)域都使用;“收集”鍵51,用于啟動樣本收集的過程,也即,開始收集用戶取得樣本的過程;“分析”鍵52,用于啟動樣本分析的過程,也即,從信息顯示部300所顯示的網(wǎng)頁中抽取樣本特征;“抽取”鍵53,用于啟動數(shù)據(jù)抽取和集成的過程,也即,根據(jù)所獲得的樣本,從所有網(wǎng)頁中抽取數(shù)據(jù),并轉(zhuǎn)化為統(tǒng)一格式。
而“區(qū)域”鍵54、“戶型”鍵55、“面積”鍵56與“價(jià)格”鍵57僅適用于“二手房信息”實(shí)施例中,是本發(fā)明系統(tǒng)的可選擇按鍵,其功能是方便用戶標(biāo)識樣本。
圖2所示為本發(fā)明的系統(tǒng)結(jié)構(gòu)示意圖,該系統(tǒng)結(jié)構(gòu)20包括樣本收集模塊201、樣本分析模塊202、數(shù)據(jù)抽取模塊203、數(shù)據(jù)集成模塊204、面向領(lǐng)域的語義知識庫205。
樣本收集模塊201,用于通過自動記錄用戶訪問某種數(shù)據(jù)的過程,獲得一個樣本;樣本分析模塊202,用于通過面向領(lǐng)域的語義知識庫205,自動對樣本進(jìn)行分析,抽取其特征或模板;數(shù)據(jù)抽取模塊203,其作用是利用所獲得的樣本特征,通過HTTP協(xié)議或驅(qū)動互聯(lián)網(wǎng)瀏覽器自動讀取多個網(wǎng)頁,并從多個網(wǎng)頁中抽取具有類似特征的數(shù)據(jù);及數(shù)據(jù)集成模塊204,其作用是利用面向領(lǐng)域的語義知識庫205,對從多個頁面抽取的數(shù)據(jù)進(jìn)行集成,刪除錯誤或重復(fù)的信息,使不同頁面中獲得的數(shù)據(jù)具有相同結(jié)構(gòu),并轉(zhuǎn)化成XML或關(guān)系數(shù)據(jù)庫格式。
所述自動抽取的樣本特征包括從網(wǎng)站入口走到當(dāng)前頁面的用戶操作;及樣本在當(dāng)前網(wǎng)頁中的特征,例如字體、顏色或DHTML樹中的位置或所用的HTML標(biāo)識等。
圖3所示為本發(fā)明面向領(lǐng)域基于樣本的互聯(lián)網(wǎng)結(jié)構(gòu)化數(shù)據(jù)自動抽取流程圖,結(jié)合圖2所示,該流程包括如下步驟步驟301,系統(tǒng)通過自動收集用戶訪問某種數(shù)據(jù)的過程,獲得一個樣本;步驟302,通過一面向領(lǐng)域的語義知識庫205,自動對樣本進(jìn)行分析,抽取其特征或模板;步驟303,利用所獲得的樣本特征,通過HTTP協(xié)議或驅(qū)動互聯(lián)網(wǎng)瀏覽器自動讀取多個網(wǎng)頁,從多個網(wǎng)頁中抽取具有類似特征的數(shù)據(jù);及步驟304,利用面向領(lǐng)域的語義知識庫205,對從多個頁面抽取的數(shù)據(jù)進(jìn)行集成,刪除錯誤或重復(fù)的信息,使不同頁面中獲得的數(shù)據(jù)具有相同結(jié)構(gòu),并轉(zhuǎn)化成XML或關(guān)系數(shù)據(jù)庫格式。
面向領(lǐng)域的知識庫是一種公知技術(shù),很多計(jì)算機(jī)都采用各種不同的知識庫,例如wordnet(http://wordnet.Princeton.edu),就是由普林斯頓大學(xué)開發(fā)的語義知識庫,目前被許多系統(tǒng)廣泛采用。本發(fā)明的語義知識庫205,是一種簡化的語義知識庫,舉例說明,以二手房交易信息為例
(朝陽區(qū)-區(qū)域)(東城區(qū)-區(qū)域)(東單大街
號-地址)(二室一廳-戶型). . . . . .
其中,(區(qū)域,戶型,面積,價(jià)格,地址,時(shí)間)→二手房信息記錄;上述的該行信息就是記錄二手房信息的一條知識,所述的語義知識庫205就是由很多條與此條知識相類似的知識組成的。
用戶獲取樣本采用以下兩種方式用戶填寫網(wǎng)址方式、通過系統(tǒng)學(xué)習(xí)方式。并參閱圖1所示。
(一)、系統(tǒng)提供如下界面讓用戶填寫網(wǎng)址。
1、用戶需要在網(wǎng)址輸入欄100中給出樣本所在網(wǎng)頁的URL(UniformResource Locator,統(tǒng)一資源定位器/網(wǎng)址),例如http://secondhouse.soufun.com2、當(dāng)網(wǎng)頁顯示在顯示界面10后,用戶用鼠標(biāo)點(diǎn)擊一個域,如在圖1中的信息顯示部300第二行的“2室1廳”,然后用戶在右邊的類型輸入窗口400中輸入“戶型”或選擇點(diǎn)擊“戶型”鍵55,告知系統(tǒng)“2室1廳”是一個“戶型”的樣本;(二)、通過系統(tǒng)學(xué)習(xí)的方式獲取樣本,參閱圖4所示,為本發(fā)明的樣本獲取流程圖;具體步驟如下步驟401、用戶首先在網(wǎng)址輸入欄100中輸入一網(wǎng)頁網(wǎng)址作為網(wǎng)站起點(diǎn),如輸入http://www.soufun.com作為網(wǎng)站起點(diǎn);步驟402、系統(tǒng)自動下載網(wǎng)頁到系統(tǒng)的顯示界面10的窗口中;步驟403、分析網(wǎng)頁中所有的鏈接,找到最有可能包含所需數(shù)據(jù)的網(wǎng)頁并自動下載,這里,就是找到最有可能包含“二手房信息”的頁面,并自動下載該頁面;步驟404、判斷找到的網(wǎng)頁是否為正確網(wǎng)頁,并自動記錄該過程,如果自動找到的頁面不正確,用戶可以退出該頁面,回到上一頁面或網(wǎng)站首頁,并手動點(diǎn)擊網(wǎng)頁中的一鏈接,如“二手房”,該系統(tǒng)將自動記錄用戶所點(diǎn)擊的鏈接,作為樣本的一部分;
步驟405、當(dāng)含有所需數(shù)據(jù)的網(wǎng)頁顯示在顯示界面10窗口后,系統(tǒng)分析數(shù)據(jù)。即當(dāng)含有二手房信息的網(wǎng)頁出現(xiàn)在顯示界面10的窗口后,系統(tǒng)可以自動分析該網(wǎng)頁中的數(shù)據(jù),或點(diǎn)擊“分析”鍵52。
下面介紹本發(fā)明的觸發(fā)系統(tǒng)分析過程。結(jié)合圖1所示,該觸發(fā)分析過程包括如下步驟首先,取信息顯示部300中的一行數(shù)據(jù),如(中關(guān)村南大街甲new 3室2廳 180 9-29)然后,查找語義知識庫205,得到下列匹配中關(guān)村南大街甲-地址3室2廳-戶型180-不確定(價(jià)格或面積)9-29-時(shí)間由語義知識庫可知;(戶型、地址、價(jià)格/面積、時(shí)間)很可能為一條關(guān)于“二手房信息”的記錄,所以此行數(shù)據(jù)可能就是要收集的樣本,繼續(xù)取該信息顯示部300中的其它行數(shù)據(jù),如果每一行都和“二手房信息”記錄匹配,則可確定信息顯示部300中所顯示的信息是一個有效樣本。
對于圖1中信息顯示部300中第二行的戶型為“2室1廳”的售價(jià)28(萬元),系統(tǒng)如果不能自動獲取,可由用戶從系統(tǒng)提供的界面中輸入,用戶首先用鼠標(biāo)點(diǎn)擊“28”,然后在類型輸入部400中輸入“價(jià)格”或選擇點(diǎn)擊“價(jià)格”鍵57來實(shí)現(xiàn)。
再者,在上述分析中,如果能夠找到樣本,就需要進(jìn)一步分析樣本在網(wǎng)頁中的位置和特征,包括中關(guān)村南大街甲是信息顯示部300中顯示的網(wǎng)頁對應(yīng)的HTML代碼中順次出現(xiàn)的第3個表中的第1列,它前面的TAG是<A heof=....target=“_blank”>,它后面的TAG是</FONT>,它的顏色是#fff000;“3室2廳”是信息顯示部300中顯示的網(wǎng)頁對應(yīng)的HTML代碼中順次出現(xiàn)的第3個表中的第2列,它前面的TAG是<td class=“style14”>,后面的TAG是</td>,顏色是#fff000;最后,繼續(xù)取其他行數(shù)據(jù),重復(fù)上面的分析,并將所有得到的“地址|戶型|時(shí)間”等特征和位置進(jìn)行比較,如果它們都一致,就可得到下面的樣本
<URL>http://www.soufun.com</URL>
<LINK>=二手房</LINK>
<URL>http://secondhouse.soufun.com</URL>
<ITEM><NAME>地址</NAME><POSITION>是信息顯示部300中顯示的網(wǎng)頁對應(yīng)的HTML代碼中順次出現(xiàn)的第3個表1列</POSITION><COLOR>#fff000</COLOR><PREVTAG>.........</PREVTAG>。
圖5所示為本發(fā)明的數(shù)據(jù)抽取流程圖。參閱圖1所示,當(dāng)用戶點(diǎn)擊系統(tǒng)顯示界面10的功能按鍵部500中的“抽取”鍵53,或從命令行DOS窗口啟動系統(tǒng),系統(tǒng)開始抽取數(shù)據(jù),包括如下步驟步驟501,首先讀入樣本,取得樣本的特征信息;步驟502,根據(jù)樣本中記錄的路徑,走到并下載該路徑對應(yīng)的網(wǎng)頁;步驟503,根據(jù)樣本在網(wǎng)頁中的位置和其他特征信息,如顏色,前、后TAG等,從網(wǎng)頁中找到匹配的數(shù)據(jù);及步驟504,根據(jù)當(dāng)前網(wǎng)頁中的鏈接,識別并走到下一頁,繼續(xù)重復(fù)上述步驟503,直至處理完所有網(wǎng)頁。
上述從命令行DOS窗口啟動系統(tǒng)的抽取功能從Windows中打開一個DOS窗口,并在該窗口中輸入命令“EXTRACT”站點(diǎn)名,再輸入“回車”鍵。
參閱圖1所示,數(shù)據(jù)集成過程主要包括如下內(nèi)容A1)、過濾錯誤的數(shù)據(jù),在抽取過程中,很可能得到一些行數(shù)據(jù),并不是所需要的行數(shù)據(jù),例如標(biāo)題行200,其內(nèi)容如下(物業(yè)地址 戶型 售價(jià)(萬元) 發(fā)布時(shí)間)這一行滿足樣本中的所有特征,如顏色,位置,前、后TAG等,但該行并不是真正的數(shù)據(jù),當(dāng)調(diào)用語義知識庫時(shí),就可知道“戶型”應(yīng)為“×室×廳”,而字符串“戶型”顯然不能匹配“×室×廳”,所以應(yīng)刪除;A2)、補(bǔ)充缺失的信息,例如信息顯示部300發(fā)布時(shí)間“9-29”,應(yīng)為“2005-9-29”,另外,所有的時(shí)間都應(yīng)轉(zhuǎn)成標(biāo)準(zhǔn)格式“×年×月×日”,否則,當(dāng)與其他站點(diǎn)中的數(shù)據(jù)相比較時(shí),就會產(chǎn)生問題。
以下結(jié)合具體實(shí)施例對本發(fā)明的內(nèi)容進(jìn)一步說明,圖6所示為本發(fā)明的一實(shí)施例示意圖,結(jié)合圖1、2所示。
以“公司聯(lián)系信息”為例進(jìn)行介紹如何從http://www.chinainc.cn網(wǎng)址中抽取公司的信息。
(一)、樣本收集B1)、如果采用人工輸入方式,用戶在網(wǎng)址輸入欄100中需輸入頁面的URLhttp://www.chinainc.cn/company-contact.php?/userid=12291;在信息顯示部300中顯示的為上述網(wǎng)頁地址對應(yīng)的頁面。
并在該頁面中,點(diǎn)擊“北京”作為“城市”;點(diǎn)擊“海淀區(qū)上地信息路15號”作為“地址”;點(diǎn)擊“聶放”作為“聯(lián)系人”;點(diǎn)擊“010-62973717”作為電話號碼。
B2)、如果采用系統(tǒng)學(xué)習(xí)方式,用戶只需在網(wǎng)址輸入欄100中給出起點(diǎn)。
http://www.chinainc.cnB3)、然后,由系統(tǒng)自動搜索含有公司聯(lián)系信息的頁面,主要是尋找“聯(lián)系方式”、“聯(lián)系人”、“電話”、“傳真”等關(guān)鍵字的頁面。
如果自動搜索失敗,則用戶要回到首頁,點(diǎn)擊一個鏈接進(jìn)入下一頁面,例如北京,引導(dǎo)系統(tǒng)找到所需要的頁面在這個過程中,系統(tǒng)自動記錄用戶尋找的過程,并作為樣本的一部分保存起來。
如圖6所示,當(dāng)系統(tǒng)走到一個含有所需數(shù)據(jù)的頁面,可自動尋找數(shù)據(jù)樣本,這主要是由語義知識庫205的知識來確定,例如“海淀區(qū)上地信息路15號”->地址“北京”->城市“010-62973717”->電話或傳真“100085”->郵政編碼“http://www.a-volt.com”->公司網(wǎng)址其中,(城市、地址、電話/傳真、郵政編碼、公司網(wǎng)址)就構(gòu)成了一個公司的聯(lián)系信息。
上述實(shí)施例中,系統(tǒng)很難區(qū)分信息顯示部300中“010-62973717”、“010-62965253”中哪個是電話號碼,哪個是傳真號碼,這時(shí)需要人工干預(yù),用戶可以點(diǎn)擊“010-62973717”,并在類型輸入部400中輸入“電話”或點(diǎn)擊“電話”鍵511,這樣系統(tǒng)就知道這一行是電話,下面一行就是傳真了。
“城市”鍵58、“地址”鍵59、“聯(lián)系人”鍵510、“電話”鍵511皆為本發(fā)明系統(tǒng)的可選擇按鍵。點(diǎn)擊“城市”鍵58,系統(tǒng)可以獲取有關(guān)城市的樣本數(shù)據(jù),同樣點(diǎn)擊“地址”鍵59、“聯(lián)系人”鍵510可以相應(yīng)地獲取有關(guān)地址、聯(lián)系人方面的信息。
(二)、樣本分析當(dāng)系統(tǒng)獲得樣本后,就要對它的特征進(jìn)行分析,首先看它在頁面中的位置,可知所有樣本都在信息顯示部300中所顯示網(wǎng)頁對應(yīng)的HTML代碼中順次出現(xiàn)的第7個表中,“城市”是第一行,“地址”是第二行,“聯(lián)系人”是第三行等,另外,其顏色是#FFFFF,“城市”所在的TAG是<TD></TD>,“地址”所在的TAG是<TD align=“bottom”>等等。
另外,還需要分析樣本所在網(wǎng)頁的位置,如果是系統(tǒng)自動學(xué)習(xí)生成的樣本,可能會經(jīng)過下述過程<URL>http://www.chinainc.cn</URL>
<LINK>企業(yè)名錄</LINK>
<LINK>北京</LINK><LOOP>YES</<LOOP>
<LINK>北京安伏電子有限公司</LINK><LOOP>YES</LOOP>
<LINK>聯(lián)系方法</LINK>
此處<LINK>YES</LOOP>指出不僅走“北京”這一鏈接,還有與“北京”并列的鏈接,例如“上海”,“天津”,“重慶”等。
(三)、數(shù)據(jù)抽取首先讀取樣本,然后根據(jù)樣本提供的路徑下載對應(yīng)的網(wǎng)頁,并根據(jù)樣本特征,如位置、顏色與所在TAG等抽取數(shù)據(jù),這里重要的一點(diǎn)是凡經(jīng)過帶有<LOOP>YES</LOOP>的路徑,例如“北京”,不僅要訪問北京下面的所有公司,還要訪問與“北京”并列在一起的所有鏈接,如“上海”,“天津”等,這樣就可以找到所有公司的聯(lián)系信息。
(四)、數(shù)據(jù)集成a)、過濾錯誤的信息若沒有錯誤信息,則可跳過該步驟。本實(shí)施例中沒有錯誤信息,所以這步可省略。
b)、補(bǔ)充缺失的信息在前面的頁面中,沒有“企業(yè)行業(yè)分類”,然而,該信息可在其他頁面中獲得,目前系統(tǒng)不能直接自動找到該信息。
本發(fā)明方法使用了面向某個領(lǐng)域的語義知識庫,不需要對頁面進(jìn)行預(yù)處理,同時(shí)智能化程度較高,對人工的依賴程度大大降低了,使得處理速度大大提高;該方法是直接訪問站點(diǎn),不依靠任何搜索引擎,并可自動訪問站點(diǎn)中的所有網(wǎng)頁;本發(fā)明自動識別該領(lǐng)域中的許多數(shù)據(jù)項(xiàng),從而極大地提高了數(shù)據(jù)抽取的效率,本發(fā)明方法還能通過調(diào)用語義知識庫自動集成來自多個頁面中的很多數(shù)據(jù),刪除錯誤或不完整的信息,并補(bǔ)充缺少的信息;本發(fā)明的應(yīng)用范圍較廣,能夠應(yīng)用于很多領(lǐng)域。
當(dāng)然,本發(fā)明還可有其他多種實(shí)施例,在不背離本發(fā)明精神及其實(shí)質(zhì)的情況下,熟悉本領(lǐng)域的技術(shù)人員當(dāng)可根據(jù)本發(fā)明作出各種相應(yīng)的改變和變形,但這些相應(yīng)的改變和變形都應(yīng)屬于本發(fā)明所附的權(quán)利要求的保護(hù)范圍。
權(quán)利要求
1.一種面向領(lǐng)域基于樣本的互聯(lián)網(wǎng)結(jié)構(gòu)化數(shù)據(jù)抽取方法,其特征在于,包括步驟一樣本收集的步驟,用于通過自動收集用戶訪問數(shù)據(jù)的過程獲得樣本;一樣本分析的步驟,用于通過面向一領(lǐng)域的語義知識庫,自動分析所述樣本,抽取所述樣本的特征信息;一數(shù)據(jù)抽取的步驟,用于通過所述樣本的特征信息,通過HTTP協(xié)議或驅(qū)動互聯(lián)網(wǎng)瀏覽器自動讀取網(wǎng)頁,并從所述網(wǎng)頁中抽取與所述樣本的特征信息相似或匹配的數(shù)據(jù);及一數(shù)據(jù)集成的步驟,用于通過所述語義知識庫,將與所述樣本的特征信息相似或相匹配的數(shù)據(jù)轉(zhuǎn)換成一統(tǒng)一格式的數(shù)據(jù)。
2.根據(jù)權(quán)利要求1所述的互聯(lián)網(wǎng)結(jié)構(gòu)化數(shù)據(jù)抽取方法,其特征在于,所述樣本收集的步驟中,通過用戶輸入網(wǎng)址方式或系統(tǒng)學(xué)習(xí)方式獲得樣本。
3.根據(jù)權(quán)利要求2所述的互聯(lián)網(wǎng)結(jié)構(gòu)化數(shù)據(jù)抽取方法,其特征在于,所述通過系統(tǒng)學(xué)習(xí)方式獲得樣本時(shí),系統(tǒng)根據(jù)用戶輸入的網(wǎng)站起點(diǎn)自動搜索網(wǎng)頁;且當(dāng)所述自動搜索到的網(wǎng)頁不含有所需數(shù)據(jù)時(shí),用戶返回至所述網(wǎng)頁的上一頁或網(wǎng)站首頁,由用戶點(diǎn)擊一鏈接引導(dǎo)系統(tǒng)至含有所需數(shù)據(jù)的網(wǎng)頁,并在該含有所需數(shù)據(jù)的網(wǎng)頁中系統(tǒng)自動尋找樣本,并將自動記錄的網(wǎng)頁尋找過程作為樣本的一部分。
4.根據(jù)權(quán)利要求1所述的互聯(lián)網(wǎng)結(jié)構(gòu)化數(shù)據(jù)抽取方法,其特征在于,所述數(shù)據(jù)抽取的步驟具體為41)、讀入所述樣本,并取得所述樣本的特征信息;42)、根據(jù)所述樣本中記錄的路徑下載對應(yīng)的網(wǎng)頁;43)、根據(jù)所述樣本在所述網(wǎng)頁中的特征,從該網(wǎng)頁中找到與所述樣本的特征信息相似或匹配的數(shù)據(jù);及44)、根據(jù)所述網(wǎng)頁中的鏈接,識別該鏈接并瀏覽至下一網(wǎng)頁,重復(fù)所述步驟43,直至處理完所有網(wǎng)頁。
5.根據(jù)權(quán)利要求1所述的互聯(lián)網(wǎng)結(jié)構(gòu)化數(shù)據(jù)抽取方法,其特征在于,所述樣本的特征信息包括從互聯(lián)網(wǎng)的網(wǎng)站入口至所述頁面的用戶操作、所述樣本在所述網(wǎng)頁中的特征;所述樣本在所述網(wǎng)頁中的特征又包括字體、顏色、在動態(tài)超文本標(biāo)記語言樹中的位置、所用的超文本標(biāo)記語言標(biāo)識中的一個或多個。
6.根據(jù)權(quán)利要求1所述的互聯(lián)網(wǎng)結(jié)構(gòu)化數(shù)據(jù)抽取方法,其特征在于,所述數(shù)據(jù)集成的步驟具體為對與所述樣本的特征信息相似或匹配的數(shù)據(jù),刪除錯誤和/或重復(fù)的信息,和/或補(bǔ)充缺少的信息,使其具有相同的結(jié)構(gòu),并轉(zhuǎn)化成可擴(kuò)展標(biāo)記語言或關(guān)系數(shù)據(jù)庫格式的數(shù)據(jù)。
7.一種面向領(lǐng)域基于樣本的互聯(lián)網(wǎng)結(jié)構(gòu)化數(shù)據(jù)抽取系統(tǒng),其特征在于,包括一樣本收集模塊,用于通過自動收集用戶訪問數(shù)據(jù)的過程獲得樣本;一樣本分析模塊,用于通過面向一領(lǐng)域的語義知識庫,自動分析所述樣本,抽取所述樣本的特征信息;一數(shù)據(jù)抽取模塊,用于通過所述樣本的特征信息,通過HTTP協(xié)議或驅(qū)動互聯(lián)網(wǎng)瀏覽器自動讀取網(wǎng)頁,并從所述網(wǎng)頁中抽取與所述樣本的特征信息相似或相匹配的數(shù)據(jù);一數(shù)據(jù)集成模塊,用于通過所述語義知識庫,將與所述樣本的特征信息相似或相匹配的數(shù)據(jù)轉(zhuǎn)換成一統(tǒng)一格式的數(shù)據(jù)。
8.根據(jù)權(quán)利要求7所述的互聯(lián)網(wǎng)結(jié)構(gòu)化數(shù)據(jù)抽取系統(tǒng),其特征在于,所述樣本收集模塊具體通過用戶輸入網(wǎng)址方式或系統(tǒng)學(xué)習(xí)方式獲得樣本。
9.根據(jù)權(quán)利要求7所述的互聯(lián)網(wǎng)結(jié)構(gòu)化數(shù)據(jù)抽取系統(tǒng),其特征在于,所述樣本的特征信息包括從互聯(lián)網(wǎng)的網(wǎng)站入口至所述頁面的用戶操作、所述樣本在所述網(wǎng)頁中的特征;所述樣本在所述網(wǎng)頁中的特征又包括字體、顏色、在動態(tài)超文本標(biāo)記語言樹中的位置、所用的超文本標(biāo)記語言標(biāo)識中的一個或多個。
全文摘要
本發(fā)明公開了一種面向領(lǐng)域基于樣本的互聯(lián)網(wǎng)結(jié)構(gòu)化數(shù)據(jù)抽取方法及其系統(tǒng),用于實(shí)現(xiàn)快速自動抽取互聯(lián)網(wǎng)結(jié)構(gòu)化數(shù)據(jù),包括步驟樣本收集的步驟,用于通過自動記錄用戶訪問數(shù)據(jù)的過程獲得樣本;樣本分析的步驟,用于通過面向領(lǐng)域的語義知識庫,自動分析所述樣本,并抽取所述樣本的特征信息;數(shù)據(jù)抽取的步驟,用于通過所述樣本的特征信息,通過HTTP協(xié)議或驅(qū)動互聯(lián)網(wǎng)瀏覽器自動讀取多個網(wǎng)頁,并從所述網(wǎng)頁中抽取與所述樣本的特征信息相似或相匹配的數(shù)據(jù);數(shù)據(jù)集成的步驟,用于通過所述語義知識庫,將與所述樣本的特征信息相似或相匹配的數(shù)據(jù)轉(zhuǎn)換成一統(tǒng)一格式的數(shù)據(jù)。本發(fā)明能自動從多個頁面中抽取出具有類似特征的數(shù)據(jù),大大提高了數(shù)據(jù)抽取的效率。
文檔編號G06F17/30GK1952929SQ200510109288
公開日2007年4月25日 申請日期2005年10月20日 優(yōu)先權(quán)日2005年10月20日
發(fā)明者關(guān)濤 申請人:關(guān)濤