面向領(lǐng)域基于樣本的互聯(lián)網(wǎng)結(jié)構(gòu)化數(shù)據(jù)抽取方法及其系統(tǒng)的制作方法

文檔序號：6649473閱讀：346來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：面向領(lǐng)域基于樣本的互聯(lián)網(wǎng)結(jié)構(gòu)化數(shù)據(jù)抽取方法及其系統(tǒng)的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及計(jì)算機(jī)應(yīng)用領(lǐng)域，特別是涉及一種面向領(lǐng)域基于樣本的互聯(lián)網(wǎng)結(jié)構(gòu)化數(shù)據(jù)自動抽取方法及其系統(tǒng)。
背景技術(shù)：
數(shù)據(jù)抽取技術(shù)是按照一定規(guī)則，利用計(jì)算機(jī)對自由、半自由文本中的有效數(shù)據(jù)進(jìn)行提取，并加以組織，展現(xiàn)給用戶的技術(shù)。特定領(lǐng)域的數(shù)據(jù)抽取以領(lǐng)域相關(guān)知識作為指導(dǎo)，利用人工標(biāo)記的、規(guī)則的樣本集進(jìn)行訓(xùn)練，使數(shù)據(jù)抽取機(jī)制中的規(guī)則的抽象層次和覆蓋面達(dá)到最合理的程度，然后再對樣本集外的文本進(jìn)行數(shù)據(jù)提取。
中國專利文件(公開/公告號CN1410918)公開了一種基于信息抽取技術(shù)的搜索引擎，主要是利用機(jī)器學(xué)習(xí)的方法，對含有同類信息且布局基本一致的HTML頁面樣本集進(jìn)行學(xué)習(xí)，從而得出對此類HTML頁面進(jìn)行信息抽取的規(guī)則，應(yīng)用這些規(guī)則，結(jié)合一個特定領(lǐng)域的搜索引擎，對網(wǎng)絡(luò)上的相關(guān)信息進(jìn)行大量地獲取，并從半自由的HTML文本中獲取結(jié)構(gòu)化的信息。因?yàn)樵搶＠腔跈C(jī)器學(xué)習(xí)原理的，所以必須收集一定的學(xué)習(xí)頁面，并對該頁面進(jìn)行預(yù)處理，例如刪除圖片，再由一“學(xué)習(xí)模塊”進(jìn)行規(guī)則抽取，這樣就會降低處理速度；同時(shí)以“詞法分析、語法分析、語義解釋”等步驟的自然語言理解技術(shù)來實(shí)現(xiàn)頁面分析，這種方法又增大了實(shí)現(xiàn)的復(fù)雜程度；另外，通過一個搜索引擎的方式來實(shí)現(xiàn)本發(fā)明方法也限制其應(yīng)用范圍。
中國專利文件(公開/公告號CN1255680)公開了一種聯(lián)機(jī)商店產(chǎn)品信息自動檢索方法和系統(tǒng)，其通過機(jī)器人獲取聯(lián)機(jī)商店的HTML文件，并從HTML文件中搜尋價(jià)格信息，且只保留所需要的信息，去除不需要的信息，讀入處理的結(jié)果并判斷網(wǎng)頁的類型，應(yīng)用一與所述類型符合的算法提取產(chǎn)品信息的階段及應(yīng)用與所述類型符合的算法通過盲探索提取產(chǎn)品信息，實(shí)現(xiàn)自動提取聯(lián)機(jī)商店的產(chǎn)品信息，從而按現(xiàn)有的直接服務(wù)對網(wǎng)上的連接商店進(jìn)行比較購物。該種方法適用的范圍較小，它是一種面向特定領(lǐng)域“商店產(chǎn)品信息”的檢索方法和系統(tǒng)，另外，其利用硬件裝置讀取HTML文件，并從該HTML文件中搜尋價(jià)格信息，因而對非價(jià)格信息，本方法就無能為力了。
總之，所述的抽取方法較為復(fù)雜，不能有效提高數(shù)據(jù)抽取的效率，僅對特定領(lǐng)域或較小范圍內(nèi)的特定信息抽取有效。如何高效率地進(jìn)行數(shù)據(jù)抽取成為當(dāng)前業(yè)界的一大熱點(diǎn)問題。

發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題在于提供一種面向領(lǐng)域基于樣本的互聯(lián)網(wǎng)結(jié)構(gòu)化數(shù)據(jù)抽取方法及其系統(tǒng)，用于實(shí)現(xiàn)快速、高效自動抽取互聯(lián)網(wǎng)結(jié)構(gòu)化數(shù)據(jù)。
為了實(shí)現(xiàn)上述目的，本發(fā)明提供了一種面向領(lǐng)域基于樣本的互聯(lián)網(wǎng)結(jié)構(gòu)化數(shù)據(jù)抽取方法，包括如下步驟一樣本收集的步驟，用于通過自動收集用戶訪問數(shù)據(jù)的過程獲得樣本；一樣本分析的步驟，用于通過面向一領(lǐng)域的語義知識庫，自動分析所述樣本，抽取所述樣本的特征信息；一數(shù)據(jù)抽取的步驟，用于通過所述樣本的特征信息，通過HTTP協(xié)議或驅(qū)動互聯(lián)網(wǎng)瀏覽器自動讀取網(wǎng)頁，并從所述網(wǎng)頁中抽取與所述樣本的特征信息相似或匹配的數(shù)據(jù)；及一數(shù)據(jù)集成的步驟，用于通過所述語義知識庫，將與所述樣本的特征信息相似或相匹配的數(shù)據(jù)轉(zhuǎn)換成一統(tǒng)一格式的數(shù)據(jù)。
所述的互聯(lián)網(wǎng)結(jié)構(gòu)化數(shù)據(jù)抽取方法，其中，所述樣本收集的步驟中，通過用戶輸入網(wǎng)址方式或系統(tǒng)學(xué)習(xí)方式獲得樣本。
所述的互聯(lián)網(wǎng)結(jié)構(gòu)化數(shù)據(jù)抽取方法，其中，所述通過系統(tǒng)學(xué)習(xí)方式獲得樣本時(shí)，系統(tǒng)根據(jù)用戶輸入的網(wǎng)站起點(diǎn)自動搜索網(wǎng)頁；且當(dāng)所述自動搜索到的網(wǎng)頁不含有所需數(shù)據(jù)時(shí)，用戶返回至所述網(wǎng)頁的上一頁或網(wǎng)站首頁，由用戶點(diǎn)擊一鏈接引導(dǎo)系統(tǒng)至含有所需數(shù)據(jù)的網(wǎng)頁，并在該含有所需數(shù)據(jù)的網(wǎng)頁中系統(tǒng)自動尋找樣本，并將自動記錄的網(wǎng)頁尋找過程作為樣本的一部分。
所述的互聯(lián)網(wǎng)結(jié)構(gòu)化數(shù)據(jù)抽取方法，其中，所述數(shù)據(jù)抽取的步驟具體為41)、讀入所述樣本，并取得所述樣本的特征信息；42)、根據(jù)所述樣本中記錄的路徑下載對應(yīng)的網(wǎng)頁；
43)、根據(jù)所述樣本在所述網(wǎng)頁中的特征，從該網(wǎng)頁中找到與所述樣本的特征信息相似或匹配的數(shù)據(jù)；及44)、根據(jù)所述網(wǎng)頁中的鏈接，識別該鏈接并瀏覽至下一網(wǎng)頁，重復(fù)所述步驟43，直至處理完所有網(wǎng)頁。
所述的互聯(lián)網(wǎng)結(jié)構(gòu)化數(shù)據(jù)抽取方法，其中，所述樣本的特征信息包括從互聯(lián)網(wǎng)的網(wǎng)站入口至所述頁面的用戶操作、所述樣本在所述網(wǎng)頁中的特征；所述樣本在所述網(wǎng)頁中的特征又包括字體、顏色、在動態(tài)超文本標(biāo)記語言樹中的位置、所用的超文本標(biāo)記語言標(biāo)識中的一個或多個。
所述的互聯(lián)網(wǎng)結(jié)構(gòu)化數(shù)據(jù)抽取方法，其中，所述數(shù)據(jù)集成的步驟具體為對與所述樣本的特征信息相似或匹配的數(shù)據(jù)，刪除錯誤和/或重復(fù)的信息，和/或補(bǔ)充缺少的信息，使其具有相同的結(jié)構(gòu)，并轉(zhuǎn)化成可擴(kuò)展標(biāo)記語言或關(guān)系數(shù)據(jù)庫格式的數(shù)據(jù)。
為了更好地實(shí)現(xiàn)上述目的，本發(fā)明還提供了一種面向領(lǐng)域基于樣本的互聯(lián)網(wǎng)結(jié)構(gòu)化數(shù)據(jù)抽取系統(tǒng)，包括一樣本收集模塊，用于通過自動收集用戶訪問數(shù)據(jù)的過程獲得樣本；一樣本分析模塊，用于通過面向一領(lǐng)域的語義知識庫，自動分析所述樣本，抽取所述樣本的特征信息；一數(shù)據(jù)抽取模塊，用于通過所述樣本的特征信息，通過HTTP協(xié)議或驅(qū)動互聯(lián)網(wǎng)瀏覽器自動讀取網(wǎng)頁，并從所述網(wǎng)頁中抽取與所述樣本的特征信息相似或相匹配的數(shù)據(jù)；及一數(shù)據(jù)集成模塊，用于通過所述語義知識庫，將與所述樣本的特征信息相似或相匹配的數(shù)據(jù)轉(zhuǎn)換成一統(tǒng)一格式的數(shù)據(jù)。
所述的互聯(lián)網(wǎng)結(jié)構(gòu)化數(shù)據(jù)抽取系統(tǒng)，其中，所述樣本收集模塊具體通過用戶輸入網(wǎng)址方式或系統(tǒng)學(xué)習(xí)方式獲得樣本。
所述的互聯(lián)網(wǎng)結(jié)構(gòu)化數(shù)據(jù)抽取系統(tǒng)，其中，所述樣本的特征信息包括從互聯(lián)網(wǎng)的網(wǎng)站入口至所述頁面的用戶操作、所述樣本在所述網(wǎng)頁中的特征；所述樣本在所述網(wǎng)頁中的特征又包括字體、顏色、在動態(tài)超文本標(biāo)記語言樹中的位置、所用的超文本標(biāo)記語言標(biāo)識中的一個或多個。
本發(fā)明所述的面向領(lǐng)域基于樣本的互聯(lián)網(wǎng)結(jié)構(gòu)化數(shù)據(jù)抽取方法使用了面向某個領(lǐng)域的語義知識庫，能自動識別該領(lǐng)域中的許多數(shù)據(jù)項(xiàng)，從而極大地提高了數(shù)據(jù)抽取的效率，利用本發(fā)明方法，用戶僅需給出一個所需數(shù)據(jù)的樣本或?qū)嵗?，就能自動從多個頁面中抽取出具有類似特征的一組數(shù)據(jù)，不需人工編程或干預(yù)，本發(fā)明方法還能通過調(diào)用語義知識庫自動集成來自多個頁面的數(shù)據(jù)，刪除錯誤或不完整的信息，并補(bǔ)充缺少的信息。
以下結(jié)合附圖和具體實(shí)施例對本發(fā)明進(jìn)行詳細(xì)描述，但不作為對本發(fā)明的限定。

圖1為本發(fā)明的系統(tǒng)的一顯示界面；圖2為本發(fā)明的系統(tǒng)結(jié)構(gòu)示意圖；圖3為本發(fā)明面向領(lǐng)域基于樣本的互聯(lián)網(wǎng)結(jié)構(gòu)化數(shù)據(jù)自動抽取流程圖；圖4為本發(fā)明的樣本獲取流程圖；圖5為本發(fā)明的數(shù)據(jù)抽取流程圖；圖6為本發(fā)明的一實(shí)施例示意圖。
具體實(shí)施例方式
圖1所示為本發(fā)明的系統(tǒng)的一顯示界面。該顯示界面10包括網(wǎng)址輸入欄100、標(biāo)題欄200、信息顯示部300、類型輸入窗口400及功能按鍵部500；功能按鍵部500又包括“收集”鍵51、“分析”鍵52、“抽取”鍵53、“區(qū)域”鍵54、“戶型”鍵55、“面積”鍵56、“價(jià)格”鍵57。
其中，“收集”鍵51、“分析”鍵52、“抽取”鍵53是本發(fā)明系統(tǒng)的基本按鍵，在所有領(lǐng)域都使用；“收集”鍵51，用于啟動樣本收集的過程，也即，開始收集用戶取得樣本的過程；“分析”鍵52，用于啟動樣本分析的過程，也即，從信息顯示部300所顯示的網(wǎng)頁中抽取樣本特征；“抽取”鍵53，用于啟動數(shù)據(jù)抽取和集成的過程，也即，根據(jù)所獲得的樣本，從所有網(wǎng)頁中抽取數(shù)據(jù)，并轉(zhuǎn)化為統(tǒng)一格式。
而“區(qū)域”鍵54、“戶型”鍵55、“面積”鍵56與“價(jià)格”鍵57僅適用于“二手房信息”實(shí)施例中，是本發(fā)明系統(tǒng)的可選擇按鍵，其功能是方便用戶標(biāo)識樣本。
圖2所示為本發(fā)明的系統(tǒng)結(jié)構(gòu)示意圖，該系統(tǒng)結(jié)構(gòu)20包括樣本收集模塊201、樣本分析模塊202、數(shù)據(jù)抽取模塊203、數(shù)據(jù)集成模塊204、面向領(lǐng)域的語義知識庫205。
樣本收集模塊201，用于通過自動記錄用戶訪問某種數(shù)據(jù)的過程，獲得一個樣本；樣本分析模塊202，用于通過面向領(lǐng)域的語義知識庫205，自動對樣本進(jìn)行分析，抽取其特征或模板；數(shù)據(jù)抽取模塊203，其作用是利用所獲得的樣本特征，通過HTTP協(xié)議或驅(qū)動互聯(lián)網(wǎng)瀏覽器自動讀取多個網(wǎng)頁，并從多個網(wǎng)頁中抽取具有類似特征的數(shù)據(jù)；及數(shù)據(jù)集成模塊204，其作用是利用面向領(lǐng)域的語義知識庫205，對從多個頁面抽取的數(shù)據(jù)進(jìn)行集成，刪除錯誤或重復(fù)的信息，使不同頁面中獲得的數(shù)據(jù)具有相同結(jié)構(gòu)，并轉(zhuǎn)化成XML或關(guān)系數(shù)據(jù)庫格式。
所述自動抽取的樣本特征包括從網(wǎng)站入口走到當(dāng)前頁面的用戶操作；及樣本在當(dāng)前網(wǎng)頁中的特征，例如字體、顏色或DHTML樹中的位置或所用的HTML標(biāo)識等。
圖3所示為本發(fā)明面向領(lǐng)域基于樣本的互聯(lián)網(wǎng)結(jié)構(gòu)化數(shù)據(jù)自動抽取流程圖，結(jié)合圖2所示，該流程包括如下步驟步驟301，系統(tǒng)通過自動收集用戶訪問某種數(shù)據(jù)的過程，獲得一個樣本；步驟302，通過一面向領(lǐng)域的語義知識庫205，自動對樣本進(jìn)行分析，抽取其特征或模板；步驟303，利用所獲得的樣本特征，通過HTTP協(xié)議或驅(qū)動互聯(lián)網(wǎng)瀏覽器自動讀取多個網(wǎng)頁，從多個網(wǎng)頁中抽取具有類似特征的數(shù)據(jù)；及步驟304，利用面向領(lǐng)域的語義知識庫205，對從多個頁面抽取的數(shù)據(jù)進(jìn)行集成，刪除錯誤或重復(fù)的信息，使不同頁面中獲得的數(shù)據(jù)具有相同結(jié)構(gòu)，并轉(zhuǎn)化成XML或關(guān)系數(shù)據(jù)庫格式。
面向領(lǐng)域的知識庫是一種公知技術(shù)，很多計(jì)算機(jī)都采用各種不同的知識庫，例如wordnet(http://wordnet.Princeton.edu)，就是由普林斯頓大學(xué)開發(fā)的語義知識庫，目前被許多系統(tǒng)廣泛采用。本發(fā)明的語義知識庫205，是一種簡化的語義知識庫，舉例說明，以二手房交易信息為例
(朝陽區(qū)-區(qū)域)(東城區(qū)-區(qū)域)(東單大街
號-地址)(二室一廳-戶型). . . . . .
其中，(區(qū)域，戶型，面積，價(jià)格，地址，時(shí)間)→二手房信息記錄；上述的該行信息就是記錄二手房信息的一條知識，所述的語義知識庫205就是由很多條與此條知識相類似的知識組成的。
用戶獲取樣本采用以下兩種方式用戶填寫網(wǎng)址方式、通過系統(tǒng)學(xué)習(xí)方式。并參閱圖1所示。
(一)、系統(tǒng)提供如下界面讓用戶填寫網(wǎng)址。
1、用戶需要在網(wǎng)址輸入欄100中給出樣本所在網(wǎng)頁的URL(UniformResource Locator，統(tǒng)一資源定位器/網(wǎng)址)，例如http://secondhouse.soufun.com2、當(dāng)網(wǎng)頁顯示在顯示界面10后，用戶用鼠標(biāo)點(diǎn)擊一個域，如在圖1中的信息顯示部300第二行的“2室1廳”，然后用戶在右邊的類型輸入窗口400中輸入“戶型”或選擇點(diǎn)擊“戶型”鍵55，告知系統(tǒng)“2室1廳”是一個“戶型”的樣本；(二)、通過系統(tǒng)學(xué)習(xí)的方式獲取樣本，參閱圖4所示，為本發(fā)明的樣本獲取流程圖；具體步驟如下步驟401、用戶首先在網(wǎng)址輸入欄100中輸入一網(wǎng)頁網(wǎng)址作為網(wǎng)站起點(diǎn)，如輸入http://www.soufun.com作為網(wǎng)站起點(diǎn)；步驟402、系統(tǒng)自動下載網(wǎng)頁到系統(tǒng)的顯示界面10的窗口中；步驟403、分析網(wǎng)頁中所有的鏈接，找到最有可能包含所需數(shù)據(jù)的網(wǎng)頁并自動下載，這里，就是找到最有可能包含“二手房信息”的頁面，并自動下載該頁面；步驟404、判斷找到的網(wǎng)頁是否為正確網(wǎng)頁，并自動記錄該過程，如果自動找到的頁面不正確，用戶可以退出該頁面，回到上一頁面或網(wǎng)站首頁，并手動點(diǎn)擊網(wǎng)頁中的一鏈接，如“二手房”，該系統(tǒng)將自動記錄用戶所點(diǎn)擊的鏈接，作為樣本的一部分；
步驟405、當(dāng)含有所需數(shù)據(jù)的網(wǎng)頁顯示在顯示界面10窗口后，系統(tǒng)分析數(shù)據(jù)。即當(dāng)含有二手房信息的網(wǎng)頁出現(xiàn)在顯示界面10的窗口后，系統(tǒng)可以自動分析該網(wǎng)頁中的數(shù)據(jù)，或點(diǎn)擊“分析”鍵52。
下面介紹本發(fā)明的觸發(fā)系統(tǒng)分析過程。結(jié)合圖1所示，該觸發(fā)分析過程包括如下步驟首先，取信息顯示部300中的一行數(shù)據(jù)，如(中關(guān)村南大街甲new 3室2廳 180 9-29)然后，查找語義知識庫205，得到下列匹配中關(guān)村南大街甲-地址3室2廳-戶型180-不確定(價(jià)格或面積)9-29-時(shí)間由語義知識庫可知；(戶型、地址、價(jià)格/面積、時(shí)間)很可能為一條關(guān)于“二手房信息”的記錄，所以此行數(shù)據(jù)可能就是要收集的樣本，繼續(xù)取該信息顯示部300中的其它行數(shù)據(jù)，如果每一行都和“二手房信息”記錄匹配，則可確定信息顯示部300中所顯示的信息是一個有效樣本。
對于圖1中信息顯示部300中第二行的戶型為“2室1廳”的售價(jià)28(萬元)，系統(tǒng)如果不能自動獲取，可由用戶從系統(tǒng)提供的界面中輸入，用戶首先用鼠標(biāo)點(diǎn)擊“28”，然后在類型輸入部400中輸入“價(jià)格”或選擇點(diǎn)擊“價(jià)格”鍵57來實(shí)現(xiàn)。
再者，在上述分析中，如果能夠找到樣本，就需要進(jìn)一步分析樣本在網(wǎng)頁中的位置和特征，包括中關(guān)村南大街甲是信息顯示部300中顯示的網(wǎng)頁對應(yīng)的HTML代碼中順次出現(xiàn)的第3個表中的第1列，它前面的TAG是<A heof＝....target＝“_blank”>，它后面的TAG是</FONT>，它的顏色是#fff000；“3室2廳”是信息顯示部300中顯示的網(wǎng)頁對應(yīng)的HTML代碼中順次出現(xiàn)的第3個表中的第2列，它前面的TAG是<td class＝“style14”>，后面的TAG是</td>，顏色是#fff000；最后，繼續(xù)取其他行數(shù)據(jù)，重復(fù)上面的分析，并將所有得到的“地址|戶型|時(shí)間”等特征和位置進(jìn)行比較，如果它們都一致，就可得到下面的樣本
<URL>http://www.soufun.com</URL>
<LINK>＝二手房</LINK>
<URL>http://secondhouse.soufun.com</URL>
<ITEM><NAME>地址</NAME><POSITION>是信息顯示部300中顯示的網(wǎng)頁對應(yīng)的HTML代碼中順次出現(xiàn)的第3個表1列</POSITION><COLOR>#fff000</COLOR><PREVTAG>.........</PREVTAG>。
圖5所示為本發(fā)明的數(shù)據(jù)抽取流程圖。參閱圖1所示，當(dāng)用戶點(diǎn)擊系統(tǒng)顯示界面10的功能按鍵部500中的“抽取”鍵53，或從命令行DOS窗口啟動系統(tǒng)，系統(tǒng)開始抽取數(shù)據(jù)，包括如下步驟步驟501，首先讀入樣本，取得樣本的特征信息；步驟502，根據(jù)樣本中記錄的路徑，走到并下載該路徑對應(yīng)的網(wǎng)頁；步驟503，根據(jù)樣本在網(wǎng)頁中的位置和其他特征信息，如顏色，前、后TAG等，從網(wǎng)頁中找到匹配的數(shù)據(jù)；及步驟504，根據(jù)當(dāng)前網(wǎng)頁中的鏈接，識別并走到下一頁，繼續(xù)重復(fù)上述步驟503，直至處理完所有網(wǎng)頁。
上述從命令行DOS窗口啟動系統(tǒng)的抽取功能從Windows中打開一個DOS窗口，并在該窗口中輸入命令“EXTRACT”站點(diǎn)名，再輸入“回車”鍵。
參閱圖1所示，數(shù)據(jù)集成過程主要包括如下內(nèi)容A1)、過濾錯誤的數(shù)據(jù)，在抽取過程中，很可能得到一些行數(shù)據(jù)，并不是所需要的行數(shù)據(jù)，例如標(biāo)題行200，其內(nèi)容如下(物業(yè)地址戶型售價(jià)(萬元) 發(fā)布時(shí)間)這一行滿足樣本中的所有特征，如顏色，位置，前、后TAG等，但該行并不是真正的數(shù)據(jù)，當(dāng)調(diào)用語義知識庫時(shí)，就可知道“戶型”應(yīng)為“×室×廳”，而字符串“戶型”顯然不能匹配“×室×廳”，所以應(yīng)刪除；A2)、補(bǔ)充缺失的信息，例如信息顯示部300發(fā)布時(shí)間“9-29”，應(yīng)為“2005-9-29”，另外，所有的時(shí)間都應(yīng)轉(zhuǎn)成標(biāo)準(zhǔn)格式“×年×月×日”，否則，當(dāng)與其他站點(diǎn)中的數(shù)據(jù)相比較時(shí)，就會產(chǎn)生問題。
以下結(jié)合具體實(shí)施例對本發(fā)明的內(nèi)容進(jìn)一步說明，圖6所示為本發(fā)明的一實(shí)施例示意圖，結(jié)合圖1、2所示。
以“公司聯(lián)系信息”為例進(jìn)行介紹如何從http://www.chinainc.cn網(wǎng)址中抽取公司的信息。
(一)、樣本收集B1)、如果采用人工輸入方式，用戶在網(wǎng)址輸入欄100中需輸入頁面的URLhttp://www.chinainc.cn/company-contact.php？/userid＝12291；在信息顯示部300中顯示的為上述網(wǎng)頁地址對應(yīng)的頁面。
并在該頁面中，點(diǎn)擊“北京”作為“城市”；點(diǎn)擊“海淀區(qū)上地信息路15號”作為“地址”；點(diǎn)擊“聶放”作為“聯(lián)系人”；點(diǎn)擊“010-62973717”作為電話號碼。
B2)、如果采用系統(tǒng)學(xué)習(xí)方式，用戶只需在網(wǎng)址輸入欄100中給出起點(diǎn)。
http://www.chinainc.cnB3)、然后，由系統(tǒng)自動搜索含有公司聯(lián)系信息的頁面，主要是尋找“聯(lián)系方式”、“聯(lián)系人”、“電話”、“傳真”等關(guān)鍵字的頁面。
如果自動搜索失敗，則用戶要回到首頁，點(diǎn)擊一個鏈接進(jìn)入下一頁面，例如北京，引導(dǎo)系統(tǒng)找到所需要的頁面在這個過程中，系統(tǒng)自動記錄用戶尋找的過程，并作為樣本的一部分保存起來。
如圖6所示，當(dāng)系統(tǒng)走到一個含有所需數(shù)據(jù)的頁面，可自動尋找數(shù)據(jù)樣本，這主要是由語義知識庫205的知識來確定，例如“海淀區(qū)上地信息路15號”->地址“北京”->城市“010-62973717”->電話或傳真“100085”->郵政編碼“http://www.a-volt.com”->公司網(wǎng)址其中，(城市、地址、電話/傳真、郵政編碼、公司網(wǎng)址)就構(gòu)成了一個公司的聯(lián)系信息。
上述實(shí)施例中，系統(tǒng)很難區(qū)分信息顯示部300中“010-62973717”、“010-62965253”中哪個是電話號碼，哪個是傳真號碼，這時(shí)需要人工干預(yù)，用戶可以點(diǎn)擊“010-62973717”，并在類型輸入部400中輸入“電話”或點(diǎn)擊“電話”鍵511，這樣系統(tǒng)就知道這一行是電話，下面一行就是傳真了。
“城市”鍵58、“地址”鍵59、“聯(lián)系人”鍵510、“電話”鍵511皆為本發(fā)明系統(tǒng)的可選擇按鍵。點(diǎn)擊“城市”鍵58，系統(tǒng)可以獲取有關(guān)城市的樣本數(shù)據(jù)，同樣點(diǎn)擊“地址”鍵59、“聯(lián)系人”鍵510可以相應(yīng)地獲取有關(guān)地址、聯(lián)系人方面的信息。
(二)、樣本分析當(dāng)系統(tǒng)獲得樣本后，就要對它的特征進(jìn)行分析，首先看它在頁面中的位置，可知所有樣本都在信息顯示部300中所顯示網(wǎng)頁對應(yīng)的HTML代碼中順次出現(xiàn)的第7個表中，“城市”是第一行，“地址”是第二行，“聯(lián)系人”是第三行等，另外，其顏色是#FFFFF，“城市”所在的TAG是<TD></TD>，“地址”所在的TAG是<TD align＝“bottom”>等等。
另外，還需要分析樣本所在網(wǎng)頁的位置，如果是系統(tǒng)自動學(xué)習(xí)生成的樣本，可能會經(jīng)過下述過程<URL>http://www.chinainc.cn</URL>
<LINK>企業(yè)名錄</LINK>
<LINK>北京</LINK><LOOP>YES</<LOOP>
<LINK>北京安伏電子有限公司</LINK><LOOP>YES</LOOP>
<LINK>聯(lián)系方法</LINK>
此處<LINK>YES</LOOP>指出不僅走“北京”這一鏈接，還有與“北京”并列的鏈接，例如“上海”，“天津”，“重慶”等。
(三)、數(shù)據(jù)抽取首先讀取樣本，然后根據(jù)樣本提供的路徑下載對應(yīng)的網(wǎng)頁，并根據(jù)樣本特征，如位置、顏色與所在TAG等抽取數(shù)據(jù)，這里重要的一點(diǎn)是凡經(jīng)過帶有<LOOP>YES</LOOP>的路徑，例如“北京”，不僅要訪問北京下面的所有公司，還要訪問與“北京”并列在一起的所有鏈接，如“上海”，“天津”等，這樣就可以找到所有公司的聯(lián)系信息。
(四)、數(shù)據(jù)集成a)、過濾錯誤的信息若沒有錯誤信息，則可跳過該步驟。本實(shí)施例中沒有錯誤信息，所以這步可省略。
b)、補(bǔ)充缺失的信息在前面的頁面中，沒有“企業(yè)行業(yè)分類”，然而，該信息可在其他頁面中獲得，目前系統(tǒng)不能直接自動找到該信息。
本發(fā)明方法使用了面向某個領(lǐng)域的語義知識庫，不需要對頁面進(jìn)行預(yù)處理，同時(shí)智能化程度較高，對人工的依賴程度大大降低了，使得處理速度大大提高；該方法是直接訪問站點(diǎn)，不依靠任何搜索引擎，并可自動訪問站點(diǎn)中的所有網(wǎng)頁；本發(fā)明自動識別該領(lǐng)域中的許多數(shù)據(jù)項(xiàng)，從而極大地提高了數(shù)據(jù)抽取的效率，本發(fā)明方法還能通過調(diào)用語義知識庫自動集成來自多個頁面中的很多數(shù)據(jù)，刪除錯誤或不完整的信息，并補(bǔ)充缺少的信息；本發(fā)明的應(yīng)用范圍較廣，能夠應(yīng)用于很多領(lǐng)域。
當(dāng)然，本發(fā)明還可有其他多種實(shí)施例，在不背離本發(fā)明精神及其實(shí)質(zhì)的情況下，熟悉本領(lǐng)域的技術(shù)人員當(dāng)可根據(jù)本發(fā)明作出各種相應(yīng)的改變和變形，但這些相應(yīng)的改變和變形都應(yīng)屬于本發(fā)明所附的權(quán)利要求的保護(hù)范圍。
權(quán)利要求
1.一種面向領(lǐng)域基于樣本的互聯(lián)網(wǎng)結(jié)構(gòu)化數(shù)據(jù)抽取方法，其特征在于，包括步驟一樣本收集的步驟，用于通過自動收集用戶訪問數(shù)據(jù)的過程獲得樣本；一樣本分析的步驟，用于通過面向一領(lǐng)域的語義知識庫，自動分析所述樣本，抽取所述樣本的特征信息；一數(shù)據(jù)抽取的步驟，用于通過所述樣本的特征信息，通過HTTP協(xié)議或驅(qū)動互聯(lián)網(wǎng)瀏覽器自動讀取網(wǎng)頁，并從所述網(wǎng)頁中抽取與所述樣本的特征信息相似或匹配的數(shù)據(jù)；及一數(shù)據(jù)集成的步驟，用于通過所述語義知識庫，將與所述樣本的特征信息相似或相匹配的數(shù)據(jù)轉(zhuǎn)換成一統(tǒng)一格式的數(shù)據(jù)。
2.根據(jù)權(quán)利要求1所述的互聯(lián)網(wǎng)結(jié)構(gòu)化數(shù)據(jù)抽取方法，其特征在于，所述樣本收集的步驟中，通過用戶輸入網(wǎng)址方式或系統(tǒng)學(xué)習(xí)方式獲得樣本。
3.根據(jù)權(quán)利要求2所述的互聯(lián)網(wǎng)結(jié)構(gòu)化數(shù)據(jù)抽取方法，其特征在于，所述通過系統(tǒng)學(xué)習(xí)方式獲得樣本時(shí)，系統(tǒng)根據(jù)用戶輸入的網(wǎng)站起點(diǎn)自動搜索網(wǎng)頁；且當(dāng)所述自動搜索到的網(wǎng)頁不含有所需數(shù)據(jù)時(shí)，用戶返回至所述網(wǎng)頁的上一頁或網(wǎng)站首頁，由用戶點(diǎn)擊一鏈接引導(dǎo)系統(tǒng)至含有所需數(shù)據(jù)的網(wǎng)頁，并在該含有所需數(shù)據(jù)的網(wǎng)頁中系統(tǒng)自動尋找樣本，并將自動記錄的網(wǎng)頁尋找過程作為樣本的一部分。
4.根據(jù)權(quán)利要求1所述的互聯(lián)網(wǎng)結(jié)構(gòu)化數(shù)據(jù)抽取方法，其特征在于，所述數(shù)據(jù)抽取的步驟具體為41)、讀入所述樣本，并取得所述樣本的特征信息；42)、根據(jù)所述樣本中記錄的路徑下載對應(yīng)的網(wǎng)頁；43)、根據(jù)所述樣本在所述網(wǎng)頁中的特征，從該網(wǎng)頁中找到與所述樣本的特征信息相似或匹配的數(shù)據(jù)；及44)、根據(jù)所述網(wǎng)頁中的鏈接，識別該鏈接并瀏覽至下一網(wǎng)頁，重復(fù)所述步驟43，直至處理完所有網(wǎng)頁。
5.根據(jù)權(quán)利要求1所述的互聯(lián)網(wǎng)結(jié)構(gòu)化數(shù)據(jù)抽取方法，其特征在于，所述樣本的特征信息包括從互聯(lián)網(wǎng)的網(wǎng)站入口至所述頁面的用戶操作、所述樣本在所述網(wǎng)頁中的特征；所述樣本在所述網(wǎng)頁中的特征又包括字體、顏色、在動態(tài)超文本標(biāo)記語言樹中的位置、所用的超文本標(biāo)記語言標(biāo)識中的一個或多個。
6.根據(jù)權(quán)利要求1所述的互聯(lián)網(wǎng)結(jié)構(gòu)化數(shù)據(jù)抽取方法，其特征在于，所述數(shù)據(jù)集成的步驟具體為對與所述樣本的特征信息相似或匹配的數(shù)據(jù)，刪除錯誤和/或重復(fù)的信息，和/或補(bǔ)充缺少的信息，使其具有相同的結(jié)構(gòu)，并轉(zhuǎn)化成可擴(kuò)展標(biāo)記語言或關(guān)系數(shù)據(jù)庫格式的數(shù)據(jù)。
7.一種面向領(lǐng)域基于樣本的互聯(lián)網(wǎng)結(jié)構(gòu)化數(shù)據(jù)抽取系統(tǒng)，其特征在于，包括一樣本收集模塊，用于通過自動收集用戶訪問數(shù)據(jù)的過程獲得樣本；一樣本分析模塊，用于通過面向一領(lǐng)域的語義知識庫，自動分析所述樣本，抽取所述樣本的特征信息；一數(shù)據(jù)抽取模塊，用于通過所述樣本的特征信息，通過HTTP協(xié)議或驅(qū)動互聯(lián)網(wǎng)瀏覽器自動讀取網(wǎng)頁，并從所述網(wǎng)頁中抽取與所述樣本的特征信息相似或相匹配的數(shù)據(jù)；一數(shù)據(jù)集成模塊，用于通過所述語義知識庫，將與所述樣本的特征信息相似或相匹配的數(shù)據(jù)轉(zhuǎn)換成一統(tǒng)一格式的數(shù)據(jù)。
8.根據(jù)權(quán)利要求7所述的互聯(lián)網(wǎng)結(jié)構(gòu)化數(shù)據(jù)抽取系統(tǒng)，其特征在于，所述樣本收集模塊具體通過用戶輸入網(wǎng)址方式或系統(tǒng)學(xué)習(xí)方式獲得樣本。
9.根據(jù)權(quán)利要求7所述的互聯(lián)網(wǎng)結(jié)構(gòu)化數(shù)據(jù)抽取系統(tǒng)，其特征在于，所述樣本的特征信息包括從互聯(lián)網(wǎng)的網(wǎng)站入口至所述頁面的用戶操作、所述樣本在所述網(wǎng)頁中的特征；所述樣本在所述網(wǎng)頁中的特征又包括字體、顏色、在動態(tài)超文本標(biāo)記語言樹中的位置、所用的超文本標(biāo)記語言標(biāo)識中的一個或多個。
全文摘要
本發(fā)明公開了一種面向領(lǐng)域基于樣本的互聯(lián)網(wǎng)結(jié)構(gòu)化數(shù)據(jù)抽取方法及其系統(tǒng)，用于實(shí)現(xiàn)快速自動抽取互聯(lián)網(wǎng)結(jié)構(gòu)化數(shù)據(jù)，包括步驟樣本收集的步驟，用于通過自動記錄用戶訪問數(shù)據(jù)的過程獲得樣本；樣本分析的步驟，用于通過面向領(lǐng)域的語義知識庫，自動分析所述樣本，并抽取所述樣本的特征信息；數(shù)據(jù)抽取的步驟，用于通過所述樣本的特征信息，通過HTTP協(xié)議或驅(qū)動互聯(lián)網(wǎng)瀏覽器自動讀取多個網(wǎng)頁，并從所述網(wǎng)頁中抽取與所述樣本的特征信息相似或相匹配的數(shù)據(jù)；數(shù)據(jù)集成的步驟，用于通過所述語義知識庫，將與所述樣本的特征信息相似或相匹配的數(shù)據(jù)轉(zhuǎn)換成一統(tǒng)一格式的數(shù)據(jù)。本發(fā)明能自動從多個頁面中抽取出具有類似特征的數(shù)據(jù)，大大提高了數(shù)據(jù)抽取的效率。
文檔編號G06F17/30GK1952929SQ200510109288
公開日2007年4月25日申請日期2005年10月20日優(yōu)先權(quán)日2005年10月20日
發(fā)明者關(guān)濤申請人:關(guān)濤

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：關(guān)濤
技術(shù)所有人：關(guān)濤
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

非結(jié)構(gòu)化數(shù)據(jù)抽取工具相關(guān)技術(shù)

非結(jié)構(gòu)化數(shù)據(jù)抽取相關(guān)技術(shù)

樣本抽取方法相關(guān)技術(shù)

抽取樣本單位的方法有相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

面向領(lǐng)域基于樣本的互聯(lián)網(wǎng)結(jié)構(gòu)化數(shù)據(jù)抽取方法及其系統(tǒng)的制作方法