一種深度網(wǎng)絡數(shù)據(jù)自動抽取方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種深度網(wǎng)絡數(shù)據(jù)自動抽取方法及系統(tǒng),該方法包括以下步驟:進行行業(yè)相關數(shù)據(jù)探測和抓?。贿M行WEB頁面解析和語義摘要提??;進行Deep Web數(shù)據(jù)自動抽取。本發(fā)明中,在沒有損失行業(yè)數(shù)據(jù)收錄量的情況下,極大地節(jié)約帶寬和數(shù)據(jù)檢索量,并提高了數(shù)據(jù)入庫周期,提高實時度。
【專利說明】 一種深度網(wǎng)絡數(shù)據(jù)自動抽取方法及系統(tǒng)
【技術領域】
[0001]本發(fā)明涉及數(shù)據(jù)網(wǎng)絡【技術領域】,尤其涉及一種深度網(wǎng)絡數(shù)據(jù)自動抽取方法及系統(tǒng)。
【背景技術】
[0002]隨著信息化程度不斷加深,企業(yè)對情報信息化集成的渴求也日益強烈;互聯(lián)網(wǎng)持續(xù)增長的信息資源蘊含了巨量的具有商業(yè)價值的信息,成為重要的情報信息源頭。目前提供信息定制搜索與情報分析相關產品的公司為數(shù)不多,且產品對用戶本身的基礎信息設施要求高,實施周期長,系統(tǒng)建設和維護成本高,主要客戶是超大型企業(yè)和政府,普通企業(yè)無力承受。
【發(fā)明內容】
[0003]為了解決【背景技術】中存在的技術問題,本發(fā)明提出了一種深度網(wǎng)絡數(shù)據(jù)自動抽取方法及系統(tǒng),極大降低了系統(tǒng)對企業(yè)信息設施的要求,使其能在千差萬別的企業(yè)基礎信息設施上部署。
[0004]本發(fā)明提出的一種深度網(wǎng)絡數(shù)據(jù)自動抽取方法,包括以下步驟:
[0005]進行行業(yè)相關數(shù)據(jù)探測和抓??;
[0006]進行WEB頁面解析和語義摘要提取;
[0007]進行De印Web數(shù)據(jù)自動抽取。
[0008]優(yōu)選地,所述進行行業(yè)相關數(shù)據(jù)探測和抓取,具體為定點采集,通過用戶配置采集已知的數(shù)據(jù)源。
[0009]優(yōu)選地,所述進行行業(yè)相關數(shù)據(jù)探測和抓取,具體為采用web行業(yè)信息探針,通過URL統(tǒng)一資源定位符鏈路、搜索引擎跳板,找備選網(wǎng)站,然后驗證網(wǎng)站或者子站、子目錄是否為企業(yè)相關信息、相關密度是什么,并通過網(wǎng)站拓撲、URL結構,form表格對深度網(wǎng)絡進行挖掘,以找潛在數(shù)據(jù)源。
[0010]優(yōu)選地,所述進行WEB頁面解析和語義摘要提取,具體為利用HTML規(guī)范和基于視覺頁面分塊技術,提取頁面的元信息和正文文本。
[0011]優(yōu)選地,所述進行行業(yè)相關數(shù)據(jù)探測和抓取,具體包括:
[0012]采用網(wǎng)絡探針技術,不斷探測一個站點網(wǎng)頁,通過自動填充表單的方式,測試返回數(shù)據(jù),從而找到最合適的表單格式。找到表單格式之后,自動提交表單,比較獲取網(wǎng)頁;
[0013]分析前后獲取頁面DOM樹,抽取出DOM樹中節(jié)點內容不同的節(jié)點,這就是需要采集的數(shù)據(jù)。
[0014]優(yōu)選地,提取到正確的數(shù)據(jù)后,通知管理員配置數(shù)據(jù)格式,完成De印Web站點發(fā)現(xiàn)和米集。
[0015]本發(fā)提出的一種深度網(wǎng)絡數(shù)據(jù)自動抽取系統(tǒng),包括:
[0016]獲取模塊,用于進行行業(yè)相關數(shù)據(jù)探測和抓取;
[0017]解析及提取模塊,與所述獲取模塊連接,用于進行WEB頁面解析和語義摘要提取;
[0018]自動抽取模塊,與所述解析及提取模塊連接,用于進行DeepWeb數(shù)據(jù)自動抽取。
[0019]優(yōu)選地,所述獲取模塊,具體用于采用web行業(yè)信息探針,通過URL統(tǒng)一資源定位符鏈路、搜索引擎跳板,找備選網(wǎng)站,然后驗證網(wǎng)站或者子站、子目錄是否為企業(yè)相關信息、相關密度是什么,并通過網(wǎng)站拓撲、URL結構,form表格對深度網(wǎng)絡進行挖掘,以找潛在數(shù)據(jù)源。
[0020]優(yōu)選地,所述解析及提取模塊,具體用于采用web行業(yè)信息探針,通過URL統(tǒng)一資源定位符鏈路、搜索引擎跳板,找備選網(wǎng)站,然后驗證網(wǎng)站或者子站、子目錄是否為企業(yè)相關信息、相關密度是什么,并通過網(wǎng)站拓撲、URL結構,form表格對深度網(wǎng)絡進行挖掘,以找潛在數(shù)據(jù)源。
[0021]優(yōu)選地,所述自動抽取模塊,具體用于采用網(wǎng)絡探針技術,不斷探測一個站點網(wǎng)頁,通過自動填充表單的方式,測試返回數(shù)據(jù),從而找到最合適的表單格式。找到表單格式之后,自動提交表單,比較獲取網(wǎng)頁;分析前后獲取頁面DOM樹,抽取出DOM樹中節(jié)點內容不同的節(jié)點,這就是需要采集的數(shù)據(jù)。
[0022]本發(fā)明中,在沒有損失行業(yè)數(shù)據(jù)收錄量的情況下,極大地節(jié)約帶寬和數(shù)據(jù)檢索量,并提聞了數(shù)據(jù)入庫周期,提聞實時度。
【專利附圖】
【附圖說明】
[0023]圖1為本發(fā)明實施例提出的一種深度網(wǎng)絡數(shù)據(jù)自動抽取方法流程圖;
[0024]圖2為本發(fā)明實施例提出的一種深度網(wǎng)絡數(shù)據(jù)自動抽取系統(tǒng)結構圖。
【具體實施方式】
[0025]如圖1所示,本發(fā)明實施例提出了一種深度網(wǎng)絡數(shù)據(jù)自動抽取方法及系統(tǒng),包括以下步驟:
[0026]步驟101,進行行業(yè)相關數(shù)據(jù)探測和抓取。由于本發(fā)明是企業(yè)用定制搜索,一方面企業(yè)信息化方面基礎千差萬別,而且資源都相對有限,另一方面,也只需要行業(yè)相關信息,無需對整個互聯(lián)網(wǎng)編錄。所以本發(fā)明通過兩種途徑進行行業(yè)相關數(shù)據(jù)探測和抓取:一是定點采集,通過用戶配置采集已知的數(shù)據(jù)源;另一方面采用web行業(yè)信息探針,利用行業(yè)本體,通過URL (Uniform Resource Locator,統(tǒng)一資源定位符)鏈路、搜索引擎跳板等手段,找備選網(wǎng)站,然后驗證網(wǎng)站或者子站、子目錄是否為企業(yè)相關信息、相關密度是什么,并通過網(wǎng)站拓撲、URL結構,form表格等對深度網(wǎng)絡(de印web)進行挖掘,以找潛在數(shù)據(jù)源。URL是對可以從互聯(lián)網(wǎng)上得到的資源的位置和訪問方法的一種簡潔的表示,是互聯(lián)網(wǎng)上標準資源的地址。互聯(lián)網(wǎng)上的每個文件都有一個唯一的URL,其包含的信息指出文件的位置以及瀏覽器應該怎么處理。其中,由于deep web很多是結構化良好的數(shù)據(jù),便于分析,且往往在通用搜索引擎下無法搜索得到,對客戶有巨大價值。
[0027]步驟102,進行WEB頁面解析和語義摘要提取。Web頁面解析即通過分析標簽,解析HTML ((HyperText Mark-up Language,即超文本標記語言)頁面,并提取出正文內容。本發(fā)明利用HTML規(guī)范和基于視覺頁面分塊技術,提取頁面的元信息(如標題、關鍵字等)和正文文本,有效避免無關信息的干擾。除此之外本發(fā)明可以很好地支持其他常見數(shù)據(jù)格式,包括XML、PDF以及MS Office系列的數(shù)據(jù)格式。
[0028]其中,語義摘要問題在本發(fā)明中存在兩種情況,一種情況是為了便于客戶瀏覽信息而做的全文摘要;另一種是搜索結果的信息摘要。第一類是以盡量涵蓋文檔主要信息為出發(fā)點,第二類在第一點的前提下還要考慮用戶搜索詞的密度等問題。本發(fā)明中,利用語義分析技術,對篇章每句話作語義分析,標注動詞性語義點、名詞性語義點和語義傾向性,然后匯總成段落和整個篇章的語義側重點,最后利用語義側重點,結合篇章特點,以字數(shù)(如400字)為約束條件,來挑選盡可能涵蓋全文語義的若干個“句組”組成全文摘要。搜索結果的文檔摘要實現(xiàn)上不同之處在于增加搜索詞(包括概念接近詞)的密度這個約束條件。
[0029]步驟103,進行De印Web數(shù)據(jù)自動抽取。De印Web指那些存儲在網(wǎng)絡數(shù)據(jù)庫里、不能通過超鏈接訪問而需要通過動態(tài)網(wǎng)頁技術訪問的資源集合。而在實際中應用中,DeepWeb中的內容價值更大,這部分內容對結構化數(shù)據(jù)的集成更有意義。本發(fā)明采用網(wǎng)絡探針技術,不斷探測一個站點網(wǎng)頁,通過自動填充表單的方式,測試返回數(shù)據(jù),從而找到最合適的表單格式。找到表單格式之后,自動提交表單,比較獲取網(wǎng)頁。在發(fā)明的實驗中發(fā)現(xiàn),同一站點的Deep web資源返回頁面結構差別很小。利用此特點,分析前后獲取頁面DOM樹,抽取出DOM樹中節(jié)點內容不同的節(jié)點,這就是需要采集的數(shù)據(jù)。提取到正確的數(shù)據(jù)后,通知管理員配置數(shù)據(jù)格式,完成De印Web站點發(fā)現(xiàn)和采集。
[0030]如圖2所示,本發(fā)明實施例提出了一種深度網(wǎng)絡數(shù)據(jù)自動抽取系統(tǒng),包括:獲取模塊10,用于進行行業(yè)相關數(shù)據(jù)探測和抓??;解析及提取模塊20,與所述獲取模塊10連接,用于進行WEB頁面解析和語義摘要提取;自動抽取模塊30,與所述解析及提取模塊20連接,用于進行Deep Web數(shù)據(jù)自動抽取。
[0031]所述獲取模塊,具體用于采用web行業(yè)信息探針,通過URL統(tǒng)一資源定位符鏈路、搜索引擎跳板,找備選網(wǎng)站,然后驗證網(wǎng)站或者子站、子目錄是否為企業(yè)相關信息、相關密度是什么,并通過網(wǎng)站拓撲、URL結構,form表格對深度網(wǎng)絡進行挖掘,以找潛在數(shù)據(jù)源。
[0032]所述解析及提取模塊,具體用于采用web行業(yè)信息探針,通過URL統(tǒng)一資源定位符鏈路、搜索引擎跳板,找備選網(wǎng)站,然后驗證網(wǎng)站或者子站、子目錄是否為企業(yè)相關信息、相關密度是什么,并通過網(wǎng)站拓撲、URL結構,form表格對深度網(wǎng)絡進行挖掘,以找潛在數(shù)據(jù)源。
[0033]所述自動抽取模塊,具體用于采用網(wǎng)絡探針技術,不斷探測一個站點網(wǎng)頁,通過自動填充表單的方式,測試返回數(shù)據(jù),從而找到最合適的表單格式。找到表單格式之后,自動提交表單,比較獲取網(wǎng)頁;分析前后獲取頁面DOM樹,抽取出DOM樹中節(jié)點內容不同的節(jié)點,這就是需要采集的數(shù)據(jù)。
[0034]以上所述,僅為本發(fā)明較佳的【具體實施方式】,但本發(fā)明的保護范圍并不局限于此,任何熟悉本【技術領域】的技術人員在本發(fā)明揭露的技術范圍內,根據(jù)本發(fā)明的技術方案及其發(fā)明構思加以等同替換或改變,都應涵蓋在本發(fā)明的保護范圍之內。
【權利要求】
1.一種深度網(wǎng)絡數(shù)據(jù)自動抽取方法,其特征在于,包括以下步驟: 進行行業(yè)相關數(shù)據(jù)探測和抓??; 進行WEB頁面解析和語義摘要提取; 進行Deep Web數(shù)據(jù)自動抽取。
2.根據(jù)權利要求1所述的深度網(wǎng)絡數(shù)據(jù)自動抽取方法,其特征在于,所述進行行業(yè)相關數(shù)據(jù)探測和抓取,具體為定點采集,通過用戶配置采集已知的數(shù)據(jù)源。
3.根據(jù)權利要求1所述的深度網(wǎng)絡數(shù)據(jù)自動抽取方法,其特征在于,所述進行行業(yè)相關數(shù)據(jù)探測和抓取,具體為采用web行業(yè)信息探針,通過URL統(tǒng)一資源定位符鏈路、搜索引擎跳板,找備選網(wǎng)站,然后驗證網(wǎng)站或者子站、子目錄是否為企業(yè)相關信息、相關密度是什么,并通過網(wǎng)站拓撲、URL結構,form表格對深度網(wǎng)絡進行挖掘,以找潛在數(shù)據(jù)源。
4.根據(jù)權利要求1所述的深度網(wǎng)絡數(shù)據(jù)自動抽取方法,其特征在于,所述進行WEB頁面解析和語義摘要提取,具體為利用HTML規(guī)范和基于視覺頁面分塊技術,提取頁面的元信息和正文文本。
5.根據(jù)權利要求1所述的深度網(wǎng)絡數(shù)據(jù)自動抽取方法,其特征在于,所述進行行業(yè)相關數(shù)據(jù)探測和抓取,具體包括: 采用網(wǎng)絡探針技術,不斷探測一個站點網(wǎng)頁,通過自動填充表單的方式,測試返回數(shù)據(jù),從而找到最合適的表單格式;找到表單格式之后,自動提交表單,比較獲取網(wǎng)頁; 分析前后獲取頁面DOM樹,抽取出DOM樹中節(jié)點內容不同的節(jié)點,獲取需要采集的數(shù)據(jù)。
6.根據(jù)權利要求5所述的深度網(wǎng)絡數(shù)據(jù)自動抽取方法,其特征在于,提取到正確的數(shù)據(jù)后,通知管理員配置數(shù)據(jù)格式,完成De印Web站點發(fā)現(xiàn)和采集。
7.一種深度網(wǎng)絡數(shù)據(jù)自動抽取系統(tǒng),其特征在于,包括: 獲取模塊,用于進行行業(yè)相關數(shù)據(jù)探測和抓??; 解析及提取模塊,與所述獲取模塊連接,用于進行WEB頁面解析和語義摘要提??; 自動抽取模塊,與所述解析及提取模塊連接,用于進行Deep Web數(shù)據(jù)自動抽取。
8.根據(jù)權利要求7所述的深度網(wǎng)絡數(shù)據(jù)自動抽取系統(tǒng),其特征在于,所述獲取模塊,具體用于采用web行業(yè)信息探針,通過URL統(tǒng)一資源定位符鏈路、搜索引擎跳板,找備選網(wǎng)站,然后驗證網(wǎng)站或者子站、子目錄是否為企業(yè)相關信息、相關密度是什么,并通過網(wǎng)站拓撲、URL結構,form表格對深度網(wǎng)絡進行挖掘,以找潛在數(shù)據(jù)源。
9.根據(jù)權利要求7所述的深度網(wǎng)絡數(shù)據(jù)自動抽取系統(tǒng),其特征在于,所述解析及提取模塊,具體用于采用web行業(yè)信息探針,通過URL統(tǒng)一資源定位符鏈路、搜索引擎跳板,找備選網(wǎng)站,然后驗證網(wǎng)站或者子站、子目錄是否為企業(yè)相關信息、相關密度是什么,并通過網(wǎng)站拓撲、URL結構,form表格對深度網(wǎng)絡進行挖掘,以找潛在數(shù)據(jù)源。
10.根據(jù)權利要求7所述的深度網(wǎng)絡數(shù)據(jù)自動抽取系統(tǒng),其特征在于,所述自動抽取模塊,具體用于采用網(wǎng)絡探針技術,不斷探測一個站點網(wǎng)頁,通過自動填充表單的方式,測試返回數(shù)據(jù),從而找到最合適的表單格式。找到表單格式之后,自動提交表單,比較獲取網(wǎng)頁;分析前后獲取頁面DOM樹,抽取出DOM樹中節(jié)點內容不同的節(jié)點,這就是需要采集的數(shù)據(jù)。
【文檔編號】G06F17/30GK104317845SQ201410537825
【公開日】2015年1月28日 申請日期:2014年10月13日 優(yōu)先權日:2014年10月13日
【發(fā)明者】賈巖 申請人:安徽華貞信息科技有限公司