一種深度網(wǎng)絡數(shù)據(jù)自動抽取方法及系統(tǒng)的制作方法

文檔序號：6629992閱讀：206來源：國知局

一種深度網(wǎng)絡數(shù)據(jù)自動抽取方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種深度網(wǎng)絡數(shù)據(jù)自動抽取方法及系統(tǒng)，該方法包括以下步驟：進行行業(yè)相關數(shù)據(jù)探測和抓?。贿M行WEB頁面解析和語義摘要提??；進行Deep Web數(shù)據(jù)自動抽取。本發(fā)明中，在沒有損失行業(yè)數(shù)據(jù)收錄量的情況下，極大地節(jié)約帶寬和數(shù)據(jù)檢索量，并提高了數(shù)據(jù)入庫周期，提高實時度。
【專利說明】一種深度網(wǎng)絡數(shù)據(jù)自動抽取方法及系統(tǒng)

【技術領域】
[0001]本發(fā)明涉及數(shù)據(jù)網(wǎng)絡【技術領域】，尤其涉及一種深度網(wǎng)絡數(shù)據(jù)自動抽取方法及系統(tǒng)。

【背景技術】
[0002]隨著信息化程度不斷加深，企業(yè)對情報信息化集成的渴求也日益強烈；互聯(lián)網(wǎng)持續(xù)增長的信息資源蘊含了巨量的具有商業(yè)價值的信息，成為重要的情報信息源頭。目前提供信息定制搜索與情報分析相關產品的公司為數(shù)不多，且產品對用戶本身的基礎信息設施要求高，實施周期長，系統(tǒng)建設和維護成本高，主要客戶是超大型企業(yè)和政府，普通企業(yè)無力承受。

【發(fā)明內容】

[0003]為了解決【背景技術】中存在的技術問題，本發(fā)明提出了一種深度網(wǎng)絡數(shù)據(jù)自動抽取方法及系統(tǒng)，極大降低了系統(tǒng)對企業(yè)信息設施的要求，使其能在千差萬別的企業(yè)基礎信息設施上部署。
[0004]本發(fā)明提出的一種深度網(wǎng)絡數(shù)據(jù)自動抽取方法，包括以下步驟:
[0005]進行行業(yè)相關數(shù)據(jù)探測和抓??；
[0006]進行WEB頁面解析和語義摘要提取；
[0007]進行De印Web數(shù)據(jù)自動抽取。
[0008]優(yōu)選地，所述進行行業(yè)相關數(shù)據(jù)探測和抓取，具體為定點采集，通過用戶配置采集已知的數(shù)據(jù)源。
[0009]優(yōu)選地，所述進行行業(yè)相關數(shù)據(jù)探測和抓取，具體為采用web行業(yè)信息探針，通過URL統(tǒng)一資源定位符鏈路、搜索引擎跳板，找備選網(wǎng)站，然后驗證網(wǎng)站或者子站、子目錄是否為企業(yè)相關信息、相關密度是什么，并通過網(wǎng)站拓撲、URL結構，form表格對深度網(wǎng)絡進行挖掘，以找潛在數(shù)據(jù)源。
[0010]優(yōu)選地，所述進行WEB頁面解析和語義摘要提取，具體為利用HTML規(guī)范和基于視覺頁面分塊技術，提取頁面的元信息和正文文本。
[0011]優(yōu)選地，所述進行行業(yè)相關數(shù)據(jù)探測和抓取，具體包括:
[0012]采用網(wǎng)絡探針技術，不斷探測一個站點網(wǎng)頁，通過自動填充表單的方式，測試返回數(shù)據(jù)，從而找到最合適的表單格式。找到表單格式之后，自動提交表單，比較獲取網(wǎng)頁；
[0013]分析前后獲取頁面DOM樹，抽取出DOM樹中節(jié)點內容不同的節(jié)點，這就是需要采集的數(shù)據(jù)。
[0014]優(yōu)選地，提取到正確的數(shù)據(jù)后，通知管理員配置數(shù)據(jù)格式，完成De印Web站點發(fā)現(xiàn)和米集。
[0015]本發(fā)提出的一種深度網(wǎng)絡數(shù)據(jù)自動抽取系統(tǒng)，包括:
[0016]獲取模塊，用于進行行業(yè)相關數(shù)據(jù)探測和抓取；
[0017]解析及提取模塊，與所述獲取模塊連接，用于進行WEB頁面解析和語義摘要提取；
[0018]自動抽取模塊，與所述解析及提取模塊連接，用于進行DeepWeb數(shù)據(jù)自動抽取。
[0019]優(yōu)選地，所述獲取模塊，具體用于采用web行業(yè)信息探針，通過URL統(tǒng)一資源定位符鏈路、搜索引擎跳板，找備選網(wǎng)站，然后驗證網(wǎng)站或者子站、子目錄是否為企業(yè)相關信息、相關密度是什么，并通過網(wǎng)站拓撲、URL結構，form表格對深度網(wǎng)絡進行挖掘，以找潛在數(shù)據(jù)源。
[0020]優(yōu)選地，所述解析及提取模塊，具體用于采用web行業(yè)信息探針，通過URL統(tǒng)一資源定位符鏈路、搜索引擎跳板，找備選網(wǎng)站，然后驗證網(wǎng)站或者子站、子目錄是否為企業(yè)相關信息、相關密度是什么，并通過網(wǎng)站拓撲、URL結構，form表格對深度網(wǎng)絡進行挖掘，以找潛在數(shù)據(jù)源。
[0021]優(yōu)選地，所述自動抽取模塊，具體用于采用網(wǎng)絡探針技術，不斷探測一個站點網(wǎng)頁，通過自動填充表單的方式，測試返回數(shù)據(jù)，從而找到最合適的表單格式。找到表單格式之后，自動提交表單，比較獲取網(wǎng)頁；分析前后獲取頁面DOM樹，抽取出DOM樹中節(jié)點內容不同的節(jié)點，這就是需要采集的數(shù)據(jù)。
[0022]本發(fā)明中，在沒有損失行業(yè)數(shù)據(jù)收錄量的情況下，極大地節(jié)約帶寬和數(shù)據(jù)檢索量，并提聞了數(shù)據(jù)入庫周期，提聞實時度。

【專利附圖】

【附圖說明】
[0023]圖1為本發(fā)明實施例提出的一種深度網(wǎng)絡數(shù)據(jù)自動抽取方法流程圖；
[0024]圖2為本發(fā)明實施例提出的一種深度網(wǎng)絡數(shù)據(jù)自動抽取系統(tǒng)結構圖。

【具體實施方式】
[0025]如圖1所示，本發(fā)明實施例提出了一種深度網(wǎng)絡數(shù)據(jù)自動抽取方法及系統(tǒng)，包括以下步驟:
[0026]步驟101，進行行業(yè)相關數(shù)據(jù)探測和抓取。由于本發(fā)明是企業(yè)用定制搜索，一方面企業(yè)信息化方面基礎千差萬別，而且資源都相對有限，另一方面，也只需要行業(yè)相關信息，無需對整個互聯(lián)網(wǎng)編錄。所以本發(fā)明通過兩種途徑進行行業(yè)相關數(shù)據(jù)探測和抓取:一是定點采集，通過用戶配置采集已知的數(shù)據(jù)源；另一方面采用web行業(yè)信息探針，利用行業(yè)本體，通過URL (Uniform Resource Locator,統(tǒng)一資源定位符)鏈路、搜索引擎跳板等手段,找備選網(wǎng)站，然后驗證網(wǎng)站或者子站、子目錄是否為企業(yè)相關信息、相關密度是什么，并通過網(wǎng)站拓撲、URL結構，form表格等對深度網(wǎng)絡(de印web)進行挖掘，以找潛在數(shù)據(jù)源。URL是對可以從互聯(lián)網(wǎng)上得到的資源的位置和訪問方法的一種簡潔的表示，是互聯(lián)網(wǎng)上標準資源的地址。互聯(lián)網(wǎng)上的每個文件都有一個唯一的URL，其包含的信息指出文件的位置以及瀏覽器應該怎么處理。其中，由于deep web很多是結構化良好的數(shù)據(jù)，便于分析，且往往在通用搜索引擎下無法搜索得到，對客戶有巨大價值。
[0027]步驟102，進行WEB頁面解析和語義摘要提取。Web頁面解析即通過分析標簽，解析HTML ((HyperText Mark-up Language,即超文本標記語言)頁面,并提取出正文內容。本發(fā)明利用HTML規(guī)范和基于視覺頁面分塊技術，提取頁面的元信息(如標題、關鍵字等)和正文文本，有效避免無關信息的干擾。除此之外本發(fā)明可以很好地支持其他常見數(shù)據(jù)格式，包括XML、PDF以及MS Office系列的數(shù)據(jù)格式。
[0028]其中，語義摘要問題在本發(fā)明中存在兩種情況，一種情況是為了便于客戶瀏覽信息而做的全文摘要；另一種是搜索結果的信息摘要。第一類是以盡量涵蓋文檔主要信息為出發(fā)點，第二類在第一點的前提下還要考慮用戶搜索詞的密度等問題。本發(fā)明中，利用語義分析技術，對篇章每句話作語義分析，標注動詞性語義點、名詞性語義點和語義傾向性，然后匯總成段落和整個篇章的語義側重點，最后利用語義側重點，結合篇章特點，以字數(shù)(如400字)為約束條件，來挑選盡可能涵蓋全文語義的若干個“句組”組成全文摘要。搜索結果的文檔摘要實現(xiàn)上不同之處在于增加搜索詞(包括概念接近詞)的密度這個約束條件。
[0029]步驟103，進行De印Web數(shù)據(jù)自動抽取。De印Web指那些存儲在網(wǎng)絡數(shù)據(jù)庫里、不能通過超鏈接訪問而需要通過動態(tài)網(wǎng)頁技術訪問的資源集合。而在實際中應用中，DeepWeb中的內容價值更大，這部分內容對結構化數(shù)據(jù)的集成更有意義。本發(fā)明采用網(wǎng)絡探針技術，不斷探測一個站點網(wǎng)頁，通過自動填充表單的方式，測試返回數(shù)據(jù)，從而找到最合適的表單格式。找到表單格式之后，自動提交表單，比較獲取網(wǎng)頁。在發(fā)明的實驗中發(fā)現(xiàn)，同一站點的Deep web資源返回頁面結構差別很小。利用此特點，分析前后獲取頁面DOM樹，抽取出DOM樹中節(jié)點內容不同的節(jié)點，這就是需要采集的數(shù)據(jù)。提取到正確的數(shù)據(jù)后，通知管理員配置數(shù)據(jù)格式，完成De印Web站點發(fā)現(xiàn)和采集。
[0030]如圖2所示，本發(fā)明實施例提出了一種深度網(wǎng)絡數(shù)據(jù)自動抽取系統(tǒng)，包括:獲取模塊10，用于進行行業(yè)相關數(shù)據(jù)探測和抓??；解析及提取模塊20，與所述獲取模塊10連接，用于進行WEB頁面解析和語義摘要提取；自動抽取模塊30，與所述解析及提取模塊20連接，用于進行Deep Web數(shù)據(jù)自動抽取。
[0031]所述獲取模塊，具體用于采用web行業(yè)信息探針，通過URL統(tǒng)一資源定位符鏈路、搜索引擎跳板，找備選網(wǎng)站，然后驗證網(wǎng)站或者子站、子目錄是否為企業(yè)相關信息、相關密度是什么，并通過網(wǎng)站拓撲、URL結構，form表格對深度網(wǎng)絡進行挖掘，以找潛在數(shù)據(jù)源。
[0032]所述解析及提取模塊，具體用于采用web行業(yè)信息探針，通過URL統(tǒng)一資源定位符鏈路、搜索引擎跳板，找備選網(wǎng)站，然后驗證網(wǎng)站或者子站、子目錄是否為企業(yè)相關信息、相關密度是什么，并通過網(wǎng)站拓撲、URL結構，form表格對深度網(wǎng)絡進行挖掘，以找潛在數(shù)據(jù)源。
[0033]所述自動抽取模塊，具體用于采用網(wǎng)絡探針技術，不斷探測一個站點網(wǎng)頁，通過自動填充表單的方式，測試返回數(shù)據(jù)，從而找到最合適的表單格式。找到表單格式之后，自動提交表單，比較獲取網(wǎng)頁；分析前后獲取頁面DOM樹，抽取出DOM樹中節(jié)點內容不同的節(jié)點，這就是需要采集的數(shù)據(jù)。
[0034]以上所述，僅為本發(fā)明較佳的【具體實施方式】，但本發(fā)明的保護范圍并不局限于此，任何熟悉本【技術領域】的技術人員在本發(fā)明揭露的技術范圍內，根據(jù)本發(fā)明的技術方案及其發(fā)明構思加以等同替換或改變，都應涵蓋在本發(fā)明的保護范圍之內。
【權利要求】
1.一種深度網(wǎng)絡數(shù)據(jù)自動抽取方法，其特征在于，包括以下步驟: 進行行業(yè)相關數(shù)據(jù)探測和抓??；進行WEB頁面解析和語義摘要提取；進行Deep Web數(shù)據(jù)自動抽取。
2.根據(jù)權利要求1所述的深度網(wǎng)絡數(shù)據(jù)自動抽取方法，其特征在于，所述進行行業(yè)相關數(shù)據(jù)探測和抓取，具體為定點采集，通過用戶配置采集已知的數(shù)據(jù)源。
3.根據(jù)權利要求1所述的深度網(wǎng)絡數(shù)據(jù)自動抽取方法，其特征在于，所述進行行業(yè)相關數(shù)據(jù)探測和抓取，具體為采用web行業(yè)信息探針，通過URL統(tǒng)一資源定位符鏈路、搜索引擎跳板，找備選網(wǎng)站，然后驗證網(wǎng)站或者子站、子目錄是否為企業(yè)相關信息、相關密度是什么，并通過網(wǎng)站拓撲、URL結構，form表格對深度網(wǎng)絡進行挖掘，以找潛在數(shù)據(jù)源。
4.根據(jù)權利要求1所述的深度網(wǎng)絡數(shù)據(jù)自動抽取方法，其特征在于，所述進行WEB頁面解析和語義摘要提取，具體為利用HTML規(guī)范和基于視覺頁面分塊技術，提取頁面的元信息和正文文本。
5.根據(jù)權利要求1所述的深度網(wǎng)絡數(shù)據(jù)自動抽取方法，其特征在于，所述進行行業(yè)相關數(shù)據(jù)探測和抓取，具體包括: 采用網(wǎng)絡探針技術，不斷探測一個站點網(wǎng)頁，通過自動填充表單的方式，測試返回數(shù)據(jù)，從而找到最合適的表單格式；找到表單格式之后，自動提交表單，比較獲取網(wǎng)頁；分析前后獲取頁面DOM樹，抽取出DOM樹中節(jié)點內容不同的節(jié)點，獲取需要采集的數(shù)據(jù)。
6.根據(jù)權利要求5所述的深度網(wǎng)絡數(shù)據(jù)自動抽取方法，其特征在于，提取到正確的數(shù)據(jù)后，通知管理員配置數(shù)據(jù)格式，完成De印Web站點發(fā)現(xiàn)和采集。
7.一種深度網(wǎng)絡數(shù)據(jù)自動抽取系統(tǒng)，其特征在于，包括: 獲取模塊，用于進行行業(yè)相關數(shù)據(jù)探測和抓??；解析及提取模塊，與所述獲取模塊連接，用于進行WEB頁面解析和語義摘要提??；自動抽取模塊，與所述解析及提取模塊連接，用于進行Deep Web數(shù)據(jù)自動抽取。
8.根據(jù)權利要求7所述的深度網(wǎng)絡數(shù)據(jù)自動抽取系統(tǒng)，其特征在于，所述獲取模塊，具體用于采用web行業(yè)信息探針，通過URL統(tǒng)一資源定位符鏈路、搜索引擎跳板，找備選網(wǎng)站，然后驗證網(wǎng)站或者子站、子目錄是否為企業(yè)相關信息、相關密度是什么，并通過網(wǎng)站拓撲、URL結構，form表格對深度網(wǎng)絡進行挖掘，以找潛在數(shù)據(jù)源。
9.根據(jù)權利要求7所述的深度網(wǎng)絡數(shù)據(jù)自動抽取系統(tǒng)，其特征在于，所述解析及提取模塊，具體用于采用web行業(yè)信息探針，通過URL統(tǒng)一資源定位符鏈路、搜索引擎跳板，找備選網(wǎng)站，然后驗證網(wǎng)站或者子站、子目錄是否為企業(yè)相關信息、相關密度是什么，并通過網(wǎng)站拓撲、URL結構，form表格對深度網(wǎng)絡進行挖掘，以找潛在數(shù)據(jù)源。
10.根據(jù)權利要求7所述的深度網(wǎng)絡數(shù)據(jù)自動抽取系統(tǒng)，其特征在于，所述自動抽取模塊，具體用于采用網(wǎng)絡探針技術，不斷探測一個站點網(wǎng)頁，通過自動填充表單的方式，測試返回數(shù)據(jù)，從而找到最合適的表單格式。找到表單格式之后，自動提交表單，比較獲取網(wǎng)頁；分析前后獲取頁面DOM樹，抽取出DOM樹中節(jié)點內容不同的節(jié)點，這就是需要采集的數(shù)據(jù)。
【文檔編號】G06F17/30GK104317845SQ201410537825
【公開日】2015年1月28日申請日期:2014年10月13日優(yōu)先權日:2014年10月13日
【發(fā)明者】賈巖申請人:安徽華貞信息科技有限公司

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：賈巖
技術所有人：安徽華貞信息科技有限公司
我是此專利的發(fā)明人

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

網(wǎng)絡數(shù)據(jù)復制分發(fā)系統(tǒng)相關技術

網(wǎng)絡數(shù)據(jù)轉發(fā)系統(tǒng)相關技術

網(wǎng)絡數(shù)據(jù)分析工具相關技術

手機連不上網(wǎng)絡數(shù)據(jù)相關技術

網(wǎng)絡數(shù)據(jù)相關技術

ios網(wǎng)絡數(shù)據(jù)本地緩存相關技術

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種深度網(wǎng)絡數(shù)據(jù)自動抽取方法及系統(tǒng)的制作方法