一種新聞網(wǎng)頁元數(shù)據(jù)自動抽取方法

文檔序號：6459386閱讀：270來源：國知局

專利名稱：一種新聞網(wǎng)頁元數(shù)據(jù)自動抽取方法
技術領域：
本發(fā)明涉及互聯(lián)網(wǎng)信息自動抽取技術領域，尤其涉及一種在互聯(lián)網(wǎng)新聞網(wǎng)頁上進行元數(shù)據(jù)自動抽取的方法。
背景技術：
近年來，萬維網(wǎng)己發(fā)展成為新聞報道至關重要的發(fā)布源。由于新聞頁面數(shù)量的迅猛增長，以及萬維網(wǎng)在內容顯示方面的多樣性優(yōu)勢，針對新聞信息類網(wǎng)頁進行組織分類以及分析處理的需求與日俱增。
與網(wǎng)絡新聞資源的驚人的增長速度相比，對于資源元數(shù)據(jù)的抽取、保存以及規(guī)范化的工作卻遠遠落后了。當前網(wǎng)上的新聞資源格式林立、標準眾多，主要以半結構化數(shù)據(jù)的形式(HTML)存在于網(wǎng)絡中，在很多情況下甚至是不精確的、殘缺的或者冗余的。這給網(wǎng)絡數(shù)字資源的共享帶來了高度的復雜性。因此，研究如何在無人工干預的情況下高效、準確地提取網(wǎng)絡數(shù)字資源元數(shù)據(jù)信息，就顯得非常重要和必要了。新聞類網(wǎng)頁元數(shù)據(jù)的自動抽取意味著在無人工干預的情況下，系統(tǒng)依據(jù)依據(jù)相關元數(shù)據(jù)標準從目標文檔中自動抽取元數(shù)據(jù)信息，并將結果進行合理組織和存儲的全過程。
Dublin Core (DC)是出版界權威的元數(shù)據(jù)標準，《EMMS元數(shù)據(jù)標準》在 DC的組織結構上進行了針對場景的擴展，將"知識產(chǎn)權描述類"擴展為"版權信息描述類"，另外增加了 "實體及其聯(lián)系描述類"和"元數(shù)據(jù)屬性描述類"。 CRYSTAL系統(tǒng)利用正則表達式模擬謂詞演算的方法實現(xiàn)了論文元數(shù)據(jù)的自動抽取，然而其前提格式轉換器將目標文檔轉換成純本文，而如果采用VIPs方法為抽取分析提供文檔結構反饋支持，可以直接處理Html文檔，達到抽取過程的緊親合。

發(fā)明內容
本發(fā)明的目的針對現(xiàn)有技術問題，提供一種無需人工干預地根據(jù)預定的標準和規(guī)則，從新聞網(wǎng)頁中自動抽取元數(shù)據(jù)信息的方法。本發(fā)明的技術方案是這樣的
一種新聞網(wǎng)頁元數(shù)據(jù)自動抽取方法，包括以下步驟，
通過選取界面獲得外部原始新聞網(wǎng)頁，利用HtmlTidy進行凈化預處理，得到規(guī)范Html頁面；
對得到的上述規(guī)范Html頁面利用HTMLParser第三方插件進行解析，得到 DOM樹；
對得到的所述DOM樹利用VIPs算法將DOM樹分塊，得到視覺分塊樹VBT; 對得到的所述視覺分塊樹VBT利用信息抽取算法進行抽取，得到元數(shù)據(jù)值作為抽取結果；
對得到的所述元數(shù)據(jù)值根據(jù)EMMS元數(shù)據(jù)標準映射成為標準字段的value, 獲得XML對象生成類；
對得到的所述XML對象生成類利用XmlBean插件輸出得到外部元數(shù)據(jù) XML文件。
采用本發(fā)明的技術方案能夠實現(xiàn)在無人工干預的情況下高效、準確地提取網(wǎng) 絡數(shù)字資源元數(shù)據(jù)信息，為信息的分析提取打下了可靠堅實的基礎。

圖1是本發(fā)明的系統(tǒng)總體流程圖
圖2是本發(fā)明實施例的硬件環(huán)境示意圖
具體實施例方式
在說明實施例以前，需要重申本發(fā)明使用的技術術語的定義如下
元數(shù)據(jù)在本發(fā)明的技術方案中，元數(shù)據(jù)被定義為按照一定的標準描述互
聯(lián)網(wǎng)資源(包括網(wǎng)頁，文檔，多媒體資源等)的屬性及內容的概括性數(shù)據(jù)的集合; 元數(shù)據(jù)標準元數(shù)據(jù)標準定義了整套元數(shù)據(jù)的體系架構。標準內容分為元
數(shù)據(jù)字段名稱以及字段取值范圍，所有字段組織成樹狀結構。本方法遵循的元數(shù)
據(jù)標準為《EMMS元數(shù)據(jù)標準》，它對Dublin Core進行了必要擴展，形成了 "文件外部屬性信息"、"文檔內容描述信息"、"版權信息"、"實體以及它們間聯(lián)系" 以及"元數(shù)據(jù)屬性信息"五大結構。元數(shù)據(jù)標準是元數(shù)據(jù)自動抽取的目標，是元數(shù)據(jù)xml文件的Shema的生成依據(jù)；
DOM(文檔對象模型)DOM是"Document Object Model"的縮寫，是一種供HTML和XML文檔使用的應用程序編程接口(API)。它定義了文檔的邏輯結構以及對文件進行訪問和操作的方法。DOM被設計成平臺無關、可使用任意編程語言實現(xiàn)的規(guī)范。為了提供準確的、獨立于語言的規(guī)范，DOM工作組使用了 OMG(Object Management Group,對象管理組織)的IDL(Interface Definition Language,接口定義語言)來定義DOM接口，然后由廠商來具體地實現(xiàn)這些接口。這樣既實現(xiàn)了標準的統(tǒng)一，同時又使標準的實現(xiàn)成為可能；
HtmlParser: HTMLParser是一個用來解析HTML文檔的java開源項目，它的目的是利用內部定制的詞法分析器和語法分析器解析規(guī)范網(wǎng)頁，把一個規(guī)范的HTML頁面解析并轉化成為完整的抽象標簽樹。它還提供其他許多諸如標簽過濾等網(wǎng)頁分析處理功能，對網(wǎng)頁元數(shù)據(jù)的進一步分析起到一個很好的基礎設施作用。
以下結合附圖1詳細本說明的技術方案的實施方式。在附圖1中，未做標記的部分為數(shù)據(jù)初始狀態(tài)、數(shù)據(jù)中間處理狀態(tài)以及數(shù)據(jù)的最終形態(tài)。做標記的斜體部分為數(shù)據(jù)處理步驟，下面依次說明
步驟IOI，本發(fā)明的方法可以通過網(wǎng)上選取(通過URL)以及本地選取兩種方式選擇待抽取的網(wǎng)頁。由于HTML頁面中常出現(xiàn)語法不規(guī)范現(xiàn)象，瀏覽器對此有很好的兼容，但是解析網(wǎng)頁會受此很大影響。HtmlTidy提供了一個HTML 的語法檢査器以及錯誤糾正的功能，可以用來清除或修改格式不符合HTML4.0 標準的標簽。經(jīng)過本步驟的處理，得到一個在語法上符合HTMLParser處理要求的網(wǎng)頁；
步驟102， HtmlParser內部分為詞法分析器和語法分析器的包結構，它先對網(wǎng)頁進行字符流的詞法分析，切割連續(xù)字符流為Html語法詞匯，然后語法分析器把詞匯解析成語義結構，得出整個Html的DOM樹；
步驟103, VIPs(Vision-based Page Segmentation)充分利用了字體大小、背景顏色、空白區(qū)域等視覺特征,通過制定相應的規(guī)則把頁面分成了各個視覺信息塊。這能在很大程度上滿足復雜頁面對算法的要求。經(jīng)過VIPs算法的處理，普通的DOM樹被組織成根據(jù)視覺特征進行聚類的視覺分塊樹；
步驟104，在本方法中，針對《EMMS元數(shù)據(jù)標準》所規(guī)定的不同字段采取了不同的算法。根據(jù)步驟103得到的結果，網(wǎng)頁已經(jīng)被處理成為一個有組織的純文本內容集合，其中，每塊純文本連帶有其在網(wǎng)頁中的位置，以及本身所呈現(xiàn)的視覺信息。信息抽取的具體方法包括正則表達式的匹配法、世博詞匯表語義信息指導下的基于統(tǒng)計抽取法以及抽取路徑自動生成等算法，它們除了對純文本進行自然語言解析以外，都直接或間接運用了 VBT提供的"文本——視覺屬性"配對信息，進行全面和有針對性的抽取，其中數(shù)據(jù)抽取模塊類總體軟件架構為三層，其中Extractor為關鍵類，包括了附圖中1的步驟102、步驟103和步驟104部分，經(jīng)過各種算法的處理，各個元數(shù)據(jù)字段的結果已經(jīng)得出。
步驟105，該步驟實現(xiàn)了信息對標準字段的填入，信息抽取步驟得出的純粹元數(shù)據(jù)信息必須根據(jù)標準填入相應字段才能獲得后續(xù)處理，元數(shù)據(jù)字段解釋與映射將完成這一步驟。本步驟在不同的字段下有不同的實現(xiàn)，一般為各個抽取函數(shù) 中的終結處理段，也有個別函數(shù)將其放置在循環(huán)處理中，如Link()和Image0;
步驟106，在對XML對象進行了必要的初始化后，利用XML生成類對象，本方法將元數(shù)據(jù)輸出為XML文件。本模塊輸出使用第三方的XmlBean插件，在步驟105階段把抽取的純粹元數(shù)據(jù)填入XML生成類的實例化對象中，在最后階段由XmlBean負責統(tǒng)一輸出到外部文件，這樣無論在效率和軟件架構上都是最優(yōu)的。
本發(fā)明主要應用于基于語義分塊的新聞網(wǎng)頁元數(shù)據(jù)自動抽取系統(tǒng)，實施例的硬件使用環(huán)境如附圖2所示如下
輸入設備指文字輸入設備，如手寫輸入板、鍵盤、觸摸屏等。
輸出設備指文字的顯示設備，如顯示器、投影儀等，同時，輸出設備也包括外
部存儲設備，如硬盤、磁盤陣列等。
處理器指具有運算能力的終端設備，如PC機、掌上電腦、PDA等網(wǎng)絡接入設備指幫助處理器接入互聯(lián)網(wǎng)的設備，如網(wǎng)卡、調制解調器(Modem)等。
其大致流程是元數(shù)據(jù)抽取系統(tǒng)向新聞網(wǎng)站服務器發(fā)送網(wǎng)頁請求，服務器在通過一定的安全檢測后將所要求的頁面發(fā)往元數(shù)據(jù)抽取模塊主機。元數(shù)據(jù)抽取系統(tǒng)在得到了一定數(shù)量的網(wǎng)頁集合后，通過DOM技術深入分析每個網(wǎng)頁內部的信息，挖掘集合內各個網(wǎng)頁間的相互關系，最終得到標準所規(guī)定的元數(shù)據(jù)值。系統(tǒng)
將元數(shù)據(jù)值轉化為XML格式后，通過I/0接口向外部存儲設備輸出，形成XML 格式的元數(shù)據(jù)文件。
總體上，本發(fā)明的方法抽取過程的所有步驟都是有機統(tǒng)一的，上下游步驟間有著緊密的數(shù)據(jù)傳遞關系，每個具體模塊將一種數(shù)據(jù)形態(tài)轉化為另一種，整體上實現(xiàn)了新聞網(wǎng)頁的元數(shù)據(jù)高效率自動抽取。
權利要求
1、一種新聞網(wǎng)頁元數(shù)據(jù)自動抽取方法，其特征在于，包括以下步驟101.通過選取界面獲得外部原始新聞網(wǎng)頁，利用HtmlTidy進行凈化預處理，得到規(guī)范Html頁面；102.對得到的所述規(guī)范Html頁面利用HTMLParser第三方插件進行解析，得到DOM樹；103.對得到的所述DOM樹利用VIPs算法將DOM樹分塊，得到視覺分塊樹VBT；104.對得到的所述視覺分塊樹VBT利用信息抽取算法進行抽取，得到元數(shù)據(jù)值作為抽取結果；105.對得到的所述元數(shù)據(jù)值根據(jù)EMMS元數(shù)據(jù)標準映射成為標準字段的value，獲得XML對象生成類；106.對得到的所述XML對象生成類利用XmlBean插件輸出得到外部元數(shù)據(jù)XML文件。
全文摘要
本發(fā)明涉及一種在互聯(lián)網(wǎng)新聞網(wǎng)頁上進行元數(shù)據(jù)自動抽取的方法，元數(shù)據(jù)抽取系統(tǒng)向新聞網(wǎng)站服務器發(fā)送網(wǎng)頁請求，服務器在通過一定的安全檢測后將所要求的頁面發(fā)往元數(shù)據(jù)抽取模塊主機。元數(shù)據(jù)抽取系統(tǒng)在得到了一定數(shù)量的網(wǎng)頁集合后，通過DOM技術深入分析每個網(wǎng)頁內部的信息，挖掘集合內各個網(wǎng)頁間的相互關系，最終得到標準所規(guī)定的元數(shù)據(jù)值。系統(tǒng)將元數(shù)據(jù)值轉化為XML格式后，通過I/O接口向外部存儲設備輸出，形成XML格式的元數(shù)據(jù)文件。本發(fā)明實現(xiàn)了在無人工干預的情況下，系統(tǒng)依據(jù)相關元數(shù)據(jù)標準從目標文檔中自動抽取元數(shù)據(jù)信息，并將結果進行合理組織和存儲的全過程。
文檔編號G06F17/30GK101290624SQ200810038788
公開日2008年10月22日申請日期2008年6月11日優(yōu)先權日2008年6月11日
發(fā)明者何正華, 峰劉, 劉海學, 芳吳, 孟玲玲, 靜楊, 王海棠, 鵬秦, 費靜婷, 宇閆, 顧君忠申請人:華東師范大學

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：顧君忠;楊靜;劉海學;孟玲玲;何正華;費靜婷;王海棠;劉峰;閆宇;秦鵬;吳芳
技術所有人：華東師范大學
我是此專利的發(fā)明人

上一篇：一種xml文檔的存儲和檢索方法
上一篇：一種便攜式設備上數(shù)據(jù)的存儲和管理方法

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

java新聞網(wǎng)頁正文抽取相關技術

網(wǎng)頁新聞正文自動抽取相關技術

網(wǎng)頁正文自動抽取技術相關技術

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種新聞網(wǎng)頁元數(shù)據(jù)自動抽取方法