專利名稱:一種新聞網(wǎng)頁元數(shù)據(jù)自動抽取方法
技術領域:
本發(fā)明涉及互聯(lián)網(wǎng)信息自動抽取技術領域,尤其涉及一種在互聯(lián)網(wǎng)新聞網(wǎng)頁 上進行元數(shù)據(jù)自動抽取的方法。
背景技術:
近年來,萬維網(wǎng)己發(fā)展成為新聞報道至關重要的發(fā)布源。由于新聞頁面數(shù)量 的迅猛增長,以及萬維網(wǎng)在內容顯示方面的多樣性優(yōu)勢,針對新聞信息類網(wǎng)頁進 行組織分類以及分析處理的需求與日俱增。
與網(wǎng)絡新聞資源的驚人的增長速度相比,對于資源元數(shù)據(jù)的抽取、保存以及 規(guī)范化的工作卻遠遠落后了。當前網(wǎng)上的新聞資源格式林立、標準眾多,主要以 半結構化數(shù)據(jù)的形式(HTML)存在于網(wǎng)絡中,在很多情況下甚至是不精確的、 殘缺的或者冗余的。這給網(wǎng)絡數(shù)字資源的共享帶來了高度的復雜性。因此,研究 如何在無人工干預的情況下高效、準確地提取網(wǎng)絡數(shù)字資源元數(shù)據(jù)信息,就顯得 非常重要和必要了。新聞類網(wǎng)頁元數(shù)據(jù)的自動抽取意味著在無人工干預的情況 下,系統(tǒng)依據(jù)依據(jù)相關元數(shù)據(jù)標準從目標文檔中自動抽取元數(shù)據(jù)信息,并將結果 進行合理組織和存儲的全過程。
Dublin Core (DC)是出版界權威的元數(shù)據(jù)標準,《EMMS元數(shù)據(jù)標準》在 DC的組織結構上進行了針對場景的擴展,將"知識產(chǎn)權描述類"擴展為"版權 信息描述類",另外增加了 "實體及其聯(lián)系描述類"和"元數(shù)據(jù)屬性描述類"。 CRYSTAL系統(tǒng)利用正則表達式模擬謂詞演算的方法實現(xiàn)了論文元數(shù)據(jù)的自動抽 取,然而其前提格式轉換器將目標文檔轉換成純本文,而如果采用VIPs方法為 抽取分析提供文檔結構反饋支持,可以直接處理Html文檔,達到抽取過程的緊親合。
發(fā)明內容
本發(fā)明的目的針對現(xiàn)有技術問題,提供一種無需人工干預地根據(jù)預定的標準 和規(guī)則,從新聞網(wǎng)頁中自動抽取元數(shù)據(jù)信息的方法。本發(fā)明的技術方案是這樣的
一種新聞網(wǎng)頁元數(shù)據(jù)自動抽取方法,包括以下步驟,
通過選取界面獲得外部原始新聞網(wǎng)頁,利用HtmlTidy進行凈化預處理,得 到規(guī)范Html頁面;
對得到的上述規(guī)范Html頁面利用HTMLParser第三方插件進行解析,得到 DOM樹;
對得到的所述DOM樹利用VIPs算法將DOM樹分塊,得到視覺分塊樹VBT; 對得到的所述視覺分塊樹VBT利用信息抽取算法進行抽取,得到元數(shù)據(jù)值 作為抽取結果;
對得到的所述元數(shù)據(jù)值根據(jù)EMMS元數(shù)據(jù)標準映射成為標準字段的value, 獲得XML對象生成類;
對得到的所述XML對象生成類利用XmlBean插件輸出得到外部元數(shù)據(jù) XML文件。
采用本發(fā)明的技術方案能夠實現(xiàn)在無人工干預的情況下高效、準確地提取網(wǎng) 絡數(shù)字資源元數(shù)據(jù)信息,為信息的分析提取打下了可靠堅實的基礎。
圖1是本發(fā)明的系統(tǒng)總體流程圖
圖2是本發(fā)明實施例的硬件環(huán)境示意圖
具體實施例方式
在說明實施例以前,需要重申本發(fā)明使用的技術術語的定義如下
元數(shù)據(jù)在本發(fā)明的技術方案中,元數(shù)據(jù)被定義為按照一定的標準描述互
聯(lián)網(wǎng)資源(包括網(wǎng)頁,文檔,多媒體資源等)的屬性及內容的概括性數(shù)據(jù)的集合; 元數(shù)據(jù)標準元數(shù)據(jù)標準定義了整套元數(shù)據(jù)的體系架構。標準內容分為元
數(shù)據(jù)字段名稱以及字段取值范圍,所有字段組織成樹狀結構。本方法遵循的元數(shù)
據(jù)標準為《EMMS元數(shù)據(jù)標準》,它對Dublin Core進行了必要擴展,形成了 "文 件外部屬性信息"、"文檔內容描述信息"、"版權信息"、"實體以及它們間聯(lián)系" 以及"元數(shù)據(jù)屬性信息"五大結構。元數(shù)據(jù)標準是元數(shù)據(jù)自動抽取的目標,是元數(shù)據(jù)xml文件的Shema的生成依據(jù);
DOM(文檔對象模型)DOM是"Document Object Model"的縮寫,是一種 供HTML和XML文檔使用的應用程序編程接口(API)。它定義了文檔的邏輯結 構以及對文件進行訪問和操作的方法。DOM被設計成平臺無關、可使用任意編 程語言實現(xiàn)的規(guī)范。為了提供準確的、獨立于語言的規(guī)范,DOM工作組使用了 OMG(Object Management Group,對象管理組織)的IDL(Interface Definition Language,接口定義語言)來定義DOM接口,然后由廠商來具體地實現(xiàn)這些接 口。這樣既實現(xiàn)了標準的統(tǒng)一,同時又使標準的實現(xiàn)成為可能;
HtmlParser: HTMLParser是一個用來解析HTML文檔的java開源項目, 它的目的是利用內部定制的詞法分析器和語法分析器解析規(guī)范網(wǎng)頁,把一個規(guī)范 的HTML頁面解析并轉化成為完整的抽象標簽樹。它還提供其他許多諸如標簽 過濾等網(wǎng)頁分析處理功能,對網(wǎng)頁元數(shù)據(jù)的進一步分析起到一個很好的基礎設施 作用。
以下結合附圖1詳細本說明的技術方案的實施方式。在附圖1中,未做標 記的部分為數(shù)據(jù)初始狀態(tài)、數(shù)據(jù)中間處理狀態(tài)以及數(shù)據(jù)的最終形態(tài)。做標記的斜 體部分為數(shù)據(jù)處理步驟,下面依次說明
步驟IOI,本發(fā)明的方法可以通過網(wǎng)上選取(通過URL)以及本地選取兩種 方式選擇待抽取的網(wǎng)頁。由于HTML頁面中常出現(xiàn)語法不規(guī)范現(xiàn)象,瀏覽器對 此有很好的兼容,但是解析網(wǎng)頁會受此很大影響。HtmlTidy提供了一個HTML 的語法檢査器以及錯誤糾正的功能,可以用來清除或修改格式不符合HTML4.0 標準的標簽。經(jīng)過本步驟的處理,得到一個在語法上符合HTMLParser處理要求 的網(wǎng)頁;
步驟102, HtmlParser內部分為詞法分析器和語法分析器的包結構,它先對 網(wǎng)頁進行字符流的詞法分析,切割連續(xù)字符流為Html語法詞匯,然后語法分析 器把詞匯解析成語義結構,得出整個Html的DOM樹;
步驟103, VIPs(Vision-based Page Segmentation)充分利用了字體大小、背景 顏色、空白區(qū)域等視覺特征,通過制定相應的規(guī)則把頁面分成了各個視覺信息塊。 這能在很大程度上滿足復雜頁面對算法的要求。經(jīng)過VIPs算法的處理,普通的DOM樹被組織成根據(jù)視覺特征進行聚類的視覺分塊樹;
步驟104,在本方法中,針對《EMMS元數(shù)據(jù)標準》所規(guī)定的不同字段采取 了不同的算法。根據(jù)步驟103得到的結果,網(wǎng)頁已經(jīng)被處理成為一個有組織的純 文本內容集合,其中,每塊純文本連帶有其在網(wǎng)頁中的位置,以及本身所呈現(xiàn)的 視覺信息。信息抽取的具體方法包括正則表達式的匹配法、世博詞匯表語義信息 指導下的基于統(tǒng)計抽取法以及抽取路徑自動生成等算法,它們除了對純文本進行 自然語言解析以外,都直接或間接運用了 VBT提供的"文本——視覺屬性"配 對信息,進行全面和有針對性的抽取,其中數(shù)據(jù)抽取模塊類總體軟件架構為三層, 其中Extractor為關鍵類,包括了附圖中1的步驟102、步驟103和步驟104部分, 經(jīng)過各種算法的處理,各個元數(shù)據(jù)字段的結果已經(jīng)得出。
步驟105,該步驟實現(xiàn)了信息對標準字段的填入,信息抽取步驟得出的純粹 元數(shù)據(jù)信息必須根據(jù)標準填入相應字段才能獲得后續(xù)處理,元數(shù)據(jù)字段解釋與映 射將完成這一步驟。本步驟在不同的字段下有不同的實現(xiàn), 一般為各個抽取函數(shù) 中的終結處理段,也有個別函數(shù)將其放置在循環(huán)處理中,如Link()和Image0;
步驟106,在對XML對象進行了必要的初始化后,利用XML生成類對象, 本方法將元數(shù)據(jù)輸出為XML文件。本模塊輸出使用第三方的XmlBean插件,在 步驟105階段把抽取的純粹元數(shù)據(jù)填入XML生成類的實例化對象中,在最后階 段由XmlBean負責統(tǒng)一輸出到外部文件,這樣無論在效率和軟件架構上都是最 優(yōu)的。
本發(fā)明主要應用于基于語義分塊的新聞網(wǎng)頁元數(shù)據(jù)自動抽取系統(tǒng),實施例的 硬件使用環(huán)境如附圖2所示如下
輸入設備指文字輸入設備,如手寫輸入板、鍵盤、觸摸屏等。
輸出設備指文字的顯示設備,如顯示器、投影儀等,同時,輸出設備也包括外
部存儲設備,如硬盤、磁盤陣列等。
處理器指具有運算能力的終端設備,如PC機、掌上電腦、PDA等 網(wǎng)絡接入設備指幫助處理器接入互聯(lián)網(wǎng)的設備,如網(wǎng)卡、調制解調器(Modem)等。
其大致流程是元數(shù)據(jù)抽取系統(tǒng)向新聞網(wǎng)站服務器發(fā)送網(wǎng)頁請求,服務器在 通過一定的安全檢測后將所要求的頁面發(fā)往元數(shù)據(jù)抽取模塊主機。元數(shù)據(jù)抽取系 統(tǒng)在得到了一定數(shù)量的網(wǎng)頁集合后,通過DOM技術深入分析每個網(wǎng)頁內部的信 息,挖掘集合內各個網(wǎng)頁間的相互關系,最終得到標準所規(guī)定的元數(shù)據(jù)值。系統(tǒng)
將元數(shù)據(jù)值轉化為XML格式后,通過I/0接口向外部存儲設備輸出,形成XML 格式的元數(shù)據(jù)文件。
總體上,本發(fā)明的方法抽取過程的所有步驟都是有機統(tǒng)一的,上下游步驟間 有著緊密的數(shù)據(jù)傳遞關系,每個具體模塊將一種數(shù)據(jù)形態(tài)轉化為另一種,整體上 實現(xiàn)了新聞網(wǎng)頁的元數(shù)據(jù)高效率自動抽取。
權利要求
1、一種新聞網(wǎng)頁元數(shù)據(jù)自動抽取方法,其特征在于,包括以下步驟101.通過選取界面獲得外部原始新聞網(wǎng)頁,利用HtmlTidy進行凈化預處理,得到規(guī)范Html頁面;102.對得到的所述規(guī)范Html頁面利用HTMLParser第三方插件進行解析,得到DOM樹;103.對得到的所述DOM樹利用VIPs算法將DOM樹分塊,得到視覺分塊樹VBT;104.對得到的所述視覺分塊樹VBT利用信息抽取算法進行抽取,得到元數(shù)據(jù)值作為抽取結果;105.對得到的所述元數(shù)據(jù)值根據(jù)EMMS元數(shù)據(jù)標準映射成為標準字段的value,獲得XML對象生成類;106.對得到的所述XML對象生成類利用XmlBean插件輸出得到外部元數(shù)據(jù)XML文件。
全文摘要
本發(fā)明涉及一種在互聯(lián)網(wǎng)新聞網(wǎng)頁上進行元數(shù)據(jù)自動抽取的方法,元數(shù)據(jù)抽取系統(tǒng)向新聞網(wǎng)站服務器發(fā)送網(wǎng)頁請求,服務器在通過一定的安全檢測后將所要求的頁面發(fā)往元數(shù)據(jù)抽取模塊主機。元數(shù)據(jù)抽取系統(tǒng)在得到了一定數(shù)量的網(wǎng)頁集合后,通過DOM技術深入分析每個網(wǎng)頁內部的信息,挖掘集合內各個網(wǎng)頁間的相互關系,最終得到標準所規(guī)定的元數(shù)據(jù)值。系統(tǒng)將元數(shù)據(jù)值轉化為XML格式后,通過I/O接口向外部存儲設備輸出,形成XML格式的元數(shù)據(jù)文件。本發(fā)明實現(xiàn)了在無人工干預的情況下,系統(tǒng)依據(jù)相關元數(shù)據(jù)標準從目標文檔中自動抽取元數(shù)據(jù)信息,并將結果進行合理組織和存儲的全過程。
文檔編號G06F17/30GK101290624SQ200810038788
公開日2008年10月22日 申請日期2008年6月11日 優(yōu)先權日2008年6月11日
發(fā)明者何正華, 峰 劉, 劉海學, 芳 吳, 孟玲玲, 靜 楊, 王海棠, 鵬 秦, 費靜婷, 宇 閆, 顧君忠 申請人:華東師范大學