国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種網(wǎng)頁(yè)內(nèi)容抽取的方法及裝置的制作方法

      文檔序號(hào):6397988閱讀:183來(lái)源:國(guó)知局
      專利名稱:一種網(wǎng)頁(yè)內(nèi)容抽取的方法及裝置的制作方法
      技術(shù)領(lǐng)域
      本發(fā)明涉及信息技術(shù)領(lǐng)域,尤其涉及一種網(wǎng)頁(yè)內(nèi)容抽取的方法及裝置。
      背景技術(shù)
      通過(guò)SAX解析器將網(wǎng)頁(yè)源碼中表示文本區(qū)域的〈P〉標(biāo)簽、<Hn>標(biāo)簽、<a>標(biāo)簽、<DIV>標(biāo)簽等標(biāo)簽中的內(nèi)容解析為多個(gè)文本塊,并計(jì)算各個(gè)文本塊中的預(yù)設(shè)指標(biāo),判斷此文本塊的內(nèi)容是否可以作為正文,其中,預(yù)設(shè)指標(biāo)可以包括單詞數(shù)、超鏈接密度等指標(biāo)。例如,當(dāng)前文本塊的鏈接密度小于等于O. 333333,并且前一文本塊的鏈接密度小于等于O. 555556,并且當(dāng)前文本塊的單詞數(shù)小于等于16,并且下一文本塊的單詞數(shù)小于等于14,并且前一文本塊的單詞數(shù)大于4時(shí),當(dāng)前文本塊能作為正文;前面條件不變,最后一個(gè)條件為前一文本塊的單詞數(shù)小于等于4時(shí),當(dāng)前文本塊不能作為正文。然而,當(dāng)采用現(xiàn)有技術(shù)進(jìn)行網(wǎng)頁(yè)內(nèi)容抽取時(shí),網(wǎng)頁(yè)標(biāo)題抽取不準(zhǔn)確,網(wǎng)頁(yè)各個(gè)元素抽取不全面等問(wèn)題,導(dǎo)致網(wǎng)頁(yè)正文抽取不準(zhǔn)確。

      發(fā)明內(nèi)容
      本發(fā)明的實(shí)施例提供一種網(wǎng)頁(yè)內(nèi)容抽取的方法及裝置,可以在進(jìn)行網(wǎng)頁(yè)內(nèi)容抽取時(shí),準(zhǔn)確抽取網(wǎng)頁(yè)標(biāo)題以及網(wǎng)頁(yè)中各個(gè)元素。第一方面,本發(fā)明提供一種網(wǎng)頁(yè)內(nèi)容抽取的方法,包括將HTML源碼轉(zhuǎn)換為對(duì)應(yīng)的文檔樹結(jié)構(gòu),并根據(jù)所述文檔樹結(jié)構(gòu)的TITLE標(biāo)簽,確定網(wǎng)頁(yè)標(biāo)題;根據(jù)所述網(wǎng)頁(yè)標(biāo)題,確定網(wǎng)頁(yè)中的網(wǎng)頁(yè)元素,所述網(wǎng)頁(yè)元素至少包括網(wǎng)站LOGO、頁(yè)面導(dǎo)航、新聞發(fā)布時(shí)間、新聞來(lái)源;根據(jù)所述網(wǎng)頁(yè)標(biāo)題,以及所述文檔樹結(jié)構(gòu)的文本塊的密度和文字?jǐn)?shù),確定各個(gè)文本塊的屬性,所述文本塊的屬性包括所述文本塊的網(wǎng)頁(yè)內(nèi)容為正文,或者所述文本塊的網(wǎng)頁(yè)內(nèi)容非正文;抽取所述網(wǎng)頁(yè)標(biāo)題、所述網(wǎng)頁(yè)元素以及所述網(wǎng)頁(yè)內(nèi)容為正文的正文文本塊,獲取網(wǎng)頁(yè)全文。第二方面,本發(fā)明提供一種網(wǎng)頁(yè)內(nèi)容抽取的裝置,包括轉(zhuǎn)換單元,用于將HTML源碼轉(zhuǎn)換為對(duì)應(yīng)的文檔樹結(jié)構(gòu);網(wǎng)頁(yè)標(biāo)題確定單元,用于將HTML源碼轉(zhuǎn)換為對(duì)應(yīng)的文檔樹結(jié)構(gòu),并根據(jù)所述文檔樹結(jié)構(gòu)的TITLE標(biāo)簽,確定網(wǎng)頁(yè)標(biāo)題;網(wǎng)頁(yè)元素確定單元,用于根據(jù)所述網(wǎng)頁(yè)標(biāo)題,確定網(wǎng)頁(yè)中的網(wǎng)頁(yè)元素,所述網(wǎng)頁(yè)元素至少包括網(wǎng)站LOGO、頁(yè)面導(dǎo)航、新聞發(fā)布時(shí)間、新聞來(lái)源;文本塊屬性確定單元,用于根據(jù)所述網(wǎng)頁(yè)標(biāo)題,以及所述文檔樹結(jié)構(gòu)的文本塊的密度和文字?jǐn)?shù),確定各個(gè)文本塊的屬性,所述文本塊的屬性包括所述文本塊的網(wǎng)頁(yè)內(nèi)容為正文,或者所述文本塊的網(wǎng)頁(yè)內(nèi)容非正文;
      網(wǎng)頁(yè)全文獲取單元,用于抽取所述網(wǎng)頁(yè)標(biāo)題、所述網(wǎng)頁(yè)元素以及所述網(wǎng)頁(yè)內(nèi)容為正文的正文文本塊,獲取網(wǎng)頁(yè)全文。本發(fā)明實(shí)施例提供一種網(wǎng)頁(yè)內(nèi)容抽取的方法及裝置,通過(guò)將HTML源碼轉(zhuǎn)換為對(duì)應(yīng)的文檔樹結(jié)構(gòu),并根據(jù)所述文檔樹結(jié)構(gòu)的TITLE標(biāo)簽,確定網(wǎng)頁(yè)標(biāo)題;根據(jù)所述網(wǎng)頁(yè)標(biāo)題,確定網(wǎng)頁(yè)中的網(wǎng)頁(yè)元素,所述網(wǎng)頁(yè)元素至少包括網(wǎng)站LOGO、頁(yè)面導(dǎo)航、新聞發(fā)布時(shí)間、新聞來(lái)源;根據(jù)所述網(wǎng)頁(yè)標(biāo)題,以及所述文檔樹結(jié)構(gòu)的文本塊的密度和文字?jǐn)?shù),確定各個(gè)文本塊的屬性,所述文本塊的屬性包括所述文本塊的網(wǎng)頁(yè)內(nèi)容為正文,或者所述文本塊的網(wǎng)頁(yè)內(nèi)容非正文;抽取所述網(wǎng)頁(yè)標(biāo)題、所述網(wǎng)頁(yè)元素以及所述網(wǎng)頁(yè)內(nèi)容為正文的正文文本塊,獲取網(wǎng)頁(yè)全文。與現(xiàn)有技術(shù)中進(jìn)行網(wǎng)頁(yè)內(nèi)容抽取時(shí),網(wǎng)頁(yè)標(biāo)題抽取不準(zhǔn)確,網(wǎng)頁(yè)各個(gè)元素抽取不全面等問(wèn)題,導(dǎo)致網(wǎng)頁(yè)正文抽取不準(zhǔn)確相比,本發(fā)明實(shí)施例通過(guò)TITLE標(biāo)簽,確定網(wǎng)頁(yè)標(biāo)題,再根據(jù)網(wǎng)頁(yè)標(biāo)題確定網(wǎng)頁(yè)其他元素,例如網(wǎng)站LOGO、頁(yè)面導(dǎo)航、新聞發(fā)布時(shí)間、新聞來(lái)源等,使得在進(jìn)行網(wǎng)頁(yè)內(nèi)容抽取時(shí),準(zhǔn)確抽取網(wǎng)頁(yè)標(biāo)題以及網(wǎng)頁(yè)中各個(gè)元素。


      為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖1為本發(fā)明實(shí)施例1提供的一種網(wǎng)頁(yè)內(nèi)容抽取的方法的流程圖;圖2為本發(fā)明實(shí)施例1提供的另一種網(wǎng)頁(yè)內(nèi)容抽取的方法的流程圖;圖3為本發(fā)明實(shí)施例1提供的一種確定當(dāng)前文本塊的網(wǎng)頁(yè)內(nèi)容為正文或者非正文的方法的流程圖;圖4為本發(fā)明實(shí)施例2提供的一種網(wǎng)頁(yè)內(nèi)容抽取的裝置的框圖;圖5為本發(fā)明實(shí)施例2提供的另一種網(wǎng)頁(yè)內(nèi)容抽取的裝置的框圖;圖6為本發(fā)明實(shí)施例2提供的第一確定模塊的框圖;圖7為本發(fā)明實(shí)施例2提供的第三確定模塊的框圖。
      具體實(shí)施例方式下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。實(shí)施例1本發(fā)明實(shí)施例提供一種網(wǎng)頁(yè)內(nèi)容抽取的方法,如圖1所示,該方法包括步驟101,將HTML源碼轉(zhuǎn)換為對(duì)應(yīng)的文檔樹結(jié)構(gòu),并根據(jù)所述文檔樹結(jié)構(gòu)的TITLE標(biāo)簽,確定網(wǎng)頁(yè)標(biāo)題。通過(guò)對(duì)網(wǎng)頁(yè)的超文本標(biāo)記語(yǔ)言(Hyper Text Mark-up Language,HTML)源碼解析,可以獲得文檔對(duì)象模型(Document Object Model,DOM),其也可以稱為文檔樹結(jié)構(gòu)。文檔樹結(jié)構(gòu)中包含許多可以用于分析和模式匹配的有效信息。通過(guò)對(duì)文檔樹結(jié)構(gòu)源碼采用SAX解析,可以獲得文本塊。例如,在DIV布局的網(wǎng)頁(yè)中,文檔樹結(jié)構(gòu)由多個(gè)DIV塊組成,DIV塊即為DIV標(biāo)簽標(biāo)記的文本塊。DIV塊作為一個(gè)容器,可以用來(lái)存放頁(yè)面的文字和圖片信息,網(wǎng)頁(yè)正文頁(yè)存在于DIV塊之中。當(dāng)然在本發(fā)明中,文檔樹結(jié)構(gòu)中不僅包括DIV塊,還可以包括由P標(biāo)簽標(biāo)記的文本塊、Hn標(biāo)簽標(biāo)記的文本塊等等??蛇x的,根據(jù)文檔樹結(jié)構(gòu)的TITLE標(biāo)簽,確定網(wǎng)頁(yè)標(biāo)題包括根據(jù)文檔樹結(jié)構(gòu)的TITLE標(biāo)簽,和/或,所述文檔樹結(jié)構(gòu)屬性“name”的值為“description”的META標(biāo)簽,獲得第一網(wǎng)頁(yè)標(biāo)題信息;根據(jù)第一網(wǎng)頁(yè)標(biāo)題信息,以及預(yù)設(shè)的劃分原則,提取第二網(wǎng)頁(yè)標(biāo)題信息,其中劃分原則可以為根據(jù)“ I ”進(jìn)行劃分的原則,第二網(wǎng)頁(yè)標(biāo)題信息在第一網(wǎng)頁(yè)標(biāo)題信息中第一“ I ”之前的信息;根據(jù)所述第二網(wǎng)頁(yè)標(biāo)題信息,遍歷所述文檔樹結(jié)構(gòu)中的body標(biāo)簽中包括的所有文本塊,當(dāng)確定第二文本塊中的網(wǎng)頁(yè)內(nèi)容與所述第二網(wǎng)頁(yè)標(biāo)題信息相匹配時(shí),則將所述第二文本塊的網(wǎng)頁(yè)內(nèi)容標(biāo)記為網(wǎng)頁(yè)標(biāo)題,所述第二文本塊為網(wǎng)頁(yè)標(biāo)題所在的文本塊。步驟102,根據(jù)所述網(wǎng)頁(yè)標(biāo)題,確定網(wǎng)頁(yè)中的網(wǎng)頁(yè)元素,所述網(wǎng)頁(yè)元素至少包括網(wǎng)站LOGO、頁(yè)面導(dǎo)航、新聞發(fā)布時(shí)間、新聞來(lái)源??蛇x的,在一個(gè)網(wǎng)頁(yè)全文中,網(wǎng)頁(yè)標(biāo)題很重要,但是網(wǎng)站LOGO、頁(yè)面導(dǎo)航、新聞發(fā)布時(shí)間、新聞來(lái)源等可以使得網(wǎng)頁(yè)信息更加全面,因此本發(fā)明支持網(wǎng)頁(yè)全文中顯示網(wǎng)頁(yè)元素,使得網(wǎng)頁(yè)全文顯示的信息更加全面,更加詳細(xì)??蛇x的,根據(jù)所述網(wǎng)頁(yè)標(biāo)題,確定網(wǎng)頁(yè)中的網(wǎng)頁(yè)元素包括在所述網(wǎng)頁(yè)標(biāo)題所在的文本塊之前,根據(jù)頁(yè)面導(dǎo)航正則表達(dá)式確定頁(yè)面導(dǎo)航;在所述頁(yè)面導(dǎo)航所在的文本塊之前,根據(jù)所述文檔樹結(jié)構(gòu)的包含LOGO關(guān)鍵字的IMG標(biāo)簽,確定網(wǎng)站LOGO ;在所述網(wǎng)頁(yè)標(biāo)題所在的文本塊之后,根據(jù)日期正則表達(dá)式,確定新聞發(fā)布時(shí)間;在所述新聞發(fā)布時(shí)間所在的文本塊之后,根據(jù)“來(lái)源”關(guān)鍵字,或者所述新聞發(fā)布時(shí)間所在的文本塊之后的第一個(gè)文字串,確定新聞來(lái)源。步驟103,根據(jù)所述網(wǎng)頁(yè)標(biāo)題,以及所述文檔樹結(jié)構(gòu)的文本塊的密度和文字?jǐn)?shù),確定各個(gè)文本塊的屬性,所述文本塊的屬性包括所述文本塊的網(wǎng)頁(yè)內(nèi)容為正文,或者所述文本塊的網(wǎng)頁(yè)內(nèi)容非正文。文本塊的密度包括文字密度和鏈接密度。文字密度為文本塊中包含的中文漢字?jǐn)?shù)與文本塊中包含的全部字符數(shù)的比值。鏈接密度為A標(biāo)簽中中文漢字?jǐn)?shù)與文本塊中包含的中文漢字?jǐn)?shù)的比值,其中A標(biāo)簽為標(biāo)記鏈接的標(biāo)簽??蛇x的,根據(jù)所述網(wǎng)頁(yè)標(biāo)題,以及所述文檔樹結(jié)構(gòu)的文本塊的密度和文字?jǐn)?shù),確定各個(gè)文本塊的屬性包括根據(jù)所述文檔樹結(jié)構(gòu)的文本塊的文字密度、鏈接密度和文字?jǐn)?shù),確定當(dāng)前文本塊的網(wǎng)頁(yè)內(nèi)容為正文或者非正文;根據(jù)所述網(wǎng)頁(yè)標(biāo)題,確定所述網(wǎng)頁(yè)標(biāo)題之前的網(wǎng)頁(yè)內(nèi)容為非正文;根據(jù)所述文檔樹結(jié)構(gòu)的文本塊中包含的網(wǎng)頁(yè)正文結(jié)束特征詞,確定包含所述特征詞的文本塊之后的網(wǎng)頁(yè)內(nèi)容為非正文。步驟104,抽取所述網(wǎng)頁(yè)標(biāo)題、所述網(wǎng)頁(yè)元素以及所述網(wǎng)頁(yè)內(nèi)容為正文的正文文本塊,獲取網(wǎng)頁(yè)全文。本發(fā)明實(shí)施例提供一種網(wǎng)頁(yè)內(nèi)容抽取的方法,通過(guò)文本樹結(jié)構(gòu)中的TITLE標(biāo)簽,確定網(wǎng)頁(yè)標(biāo)題,再根據(jù)網(wǎng)頁(yè)標(biāo)題確定網(wǎng)頁(yè)其他元素,例如網(wǎng)站LOGO、頁(yè)面導(dǎo)航、新聞發(fā)布時(shí)間、新聞來(lái)源等,使得在進(jìn)行網(wǎng)頁(yè)內(nèi)容抽取時(shí),抽取網(wǎng)頁(yè)標(biāo)題、網(wǎng)頁(yè)元素以及網(wǎng)頁(yè)內(nèi)容為正文的正文文本塊,獲取網(wǎng)頁(yè)全文,可以準(zhǔn)確抽取網(wǎng)頁(yè)標(biāo)題以及網(wǎng)頁(yè)中各個(gè)元素。本發(fā)明實(shí)施例提供另一種網(wǎng)頁(yè)內(nèi)容抽取的方法,如圖2所示,該方法包括 步驟201,將HTML源碼轉(zhuǎn)換為對(duì)應(yīng)的文檔樹結(jié)構(gòu)。通過(guò)對(duì)網(wǎng)頁(yè)的超文本標(biāo)記語(yǔ)言HTML源碼解析,可以獲得文檔對(duì)象模型D0M,其也可以稱為文檔樹結(jié)構(gòu)。文檔樹結(jié)構(gòu)中包含許多可以用于分析和模式匹配的有效信息。步驟202,根據(jù)文檔樹結(jié)構(gòu)中的Head部屬性“http-equiv”的值為“Content-Type”的META標(biāo)簽,獲取網(wǎng)頁(yè)編碼信息。例如,〈meta http-equiv = " Content-Type " content = " text/html ;charset=gb2312" />,在META標(biāo)簽中,網(wǎng)頁(yè)編碼信息即為屬性“charset”的值“gb2312”,gb2312表示中文網(wǎng)頁(yè)頁(yè)面的字符集。當(dāng)獲取到gb2312時(shí),即可以按照字符集為gb2312進(jìn)行網(wǎng)頁(yè)內(nèi)容的抽取,這樣就不會(huì)出現(xiàn)亂碼。現(xiàn)有技術(shù)中根據(jù)網(wǎng)頁(yè)的URL,獲取其頁(yè)面編碼信息,這種情況下強(qiáng)行指定“UTF-8”為默認(rèn)的字符集,當(dāng)網(wǎng)頁(yè)的字符集為gb2312時(shí),則會(huì)使得后續(xù)網(wǎng)頁(yè)內(nèi)容抽取時(shí)出現(xiàn)亂碼。因此本發(fā)明實(shí)施例可以根據(jù)META標(biāo)簽獲取網(wǎng)頁(yè)編碼信息,從而根據(jù)網(wǎng)頁(yè)設(shè)置的字符集進(jìn)行后續(xù)網(wǎng)頁(yè)內(nèi)容抽取,使得可以避免出現(xiàn)亂碼。步驟203,將文檔樹結(jié)構(gòu)的轉(zhuǎn)義字符進(jìn)行編碼,獲得轉(zhuǎn)義字符普通文本形式。對(duì)獲得的文檔樹結(jié)構(gòu)中的轉(zhuǎn)義字符進(jìn)行編碼。網(wǎng)頁(yè)內(nèi)容中含有轉(zhuǎn)義字符,例如“&#160 ; ”,顯示為空格,為了避免轉(zhuǎn)義字符在進(jìn)行SAX解析時(shí)丟失,所以將轉(zhuǎn)義字符轉(zhuǎn)化為轉(zhuǎn)義字符普通文本形式,轉(zhuǎn)義字符普通文本形式可以為:#esc#xxx#/esc#。步驟204,判斷是否需要抽取圖片。需要說(shuō)明的是,在本步驟中,可以根據(jù)用戶的設(shè)定或者設(shè)計(jì)人員的設(shè)定判斷是否需要抽取圖片。例如,根據(jù)某一型號(hào)的手機(jī)進(jìn)行設(shè)定,當(dāng)某一型號(hào)的手機(jī)能力較弱時(shí),即運(yùn)算速度較慢,屏幕較小,此時(shí)可以設(shè)定不需要抽取圖像,以加快手機(jī)的處理速度;當(dāng)另一型號(hào)的手機(jī)能力較強(qiáng)時(shí),即運(yùn)算速度較快,屏幕較大,此時(shí)可以設(shè)定需要抽取圖像,以使得網(wǎng)頁(yè)內(nèi)容更詳細(xì)豐富。步驟205,當(dāng)需要抽取圖片時(shí),將所述文檔樹結(jié)構(gòu)的MG標(biāo)簽進(jìn)行編碼,獲得MG標(biāo)簽普通文本形式。對(duì)IMG標(biāo)簽進(jìn)行編碼。為了避免圖片在進(jìn)行SAX解析時(shí)丟失,而將IMG標(biāo)簽轉(zhuǎn)化為MG標(biāo)簽普通文本的形式,其中MG標(biāo)簽普通文本的形式可以為#img#〈attributes>#/img#。當(dāng)執(zhí)行完步驟205之后,繼續(xù)執(zhí)行步驟206,對(duì)文檔樹結(jié)構(gòu)源碼解析為文本塊。步驟206,當(dāng)不需要抽取圖片時(shí),則將文檔樹結(jié)構(gòu)源碼解析為文本塊;將文檔樹結(jié)構(gòu)采用SAX解析為文本塊。例如,在DI V布局的網(wǎng)頁(yè)中,文檔樹結(jié)構(gòu)由多個(gè)DIV塊組成,DIV塊即為DIV標(biāo)簽標(biāo)記的文本塊。DIV塊作為一個(gè)容器,可以用來(lái)存放頁(yè)面的文字和圖片信息,網(wǎng)頁(yè)正文頁(yè)存在于DIV塊之中。當(dāng)然在本發(fā)明中,文檔樹結(jié)構(gòu)中不僅包括DIV塊,還可以包括由P標(biāo)簽標(biāo)記的文本塊、Hn標(biāo)簽標(biāo)記的文本塊等等。步驟207,判斷當(dāng)前需要進(jìn)行轉(zhuǎn)碼處理的網(wǎng)頁(yè)是否為中文網(wǎng)頁(yè)。當(dāng)前需要進(jìn)行轉(zhuǎn)碼處理的網(wǎng)頁(yè)為中文網(wǎng)頁(yè)時(shí),繼續(xù)執(zhí)行步驟209;當(dāng)前需要進(jìn)行轉(zhuǎn)碼處理的網(wǎng)頁(yè)為英文網(wǎng)頁(yè)時(shí),執(zhí)行步驟208。
      步驟208,將英文網(wǎng)頁(yè)由Boilerplate算法進(jìn)行網(wǎng)頁(yè)內(nèi)容抽取。Boilerplate算法為將英文網(wǎng)頁(yè)進(jìn)行網(wǎng)頁(yè)內(nèi)容抽取的算法,此步驟可以根據(jù)現(xiàn)有技術(shù)執(zhí)行,因此不在詳細(xì)描述,具體可參見Boilerplate算法的描述。當(dāng)步驟208執(zhí)行完成之后,繼續(xù)執(zhí)行步驟216。步驟209,根據(jù)所述文檔樹結(jié)構(gòu)的TITLE標(biāo)簽,確定網(wǎng)頁(yè)標(biāo)題;可選的,根據(jù)文檔樹結(jié)構(gòu)的Head部的TITLE標(biāo)簽,將TI TLE標(biāo)簽中的內(nèi)容作為第一網(wǎng)頁(yè)標(biāo)題信息,其中第一網(wǎng)頁(yè)標(biāo)題信息可以為候選網(wǎng)頁(yè)標(biāo)題。例如TITLE標(biāo)簽中的內(nèi)容如下〈title>人社部專家建議退休年齡應(yīng)延至65歲I延遲退休I老齡化I養(yǎng)老保險(xiǎn)_新浪新聞〈/title〉。然后根據(jù)第一網(wǎng)頁(yè)標(biāo)題信息,提取第二網(wǎng)頁(yè)標(biāo)題信息。可選的,根據(jù)預(yù)設(shè)劃分原貝U,其中劃分原則可以為根據(jù)“ I ”進(jìn)行劃分的原則,第二網(wǎng)頁(yè)標(biāo)題信息為在第一網(wǎng)頁(yè)標(biāo)題信息中第一“ I ”之前的信息,第二網(wǎng)頁(yè)標(biāo)題信息即為“人社部專家建議退休年齡應(yīng)延至65
      I7Lt ”
      歹 O再根據(jù)第二網(wǎng)頁(yè)標(biāo)題信息,遍歷文檔樹結(jié)構(gòu)中的body標(biāo)簽中包括的所有文本塊,當(dāng)確定第二文本塊中的網(wǎng)頁(yè)內(nèi)容與第二網(wǎng)頁(yè)標(biāo)題信息相匹配時(shí),則將所述第二文本塊的網(wǎng)頁(yè)內(nèi)容標(biāo)記為網(wǎng)頁(yè)標(biāo)題,所述第二文本塊為網(wǎng)頁(yè)標(biāo)題所在的文本塊。例如,當(dāng)?shù)诙谋緣K的網(wǎng)頁(yè)內(nèi)容為“人社部專家建議退休年齡應(yīng)延至65歲”,此時(shí),第二文本塊中的網(wǎng)頁(yè)內(nèi)容與第二網(wǎng)頁(yè)標(biāo)題信息相匹配,則第二文本塊為網(wǎng)頁(yè)標(biāo)題所在的文本塊,“人社部專家建議退休年齡應(yīng)延至65歲”則為網(wǎng)頁(yè)標(biāo)題。這里第二文本塊為文檔樹結(jié)構(gòu)中的body標(biāo)簽中包括的所有文本塊中的任意一個(gè),“第二”并不是對(duì)文本塊進(jìn)行排序,而僅為了方便描述。另外,第二文本塊中的網(wǎng)頁(yè)內(nèi)容與第二網(wǎng)頁(yè)標(biāo)題信息相匹配時(shí),可以為第二文本塊中的網(wǎng)頁(yè)內(nèi)容與第二網(wǎng)頁(yè)標(biāo)題信息相同,或者第二文本塊中的網(wǎng)頁(yè)內(nèi)容與第二網(wǎng)頁(yè)標(biāo)題信息大部分相同??蛇x的,根據(jù)文檔樹結(jié)構(gòu)屬性“name”的值為“description”的META標(biāo)簽,將META標(biāo)簽中的內(nèi)容作為第一網(wǎng)頁(yè)標(biāo)題信息,其中第一網(wǎng)頁(yè)標(biāo)題信息可以為候選網(wǎng)頁(yè)標(biāo)題。例如,META標(biāo)簽中的內(nèi)容為〈meta content =“敘利亞是否進(jìn)入內(nèi)戰(zhàn)?聯(lián)合國(guó)國(guó)際紅十字會(huì)說(shuō)T算,國(guó)際新聞” name = “description” >。然后根據(jù)第一網(wǎng)頁(yè)標(biāo)題信息,提取第二網(wǎng)頁(yè)標(biāo)題信息??蛇x的,根據(jù)預(yù)設(shè)劃分原貝U,其中劃分原則可以為根據(jù)“,”進(jìn)行劃分的原則,第二網(wǎng)頁(yè)標(biāo)題信息即為“敘利亞是否進(jìn)入內(nèi)戰(zhàn)?聯(lián)合國(guó)國(guó)際紅十字會(huì)說(shuō)了算”。再根據(jù)第二網(wǎng)頁(yè)標(biāo)題信息,遍歷文檔樹結(jié)構(gòu)中的body標(biāo)簽中包括的所有文本塊,當(dāng)確定第二文本塊中的網(wǎng)頁(yè)內(nèi)容與第二網(wǎng)頁(yè)標(biāo)題信息相匹配時(shí),則將所述第二文本塊的網(wǎng)頁(yè)內(nèi)容標(biāo)記為網(wǎng)頁(yè)標(biāo)題,所述第二文本塊為網(wǎng)頁(yè)標(biāo)題所在的文本塊。當(dāng)?shù)诙谋緣K中的網(wǎng)頁(yè)內(nèi)容為“敘利亞是否進(jìn)入內(nèi)戰(zhàn)?聯(lián)合國(guó)國(guó)際紅十字會(huì)說(shuō)了算”時(shí),則第二文本塊中的網(wǎng)頁(yè)內(nèi)容與第二網(wǎng)頁(yè)標(biāo)題信息相匹配,則第二文本塊為網(wǎng)頁(yè)標(biāo)題所在的文本塊,網(wǎng)頁(yè)標(biāo)題為“敘利亞是否進(jìn)入內(nèi)戰(zhàn)?聯(lián)合國(guó)國(guó)際紅十字會(huì)說(shuō)了算”??蛇x的,根據(jù)所述文檔樹結(jié)構(gòu)的TITLE標(biāo)簽,和根據(jù)所述文檔樹結(jié)構(gòu)屬性“name”的值為“description”的META標(biāo)簽,獲得第一網(wǎng)頁(yè)標(biāo)題信息。例如,META標(biāo)簽的內(nèi)容〈meta content = “敘利亞是否進(jìn)入內(nèi)戰(zhàn)?聯(lián)合國(guó)國(guó)際紅十字會(huì)說(shuō)了算,國(guó)際新聞” name = “description” > ;
      TITLE標(biāo)簽的內(nèi)容〈title〉敘利亞是否進(jìn)入內(nèi)戰(zhàn)?聯(lián)合國(guó)國(guó)際紅十字會(huì)說(shuō)了算---齊魯熱線新聞?lì)l道,讓新聞離您更近〈/title〉。
      META標(biāo)簽的內(nèi)容和TITLE標(biāo)簽的內(nèi)容都可以作為第一網(wǎng)頁(yè)標(biāo)題信息,然后根據(jù)第一網(wǎng)頁(yè)標(biāo)題信息獲得第二網(wǎng)頁(yè)標(biāo)題信息,可以分別為敘利亞是否進(jìn)入內(nèi)戰(zhàn)?聯(lián)合國(guó)國(guó)際紅十字會(huì)說(shuō)了算;敘利亞是否進(jìn)入內(nèi)戰(zhàn)?聯(lián)合國(guó)國(guó)際紅十字會(huì)說(shuō)了算一齊魯熱線新聞?lì)l道,讓新聞離您更近。
      根據(jù)所述第二網(wǎng)頁(yè)標(biāo)題信息,遍歷所述文檔樹結(jié)構(gòu)中的body標(biāo)簽中包括的所有文本塊,即將第二網(wǎng)頁(yè)標(biāo)題信息分別與文檔樹結(jié)構(gòu)中的body標(biāo)簽中包括的所有文本塊的網(wǎng)頁(yè)內(nèi)容進(jìn)行比較,第二文本塊中的網(wǎng)頁(yè)內(nèi)容可以為“敘利亞是否進(jìn)入內(nèi)戰(zhàn)?聯(lián)合國(guó)國(guó)際紅十字會(huì)說(shuō)了算”。當(dāng)確定第二文本塊中的網(wǎng)頁(yè)內(nèi)容與第二網(wǎng)頁(yè)標(biāo)題信息相匹配時(shí),則將第二文本塊的網(wǎng)頁(yè)內(nèi)容標(biāo)記為網(wǎng)頁(yè)標(biāo)題,第二文本塊為網(wǎng)頁(yè)標(biāo)題所在的文本塊。即“敘利亞是否進(jìn)入內(nèi)戰(zhàn)?聯(lián)合國(guó)國(guó)際紅十字會(huì)說(shuō)了算”為網(wǎng)頁(yè)標(biāo)題。
      步驟210,根據(jù)所述網(wǎng)頁(yè)標(biāo)題,確定網(wǎng)頁(yè)中的網(wǎng)頁(yè)元素。
      其中,網(wǎng)頁(yè)元素至少包括網(wǎng)站LOGO、頁(yè)面導(dǎo)航、新聞發(fā)布時(shí)間、新聞來(lái)源。
      可選的,根據(jù)網(wǎng)頁(yè)標(biāo)題,確定網(wǎng)頁(yè)中頁(yè)面導(dǎo)航包括在所述網(wǎng)頁(yè)標(biāo)題所在的文本塊之前,根據(jù)頁(yè)面導(dǎo)航正則表達(dá)式確定頁(yè)面導(dǎo)航。
      頁(yè)面導(dǎo)航正則表達(dá)式為[\\u4e00-\\u9fa5] + []*[ > —],此頁(yè)面導(dǎo)航正則表達(dá)式可以解釋為中文+0個(gè)或者多個(gè)空格+導(dǎo)航分隔符,導(dǎo)航分隔符包括“>”或“一”。從網(wǎng)頁(yè)標(biāo)題所在的文本塊開始,向前搜索12個(gè)文字塊,當(dāng)查詢到當(dāng)前文本塊符合頁(yè)面導(dǎo)航正則表達(dá)式時(shí),例如,“新華體育 > 正文”,則確定當(dāng)前文本塊為頁(yè)面導(dǎo)航所在的文本塊,“新華體育> ”即為頁(yè)面導(dǎo)航。
      可選的,在頁(yè)面導(dǎo)航所在的文本塊之前,根據(jù)所述文檔樹結(jié)構(gòu)的包含LOGO關(guān)鍵字的IMG標(biāo)簽,確定網(wǎng)站LOGO。具體的,基于頁(yè)面導(dǎo)航所在的文本塊,向前搜索5個(gè)文本塊,一旦發(fā)現(xiàn)含有“l(fā)ogo”字樣的<img>標(biāo)簽,即作為網(wǎng)站LOGO。
      可選的,在所述網(wǎng)頁(yè)標(biāo)題所在的文本塊之后,根據(jù)日期正則表達(dá)式,確定新聞發(fā)布時(shí)間;日期正則表達(dá)式可以為\\d{2,4} [-\\u5E74/\\. ]
      \\d[-\\u6708/\\.]
      \\d\\u65E5 (\\s) (
      \\d(:
      \\d) {1,2}) 。從網(wǎng)頁(yè)標(biāo)題所在的文本塊開始,向后搜索第一個(gè)匹配日期正則表達(dá)式的文本塊,即可以確定新聞發(fā)布時(shí)間。 此正則表達(dá)式可以匹配下列日期格式第一,YYYY年麗月DD日hh:mm,例如,2012年02月 17日09時(shí)30分;第二,YYYY年MM月DD日hh:mm:ss,例如,2012年02月17日09時(shí)30 分 30 秒;第三,YYYY-MM-DDhh :mm,例如,2012 年 02 月 17 日 09 時(shí) 30 分;第四,YYYY-MM-DD hh:mm:ss,例如,2012 年 02 月 17 日 09 時(shí) 30 分 30 秒;第五,YYYY/MM/DD/hh:mm,例如,2012 年 02 月 17 日 09 時(shí) 30 分;第六,YYYY/MM/DD/hh:mm:ssJi^n,2012 年 02 月 17 日 09 時(shí) 30 分30秒ο
      可選的,在所述新聞`發(fā)布時(shí)間所在的文本塊之后,根據(jù)“來(lái)源”關(guān)鍵字,或者所述新聞發(fā)布時(shí)間所在的文本塊之后的第一個(gè)文字串,確定新聞來(lái)源。例如,新聞發(fā)布時(shí)間所在的文本塊之后的第一個(gè)文字串為京華時(shí)報(bào),則新聞來(lái)源為京華日?qǐng)?bào)。
      步驟211,根據(jù)所述文檔樹結(jié)構(gòu)的文本塊的文字密度、鏈接密度和文字?jǐn)?shù),確定當(dāng)前文本塊的網(wǎng)頁(yè)內(nèi)容為正文或者非正文。
      所述文本塊的屬性包括所述文本塊的網(wǎng)頁(yè)內(nèi)容為正文,或者所述文本塊的網(wǎng)頁(yè)內(nèi) 容非正文。具體的,如圖3所示,根據(jù)所述文檔樹結(jié)構(gòu)的文本塊的文字密度、鏈接密度和文 字?jǐn)?shù),確定當(dāng)前文本塊的網(wǎng)頁(yè)內(nèi)容為正文或者非正文包括
      301,判斷當(dāng)前文本塊的文字密度是否大于等于文字密度下限值。
      其中,文字密度下限值可以為O. 6,文字密度下限值為根據(jù)多次試驗(yàn)獲得。
      當(dāng)所述當(dāng)前文本塊的文字密度小于漢字密度下限值時(shí),執(zhí)行步驟302,當(dāng)所述當(dāng)前 文本塊的文字密度大于等于漢字密度下限值時(shí),執(zhí)行步驟303。
      302,確定所述當(dāng)前文本塊的網(wǎng)頁(yè)內(nèi)容為非正文。
      303,判斷當(dāng)前文本塊的鏈接文字密度是否小于第一鏈接文字密度上限值。
      其中,第一鏈接文字密度上限值可以為O. 5,第一鏈接文字密度上限值為根據(jù)多次 試驗(yàn)獲得。
      當(dāng)所述當(dāng)前文本塊的鏈接文字密度小于第一鏈接文字密度上限值時(shí),則執(zhí)行步驟 304,當(dāng)所述當(dāng)前文本塊的鏈接文字密度大于等于第一鏈接文字密度上限值時(shí),則執(zhí)行步驟 309。
      304,判斷前一個(gè)文本塊中鏈接文字密度是否小于第二鏈接文字密度上限值。
      其中,第二鏈接文字密度上限值可以為O. 555556,第二鏈接文字密度上限值為根 據(jù)多次試驗(yàn)獲得。
      當(dāng)所述前一個(gè)文本塊中連接文字密度小于第二鏈接文字密度上限值時(shí),則執(zhí)行步 驟305,當(dāng)所述前一個(gè)文本塊中連接文字密度大于等于第二鏈接文字密度上限值時(shí),則執(zhí)行 步驟310。
      305,判斷當(dāng)前文本塊的文字?jǐn)?shù)是否小于第一文字?jǐn)?shù)下限值。
      第一文字?jǐn)?shù)下限值可以為3,即文本塊中包含的文字?jǐn)?shù)為3個(gè)漢字。第一文字?jǐn)?shù)下 限值為根據(jù)多次試驗(yàn)獲得。
      當(dāng)所述當(dāng)前文本塊的文字?jǐn)?shù)小于第一文字?jǐn)?shù)下限值時(shí),則執(zhí)行步驟306,當(dāng)所述當(dāng) 前文本塊的文字?jǐn)?shù)大于等于第一文字?jǐn)?shù)下限值時(shí),則執(zhí)行步驟308,即確定當(dāng)前文本塊的網(wǎng) 頁(yè)內(nèi)容為正文。
      306,判斷后一個(gè)文本塊的文字?jǐn)?shù)是否小于第二文字?jǐn)?shù)下限值。
      第二文字?jǐn)?shù)下限值可以為5,即文本塊中包含的文字?jǐn)?shù)為5個(gè)漢字。第二文字?jǐn)?shù)下 限值為根據(jù)多次試驗(yàn)獲得。
      當(dāng)所述后一個(gè)文本塊的文字?jǐn)?shù)小于第二文字?jǐn)?shù)下限值時(shí),則執(zhí)行步驟307,當(dāng)所述 后一個(gè)文本塊的文字?jǐn)?shù)大于等于第二文字?jǐn)?shù)下限值時(shí),則執(zhí)行步驟312。
      307,判斷前一個(gè)文本塊的文字?jǐn)?shù)是否小于第三文字?jǐn)?shù)下限值。
      第三文字?jǐn)?shù)下限值可以為3,即文本塊中包含的文字?jǐn)?shù)為3個(gè)漢字。第三文字?jǐn)?shù)下 限值為根據(jù)多次試驗(yàn)獲得。
      當(dāng)所述前一個(gè)文本塊的文字?jǐn)?shù)小于所述第三文字?jǐn)?shù)下限值時(shí),則執(zhí)行步驟302,即 確定所述當(dāng)前文本塊的網(wǎng)頁(yè)內(nèi)容為非正文;當(dāng)所述前一個(gè)文本塊的文字?jǐn)?shù)大于等于所述第 三文字?jǐn)?shù)下限值時(shí),則執(zhí)行步驟308。
      308,確定當(dāng)前文本塊的網(wǎng)頁(yè)內(nèi)容為正文。
      309,當(dāng)前一個(gè)文本塊的網(wǎng)頁(yè)內(nèi)容為正文時(shí),判斷所述當(dāng)前文本塊中鏈接的文字?jǐn)?shù) 的平均值是否小于文字?jǐn)?shù)上限值;
      此步驟為當(dāng)所述當(dāng)前文本塊的鏈接文字密度大于等于第一鏈接文字密度上限值 時(shí),并且當(dāng)前一個(gè)文本塊的網(wǎng)頁(yè)內(nèi)容為正文時(shí),判斷當(dāng)前文本塊中鏈接的文字?jǐn)?shù)的平均值 是否小于文字?jǐn)?shù)上限值;
      文字?jǐn)?shù)上限值可以為5,文字?jǐn)?shù)上限值為根據(jù)多次試驗(yàn)獲得。
      當(dāng)所述當(dāng)前文本塊中鏈接的文字?jǐn)?shù)的平均值小于文字?jǐn)?shù)上限值時(shí),則執(zhí)行步驟 308,即確定所述當(dāng)前文本塊的網(wǎng)頁(yè)內(nèi)容為正文;
      當(dāng)所述當(dāng)前文本塊中鏈接的文字?jǐn)?shù)的平均值大于等于文字?jǐn)?shù)上限值時(shí),則執(zhí)行步 驟302,確定所述當(dāng)前文本塊的網(wǎng)頁(yè)內(nèi)容為非正文。
      310,判斷當(dāng)前文本塊的文字?jǐn)?shù)是否小于等于第四文字?jǐn)?shù)下限值。
      此步驟為當(dāng)所述當(dāng)前文本塊的鏈接文字密度大于等于所述第一鏈接文字密度上 限值時(shí),繼續(xù)判斷所述當(dāng)前文本塊的文字?jǐn)?shù)是否小于等于第四文字?jǐn)?shù)下限值。第四文字?jǐn)?shù) 下限值可以為30,第四文字?jǐn)?shù)下限值為根據(jù)多次試驗(yàn)獲得。其中,第四文字?jǐn)?shù)下限值為網(wǎng)頁(yè) 內(nèi)容抽取時(shí)對(duì)于漢字的統(tǒng)計(jì)口徑,字?jǐn)?shù)大于30個(gè)漢字的文本塊,就被認(rèn)為是正文。
      當(dāng)所述當(dāng)前文本塊的文字?jǐn)?shù)大于第四文字?jǐn)?shù)下限值時(shí),則執(zhí)行步驟308,即確定所 述當(dāng)前文本塊的網(wǎng)頁(yè)內(nèi)容為正文;
      當(dāng)所述當(dāng)前文本塊的文字?jǐn)?shù)小于等于第四文字?jǐn)?shù)下限值時(shí),則執(zhí)行步驟311。
      311,判斷所述前一個(gè)文本塊或者所述后一個(gè)文本塊的文字?jǐn)?shù)是否小于等于第五 文字?jǐn)?shù)下限值;
      第五文字?jǐn)?shù)下限值可以為17,第五文字?jǐn)?shù)下限值為根據(jù)經(jīng)驗(yàn)獲得。
      當(dāng)所述前一個(gè)文本塊或者后一個(gè)文本塊的文字?jǐn)?shù)小于等于第五文字?jǐn)?shù)下限值時(shí), 則執(zhí)行步驟302,即確定所述當(dāng)前文本塊的網(wǎng)頁(yè)內(nèi)容為非正文;
      當(dāng)所述前一個(gè)文本塊或者后一個(gè)文本塊的文字?jǐn)?shù)大于第五文字?jǐn)?shù)下限值時(shí),則執(zhí) 行步驟308,即確定所述當(dāng)前文本塊的網(wǎng)頁(yè)內(nèi)容為正文。
      312,判斷前一個(gè)文本塊的網(wǎng)頁(yè)內(nèi)容是否為正文。
      本步驟中,當(dāng)所述后一個(gè)文本塊的文字?jǐn)?shù)大于等于第二文字?jǐn)?shù)下限值時(shí),判斷所 述前一個(gè)文本塊的網(wǎng)頁(yè)內(nèi)容是否為正文;
      當(dāng)前一個(gè)文本塊的網(wǎng)頁(yè)內(nèi)容為正文時(shí),則執(zhí)行步驟308,確定所述當(dāng)前文本塊的網(wǎng) 頁(yè)內(nèi)容為正文;
      當(dāng)前一個(gè)文本塊的網(wǎng)頁(yè)內(nèi)容為非正文時(shí),則執(zhí)行步驟302,確定所述當(dāng)前文本塊的 網(wǎng)頁(yè)內(nèi)容為非正文。
      當(dāng)確定了當(dāng)前文本塊的網(wǎng)頁(yè)內(nèi)容為正文或者非正文之后,繼續(xù)執(zhí)行步驟212。
      步驟212,根據(jù)網(wǎng)頁(yè)標(biāo)題所在的文本塊,確定網(wǎng)頁(yè)標(biāo)題所在的文本塊之前的網(wǎng)頁(yè)內(nèi) 容為非正文。
      可選的,首先定位在網(wǎng)頁(yè)標(biāo)題所在的文本塊,然后將網(wǎng)頁(yè)標(biāo)題之前的網(wǎng)頁(yè)內(nèi)容標(biāo) 記為非正文。確定網(wǎng)頁(yè)標(biāo)題所在的文本塊之前的網(wǎng)頁(yè)內(nèi)容為非正文后,過(guò)濾掉網(wǎng)頁(yè)標(biāo)題所 在文本塊之前的內(nèi)容,這樣可以有效過(guò)濾標(biāo)題之前的無(wú)用信息,例如各個(gè)頻道信息、廣告等坐 寸ο
      步驟213,根據(jù)所述文檔樹結(jié)構(gòu)的文本塊中包含的網(wǎng)頁(yè)正文結(jié)束特征詞,確定包含 所述特征詞的文本塊之后的網(wǎng)頁(yè)內(nèi)容為非正文。
      可選的,統(tǒng)計(jì)網(wǎng)頁(yè)正文結(jié)束的特征詞,生成語(yǔ)料庫(kù)。例如,網(wǎng)頁(yè)正文結(jié)束的特征詞 包括分享到、責(zé)任編輯、聲明等。判斷文檔樹結(jié)構(gòu)的各個(gè)文本塊的網(wǎng)頁(yè)內(nèi)容中是否包含所 述語(yǔ)料庫(kù)中的特征詞;當(dāng)文檔樹結(jié)構(gòu)的第一文本塊的網(wǎng)頁(yè)內(nèi)容中包含所述語(yǔ)料庫(kù)中的特征 詞時(shí),確定所述第一文本塊為網(wǎng)頁(yè)正文結(jié)束文本塊,并確定所述網(wǎng)頁(yè)正文結(jié)束文本塊之后 的網(wǎng)頁(yè)內(nèi)容為非正文,這樣,有效地去除了正文之后的信息,例如廣告、相關(guān)新聞鏈接以及 其他欄目等無(wú)用的信息。這里第一文本塊為文檔樹結(jié)構(gòu)的各個(gè)文本塊中的任意一個(gè),“第 一”不是為了對(duì)文本塊進(jìn)行排序,而是為了方便描述。
      在確定包含所述特征詞的文本塊之后的網(wǎng)頁(yè)內(nèi)容為非正文之后,過(guò)濾掉網(wǎng)頁(yè)正文 結(jié)束文本塊之后的網(wǎng)頁(yè)內(nèi)容。
      步驟214,將含有圖片的文本塊與緊鄰所述含有圖片的文本塊之后的網(wǎng)頁(yè)內(nèi)容為 正文的文本塊合并為一個(gè)正文文本塊。
      在步驟211中,將含有MG標(biāo)簽的文本標(biāo)記為非正文,因此需要抽取圖片時(shí),需要 將圖片所在的文本塊保留下來(lái),因此可以將含有圖片的文本塊與其后一個(gè)正文文本塊合并 為一個(gè)新的正文文本塊,這樣在抽取網(wǎng)頁(yè)內(nèi)容時(shí)可以將圖片一起抽取出來(lái),方便快捷的完 成抽取操作。
      步驟215,刪除網(wǎng)頁(yè)內(nèi)容為非正文的文本塊;
      網(wǎng)頁(yè)內(nèi)容為非正文的文本塊為進(jìn)行網(wǎng)頁(yè)內(nèi)容抽取時(shí)無(wú)用的文本塊,因此刪除這些 文本塊,有利于后續(xù)對(duì)正文內(nèi)容的抽取。
      需要說(shuō)明的是,當(dāng)經(jīng)過(guò)步驟209-步驟215的處理之后,僅正文文本塊保留下來(lái)。
      步驟216,還原所述正文文本塊的HTML標(biāo)簽,獲得格式化后的網(wǎng)頁(yè)正文;
      由于正文文本塊中含有網(wǎng)頁(yè)源碼的地址信息,因此根據(jù)該地址信息可以確定正文 文本塊前后的HTML標(biāo)簽,例如P標(biāo)簽、DIV標(biāo)簽等等。將這些標(biāo)簽還原,作為格式化后的正 文,以便在顯示時(shí)采用。
      步驟217,將所述網(wǎng)頁(yè)正文中的轉(zhuǎn)義字符普通文本形式進(jìn)行解碼,恢復(fù)轉(zhuǎn)義字符的 功能;
      此步驟執(zhí)行的操作為步驟203執(zhí)行的操作的反操作,即恢復(fù)轉(zhuǎn)義字符的功能。
      步驟218,將所述網(wǎng)頁(yè)正文中的IMG標(biāo)簽普通文本形式進(jìn)行解碼,恢復(fù)IMG標(biāo)簽的 功能;
      此步驟為可選步驟,當(dāng)步驟205存在時(shí),則執(zhí)行此步驟,當(dāng)步驟205不存在時(shí),則不 執(zhí)行此步驟。
      步驟219,將所述網(wǎng)頁(yè)正文中的鏈接添加轉(zhuǎn)碼應(yīng)用的前綴。
      本步驟中,將網(wǎng)頁(yè)正文中的鏈接添加轉(zhuǎn)碼應(yīng)用的前綴,可以使得點(diǎn)擊網(wǎng)頁(yè)正文中 的任意一個(gè)鏈接時(shí),發(fā)送的訪問(wèn)請(qǐng)求都由轉(zhuǎn)碼應(yīng)用進(jìn)行處理,以實(shí)現(xiàn)網(wǎng)頁(yè)轉(zhuǎn)碼的閉環(huán)操作。 也就是說(shuō),點(diǎn)擊網(wǎng)頁(yè)正文中的任意一個(gè)鏈接之后,顯示的二級(jí)頁(yè)面為根據(jù)本發(fā)明提供的方 法處理之后的網(wǎng)頁(yè)正文。
      步驟220,根據(jù)所述網(wǎng)頁(yè)標(biāo)題、所述網(wǎng)頁(yè)元素以及所述網(wǎng)頁(yè)正文,獲取網(wǎng)頁(yè)全文,并 以獨(dú)立接口的形式顯示所述網(wǎng)頁(yè)全文。
      本發(fā)明實(shí)施例提供一種網(wǎng)頁(yè)內(nèi)容抽取的方法,通過(guò)文本樹結(jié)構(gòu)中的TITLE標(biāo)簽, 確定網(wǎng)頁(yè)標(biāo)題,再根據(jù)網(wǎng)頁(yè)標(biāo)題確定網(wǎng)頁(yè)其他元素,例如網(wǎng)站LOGO、頁(yè)面導(dǎo)航、新聞發(fā)布時(shí) 間、新聞來(lái)源等。根據(jù)網(wǎng)頁(yè)標(biāo)題,將網(wǎng)頁(yè)標(biāo)題之前的網(wǎng)頁(yè)內(nèi)容標(biāo)記為非正文刪除,將正文之 后的網(wǎng)頁(yè)內(nèi)容根據(jù)網(wǎng)頁(yè)結(jié)束的特征詞確定正文結(jié)束文本塊之后的網(wǎng)頁(yè)內(nèi)容為非正文,然后 刪除。使得在進(jìn)行網(wǎng)頁(yè)內(nèi)容抽取時(shí),抽取網(wǎng)頁(yè)標(biāo)題、網(wǎng)頁(yè)元素以及網(wǎng)頁(yè)內(nèi)容為正文的正文文 本塊,獲取網(wǎng)頁(yè)全文,可以準(zhǔn)確抽取網(wǎng)頁(yè)標(biāo)題以及網(wǎng)頁(yè)中各個(gè)元素,提升了中文網(wǎng)頁(yè)正文抽 取的完整性、格式一致性、無(wú)用信息分離度,從而獲得了較高的正文判定準(zhǔn)確率,并且增強(qiáng) 了抽取中文網(wǎng)頁(yè)內(nèi)容的亂碼問(wèn)題,增強(qiáng)了圖片處理。
      實(shí)施例2
      本發(fā)明實(shí)施例提供一種網(wǎng)頁(yè)內(nèi)容抽取的裝置,如圖4所示,該裝置包括轉(zhuǎn)換單元 401,網(wǎng)頁(yè)標(biāo)題確定單元402,網(wǎng)頁(yè)元素確定單元403,文本塊屬性確定單元404,網(wǎng)頁(yè)全文獲 取單元405 ;
      轉(zhuǎn)換單元401,用于將HTML源碼轉(zhuǎn)換為對(duì)應(yīng)的文檔樹結(jié)構(gòu);
      網(wǎng)頁(yè)標(biāo)題確定單元402,用于根據(jù)所述文檔樹結(jié)構(gòu)的TITLE標(biāo)簽,確定網(wǎng)頁(yè)標(biāo)題;
      網(wǎng)頁(yè)元素確定單元403,用于根據(jù)所述網(wǎng)頁(yè)標(biāo)題,確定網(wǎng)頁(yè)中的網(wǎng)頁(yè)元素,所述網(wǎng) 頁(yè)元素至少包括網(wǎng)站LOGO、頁(yè)面導(dǎo)航、新聞發(fā)布時(shí)間、新聞來(lái)源;
      文本塊屬性確定單元404,用于根據(jù)所述網(wǎng)頁(yè)標(biāo)題,以及所述文檔樹結(jié)構(gòu)的文本塊 的密度和文字?jǐn)?shù),確定各個(gè)文本塊的屬性,所述文本塊的屬性包括所述文本塊的網(wǎng)頁(yè)內(nèi)容 為正文,或者所述文本塊的網(wǎng)頁(yè)內(nèi)容非正文;
      網(wǎng)頁(yè)全文獲取單元405,用于抽取所述網(wǎng)頁(yè)標(biāo)題、所述網(wǎng)頁(yè)元素以及所述網(wǎng)頁(yè)內(nèi)容 為正文的正文文本塊,獲取網(wǎng)頁(yè)全文。
      進(jìn)一步可選的,如圖5所示,所述裝置還包括網(wǎng)頁(yè)編碼信息獲取單元406,編碼單 元 407 ;
      在轉(zhuǎn)換單元401將HTML源碼轉(zhuǎn)換為對(duì)應(yīng)的文檔樹結(jié)構(gòu)之后,在網(wǎng)頁(yè)標(biāo)題確定單元 402根據(jù)所述文檔樹結(jié)構(gòu)的TITLE標(biāo)簽,確定網(wǎng)頁(yè)標(biāo)題之前,網(wǎng)頁(yè)編碼信息獲取單元406根 據(jù)所述文檔樹結(jié)構(gòu)中的Head部屬性“ht tp-equiv”的值為“Content-Type”的META標(biāo)簽, 獲取網(wǎng)頁(yè)編碼信息。
      編碼單元407,用于將所述文檔樹結(jié)構(gòu)的轉(zhuǎn)義字符進(jìn)行編碼,獲得轉(zhuǎn)義字符普通文 本形式;
      所述編碼單元407,還用于當(dāng)需要抽取圖片時(shí),將所述文檔樹結(jié)構(gòu)的MG標(biāo)簽進(jìn)行 編碼,獲得MG標(biāo)簽普通文本形式。
      進(jìn)一步可選的,如圖5所示,所述網(wǎng)頁(yè)標(biāo)題確定單元402包括獲取模塊4021,提 取模塊4022,確定模塊4023 ;
      獲取模塊4021,用于根據(jù)所述文檔樹結(jié)構(gòu)的TITLE標(biāo)簽,和/或,根據(jù)所述文檔樹 結(jié)構(gòu)屬性“name”的值為“description”的META標(biāo)簽,獲得第一網(wǎng)頁(yè)標(biāo)題信息;
      提取模塊4022,用于根據(jù)所述第一網(wǎng)頁(yè)標(biāo)題信息,提取第二網(wǎng)頁(yè)標(biāo)題信息;
      確定模塊4023,用于根據(jù)所述第二網(wǎng)頁(yè)標(biāo)題信息,遍歷所述文檔樹結(jié)構(gòu)中的body 標(biāo)簽中包括的所有文本塊,當(dāng)確定第二文本塊中的網(wǎng)頁(yè)內(nèi)容與所述第二網(wǎng)頁(yè)標(biāo)題信息相匹 配時(shí),則將所述第二文本塊的網(wǎng)頁(yè)內(nèi)容標(biāo)記為網(wǎng)頁(yè)標(biāo)題,所述第二文本塊為網(wǎng)頁(yè)標(biāo)題所在的文本塊。
      進(jìn)一步可選的,如圖5所示,所述網(wǎng)頁(yè)元素確定單元403,用于
      在所述網(wǎng)頁(yè)標(biāo)題所在的文本塊之前,根據(jù)頁(yè)面導(dǎo)航正則表達(dá)式確定頁(yè)面導(dǎo)航;
      在所述頁(yè)面導(dǎo)航所在的文本塊之前,根據(jù)所述文檔樹結(jié)構(gòu)的包含LOGO關(guān)鍵字的 MG標(biāo)簽,確定網(wǎng)站LOGO ;
      在所述網(wǎng)頁(yè)標(biāo)題所在的文本塊之后,根據(jù)日期正則表達(dá)式,確定新聞發(fā)布時(shí)間;
      在所述新聞發(fā)布時(shí)間所在的文本塊之后,根據(jù)“來(lái)源”關(guān)鍵字,或者所述新聞發(fā)布 時(shí)間所在的文本塊之后的第一個(gè)文字串,確定新聞來(lái)源。
      進(jìn)一步可選的,如圖5所示,所述文本塊屬性確定單元404,包括第一確定模塊 4041,第二確定模塊4042,第三確定模塊4043 ;
      其中,文本塊的密度包括文字密度和鏈接密度;第一確定模塊4041,用于根據(jù)所 述文檔樹結(jié)構(gòu)的文本塊的文字密度、鏈接密度和文字?jǐn)?shù),確定當(dāng)前文本塊的網(wǎng)頁(yè)內(nèi)容為正 文或者非正文;
      第二確定模塊4042,用于根據(jù)所述網(wǎng)頁(yè)標(biāo)題,確定所述網(wǎng)頁(yè)標(biāo)題之前的網(wǎng)頁(yè)內(nèi)容 為非正文;
      第三確定模塊4043,用于根據(jù)所述文檔樹結(jié)構(gòu)的文本塊中包含的網(wǎng)頁(yè)正文結(jié)束特 征詞,確定包含所述特征詞的文本塊之后的網(wǎng)頁(yè)內(nèi)容為非正文。
      進(jìn)一步可選的,如圖6所不,第一確定模塊4041包括第一判斷子模塊601,第一 確定子模塊602,第二判斷子模塊603,第三判斷子模塊604,第四判斷子模塊605,第二確定 子模塊606,第五判斷子模塊607,第六判斷子模塊608,第七判斷子模塊609,第八判斷子模 塊610,第九判斷子模塊611,第十判斷子模塊612;
      第一判斷子模塊601,用于判斷所述當(dāng)前文本塊的文字密度是否大于等于文字密 度下限值;
      當(dāng)所述當(dāng)前文本塊的文字密度小于漢字密度下限值時(shí),第一確定子模塊602,確定 所述當(dāng)前文本塊的網(wǎng)頁(yè)內(nèi)容為非正文。
      當(dāng)所述當(dāng)前文本塊的文字密度大于等于漢字密度下限值時(shí),第二判斷子模塊603, 用于判斷所述當(dāng)前文本塊的鏈接文字密度是否小于第一鏈接文字密度上限值;
      第三判斷子模塊604,用于當(dāng)所述當(dāng)前文本塊的鏈接文字密度小于所述第一鏈接 文字密度上限值時(shí),判斷前一個(gè)文本塊中鏈接文字密度是否小于第二鏈接文字密度上限 值;
      當(dāng)所述前一個(gè)文本塊中連接文字密度小于所述第二鏈接文字密度上限值時(shí),第四 判斷子模塊605,用于判斷所述當(dāng)前文本塊的文字?jǐn)?shù)是否小于第一文字?jǐn)?shù)下限值;
      當(dāng)所述當(dāng)前文本塊的文字?jǐn)?shù)大于等于所述第一文字?jǐn)?shù)下限值時(shí),第二確定子模塊 606,用于確定所述當(dāng)前文本塊的網(wǎng)頁(yè)內(nèi)容為正文。
      當(dāng)所述當(dāng)前文本塊的文字?jǐn)?shù)小于所述第一文字?jǐn)?shù)下限值時(shí),第五判斷子模塊607, 用于判斷后一個(gè)文本塊的文字?jǐn)?shù)是否小于第二文字?jǐn)?shù)下限值;
      當(dāng)所述后一個(gè)文本塊的文字?jǐn)?shù)小于所述第二文字?jǐn)?shù)下限值時(shí),第六判斷子模塊 608,用于判斷所述前一個(gè)文本塊的文字?jǐn)?shù)是否小于第三文字?jǐn)?shù)下限值;
      當(dāng)所述前一個(gè)文本塊的文字?jǐn)?shù)小于所述第三文字?jǐn)?shù)下限值時(shí),第一確定子模塊602,用于確定所述當(dāng)前文本塊的網(wǎng)頁(yè)內(nèi)容為非正文;
      第二確定子模塊606,用于當(dāng)所述前一個(gè)文本塊的文字?jǐn)?shù)大于等于所述第三文字 數(shù)下限值時(shí),確定所述當(dāng)前文本塊的網(wǎng)頁(yè)內(nèi)容為正文。
      當(dāng)所述當(dāng)前文本塊的鏈接文字密度大于等于所述第一鏈接文字密度上限值時(shí),并 且當(dāng)所述前一個(gè)文本塊的網(wǎng)頁(yè)內(nèi)容為正文時(shí),第七判斷子模塊609,用于判斷所述當(dāng)前文本 塊中鏈接的文字?jǐn)?shù)的平均值是否小于文字?jǐn)?shù)上限值;
      當(dāng)所述當(dāng)前文本塊中鏈接的文字?jǐn)?shù)的平均值小于文字?jǐn)?shù)上限值時(shí),第二確定子模 塊606,用于確定所述當(dāng)前文本塊的網(wǎng)頁(yè)內(nèi)容為正文;
      當(dāng)所述當(dāng)前文本塊中鏈接的文字?jǐn)?shù)的平均值大于等于文字?jǐn)?shù)上限值時(shí),第一確定 子模塊602,用于確定所述當(dāng)前文本塊的網(wǎng)頁(yè)內(nèi)容為非正文。
      當(dāng)所述當(dāng)前文本塊的鏈接文字密度大于等于所述第一鏈接文字密度上限值時(shí),第 八判斷子模塊610,用于判斷所述當(dāng)前文本塊的文字?jǐn)?shù)是否小于等于第四文字?jǐn)?shù)下限值;
      當(dāng)所述當(dāng)前文本塊的文字?jǐn)?shù)大于所述第四文字?jǐn)?shù)下限值時(shí),第二確定子模塊606, 用于確定所述當(dāng)前文本塊的網(wǎng)頁(yè)內(nèi)容為正文;
      當(dāng)所述當(dāng)前文本塊的文字?jǐn)?shù)小于等于所述第四文字?jǐn)?shù)下限值時(shí),第九判斷子模塊 611,用于判斷所述前一個(gè)文本塊或者所述后一個(gè)文本塊的文字?jǐn)?shù)是否小于等于第五文字 數(shù)下限值;
      第一確定子模塊602,用于當(dāng)所述前一個(gè)文本塊或者后一個(gè)文本塊的文字?jǐn)?shù)小于 等于所述第五文字?jǐn)?shù)下限值時(shí),確定所述當(dāng)前文本塊的網(wǎng)頁(yè)內(nèi)容為非正文;
      第二確定子模塊606,用于當(dāng)所述前一個(gè)文本塊或者后一個(gè)文本塊的文字?jǐn)?shù)大于 所述第五文字?jǐn)?shù)下限值時(shí),確定所述當(dāng)前文本塊的網(wǎng)頁(yè)內(nèi)容為正文。
      當(dāng)所述后一個(gè)文本塊的文字?jǐn)?shù)大于等于所述第二文字?jǐn)?shù)下限值時(shí),第十判斷子模 塊612,用于判斷所述前一個(gè)文本塊的網(wǎng)頁(yè)內(nèi)容是否為正文;
      當(dāng)所述前一個(gè)文本塊的網(wǎng)頁(yè)內(nèi)容為正文時(shí),第二確定子模塊606,用于確定所述當(dāng) 前文本塊的網(wǎng)頁(yè)內(nèi)容為正文;
      當(dāng)所述前一個(gè)文本塊的網(wǎng)頁(yè)內(nèi)容為非正文時(shí),第一確定子模塊602,用于確定所述 當(dāng)前文本塊的網(wǎng)頁(yè)內(nèi)容為非正文。
      進(jìn)一步可選的,如圖7所示,所述第三確定模塊4043包括統(tǒng)計(jì)子模塊701,判斷 子模塊702,確定子模塊703 ;
      統(tǒng)計(jì)子模塊701,用于統(tǒng)計(jì)網(wǎng)頁(yè)正文結(jié)束的特征詞,生成語(yǔ)料庫(kù);
      判斷子模塊702,用于判斷所述文檔樹結(jié)構(gòu)的各個(gè)文本塊的網(wǎng)頁(yè)內(nèi)容中是否包含 所述語(yǔ)料庫(kù)中的特征詞;
      確定子模塊703,用于當(dāng)所述文檔樹結(jié)構(gòu)的第一文本塊的網(wǎng)頁(yè)內(nèi)容中包含所述語(yǔ) 料庫(kù)中的特征詞時(shí),確定所述第一文本塊為網(wǎng)頁(yè)正文結(jié)束文本塊,并確定所述網(wǎng)頁(yè)正文結(jié) 束文本塊之后的網(wǎng)頁(yè)內(nèi)容為非正文。
      進(jìn)一步可選的,如圖5所示,所述裝置還包括合并單元408,刪除單元409,還原單 元410,解碼單元411,添加單元412 ;
      在所述網(wǎng)頁(yè)全文獲取單元405抽取所述網(wǎng)頁(yè)標(biāo)題、所述網(wǎng)頁(yè)元素以及所述網(wǎng)頁(yè)內(nèi) 容為正文的正文文本塊,獲取網(wǎng)頁(yè)全文之前,合并單元408,用于將含有圖片的文本塊與緊鄰所述含有圖片的文本塊之后的網(wǎng)頁(yè)內(nèi)容為正文的文本塊合并為一個(gè)正文文本塊。
      刪除單元409,用于刪除網(wǎng)頁(yè)內(nèi)容為非正文的文本塊;
      還原單元410,用于還原所述正文文本塊的HTML標(biāo)簽,獲得格式化后的網(wǎng)頁(yè)正文;
      解碼單元411,用于將所述網(wǎng)頁(yè)正文中的轉(zhuǎn)義字符普通文本形式進(jìn)行解碼,恢復(fù)轉(zhuǎn) 義字符的功能;
      所述解碼單元411,還用于將所述網(wǎng)頁(yè)正文中的MG標(biāo)簽普通文本形式進(jìn)行解碼, 恢復(fù)MG標(biāo)簽的功能;
      添加單元412,用于將所述網(wǎng)頁(yè)正文中的鏈接添加轉(zhuǎn)碼應(yīng)用的前綴。
      進(jìn)一步可選的,所述網(wǎng)頁(yè)全文獲取單元405用于
      根據(jù)所述網(wǎng)頁(yè)標(biāo)題、所述網(wǎng)頁(yè)元素以及所述網(wǎng)頁(yè)正文,獲取網(wǎng)頁(yè)全文,并以獨(dú)立接 口的形式顯示所述網(wǎng)頁(yè)全文。
      需要說(shuō)明的是,附圖4、附圖5、附圖6以及附圖7所示裝置中,其各個(gè)模塊的具體 實(shí)施過(guò)程以及各個(gè)模塊之間的信息交互等內(nèi)容,由于與本發(fā)明方法實(shí)施例基于同一發(fā)明構(gòu) 思,可以參見方法實(shí)施例,在此不一一贅述。
      本發(fā)明實(shí)施例提供一種網(wǎng)頁(yè)內(nèi)容抽取的裝置,通過(guò)網(wǎng)頁(yè)標(biāo)題確定單元根據(jù)文本樹 結(jié)構(gòu)中的TITLE標(biāo)簽,確定網(wǎng)頁(yè)標(biāo)題,再根據(jù)網(wǎng)頁(yè)標(biāo)題網(wǎng)頁(yè)元素確定單元確定網(wǎng)頁(yè)其他元 素,例如網(wǎng)站LOGO、頁(yè)面導(dǎo)航、新聞發(fā)布時(shí)間、新聞來(lái)源等。文本塊屬性確定單元根據(jù)網(wǎng)頁(yè)標(biāo) 題,將網(wǎng)頁(yè)標(biāo)題之前的網(wǎng)頁(yè)內(nèi)容標(biāo)記為非正文刪除,將正文之后的網(wǎng)頁(yè)內(nèi)容根據(jù)網(wǎng)頁(yè)結(jié)束 的特征詞確定正文結(jié)束文本塊之后的網(wǎng)頁(yè)內(nèi)容為非正文,然后刪除。使得網(wǎng)頁(yè)全文獲取單 元在進(jìn)行網(wǎng)頁(yè)內(nèi)容抽取時(shí),抽取網(wǎng)頁(yè)標(biāo)題、網(wǎng)頁(yè)元素以及網(wǎng)頁(yè)內(nèi)容為正文的正文文本塊,獲 取網(wǎng)頁(yè)全文,可以準(zhǔn)確抽取網(wǎng)頁(yè)標(biāo)題以及網(wǎng)頁(yè)中各個(gè)元素,提升了中文網(wǎng)頁(yè)正文抽取的完 整性、格式一致性、無(wú)用信息分離度,從而獲得了較高的正文判定準(zhǔn)確率,并且增強(qiáng)了抽取 中文網(wǎng)頁(yè)內(nèi)容的亂碼問(wèn)題,增強(qiáng)了圖片處理。
      以上所述,僅為本發(fā)明的具體實(shí)施方式
      ,但本發(fā)明的保護(hù)范圍并不局限于此,任何 熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到變化或替換,都應(yīng)涵 蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)所述以權(quán)利要求的保護(hù)范圍為準(zhǔn)。
      權(quán)利要求
      1.一種網(wǎng)頁(yè)內(nèi)容抽取的方法,其特征在于,包括 將超文本標(biāo)記語(yǔ)言HTML源碼轉(zhuǎn)換為對(duì)應(yīng)的文檔樹結(jié)構(gòu),并根據(jù)所述文檔樹結(jié)構(gòu)的標(biāo)題TITLE標(biāo)簽,確定網(wǎng)頁(yè)標(biāo)題; 根據(jù)所述網(wǎng)頁(yè)標(biāo)題,確定網(wǎng)頁(yè)中的網(wǎng)頁(yè)元素,所述網(wǎng)頁(yè)元素至少包括網(wǎng)站商標(biāo)LOGO、頁(yè)面導(dǎo)航、新聞發(fā)布時(shí)間、新聞來(lái)源; 根據(jù)所述網(wǎng)頁(yè)標(biāo)題,以及所述文檔樹結(jié)構(gòu)的文本塊的密度和文字?jǐn)?shù),確定各個(gè)文本塊的屬性,所述文本塊的屬性包括所述文本塊的網(wǎng)頁(yè)內(nèi)容為正文,或者所述文本塊的網(wǎng)頁(yè)內(nèi)容非正文; 抽取所述網(wǎng)頁(yè)標(biāo)題、所述網(wǎng)頁(yè)元素以及所述網(wǎng)頁(yè)內(nèi)容為正文的正文文本塊,獲取網(wǎng)頁(yè)全文。
      2.根據(jù)權(quán)利要求1所述網(wǎng)頁(yè)內(nèi)容抽取的方法,其特征在于,文本塊的密度包括文字密度和鏈接密度; 所述根據(jù)所述網(wǎng)頁(yè)標(biāo)題,以及所述文檔樹結(jié)構(gòu)的文本塊的密度和文字?jǐn)?shù),確定各個(gè)文本塊的屬性包括 根據(jù)所述文檔樹結(jié)構(gòu)的文本塊的文字密度、鏈接密度和文字?jǐn)?shù),確定當(dāng)前文本塊的網(wǎng)頁(yè)內(nèi)容為正文或者非正文; 根據(jù)所述網(wǎng)頁(yè)標(biāo)題,確定所述網(wǎng)頁(yè)標(biāo)題之前的網(wǎng)頁(yè)內(nèi)容為非正文; 根據(jù)所述文檔樹結(jié)構(gòu)的文本塊中包含的網(wǎng)頁(yè)正文結(jié)束特征詞,確定包含所述特征詞的文本塊之后的網(wǎng)頁(yè)內(nèi)容為非正文。
      3.根據(jù)權(quán)利要求2所述網(wǎng)頁(yè)內(nèi)容抽取的方法,其特征在于,所述根據(jù)所述文檔樹結(jié)構(gòu)的文本塊的文字密度、鏈接密度和文字?jǐn)?shù),確定當(dāng)前文本塊的網(wǎng)頁(yè)內(nèi)容為正文或者非正文包括 判斷所述當(dāng)前文本塊的文字密度是否大于等于文字密度下限值; 當(dāng)所述當(dāng)前文本塊的文字密度大于等于漢字密度下限值時(shí),判斷所述當(dāng)前文本塊的鏈接文字密度是否小于第一鏈接文字密度上限值; 當(dāng)所述當(dāng)前文本塊的鏈接文字密度小于所述第一鏈接文字密度上限值時(shí),判斷前一個(gè)文本塊中鏈接文字密度是否小于第二鏈接文字密度上限值; 當(dāng)所述前一個(gè)文本塊中連接文字密度小于所述第二鏈接文字密度上限值時(shí),判斷所述當(dāng)前文本塊的文字?jǐn)?shù)是否小于第一文字?jǐn)?shù)下限值; 當(dāng)所述當(dāng)前文本塊的文字?jǐn)?shù)小于所述第一文字?jǐn)?shù)下限值時(shí),判斷后一個(gè)文本塊的文字?jǐn)?shù)是否小于第二文字?jǐn)?shù)下限值; 當(dāng)所述后一個(gè)文本塊的文字?jǐn)?shù)小于所述第二文字?jǐn)?shù)下限值時(shí),判斷所述前一個(gè)文本塊的文字?jǐn)?shù)是否小于第三文字?jǐn)?shù)下限值; 當(dāng)所述前一個(gè)文本塊的文字?jǐn)?shù)小于所述第三文字?jǐn)?shù)下限值時(shí),確定所述當(dāng)前文本塊的網(wǎng)頁(yè)內(nèi)容為非正文; 當(dāng)所述前一個(gè)文本塊的文字?jǐn)?shù)大于等于所述第三文字?jǐn)?shù)下限值時(shí),確定所述當(dāng)前文本塊的網(wǎng)頁(yè)內(nèi)容為正文。
      4.根據(jù)權(quán)利要求3所述網(wǎng)頁(yè)內(nèi)容抽取的方法,其特征在于, 當(dāng)所述當(dāng)前文本塊的文字密度小于漢字密度下限值時(shí),確定所述當(dāng)前文本塊的網(wǎng)頁(yè)內(nèi)容為非正文。
      5.根據(jù)權(quán)利要求3所述網(wǎng)頁(yè)內(nèi)容抽取的方法,其特征在于, 當(dāng)所述當(dāng)前文本塊的鏈接文字密度大于等于所述第一鏈接文字密度上限值時(shí),并且當(dāng)所述前一個(gè)文本塊的網(wǎng)頁(yè)內(nèi)容為正文時(shí),判斷所述當(dāng)前文本塊中鏈接的文字?jǐn)?shù)的平均值是否小于文字?jǐn)?shù)上限值; 當(dāng)所述當(dāng)前文本塊中鏈接的文字?jǐn)?shù)的平均值小于文字?jǐn)?shù)上限值時(shí),確定所述當(dāng)前文本塊的網(wǎng)頁(yè)內(nèi)容為正文; 當(dāng)所述當(dāng)前文本塊中鏈接的文字?jǐn)?shù)的平均值大于等于文字?jǐn)?shù)上限值時(shí),確定所述當(dāng)前文本塊的網(wǎng)頁(yè)內(nèi)容為非正文。
      6.根據(jù)權(quán)利要求3所述網(wǎng)頁(yè)內(nèi)容抽取的方法,其特征在于, 當(dāng)所述當(dāng)前文本塊的鏈接文字密度大于等于所述第一鏈接文字密度上限值時(shí),判斷所述當(dāng)前文本塊的文字?jǐn)?shù)是否小于等于第四文字?jǐn)?shù)下限值; 當(dāng)所述當(dāng)前文本塊的文字?jǐn)?shù)大于所述第四文字?jǐn)?shù)下限值時(shí),確定所述當(dāng)前文本塊的網(wǎng)頁(yè)內(nèi)容為正文; 當(dāng)所述當(dāng)前文本塊的文字?jǐn)?shù)小于等于所述第四文字?jǐn)?shù)下限值時(shí),判斷所述前一個(gè)文本塊或者所述后一個(gè)文本塊的文字?jǐn)?shù)是否小于等于第五文字?jǐn)?shù)下限值; 當(dāng)所述前一個(gè)文本塊或者后一個(gè)文本塊的文字?jǐn)?shù)小于等于所述第五文字?jǐn)?shù)下限值時(shí),確定所述當(dāng)前文本塊的網(wǎng)頁(yè)內(nèi)容為非正文; 當(dāng)所述前一個(gè)文本塊或者后一個(gè)文本塊的文字?jǐn)?shù)大于所述第五文字?jǐn)?shù)下限值時(shí),確定所述當(dāng)前文本塊的網(wǎng)頁(yè)內(nèi)容為正文。
      7.根據(jù)權(quán)利要求3所述網(wǎng)頁(yè)內(nèi)容抽取的方法,其特征在于, 當(dāng)所述當(dāng)前文本塊的文字?jǐn)?shù)大于等于所述第一文字?jǐn)?shù)下限值時(shí),確定所述當(dāng)前文本塊的網(wǎng)頁(yè)內(nèi)容為正文。
      8.根據(jù)權(quán)利要求3所述網(wǎng)頁(yè)內(nèi)容抽取的方法,其特征在于, 當(dāng)所述后一個(gè)文本塊的文字?jǐn)?shù)大于等于所述第二文字?jǐn)?shù)下限值時(shí),判斷所述前一個(gè)文本塊的網(wǎng)頁(yè)內(nèi)容是否為正文; 當(dāng)所述前一個(gè)文本塊的網(wǎng)頁(yè)內(nèi)容為正文時(shí),確定所述當(dāng)前文本塊的網(wǎng)頁(yè)內(nèi)容為正文; 當(dāng)所述前一個(gè)文本塊的網(wǎng)頁(yè)內(nèi)容為非正文時(shí),確定所述當(dāng)前文本塊的網(wǎng)頁(yè)內(nèi)容為非正文。
      9.根據(jù)權(quán)利要求2所述網(wǎng)頁(yè)內(nèi)容抽取的方法,其特征在于,所述根據(jù)所述文檔樹結(jié)構(gòu)的文本塊中包含的網(wǎng)頁(yè)正文結(jié)束特征詞,確定包含所述特征詞的文本塊之后的網(wǎng)頁(yè)內(nèi)容為非正文包括 統(tǒng)計(jì)網(wǎng)頁(yè)正文結(jié)束的特征詞,生成語(yǔ)料庫(kù); 判斷所述文檔樹結(jié)構(gòu)的各個(gè)文本塊的網(wǎng)頁(yè)內(nèi)容中是否包含所述語(yǔ)料庫(kù)中的特征詞; 當(dāng)所述文檔樹結(jié)構(gòu)的第一文本塊的網(wǎng)頁(yè)內(nèi)容中包含所述語(yǔ)料庫(kù)中的特征詞時(shí),確定所述第一文本塊為網(wǎng)頁(yè)正文結(jié)束文本塊,并確定所述網(wǎng)頁(yè)正文結(jié)束文本塊之后的網(wǎng)頁(yè)內(nèi)容為非正文。
      10.根據(jù)權(quán)利要求1所述網(wǎng)頁(yè)內(nèi)容抽取的方法,其特征在于,在所述根據(jù)所述文檔樹結(jié)構(gòu)的TITLE標(biāo)簽,確定網(wǎng)頁(yè)標(biāo)題之前,還包括將所述文檔樹結(jié)構(gòu)的轉(zhuǎn)義字符進(jìn)行編碼,獲得轉(zhuǎn)義字符普通文本形式; 當(dāng)需要抽取圖片時(shí),將所述文檔樹結(jié)構(gòu)的IMG標(biāo)簽進(jìn)行編碼,獲得IMG標(biāo)簽普通文本形式。
      11.根據(jù)權(quán)利要求10所述網(wǎng)頁(yè)內(nèi)容抽取的方法,其特征在于,在將所述文檔樹結(jié)構(gòu)的轉(zhuǎn)義字符進(jìn)行編碼,獲得轉(zhuǎn)義字符普通文本形式之前,還包括 根據(jù)所述文檔樹結(jié)構(gòu)中的Head部屬性“http-equiv”的值為“Content-Type”的META標(biāo)簽,獲取網(wǎng)頁(yè)編碼信息; 根據(jù)所述網(wǎng)頁(yè)編碼信息,執(zhí)行所述網(wǎng)頁(yè)內(nèi)容抽取,獲取所述網(wǎng)頁(yè)全文。
      12.根據(jù)權(quán)利要求1所述網(wǎng)頁(yè)內(nèi)容抽取的方法,其特征在于,所述根據(jù)所述文檔樹結(jié)構(gòu)的TITLE標(biāo)簽,確定網(wǎng)頁(yè)標(biāo)題包括 根據(jù)所述文檔樹結(jié)構(gòu)的TITLE標(biāo)簽,和/或,根據(jù)所述文檔樹結(jié)構(gòu)屬性“name”的值為“description”的META標(biāo)簽,獲得第一網(wǎng)頁(yè)標(biāo)題信息; 根據(jù)所述第一網(wǎng)頁(yè)標(biāo)題信息,提取第二網(wǎng)頁(yè)標(biāo)題信息; 根據(jù)所述第二網(wǎng)頁(yè)標(biāo)題信息,遍歷所述文檔樹結(jié)構(gòu)中的body標(biāo)簽中包括的所有文本塊,當(dāng)確定第二文本塊中的網(wǎng)頁(yè)內(nèi)容與所述第二網(wǎng)頁(yè)標(biāo)題信息相匹配時(shí),則將所述第二文本塊的網(wǎng)頁(yè)內(nèi)容標(biāo)記為網(wǎng)頁(yè)標(biāo)題,所述第二文本塊為網(wǎng)頁(yè)標(biāo)題所在的文本塊。
      13.根據(jù)權(quán)利要求1所述網(wǎng)頁(yè)內(nèi)容抽取的方法,其特征在于,所述根據(jù)所述網(wǎng)頁(yè)標(biāo)題,確定網(wǎng)頁(yè)中的網(wǎng)頁(yè)元素,所述網(wǎng)頁(yè)元素至少包括網(wǎng)站LOGO、頁(yè)面導(dǎo)航、新聞發(fā)布時(shí)間、新聞來(lái)源包括 在所述網(wǎng)頁(yè)標(biāo)題所在的文本塊之前,根據(jù)頁(yè)面導(dǎo)航正則表達(dá)式確定頁(yè)面導(dǎo)航; 在所述頁(yè)面導(dǎo)航所在的文本塊之前,根據(jù)所述文檔樹結(jié)構(gòu)的包含LOGO關(guān)鍵字的IMG標(biāo)簽,確定網(wǎng)站LOGO; 在所述網(wǎng)頁(yè)標(biāo)題所在的文本塊之后,根據(jù)日期正則表達(dá)式,確定新聞發(fā)布時(shí)間; 在所述新聞發(fā)布時(shí)間所在的文本塊之后,根據(jù)“來(lái)源”關(guān)鍵字,或者所述新聞發(fā)布時(shí)間所在的文本塊之后的第一個(gè)文字串,確定新聞來(lái)源。
      14.根據(jù)權(quán)利要求10所述網(wǎng)頁(yè)內(nèi)容抽取的方法,其特征在于,在所述抽取所述網(wǎng)頁(yè)標(biāo)題、所述網(wǎng)頁(yè)元素以及所述網(wǎng)頁(yè)內(nèi)容為正文的正文文本塊,獲取網(wǎng)頁(yè)全文之前,還包括 將含有圖片的文本塊與緊鄰所述含有圖片的文本塊之后的網(wǎng)頁(yè)內(nèi)容為正文的文本塊合并為一個(gè)正文文本塊。
      15.根據(jù)權(quán)利要求10所述網(wǎng)頁(yè)內(nèi)容抽取的方法,在所述抽取所述網(wǎng)頁(yè)標(biāo)題、所述網(wǎng)頁(yè)元素以及所述網(wǎng)頁(yè)內(nèi)容為正文的正文文本塊,獲取網(wǎng)頁(yè)全文之前,還包括 刪除網(wǎng)頁(yè)內(nèi)容為非正文的文本塊; 還原所述正文文本塊的HTML標(biāo)簽,獲得格式化后的網(wǎng)頁(yè)正文; 將所述網(wǎng)頁(yè)正文中的轉(zhuǎn)義字符普通文本形式進(jìn)行解碼,恢復(fù)轉(zhuǎn)義字符的功能; 將所述網(wǎng)頁(yè)正文中的頂G標(biāo)簽普通文本形式進(jìn)行解碼,恢復(fù)MG標(biāo)簽的功能; 將所述網(wǎng)頁(yè)正文中的鏈接添加轉(zhuǎn)碼應(yīng)用的前綴。
      16.根據(jù)權(quán)利要求1-15中任一項(xiàng)所述網(wǎng)頁(yè)內(nèi)容抽取的方法,所述抽取所述網(wǎng)頁(yè)標(biāo)題、所述網(wǎng)頁(yè)元素以及所述網(wǎng)頁(yè)內(nèi)容為正文的正文文本塊,獲取網(wǎng)頁(yè)全文包括 根據(jù)所述網(wǎng)頁(yè)標(biāo)題、所述網(wǎng)頁(yè)元素以及所述網(wǎng)頁(yè)正文,獲取網(wǎng)頁(yè)全文,并以獨(dú)立接口的形式顯示所述網(wǎng)頁(yè)全文。
      17.—種網(wǎng)頁(yè)內(nèi)容抽取的裝置,其特征在于,包括 轉(zhuǎn)換單元,用于將HTML源碼轉(zhuǎn)換為對(duì)應(yīng)的文檔樹結(jié)構(gòu); 網(wǎng)頁(yè)標(biāo)題確定單元,用于根據(jù)所述文檔樹結(jié)構(gòu)的TITLE標(biāo)簽,確定網(wǎng)頁(yè)標(biāo)題; 網(wǎng)頁(yè)元素確定單元,用于根據(jù)所述網(wǎng)頁(yè)標(biāo)題,確定網(wǎng)頁(yè)中的網(wǎng)頁(yè)元素,所述網(wǎng)頁(yè)元素至少包括網(wǎng)站LOGO、頁(yè)面導(dǎo)航、新聞發(fā)布時(shí)間、新聞來(lái)源; 文本塊屬性確定單元,用于根據(jù)所述網(wǎng)頁(yè)標(biāo)題,以及所述文檔樹結(jié)構(gòu)的文本塊的密度和文字?jǐn)?shù),確定各個(gè)文本塊的屬性,所述文本塊的屬性包括所述文本塊的網(wǎng)頁(yè)內(nèi)容為正文,或者所述文本塊的網(wǎng)頁(yè)內(nèi)容非正文; 網(wǎng)頁(yè)全文獲取單元,用于抽取所述網(wǎng)頁(yè)標(biāo)題、所述網(wǎng)頁(yè)元素以及所述網(wǎng)頁(yè)內(nèi)容為正文的正文文本塊,獲取網(wǎng)頁(yè)全文。
      18.根據(jù)權(quán)利要求17所述網(wǎng)頁(yè)內(nèi)容抽取的裝置,其特征在于,文本塊的密度包括文字密度和鏈接密度; 所述文本塊屬性確定單元,包括 第一確定模塊,用于根據(jù)所述文檔樹結(jié)構(gòu)的文本塊的文字密度、鏈接密度和文字?jǐn)?shù),確定當(dāng)前文本塊的網(wǎng)頁(yè)內(nèi)容為正文或者非正文; 第二確定模塊,用于根據(jù)所述網(wǎng)頁(yè)標(biāo)題,確定所述網(wǎng)頁(yè)標(biāo)題之前的網(wǎng)頁(yè)內(nèi)容為非正文; 第三確定模塊,用于根據(jù)所述文檔樹結(jié)構(gòu)的文本塊中包含的網(wǎng)頁(yè)正文結(jié)束特征詞,確定包含所述特征詞的文本塊之后的網(wǎng)頁(yè)內(nèi)容為非正文。
      19.根據(jù)權(quán)利要求18所述網(wǎng)頁(yè)內(nèi)容抽取的裝置,其特征在于,所述第一確定模塊包括 第一判斷子模塊,用于判斷所述當(dāng)前文本塊的文字密度是否大于等于文字密度下限值; 第二判斷子模塊,用于當(dāng)所述當(dāng)前文本塊的文字密度大于等于漢字密度下限值時(shí),判斷所述當(dāng)前文本塊的鏈接文字密度是否小于第一鏈接文字密度上限值; 第三判斷子模塊,用于當(dāng)所述當(dāng)前文本塊的鏈接文字密度小于所述第一鏈接文字密度上限值時(shí),判斷前一個(gè)文本塊中鏈接文字密度是否小于第二鏈接文字密度上限值; 第四判斷子模塊,用于當(dāng)所述前一個(gè)文本塊中連接文字密度小于所述第二鏈接文字密度上限值時(shí),判斷所述當(dāng)前文本塊的文字?jǐn)?shù)是否小于第一文字?jǐn)?shù)下限值; 第五判斷子模塊,用于當(dāng)所述當(dāng)前文本塊的文字?jǐn)?shù)小于所述第一文字?jǐn)?shù)下限值時(shí),判斷后一個(gè)文本塊的文字?jǐn)?shù)是否小于第二文字?jǐn)?shù)下限值; 第六判斷子模塊,用于當(dāng)所述后一個(gè)文本塊的文字?jǐn)?shù)小于所述第二文字?jǐn)?shù)下限值時(shí),判斷所述前一個(gè)文本塊的文字?jǐn)?shù)是否小于第三文字?jǐn)?shù)下限值; 第一確定子模塊,用于當(dāng)所述前一個(gè)文本塊的文字?jǐn)?shù)小于所述第三文字?jǐn)?shù)下限值時(shí),確定所述當(dāng)前文本塊的網(wǎng)頁(yè)內(nèi)容為非正文; 第二確定子模塊,用于當(dāng)所述前一個(gè)文本塊的文字?jǐn)?shù)大于等于所述第三文字?jǐn)?shù)下限值時(shí),確定所述當(dāng)前文本塊的網(wǎng)頁(yè)內(nèi)容為正文。
      20.根據(jù)權(quán)利要求19所述網(wǎng)頁(yè)內(nèi)容抽取的裝置,其特征在于,所述第一確定模塊,還包括所述第一確定子模塊,用于當(dāng)所述當(dāng)前文本塊的文字密度小于漢字密度下限值時(shí),確定所述當(dāng)前文本塊的網(wǎng)頁(yè)內(nèi)容為非正文。
      21.根據(jù)權(quán)利要求19所述網(wǎng)頁(yè)內(nèi)容抽取的裝置,其特征在于,所述第一確定模塊,還包括 第七判斷子模塊,用于當(dāng)所述當(dāng)前文本塊的鏈接文字密度大于等于所述第一鏈接文字密度上限值時(shí),并且當(dāng)所述前一個(gè)文本塊的網(wǎng)頁(yè)內(nèi)容為正文時(shí),判斷所述當(dāng)前文本塊中鏈接的文字?jǐn)?shù)的平均值是否小于文字?jǐn)?shù)上限值; 所述第二確定子模塊,用于當(dāng)所述當(dāng)前文本塊中鏈接的文字?jǐn)?shù)的平均值小于文字?jǐn)?shù)上限值時(shí),確定所述當(dāng)前文本塊的網(wǎng)頁(yè)內(nèi)容為正文; 所述第一確定子模塊,用于當(dāng)所述當(dāng)前文本塊中鏈接的文字?jǐn)?shù)的平均值大于等于文字?jǐn)?shù)上限值時(shí),確定所述當(dāng)前文本塊的網(wǎng)頁(yè)內(nèi)容為非正文。
      22.根據(jù)權(quán)利要求19所述網(wǎng)頁(yè)內(nèi)容抽取的裝置,其特征在于,所述第一確定模塊,還包括 第八判斷子模塊,用于當(dāng)所述當(dāng)前文本塊的鏈接文字密度大于等于所述第一鏈接文字密度上限值時(shí),判斷所述當(dāng)前文本塊的文字?jǐn)?shù)是否小于等于第四文字?jǐn)?shù)下限值; 所述第二確定子模塊,用于當(dāng)所述當(dāng)前文本塊的文字?jǐn)?shù)大于所述第四文字?jǐn)?shù)下限值時(shí),確定所述當(dāng)前文本塊的網(wǎng)頁(yè)內(nèi)容為正文; 第九判斷子模塊,用于當(dāng)所述當(dāng)前文本塊的文字?jǐn)?shù)小于等于所述第四文字?jǐn)?shù)下限值時(shí),判斷所述前一個(gè)文本塊或者所述后一個(gè)文本塊的文字?jǐn)?shù)是否小于等于第五文字?jǐn)?shù)下限值; 所述第一確定子模塊,用于當(dāng)所述前一個(gè)文本塊或者后一個(gè)文本塊的文字?jǐn)?shù)小于等于所述第五文字?jǐn)?shù)下限值時(shí),確定所述當(dāng)前文本塊的網(wǎng)頁(yè)內(nèi)容為非正文; 所述第二確定子模塊,用于當(dāng)所述前一個(gè)文本塊或者后一個(gè)文本塊的文字?jǐn)?shù)大于所述第五文字?jǐn)?shù)下限值時(shí),確定所述當(dāng)前文本塊的網(wǎng)頁(yè)內(nèi)容為正文。
      23.根據(jù)權(quán)利要求19所述網(wǎng)頁(yè)內(nèi)容抽取的裝置,其特征在于,所述第一確定模塊,還包括 所述第二確定子模塊,用于當(dāng)所述當(dāng)前文本塊的文字?jǐn)?shù)大于等于所述第一文字?jǐn)?shù)下限值時(shí),確定所述當(dāng)前文本塊的網(wǎng)頁(yè)內(nèi)容為正文。
      24.根據(jù)權(quán)利要求19所述網(wǎng)頁(yè)內(nèi)容抽取的裝置,其特征在于,所述第一確定模塊,還包括 第十判斷子模塊,用于當(dāng)所述后一個(gè)文本塊的文字?jǐn)?shù)大于等于所述第二文字?jǐn)?shù)下限值時(shí),判斷所述前一個(gè)文本塊的網(wǎng)頁(yè)內(nèi)容是否為正文; 所述第二確定子模塊,用于當(dāng)所述前一個(gè)文本塊的網(wǎng)頁(yè)內(nèi)容為正文時(shí),確定所述當(dāng)前文本塊的網(wǎng)頁(yè)內(nèi)容為正文; 所述第一確定子模塊,用于當(dāng)所述前一個(gè)文本塊的網(wǎng)頁(yè)內(nèi)容為非正文時(shí),確定所述當(dāng)前文本塊的網(wǎng)頁(yè)內(nèi)容為非正文。
      25.根據(jù)權(quán)利要求18所述網(wǎng)頁(yè)內(nèi)容抽取的裝置,其特征在于,所述第三確定模塊包括 統(tǒng)計(jì)子模塊,用于統(tǒng)計(jì)網(wǎng)頁(yè)正文結(jié)束的特征詞,生成語(yǔ)料庫(kù); 判斷子模塊,用于判斷所述文檔樹結(jié)構(gòu)的各個(gè)文本塊的網(wǎng)頁(yè)內(nèi)容中是否包含所述語(yǔ)料庫(kù)中的特征詞; 確定子模塊,用于當(dāng)所述文檔樹結(jié)構(gòu)的第一文本塊的網(wǎng)頁(yè)內(nèi)容中包含所述語(yǔ)料庫(kù)中的特征詞時(shí),確定所述第一文本塊為網(wǎng)頁(yè)正文結(jié)束文本塊,并確定所述網(wǎng)頁(yè)正文結(jié)束文本塊之后的網(wǎng)頁(yè)內(nèi)容為非正文。
      26.根據(jù)權(quán)利要求17所述網(wǎng)頁(yè)內(nèi)容抽取的裝置,其特征在于,所述裝置還包括 編碼單元,用于將所述文檔樹結(jié)構(gòu)的轉(zhuǎn)義字符進(jìn)行編碼,獲得轉(zhuǎn)義字符普通文本形式; 所述編碼單元,還用于當(dāng)需要抽取圖片時(shí),將所述文檔樹結(jié)構(gòu)的IMG標(biāo)簽進(jìn)行編碼,獲得MG標(biāo)簽普通文本形式。
      27.根據(jù)權(quán)利要求26所述網(wǎng)頁(yè)內(nèi)容抽取的裝置,其特征在于,所述裝置還包括 網(wǎng)頁(yè)編碼信息獲取單元,用于根據(jù)所述文檔樹結(jié)構(gòu)中的Head部屬性“http-equiv”的值為“Content-Type”的META標(biāo)簽,獲取網(wǎng)頁(yè)編碼信息。
      28.根據(jù)權(quán)利要求17所述網(wǎng)頁(yè)內(nèi)容抽取的裝置,其特征在于,所述網(wǎng)頁(yè)標(biāo)題確定單元包括 獲取模塊,用于根據(jù)所述文檔樹結(jié)構(gòu)的TITLE標(biāo)簽,和/或,根據(jù)所述文檔樹結(jié)構(gòu)屬性“name”的值為“description”的META標(biāo)簽,獲得第一網(wǎng)頁(yè)標(biāo)題信息; 提取模塊,用于根據(jù)所述第一網(wǎng)頁(yè)標(biāo)題信息,提取第二網(wǎng)頁(yè)標(biāo)題信息; 確定模塊,用于根據(jù)所述第二網(wǎng)頁(yè)標(biāo)題信息,遍歷所述文檔樹結(jié)構(gòu)中的body標(biāo)簽中包括的所有文本塊,當(dāng)確定第二文本塊中的網(wǎng)頁(yè)內(nèi)容與所述第二網(wǎng)頁(yè)標(biāo)題信息相匹配時(shí),則將所述第二文本塊的網(wǎng)頁(yè)內(nèi)容標(biāo)記為網(wǎng)頁(yè)標(biāo)題,所述第二文本塊為網(wǎng)頁(yè)標(biāo)題所在的文本塊。
      29.根據(jù)權(quán)利要求17所述網(wǎng)頁(yè)內(nèi)容抽取的裝置,其特征在于,所述網(wǎng)頁(yè)元素確定單元,用于 在所述網(wǎng)頁(yè)標(biāo)題所在的文本塊之前,根據(jù)頁(yè)面導(dǎo)航正則表達(dá)式確定頁(yè)面導(dǎo)航; 在所述頁(yè)面導(dǎo)航所在的文本塊之前,根據(jù)所述文檔樹結(jié)構(gòu)的包含LOGO關(guān)鍵字的IMG標(biāo)簽,確定網(wǎng)站LOGO; 在所述網(wǎng)頁(yè)標(biāo)題所在的文本塊之后,根據(jù)日期正則表達(dá)式,確定新聞發(fā)布時(shí)間; 在所述新聞發(fā)布時(shí)間所在的文本塊之后,根據(jù)“來(lái)源”關(guān)鍵字,或者所述新聞發(fā)布時(shí)間所在的文本塊之后的第一個(gè)文字串,確定新聞來(lái)源。
      30.根據(jù)權(quán)利要求26所述網(wǎng)頁(yè)內(nèi)容抽取的裝置,其特征在于,所述裝置還包括 合并單元,用于將含有圖片的文本塊與緊鄰所述含有圖片的文本塊之后的網(wǎng)頁(yè)內(nèi)容為正文的文本塊合并為一個(gè)正文文本塊。
      31.根據(jù)權(quán)利要求26所述網(wǎng)頁(yè)內(nèi)容抽取的裝置,所述裝置還包括 刪除單元,用于刪除網(wǎng)頁(yè)內(nèi)容為非正文的文本塊; 還原單元,用于還原所述正文文本塊的HTML標(biāo)簽,獲得格式化后的網(wǎng)頁(yè)正文; 解碼單元,用于將所述網(wǎng)頁(yè)正文中的轉(zhuǎn)義字符普通文本形式進(jìn)行解碼,恢復(fù)轉(zhuǎn)義字符的功能; 所述解碼單元,還用于將所述網(wǎng)頁(yè)正文中的MG標(biāo)簽普通文本形式進(jìn)行解碼,恢復(fù)IMG標(biāo)簽的功能;添加單元,用于將所述網(wǎng)頁(yè)正文中的鏈接添加轉(zhuǎn)碼應(yīng)用的前綴。
      32.根據(jù)權(quán)利要求17-31中任一項(xiàng)所述網(wǎng)頁(yè)內(nèi)容抽取的裝置,所述網(wǎng)頁(yè)全文獲取單元用于 根據(jù)所述網(wǎng)頁(yè)標(biāo)題、所述網(wǎng)頁(yè)元素以及所述網(wǎng)頁(yè)正文,獲取網(wǎng)頁(yè)全文,并以獨(dú)立接口的形式顯示所述網(wǎng)頁(yè)全文。
      全文摘要
      本發(fā)明公開一種網(wǎng)頁(yè)內(nèi)容抽取的方法及裝置,涉及信息技術(shù)領(lǐng)域,可以在進(jìn)行網(wǎng)頁(yè)內(nèi)容抽取時(shí),準(zhǔn)確抽取網(wǎng)頁(yè)標(biāo)題以及網(wǎng)頁(yè)中各個(gè)元素。本發(fā)明通過(guò)將HTML源碼轉(zhuǎn)換為對(duì)應(yīng)的文檔樹結(jié)構(gòu),并根據(jù)文檔樹結(jié)構(gòu)的TITLE標(biāo)簽,確定網(wǎng)頁(yè)標(biāo)題;根據(jù)網(wǎng)頁(yè)標(biāo)題,確定網(wǎng)頁(yè)中的網(wǎng)頁(yè)元素,網(wǎng)頁(yè)元素至少包括網(wǎng)站LOGO、頁(yè)面導(dǎo)航、新聞發(fā)布時(shí)間、新聞來(lái)源;根據(jù)網(wǎng)頁(yè)標(biāo)題,以及文檔樹結(jié)構(gòu)的文本塊的密度和文字?jǐn)?shù),確定各個(gè)文本塊的屬性;抽取所述網(wǎng)頁(yè)標(biāo)題、所述網(wǎng)頁(yè)元素以及所述網(wǎng)頁(yè)內(nèi)容為正文的正文文本塊,獲取網(wǎng)頁(yè)全文。本發(fā)明提供的方案適于進(jìn)行網(wǎng)頁(yè)內(nèi)容抽取時(shí)采用。
      文檔編號(hào)G06F17/27GK103064827SQ201310016689
      公開日2013年4月24日 申請(qǐng)日期2013年1月16日 優(yōu)先權(quán)日2013年1月16日
      發(fā)明者蘭晶, 徐慎昆 申請(qǐng)人:盤古文化傳播有限公司
      網(wǎng)友詢問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1