国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種新型的中文新聞頁(yè)面增量采集的方法及裝置的制作方法

      文檔序號(hào):6441965閱讀:188來源:國(guó)知局
      專利名稱:一種新型的中文新聞頁(yè)面增量采集的方法及裝置的制作方法
      技術(shù)領(lǐng)域
      本發(fā)明涉及信息檢索和數(shù)據(jù)集成領(lǐng)域,特別是涉及ー種新型的中文新聞頁(yè)面増量采集的方法及裝置。
      背景技術(shù)
      Web自上世紀(jì)90年代初誕生以來便以驚人的速度發(fā)展,到目前Web已經(jīng)成為了世界上最大的信息倉(cāng)庫(kù),覆蓋了現(xiàn)實(shí)世界的各個(gè)領(lǐng)域,成為了人類工作生活獲取信息主要途徑。Web信息的發(fā)布主要是以網(wǎng)頁(yè)的形式實(shí)現(xiàn),據(jù)最新的估計(jì),Web中網(wǎng)頁(yè)的數(shù)量已經(jīng)超過了 550個(gè)billion (I個(gè)billion等于10億)。顯然手工方式的訪問已經(jīng)無法滿足人們信息獲取的需要,為了讓人們更有效地訪問和利用Web中海量的信息,自上世紀(jì)90年代中期開始研究者們便開始了 Web信息捜索和集成領(lǐng)域的研究,同時(shí)產(chǎn)業(yè)界也出現(xiàn)了各種Web信息 捜索和集成相關(guān)的應(yīng)用,比如垂直搜索引擎、輿情分析等。這些應(yīng)用實(shí)現(xiàn)的ー個(gè)必要步驟就是先獲取所需信息所在的頁(yè)面然后將所需的信息從結(jié)構(gòu)化程度很差的網(wǎng)頁(yè)中準(zhǔn)確地抽取出來。Web中的新聞是指新聞網(wǎng)站(如新華網(wǎng))或門戶網(wǎng)站(如網(wǎng)易)以及其它擁有新聞發(fā)布和轉(zhuǎn)載權(quán)限的網(wǎng)站以網(wǎng)頁(yè)形式發(fā)布的新聞,是目前人們?cè)诨ヂ?lián)網(wǎng)上非常重要的信息獲取來源。新聞信息在Web信息中占有較大的比例。基于新聞信息產(chǎn)生了許多重要的應(yīng)用和研究課題,主要包括以下兩個(gè)方面(I)新聞搜索引擎面向新聞的垂直搜索引擎,從數(shù)量眾多的具有新聞發(fā)布權(quán)限的網(wǎng)站中獲取并集成新聞,可以為人們提供即時(shí)全面的對(duì)特定新聞事件的捜索。為了保證新聞信息的及時(shí)性和全面性,必然要能夠?qū)Υ罅康男侣勴?yè)面的及時(shí)處理,處理的前提當(dāng)然得先獲取新聞頁(yè)面。(2)輿情分析是近十年自然語言處理和信息檢索領(lǐng)域的熱點(diǎn)研究課題。其目標(biāo)是從連續(xù)的報(bào)道中識(shí)別出系統(tǒng)未知的話題以及與該話題相關(guān)的報(bào)道。其主要信息來源之一就是Web中發(fā)布的新聞信息。由上面對(duì)應(yīng)用的介紹可以看出,新聞信息是它們非常重要的數(shù)據(jù)來源之一,獲得新聞信息的前提是采集到新聞頁(yè)面。但由于Web中新聞網(wǎng)站數(shù)量眾多,而且新聞網(wǎng)站中每天會(huì)出現(xiàn)大量新的新聞頁(yè)面,如果每次將一個(gè)新聞網(wǎng)站中的所有新聞頁(yè)面都采集一遍,必然會(huì)造成大量重復(fù)頁(yè)面的采集,嚴(yán)重影響對(duì)信息處理的效率和檢索的質(zhì)量。因而,目前需要本領(lǐng)域技術(shù)人員迫切解決的ー個(gè)技術(shù)問題就是如何找到ー種新型的中文新聞頁(yè)面采集方法,能夠有效的解決目前中文新聞頁(yè)面采集方法中存在的因?yàn)橹貜?fù)采集新聞頁(yè)面而帶來的信息處理的效率低的缺陷。

      發(fā)明內(nèi)容
      本發(fā)明所要解決的ー個(gè)技術(shù)問題是提供ー種新型的中文新聞頁(yè)面增量采集的方法及裝置,能夠有效的解決目前中文新聞頁(yè)面采集方法中存在的因?yàn)橹貜?fù)采集新聞頁(yè)面而帶來的信息處理的效率低的缺陷。為了解決上述問題,本發(fā)明公開了ー種新型的中文新聞頁(yè)面增量采集的方法,包括對(duì)穩(wěn)定頁(yè)面進(jìn)行識(shí)別,獲得識(shí)別后的穩(wěn)定頁(yè)面;對(duì)新聞頁(yè)面分類器進(jìn)行相應(yīng)的操作,獲得生成的新聞頁(yè)面分類器;對(duì)新增頁(yè)面進(jìn)行采集,獲得采集后的新增頁(yè)面;對(duì)新聞頁(yè)面進(jìn)行識(shí)別,獲得識(shí)別后的新聞頁(yè)面。優(yōu)選的,所述對(duì)穩(wěn)定頁(yè)面進(jìn)行識(shí)別,獲得識(shí)別后的穩(wěn)定頁(yè)面的步驟,包括
      接收識(shí)別命令,開始對(duì)穩(wěn)定頁(yè)面進(jìn)行識(shí)別;指定新聞網(wǎng)站首頁(yè)的網(wǎng)址;選取時(shí)間點(diǎn)間隔相同的連續(xù)10個(gè)時(shí)間點(diǎn),獲得時(shí)間間隔相同的連續(xù)10個(gè)時(shí)間點(diǎn);其中,所述連續(xù)10個(gè)時(shí)間點(diǎn)的時(shí)間間隔能夠由用戶指定;在所述連續(xù)10個(gè)時(shí)間點(diǎn)的每個(gè)時(shí)間點(diǎn),對(duì)所述指定新聞網(wǎng)站的所有頁(yè)面進(jìn)行爬取,獲得相應(yīng)的連續(xù)10個(gè)時(shí)間點(diǎn)的每個(gè)時(shí)間點(diǎn)的頁(yè)面集合;依據(jù)所述每個(gè)時(shí)間點(diǎn)的頁(yè)面集合之間的鏈接關(guān)系,針對(duì)所述每個(gè)時(shí)間點(diǎn)的頁(yè)面集合,構(gòu)建所述每個(gè)時(shí)間點(diǎn)的頁(yè)面集合的有向圖,獲得連續(xù)10個(gè)時(shí)間點(diǎn)的每個(gè)時(shí)間點(diǎn)的頁(yè)面集合的有向圖;對(duì)所述連續(xù)10個(gè)時(shí)間點(diǎn)的每個(gè)時(shí)間點(diǎn)的頁(yè)面集合進(jìn)行頁(yè)面集合的交集操作,獲得相應(yīng)的交集集合;對(duì)所述獲得的相應(yīng)的交集集合中的每個(gè)頁(yè)面進(jìn)行判斷及識(shí)別,獲得識(shí)別后的穩(wěn)定頁(yè)面。優(yōu)選的,所述對(duì)所述獲得的相應(yīng)的交集集合中的每個(gè)頁(yè)面進(jìn)行判斷及識(shí)別,獲得識(shí)別后的穩(wěn)定頁(yè)面的步驟,包括接收判斷及識(shí)別命令,開始對(duì)所述獲得的相應(yīng)的交集集合中的每個(gè)頁(yè)面進(jìn)行判斷及識(shí)別;通過判斷所述新聞網(wǎng)站首頁(yè)到所述頁(yè)面集合中的頁(yè)面的最短途徑是否相同,來獲得相應(yīng)的判斷及識(shí)別結(jié)果;若所述新聞網(wǎng)站首頁(yè)到所述頁(yè)面集合中的頁(yè)面的最短途徑是相同的,則所述頁(yè)面集合中的該頁(yè)面為穩(wěn)定頁(yè)面,獲得識(shí)別后的穩(wěn)定頁(yè)面;若所述新聞網(wǎng)站首頁(yè)到所述頁(yè)面集合中的頁(yè)面的最短途徑是不相同的,則所述頁(yè)面集合中的該頁(yè)面不是穩(wěn)定頁(yè)面,繼續(xù)在所述頁(yè)面集合中尋找相應(yīng)的頁(yè)面,至到所述新聞網(wǎng)站首頁(yè)到所述頁(yè)面集合中的頁(yè)面的最短途徑是相同的,該頁(yè)面為穩(wěn)定頁(yè)面,停止尋找過程,該頁(yè)面為穩(wěn)定頁(yè)面,獲得識(shí)別后的穩(wěn)定頁(yè)面。優(yōu)選的,所述對(duì)新聞頁(yè)面分類器進(jìn)行相應(yīng)的操作,獲得生成的新聞頁(yè)面分類器的步驟,包括指定新聞網(wǎng)站首頁(yè)的網(wǎng)址;從所述新聞網(wǎng)站中選取相同數(shù)量的新聞頁(yè)面及非新聞頁(yè)面,獲得相應(yīng)的相同數(shù)量的新聞頁(yè)面及相同數(shù)量的非新聞頁(yè)面;其中,所述新聞頁(yè)面的數(shù)量及所述非新聞頁(yè)面的數(shù)量由用戶指定;采用ISUC算法進(jìn)行相應(yīng)的計(jì)算,獲得生成的新聞頁(yè)面分類器。
      優(yōu)選的,所述對(duì)新增頁(yè)面進(jìn)行采集,獲得采集后的新增頁(yè)面的步驟,包括接收頁(yè)面采集命令,開始對(duì)新增頁(yè)面進(jìn)行采集;對(duì)每ー個(gè)穩(wěn)定頁(yè)面進(jìn)行相應(yīng)的頁(yè)面鏈接進(jìn)行獲取,獲得針對(duì)所述每ー個(gè)穩(wěn)定頁(yè)面的相應(yīng)的當(dāng)前頁(yè)面鏈接;將所述獲得的當(dāng)前頁(yè)面鏈接加入到原始頁(yè)面鏈接集合中,獲得更新后的頁(yè)面鏈接集合;其中,若原始頁(yè)面鏈接集合不存在,則更新后的頁(yè)面鏈接集合為當(dāng)前頁(yè)面鏈接;依據(jù)所述更新后的頁(yè)面鏈接集合中的每個(gè)鏈接,獲得所述每個(gè)鏈接相應(yīng)的指向頁(yè)面,獲得所述每個(gè)鏈接相應(yīng)的指向頁(yè)面;將獲得的所述每個(gè)鏈接相應(yīng)的指向頁(yè)面放入原始頁(yè)面集合中,獲得采集后的新增頁(yè)面;每隔相同的時(shí)間間隔執(zhí)行從對(duì)每一個(gè)穩(wěn)定頁(yè)面進(jìn)行相應(yīng)的頁(yè)面鏈接進(jìn)行獲取,獲 得針對(duì)所述每ー個(gè)穩(wěn)定頁(yè)面的相應(yīng)的當(dāng)前頁(yè)面鏈接到將獲得的所述每個(gè)鏈接相應(yīng)的指向頁(yè)面放入原始頁(yè)面集合中,獲得采集后的新增頁(yè)面的操作的整個(gè)過程;其中,所述每個(gè)時(shí)間由客戶指定;當(dāng)執(zhí)行完所有的上述循環(huán)操作后,將每個(gè)循環(huán)過程中所獲得的采集后的新增頁(yè)面進(jìn)行匯總,獲得采集后的新增頁(yè)面。優(yōu)選的,所述對(duì)新聞頁(yè)面進(jìn)行識(shí)別,獲得識(shí)別后的新聞頁(yè)面的步驟,包括使用所述新聞頁(yè)面分類器,對(duì)新頁(yè)面集合中的每個(gè)頁(yè)面中的新聞頁(yè)面及非新聞頁(yè)面進(jìn)行識(shí)別,獲得相應(yīng)的頁(yè)面中的新聞頁(yè)面及相應(yīng)的頁(yè)面的非新聞頁(yè)面;將上述新聞頁(yè)面放入上述原始新增新聞頁(yè)面集合中,獲得更新后的新聞頁(yè)面集合;建立所述更新后的新聞頁(yè)面集合與新聞頁(yè)面的一一對(duì)應(yīng)的關(guān)系;依據(jù)所述更新后的新聞頁(yè)面集合與新聞頁(yè)面的一一對(duì)應(yīng)的關(guān)系,由所述更新后的新聞頁(yè)面集合,獲得識(shí)別后的新聞頁(yè)面。本發(fā)明還公開了ー種新型的中文新聞頁(yè)面增量采集的裝置,包括穩(wěn)定頁(yè)面獲取裝置,用于獲得一個(gè)時(shí)間段內(nèi)不同時(shí)間點(diǎn)的新聞網(wǎng)站的頁(yè)面鏈接結(jié)構(gòu);新聞頁(yè)面分類器生成裝置,用于通過人工標(biāo)注的頁(yè)面生成相應(yīng)的新聞頁(yè)面識(shí)別器;新增頁(yè)面采集裝置,用于從新聞網(wǎng)站中采集新增的頁(yè)面;新聞頁(yè)面識(shí)別裝置,用于通過新聞頁(yè)面識(shí)別器在新增頁(yè)面中對(duì)新聞頁(yè)面進(jìn)行識(shí)別;新聞頁(yè)面存儲(chǔ)裝置,用于存儲(chǔ)采集到的新增頁(yè)面。優(yōu)選的,所述穩(wěn)定頁(yè)面獲取裝置,包括獲取新聞網(wǎng)站的頁(yè)面鏈接結(jié)構(gòu)裝置,用于在多個(gè)特定時(shí)間點(diǎn)獲取新聞網(wǎng)站的頁(yè)面鏈接結(jié)構(gòu);獲取穩(wěn)定頁(yè)面裝置,用于通過比較不同時(shí)間點(diǎn)的新聞網(wǎng)站的頁(yè)面鏈接結(jié)構(gòu),獲得穩(wěn)定頁(yè)面。優(yōu)選的,所述新聞頁(yè)面分類器生成裝置,包括
      新聞頁(yè)面采集裝置,用于隨機(jī)在所要采集的新聞網(wǎng)站中選取足夠的頁(yè)面;標(biāo)注新聞頁(yè)面裝置,用于人工標(biāo)注所選取的頁(yè)面是否為新聞頁(yè)面;獲取新聞頁(yè)面分類器裝置,用于將標(biāo)注的頁(yè)面作為訓(xùn)練集,通過機(jī)器學(xué)習(xí)的方法,獲得新聞頁(yè)面分類器。優(yōu)選的,所述新增頁(yè)面采集裝置,包括頁(yè)面采集裝置,用于對(duì)新增的頁(yè)面進(jìn)行采集;獲取穩(wěn)定頁(yè)面的新增頁(yè)面裝置,用于獲取穩(wěn)定頁(yè)面指向的新增頁(yè)面;重復(fù)頁(yè)面清除裝置,用于將重復(fù)采集的頁(yè)面進(jìn)行清除。與現(xiàn)有技術(shù)相比,本發(fā)明具有以下優(yōu)點(diǎn) 本發(fā)明能夠避免大量中文新聞頁(yè)面的重復(fù)采集,大大地提高了信息處理的效率和檢索的質(zhì)量。總之,本發(fā)明提供了ー種新型的中文新聞頁(yè)面增量采集的方法及裝置,能夠有效的解決目前中文新聞頁(yè)面采集方法中存在的因?yàn)橹貜?fù)采集新聞頁(yè)面而帶來的信息處理的效率低的缺陷。


      圖I是本發(fā)明ー種新型的中文新聞頁(yè)面增量采集的方法實(shí)施例I的流程示意圖;圖2是本發(fā)明ー種新型的中文新聞頁(yè)面增量采集的方法實(shí)施例2的流程示意圖;圖3是本發(fā)明中新聞頁(yè)面增量采集整體框架的結(jié)構(gòu)示意圖;圖4是本發(fā)明中的步驟301即穩(wěn)定頁(yè)面的識(shí)別的流程示意圖;圖5是本發(fā)明中的步驟301中子步驟J3到子步驟J7的流程示意圖;圖6是本發(fā)明中的步驟302即新聞頁(yè)面分類器的生成的流程示意圖;圖7是本發(fā)明中的步驟303即新聞頁(yè)面分類器的生成的流程示意圖;圖8是本發(fā)明中的步驟304即新聞頁(yè)面的識(shí)別的流程示意圖;圖9是本發(fā)明ー種新型的中文新聞頁(yè)面增量采集的方法實(shí)施例3的t時(shí)刻新華網(wǎng)鏈接結(jié)構(gòu)示意圖;圖10是本發(fā)明ー種新型的中文新聞頁(yè)面增量采集的裝置的結(jié)構(gòu)示意圖;圖11是本發(fā)明ー種新型的中文新聞頁(yè)面增量采集的模塊的結(jié)構(gòu)示意圖。
      具體實(shí)施例方式為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能夠更加明顯易懂,下面結(jié)合附圖和具體實(shí)施方式
      對(duì)本發(fā)明作進(jìn)ー步詳細(xì)的說明。本發(fā)明的核心思想之ー是提供了ー種新型的中文新聞頁(yè)面增量采集的方法,包括對(duì)穩(wěn)定頁(yè)面進(jìn)行識(shí)別,獲得識(shí)別后的穩(wěn)定頁(yè)面;對(duì)新聞頁(yè)面分類器進(jìn)行相應(yīng)的操作,獲得生成的新聞頁(yè)面分類器;對(duì)新增頁(yè)面進(jìn)行采集,獲得采集后的新增頁(yè)面;對(duì)新聞頁(yè)面進(jìn)行識(shí)別,獲得識(shí)別后的新聞頁(yè)面;該方法能夠有效的解決目前中文新聞頁(yè)面采集方法中存在的因?yàn)橹貜?fù)采集新聞頁(yè)面而帶來的信息處理的效率低的缺陷。參照?qǐng)D1,示出了本發(fā)明ー種新型的中文新聞頁(yè)面增量采集的方法實(shí)施例I的流程示意圖,具體可以包括
      步驟101、對(duì)穩(wěn)定頁(yè)面進(jìn)行識(shí)別,獲得識(shí)別后的穩(wěn)定頁(yè)面。其中,所述步驟101,具體可以包括子步驟Al、接收識(shí)別命令,開始對(duì)穩(wěn)定頁(yè)面進(jìn)行識(shí)別。子步驟A2、指定新聞網(wǎng)站首頁(yè)的網(wǎng)址。子步驟A3、選取時(shí)間點(diǎn)間隔相同的連續(xù)10個(gè)時(shí)間點(diǎn),獲得時(shí)間間隔相同的連續(xù)10個(gè)時(shí)間點(diǎn);其中,所述連續(xù)10個(gè)時(shí)間點(diǎn)的時(shí)間間隔能夠由用戶指定。子步驟A4、在所述連續(xù)10個(gè)時(shí)間點(diǎn)的每個(gè)時(shí)間點(diǎn),對(duì)所述指定新聞網(wǎng)站的所有頁(yè)面進(jìn)行爬取,獲得相應(yīng)的連續(xù)10個(gè)時(shí)間點(diǎn)的每個(gè)時(shí)間點(diǎn)的頁(yè)面集合。子步驟A5、依據(jù)所述每個(gè)時(shí)間點(diǎn)的頁(yè)面集合之間的鏈接關(guān)系,針對(duì)所述每個(gè)時(shí)間 點(diǎn)的頁(yè)面集合,構(gòu)建所述每個(gè)時(shí)間點(diǎn)的頁(yè)面集合的有向圖,獲得連續(xù)10個(gè)時(shí)間點(diǎn)的每個(gè)時(shí)間點(diǎn)的頁(yè)面集合的有向圖。子步驟A6、對(duì)所述連續(xù)10個(gè)時(shí)間點(diǎn)的每個(gè)時(shí)間點(diǎn)的頁(yè)面集合進(jìn)行頁(yè)面集合的交集操作,獲得相應(yīng)的交集集合。子步驟A7、對(duì)所述獲得的相應(yīng)的交集集合中的每個(gè)頁(yè)面進(jìn)行判斷及識(shí)別,獲得識(shí)別后的穩(wěn)定頁(yè)面。其中,子步驟A7,具體可以包括子步驟BI、接收判斷及識(shí)別命令,開始對(duì)所述獲得的相應(yīng)的交集集合中的每個(gè)頁(yè)面進(jìn)行判斷及識(shí)別。子步驟B2、通過判斷所述新聞網(wǎng)站首頁(yè)到所述頁(yè)面集合中的頁(yè)面的最短途徑是否相同,來獲得相應(yīng)的判斷及識(shí)別結(jié)果;若所述新聞網(wǎng)站首頁(yè)到所述頁(yè)面集合中的頁(yè)面的最短途徑是相同的,則所述頁(yè)面集合中的該頁(yè)面為穩(wěn)定頁(yè)面,獲得識(shí)別后的穩(wěn)定頁(yè)面;若所述新聞網(wǎng)站首頁(yè)到所述頁(yè)面集合中的頁(yè)面的最短途徑是不相同的,則所述頁(yè)面集合中的該頁(yè)面不是穩(wěn)定頁(yè)面,繼續(xù)在所述頁(yè)面集合中尋找相應(yīng)的頁(yè)面,至到所述新聞網(wǎng)站首頁(yè)到所述頁(yè)面集合中的頁(yè)面的最短途徑是相同的,該頁(yè)面為穩(wěn)定頁(yè)面,停止尋找過程,該頁(yè)面為穩(wěn)定頁(yè)面,獲得識(shí)別后的穩(wěn)定頁(yè)面。步驟102、對(duì)新聞頁(yè)面分類器進(jìn)行相應(yīng)的操作,獲得生成的新聞頁(yè)面分類器。其中,所述步驟102,具體可以包括子步驟Cl、指定新聞網(wǎng)站首頁(yè)的網(wǎng)址。子步驟C2、從所述新聞網(wǎng)站中選取相同數(shù)量的新聞頁(yè)面及非新聞頁(yè)面,獲得相應(yīng)的相同數(shù)量的新聞頁(yè)面及相同數(shù)量的非新聞頁(yè)面;其中,所述新聞頁(yè)面的數(shù)量及所述非新聞頁(yè)面的數(shù)量由用戶指定。子步驟C3、采用ISUC算法進(jìn)行相應(yīng)的計(jì)算,獲得生成的新聞頁(yè)面分類器。為了使本領(lǐng)域的普通技術(shù)人員更好地理解本發(fā)明,下面詳細(xì)介紹采用ISUC算法進(jìn)行相應(yīng)的計(jì)算,獲得生成的新聞頁(yè)面分類器,具體如下所述訓(xùn)練獲得新聞頁(yè)面分類器I)隨機(jī)選取η個(gè)新聞頁(yè)面和η個(gè)非新聞頁(yè)面,η的大小由用戶指定。2)對(duì)η個(gè)新聞頁(yè)面{xl, χ2,…,χη}執(zhí)行步驟2)步驟8)。3)設(shè)集合 Cl = {xl},集合數(shù)量 num = I,集合 Z = {x2, x3, . . . , xn}。4)如果Z為空,轉(zhuǎn)到步驟16)。
      5)從Z中取出一個(gè)頁(yè)面Xi。6)分別計(jì)算xi與Cl, C2, · · · , Cnum的相似度,計(jì)算公式為
      權(quán)利要求
      1.ー種新型的中文新聞頁(yè)面增量采集的方法,其特征在于,包括對(duì)穩(wěn)定頁(yè)面進(jìn)行識(shí)別,獲得識(shí)別后的穩(wěn)定頁(yè)面;對(duì)新聞頁(yè)面分類器進(jìn)行相應(yīng)的操作,獲得生成的新聞頁(yè)面分類器;對(duì)新增頁(yè)面進(jìn)行采集,獲得采集后的新增頁(yè)面;對(duì)新聞頁(yè)面進(jìn)行識(shí)別,獲得識(shí)別后的新聞頁(yè)面。
      2.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述對(duì)穩(wěn)定頁(yè)面進(jìn)行識(shí)別,獲得識(shí)別后的穩(wěn)定頁(yè)面的步驟,包括接收識(shí)別命令,開始對(duì)穩(wěn)定頁(yè)面進(jìn)行識(shí)別;指定新聞網(wǎng)站首頁(yè)的網(wǎng)址;選取時(shí)間點(diǎn)間隔相同的連續(xù)10個(gè)時(shí)間點(diǎn),獲得時(shí)間間隔相同的連續(xù)10個(gè)時(shí)間點(diǎn);其中,所述連續(xù)10個(gè)時(shí)間點(diǎn)的時(shí)間間隔能夠由用戶指定;在所述連續(xù)10個(gè)時(shí)間點(diǎn)的每個(gè)時(shí)間點(diǎn),對(duì)所述指定新聞網(wǎng)站的所有頁(yè)面進(jìn)行爬取,獲得相應(yīng)的連續(xù)10個(gè)時(shí)間點(diǎn)的每個(gè)時(shí)間點(diǎn)的頁(yè)面集合;依據(jù)所述每個(gè)時(shí)間點(diǎn)的頁(yè)面集合之間的鏈接關(guān)系,針對(duì)所述每個(gè)時(shí)間點(diǎn)的頁(yè)面集合,構(gòu)建所述每個(gè)時(shí)間點(diǎn)的頁(yè)面集合的有向圖,獲得連續(xù)10個(gè)時(shí)間點(diǎn)的每個(gè)時(shí)間點(diǎn)的頁(yè)面集合的有向圖;對(duì)所述連續(xù)10個(gè)時(shí)間點(diǎn)的每個(gè)時(shí)間點(diǎn)的頁(yè)面集合進(jìn)行頁(yè)面集合的交集操作,獲得相應(yīng)的交集集合;對(duì)所述獲得的相應(yīng)的交集集合中的每個(gè)頁(yè)面進(jìn)行判斷及識(shí)別,獲得識(shí)別后的穩(wěn)定頁(yè)面。
      3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述對(duì)所述獲得的相應(yīng)的交集集合中的每個(gè)頁(yè)面進(jìn)行判斷及識(shí)別,獲得識(shí)別后的穩(wěn)定頁(yè)面的步驟,包括接收判斷及識(shí)別命令,開始對(duì)所述獲得的相應(yīng)的交集集合中的每個(gè)頁(yè)面進(jìn)行判斷及識(shí)別;通過判斷所述新聞網(wǎng)站首頁(yè)到所述頁(yè)面集合中的頁(yè)面的最短途徑是否相同,來獲得相應(yīng)的判斷及識(shí)別結(jié)果;若所述新聞網(wǎng)站首頁(yè)到所述頁(yè)面集合中的頁(yè)面的最短途徑是相同的,則所述頁(yè)面集合中的該頁(yè)面為穩(wěn)定頁(yè)面,獲得識(shí)別后的穩(wěn)定頁(yè)面;若所述新聞網(wǎng)站首頁(yè)到所述頁(yè)面集合中的頁(yè)面的最短途徑是不相同的,則所述頁(yè)面集合中的該頁(yè)面不是穩(wěn)定頁(yè)面,繼續(xù)在所述頁(yè)面集合中尋找相應(yīng)的頁(yè)面,至到所述新聞網(wǎng)站首頁(yè)到所述頁(yè)面集合中的頁(yè)面的最短途徑是相同的,該頁(yè)面為穩(wěn)定頁(yè)面,停止尋找過程,該頁(yè)面為穩(wěn)定頁(yè)面,獲得識(shí)別后的穩(wěn)定頁(yè)面。
      4.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述對(duì)新聞頁(yè)面分類器進(jìn)行相應(yīng)的操作,獲得生成的新聞頁(yè)面分類器的步驟,包括指定新聞網(wǎng)站首頁(yè)的網(wǎng)址;從所述新聞網(wǎng)站中選取相同數(shù)量的新聞頁(yè)面及非新聞頁(yè)面,獲得相應(yīng)的相同數(shù)量的新聞頁(yè)面及相同數(shù)量的非新聞頁(yè)面;其中,所述新聞頁(yè)面的數(shù)量及所述非新聞頁(yè)面的數(shù)量由用戶指定;采用ISUC算法進(jìn)行相應(yīng)的計(jì)算,獲得生成的新聞頁(yè)面分類器。
      5.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述對(duì)新增頁(yè)面進(jìn)行采集,獲得采集后的新增頁(yè)面的步驟,包括接收頁(yè)面采集命令,開始對(duì)新增頁(yè)面進(jìn)行采集;對(duì)每ー個(gè)穩(wěn)定頁(yè)面進(jìn)行相應(yīng)的頁(yè)面鏈接進(jìn)行獲取,獲得針對(duì)所述每ー個(gè)穩(wěn)定頁(yè)面的相應(yīng)的當(dāng)前頁(yè)面鏈接;將所述獲得的當(dāng)前頁(yè)面鏈接加入到原始頁(yè)面鏈接集合中,獲得更新后的頁(yè)面鏈接集合;其中,若原始頁(yè)面鏈接集合不存在,則更新后的頁(yè)面鏈接集合為當(dāng)前頁(yè)面鏈接;依據(jù)所述更新后的頁(yè)面鏈接集合中的每個(gè)鏈接,獲得所述每個(gè)鏈接相應(yīng)的指向頁(yè)面,獲得所述每個(gè)鏈接相應(yīng)的指向頁(yè)面;將獲得的所述每個(gè)鏈接相應(yīng)的指向頁(yè)面放入原始頁(yè)面集合中,獲得采集后的新增頁(yè)面;每隔相同的時(shí)間間隔執(zhí)行從對(duì)每一個(gè)穩(wěn)定頁(yè)面進(jìn)行相應(yīng)的頁(yè)面鏈接進(jìn)行獲取,獲得針對(duì)所述每ー個(gè)穩(wěn)定頁(yè)面的相應(yīng)的當(dāng)前頁(yè)面鏈接到將獲得的所述每個(gè)鏈接相應(yīng)的指向頁(yè)面放入原始頁(yè)面集合中,獲得采集后的新增頁(yè)面的操作的整個(gè)過程;其中,所述每個(gè)時(shí)間由客戶指定;當(dāng)執(zhí)行完所有的上述循環(huán)操作后,將每個(gè)循環(huán)過程中所獲得的采集后的新增頁(yè)面進(jìn)行匯總,獲得采集后的新增頁(yè)面。
      6.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述對(duì)新聞頁(yè)面進(jìn)行識(shí)別,獲得識(shí)別后的新聞頁(yè)面的步驟,包括使用所述新聞頁(yè)面分類器,對(duì)新頁(yè)面集合中的每個(gè)頁(yè)面中的新聞頁(yè)面及非新聞頁(yè)面進(jìn)行識(shí)別,獲得相應(yīng)的頁(yè)面中的新聞頁(yè)面及相應(yīng)的頁(yè)面的非新聞頁(yè)面;將上述新聞頁(yè)面放入上述原始新增新聞頁(yè)面集合中,獲得更新后的新聞頁(yè)面集合;建立所述更新后的新聞頁(yè)面集合與新聞頁(yè)面的一一對(duì)應(yīng)的關(guān)系;依據(jù)所述更新后的新聞頁(yè)面集合與新聞頁(yè)面的一一對(duì)應(yīng)的關(guān)系,由所述更新后的新聞頁(yè)面集合,獲得識(shí)別后的新聞頁(yè)面。
      7.ー種新型的中文新聞頁(yè)面增量采集的裝置,其特征在于,包括穩(wěn)定頁(yè)面獲取裝置,用于獲得一個(gè)時(shí)間段內(nèi)不同時(shí)間點(diǎn)的新聞網(wǎng)站的頁(yè)面鏈接結(jié)構(gòu);新聞頁(yè)面分類器生成裝置,用于通過人工標(biāo)注的頁(yè)面生成相應(yīng)的新聞頁(yè)面識(shí)別器;新增頁(yè)面采集裝置,用于從新聞網(wǎng)站中采集新增的頁(yè)面;新聞頁(yè)面識(shí)別裝置,用于通過新聞頁(yè)面識(shí)別器在新增頁(yè)面中對(duì)新聞頁(yè)面進(jìn)行識(shí)別;新聞頁(yè)面存儲(chǔ)裝置,用于存儲(chǔ)采集到的新增頁(yè)面。
      8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述穩(wěn)定頁(yè)面獲取裝置,包括獲取新聞網(wǎng)站的頁(yè)面鏈接結(jié)構(gòu)裝置,用于在多個(gè)特定時(shí)間點(diǎn)獲取新聞網(wǎng)站的頁(yè)面鏈接結(jié)構(gòu);獲取穩(wěn)定頁(yè)面裝置,用于通過比較不同時(shí)間點(diǎn)的新聞網(wǎng)站的頁(yè)面鏈接結(jié)構(gòu),獲得穩(wěn)定頁(yè)面。
      9.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述新聞頁(yè)面分類器生成裝置,包括新聞頁(yè)面采集裝置,用于隨機(jī)在所要采集的新聞網(wǎng)站中選取足夠的頁(yè)面;標(biāo)注新聞頁(yè)面裝置,用于人工標(biāo)注所選取的頁(yè)面是否為新聞頁(yè)面;獲取新聞頁(yè)面分類器裝置,用于將標(biāo)注的頁(yè)面作為訓(xùn)練集,通過機(jī)器學(xué)習(xí)的方法,獲得新聞頁(yè)面分類器。
      10.根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述新增頁(yè)面采集裝置,包括頁(yè)面采集裝置,用于對(duì)新增的頁(yè)面進(jìn)行采集;獲取穩(wěn)定頁(yè)面的新增頁(yè)面裝置,用于獲取穩(wěn)定頁(yè)面指向的新增頁(yè)面;重復(fù)頁(yè)面清除裝置,用于將重復(fù)采集的頁(yè)面進(jìn)行清除。
      全文摘要
      本發(fā)明提供了一種新型的中文新聞頁(yè)面增量采集的方法及裝置,其中,一種新型的中文新聞頁(yè)面增量采集的方法,包括對(duì)穩(wěn)定頁(yè)面進(jìn)行識(shí)別,獲得識(shí)別后的穩(wěn)定頁(yè)面;對(duì)新聞頁(yè)面分類器進(jìn)行相應(yīng)的操作,獲得生成的新聞頁(yè)面分類器;對(duì)新增頁(yè)面進(jìn)行采集,獲得采集后的新增頁(yè)面;對(duì)新聞頁(yè)面進(jìn)行識(shí)別,獲得識(shí)別后的新聞頁(yè)面;該方法能夠有效的解決目前中文新聞頁(yè)面采集方法中存在的因?yàn)橹貜?fù)采集新聞頁(yè)面而帶來的信息處理的效率低的缺陷。
      文檔編號(hào)G06F17/30GK102831135SQ20111042516
      公開日2012年12月19日 申請(qǐng)日期2011年12月16日 優(yōu)先權(quán)日2011年12月16日
      發(fā)明者劉偉 申請(qǐng)人:中國(guó)科學(xué)技術(shù)信息研究所
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1