国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種定制互聯(lián)網(wǎng)數(shù)據(jù)的實現(xiàn)方法及裝置制造方法

      文檔序號:6519566閱讀:154來源:國知局
      一種定制互聯(lián)網(wǎng)數(shù)據(jù)的實現(xiàn)方法及裝置制造方法
      【專利摘要】本發(fā)明公開了一種定制互聯(lián)網(wǎng)數(shù)據(jù)的實現(xiàn)方法及裝置,包括:獲取用戶配置信息,所述用戶配置信息中包含用戶需要定制的內(nèi)容信息和所述內(nèi)容信息所在的網(wǎng)站信息;解析所述用戶配置信息,獲得所述內(nèi)容信息和網(wǎng)站信息,并在所述網(wǎng)站信息包含的各個網(wǎng)站內(nèi)爬取獲得所述內(nèi)容信息對應(yīng)的網(wǎng)頁;將爬取獲得的所述內(nèi)容信息對應(yīng)的網(wǎng)頁提供給用戶。本發(fā)明實施例可以方便用戶根據(jù)自身的實際需求靈活地設(shè)定自己需要定制的內(nèi)容信息,且使得能夠根據(jù)自身需要實時調(diào)整自己需要定制的信息,以及修改自己需要定制的內(nèi)容信息所在的網(wǎng)絡(luò)站點,從而滿足用戶的個性化定制需要并有利于收集到更加準(zhǔn)確的用戶關(guān)注的內(nèi)容信息。
      【專利說明】—種定制互聯(lián)網(wǎng)數(shù)據(jù)的實現(xiàn)方法及裝置
      【技術(shù)領(lǐng)域】
      [0001]本發(fā)明涉及通信【技術(shù)領(lǐng)域】,尤其涉及一種定制互聯(lián)網(wǎng)數(shù)據(jù)的實現(xiàn)方法及裝置。
      【背景技術(shù)】
      [0002]隨著互聯(lián)網(wǎng)中數(shù)據(jù)內(nèi)容的日益豐富,人們?yōu)榱烁奖愕孬@得自己關(guān)注的數(shù)據(jù)信息,通常需要采用定制的方式實現(xiàn)。
      [0003]目前,為了能夠給用戶提供相應(yīng)的定制服務(wù),采用的實現(xiàn)方式如圖1所示,具體可以包括以下處理過程:
      [0004]首先,確定用戶需要定制的內(nèi)容,假設(shè)內(nèi)容為A,以及用戶需要定制的內(nèi)容所在的網(wǎng)站信息,假設(shè)內(nèi)容A會在網(wǎng)站a、b、c、d中出現(xiàn);
      [0005]之后,由定制服務(wù)提供商根據(jù)定制的內(nèi)容及其所在的網(wǎng)站信息開發(fā)相應(yīng)的內(nèi)容查詢代碼,具體可以包括:內(nèi)容A在a網(wǎng)站的查詢代碼,內(nèi)容A在b網(wǎng)站的查詢代碼,內(nèi)容A在c網(wǎng)站的查詢代碼,內(nèi)容A在d網(wǎng)站的查詢代碼;
      [0006]最后,通過上述開發(fā)的內(nèi)容查詢代碼便可以到相應(yīng)的網(wǎng)站查詢獲得用戶定制的內(nèi)容,并提供給用戶。
      [0007]可見,現(xiàn)有的定制內(nèi)容的實現(xiàn)過程完全沒有用戶能夠參與的接口,對于一些定制服務(wù)提供方通常為預(yù)先根據(jù)可能的用戶定制需求已經(jīng)開發(fā)完成相應(yīng)的內(nèi)容查詢代碼,對于需要定制內(nèi)容的用戶,其僅能夠在已經(jīng)預(yù)先設(shè)定的內(nèi)容中選擇需要定制的信息(即可以定制的內(nèi)容是由提供定制服務(wù)的網(wǎng)站進(jìn)行管理),如某類新聞或某類影片等信息,而無法根據(jù)自身的實際需求靈活定制自己想要的內(nèi)容。

      【發(fā)明內(nèi)容】

      [0008]本發(fā)明的目的是提供一種定制互聯(lián)網(wǎng)數(shù)據(jù)的實現(xiàn)方法及裝置,使得用戶可以根據(jù)自身的實際需求靈活地設(shè)定自己需要定制的內(nèi)容信息。
      [0009]本發(fā)明的目的是通過以下技術(shù)方案實現(xiàn)的:
      [0010]一種定制互聯(lián)網(wǎng)數(shù)據(jù)的實現(xiàn)方法,包括:
      [0011]獲取用戶配置信息,所述用戶配置信息中包含用戶需要定制的內(nèi)容信息和所述內(nèi)容信息所在的網(wǎng)站信息;
      [0012]解析所述用戶配置信息,獲得預(yù)定格式的所述內(nèi)容信息和網(wǎng)站信息,并在所述網(wǎng)站信息包含的各個網(wǎng)站內(nèi)爬取獲得所述內(nèi)容信息對應(yīng)的網(wǎng)頁;
      [0013]將爬取獲得的所述內(nèi)容信息對應(yīng)的網(wǎng)頁提供給用戶。
      [0014]在所述網(wǎng)站信息包含的各個網(wǎng)站內(nèi)爬取獲得所述內(nèi)容信息對應(yīng)的網(wǎng)頁的步驟包括:
      [0015]依次從包含網(wǎng)站信息的鏈接隊列中取出各個網(wǎng)站信息,在當(dāng)前取出的網(wǎng)站信息對應(yīng)的站點中抓取所述內(nèi)容信息對應(yīng)的網(wǎng)頁,并將所述網(wǎng)頁加入到網(wǎng)頁數(shù)據(jù)庫中,直至所述包含網(wǎng)站信息的鏈接隊列中的各個網(wǎng)站信息均被取出并完成抓取操作。[0016]所述依次從包含網(wǎng)站信息的鏈接隊列中取出各個網(wǎng)站信息的步驟包括:
      [0017]根據(jù)預(yù)先設(shè)定的調(diào)度頻率從所述包含網(wǎng)站信息的鏈接隊列中依次取出各個網(wǎng)站信息,若存在多個包含網(wǎng)站信息的鏈接隊列,還需要根據(jù)預(yù)先設(shè)置的針對各個包含網(wǎng)站信息的鏈接隊列的選取比例在各個包含網(wǎng)站信息的鏈接隊列中依次取出各個網(wǎng)站信息。
      [0018]在當(dāng)前取出的網(wǎng)站信息對應(yīng)的站點中抓取所述內(nèi)容信息對應(yīng)的網(wǎng)頁的過程中還包括:
      [0019]在當(dāng)前取出的網(wǎng)站信息對應(yīng)的站點中抓取鏈接信息,并將所述的鏈接信息插入到所述包含網(wǎng)站信息的鏈接隊列中。
      [0020]該方法還包括:
      [0021]當(dāng)用戶需要更新其定制的內(nèi)容信息和/或更新所述內(nèi)容信息所在的網(wǎng)站信息時,則修改所述用戶配置信息,或者,重新提交新的用戶配置信息。
      [0022]一種定制互聯(lián)網(wǎng)數(shù)據(jù)的實現(xiàn)裝置,包括:
      [0023]配置信息獲取單元,用于獲取用戶配置信息,所述用戶配置信息中包含用戶需要定制的內(nèi)容信息和所述內(nèi)容信息所在的網(wǎng)站信息;
      [0024]模板引擎單元,用于解析所述配置信息獲取單元獲取的用戶配置信息,獲得預(yù)定格式的所述內(nèi)容信息和網(wǎng)站信息;
      [0025]爬取單元,用于在所述模板引擎單元解析獲得的所述網(wǎng)站信息包含的各個網(wǎng)站內(nèi)爬取獲得所述內(nèi)容信息對應(yīng)的網(wǎng)頁;
      [0026]定制信息返回單元,用于將所述爬取單元爬取獲得的所述內(nèi)容信息對應(yīng)的網(wǎng)頁提供給用戶。
      [0027]所述爬取單元包括:
      [0028]鏈接隊列建立模塊,用于將所述模板引擎單元解析獲得的所述網(wǎng)站信息加入到鏈接隊列中;
      [0029]調(diào)度模塊,用于依次從所述鏈接隊列建立模塊建立的包含網(wǎng)站信息的鏈接隊列中取出各個網(wǎng)站信息;
      [0030]抓取模塊,用于在所述調(diào)度模塊當(dāng)前取出的網(wǎng)站信息對應(yīng)的站點中抓取所述內(nèi)容信息對應(yīng)的網(wǎng)頁,并將所述網(wǎng)頁加入到網(wǎng)頁數(shù)據(jù)庫中,直至所述包含網(wǎng)站信息的鏈接隊列中的各個網(wǎng)站信息均被取出并完成抓取操作。
      [0031]所述調(diào)度模塊具體用于根據(jù)預(yù)先設(shè)定的調(diào)度頻率從所述包含網(wǎng)站信息的鏈接隊列中依次取出各個網(wǎng)站信息,若所述鏈接隊列建立模塊建立多個包含網(wǎng)站信息的鏈接隊列,則所述調(diào)度模塊還需要根據(jù)預(yù)先設(shè)置的針對各個包含網(wǎng)站信息的鏈接隊列的選取比例在各個包含網(wǎng)站信息的鏈接隊列中依次取出各個網(wǎng)站信息。
      [0032]所述抓取模塊還用于在在當(dāng)前取出的網(wǎng)站信息對應(yīng)的站點中抓取鏈接信息,并通過所述調(diào)度模塊將所述的鏈接信息插入到所述包含網(wǎng)站信息的鏈接隊列中。
      [0033]該裝置還包括配置信息更新單元,用于當(dāng)用戶需要更新其定制的內(nèi)容信息和/或更新所述內(nèi)容信息所在的網(wǎng)站信息時,則修改所述用戶配置信息,或者,重新提交新的用戶配置信息。
      [0034]由上述本發(fā)明提供的技術(shù)方案可以看出,本發(fā)明實施例提供的一種定制互聯(lián)網(wǎng)數(shù)據(jù)的實現(xiàn)方法及裝置可以方便用戶根據(jù)自身的實際需求靈活地設(shè)定自己需要定制的內(nèi)容信息,從而克服了現(xiàn)有技術(shù)中存在的用戶僅能在預(yù)先設(shè)置的定制內(nèi)容中選擇自身期望定制的內(nèi)容的問題。利用本發(fā)明實施例提供的技術(shù)方案用戶能夠根據(jù)自身需要實時調(diào)整自己需要定制的信息,以及修改自己需要定制的內(nèi)容信息所在的網(wǎng)絡(luò)站點,實現(xiàn)了將內(nèi)容定制的過程與用戶的自身需求緊密結(jié)合,從而滿足用戶的個性化定制需要并有利于收集到更加準(zhǔn)確的用戶關(guān)注的內(nèi)容信息。同時,本發(fā)明實施例的實現(xiàn)還可以降低定制服務(wù)提供方開發(fā)定制代碼的復(fù)雜程度。
      【專利附圖】

      【附圖說明】
      [0035]為了更清楚地說明本發(fā)明實施例的技術(shù)方案,下面將對實施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域的普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他附圖。
      [0036]圖1為現(xiàn)有技術(shù)中定制內(nèi)容的處理過程示意圖;
      [0037]圖2為本發(fā)明實施例提供的方法的處理過程示意圖;
      [0038]圖3為本發(fā)明實施例提供的方法的具體實現(xiàn)過程示意圖一;
      [0039]圖4為本發(fā)明實施例提供的方法的具體實現(xiàn)過程示意圖二 ;
      [0040]圖5為本發(fā)明實施例提供的方法的另一具體實現(xiàn)過程示意圖一;
      [0041]圖6為本發(fā)明實施例提供的方法的另一具體實現(xiàn)過程示意圖二 ;
      [0042]圖7為本發(fā)明實施例提供的裝置的結(jié)構(gòu)示意圖。
      【具體實施方式】
      [0043]下面結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例。基于本發(fā)明的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明的保護(hù)范圍。
      [0044]本發(fā)明實施例提供的技術(shù)方案能夠基于互聯(lián)網(wǎng)用戶快速定制與收集信息,解決以往用戶只能采取I對I的Rss (Really Simple Syndication,真正簡易聚合)功能去訂閱內(nèi)容,并且訂閱內(nèi)容由網(wǎng)站管理的問題。即通過本發(fā)明實施例提供的技術(shù)方案,針對如洪水般涌來的互聯(lián)網(wǎng)數(shù)據(jù)內(nèi)容,用戶可以輕松簡單定制不同網(wǎng)站用戶感興趣的內(nèi)容,并可以由用戶自身加以靈活管理,從而將用戶關(guān)注的內(nèi)容與用戶自身綁定起來,從而令用戶對自己關(guān)注的互聯(lián)網(wǎng)數(shù)據(jù)內(nèi)容一目了然。
      [0045]下面將結(jié)合附圖對本發(fā)明實施例作進(jìn)一步地詳細(xì)描述。
      [0046]本發(fā)明實施例提供的一種定制互聯(lián)網(wǎng)數(shù)據(jù)的實現(xiàn)方法的具體實現(xiàn)過程如圖2所示,可以包括以下處理步驟:
      [0047]步驟201,獲取用戶配置信息,所述用戶配置信息中包含用戶需要定制的內(nèi)容信息和所述內(nèi)容信息所在的網(wǎng)站信息;
      [0048]步驟202,解析所述用戶配置信息,獲得預(yù)定格式的所述內(nèi)容信息和網(wǎng)站信息;
      [0049]其中,所述預(yù)定格式為后續(xù)爬取過程可以識別的格式,即將用戶配置信息轉(zhuǎn)換成后續(xù)爬取處理程序可以識別的格式;[0050]步驟203,在所述網(wǎng)站信息包含的各個網(wǎng)站內(nèi)爬取獲得所述內(nèi)容信息對應(yīng)的網(wǎng)頁;
      [0051 ] 具體地,可以依次從包含網(wǎng)站信息的鏈接隊列中取出各個網(wǎng)站信息,在當(dāng)前取出的網(wǎng)站信息對應(yīng)的站點中抓取所述內(nèi)容信息對應(yīng)的網(wǎng)頁,并將所述網(wǎng)頁加入到網(wǎng)頁數(shù)據(jù)庫中,直至所述包含網(wǎng)站信息的鏈接隊列中的各個網(wǎng)站信息均被取出并完成抓取操作;
      [0052]步驟204,將爬取獲得的所述內(nèi)容信息對應(yīng)的網(wǎng)頁提供給用戶。
      [0053]本發(fā)明實施例中,為進(jìn)一步為定制內(nèi)容的用戶提供更多的信息,在當(dāng)前取出的網(wǎng)站信息對應(yīng)的站點中抓取所述內(nèi)容信息對應(yīng)的網(wǎng)頁的過程中還可以包括:在當(dāng)前取出的網(wǎng)站信息對應(yīng)的站點中抓取鏈接信息,并將所述的鏈接信息插入到所述包含網(wǎng)站信息的鏈接隊列中,以便于后續(xù)處理過程中還可以通過抓取該鏈接信息獲得更多的所述內(nèi)容信息對應(yīng)的網(wǎng)頁。
      [0054]通過本發(fā)明實施例用戶可以方便地根據(jù)自身需求選擇自己希望定制的互聯(lián)網(wǎng)數(shù)據(jù),當(dāng)用戶需要定制某互聯(lián)網(wǎng)數(shù)據(jù)時,則基于需要定制的互聯(lián)網(wǎng)數(shù)據(jù)(即內(nèi)容信息)確定相應(yīng)的用戶配置信息即可,在后續(xù)處理過程中,當(dāng)用戶需要更新其定制的內(nèi)容信息和/或更新所述內(nèi)容信息所在的網(wǎng)站信息時,則還可以修改所述用戶配置信息,或者,也可以重新提交新的用戶配置信息,以實現(xiàn)定制的內(nèi)容信息的更新和/或?qū)崿F(xiàn)所述內(nèi)容信息所在的網(wǎng)站信息的更新。
      [0055]為便于理解,下面將結(jié)合附圖對本發(fā)明實施例的具體實現(xiàn)過程進(jìn)行詳細(xì)說明。
      [0056]本發(fā)明實施例完全將用戶融合到定制處理過程中來,定制服務(wù)提供方只需要開發(fā)出解析模板(即用戶配置信息)的引擎(簡稱模板引擎)即可。在本發(fā)明實施例中,假設(shè)用戶對內(nèi)容信息A感興趣,且內(nèi)容信息A分布在網(wǎng)站a、b、c、d上,則可以預(yù)先將內(nèi)容信息A及網(wǎng)站a、b、C、d信息編寫為用戶配置信息,并一次性開發(fā)生成用于解析所述用戶配置信息及完成相應(yīng)的抓取處理的模板引擎,這樣在完成用戶配置信息的編寫后便可以由模板引擎引導(dǎo)爬取軟件完成相應(yīng)的抓取操作。而且,當(dāng)內(nèi)容信息A又出現(xiàn)在網(wǎng)站e上時,則僅需要更新用戶配置信息即可,而無需修改模板引擎及爬取軟件。
      [0057]具體地,參照圖3及圖4所示,相應(yīng)的實現(xiàn)定制服務(wù)的處理過程可以包括:
      [0058]步驟301,用戶確定內(nèi)容A是其希望定制的互聯(lián)網(wǎng)數(shù)據(jù)(即用戶需要定制的內(nèi)容信息為A ),該內(nèi)容信息A可能出現(xiàn)在網(wǎng)站a、b、c、d中;
      [0059]步驟302,針對內(nèi)容信息A在每個網(wǎng)站出現(xiàn)的信息,確定相應(yīng)的用戶配置信息;
      [0060]步驟303,通過模板引擎讀取用戶配置信息,并解析其內(nèi)容獲得預(yù)定格式的用戶定制的內(nèi)容信息及內(nèi)容信息可能出現(xiàn)的網(wǎng)站信息;
      [0061]該模板引擎為預(yù)先開發(fā)建立,在后續(xù)處理過程中若修改用戶配置信息中的內(nèi)容信息或內(nèi)容信息可能出現(xiàn)的網(wǎng)站信息時無需對模板引擎進(jìn)行修改;
      [0062]相應(yīng)的模板引擎可以根據(jù)用戶需要提取的網(wǎng)站內(nèi)容生成特定格式的文檔,在該文檔中包含所述用戶配置信息,以告知爬蟲程序(即爬取軟件)需要去抓取的數(shù)據(jù)內(nèi)容,模板引擎是與內(nèi)容分類相關(guān)聯(lián)的,如對于影視內(nèi)容,用戶需要確定影視的標(biāo)題、導(dǎo)演、出處、演員、影視長度等信息作為用戶配置信息,當(dāng)用戶確定了所述用戶配置信息后相應(yīng)的模板引擎就會對用戶指定的用戶配置信息進(jìn)行提取與分析并生成特定格式的文檔,以備后續(xù)抓取過程中引導(dǎo)相應(yīng)的抓取處理過程;[0063]步驟304,根據(jù)模板引擎解析獲得的用戶配置信息中包含的內(nèi)容信息及內(nèi)容信息可能出現(xiàn)的網(wǎng)站信息,通過爬取軟件進(jìn)行內(nèi)容信息A對應(yīng)的數(shù)據(jù)內(nèi)容的抓取操作,以獲得包含內(nèi)容信息A的網(wǎng)頁;
      [0064]在抓取過程中,具體可以通過網(wǎng)絡(luò)爬蟲程序?qū)Ω鱾€網(wǎng)站進(jìn)行爬取,以在各個網(wǎng)站中抓取到內(nèi)容信息A對應(yīng)的網(wǎng)頁;相應(yīng)的網(wǎng)絡(luò)爬蟲程序可以從互聯(lián)網(wǎng)上按照一定的邏輯、算法及重力抓取和下載互聯(lián)網(wǎng)的網(wǎng)頁,其中有一種定向爬取的方式可以針對指定內(nèi)容進(jìn)行爬取,以抓取到其想要的內(nèi)容信息;
      [0065]在抓取過程中,若用戶配置信息中包含多項內(nèi)容信息或多個網(wǎng)站信息,則可以采用并行的方式進(jìn)行抓取操作,以提高抓取效率;
      [0066]步驟305,整合步驟304抓取獲得的內(nèi)容信息A對應(yīng)的數(shù)據(jù)內(nèi)容,即匯總內(nèi)容信息A對應(yīng)的網(wǎng)頁;
      [0067]步驟306,將整合后的數(shù)據(jù)內(nèi)容顯示給用戶,從而使得用戶可以獲得其定制的內(nèi)容信息A對應(yīng)的各網(wǎng)頁。
      [0068]通過上述處理過程,可以從根本上解決了用戶角度的個性化內(nèi)容定制問題,使得用戶自己能夠填寫其期望看到的內(nèi)容信息,而預(yù)先建立的模板引擎只用于將用戶配置信息中包含的內(nèi)容信息及相應(yīng)的網(wǎng)站信息解析出來,并引導(dǎo)爬取軟件從相應(yīng)的網(wǎng)站中抓取出相應(yīng)的內(nèi)容信息,該模塊引擎及爬取軟件均為預(yù)先一次性開發(fā),在后續(xù)修改所述用戶配置信息的過程中無需對其進(jìn)行修改及調(diào)整。
      [0069]在后續(xù)的定制服務(wù)過程中,若用戶需要更新其定制的內(nèi)容信息或者需要更新其定制的內(nèi)容信息出現(xiàn)的網(wǎng)站,則只要更新相應(yīng)的用戶配置信息即可。在更新了用戶配置信息后,模板引擎會自動探測到新的用戶配置信息(或者模板引擎也可以采用其他處理方式獲知更新后的用戶配置信息),并按照新的用戶配置信息的內(nèi)容引導(dǎo)爬取軟件進(jìn)行相應(yīng)的內(nèi)容信息的抓取操作。
      [0070]為便于理解,下面將對本發(fā)明實施例中的抓取處理過程進(jìn)行詳細(xì)說明。
      [0071]參照圖5和圖6所示,本發(fā)明實施例具體可以采用的抓取處理過程可以包括:
      [0072]步驟501,用戶提供種子URL (統(tǒng)一資源定位符,UniformResourceLocator),即用戶配置信息中包含的網(wǎng)站信息;
      [0073]步驟502,模板引擎將解析獲得的種子URL加入到linkbase (連接數(shù)據(jù)庫)中新URL隊列中,獲得包含所述網(wǎng)站信息的鏈接隊列;
      [0074]具體地,所述鏈接隊列可以包括待抓取的URL隊列和更新的URL隊列,且所述鏈接隊列進(jìn)一步可以分為列表頁抓取隊列和詳情頁抓取隊列;基于此,相應(yīng)的鏈接隊列可以包括:get_detail (待抓取詳情頁抓取隊列),mod_detail (更新的詳情頁抓取隊列),get_list(待抓取列表頁抓取隊列),mod_list (更新列表頁抓取隊列);
      [0075]步驟503,調(diào)度模塊選取URL進(jìn)入到抓取模塊(Spider core)的待抓取隊列中,以等待抓取模塊根據(jù)用戶配置信息中的內(nèi)容信息在相應(yīng)的網(wǎng)站中進(jìn)行抓取操作;
      [0076]在該步驟中,該調(diào)度模塊具體可以根據(jù)預(yù)先配置的調(diào)度URL的頻率及調(diào)度各個隊列的比例在各抓取隊列中選擇當(dāng)前需要抓取的URL ;可以預(yù)先配置抓取隊列g(shù)et_detail、mod_detail、get_list和mod_list的選取比例,以及每次調(diào)度URL的頻率(或間隔時間),之后便可以根據(jù)預(yù)先配置的情況在不同的抓取隊列中按照預(yù)定的每次調(diào)度URL的頻率進(jìn)行URL的調(diào)度;也就是說,若存在多個包含網(wǎng)站信息的鏈接隊列,還需要根據(jù)預(yù)先設(shè)置的針對各個包含網(wǎng)站信息的鏈接隊列的選取比例在各個包含網(wǎng)站信息的鏈接隊列中依次取出各個網(wǎng)站信息;
      [0077]步驟504,抓取模塊讀取模板引擎解析處理后的用戶配置信息,并按照預(yù)定的執(zhí)行頻率從互聯(lián)網(wǎng)(Internet)中的相應(yīng)網(wǎng)站內(nèi)進(jìn)行相應(yīng)的內(nèi)容信息對應(yīng)的網(wǎng)頁的抓取操作,SP按照預(yù)定的策略從Internet中下載信息,以備抓取模塊在相應(yīng)的信息中進(jìn)行抓取操作,獲得相應(yīng)的內(nèi)容信息對應(yīng)的網(wǎng)頁;
      [0078]具體地,在該步驟中,抓取模塊可以按照預(yù)先設(shè)定的執(zhí)行頻率進(jìn)行抓取操作,該預(yù)定的執(zhí)行頻率可以與步驟503中的每次調(diào)度URL的頻率相同,也可以不同;該預(yù)定的執(zhí)行頻率具體可以通過相應(yīng)的配置接口(Conf)進(jìn)行配置及調(diào)整;
      [0079]步驟505,將步驟504抓取到的結(jié)果返回到pipeline (管線)接口中,以通過該pipeline接口將抓取到的網(wǎng)頁傳輸并保存到pagebase (網(wǎng)頁數(shù)據(jù)庫)中,該pagebase具體可以保存于存儲設(shè)備(如圖6中的編號為1、2、3的設(shè)備便可以作為相應(yīng)的存儲設(shè)備)中;具體地,首先可以將抓取的頁面存放到已抓取集合crawled_set中,包括詳情頁和列表頁,以記錄已經(jīng)抓取的頁面和抓取時間,之后,便可以根據(jù)crawled_set中的頁面信息更新pagebase中的網(wǎng)頁;
      [0080]在該步驟中,還需要完成網(wǎng)頁中的鏈接的抽取(Get url)操作,并執(zhí)行步驟506 ;
      [0081]步驟506,將新抽取到的鏈接在linkbase里面進(jìn)行dedup (重復(fù)數(shù)據(jù)刪除)處理,若新抽取到的鏈接為未存在于linkbase中的新的鏈接,則將其push (壓入)到linkbase的新URL隊列中,即執(zhí)行Merge update url操作(具體可以加入到更新的URL隊列中),以便于后續(xù)過程中對該鏈接下的網(wǎng)頁進(jìn)行爬取處理;
      [0082]執(zhí)行步驟506后,則判斷URL隊列中是否有等待抓取的URL,如果有則執(zhí)行步驟507,否則,執(zhí)行步驟508 ;
      [0083]步驟507,調(diào)度模塊選取新的URL進(jìn)入抓取模塊的待抓取隊列中,并執(zhí)行步驟504,直至針對linkbase中新URL隊列中的各個URL均已經(jīng)完成相應(yīng)的抓取操作時,過程結(jié)束。
      [0084]步驟508,將pagebase中的網(wǎng)頁提供給定制用戶,這樣,用戶便可以獲得其定制的內(nèi)容信息相關(guān)的網(wǎng)頁,該提供給用戶的網(wǎng)頁中可以為包含詳細(xì)內(nèi)容的詳情頁,也可以為包含列表信息的列表頁。
      [0085]通過上述本發(fā)明實施例提供的技術(shù)方案可以將內(nèi)容爬取過程與用戶的定制需求緊密關(guān)聯(lián)在一起,使得用戶可以實時根據(jù)自己的喜好定義自身需要定制的內(nèi)容信息及該內(nèi)容信息的來源,在定制服務(wù)提供方均可以根據(jù)用戶的定制內(nèi)容及其來源靈活地聚合來自不同網(wǎng)站的數(shù)據(jù)信息,而無需針對用戶的不同需求重新開發(fā)新的定制代碼。另外,利用本發(fā)明實施例還可以很好的收集用戶關(guān)注的內(nèi)容信息及其來源,從而便于為網(wǎng)絡(luò)中的用戶提供更好的定制服務(wù),如提供更多的關(guān)聯(lián)信息等。
      [0086]本發(fā)明實施例還提供了一種定制互聯(lián)網(wǎng)數(shù)據(jù)的實現(xiàn)裝置,其具體實現(xiàn)結(jié)構(gòu)如圖7所示,可以包括以下處理單元:
      [0087]配置信息獲取單元701,用于獲取用戶配置信息,所述用戶配置信息中包含用戶需要定制的內(nèi)容信息和所述內(nèi)容信息所在的網(wǎng)站信息;
      [0088]模板引擎單元702,用于解析所述配置信息獲取單元701獲取的用戶配置信息,獲得預(yù)定格式的所述內(nèi)容信息和網(wǎng)站信息;
      [0089]爬取單元703,用于在所述模板引擎單元702解析獲得的所述網(wǎng)站信息包含的各個網(wǎng)站內(nèi)爬取獲得所述內(nèi)容信息對應(yīng)的網(wǎng)頁;
      [0090]定制信息返回單元704,用于將所述爬取單元爬取獲得的所述內(nèi)容信息對應(yīng)的網(wǎng)頁提供給用戶。
      [0091]進(jìn)一步地,在該裝置中,所述爬取單元具體可以包括:
      [0092]鏈接隊列建立模塊7031,用于將所述模板引擎單元702解析獲得的所述網(wǎng)站信息加入到鏈接隊列中;
      [0093]調(diào)度模塊7032,用于依次從所述鏈接隊列建立模塊7031建立的包含網(wǎng)站信息的鏈接隊列中取出各個網(wǎng)站信息;
      [0094]抓取模塊7033,用于在所述調(diào)度模塊7032當(dāng)前取出的網(wǎng)站信息對應(yīng)的站點中抓取所述內(nèi)容信息對應(yīng)的網(wǎng)頁,并將所述網(wǎng)頁加入到網(wǎng)頁數(shù)據(jù)庫中,直至所述包含網(wǎng)站信息的鏈接隊列中的各個網(wǎng)站信息均被取出并完成抓取操作。
      [0095]可選地,所述調(diào)度模塊7032具體用于根據(jù)預(yù)先設(shè)定的調(diào)度頻率從所述包含網(wǎng)站信息的鏈接隊列中依次取出各個網(wǎng)站信息,若所述鏈接隊列建立模塊7031建立多個包含網(wǎng)站信息的鏈接隊列,則所述調(diào)度模塊7032還需要根據(jù)預(yù)先設(shè)置的針對各個包含網(wǎng)站信息的鏈接隊列的選取比例在各個包含網(wǎng)站信息的鏈接隊列中依次取出各個網(wǎng)站信息。
      [0096]具體地,所述抓取模塊7033還用于在在當(dāng)前取出的網(wǎng)站信息對應(yīng)的站點中抓取鏈接信息,并通過所述調(diào)度模塊7032將所述的鏈接信息插入到所述包含網(wǎng)站信息的鏈接隊列中,以便于后續(xù)過程中可以進(jìn)一步對該鏈接對應(yīng)的網(wǎng)頁進(jìn)行抓取處理,從而為用戶提供更加全面的定制信息。
      [0097]進(jìn)一步地,在本發(fā)明實施例提供的裝置中,為便于用戶靈活調(diào)整自身需要定制的內(nèi)容信息及內(nèi)容來源,則該裝置還可以包括配置信息更新單元705,用于當(dāng)用戶需要更新其定制的內(nèi)容信息和/或更新所述內(nèi)容信息所在的網(wǎng)站信息時,則修改所述用戶配置信息,或者,重新提交新的用戶配置信息。
      [0098]通過上述本發(fā)明實施例提供的裝置可以將復(fù)雜的互聯(lián)網(wǎng)爬蟲技術(shù)的實現(xiàn)過程簡單化,從而方便根據(jù)用戶的需要靈活爬取用戶定制的內(nèi)容。即相應(yīng)的爬取過程可以由用戶和定制服務(wù)方技術(shù)開發(fā)人員共同實現(xiàn),令用戶可以方便地參預(yù)到定制服務(wù)方案中來,以根據(jù)自身的需求實時提出并更新自己的定制需求。而且,爬取過程中的爬取單位可以根據(jù)類型定義,如電影、電視劇、娛樂影片等,使得用戶的定制過程十分方便且靈活。
      [0099]以上所述,僅為本發(fā)明較佳的【具體實施方式】,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉本【技術(shù)領(lǐng)域】的技術(shù)人員在本發(fā)明披露的技術(shù)范圍內(nèi),可輕易想到的變化或替換,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)該以權(quán)利要求書的保護(hù)范圍為準(zhǔn)。
      【權(quán)利要求】
      1.一種定制互聯(lián)網(wǎng)數(shù)據(jù)的實現(xiàn)方法,其特征在于,包括: 獲取用戶配置信息,所述用戶配置信息中包含用戶需要定制的內(nèi)容信息和所述內(nèi)容信息所在的網(wǎng)站信息; 解析所述用戶配置信息,獲得預(yù)定格式的所述內(nèi)容信息和網(wǎng)站信息,并在所述網(wǎng)站信息包含的各個網(wǎng)站內(nèi)爬取獲得所述內(nèi)容信息對應(yīng)的網(wǎng)頁; 將爬取獲得的所述內(nèi)容信息對應(yīng)的網(wǎng)頁提供給用戶。
      2.根據(jù)權(quán)利要求1所述的方法,其特征在于,在所述網(wǎng)站信息包含的各個網(wǎng)站內(nèi)爬取獲得所述內(nèi)容信息對應(yīng)的網(wǎng)頁的步驟包括: 依次從包含網(wǎng)站信息的鏈接隊列中取出各個網(wǎng)站信息,在當(dāng)前取出的網(wǎng)站信息對應(yīng)的站點中抓取所述內(nèi)容信息對應(yīng)的網(wǎng)頁,并將所述網(wǎng)頁加入到網(wǎng)頁數(shù)據(jù)庫中,直至所述包含網(wǎng)站信息的鏈接隊列中的各個網(wǎng)站信息均被取出并完成抓取操作。
      3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述依次從包含網(wǎng)站信息的鏈接隊列中取出各個網(wǎng)站信息的步驟包括: 根據(jù)預(yù)先設(shè)定的調(diào)度頻率從所述包含網(wǎng)站信息的鏈接隊列中依次取出各個網(wǎng)站信息,若存在多個包含網(wǎng)站信息的鏈接隊列,還需要根據(jù)預(yù)先設(shè)置的針對各個包含網(wǎng)站信息的鏈接隊列的選取比例在各個包含網(wǎng)站信息的鏈接隊列中依次取出各個網(wǎng)站信息。
      4.根據(jù)權(quán)利要求2所述的方法,其特征在于,在當(dāng)前取出的網(wǎng)站信息對應(yīng)的站點中抓取所述內(nèi)容信息對應(yīng)的網(wǎng)頁的過程中還包括: 在當(dāng)前取出的網(wǎng)站信息對應(yīng)的站點中抓取鏈接信息,并將所述的鏈接信息插入到所述包含網(wǎng)站信息的鏈接隊列中。
      5.根據(jù)權(quán)利要求1至4任一項所述的方法,其特征在于,該方法還包括: 當(dāng)用戶需要更新其定制的內(nèi)容信息和/或更新所述內(nèi)容信息所在的網(wǎng)站信息時,則修改所述用戶配置信息,或者,重新提交新的用戶配置信息。
      6.一種定制互聯(lián)網(wǎng)數(shù)據(jù)的實現(xiàn)裝置,其特征在于,包括: 配置信息獲取單 元,用于獲取用戶配置信息,所述用戶配置信息中包含用戶需要定制的內(nèi)容信息和所述內(nèi)容信息所在的網(wǎng)站信息; 模板引擎單元,用于解析所述配置信息獲取單元獲取的用戶配置信息,獲得預(yù)定格式的所述內(nèi)容信息和網(wǎng)站信息; 爬取單元,用于在所述模板引擎單元解析獲得的所述網(wǎng)站信息包含的各個網(wǎng)站內(nèi)爬取獲得所述內(nèi)容信息對應(yīng)的網(wǎng)頁; 定制信息返回單元,用于將所述爬取單元爬取獲得的所述內(nèi)容信息對應(yīng)的網(wǎng)頁提供給用戶。
      7.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述爬取單元包括: 鏈接隊列建立模塊,用于將所述模板引擎單元解析獲得的所述網(wǎng)站信息加入到鏈接隊列中; 調(diào)度模塊,用于依次從所述鏈接隊列建立模塊建立的包含網(wǎng)站信息的鏈接隊列中取出各個網(wǎng)站信息; 抓取模塊,用于在所述調(diào)度模塊當(dāng)前取出的網(wǎng)站信息對應(yīng)的站點中抓取所述內(nèi)容信息對應(yīng)的網(wǎng)頁,并將所述網(wǎng)頁加入到網(wǎng)頁數(shù)據(jù)庫中,直至所述包含網(wǎng)站信息的鏈接隊列中的各個網(wǎng)站信息均被取出并完成抓取操作。
      8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述調(diào)度模塊具體用于根據(jù)預(yù)先設(shè)定的調(diào)度頻率從所述包含網(wǎng)站信息的鏈接隊列中依次取出各個網(wǎng)站信息,若所述鏈接隊列建立模塊建立多個包含網(wǎng)站信息的鏈接隊列,則所述調(diào)度模塊還需要根據(jù)預(yù)先設(shè)置的針對各個包含網(wǎng)站信息的鏈接隊列的選取比例在各個包含網(wǎng)站信息的鏈接隊列中依次取出各個網(wǎng)站信息。
      9.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述抓取模塊還用于在在當(dāng)前取出的網(wǎng)站信息對應(yīng)的站點中抓取鏈接信息,并通過所述調(diào)度模塊將所述的鏈接信息插入到所述包含網(wǎng)站信息的鏈接隊列中。
      10.根據(jù)權(quán)利要求6至9任一項所述的裝置,其特征在于,該裝置還包括配置信息更新單元,用于當(dāng)用戶需要更新其定制的內(nèi)容信息和/或更新所述內(nèi)容信息所在的網(wǎng)站信息時,則修改所述用戶配置信息`,或者,重新提交新的用戶配置信息。
      【文檔編號】G06F17/30GK103559304SQ201310576992
      【公開日】2014年2月5日 申請日期:2013年11月18日 優(yōu)先權(quán)日:2013年11月18日
      【發(fā)明者】程座鵬 申請人:北京暴風(fēng)科技股份有限公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1