国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      生成網(wǎng)頁模板的方法及裝置制造方法

      文檔序號:6520645閱讀:212來源:國知局
      生成網(wǎng)頁模板的方法及裝置制造方法
      【專利摘要】本發(fā)明公開一種生成網(wǎng)頁模板的方法及裝置,屬于互聯(lián)網(wǎng)【技術(shù)領(lǐng)域】。所述方法包括:構(gòu)建對網(wǎng)頁進(jìn)行標(biāo)注的可視化效果框架;獲取對網(wǎng)頁各部分內(nèi)容區(qū)域進(jìn)行標(biāo)注的指示;記錄內(nèi)容區(qū)域與標(biāo)注指示的對應(yīng)關(guān)系,得到網(wǎng)頁模板。根據(jù)本發(fā)明,能夠提高生成網(wǎng)頁模板的效率和準(zhǔn)確性。
      【專利說明】生成網(wǎng)頁模板的方法及裝置
      【技術(shù)領(lǐng)域】
      [0001]本發(fā)明涉及互聯(lián)網(wǎng)【技術(shù)領(lǐng)域】,具體涉及一種生成網(wǎng)頁模板的方法及裝置。
      【背景技術(shù)】
      [0002]網(wǎng)頁模板可以用于抽取網(wǎng)頁的內(nèi)容,比如有的搜索引擎在抓取網(wǎng)站時使用了定向采集技術(shù),定向采集的蜘蛛使用網(wǎng)頁模板把網(wǎng)站的相關(guān)內(nèi)容抽取出來,獲得格式化的內(nèi)容,包括網(wǎng)頁的標(biāo)題、作者、發(fā)表時間和正文等信息。
      [0003]現(xiàn)有的一種生成網(wǎng)頁模板的方法為:首先,根據(jù)頁面的URL(Uniform ResourceLocator,統(tǒng)一資源定位符),下載頁面的源代碼;其次,根據(jù)頁面的源代碼對頁面結(jié)構(gòu)進(jìn)行自動分析,計(jì)算出頁面中各結(jié)構(gòu)的哈希值;然后,根據(jù)頁面的源代碼人工判斷頁面中哪些結(jié)構(gòu)對應(yīng)標(biāo)題,哪些結(jié)構(gòu)對應(yīng)正文,哪些結(jié)構(gòu)對應(yīng)發(fā)表時間等,并進(jìn)行標(biāo)記;最后,生成結(jié)構(gòu)的哈希值與結(jié)構(gòu)的內(nèi)容類型的對應(yīng)關(guān)系,得到網(wǎng)頁模板。
      [0004]現(xiàn)有的生成網(wǎng)頁模板方法至少存在如下缺點(diǎn):
      [0005]人工標(biāo)記頁面結(jié)構(gòu)的內(nèi)容類型是通過文本編輯進(jìn)行的,網(wǎng)頁模板里面有大量的不相關(guān)的內(nèi)容,有的網(wǎng)頁模板甚至有好幾萬行,導(dǎo)致人工標(biāo)記的效率非常低;
      [0006]網(wǎng)頁模板中的各種內(nèi)容夾雜在網(wǎng)頁代碼中,由于網(wǎng)頁內(nèi)容沒有直觀的呈現(xiàn)出來,如果對網(wǎng)頁設(shè)計(jì)語言不熟,則不容易確定頁面結(jié)構(gòu)的內(nèi)容類型,人工標(biāo)記時就容易出錯,導(dǎo)致生成的網(wǎng)頁模板的準(zhǔn)確性不高,進(jìn)而導(dǎo)致根據(jù)該網(wǎng)頁模板進(jìn)行內(nèi)容抽取的準(zhǔn)確性也不聞。

      【發(fā)明內(nèi)容】

      [0007]鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上述問題的生成網(wǎng)頁模板的方法及裝置。
      [0008]依據(jù)本發(fā)明的一個方面,提供了一種生成網(wǎng)頁模板的方法,所述方法包括:
      [0009]構(gòu)建對網(wǎng)頁進(jìn)行標(biāo)注的可視化效果框架;
      [0010]獲取對網(wǎng)頁各部分內(nèi)容區(qū)域進(jìn)行標(biāo)注的指示;
      [0011]記錄內(nèi)容區(qū)域與標(biāo)注指示的對應(yīng)關(guān)系,得到網(wǎng)頁模板。
      [0012]可選地,所述可視化效果框架包括內(nèi)容區(qū)域、位于選中的內(nèi)容區(qū)域上方的蒙版和標(biāo)注菜單,所述標(biāo)注菜單包括多種內(nèi)容類型菜單項(xiàng);
      [0013]所述獲取對網(wǎng)頁各部分內(nèi)容區(qū)域進(jìn)行標(biāo)注的指示包括:獲取通過標(biāo)注菜單選擇的內(nèi)容類型。
      [0014]可選地,在構(gòu)建對網(wǎng)頁進(jìn)行標(biāo)注的可視化效果框架之前,所述方法還包括:
      [0015]獲取網(wǎng)頁的源代碼,根據(jù)所述源代碼生成所述網(wǎng)頁的DOM樹;
      [0016]獲取所述DOM樹中各節(jié)點(diǎn)對應(yīng)的標(biāo)簽的哈希值;
      [0017]為所述網(wǎng)頁的各標(biāo)簽添加哈希值屬性;
      [0018]所述記錄內(nèi)容區(qū)域與標(biāo)注指示的對應(yīng)關(guān)系,包括:記錄內(nèi)容區(qū)域所屬標(biāo)簽的哈希值與選擇的內(nèi)容類型的對應(yīng)關(guān)系。
      [0019]可選地,所述方法還包括:對根據(jù)同一資源站點(diǎn)下的多個網(wǎng)頁生成的多個網(wǎng)頁模板進(jìn)行統(tǒng)計(jì),提取所述多個網(wǎng)頁模板中的相同部分生成最終的網(wǎng)頁模板。
      [0020]可選地,所述獲取所述DOM樹中各節(jié)點(diǎn)對應(yīng)的標(biāo)簽的哈希值,包括:
      [0021]為所述網(wǎng)頁的各標(biāo)簽添加索引屬性;
      [0022]將添加索引屬性后的網(wǎng)頁的源代碼發(fā)送到服務(wù)端,以供服務(wù)端進(jìn)行標(biāo)簽的哈希值計(jì)算;
      [0023]接收服務(wù)端發(fā)送的標(biāo)簽索引值與哈希值的對應(yīng)關(guān)系。根據(jù)本發(fā)明的另一方面,提供了一種生成網(wǎng)頁模板的裝置,所述裝置包括:
      [0024]可視化效果框架構(gòu)建器,適于構(gòu)建對網(wǎng)頁進(jìn)行標(biāo)注的可視化效果框架;
      [0025]標(biāo)注指示獲取器,適于獲取對網(wǎng)頁各部分內(nèi)容區(qū)域進(jìn)行標(biāo)注的指示;
      [0026]網(wǎng)頁模板生成器,適于記錄內(nèi)容區(qū)域與標(biāo)注指示的對應(yīng)關(guān)系,得到網(wǎng)頁模板。
      [0027]可選地,所述可視化效果框架包括內(nèi)容區(qū)域、位于選中的內(nèi)容區(qū)域上方的蒙版和標(biāo)注菜單,所述標(biāo)注菜單包括多種內(nèi)容類型菜單項(xiàng);
      [0028]所述標(biāo)注指示獲取器進(jìn)一步適于:獲取通過標(biāo)注菜單選擇的內(nèi)容類型。
      [0029]可選地,所述裝置還包括:
      [0030]DOM樹生成器,適于獲取網(wǎng)頁的源代碼,根據(jù)所述源代碼生成所述網(wǎng)頁的DOM樹;
      [0031]哈希值獲取器,適于獲取所述DOM樹中各節(jié)點(diǎn)對應(yīng)的標(biāo)簽的哈希值;
      [0032]哈希值屬性添加器,適于為所述網(wǎng)頁的各標(biāo)簽添加哈希值屬性;
      [0033]所述網(wǎng)頁模板生成器進(jìn)一步適于:記錄內(nèi)容區(qū)域所屬標(biāo)簽的哈希值與選擇的內(nèi)容類型的對應(yīng)關(guān)系,得到網(wǎng)頁模板。
      [0034]可選地,所述裝置還包括統(tǒng)計(jì)器,適于對根據(jù)同一資源站點(diǎn)下的多個網(wǎng)頁生成的多個網(wǎng)頁模板進(jìn)行統(tǒng)計(jì),提取所述多個網(wǎng)頁模板中的相同部分生成最終的網(wǎng)頁模板。
      [0035]可選地,所述哈希值獲取器進(jìn)一步適于:
      [0036]為所述網(wǎng)頁的各標(biāo)簽添加索引屬性;
      [0037]將添加索引屬性后的網(wǎng)頁的源代碼發(fā)送到服務(wù)端,以供服務(wù)端進(jìn)行標(biāo)簽的哈希值計(jì)算;
      [0038]接收服務(wù)端發(fā)送的標(biāo)簽索引值與哈希值的對應(yīng)關(guān)系。
      [0039]根據(jù)本發(fā)明上述的一個或多個技術(shù)方案,通過構(gòu)建對網(wǎng)頁進(jìn)行標(biāo)注的可視化效果框架,不需要手工編輯網(wǎng)頁模板文本,只需要在所述可視化效果框架中選擇網(wǎng)頁內(nèi)容區(qū)域進(jìn)行可視化操作,即可輕松定義網(wǎng)頁模板,提高了生成網(wǎng)頁模板的效率;而且,由于網(wǎng)頁內(nèi)容被直觀的呈現(xiàn)出來,不需要具備網(wǎng)頁設(shè)計(jì)方面的專業(yè)知識,就很容易確定頁面結(jié)構(gòu)的內(nèi)容類型,提高了生成網(wǎng)頁模板的準(zhǔn)確性。
      [0040]上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說明書的內(nèi)容予以實(shí)施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠更明顯易懂,以下特舉本發(fā)明的【具體實(shí)施方式】。
      【專利附圖】

      【附圖說明】
      [0041]通過閱讀下文優(yōu)選實(shí)施方式的詳細(xì)描述,各種其他的優(yōu)點(diǎn)和益處對于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實(shí)施方式的目的,而并不認(rèn)為是對本發(fā)明的限制。而且在整個附圖中,用相同的參考符號表示相同的部件。在附圖中:
      [0042]圖1示出了根據(jù)本發(fā)明一個實(shí)施例的生成網(wǎng)頁模板的方法流程圖;
      [0043]圖2示出了本發(fā)明實(shí)施例中對網(wǎng)頁的標(biāo)題進(jìn)行標(biāo)注的示意圖;
      [0044]圖3示出了本發(fā)明實(shí)施例中對網(wǎng)頁的正文進(jìn)行標(biāo)注的示意圖;
      [0045]圖4示出了根據(jù)本發(fā)明一個實(shí)施例的生成網(wǎng)頁模板的方法詳細(xì)流程圖;
      [0046]圖5示出了根據(jù)本發(fā)明一個實(shí)施例的生成網(wǎng)頁模板的裝置結(jié)構(gòu)圖;
      [0047]圖6示出了根據(jù)本發(fā)明一個實(shí)施例的對網(wǎng)頁提供可視化標(biāo)注的方法流程圖;
      [0048]圖7示出了根據(jù)本發(fā)明一個實(shí)施例的對網(wǎng)頁提供可視化標(biāo)注的裝置結(jié)構(gòu)圖;
      [0049]圖8示出了根據(jù)本發(fā)明一個實(shí)施例的根據(jù)可視化模板進(jìn)行網(wǎng)頁內(nèi)容抽取的方法流程圖;
      [0050]圖9示出了根據(jù)本發(fā)明一個實(shí)施例的根據(jù)可視化模板進(jìn)行網(wǎng)頁內(nèi)容抽取的裝置結(jié)構(gòu)圖;
      [0051]圖10示出了根據(jù)本發(fā)明一個實(shí)施例的根據(jù)可視化模板進(jìn)行網(wǎng)頁內(nèi)容抽取的系統(tǒng)結(jié)構(gòu)圖。
      【具體實(shí)施方式】
      [0052]下面將參照附圖更詳細(xì)地描述本公開的示例性實(shí)施例。雖然附圖中顯示了本公開的示例性實(shí)施例,然而應(yīng)當(dāng)理解,可以以各種形式實(shí)現(xiàn)本公開而不應(yīng)被這里闡述的實(shí)施例所限制。相反,提供這些實(shí)施例是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。
      [0053]實(shí)施例1
      [0054]本實(shí)施例提供一種生成網(wǎng)頁模板的方法及裝置
      [0055]圖1示出了根據(jù)本發(fā)明一個實(shí)施例的生成網(wǎng)頁模板的方法流程圖,參照圖1,所述方法包括:
      [0056]步驟102,構(gòu)建對網(wǎng)頁進(jìn)行標(biāo)注的可視化效果框架;
      [0057]在一種實(shí)現(xiàn)方式中,所述可視化效果框架可以包括:內(nèi)容區(qū)域、位于選中的內(nèi)容區(qū)域上方的蒙版和標(biāo)注菜單,所述標(biāo)注菜單包括多種內(nèi)容類型菜單項(xiàng)。
      [0058]通過獲取網(wǎng)頁的源代碼例如html (hypertext mark-up language,超文本標(biāo)記語言)文檔,將樣式表文件例如CSS (cascading style sheets,層疊樣式表)文件附加到html文檔,并在html文檔中增加js (javascript)腳本,可以構(gòu)建網(wǎng)頁的可視化效果框架。具體地,通過js腳本可以實(shí)現(xiàn)當(dāng)檢測到某個內(nèi)容區(qū)域被選中時,在選中的內(nèi)容區(qū)域上方出現(xiàn)蒙版和標(biāo)注菜單,所述蒙版和標(biāo)注菜單的顯示方式可以由樣式表文件中定義的規(guī)則來限定。
      [0059]根據(jù)上述的可視化效果框架,網(wǎng)頁在瀏覽器中進(jìn)行顯示時,網(wǎng)頁的各部分內(nèi)容區(qū)域會具有可視化效果,某個內(nèi)容區(qū)域被選中時(例如檢測到鼠標(biāo)移動到該內(nèi)容區(qū)域上方,又例如,在觸摸屏中檢測到對該內(nèi)容區(qū)域的點(diǎn)擊或者檢測到在該內(nèi)容區(qū)域的滑動手勢),該內(nèi)容區(qū)域的上方會出現(xiàn)蒙版,并且,該內(nèi)容區(qū)域的上方會同時出現(xiàn)標(biāo)記菜單或者根據(jù)觸發(fā)出現(xiàn)標(biāo)記菜單,例如,在被選中的內(nèi)容區(qū)域上單擊鼠標(biāo)右鍵,會出現(xiàn)各種內(nèi)容類型菜單項(xiàng)。如圖2和圖3所示,所述內(nèi)容類型菜單項(xiàng)可以包括“標(biāo)記為標(biāo)題”、“標(biāo)記為正文”和“標(biāo)記為日期”等,另外,所述內(nèi)容類型菜單項(xiàng)還可以包括“保存標(biāo)記”和“結(jié)束標(biāo)記”等。
      [0060]步驟104,獲取對網(wǎng)頁各部分內(nèi)容區(qū)域進(jìn)行標(biāo)注的指示;
      [0061]在本發(fā)明實(shí)施例中,執(zhí)行標(biāo)注的主體是客戶端,客戶端可以由用戶、運(yùn)營人員或管理人員進(jìn)行操作??梢酝ㄟ^鼠標(biāo)對網(wǎng)頁進(jìn)行標(biāo)注,將鼠標(biāo)移動到某個內(nèi)容區(qū)域上方并單擊鼠標(biāo)右鍵,然后,點(diǎn)擊某個內(nèi)容類型菜單項(xiàng),便可完成對該部分內(nèi)容區(qū)域的標(biāo)注。在觸摸屏中,還可以根據(jù)對菜單項(xiàng)的觸摸操作來選擇內(nèi)容類型,實(shí)現(xiàn)對網(wǎng)頁的標(biāo)注。如圖2所示,通過單擊“標(biāo)記為標(biāo)題”,可以將相應(yīng)的內(nèi)容區(qū)域標(biāo)記為標(biāo)題,如圖3所示,通過單擊“標(biāo)記為正文”,可以將相應(yīng)的內(nèi)容區(qū)域標(biāo)記為正文。
      [0062]步驟106,記錄內(nèi)容區(qū)域與標(biāo)注指示的對應(yīng)關(guān)系,得到網(wǎng)頁模板。
      [0063]每標(biāo)記一個內(nèi)容區(qū)域,并選則“保存標(biāo)記”菜單項(xiàng),就可以將該內(nèi)容區(qū)域與選擇的內(nèi)容類型的對應(yīng)關(guān)系存儲到網(wǎng)頁模板中,通過選擇“結(jié)束標(biāo)記”菜單項(xiàng),完成對網(wǎng)頁中所有需要標(biāo)記的內(nèi)容區(qū)域的標(biāo)記,得到該網(wǎng)頁對應(yīng)的網(wǎng)頁模板(或者稱為網(wǎng)頁內(nèi)容模板)。
      [0064]可見,根據(jù)本發(fā)明實(shí)施例的技術(shù)方案,只需要在所述可視化效果框架中選擇網(wǎng)頁內(nèi)容區(qū)域進(jìn)行可視化操作,即可輕松定義網(wǎng)頁模板,提高了生成網(wǎng)頁模板的效率;而且,由于網(wǎng)頁內(nèi)容被直觀的呈現(xiàn)出來,很容易確定頁面結(jié)構(gòu)的內(nèi)容類型,提高了生成網(wǎng)頁模板的準(zhǔn)確性。
      [0065]上述方案是根據(jù)一個網(wǎng)頁來生成對應(yīng)于該網(wǎng)頁的網(wǎng)頁模板。對于一個資源站點(diǎn)而言,其可能包括很多網(wǎng)頁,這些網(wǎng)頁一般是根據(jù)相同的網(wǎng)頁設(shè)計(jì)模板生成,因而這些網(wǎng)頁的結(jié)構(gòu)會基本相同,有可能僅存在很少的不同之處,例如,有的網(wǎng)頁中可能包括評論內(nèi)容,而有的網(wǎng)頁不包括評論內(nèi)容,但這些網(wǎng)頁都包括標(biāo)題、作者、發(fā)表時間和正文等內(nèi)容。如果對每個網(wǎng)頁都進(jìn)行上述的步驟來生成網(wǎng)頁模板,則工作量仍然較大。
      [0066]于是,為進(jìn)一步提高網(wǎng)頁模板的生成效率,所述方法還可以包括:對根據(jù)同一資源站點(diǎn)下的多個網(wǎng)頁生成的多個網(wǎng)頁模板進(jìn)行統(tǒng)計(jì),提取所述多個網(wǎng)頁模板中的相同部分生成最終的網(wǎng)頁模板。具體地,可以對資源站點(diǎn)包括的所有網(wǎng)頁進(jìn)行抽樣,得到多個網(wǎng)頁;然后,根據(jù)上述方法生成多個網(wǎng)頁模板;最后,提取所述多個網(wǎng)頁模板(網(wǎng)頁模板中每條內(nèi)容區(qū)域與內(nèi)容類型的對應(yīng)關(guān)系為網(wǎng)頁模板的一個部分)中的相同部分生成最終的網(wǎng)頁模板(或者稱為該資源站點(diǎn)的網(wǎng)頁模板)。
      [0067]例如,對于360網(wǎng)站,可以先根據(jù)該網(wǎng)站的主頁URL (http://www.#/)獲取首頁的HTML文檔;然后對該HTML文檔進(jìn)行分析發(fā)現(xiàn)該網(wǎng)站包括多個(例如1000個)子網(wǎng)頁,于是,從這1000個子網(wǎng)頁按照預(yù)定的算法(例如隨機(jī)算法)抽取50個子網(wǎng)頁;對這50個子網(wǎng)頁進(jìn)行可視化標(biāo)注后生成50個網(wǎng)頁模板;最后,提取這50個網(wǎng)頁模板中的相同部分生成對應(yīng)于360網(wǎng)站的網(wǎng)頁模板。
      [0068]另外,在本發(fā)明實(shí)施例中,為便于定位和標(biāo)識網(wǎng)頁中的內(nèi)容區(qū)域,還可以為各內(nèi)容區(qū)域所屬的標(biāo)簽添加哈希值屬性,相應(yīng)地,在網(wǎng)頁模板中存儲的就是內(nèi)容區(qū)域所屬標(biāo)簽的哈希值與選擇的內(nèi)容類型的對應(yīng)關(guān)系。在此種情況下,本發(fā)明實(shí)施例的生成網(wǎng)頁模板的方法在構(gòu)建對網(wǎng)頁進(jìn)行標(biāo)注的可視化效果框架的步驟之前,還可以包括如下步驟:
      [0069]首先,獲取網(wǎng)頁的源代碼,根據(jù)所述源代碼生成所述網(wǎng)頁的DOM(Document ObjectModel,文檔對象模型)樹;
      [0070]然后,獲取所述DOM樹中各節(jié)點(diǎn)對應(yīng)的標(biāo)簽的哈希值;[0071]最后,為所述網(wǎng)頁的各標(biāo)簽添加哈希值屬性。
      [0072]其中,所述哈希值可以包括標(biāo)簽在所述DOM樹中的層級哈希值和標(biāo)簽自身的哈希值。標(biāo)簽在DOM樹中的層級哈希值可以根據(jù)當(dāng)前標(biāo)簽所在的DOM樹的層級關(guān)系計(jì)算出來,標(biāo)簽自身的哈希值可以根據(jù)當(dāng)前標(biāo)簽所擁有的屬性節(jié)點(diǎn)計(jì)算出來。
      [0073]在具體實(shí)現(xiàn)時,可以由服務(wù)端來進(jìn)行標(biāo)簽的哈希值計(jì)算。如圖10所示,服務(wù)端210位于搜索引擎200中,搜索引擎200與多個(圖中示出了 3個)第三方網(wǎng)站服務(wù)器300通信連接,服務(wù)端210可以配合客戶端100來生成網(wǎng)頁模板。此種情況下,所述獲取所述DOM樹中各節(jié)點(diǎn)對應(yīng)的標(biāo)簽的哈希值可以包括:
      [0074]首先,在客戶端100為所述網(wǎng)頁的各標(biāo)簽添加索引屬性;
      [0075]然后,客戶端100將添加索引屬性后的網(wǎng)頁的源代碼發(fā)送到服務(wù)端210 ;
      [0076]其次,服務(wù)端210進(jìn)行標(biāo)簽的哈希值計(jì)算;
      [0077]最后,服務(wù)端210將標(biāo)簽索引值與哈希值的對應(yīng)關(guān)系發(fā)送到客戶端100。
      [0078]在實(shí)施本發(fā)明時,客戶端的操作可以包括如下步驟:
      [0079]首先,在客戶端安裝可視化效果框架生成插件,并訪問第三方網(wǎng)站服務(wù)器300中的網(wǎng)頁;
      [0080]然后,在一種實(shí)現(xiàn)方式中,鼠標(biāo)移動到網(wǎng)頁內(nèi)容區(qū)域上方,內(nèi)容區(qū)域的上方出現(xiàn)淡藍(lán)色的蒙版,表示該內(nèi)容區(qū)域被選中,右鍵單擊,出現(xiàn)選擇菜單,可以選擇該內(nèi)容區(qū)域?qū)儆跇?biāo)題、正文等內(nèi)容類型;
      [0081]最后,標(biāo)記完成后,客戶端生成網(wǎng)頁|旲板。
      [0082]客戶端可以把生成的網(wǎng)頁模板發(fā)送給服務(wù)端,服務(wù)端在進(jìn)行定向采集網(wǎng)頁內(nèi)容時即可使用該網(wǎng)頁模板進(jìn)行信息采集。
      [0083]以下給出一個本發(fā)明實(shí)施例的生成網(wǎng)頁模板的方法一個詳細(xì)流程。參照圖4,所述方法包括:
      [0084]步驟402,客戶端獲取網(wǎng)頁的源代碼,根據(jù)所述源代碼生成所述網(wǎng)頁的DOM樹;
      [0085]步驟404,客戶端為DOM樹的每個標(biāo)簽添加索引屬性,其中,DOM樹的遍歷可以使用深度優(yōu)先的算法進(jìn)行;
      [0086]步驟406,客戶端把添加索引(index)屬性后的網(wǎng)頁的源代碼發(fā)送給服務(wù)端,發(fā)送
      的內(nèi)容例如為:
      [0087]
      【權(quán)利要求】
      1.一種生成網(wǎng)頁模板的方法,包括: 構(gòu)建對網(wǎng)頁進(jìn)行標(biāo)注的可視化效果框架; 獲取對網(wǎng)頁各部分內(nèi)容區(qū)域進(jìn)行標(biāo)注的指示; 記錄內(nèi)容區(qū)域與標(biāo)注指示的對應(yīng)關(guān)系,得到網(wǎng)頁模板。
      2.如權(quán)利要求1所述的方法,其中: 所述可視化效果框架包括內(nèi)容區(qū)域、位于選中的內(nèi)容區(qū)域上方的蒙版和標(biāo)注菜單,所述標(biāo)注菜單包括多種內(nèi)容類型菜單項(xiàng); 所述獲取對網(wǎng)頁各部分內(nèi)容區(qū)域進(jìn)行標(biāo)注的指示,包括:獲取通過標(biāo)注菜單選擇的內(nèi)容類型。
      3.如權(quán)利要求2所述的方法,其中,在構(gòu)建對網(wǎng)頁進(jìn)行標(biāo)注的可視化效果框架之前,所述方法還包括: 獲取網(wǎng)頁的源代碼,根據(jù)所述源代碼生成所述網(wǎng)頁的DOM樹; 獲取所述DOM樹中各節(jié)點(diǎn)對應(yīng)的標(biāo)簽的哈希值; 為所述網(wǎng)頁的各標(biāo)簽添加哈希值屬性; 所述記錄內(nèi)容區(qū)域與標(biāo)注指示的對應(yīng)關(guān)系,包括:記錄內(nèi)容區(qū)域所屬標(biāo)簽的哈希值與選擇的內(nèi)容類型的對應(yīng)關(guān)系。
      4.如權(quán)利要求3所述的方法,其中,還包括:` 對根據(jù)同一資源站點(diǎn)下的多個網(wǎng)頁生成的多個網(wǎng)頁模板進(jìn)行統(tǒng)計(jì),提取所述多個網(wǎng)頁模板中的相同部分生成最終的網(wǎng)頁模板。
      5.如權(quán)利要求3所述的方法,其中,所述獲取所述DOM樹中各節(jié)點(diǎn)對應(yīng)的標(biāo)簽的哈希值,包括: 為所述網(wǎng)頁的各標(biāo)簽添加索引屬性; 將添加索引屬性后的網(wǎng)頁的源代碼發(fā)送到服務(wù)端,以供服務(wù)端進(jìn)行標(biāo)簽的哈希值計(jì)算; 接收服務(wù)端發(fā)送的標(biāo)簽索引值與哈希值的對應(yīng)關(guān)系。
      6.一種生成網(wǎng)頁模板的裝置,包括: 可視化效果框架構(gòu)建器,適于構(gòu)建對網(wǎng)頁進(jìn)行標(biāo)注的可視化效果框架; 標(biāo)注指示獲取器,適于獲取對網(wǎng)頁各部分內(nèi)容區(qū)域進(jìn)行標(biāo)注的指示; 網(wǎng)頁模板生成器,適于記錄內(nèi)容區(qū)域與標(biāo)注指示的對應(yīng)關(guān)系,得到網(wǎng)頁模板。
      7.如權(quán)利要求6所述的裝置,其中: 所述可視化效果框架包括內(nèi)容區(qū)域、位于選中的內(nèi)容區(qū)域上方的蒙版和標(biāo)注菜單,所述標(biāo)注菜單包括多種內(nèi)容類型菜單項(xiàng); 所述標(biāo)注指示獲取器進(jìn)一步適于:獲取通過標(biāo)注菜單選擇的內(nèi)容類型。
      8.如權(quán)利要求7所述的裝置,其中,還包括: DOM樹生成器,適于獲取網(wǎng)頁的源代碼,根據(jù)所述源代碼生成所述網(wǎng)頁的DOM樹; 哈希值獲取器,適于獲取所述DOM樹中各節(jié)點(diǎn)對應(yīng)的標(biāo)簽的哈希值; 哈希值屬性添加器,適于為所述網(wǎng)頁的各標(biāo)簽添加哈希值屬性; 所述網(wǎng)頁模板生成器進(jìn)一步適于:記錄內(nèi)容區(qū)域所屬標(biāo)簽的哈希值與選擇的內(nèi)容類型的對應(yīng)關(guān)系,得到網(wǎng)頁模板。
      9.如權(quán)利要求8所述的裝置,其中,還包括: 統(tǒng)計(jì)器,適于對根據(jù)同一資源站點(diǎn)下的多個網(wǎng)頁生成的多個網(wǎng)頁模板進(jìn)行統(tǒng)計(jì),提取所述多個網(wǎng)頁模板中的相同部分生成最終的網(wǎng)頁模板。
      10.如權(quán)利要求8所述的裝置,其中,所述哈希值獲取器進(jìn)一步適于: 為所述網(wǎng)頁的各標(biāo)簽添加索引屬性; 將添加索引屬性后的網(wǎng)頁的源代碼發(fā)送到服務(wù)端,以供服務(wù)端進(jìn)行標(biāo)簽的哈希值計(jì)算; 接收服務(wù)端發(fā)送的標(biāo)簽索`引值與哈希值的對應(yīng)關(guān)系。
      【文檔編號】G06F17/30GK103678509SQ201310606200
      【公開日】2014年3月26日 申請日期:2013年11月25日 優(yōu)先權(quán)日:2013年11月25日
      【發(fā)明者】馬曉輝 申請人:北京奇虎科技有限公司, 奇智軟件(北京)有限公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
      1