国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      對(duì)網(wǎng)頁提供可視化標(biāo)注的方法及裝置制造方法

      文檔序號(hào):6520646閱讀:240來源:國知局
      對(duì)網(wǎng)頁提供可視化標(biāo)注的方法及裝置制造方法
      【專利摘要】本發(fā)明公開一種對(duì)網(wǎng)頁提供可視化標(biāo)注的方法及裝置,屬于互聯(lián)網(wǎng)【技術(shù)領(lǐng)域】。所述方法包括:構(gòu)建通過位于網(wǎng)頁內(nèi)容區(qū)域上方的蒙版對(duì)網(wǎng)頁進(jìn)行標(biāo)注的可視化效果框架;獲取在所述蒙版上對(duì)網(wǎng)頁各部分內(nèi)容區(qū)域進(jìn)行標(biāo)注的指示。本發(fā)明能夠提高對(duì)網(wǎng)頁進(jìn)行標(biāo)注的效率和準(zhǔn)確性。
      【專利說明】對(duì)網(wǎng)頁提供可視化標(biāo)注的方法及裝置
      【技術(shù)領(lǐng)域】
      [0001]本發(fā)明涉及互聯(lián)網(wǎng)【技術(shù)領(lǐng)域】,具體涉及一種對(duì)網(wǎng)頁提供可視化標(biāo)注的方法及裝置。
      【背景技術(shù)】
      [0002]網(wǎng)頁模板可以用于抽取網(wǎng)頁的內(nèi)容,比如有的搜索引擎在抓取網(wǎng)站時(shí)使用了定向采集技術(shù),定向采集的蜘蛛使用網(wǎng)頁模板把網(wǎng)站的相關(guān)內(nèi)容抽取出來,獲得格式化的內(nèi)容,包括網(wǎng)頁的標(biāo)題、作者、發(fā)表時(shí)間和正文等信息。
      [0003]現(xiàn)有的一種生成網(wǎng)頁模板的方法為:首先,根據(jù)頁面的URL(Uniform ResourceLocator,統(tǒng)一資源定位符),下載頁面的源代碼;其次,根據(jù)頁面的源代碼對(duì)頁面結(jié)構(gòu)進(jìn)行自動(dòng)分析,計(jì)算出頁面中各結(jié)構(gòu)的哈希值;然后,根據(jù)頁面的源代碼人工判斷頁面中哪些結(jié)構(gòu)對(duì)應(yīng)標(biāo)題,哪些結(jié)構(gòu)對(duì)應(yīng)正文,哪些結(jié)構(gòu)對(duì)應(yīng)發(fā)表時(shí)間等,并進(jìn)行標(biāo)記;最后,生成結(jié)構(gòu)的哈希值與結(jié)構(gòu)的內(nèi)容類型的對(duì)應(yīng)關(guān)系,得到網(wǎng)頁模板。
      [0004]現(xiàn)有的生成網(wǎng)頁模板方法至少存在如下缺點(diǎn):
      [0005]人工標(biāo)記頁面結(jié)構(gòu)的內(nèi)容類型是通過文本編輯進(jìn)行的,網(wǎng)頁模板里面有大量的不相關(guān)的內(nèi)容,有的網(wǎng)頁模板甚至有好幾萬行,導(dǎo)致人工標(biāo)記的效率非常低;
      [0006]網(wǎng)頁模板中的各種內(nèi)容夾雜在網(wǎng)頁代碼中,由于網(wǎng)頁內(nèi)容沒有直觀的呈現(xiàn)出來,如果對(duì)網(wǎng)頁設(shè)計(jì)語言不熟,則不容易確定頁面結(jié)構(gòu)的內(nèi)容類型,人工標(biāo)記時(shí)就容易出錯(cuò),導(dǎo)致生成的網(wǎng)頁模板的準(zhǔn)確性不高,進(jìn)而導(dǎo)致根據(jù)該網(wǎng)頁模板進(jìn)行內(nèi)容抽取的準(zhǔn)確性也不聞。

      【發(fā)明內(nèi)容】

      [0007]鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上述問題的對(duì)網(wǎng)頁提供可視化標(biāo)注的方法及裝置。
      [0008]依據(jù)本發(fā)明的一個(gè)方面,提供了一種對(duì)網(wǎng)頁提供可視化標(biāo)注的方法,所述方法包括:
      [0009]構(gòu)建通過位于網(wǎng)頁內(nèi)容區(qū)域上方的蒙版對(duì)網(wǎng)頁進(jìn)行標(biāo)注的可視化效果框架;
      [0010]獲取在所述蒙版上對(duì)網(wǎng)頁各部分內(nèi)容區(qū)域進(jìn)行標(biāo)注的指示。
      [0011]可選地,所述可視化效果框架包括內(nèi)容區(qū)域、位于選中的內(nèi)容區(qū)域上方的蒙版和標(biāo)注菜單,所述標(biāo)注菜單包括多種內(nèi)容類型菜單項(xiàng),所述指示為通過標(biāo)注菜單選擇的對(duì)應(yīng)于選中的內(nèi)容區(qū)域的內(nèi)容類型。
      [0012]可選地,在構(gòu)建對(duì)網(wǎng)頁進(jìn)行標(biāo)注的可視化效果框架之前,所述方法還包括:
      [0013]獲取網(wǎng)頁的源代碼,根據(jù)所述源代碼生成所述網(wǎng)頁的DOM樹;
      [0014]獲取所述DOM樹中各節(jié)點(diǎn)對(duì)應(yīng)的標(biāo)簽的哈希值;
      [0015]為所述網(wǎng)頁的各標(biāo)簽添加哈希值屬性,其中,所述哈希值用于定位和標(biāo)識(shí)網(wǎng)頁中的內(nèi)容區(qū)域。[0016]可選地,所述哈希值包括:標(biāo)簽在所述DOM樹中的層級(jí)哈希值和標(biāo)簽自身的哈希值。
      [0017]可選地,所述獲取所述DOM樹中各節(jié)點(diǎn)對(duì)應(yīng)的標(biāo)簽的哈希值,包括:
      [0018]為所述網(wǎng)頁的各標(biāo)簽添加索引屬性;
      [0019]將添加索引屬性后的網(wǎng)頁的源代碼發(fā)送到服務(wù)端,以供服務(wù)端進(jìn)行標(biāo)簽的哈希值計(jì)算;
      [0020]接收服務(wù)端發(fā)送的標(biāo)簽索引值與哈希值的對(duì)應(yīng)關(guān)系。
      [0021]根據(jù)本發(fā)明的另一方面,提供了一種對(duì)網(wǎng)頁提供可視化標(biāo)注的裝置,所述裝置包括:
      [0022]可視化效果框架構(gòu)建器,適于構(gòu)建通過位于網(wǎng)頁內(nèi)容區(qū)域上方的蒙版對(duì)網(wǎng)頁進(jìn)行標(biāo)注的可視化效果框架;
      [0023]標(biāo)注指示獲取器,適于獲取在所述蒙版上對(duì)網(wǎng)頁各部分內(nèi)容區(qū)域進(jìn)行標(biāo)注的指
      /Jn ο
      [0024]可選地,所述可視化效果框架包括內(nèi)容區(qū)域、位于選中的內(nèi)容區(qū)域上方的蒙版和標(biāo)注菜單,所述標(biāo)注菜單包括多種內(nèi)容類型菜單項(xiàng),所述指示為通過標(biāo)注菜單選擇的對(duì)應(yīng)于選中的內(nèi)容區(qū)域的內(nèi)容類型。
      [0025]可選地,所述裝置還包括:
      [0026]DOM樹生成器,適于獲取網(wǎng)頁的源代碼,根據(jù)所述源代碼生成所述網(wǎng)頁的DOM樹;
      [0027]哈希值獲取器,適于獲取所述DOM樹中各節(jié)點(diǎn)對(duì)應(yīng)的標(biāo)簽的哈希值;
      [0028]哈希值屬性添加器,適于為所述網(wǎng)頁的各標(biāo)簽添加哈希值屬性,其中,所述哈希值用于定位和標(biāo)識(shí)網(wǎng)頁中的內(nèi)容區(qū)域。
      [0029]可選地,所述哈希值包括:標(biāo)簽在所述DOM樹中的層級(jí)哈希值和標(biāo)簽自身的哈希值。
      [0030]可選地,所述哈希值獲取器進(jìn)一步適于:
      [0031]為所述網(wǎng)頁的各標(biāo)簽添加索引屬性;
      [0032]將添加索引屬性后的網(wǎng)頁的源代碼發(fā)送到服務(wù)端,以供服務(wù)端進(jìn)行標(biāo)簽的哈希值計(jì)算;
      [0033]接收服務(wù)端發(fā)送的標(biāo)簽索引值與哈希值的對(duì)應(yīng)關(guān)系。
      [0034]根據(jù)本發(fā)明上述的一個(gè)或多個(gè)技術(shù)方案,通過構(gòu)建可視化效果框架,可以對(duì)網(wǎng)頁進(jìn)行可視化標(biāo)注,提高了標(biāo)注的效率;而且,由于網(wǎng)頁內(nèi)容被直觀的呈現(xiàn)出來,很容易確定頁面結(jié)構(gòu)的內(nèi)容類型,提高了標(biāo)注的準(zhǔn)確性。
      [0035]上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說明書的內(nèi)容予以實(shí)施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠更明顯易懂,以下特舉本發(fā)明的【具體實(shí)施方式】。
      【專利附圖】

      【附圖說明】
      [0036]通過閱讀下文優(yōu)選實(shí)施方式的詳細(xì)描述,各種其他的優(yōu)點(diǎn)和益處對(duì)于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實(shí)施方式的目的,而并不認(rèn)為是對(duì)本發(fā)明的限制。而且在整個(gè)附圖中,用相同的參考符號(hào)表示相同的部件。在附圖中:[0037]圖1示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的生成網(wǎng)頁模板的方法流程圖;
      [0038]圖2示出了本發(fā)明實(shí)施例中對(duì)網(wǎng)頁的標(biāo)題進(jìn)行標(biāo)注的示意圖;
      [0039]圖3示出了本發(fā)明實(shí)施例中對(duì)網(wǎng)頁的正文進(jìn)行標(biāo)注的示意圖;
      [0040]圖4示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的生成網(wǎng)頁模板的方法詳細(xì)流程圖;
      [0041]圖5示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的生成網(wǎng)頁模板的裝置結(jié)構(gòu)圖;
      [0042]圖6示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的對(duì)網(wǎng)頁提供可視化標(biāo)注的方法流程圖;
      [0043]圖7示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的對(duì)網(wǎng)頁提供可視化標(biāo)注的裝置結(jié)構(gòu)圖;
      [0044]圖8示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的根據(jù)可視化模板進(jìn)行網(wǎng)頁內(nèi)容抽取的方法流程圖;
      [0045]圖9示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的根據(jù)可視化模板進(jìn)行網(wǎng)頁內(nèi)容抽取的裝置結(jié)構(gòu)圖;
      [0046]圖10示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的根據(jù)可視化模板進(jìn)行網(wǎng)頁內(nèi)容抽取的系統(tǒng)結(jié)構(gòu)圖。
      【具體實(shí)施方式】
      [0047]下面將參照附圖更詳細(xì)地描述本公開的示例性實(shí)施例。雖然附圖中顯示了本公開的示例性實(shí)施例,然而應(yīng)當(dāng)理解,可以以各種形式實(shí)現(xiàn)本公開而不應(yīng)被這里闡述的實(shí)施例所限制。相反,提供這些實(shí)施例是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。
      [0048]實(shí)施例1
      [0049]本實(shí)施例提供一種生成網(wǎng)頁模板的方法及裝置
      [0050]圖1示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的生成網(wǎng)頁模板的方法流程圖,參照?qǐng)D1,所述方法包括:
      [0051]步驟102,構(gòu)建對(duì)網(wǎng)頁進(jìn)行標(biāo)注的可視化效果框架;
      [0052]在一種實(shí)現(xiàn)方式中,所述可視化效果框架可以包括:內(nèi)容區(qū)域、位于選中的內(nèi)容區(qū)域上方的蒙版和標(biāo)注菜單,所述標(biāo)注菜單包括多種內(nèi)容類型菜單項(xiàng)。
      [0053]通過獲取網(wǎng)頁的源代碼例如html (hypertext mark-up language,超文本標(biāo)記語言)文檔,將樣式表文件例如CSS (cascading style sheets,層疊樣式表)文件附加到html文檔,并在html文檔中增加js (javascript)腳本,可以構(gòu)建網(wǎng)頁的可視化效果框架。具體地,通過js腳本可以實(shí)現(xiàn)當(dāng)檢測到某個(gè)內(nèi)容區(qū)域被選中時(shí),在選中的內(nèi)容區(qū)域上方出現(xiàn)蒙版和標(biāo)注菜單,所述蒙版和標(biāo)注菜單的顯示方式可以由樣式表文件中定義的規(guī)則來限定。
      [0054]根據(jù)上述的可視化效果框架,網(wǎng)頁在瀏覽器中進(jìn)行顯示時(shí),網(wǎng)頁的各部分內(nèi)容區(qū)域會(huì)具有可視化效果,某個(gè)內(nèi)容區(qū)域被選中時(shí)(例如檢測到鼠標(biāo)移動(dòng)到該內(nèi)容區(qū)域上方,又例如,在觸摸屏中檢測到對(duì)該內(nèi)容區(qū)域的點(diǎn)擊或者檢測到在該內(nèi)容區(qū)域的滑動(dòng)手勢(shì)),該內(nèi)容區(qū)域的上方會(huì)出現(xiàn)蒙版,并且,該內(nèi)容區(qū)域的上方會(huì)同時(shí)出現(xiàn)標(biāo)記菜單或者根據(jù)觸發(fā)出現(xiàn)標(biāo)記菜單,例如,在被選中的內(nèi)容區(qū)域上單擊鼠標(biāo)右鍵,會(huì)出現(xiàn)各種內(nèi)容類型菜單項(xiàng)。如圖2和圖3所示,所述內(nèi)容類型菜單項(xiàng)可以包括“標(biāo)記為標(biāo)題”、“標(biāo)記為正文”和“標(biāo)記為日期”等,另外,所述內(nèi)容類型菜單項(xiàng)還可以包括“保存標(biāo)記”和“結(jié)束標(biāo)記”等。
      [0055]步驟104,獲取對(duì)網(wǎng)頁各部分內(nèi)容區(qū)域進(jìn)行標(biāo)注的指示;[0056]在本發(fā)明實(shí)施例中,執(zhí)行標(biāo)注的主體是客戶端,客戶端可以由用戶、運(yùn)營人員或管理人員進(jìn)行操作??梢酝ㄟ^鼠標(biāo)對(duì)網(wǎng)頁進(jìn)行標(biāo)注,將鼠標(biāo)移動(dòng)到某個(gè)內(nèi)容區(qū)域上方并單擊鼠標(biāo)右鍵,然后,點(diǎn)擊某個(gè)內(nèi)容類型菜單項(xiàng),便可完成對(duì)該部分內(nèi)容區(qū)域的標(biāo)注。在觸摸屏中,還可以根據(jù)對(duì)菜單項(xiàng)的觸摸操作來選擇內(nèi)容類型,實(shí)現(xiàn)對(duì)網(wǎng)頁的標(biāo)注。如圖2所示,通過單擊“標(biāo)記為標(biāo)題”,可以將相應(yīng)的內(nèi)容區(qū)域標(biāo)記為標(biāo)題,如圖3所示,通過單擊“標(biāo)記為正文”,可以將相應(yīng)的內(nèi)容區(qū)域標(biāo)記為正文。
      [0057]步驟106,記錄內(nèi)容區(qū)域與標(biāo)注指示的對(duì)應(yīng)關(guān)系,得到網(wǎng)頁模板。
      [0058]每標(biāo)記一個(gè)內(nèi)容區(qū)域,并選則“保存標(biāo)記”菜單項(xiàng),就可以將該內(nèi)容區(qū)域與選擇的內(nèi)容類型的對(duì)應(yīng)關(guān)系存儲(chǔ)到網(wǎng)頁模板中,通過選擇“結(jié)束標(biāo)記”菜單項(xiàng),完成對(duì)網(wǎng)頁中所有需要標(biāo)記的內(nèi)容區(qū)域的標(biāo)記,得到該網(wǎng)頁對(duì)應(yīng)的網(wǎng)頁模板(或者稱為網(wǎng)頁內(nèi)容模板)。
      [0059]可見,根據(jù)本發(fā)明實(shí)施例的技術(shù)方案,只需要在所述可視化效果框架中選擇網(wǎng)頁內(nèi)容區(qū)域進(jìn)行可視化操作,即可輕松定義網(wǎng)頁模板,提高了生成網(wǎng)頁模板的效率;而且,由于網(wǎng)頁內(nèi)容被直觀的呈現(xiàn)出來,很容易確定頁面結(jié)構(gòu)的內(nèi)容類型,提高了生成網(wǎng)頁模板的準(zhǔn)確性。
      [0060]上述方案是根據(jù)一個(gè)網(wǎng)頁來生成對(duì)應(yīng)于該網(wǎng)頁的網(wǎng)頁模板。對(duì)于一個(gè)資源站點(diǎn)而言,其可能包括很多網(wǎng)頁,這些網(wǎng)頁一般是根據(jù)相同的網(wǎng)頁設(shè)計(jì)模板生成,因而這些網(wǎng)頁的結(jié)構(gòu)會(huì)基本相同,有可能僅存在很少的不同之處,例如,有的網(wǎng)頁中可能包括評(píng)論內(nèi)容,而有的網(wǎng)頁不包括評(píng)論內(nèi)容,但這些網(wǎng)頁都包括標(biāo)題、作者、發(fā)表時(shí)間和正文等內(nèi)容。如果對(duì)每個(gè)網(wǎng)頁都進(jìn)行上述的步驟來生成網(wǎng)頁模板,則工作量仍然較大。
      [0061]于是,為進(jìn)一步提高網(wǎng)頁模板的生成效率,所述方法還可以包括:對(duì)根據(jù)同一資源站點(diǎn)下的多個(gè)網(wǎng)頁生成的多個(gè)網(wǎng)頁模板進(jìn)行統(tǒng)計(jì),提取所述多個(gè)網(wǎng)頁模板中的相同部分生成最終的網(wǎng)頁模板。具體地,可以對(duì)資源站點(diǎn)包括的所有網(wǎng)頁進(jìn)行抽樣,得到多個(gè)網(wǎng)頁;然后,根據(jù)上述方法生成多個(gè)網(wǎng)頁模板;最后,提取所述多個(gè)網(wǎng)頁模板(網(wǎng)頁模板中每條內(nèi)容區(qū)域與內(nèi)容類型的對(duì)應(yīng)關(guān)系為網(wǎng)頁模板的一個(gè)部分)中的相同部分生成最終的網(wǎng)頁模板(或者稱為該資源站點(diǎn)的網(wǎng)頁模板)。
      [0062]例如,對(duì)于360網(wǎng)站,可以先根據(jù)該網(wǎng)站的主頁URL(http://www.#/)獲取首頁的HTML文檔;然后對(duì)該HTML文檔進(jìn)行分析發(fā)現(xiàn)該網(wǎng)站包括多個(gè)(例如1000個(gè))子網(wǎng)頁,于是,從這1000個(gè)子網(wǎng)頁按照預(yù)定的算法(例如隨機(jī)算法)抽取50個(gè)子網(wǎng)頁;對(duì)這50個(gè)子網(wǎng)頁進(jìn)行可視化標(biāo)注后生成50個(gè)網(wǎng)頁模板;最后,提取這50個(gè)網(wǎng)頁模板中的相同部分生成對(duì)應(yīng)于360網(wǎng)站的網(wǎng)頁模板。
      [0063]另外,在本發(fā)明實(shí)施例中,為便于定位和標(biāo)識(shí)網(wǎng)頁中的內(nèi)容區(qū)域,還可以為各內(nèi)容區(qū)域所屬的標(biāo)簽添加哈希值屬性,相應(yīng)地,在網(wǎng)頁模板中存儲(chǔ)的就是內(nèi)容區(qū)域所屬標(biāo)簽的哈希值與選擇的內(nèi)容類型的對(duì)應(yīng)關(guān)系。在此種情況下,本發(fā)明實(shí)施例的生成網(wǎng)頁模板的方法在構(gòu)建對(duì)網(wǎng)頁進(jìn)行標(biāo)注的可視化效果框架的步驟之前,還可以包括如下步驟:
      [0064]首先,獲取網(wǎng)頁的源代碼,根據(jù)所述源代碼生成所述網(wǎng)頁的DOM(Document ObjectModel,文檔對(duì)象模型)樹;
      [0065]然后,獲取所述DOM樹中各節(jié)點(diǎn)對(duì)應(yīng)的標(biāo)簽的哈希值;
      [0066]最后,為所述網(wǎng)頁的各標(biāo)簽添加哈希值屬性。
      [0067]其中,所述哈希值可以包括標(biāo)簽在所述DOM樹中的層級(jí)哈希值和標(biāo)簽自身的哈希值。標(biāo)簽在DOM樹中的層級(jí)哈希值可以根據(jù)當(dāng)前標(biāo)簽所在的DOM樹的層級(jí)關(guān)系計(jì)算出來,標(biāo)簽自身的哈希值可以根據(jù)當(dāng)前標(biāo)簽所擁有的屬性節(jié)點(diǎn)計(jì)算出來。
      [0068]在具體實(shí)現(xiàn)時(shí),可以由服務(wù)端來進(jìn)行標(biāo)簽的哈希值計(jì)算。如圖10所示,服務(wù)端210位于搜索引擎200中,搜索引擎200與多個(gè)(圖中示出了 3個(gè))第三方網(wǎng)站服務(wù)器300通信連接,服務(wù)端210可以配合客戶端100來生成網(wǎng)頁模板。此種情況下,所述獲取所述DOM樹中各節(jié)點(diǎn)對(duì)應(yīng)的標(biāo)簽的哈希值可以包括:
      [0069]首先,在客戶端100為所述網(wǎng)頁的各標(biāo)簽添加索引屬性;
      [0070]然后,客戶端100將添加索引屬性后的網(wǎng)頁的源代碼發(fā)送到服務(wù)端210 ;
      [0071]其次,服務(wù)端210進(jìn)行標(biāo)簽的哈希值計(jì)算;
      [0072]最后,服務(wù)端210將標(biāo)簽索引值與哈希值的對(duì)應(yīng)關(guān)系發(fā)送到客戶端100。
      [0073]在實(shí)施本發(fā)明時(shí),客戶端的操作可以包括如下步驟:
      [0074]首先,在客戶端安裝可視化效果框架生成插件,并訪問第三方網(wǎng)站服務(wù)器300中的網(wǎng)頁;
      [0075]然后,在一種實(shí)現(xiàn)方式中,鼠標(biāo)移動(dòng)到網(wǎng)頁內(nèi)容區(qū)域上方,內(nèi)容區(qū)域的上方出現(xiàn)淡藍(lán)色的蒙版,表示該內(nèi)容區(qū)域被選中,右鍵單擊,出現(xiàn)選擇菜單,可以選擇該內(nèi)容區(qū)域?qū)儆跇?biāo)題、正文等內(nèi)容類型;
      [0076]最后,標(biāo)記完成后,客戶端生成網(wǎng)頁|旲板。
      [0077]客戶端可以把生成的網(wǎng)頁模板發(fā)送給服務(wù)端,服務(wù)端在進(jìn)行定向采集網(wǎng)頁內(nèi)容時(shí)即可使用該網(wǎng)頁模板進(jìn)行信息采集。
      [0078]以下給出一個(gè)本發(fā)明實(shí)施例的生成網(wǎng)頁模板的方法一個(gè)詳細(xì)流程。參照?qǐng)D4,所述方法包括:
      [0079]步驟402,客戶端獲取網(wǎng)頁的源代碼,根據(jù)所述源代碼生成所述網(wǎng)頁的DOM樹;
      [0080]步驟404,客戶端為DOM樹的每個(gè)標(biāo)簽添加索引屬性,其中,DOM樹的遍歷可以使用深度優(yōu)先的算法進(jìn)行;
      [0081]步驟406,客戶端把添加索引(index)屬性后的網(wǎng)頁的源代碼發(fā)送給服務(wù)端,發(fā)送
      的內(nèi)容例如為:
      [0082]
      【權(quán)利要求】
      1.一種對(duì)網(wǎng)頁提供可視化標(biāo)注的方法,包括: 構(gòu)建通過位于網(wǎng)頁內(nèi)容區(qū)域上方的蒙版對(duì)網(wǎng)頁進(jìn)行標(biāo)注的可視化效果框架; 獲取在所述蒙版上對(duì)網(wǎng)頁各部分內(nèi)容區(qū)域進(jìn)行標(biāo)注的指示。
      2.如權(quán)利要求1所述的方法,其中,所述可視化效果框架包括內(nèi)容區(qū)域、位于選中的內(nèi)容區(qū)域上方的蒙版和標(biāo)注菜單,所述標(biāo)注菜單包括多種內(nèi)容類型菜單項(xiàng),所述指示為通過標(biāo)注菜單選擇的對(duì)應(yīng)于選中的內(nèi)容區(qū)域的內(nèi)容類型。
      3.如權(quán)利要求1所述的方法,其中,在構(gòu)建對(duì)網(wǎng)頁進(jìn)行標(biāo)注的可視化效果框架之前,所述方法還包括: 獲取網(wǎng)頁的源代碼,根據(jù)所述源代碼生成所述網(wǎng)頁的DOM樹; 獲取所述DOM樹中各節(jié)點(diǎn)對(duì)應(yīng)的標(biāo)簽的哈希值; 為所述網(wǎng)頁的各標(biāo)簽添加哈希值屬性,其中,所述哈希值用于定位和標(biāo)識(shí)網(wǎng)頁中的內(nèi)容區(qū)域。
      4.如權(quán)利要求3所述的方法,其中,所述哈希值包括: 標(biāo)簽在所述DOM樹中的層級(jí)哈希值和標(biāo)簽自身的哈希值。
      5.如權(quán)利要求3所述的方法,其中,所述獲取所述DOM樹中各節(jié)點(diǎn)對(duì)應(yīng)的標(biāo)簽的哈希值,包括: 為所述網(wǎng)頁的各標(biāo)簽添加索引屬性; 將添加索引屬性后的網(wǎng)頁的源代碼發(fā)送到服務(wù)端,以供服務(wù)端進(jìn)行標(biāo)簽的哈希值計(jì)算; 接收服務(wù)端發(fā)送的標(biāo)簽索引值與哈希值的對(duì)應(yīng)關(guān)系。
      6.一種對(duì)網(wǎng)頁提供可視化標(biāo)注的裝置,包括: 可視化效果框架構(gòu)建器,適于構(gòu)建通過位于網(wǎng)頁內(nèi)容區(qū)域上方的蒙版對(duì)網(wǎng)頁進(jìn)行標(biāo)注的可視化效果框架; 標(biāo)注指示獲取器,適于獲取在所述蒙版上對(duì)網(wǎng)頁各部分內(nèi)容區(qū)域進(jìn)行標(biāo)注的指示。
      7.如權(quán)利要求6所述的裝置,其中,所述可視化效果框架包括內(nèi)容區(qū)域、位于選中的內(nèi)容區(qū)域上方的蒙版和標(biāo)注菜單,所述標(biāo)注菜單包括多種內(nèi)容類型菜單項(xiàng),所述指示為通過標(biāo)注菜單選擇的對(duì)應(yīng)于選中的內(nèi)容區(qū)域的內(nèi)容類型。
      8.如權(quán)利要求6所述的裝置,其中,還包括: DOM樹生成器,適于獲取網(wǎng)頁的源代碼,根據(jù)所述源代碼生成所述網(wǎng)頁的DOM樹; 哈希值獲取器,適于獲取所述DOM樹中各節(jié)點(diǎn)對(duì)應(yīng)的標(biāo)簽的哈希值; 哈希值屬性添加器,適于為所述網(wǎng)頁的各標(biāo)簽添加哈希值屬性,其中,所述哈希值用于定位和標(biāo)識(shí)網(wǎng)頁中的內(nèi)容區(qū)域。
      9.如權(quán)利要求8所述的裝置,其中,所述哈希值包括: 標(biāo)簽在所述DOM樹中的層級(jí)哈希值和標(biāo)簽自身的哈希值。
      10.如權(quán)利要求8所述的裝置,其中,所述哈希值獲取器進(jìn)一步適于: 為所述網(wǎng)頁的各標(biāo)簽添加索引屬性; 將添加索引屬性后的網(wǎng)頁的源代碼發(fā)送到服務(wù)端,以供服務(wù)端進(jìn)行標(biāo)簽的哈希值計(jì)算; 接收服務(wù)端發(fā)送的標(biāo)簽索引值與哈希值的對(duì)應(yīng)關(guān)系。
      【文檔編號(hào)】G06F17/30GK103678510SQ201310606202
      【公開日】2014年3月26日 申請(qǐng)日期:2013年11月25日 優(yōu)先權(quán)日:2013年11月25日
      【發(fā)明者】馬曉輝 申請(qǐng)人:北京奇虎科技有限公司, 奇智軟件(北京)有限公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1