国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種確定信息塊的位置信息的方法及裝置的制造方法

      文檔序號:10724982閱讀:184來源:國知局
      一種確定信息塊的位置信息的方法及裝置的制造方法
      【專利摘要】本發(fā)明公開了一種確定信息塊的位置信息的方法,包括:將待處理網(wǎng)頁內(nèi)容轉(zhuǎn)換成模型樹,模型樹中包含多個節(jié)點;針對每種類型的信息塊,在多個節(jié)點中搜索該種類型信息塊的特征信息,特征信息為用于描述該種類型信息塊的表現(xiàn)形式的信息;確定包含特征信息的每個節(jié)點的權(quán)重值,包含特征信息的每個節(jié)點包括第一節(jié)點和第二節(jié)點,第一節(jié)點為直接包含特征信息的節(jié)點,第二節(jié)點為自身不直接包含特征信息的節(jié)點;確定特定節(jié)點所聚類的信息塊的位置信息為該種類型信息塊的位置信息,特定節(jié)點包括權(quán)重值最大的節(jié)點,以及權(quán)重值最大的節(jié)點下屬的所有節(jié)點。本申請?zhí)峁┑姆桨缚梢酝ㄟ^節(jié)點聚類的方式準(zhǔn)確的自動定位出信息塊的位置信息,提高了信息塊定位的效率。
      【專利說明】
      一種確定信息塊的位置信息的方法及裝置
      技術(shù)領(lǐng)域
      [0001] 本發(fā)明涉及信息處理技術(shù)領(lǐng)域,具體涉及一種確定信息塊的位置信息的方法及裝 置。
      【背景技術(shù)】
      [0002] 當(dāng)前因特網(wǎng)上的各種網(wǎng)頁中,通常都伴隨有大量的廣告和無關(guān)鏈接。尤其是例如 小說等用戶閱讀類的網(wǎng)頁,大量的廣告和無關(guān)鏈接不僅浪費流量,還給用戶帶來了很大的 干擾。
      [0003] 因此,如果能在終端設(shè)備側(cè)展示網(wǎng)頁之前,就對網(wǎng)頁中的干擾信息進(jìn)行過濾,就可 以避免流量浪費和用戶干擾問題。
      [0004] 對干擾信息進(jìn)行過濾,需要準(zhǔn)確定位出網(wǎng)頁中各種類型信息塊的位置,以小說為 例,信息塊可以是小說的標(biāo)題和正文等。
      [0005] 通常,由于不同網(wǎng)站的網(wǎng)頁排版布局不同,即便是同一網(wǎng)站,網(wǎng)頁排版布局也經(jīng)常 變化,當(dāng)前對網(wǎng)頁中信息塊定位的方法都是依靠人工來實現(xiàn)的,需要長期對網(wǎng)頁排版布局 進(jìn)行監(jiān)測,在網(wǎng)頁排版布局發(fā)生變化后,需要人工再次同步修改配置。這種方法雖然能準(zhǔn)確 定位網(wǎng)頁中信息塊的位置,但需要長期不斷的對網(wǎng)站的網(wǎng)頁進(jìn)行監(jiān)控和維護(hù)。不光成本高, 而且定位效率低下。

      【發(fā)明內(nèi)容】

      [0006] 為解決現(xiàn)有技術(shù)中網(wǎng)頁中信息塊的定位效率低下問題,本發(fā)明實施例提供一種確 定信息塊的位置信息的方法,可以通過節(jié)點聚類的方式準(zhǔn)確的自動定位出信息塊的位置信 息,提高了信息塊定位的效率。本發(fā)明實施例還提供了相應(yīng)的裝置。
      [0007] 本發(fā)明第一方面提供一種確定信息塊的位置信息的方法,包括:
      [0008] 將待處理網(wǎng)頁內(nèi)容轉(zhuǎn)換成模型樹,所述模型樹中包含多個節(jié)點;
      [0009] 針對每種類型的信息塊,在所述多個節(jié)點中搜索該種類型信息塊的特征信息,所 述特征信息為用于描述該種類型信息塊的表現(xiàn)形式的信息;
      [0010]確定包含所述特征信息的每個節(jié)點的權(quán)重值,所述包含特征信息的每個節(jié)點包括 第一節(jié)點和第二節(jié)點,所述第一節(jié)點為直接包含所述特征信息的節(jié)點,所述第二節(jié)點為不 直接包含所述特征信息的節(jié)點;
      [0011]確定特定節(jié)點所聚類的信息塊的位置信息為該種類型信息塊的位置信息,所述特 定節(jié)點包括權(quán)重值最大的節(jié)點,以及所述權(quán)重值最大的節(jié)點下屬的所有節(jié)點。
      [0012] 本發(fā)明第二方面提供一種確定信息塊的位置信息的裝置,包括:
      [0013] 轉(zhuǎn)換單元,用于將待處理網(wǎng)頁內(nèi)容轉(zhuǎn)換成模型樹,所述模型樹中包含多個節(jié)點;
      [0014] 搜索單元,用于針對每種類型的信息塊,在所述轉(zhuǎn)換單元轉(zhuǎn)換的所述模型樹的多 個節(jié)點中搜索該種類型信息塊的特征信息,所述特征信息為用于描述該種類型信息塊的表 現(xiàn)形式的信息;
      [0015] 第一確定單元,用于確定包含所述搜索單元搜索的特征信息的每個節(jié)點的權(quán)重 值,所述包含特征信息的每個節(jié)點包括第一節(jié)點和第二節(jié)點,所述第一節(jié)點為直接包含所 述特征信息的節(jié)點,所述第二節(jié)點為不直接包含所述特征信息的節(jié)點;
      [0016] 第二確定單元,用于確定特定節(jié)點所聚類的信息塊的位置信息為該種類型信息塊 的位置信息,所述特定節(jié)點包括所述第一確定單元所確定的每個節(jié)點的權(quán)重值中權(quán)重值最 大的節(jié)點,以及所述權(quán)重值最大的節(jié)點下屬的所有節(jié)點。
      [0017] 與現(xiàn)有技術(shù)中通過人工方式定位網(wǎng)頁中的信息塊的定位效率低下相比,本發(fā)明實 施例提供的確定信息塊的位置信息的方法,可以通過節(jié)點聚類的方式準(zhǔn)確的自動定位出信 息塊的位置信息,提高了信息塊定位的效率。
      【附圖說明】
      [0018] 為了更清楚地說明本發(fā)明實施例中的技術(shù)方案,下面將對實施例描述中所需要使 用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于 本領(lǐng)域技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附 圖。
      [0019] 圖1是本發(fā)明實施例中確定信息塊的位置信息的方法的一實施例示意圖;
      [0020] 圖2是本發(fā)明實施例中模型樹的一示例示意圖;
      [0021 ]圖3是本發(fā)明實施例中模型樹的另一示例示意圖;
      [0022] 圖4是本發(fā)明實施例中從圖3所示的模型樹中抽取出的包含特征信息的節(jié)點的一 示意圖;
      [0023] 圖5是本發(fā)明實施例中從圖3所示的模型樹中抽取出的包含特征信息的節(jié)點的另 一示意圖;
      [0024] 圖6是本發(fā)明實施例中確定信息塊的位置信息的裝置的一實施例示意圖;
      [0025] 圖7是本發(fā)明實施例中確定信息塊的位置信息的裝置的另一實施例示意圖;
      [0026] 圖8是本發(fā)明實施例中服務(wù)器的一實施例示意圖。
      【具體實施方式】
      [0027] 本發(fā)明實施例提供一種確定信息塊的位置信息的方法,可以通過節(jié)點聚類的方式 準(zhǔn)確的自動定位出信息塊的位置信息,提高了信息塊定位的效率。本發(fā)明實施例還提供了 相應(yīng)的裝置。以下分別進(jìn)行詳細(xì)說明。
      [0028] 下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進(jìn)行清楚、完 整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例。基于 本發(fā)明中的實施例,本領(lǐng)域技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施 例,都屬于本發(fā)明保護(hù)的范圍。
      [0029] 參閱圖1,本發(fā)明實施例提供的確定信息塊的位置信息的方法的一實施例包括:
      [0030] 101、將待處理網(wǎng)頁內(nèi)容轉(zhuǎn)換成模型樹,所述模型樹中包含多個節(jié)點。
      [0031] 以文本類內(nèi)容為例,網(wǎng)頁內(nèi)容指的是可以包括標(biāo)題、正文,以及人物介紹等內(nèi)容。
      [0032] 模型樹是按照網(wǎng)頁內(nèi)容各部分所屬的分支進(jìn)行劃分,將各部分按照層次結(jié)構(gòu)劃分 到不同的節(jié)點中所形成的。圖2位一個簡單的模型樹示意圖。如圖2所示,模型樹按照層次結(jié) 構(gòu)可以包括節(jié)點0,節(jié)點0下屬有節(jié)點1和節(jié)點2兩個節(jié)點,節(jié)點1下屬有節(jié)點11 一個節(jié)點,節(jié) 點2下屬有節(jié)點21和節(jié)點22兩個節(jié)點。
      [0033] 102、針對每種類型的信息塊,在所述多個節(jié)點中搜索該種類型信息塊的特征信 息,所述特征信息為用于描述該種類型信息塊的表現(xiàn)形式的信息。
      [0034]信息塊的類型指的是網(wǎng)頁中所包含的信息的種類,以文本類內(nèi)容為例,信息塊的 類型可以包括目錄、文章標(biāo)題、文章正文、作者簡介以及索引介紹等。
      [0035] 特征塊的特征信息指的是用于描述該種類型信息塊的表現(xiàn)形式的信息,例如:信 息塊是純文本、鏈接或者圖片等表現(xiàn)形式的信息。
      [0036] 若信息塊的類型是文章正文,則特征信息可以是純文本,若信息塊的類型是目錄, 則特征信息可以是鏈接。
      [0037] 搜索過程可以是從最上層的節(jié)點開始,逐個掃描,例如:圖2中可以從節(jié)點0開始, 逐個掃描其他節(jié)點。
      [0038] 掃描時是針對一種類型,逐個掃描節(jié)點。如針對目錄,逐個掃描每個節(jié)點中是否有 鏈接特征信息。針對文章正文,逐個掃描每個節(jié)點中是否有純文本特征信息。
      [0039] 模型樹中可以包括多個節(jié)點,但并不一定每個節(jié)點都包含該種類型的特征信息。 因此,針對每種類型,確定出包含該種類型所對應(yīng)特征信息的節(jié)點。
      [0040] 例如:確定出節(jié)點2、節(jié)點21和節(jié)點22中包含文章正文的純文本特征信息。
      [0041] 103、確定包含所述特征信息的每個節(jié)點的權(quán)重值,所述包含特征信息的每個節(jié)點 包括第一節(jié)點和第二節(jié)點,所述第一節(jié)點為直接包含所述特征信息的節(jié)點,所述第二節(jié)點 為不直接包含所述特征信息的節(jié)點。
      [0042] 本申請中所描述的包含特征信息的節(jié)點包括直接包含和間接包含兩種,直接包含 是指該節(jié)點自身就包含該種類型的特征信息。間接包含是指該節(jié)點不包含該種類型的特征 信息,但是該節(jié)點的子節(jié)點或?qū)O節(jié)點可能包含該種類型的特征信息,也就是說無論該節(jié)點 下屬的哪層節(jié)點中包含該種類型的特征信息,都屬于該節(jié)點間接包含該種類型的特征信 息。
      [0043] 關(guān)于每個節(jié)點的權(quán)重值計算可以預(yù)先配置算法,當(dāng)節(jié)點中直接包含特征信息時, 可以將特征信息的相關(guān)參數(shù)輸入到權(quán)重值算法中,從而計算出該節(jié)點的相關(guān)特征信息的權(quán) 重值。例如:當(dāng)特征信息是鏈接時,可以將鏈接長度輸入權(quán)重值算法中,從而計算出該節(jié)點 鏈接特征的權(quán)重值,當(dāng)特征信息是純文本時,可以將純文本的字符數(shù)量輸入到權(quán)重值算法 中,從而計算出該節(jié)點純文本的權(quán)重值,當(dāng)然各種特征信息的權(quán)重值算法可以是不同的。
      [0044] 當(dāng)節(jié)點中間接包含特征信息時,可以通過其下屬的子節(jié)點的權(quán)重值計算得到該節(jié) 點的權(quán)重值,例如:當(dāng)節(jié)點2不包含純文本特征信息,節(jié)點21和節(jié)點22包含該純文本特征信 息,貝可以通過上述算法的計算方式計算出節(jié)點21和節(jié)點22的權(quán)重值,然后通過節(jié)點21和 節(jié)點22的權(quán)重值計算出節(jié)點2的權(quán)重值。
      [0045] 104、確定特定節(jié)點所聚類的信息塊的位置信息為該種類型信息塊的位置信息,所 述特定節(jié)點包括權(quán)重值最大的節(jié)點,以及所述權(quán)重值最大的節(jié)點下屬的所有節(jié)點。
      [0046] 針對同一類型,各節(jié)點的權(quán)重值都確定出來后,可以從中找出權(quán)重值最大的節(jié)點, 例如:節(jié)點2的權(quán)重值最大,節(jié)點21和節(jié)點22都是節(jié)點2的下屬節(jié)點,則節(jié)點2、節(jié)點21和節(jié)點 22都是本申請中所描述的特定節(jié)點。
      [0047] 若節(jié)點21和節(jié)點22還有其他節(jié)點,則節(jié)點21和節(jié)點22下屬的其他節(jié)點也屬于特定 節(jié)點。
      [0048] 這些特定節(jié)點所聚類的信息塊的位置信息為該種類型信息塊的位置信息,也就是 說節(jié)點2、節(jié)點21和節(jié)點22所聚類的信息塊的位置信息為該種類型信息塊的位置信息,若節(jié) 點2、節(jié)點21和節(jié)點22所聚類的信息塊是文章正文,則該網(wǎng)頁中文章正文的位置信息就是節(jié) 點2、節(jié)點21和節(jié)點22所聚類的信息塊的位置信息。
      [0049] 與現(xiàn)有技術(shù)中通過人工方式定位網(wǎng)頁中的信息塊的定位效率低下相比,本發(fā)明實 施例提供的確定信息塊的位置信息的方法,可以通過節(jié)點聚類的方式準(zhǔn)確的自動定位出信 息塊的位置信息,提高了信息塊定位的效率。
      [0050] 可選地,所述確定包含所述特征信息的每個節(jié)點的權(quán)重值,可以包括:
      [0051 ]針對每個第一節(jié)點,根據(jù)預(yù)置算法確定所述直接包含所述特征信息的每個第一節(jié) 點的權(quán)重值;
      [0052]針對每個第二節(jié)點,將其直接從屬的子節(jié)點的權(quán)重值做和運算后,再乘以一個收 縮因子,確定所述每個第二節(jié)點的權(quán)重值。
      [0053]用公式表示為:
      [0054] weight (第二節(jié)點)= Θ*Σ weight (第一節(jié)點)
      [0055] 本發(fā)明實施例中,若以圖2中的節(jié)點2、節(jié)點21和節(jié)點22為例,當(dāng)節(jié)點21和節(jié)點22是 第一節(jié)點,節(jié)點2是第二節(jié)點時,節(jié)點21的權(quán)重值是1.5,節(jié)點22的權(quán)重值是1.8,則節(jié)點2的 權(quán)重值就可以是(1.5+1.8) *θ,Θ為收縮因子,Θ的取值可以是〇. 5到1之間的一個數(shù)值,例如: 取0.8,則節(jié)點2的權(quán)重值就等于(1.5+1.8)*0.8 = 1.84。
      [0056] 可選地,所述確定包含所述特征信息的每個節(jié)點的權(quán)重值,可以包括:
      [0057] 針對不同類型的信息塊,并行確定包含不同類型特征信息的每個節(jié)點的權(quán)重值。 [0058]本發(fā)明實施例中,可以同時確定不同類型特征信息的權(quán)重值,例如:可以同時確定 鏈接特征信息的權(quán)重值和純文本特征信息的權(quán)重值,兩者不沖突。
      [0059] 可選地,所述將待處理網(wǎng)頁內(nèi)容轉(zhuǎn)換成模型樹,可以包括:
      [0060] 將超文本標(biāo)記語言HTML形式的待處理網(wǎng)頁內(nèi)容按照主從節(jié)點的關(guān)系,逐步轉(zhuǎn)換成 文檔對象模型D0M節(jié)點,在所述待處理網(wǎng)頁內(nèi)容都轉(zhuǎn)換完成后得到D0M樹;
      [0061] 在轉(zhuǎn)換過程中,若檢測到所述待處理網(wǎng)頁內(nèi)容中存在錯誤,則糾正所述錯誤,并將 糾正后的內(nèi)容劃分到相應(yīng)的D0M節(jié)點中。
      [0062] 本發(fā)明實施例中所涉及到的網(wǎng)頁可以是超文本標(biāo)記語言(hypertext markup language,HTML)的形式。
      [0063] 下面以一個HTML網(wǎng)頁為例,介紹HTML網(wǎng)頁轉(zhuǎn)換成文檔對象模型(Document Object Model,D0M)樹的過程。
      [0064] HTML 網(wǎng)頁為:
      [0067] 以上HTML網(wǎng)頁內(nèi)容,按照網(wǎng)頁內(nèi)容中的層次和分支,轉(zhuǎn)換成如圖3所示的DOM樹, D0M樹上包含的節(jié)點可以稱為D0M節(jié)點。
      [0068] 首先,基于D0M標(biāo)準(zhǔn),將HTML文本轉(zhuǎn)換成程序內(nèi)存中的一棵D0M樹。這在回避傳統(tǒng)方 法中需要面對分詞和文本語義識別的問題的同時,還能兼得兩個好處:一是可以使用成熟 的樹遍歷算法來搜索D0M樹中的任何位置;二是在生成D0M樹的過程中,可以同步糾正HTML 文檔本身的錯誤,比如殘缺的DIV元素等等。即使是不認(rèn)識的自定義的元素,也最終能變成 D0M樹上的一個普通節(jié)點,不會妨礙D0M樹的遍歷操作。
      [0069]轉(zhuǎn)換得到如圖3所示的D0M樹后,接下來針對不同類型的信息塊,逐個節(jié)點搜索該 類型的特征信息,如搜索標(biāo)題類型的特征信息,特征信息是連續(xù)的少量文字。
      [0070] 從搜索結(jié)果來看,有圖4中的節(jié)點32直接包含該標(biāo)題類型的特征信息,節(jié)點30、節(jié) 點31屬于不直接包含該標(biāo)題類型的特征信息,則可以按照標(biāo)題的權(quán)重值算法計算節(jié)點32的 權(quán)重值。
      [0071] 若計算出節(jié)點32的權(quán)重值為2.57,節(jié)點31、節(jié)點30可以根據(jù)節(jié)點32與權(quán)重因子的 乘積進(jìn)行依次計算,若θ = 0.7,則節(jié)點31的權(quán)重值為1.8。之后再將節(jié)點31的權(quán)重與權(quán)重因 子相乘得到節(jié)點30的權(quán)重值位1.26。
      [0072] 由此可見,針對標(biāo)題類型,權(quán)重值最大的節(jié)點是節(jié)點32,則可以將節(jié)點32作為特定 節(jié)點。節(jié)點32所聚類的信息塊的位置信息即為該標(biāo)題信息塊的位置信息,若節(jié)點32所聚類 的信息塊的位置信息為/html/body/div[4],則標(biāo)題的位置信息即為/html/body/div[4]/。
      [0073]同理,若在圖3所示的DOM樹中逐個節(jié)點搜索正文的特征信息,正文的特征信息可 以是連續(xù)的大量字符,例如:可以設(shè)置30為門限,當(dāng)連續(xù)的字符數(shù)量大于30時,則認(rèn)為是正 文。
      [0074]從搜索結(jié)果來看,有圖5所示的節(jié)點43、節(jié)點44和節(jié)點45直接包含正文的特征信 息。貝可以按照正文的權(quán)重值算法計算節(jié)點43、節(jié)點44和節(jié)點45的權(quán)重值。
      [0075]若計算出節(jié)點43、節(jié)點44和節(jié)點45分別為1,節(jié)點41、節(jié)點42、節(jié)點40屬于間接包括 正文的特征信息,則可以采用上述第一節(jié)點和第二節(jié)點之間的計算關(guān)系式,通過收縮因子 計算節(jié)點41、節(jié)點42、節(jié)點40的權(quán)重值,若收縮因子θ = 〇.7,則節(jié)點41的權(quán)重值為1*0.7 = 0.7,節(jié)點 42 的權(quán)重為(1+1)*0.7 = 1.4,節(jié)點 40 的權(quán)重值為(0·7+1·4)*0·7 = 1·47。
      [0076] 由此可見,針對正文類型,權(quán)重值最大的節(jié)點為節(jié)點40,則可以確定針對正文的特 定節(jié)點包括節(jié)點40、節(jié)點41、節(jié)點42、節(jié)點43、節(jié)點44和節(jié)點45。節(jié)點40、節(jié)點41、節(jié)點42、節(jié) 點43、節(jié)點44和節(jié)點45所聚類的信息塊的位置信息即為正文的位置信息,若節(jié)點40、節(jié)點 41、節(jié)點42、節(jié)點43、節(jié)點44和節(jié)點45所聚類的信息塊的位置信息為/html/body/div[8]/, 則正文的位置信息為/html/body/div[8]/。
      [0077] 可選地,所述確定特定節(jié)點所聚類的信息塊的位置信息為該種類型信息塊的位置 信息之后,所述方法還可以包括:
      [0078] 建立信息塊的類型與該種類型信息塊的位置信息之間的對應(yīng)關(guān)系,所述對應(yīng)關(guān)系 用于過濾網(wǎng)頁中的干擾信息。
      [0079] 本發(fā)明實施例中,在確定每種類型信息塊的位置信息后,可以建立信息塊的類型 與該種類型信息塊的位置信息之間的對應(yīng)關(guān)系。
      [0080] 對應(yīng)關(guān)系可以用表格的形式表示,也可以用其他形式表示,若以表格的形式表示, 可以參閱表1進(jìn)行理解。
      [0081] 表1:信息塊的類型與該種類型信息塊的位置信息之間的對應(yīng)關(guān)系
      [0083] 以上表1只是列舉了幾種類型進(jìn)行說明,并沒有窮舉信息塊的類型與該種類型信 息塊的位置信息之間的全部對應(yīng)關(guān)系,因此,以上表1的內(nèi)容不應(yīng)理解為是對信息塊的類型 與該種類型信息塊的位置信息的對應(yīng)關(guān)系所包含的內(nèi)容的限定。
      [0084] 因為網(wǎng)頁中可能包含廣告等干擾信息,所以在確定出上述有用信息的位置后,就 可以把絕大部分的廣告等干擾信息剔除到使用范圍之外了。
      [0085] 為實現(xiàn)上述圖1至圖5部分所描述的確定信息塊的位置信息的方法,本申請還提供 了相應(yīng)的裝置,該裝置各部分模塊所執(zhí)行的功能,可以結(jié)合在圖1至圖5部分的方法實施例 進(jìn)行理解。
      [0086] 參閱圖6,本發(fā)明實施例提供的確定信息塊的位置信息的裝置的一實施例包括:
      [0087] 轉(zhuǎn)換單元501,用于將待處理網(wǎng)頁內(nèi)容轉(zhuǎn)換成模型樹,所述模型樹中包含多個節(jié) 占 .
      [0088] 搜索單元502,用于針對每種類型的信息塊,在所述轉(zhuǎn)換單元501轉(zhuǎn)換的所述模型 樹的多個節(jié)點中搜索該種類型信息塊的特征信息,所述特征信息為用于描述該種類型信息 塊的表現(xiàn)形式的信息;
      [0089]第一確定單元503,用于確定包含所述搜索單元502搜索的特征信息的每個節(jié)點的 權(quán)重值,所述包含特征信息的每個節(jié)點包括第一節(jié)點和第二節(jié)點,所述第一節(jié)點為直接包 含所述特征信息的節(jié)點,所述第二節(jié)點為不直接包含所述特征信息的節(jié)點;
      [0090] 第二確定單元504,用于確定特定節(jié)點所聚類的信息塊的位置信息為該種類型信 息塊的位置信息,所述特定節(jié)點包括所述第一確定單元503所確定的每個節(jié)點的權(quán)重值中 權(quán)重值最大的節(jié)點,以及所述權(quán)重值最大的節(jié)點下屬的所有節(jié)點。
      [0091] 本發(fā)明實施例中,轉(zhuǎn)換單元501將待處理網(wǎng)頁內(nèi)容轉(zhuǎn)換成模型樹,所述模型樹中包 含多個節(jié)點;搜索單元502針對每種類型的信息塊,在所述轉(zhuǎn)換單元501轉(zhuǎn)換的所述模型樹 的多個節(jié)點中搜索該種類型信息塊的特征信息,所述特征信息為用于描述該種類型信息塊 的表現(xiàn)形式的信息;第一確定單元503確定包含所述搜索單元502搜索的特征信息的每個節(jié) 點的權(quán)重值,所述包含特征信息的每個節(jié)點包括第一節(jié)點和第二節(jié)點,所述第一節(jié)點為直 接包含所述特征信息的節(jié)點,所述第二節(jié)點為不直接包含所述特征信息的節(jié)點;第二確定 單元504確定特定節(jié)點所聚類的信息塊的位置信息為該種類型信息塊的位置信息,所述特 定節(jié)點包括所述第一確定單元503所確定的每個節(jié)點的權(quán)重值中權(quán)重值最大的節(jié)點,以及 所述權(quán)重值最大的節(jié)點下屬的所有節(jié)點。與現(xiàn)有技術(shù)中通過人工方式定位網(wǎng)頁中的信息塊 的定位效率低下相比,本發(fā)明實施例提供的確定信息塊的位置信息的裝置,可以通過節(jié)點 聚類的方式準(zhǔn)確的自動定位出信息塊的位置信息,提高了信息塊定位的效率。
      [0092] 可選地,所述第一確定單元503用于:
      [0093] 針對每個第一節(jié)點,根據(jù)預(yù)置算法確定所述直接包含所述特征信息的每個第一節(jié) 點的權(quán)重值;
      [0094] 針對每個第二節(jié)點,將其直接從屬的子節(jié)點的權(quán)重值做和運算后,再乘以一個收 縮因子,確定所述每個第二節(jié)點的權(quán)重值。
      [0095] 可選地,所述第一確定單元503,用于針對不同類型的信息塊,并行確定包含不同 類型特征信息的每個節(jié)點的權(quán)重值。
      [0096] 可選地,所述轉(zhuǎn)換單元501用于:
      [0097]將超文本標(biāo)記語言HTML形式的待處理網(wǎng)頁內(nèi)容按照主從節(jié)點的關(guān)系,逐步轉(zhuǎn)換成 文檔對象模型D0M節(jié)點,在所述待處理網(wǎng)頁內(nèi)容都轉(zhuǎn)換完成后得到D0M樹;
      [0098]在轉(zhuǎn)換過程中,若檢測到所述待處理網(wǎng)頁內(nèi)容中存在錯誤,則糾正所述錯誤,并將 糾正后的內(nèi)容劃分到相應(yīng)的D0M節(jié)點中。
      [0099]可選地,參閱圖7,本發(fā)明實施例提供的確定信息塊的位置信息的裝置50的另一實 施例中,所述裝置50還包括:
      [0100]建立單元505,用于在所述第二確定單元504確定該種類型信息塊的位置信息之 后,建立信息塊的類型與該種類型信息塊的位置信息之間的對應(yīng)關(guān)系,所述對應(yīng)關(guān)系用于 過濾網(wǎng)頁中的干擾信息。
      [0101] 本發(fā)明實施例所提供的確定信息塊的位置信息的裝置可以通過服務(wù)器或者物理 主機來實現(xiàn),下面以服務(wù)器為例,介紹確定信息塊的位置信息的方法依靠服務(wù)器實現(xiàn)的過 程。
      [0102] 圖8是本發(fā)明實施例提供的服務(wù)器60的結(jié)構(gòu)示意圖。所述服務(wù)器60包括處理器 610、存儲器650和收發(fā)器630,存儲器650可以包括只讀存儲器和隨機存取存儲器,并向處理 器610提供操作指令和數(shù)據(jù)。存儲器650的一部分還可以包括非易失性隨機存取存儲器 (NVRAM)〇
      [0103] 在一些實施方式中,存儲器650存儲了如下的元素,可執(zhí)行模塊或者數(shù)據(jù)結(jié)構(gòu),或 者他們的子集,或者他們的擴(kuò)展集:
      [0104] 在本發(fā)明實施例中,通過調(diào)用存儲器650存儲的操作指令(該操作指令可存儲在操 作系統(tǒng)中),
      [0105]將待處理網(wǎng)頁內(nèi)容轉(zhuǎn)換成模型樹,所述模型樹中包含多個節(jié)點;
      [0106] 針對每種類型的信息塊,在所述多個節(jié)點中搜索該種類型信息塊的特征信息,所 述特征信息為用于描述該種類型信息塊的表現(xiàn)形式的信息;
      [0107] 確定包含所述特征信息的每個節(jié)點的權(quán)重值,所述包含特征信息的每個節(jié)點包括 第一節(jié)點和第二節(jié)點,所述第一節(jié)點為直接包含所述特征信息的節(jié)點,所述第二節(jié)點為不 直接包含所述特征信息的節(jié)點;
      [0108] 確定特定節(jié)點所聚類的信息塊的位置信息為該種類型信息塊的位置信息,所述特 定節(jié)點包括權(quán)重值最大的節(jié)點,以及所述權(quán)重值最大的節(jié)點下屬的所有節(jié)點。
      [0109] 與現(xiàn)有技術(shù)中通過人工方式定位網(wǎng)頁中的信息塊的定位效率低下相比,本發(fā)明實 施例提供的服務(wù)器,可以通過節(jié)點聚類的方式準(zhǔn)確的自動定位出信息塊的位置信息,提高 了信息塊定位的效率。
      [0110] 處理器610控制服務(wù)器60的操作,處理器610還可以稱為CPU(Central Processing Unit,中央處理單元)。存儲器650可以包括只讀存儲器和隨機存取存儲器,并向處理器610 提供指令和數(shù)據(jù)。存儲器650的一部分還可以包括非易失性隨機存取存儲器(NVRAM)。具體 的應(yīng)用中服務(wù)器60的各個組件通過總線系統(tǒng)620耦合在一起,其中總線系統(tǒng)620除包括數(shù)據(jù) 總線之外,還可以包括電源總線、控制總線和狀態(tài)信號總線等。但是為了清楚說明起見,在 圖中將各種總線都標(biāo)為總線系統(tǒng)620。
      [0111] 上述本發(fā)明實施例揭示的方法可以應(yīng)用于處理器610中,或者由處理器610實現(xiàn)。 處理器610可能是一種集成電路芯片,具有信號的處理能力。在實現(xiàn)過程中,上述方法的各 步驟可以通過處理器610中的硬件的集成邏輯電路或者軟件形式的指令完成。上述的處理 器610可以是通用處理器、數(shù)字信號處理器(DSP)、專用集成電路(ASIC)、現(xiàn)成可編程門陣列 (FPGA)或者其他可編程邏輯器件、分立門或者晶體管邏輯器件、分立硬件組件??梢詫崿F(xiàn)或 者執(zhí)行本發(fā)明實施例中的公開的各方法、步驟及邏輯框圖。通用處理器可以是微處理器或 者該處理器也可以是任何常規(guī)的處理器等。結(jié)合本發(fā)明實施例所公開的方法的步驟可以直 接體現(xiàn)為硬件譯碼處理器執(zhí)行完成,或者用譯碼處理器中的硬件及軟件模塊組合執(zhí)行完 成。軟件模塊可以位于隨機存儲器,閃存、只讀存儲器,可編程只讀存儲器或者電可擦寫可 編程存儲器、寄存器等本領(lǐng)域成熟的存儲介質(zhì)中。該存儲介質(zhì)位于存儲器650,處理器610讀 取存儲器650中的信息,結(jié)合其硬件完成上述方法的步驟。
      [0112] 可選地,處理器610用于:
      [0113] 針對每個第一節(jié)點,根據(jù)預(yù)置算法確定所述直接包含所述特征信息的每個第一節(jié) 點的權(quán)重值;
      [0114] 針對每個第二節(jié)點,將其直接從屬的子節(jié)點的權(quán)重值做和運算后,再乘以一個收 縮因子,確定所述每個第二節(jié)點的權(quán)重值。
      [0115] 可選地,處理器610用于:
      [0116] 針對不同類型的信息塊,并行確定包含不同類型特征信息的每個節(jié)點的權(quán)重值。
      [0117] 可選地,處理器610用于:
      [0118] 將超文本標(biāo)記語言HTML形式的待處理網(wǎng)頁內(nèi)容按照主從節(jié)點的關(guān)系,逐步轉(zhuǎn)換成 文檔對象模型D0M節(jié)點,在所述待處理網(wǎng)頁內(nèi)容都轉(zhuǎn)換完成后得到D0M樹;
      [0119]在轉(zhuǎn)換過程中,若檢測到所述待處理網(wǎng)頁內(nèi)容中存在錯誤,則糾正所述錯誤,并將 糾正后的內(nèi)容劃分到相應(yīng)的D0M節(jié)點中。
      [0120] 可選地,處理器610用于:
      [0121]建立信息塊的類型與該種類型信息塊的位置信息之間的對應(yīng)關(guān)系,所述對應(yīng)關(guān)系 用于過濾網(wǎng)頁中的干擾信息。
      [0122] 以上的服務(wù)器60可以參閱圖1至圖5部分的描述進(jìn)行理解,本處不做過多贅述。
      [0123] 本領(lǐng)域普通技術(shù)人員可以理解上述實施例的各種方法中的全部或部分步驟是可 以通過程序來指令相關(guān)的硬件來完成,該程序可以存儲于一計算機可讀存儲介質(zhì)中,存儲 介質(zhì)可以包括:R〇M、RAM、磁盤或光盤等。
      [0124] 以上對本發(fā)明實施例所提供的確定信息塊的位置信息的方法以及裝置進(jìn)行了詳 細(xì)介紹,本文中應(yīng)用了具體個例對本發(fā)明的原理及實施方式進(jìn)行了闡述,以上實施例的說 明只是用于幫助理解本發(fā)明的方法及其核心思想;同時,對于本領(lǐng)域的一般技術(shù)人員,依據(jù) 本發(fā)明的思想,在【具體實施方式】及應(yīng)用范圍上均會有改變之處,綜上所述,本說明書內(nèi)容不 應(yīng)理解為對本發(fā)明的限制。
      【主權(quán)項】
      1. 一種確定信息塊的位置信息的方法,其特征在于,包括: 將待處理網(wǎng)頁內(nèi)容轉(zhuǎn)換成模型樹,所述模型樹中包含多個節(jié)點; 針對每種類型的信息塊,在所述多個節(jié)點中搜索該種類型信息塊的特征信息,所述特 征信息為用于描述該種類型信息塊的表現(xiàn)形式的信息; 確定包含所述特征信息的每個節(jié)點的權(quán)重值,所述包含特征信息的每個節(jié)點包括第一 節(jié)點和第二節(jié)點,所述第一節(jié)點為直接包含所述特征信息的節(jié)點,所述第二節(jié)點為不直接 包含所述特征信息的節(jié)點; 確定特定節(jié)點所聚類的信息塊的位置信息為該種類型信息塊的位置信息,所述特定節(jié) 點包括權(quán)重值最大的節(jié)點,以及所述權(quán)重值最大的節(jié)點下屬的所有節(jié)點。2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述確定包含所述特征信息的每個節(jié)點的 權(quán)重值,包括: 針對每個第一節(jié)點,根據(jù)預(yù)置算法確定所述直接包含所述特征信息的每個第一節(jié)點的 權(quán)重值; 針對每個第二節(jié)點,將其直接從屬的子節(jié)點的權(quán)重值做和運算后,再乘以一個收縮因 子,確定所述每個第二節(jié)點的權(quán)重值。3. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述確定包含所述特征信息的每個節(jié)點的 權(quán)重值,包括: 針對不同類型的信息塊,并行確定包含不同類型特征信息的每個節(jié)點的權(quán)重值。4. 根據(jù)權(quán)利要求1-3任一所述的方法,其特征在于,所述將待處理網(wǎng)頁內(nèi)容轉(zhuǎn)換成模型 樹,包括: 將超文本標(biāo)記語言HTML形式的待處理網(wǎng)頁內(nèi)容按照主從節(jié)點的關(guān)系,逐步轉(zhuǎn)換成文檔 對象模型DOM節(jié)點,在所述待處理網(wǎng)頁內(nèi)容都轉(zhuǎn)換完成后得到DOM樹; 在轉(zhuǎn)換過程中,若檢測到所述待處理網(wǎng)頁內(nèi)容中存在錯誤,則糾正所述錯誤,并將糾正 后的內(nèi)容劃分到相應(yīng)的DOM節(jié)點中。5. 根據(jù)權(quán)利要求1-3任一所述的方法,其特征在于,所述確定特定節(jié)點所聚類的信息塊 的位置信息為該種類型信息塊的位置信息之后,所述方法還包括: 建立信息塊的類型與該種類型信息塊的位置信息之間的對應(yīng)關(guān)系,所述對應(yīng)關(guān)系用于 過濾網(wǎng)頁中的干擾信息。6. -種確定信息塊的位置信息的裝置,其特征在于,包括: 轉(zhuǎn)換單元,用于將待處理網(wǎng)頁內(nèi)容轉(zhuǎn)換成模型樹,所述模型樹中包含多個節(jié)點; 搜索單元,用于針對每種類型的信息塊,在所述轉(zhuǎn)換單元轉(zhuǎn)換的所述模型樹的多個節(jié) 點中搜索該種類型信息塊的特征信息,所述特征信息為用于描述該種類型信息塊的表現(xiàn)形 式的信息; 第一確定單元,用于確定包含所述搜索單元搜索的特征信息的每個節(jié)點的權(quán)重值,所 述包含特征信息的每個節(jié)點包括第一節(jié)點和第二節(jié)點,所述第一節(jié)點為直接包含所述特征 信息的節(jié)點,所述第二節(jié)點為不直接包含所述特征信息的節(jié)點; 第二確定單元,用于確定特定節(jié)點所聚類的信息塊的位置信息為該種類型信息塊的位 置信息,所述特定節(jié)點包括所述第一確定單元所確定的每個節(jié)點的權(quán)重值中權(quán)重值最大的 節(jié)點,以及所述權(quán)重值最大的節(jié)點下屬的所有節(jié)點。7. 根據(jù)權(quán)利要求6所述的裝置,其特征在于, 所述第一確定單元用于: 針對每個第一節(jié)點,根據(jù)預(yù)置算法確定所述直接包含所述特征信息的每個第一節(jié)點的 權(quán)重值; 針對每個第二節(jié)點,將其直接從屬的子節(jié)點的權(quán)重值做和運算后,再乘以一個收縮因 子,確定所述每個第二節(jié)點的權(quán)重值。8. 根據(jù)權(quán)利要求6所述的裝置,其特征在于, 所述第一確定單元,用于針對不同類型的信息塊,并行確定包含不同類型特征信息的 每個節(jié)點的權(quán)重值。9. 根據(jù)權(quán)利要求6-8任一所述的裝置,其特征在于, 所述轉(zhuǎn)換單元用于: 將超文本標(biāo)記語言HTML形式的待處理網(wǎng)頁內(nèi)容按照主從節(jié)點的關(guān)系,逐步轉(zhuǎn)換成文檔 對象模型DOM節(jié)點,在所述待處理網(wǎng)頁內(nèi)容都轉(zhuǎn)換完成后得到DOM樹; 在轉(zhuǎn)換過程中,若檢測到所述待處理網(wǎng)頁內(nèi)容中存在錯誤,則糾正所述錯誤,并將糾正 后的內(nèi)容劃分到相應(yīng)的DOM節(jié)點中。10. 根據(jù)權(quán)利要求6-8任一所述的裝置,其特征在于,所述裝置還包括: 建立單元,用于在所述第二確定單元確定該種類型信息塊的位置信息之后,建立信息 塊的類型與該種類型信息塊的位置信息之間的對應(yīng)關(guān)系,所述對應(yīng)關(guān)系用于過濾網(wǎng)頁中的 干擾信息。
      【文檔編號】G06F17/30GK106095854SQ201610389942
      【公開日】2016年11月9日
      【申請日】2016年6月2日 公開號201610389942.2, CN 106095854 A, CN 106095854A, CN 201610389942, CN-A-106095854, CN106095854 A, CN106095854A, CN201610389942, CN201610389942.2
      【發(fā)明人】馬莘權(quán)
      【申請人】騰訊科技(深圳)有限公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1