国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      網(wǎng)頁信息提取方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)與流程

      文檔序號(hào):39340571發(fā)布日期:2024-09-10 11:58閱讀:21來源:國知局
      網(wǎng)頁信息提取方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)與流程

      本公開涉及信息提取,具體而言,涉及一種網(wǎng)頁信息提取方法、裝置、設(shè)備及介質(zhì)。


      背景技術(shù):

      1、隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,互聯(lián)網(wǎng)中的信息數(shù)量也日益增長,網(wǎng)頁信息逐漸成為人們進(jìn)行信息獲取的主要來源之一。

      2、在獲取網(wǎng)頁信息時(shí),針對(duì)每個(gè)網(wǎng)頁,研究人員常常會(huì)根據(jù)網(wǎng)頁的布局、內(nèi)容、類型等,人工開發(fā)針對(duì)該網(wǎng)頁的網(wǎng)頁信息提取算法,這就導(dǎo)致針對(duì)每個(gè)網(wǎng)頁都需要進(jìn)行個(gè)性化的算法開發(fā),從而帶來極大的工作量,影響網(wǎng)頁信息提取效率。


      技術(shù)實(shí)現(xiàn)思路

      1、本公開實(shí)施例至少提供一種網(wǎng)頁信息提取方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)。

      2、第一方面,本公開實(shí)施例提供了一種網(wǎng)頁信息提取方法,所述方法包括:

      3、獲取目標(biāo)網(wǎng)頁鏈接,并基于所述目標(biāo)網(wǎng)頁鏈接確定目標(biāo)網(wǎng)頁;從所述目標(biāo)網(wǎng)頁中提取出與預(yù)設(shè)標(biāo)題集合匹配的至少一個(gè)第一網(wǎng)頁標(biāo)題;

      4、基于所述目標(biāo)網(wǎng)頁的網(wǎng)頁布局結(jié)構(gòu),確定所述目標(biāo)網(wǎng)頁對(duì)應(yīng)的目標(biāo)樹結(jié)構(gòu);在所述目標(biāo)樹結(jié)構(gòu)中,所述第一網(wǎng)頁標(biāo)題所對(duì)應(yīng)的節(jié)點(diǎn)為所述樹結(jié)構(gòu)的葉子節(jié)點(diǎn);

      5、從所述目標(biāo)樹結(jié)構(gòu)中篩選出至少一個(gè)目標(biāo)節(jié)點(diǎn),分別確定各個(gè)目標(biāo)節(jié)點(diǎn)對(duì)應(yīng)的第二網(wǎng)頁標(biāo)題;所述目標(biāo)節(jié)點(diǎn)與所述第一網(wǎng)頁標(biāo)題所對(duì)應(yīng)的節(jié)點(diǎn)具有相同的父節(jié)點(diǎn);至少一個(gè)所述第二網(wǎng)頁標(biāo)題至少包括所述至少一個(gè)第一網(wǎng)頁標(biāo)題;

      6、針對(duì)每個(gè)所述第二網(wǎng)頁標(biāo)題,判斷所述第二網(wǎng)頁標(biāo)題是否攜帶新的網(wǎng)頁鏈接;所述新的網(wǎng)頁鏈接用于指示新的目標(biāo)網(wǎng)頁,所述新的目標(biāo)網(wǎng)頁用于展示所述第二網(wǎng)頁標(biāo)題的下一網(wǎng)頁級(jí)別的網(wǎng)頁信息;

      7、在所述第二網(wǎng)頁標(biāo)題不攜帶新的網(wǎng)頁鏈接的情況下,將不攜帶新的網(wǎng)頁鏈接的第二網(wǎng)頁標(biāo)題以及該第二網(wǎng)頁標(biāo)題的內(nèi)容描述信息確定為目標(biāo)網(wǎng)頁信息。

      8、一種可選的實(shí)施方式中,所述方法還包括:

      9、在所述第二網(wǎng)頁標(biāo)題攜帶新的網(wǎng)頁鏈接的情況下,將新的網(wǎng)頁鏈接作為所述目標(biāo)網(wǎng)頁鏈接并返回至基于所述目標(biāo)網(wǎng)頁鏈接確定目標(biāo)網(wǎng)頁的步驟。

      10、一種可選的實(shí)施方式中,所述網(wǎng)頁布局結(jié)構(gòu)包括所述目標(biāo)網(wǎng)頁中的多個(gè)網(wǎng)頁結(jié)構(gòu)塊,任意兩個(gè)所述網(wǎng)頁結(jié)構(gòu)塊之間存在并列關(guān)系或者存在嵌套關(guān)系;

      11、所述基于所述目標(biāo)網(wǎng)頁的網(wǎng)頁布局結(jié)構(gòu),確定所述目標(biāo)網(wǎng)頁對(duì)應(yīng)的目標(biāo)樹結(jié)構(gòu),包括:

      12、基于所述目標(biāo)網(wǎng)頁的網(wǎng)頁布局結(jié)構(gòu),確定所述第一網(wǎng)頁標(biāo)題所對(duì)應(yīng)的目標(biāo)網(wǎng)頁結(jié)構(gòu)塊;

      13、以所述目標(biāo)網(wǎng)頁結(jié)構(gòu)塊為基礎(chǔ),依次確定上一級(jí)網(wǎng)頁結(jié)構(gòu)塊,直至確定出所述網(wǎng)頁布局結(jié)構(gòu)中的最高級(jí)別的網(wǎng)頁結(jié)構(gòu)塊;

      14、基于確定出的各個(gè)目標(biāo)網(wǎng)頁結(jié)構(gòu)塊以及對(duì)應(yīng)的上一級(jí)網(wǎng)頁結(jié)構(gòu)塊,構(gòu)建所述目標(biāo)樹結(jié)構(gòu);各個(gè)目標(biāo)網(wǎng)頁結(jié)構(gòu)塊和各個(gè)上一級(jí)網(wǎng)頁結(jié)構(gòu)塊對(duì)應(yīng)為所述目標(biāo)樹結(jié)構(gòu)中的各個(gè)節(jié)點(diǎn)。

      15、一種可選的實(shí)施方式中,通過以下步驟確定所述目標(biāo)網(wǎng)頁結(jié)構(gòu)塊的上一級(jí)網(wǎng)頁結(jié)構(gòu)塊:

      16、確定所述目標(biāo)網(wǎng)頁的超文本標(biāo)記語言;所述超文本標(biāo)記語言指示多個(gè)頁面虛擬地址,任意兩個(gè)所述頁面虛擬地址之間存在并列關(guān)系或者存在嵌套關(guān)系,不同的所述頁面虛擬地址對(duì)應(yīng)不同的所述網(wǎng)頁結(jié)構(gòu)塊;

      17、從所述超文本標(biāo)記語言中確定所述目標(biāo)網(wǎng)頁結(jié)構(gòu)塊對(duì)應(yīng)的頁面虛擬地址的上一級(jí)頁面虛擬地址;

      18、基于所述頁面虛擬地址和所述網(wǎng)頁結(jié)構(gòu)塊之間的對(duì)應(yīng)關(guān)系,將所述上一級(jí)頁面虛擬地址對(duì)應(yīng)的網(wǎng)頁結(jié)構(gòu)塊確定為所述目標(biāo)網(wǎng)頁結(jié)構(gòu)塊的上一級(jí)網(wǎng)頁結(jié)構(gòu)塊。

      19、一種可選的實(shí)施方式中,所述從所述目標(biāo)樹結(jié)構(gòu)中篩選出至少一個(gè)目標(biāo)節(jié)點(diǎn),包括:

      20、從所述目標(biāo)樹結(jié)構(gòu)中確定多個(gè)交集節(jié)點(diǎn),所述交集節(jié)點(diǎn)為任意兩個(gè)鏈結(jié)構(gòu)之間相交的節(jié)點(diǎn);

      21、確定各個(gè)所述交集節(jié)點(diǎn)的子節(jié)點(diǎn),在所述交集節(jié)點(diǎn)的任一子節(jié)點(diǎn)對(duì)應(yīng)所述第一網(wǎng)頁標(biāo)題的情況下,將所述交集節(jié)點(diǎn)確定為候選節(jié)點(diǎn);

      22、基于所述候選節(jié)點(diǎn)的子節(jié)點(diǎn),確定所述目標(biāo)節(jié)點(diǎn)。

      23、一種可選的實(shí)施方式中,所述基于所述候選節(jié)點(diǎn)的子節(jié)點(diǎn),確定所述目標(biāo)節(jié)點(diǎn),包括:

      24、在所述候選節(jié)點(diǎn)的數(shù)量為1的情況下,將所述候選節(jié)點(diǎn)的子節(jié)點(diǎn),確定為所述目標(biāo)節(jié)點(diǎn);

      25、在所述候選節(jié)點(diǎn)的數(shù)量大于1的情況下,比較各個(gè)所述候選節(jié)點(diǎn)的子節(jié)點(diǎn)對(duì)應(yīng)的第一網(wǎng)頁標(biāo)題的數(shù)量,從多個(gè)所述候選節(jié)點(diǎn)中篩選出其子節(jié)點(diǎn)對(duì)應(yīng)的第一網(wǎng)頁標(biāo)題的數(shù)量最多的目標(biāo)候選節(jié)點(diǎn),將所述目標(biāo)候選節(jié)點(diǎn)的子節(jié)點(diǎn),確定為所述目標(biāo)節(jié)點(diǎn)。

      26、一種可選的實(shí)施方式中,所述方法還包括:

      27、為用戶展示所述目標(biāo)網(wǎng)頁信息;

      28、接收所述用戶設(shè)置的禁用標(biāo)題;所述禁用標(biāo)題為在所述目標(biāo)網(wǎng)頁信息中存在不滿足預(yù)設(shè)要求的網(wǎng)頁標(biāo)題的情況下,所述用戶基于所述不滿足預(yù)設(shè)要求的網(wǎng)頁標(biāo)題生成的;所述禁用標(biāo)題用于在從所述目標(biāo)樹結(jié)構(gòu)中篩選出至少一個(gè)目標(biāo)節(jié)點(diǎn)時(shí),排除掉所述禁用標(biāo)題所在鏈結(jié)構(gòu)上的節(jié)點(diǎn);

      29、基于所述禁用標(biāo)題,重新執(zhí)行從所述目標(biāo)樹結(jié)構(gòu)中篩選出至少一個(gè)目標(biāo)節(jié)點(diǎn)的步驟。

      30、一種可選的實(shí)施方式中,所述預(yù)設(shè)標(biāo)題集合包括多個(gè)預(yù)設(shè)標(biāo)題子集合,每個(gè)所述預(yù)設(shè)標(biāo)題子集合包括對(duì)應(yīng)網(wǎng)頁級(jí)別下的多個(gè)預(yù)設(shè)網(wǎng)頁標(biāo)題,不同的所述預(yù)設(shè)標(biāo)題子集合對(duì)應(yīng)的網(wǎng)頁級(jí)別不同;

      31、所述從所述目標(biāo)網(wǎng)頁中提取出與預(yù)設(shè)標(biāo)題集合匹配的至少一個(gè)第一網(wǎng)頁標(biāo)題,包括:

      32、基于所述目標(biāo)網(wǎng)頁中的網(wǎng)頁標(biāo)題對(duì)應(yīng)的目標(biāo)網(wǎng)頁級(jí)別,從所述預(yù)設(shè)標(biāo)題集合中確定與所述目標(biāo)網(wǎng)頁級(jí)別匹配的目標(biāo)預(yù)設(shè)標(biāo)題子集合;

      33、將所述目標(biāo)網(wǎng)頁中的網(wǎng)頁標(biāo)題與所述目標(biāo)預(yù)設(shè)標(biāo)題子集合中的預(yù)設(shè)網(wǎng)頁標(biāo)題進(jìn)行比對(duì),將與任一所述預(yù)設(shè)網(wǎng)頁標(biāo)題一致的網(wǎng)頁標(biāo)題確定為所述第一網(wǎng)頁標(biāo)題。

      34、第二方面,本公開實(shí)施例還提供一種網(wǎng)頁信息提取裝置,所述裝置包括:

      35、標(biāo)題匹配模塊,用于獲取目標(biāo)網(wǎng)頁鏈接,并基于所述目標(biāo)網(wǎng)頁鏈接確定目標(biāo)網(wǎng)頁;從所述目標(biāo)網(wǎng)頁中提取出與預(yù)設(shè)標(biāo)題集合匹配的至少一個(gè)第一網(wǎng)頁標(biāo)題;

      36、樹結(jié)構(gòu)確定模塊,用于基于所述目標(biāo)網(wǎng)頁的網(wǎng)頁布局結(jié)構(gòu),確定所述目標(biāo)網(wǎng)頁對(duì)應(yīng)的目標(biāo)樹結(jié)構(gòu);在所述目標(biāo)樹結(jié)構(gòu)中,所述第一網(wǎng)頁標(biāo)題所對(duì)應(yīng)的節(jié)點(diǎn)為所述樹結(jié)構(gòu)的葉子節(jié)點(diǎn);

      37、節(jié)點(diǎn)篩選模塊,用于從所述目標(biāo)樹結(jié)構(gòu)中篩選出至少一個(gè)目標(biāo)節(jié)點(diǎn),分別確定各個(gè)目標(biāo)節(jié)點(diǎn)對(duì)應(yīng)的第二網(wǎng)頁標(biāo)題;所述目標(biāo)節(jié)點(diǎn)與所述第一網(wǎng)頁標(biāo)題所對(duì)應(yīng)的節(jié)點(diǎn)具有相同的父節(jié)點(diǎn);至少一個(gè)所述第二網(wǎng)頁標(biāo)題至少包括所述至少一個(gè)第一網(wǎng)頁標(biāo)題;

      38、標(biāo)題判斷模塊,用于針對(duì)每個(gè)所述第二網(wǎng)頁標(biāo)題,判斷所述第二網(wǎng)頁標(biāo)題是否攜帶新的網(wǎng)頁鏈接;所述新的網(wǎng)頁鏈接用于指示新的目標(biāo)網(wǎng)頁,所述新的目標(biāo)網(wǎng)頁用于展示所述第二網(wǎng)頁標(biāo)題的下一網(wǎng)頁級(jí)別的網(wǎng)頁信息;

      39、信息確定模塊,用于在所述第二網(wǎng)頁標(biāo)題不攜帶新的網(wǎng)頁鏈接的情況下,將不攜帶新的網(wǎng)頁鏈接的第二網(wǎng)頁標(biāo)題以及該第二網(wǎng)頁標(biāo)題的內(nèi)容描述信息確定為目標(biāo)網(wǎng)頁信息。

      40、一種可選的實(shí)施方式中,所述信息確定模塊還用于:

      41、在所述第二網(wǎng)頁標(biāo)題攜帶新的網(wǎng)頁鏈接的情況下,將新的網(wǎng)頁鏈接作為所述目標(biāo)網(wǎng)頁鏈接并返回至基于所述目標(biāo)網(wǎng)頁鏈接確定目標(biāo)網(wǎng)頁的步驟。

      42、一種可選的實(shí)施方式中,所述網(wǎng)頁布局結(jié)構(gòu)包括所述目標(biāo)網(wǎng)頁中的多個(gè)網(wǎng)頁結(jié)構(gòu)塊,任意兩個(gè)所述網(wǎng)頁結(jié)構(gòu)塊之間存在并列關(guān)系或者存在嵌套關(guān)系;

      43、所述樹結(jié)構(gòu)確定模塊具體用于:

      44、基于所述目標(biāo)網(wǎng)頁的網(wǎng)頁布局結(jié)構(gòu),確定所述第一網(wǎng)頁標(biāo)題所對(duì)應(yīng)的目標(biāo)網(wǎng)頁結(jié)構(gòu)塊;

      45、以所述目標(biāo)網(wǎng)頁結(jié)構(gòu)塊為基礎(chǔ),依次確定上一級(jí)網(wǎng)頁結(jié)構(gòu)塊,直至確定出所述網(wǎng)頁布局結(jié)構(gòu)中的最高級(jí)別的網(wǎng)頁結(jié)構(gòu)塊;

      46、基于確定出的各個(gè)目標(biāo)網(wǎng)頁結(jié)構(gòu)塊以及對(duì)應(yīng)的上一級(jí)網(wǎng)頁結(jié)構(gòu)塊,構(gòu)建所述目標(biāo)樹結(jié)構(gòu);各個(gè)目標(biāo)網(wǎng)頁結(jié)構(gòu)塊和各個(gè)上一級(jí)網(wǎng)頁結(jié)構(gòu)塊對(duì)應(yīng)為所述目標(biāo)樹結(jié)構(gòu)中的各個(gè)節(jié)點(diǎn)。

      47、一種可選的實(shí)施方式中,所述樹結(jié)構(gòu)確定模塊通過以下步驟確定所述目標(biāo)網(wǎng)頁結(jié)構(gòu)塊的上一級(jí)網(wǎng)頁結(jié)構(gòu)塊:

      48、確定所述目標(biāo)網(wǎng)頁的超文本標(biāo)記語言;所述超文本標(biāo)記語言指示多個(gè)頁面虛擬地址,任意兩個(gè)所述頁面虛擬地址之間存在并列關(guān)系或者存在嵌套關(guān)系,不同的所述頁面虛擬地址對(duì)應(yīng)不同的所述網(wǎng)頁結(jié)構(gòu)塊;

      49、從所述超文本標(biāo)記語言中確定所述目標(biāo)網(wǎng)頁結(jié)構(gòu)塊對(duì)應(yīng)的頁面虛擬地址的上一級(jí)頁面虛擬地址;

      50、基于所述頁面虛擬地址和所述網(wǎng)頁結(jié)構(gòu)塊之間的對(duì)應(yīng)關(guān)系,將所述上一級(jí)頁面虛擬地址對(duì)應(yīng)的網(wǎng)頁結(jié)構(gòu)塊確定為所述目標(biāo)網(wǎng)頁結(jié)構(gòu)塊的上一級(jí)網(wǎng)頁結(jié)構(gòu)塊。

      51、一種可選的實(shí)施方式中,所述節(jié)點(diǎn)篩選模塊在用于所述從所述目標(biāo)樹結(jié)構(gòu)中篩選出至少一個(gè)目標(biāo)節(jié)點(diǎn)時(shí),具體用于:

      52、從所述目標(biāo)樹結(jié)構(gòu)中確定多個(gè)交集節(jié)點(diǎn),所述交集節(jié)點(diǎn)為任意兩個(gè)鏈結(jié)構(gòu)之間相交的節(jié)點(diǎn);

      53、確定各個(gè)所述交集節(jié)點(diǎn)的子節(jié)點(diǎn),在所述交集節(jié)點(diǎn)的任一子節(jié)點(diǎn)對(duì)應(yīng)所述第一網(wǎng)頁標(biāo)題的情況下,將所述交集節(jié)點(diǎn)確定為候選節(jié)點(diǎn);

      54、基于所述候選節(jié)點(diǎn)的子節(jié)點(diǎn),確定所述目標(biāo)節(jié)點(diǎn)。

      55、一種可選的實(shí)施方式中,所述節(jié)點(diǎn)篩選模塊在用于所述基于所述候選節(jié)點(diǎn)的子節(jié)點(diǎn),確定所述目標(biāo)節(jié)點(diǎn)時(shí),具體用于:

      56、在所述候選節(jié)點(diǎn)的數(shù)量為1的情況下,將所述候選節(jié)點(diǎn)的子節(jié)點(diǎn),確定為所述目標(biāo)節(jié)點(diǎn);

      57、在所述候選節(jié)點(diǎn)的數(shù)量大于1的情況下,比較各個(gè)所述候選節(jié)點(diǎn)的子節(jié)點(diǎn)對(duì)應(yīng)的第一網(wǎng)頁標(biāo)題的數(shù)量,從多個(gè)所述候選節(jié)點(diǎn)中篩選出其子節(jié)點(diǎn)對(duì)應(yīng)的第一網(wǎng)頁標(biāo)題的數(shù)量最多的目標(biāo)候選節(jié)點(diǎn),將所述目標(biāo)候選節(jié)點(diǎn)的子節(jié)點(diǎn),確定為所述目標(biāo)節(jié)點(diǎn)。

      58、一種可選的實(shí)施方式中,所述裝置還包括信息展示模塊,所述信息展示模塊用于:

      59、為用戶展示所述目標(biāo)網(wǎng)頁信息;

      60、接收所述用戶設(shè)置的禁用標(biāo)題;所述禁用標(biāo)題為在所述目標(biāo)網(wǎng)頁信息中存在不滿足預(yù)設(shè)要求的網(wǎng)頁標(biāo)題的情況下,所述用戶基于所述不滿足預(yù)設(shè)要求的網(wǎng)頁標(biāo)題生成的;所述禁用標(biāo)題用于在從所述目標(biāo)樹結(jié)構(gòu)中篩選出至少一個(gè)目標(biāo)節(jié)點(diǎn)時(shí),排除掉所述禁用標(biāo)題所在鏈結(jié)構(gòu)上的節(jié)點(diǎn);

      61、基于所述禁用標(biāo)題,重新執(zhí)行從所述目標(biāo)樹結(jié)構(gòu)中篩選出至少一個(gè)目標(biāo)節(jié)點(diǎn)的步驟。

      62、一種可選的實(shí)施方式中,所述預(yù)設(shè)標(biāo)題集合包括多個(gè)預(yù)設(shè)標(biāo)題子集合,每個(gè)所述預(yù)設(shè)標(biāo)題子集合包括對(duì)應(yīng)網(wǎng)頁級(jí)別下的多個(gè)預(yù)設(shè)網(wǎng)頁標(biāo)題,不同的所述預(yù)設(shè)標(biāo)題子集合對(duì)應(yīng)的網(wǎng)頁級(jí)別不同;

      63、所述標(biāo)題匹配模塊在用于所述從所述目標(biāo)網(wǎng)頁中提取出與預(yù)設(shè)標(biāo)題集合匹配的至少一個(gè)第一網(wǎng)頁標(biāo)題時(shí),具體用于:

      64、基于所述目標(biāo)網(wǎng)頁中的網(wǎng)頁標(biāo)題對(duì)應(yīng)的目標(biāo)網(wǎng)頁級(jí)別,從所述預(yù)設(shè)標(biāo)題集合中確定與所述目標(biāo)網(wǎng)頁級(jí)別匹配的目標(biāo)預(yù)設(shè)標(biāo)題子集合;

      65、將所述目標(biāo)網(wǎng)頁中的網(wǎng)頁標(biāo)題與所述目標(biāo)預(yù)設(shè)標(biāo)題子集合中的預(yù)設(shè)網(wǎng)頁標(biāo)題進(jìn)行比對(duì),將與任一所述預(yù)設(shè)網(wǎng)頁標(biāo)題一致的網(wǎng)頁標(biāo)題確定為所述第一網(wǎng)頁標(biāo)題。

      66、第三方面,本公開實(shí)施例還提供一種電子設(shè)備,包括:處理器、存儲(chǔ)器和總線,所述存儲(chǔ)器存儲(chǔ)有所述處理器可執(zhí)行的機(jī)器可讀指令,當(dāng)電子設(shè)備運(yùn)行時(shí),所述處理器與所述存儲(chǔ)器之間通過總線通信,所述機(jī)器可讀指令被所述處理器執(zhí)行時(shí)執(zhí)行上述第一方面,或第一方面中任一種可能的實(shí)施方式中所述的網(wǎng)頁信息提取方法的步驟。

      67、第四方面,本公開實(shí)施例還提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),該計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上存儲(chǔ)有計(jì)算機(jī)程序,該計(jì)算機(jī)程序被處理器運(yùn)行時(shí)執(zhí)行上述第一方面,或第一方面中任一種可能的實(shí)施方式中所述的網(wǎng)頁信息提取方法的步驟。

      68、本公開實(shí)施例提供的網(wǎng)頁信息提取方法、裝置、設(shè)備及介質(zhì),可以獲取目標(biāo)網(wǎng)頁鏈接,基于目標(biāo)網(wǎng)頁鏈接確定目標(biāo)網(wǎng)頁,并從目標(biāo)網(wǎng)頁中提取出與預(yù)設(shè)標(biāo)題集合匹配的至少一個(gè)第一網(wǎng)頁標(biāo)題,然后基于目標(biāo)網(wǎng)頁的網(wǎng)頁結(jié)構(gòu)布局,確定目標(biāo)網(wǎng)頁對(duì)應(yīng)的目標(biāo)樹結(jié)構(gòu),接著從目標(biāo)樹結(jié)構(gòu)中篩選出與至少一個(gè)目標(biāo)節(jié)點(diǎn),分別確定各個(gè)目標(biāo)節(jié)點(diǎn)對(duì)應(yīng)的第二網(wǎng)頁標(biāo)題,這里目標(biāo)節(jié)點(diǎn)與第一網(wǎng)頁標(biāo)題所對(duì)應(yīng)的節(jié)點(diǎn)具有相同的父節(jié)點(diǎn),進(jìn)而針對(duì)每個(gè)第二網(wǎng)頁標(biāo)題,判斷第二網(wǎng)頁標(biāo)題是否攜帶新的網(wǎng)頁鏈接,在第二網(wǎng)頁標(biāo)題不攜帶新的網(wǎng)頁鏈接的情況下,將不攜帶新的網(wǎng)頁鏈接的第二網(wǎng)頁標(biāo)題以及該第二網(wǎng)頁標(biāo)題的內(nèi)容描述信息確定為目標(biāo)網(wǎng)頁信息。

      69、這樣,通過目標(biāo)網(wǎng)頁鏈接進(jìn)入目標(biāo)網(wǎng)頁后,可以通過預(yù)設(shè)標(biāo)題集合篩選出從目標(biāo)網(wǎng)頁中篩選出第一網(wǎng)頁標(biāo)題,這樣可以根據(jù)預(yù)設(shè)標(biāo)題集合初步確定出需要的第一網(wǎng)頁標(biāo)題;進(jìn)而通過構(gòu)建目標(biāo)樹結(jié)構(gòu),從樹結(jié)構(gòu)中確定與第一網(wǎng)頁標(biāo)題所對(duì)應(yīng)的節(jié)點(diǎn)具有相同的父節(jié)點(diǎn)的目標(biāo)節(jié)點(diǎn),這樣可以在第一網(wǎng)頁標(biāo)題的基礎(chǔ)上,擴(kuò)展確定出與第一網(wǎng)頁標(biāo)題等級(jí)相同、但預(yù)設(shè)標(biāo)題集合中未包含的其他網(wǎng)頁標(biāo)題,從而提升第二網(wǎng)頁標(biāo)題的全面性和完整性;進(jìn)而針對(duì)每個(gè)第二網(wǎng)頁標(biāo)題判斷是否攜帶新的網(wǎng)頁鏈接,將不攜帶新的網(wǎng)頁鏈接的第二網(wǎng)頁標(biāo)題以及該第二網(wǎng)頁標(biāo)題的內(nèi)容描述信息作為需要提取的目標(biāo)網(wǎng)頁信息;考慮到網(wǎng)頁中都會(huì)存在網(wǎng)頁標(biāo)題以及網(wǎng)頁本身都具有網(wǎng)頁布局結(jié)構(gòu),本公開實(shí)施例有效利用上述網(wǎng)頁特點(diǎn),設(shè)計(jì)了通用化的網(wǎng)頁信息提取方法,針對(duì)不同的網(wǎng)頁,都可以采用本公開實(shí)施例提供的方案,有效提升網(wǎng)頁信息提取的智能化,無需針對(duì)每個(gè)網(wǎng)頁都人工開發(fā)網(wǎng)頁信息提取算法,針對(duì)不同網(wǎng)頁統(tǒng)一使用該方法即可,有利于減少人力成本和時(shí)間成本,有效提升網(wǎng)頁信息提取的便捷性。

      70、應(yīng)當(dāng)理解的是,以上的一般描述和后文的細(xì)節(jié)描述僅是示例性和解釋性的,而非限制本公開的技術(shù)方案。

      71、為使本公開的上述目的、特征和優(yōu)點(diǎn)能更明顯易懂,下文特舉較佳實(shí)施例,并配合所附附圖,作詳細(xì)說明如下。

      當(dāng)前第1頁1 2 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1