本公開涉及信息提取,具體而言,涉及一種網(wǎng)頁信息提取方法、裝置、設(shè)備及介質(zhì)。
背景技術(shù):
1、隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,互聯(lián)網(wǎng)中的信息數(shù)量也日益增長,網(wǎng)頁信息逐漸成為人們進(jìn)行信息獲取的主要來源之一。
2、在獲取網(wǎng)頁信息時(shí),針對(duì)每個(gè)網(wǎng)頁,研究人員常常會(huì)根據(jù)網(wǎng)頁的布局、內(nèi)容、類型等,人工開發(fā)針對(duì)該網(wǎng)頁的網(wǎng)頁信息提取算法,這就導(dǎo)致針對(duì)每個(gè)網(wǎng)頁都需要進(jìn)行個(gè)性化的算法開發(fā),從而帶來極大的工作量,影響網(wǎng)頁信息提取效率。
技術(shù)實(shí)現(xiàn)思路
1、本公開實(shí)施例至少提供一種網(wǎng)頁信息提取方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)。
2、第一方面,本公開實(shí)施例提供了一種網(wǎng)頁信息提取方法,所述方法包括:
3、獲取目標(biāo)網(wǎng)頁鏈接,并基于所述目標(biāo)網(wǎng)頁鏈接確定目標(biāo)網(wǎng)頁;從所述目標(biāo)網(wǎng)頁中提取出與預(yù)設(shè)標(biāo)題集合匹配的至少一個(gè)第一網(wǎng)頁標(biāo)題;
4、基于所述目標(biāo)網(wǎng)頁的網(wǎng)頁布局結(jié)構(gòu),確定所述目標(biāo)網(wǎng)頁對(duì)應(yīng)的目標(biāo)樹結(jié)構(gòu);在所述目標(biāo)樹結(jié)構(gòu)中,所述第一網(wǎng)頁標(biāo)題所對(duì)應(yīng)的節(jié)點(diǎn)為所述樹結(jié)構(gòu)的葉子節(jié)點(diǎn);
5、從所述目標(biāo)樹結(jié)構(gòu)中篩選出至少一個(gè)目標(biāo)節(jié)點(diǎn),分別確定各個(gè)目標(biāo)節(jié)點(diǎn)對(duì)應(yīng)的第二網(wǎng)頁標(biāo)題;所述目標(biāo)節(jié)點(diǎn)與所述第一網(wǎng)頁標(biāo)題所對(duì)應(yīng)的節(jié)點(diǎn)具有相同的父節(jié)點(diǎn);至少一個(gè)所述第二網(wǎng)頁標(biāo)題至少包括所述至少一個(gè)第一網(wǎng)頁標(biāo)題;
6、針對(duì)每個(gè)所述第二網(wǎng)頁標(biāo)題,判斷所述第二網(wǎng)頁標(biāo)題是否攜帶新的網(wǎng)頁鏈接;所述新的網(wǎng)頁鏈接用于指示新的目標(biāo)網(wǎng)頁,所述新的目標(biāo)網(wǎng)頁用于展示所述第二網(wǎng)頁標(biāo)題的下一網(wǎng)頁級(jí)別的網(wǎng)頁信息;
7、在所述第二網(wǎng)頁標(biāo)題不攜帶新的網(wǎng)頁鏈接的情況下,將不攜帶新的網(wǎng)頁鏈接的第二網(wǎng)頁標(biāo)題以及該第二網(wǎng)頁標(biāo)題的內(nèi)容描述信息確定為目標(biāo)網(wǎng)頁信息。
8、一種可選的實(shí)施方式中,所述方法還包括:
9、在所述第二網(wǎng)頁標(biāo)題攜帶新的網(wǎng)頁鏈接的情況下,將新的網(wǎng)頁鏈接作為所述目標(biāo)網(wǎng)頁鏈接并返回至基于所述目標(biāo)網(wǎng)頁鏈接確定目標(biāo)網(wǎng)頁的步驟。
10、一種可選的實(shí)施方式中,所述網(wǎng)頁布局結(jié)構(gòu)包括所述目標(biāo)網(wǎng)頁中的多個(gè)網(wǎng)頁結(jié)構(gòu)塊,任意兩個(gè)所述網(wǎng)頁結(jié)構(gòu)塊之間存在并列關(guān)系或者存在嵌套關(guān)系;
11、所述基于所述目標(biāo)網(wǎng)頁的網(wǎng)頁布局結(jié)構(gòu),確定所述目標(biāo)網(wǎng)頁對(duì)應(yīng)的目標(biāo)樹結(jié)構(gòu),包括:
12、基于所述目標(biāo)網(wǎng)頁的網(wǎng)頁布局結(jié)構(gòu),確定所述第一網(wǎng)頁標(biāo)題所對(duì)應(yīng)的目標(biāo)網(wǎng)頁結(jié)構(gòu)塊;
13、以所述目標(biāo)網(wǎng)頁結(jié)構(gòu)塊為基礎(chǔ),依次確定上一級(jí)網(wǎng)頁結(jié)構(gòu)塊,直至確定出所述網(wǎng)頁布局結(jié)構(gòu)中的最高級(jí)別的網(wǎng)頁結(jié)構(gòu)塊;
14、基于確定出的各個(gè)目標(biāo)網(wǎng)頁結(jié)構(gòu)塊以及對(duì)應(yīng)的上一級(jí)網(wǎng)頁結(jié)構(gòu)塊,構(gòu)建所述目標(biāo)樹結(jié)構(gòu);各個(gè)目標(biāo)網(wǎng)頁結(jié)構(gòu)塊和各個(gè)上一級(jí)網(wǎng)頁結(jié)構(gòu)塊對(duì)應(yīng)為所述目標(biāo)樹結(jié)構(gòu)中的各個(gè)節(jié)點(diǎn)。
15、一種可選的實(shí)施方式中,通過以下步驟確定所述目標(biāo)網(wǎng)頁結(jié)構(gòu)塊的上一級(jí)網(wǎng)頁結(jié)構(gòu)塊:
16、確定所述目標(biāo)網(wǎng)頁的超文本標(biāo)記語言;所述超文本標(biāo)記語言指示多個(gè)頁面虛擬地址,任意兩個(gè)所述頁面虛擬地址之間存在并列關(guān)系或者存在嵌套關(guān)系,不同的所述頁面虛擬地址對(duì)應(yīng)不同的所述網(wǎng)頁結(jié)構(gòu)塊;
17、從所述超文本標(biāo)記語言中確定所述目標(biāo)網(wǎng)頁結(jié)構(gòu)塊對(duì)應(yīng)的頁面虛擬地址的上一級(jí)頁面虛擬地址;
18、基于所述頁面虛擬地址和所述網(wǎng)頁結(jié)構(gòu)塊之間的對(duì)應(yīng)關(guān)系,將所述上一級(jí)頁面虛擬地址對(duì)應(yīng)的網(wǎng)頁結(jié)構(gòu)塊確定為所述目標(biāo)網(wǎng)頁結(jié)構(gòu)塊的上一級(jí)網(wǎng)頁結(jié)構(gòu)塊。
19、一種可選的實(shí)施方式中,所述從所述目標(biāo)樹結(jié)構(gòu)中篩選出至少一個(gè)目標(biāo)節(jié)點(diǎn),包括:
20、從所述目標(biāo)樹結(jié)構(gòu)中確定多個(gè)交集節(jié)點(diǎn),所述交集節(jié)點(diǎn)為任意兩個(gè)鏈結(jié)構(gòu)之間相交的節(jié)點(diǎn);
21、確定各個(gè)所述交集節(jié)點(diǎn)的子節(jié)點(diǎn),在所述交集節(jié)點(diǎn)的任一子節(jié)點(diǎn)對(duì)應(yīng)所述第一網(wǎng)頁標(biāo)題的情況下,將所述交集節(jié)點(diǎn)確定為候選節(jié)點(diǎn);
22、基于所述候選節(jié)點(diǎn)的子節(jié)點(diǎn),確定所述目標(biāo)節(jié)點(diǎn)。
23、一種可選的實(shí)施方式中,所述基于所述候選節(jié)點(diǎn)的子節(jié)點(diǎn),確定所述目標(biāo)節(jié)點(diǎn),包括:
24、在所述候選節(jié)點(diǎn)的數(shù)量為1的情況下,將所述候選節(jié)點(diǎn)的子節(jié)點(diǎn),確定為所述目標(biāo)節(jié)點(diǎn);
25、在所述候選節(jié)點(diǎn)的數(shù)量大于1的情況下,比較各個(gè)所述候選節(jié)點(diǎn)的子節(jié)點(diǎn)對(duì)應(yīng)的第一網(wǎng)頁標(biāo)題的數(shù)量,從多個(gè)所述候選節(jié)點(diǎn)中篩選出其子節(jié)點(diǎn)對(duì)應(yīng)的第一網(wǎng)頁標(biāo)題的數(shù)量最多的目標(biāo)候選節(jié)點(diǎn),將所述目標(biāo)候選節(jié)點(diǎn)的子節(jié)點(diǎn),確定為所述目標(biāo)節(jié)點(diǎn)。
26、一種可選的實(shí)施方式中,所述方法還包括:
27、為用戶展示所述目標(biāo)網(wǎng)頁信息;
28、接收所述用戶設(shè)置的禁用標(biāo)題;所述禁用標(biāo)題為在所述目標(biāo)網(wǎng)頁信息中存在不滿足預(yù)設(shè)要求的網(wǎng)頁標(biāo)題的情況下,所述用戶基于所述不滿足預(yù)設(shè)要求的網(wǎng)頁標(biāo)題生成的;所述禁用標(biāo)題用于在從所述目標(biāo)樹結(jié)構(gòu)中篩選出至少一個(gè)目標(biāo)節(jié)點(diǎn)時(shí),排除掉所述禁用標(biāo)題所在鏈結(jié)構(gòu)上的節(jié)點(diǎn);
29、基于所述禁用標(biāo)題,重新執(zhí)行從所述目標(biāo)樹結(jié)構(gòu)中篩選出至少一個(gè)目標(biāo)節(jié)點(diǎn)的步驟。
30、一種可選的實(shí)施方式中,所述預(yù)設(shè)標(biāo)題集合包括多個(gè)預(yù)設(shè)標(biāo)題子集合,每個(gè)所述預(yù)設(shè)標(biāo)題子集合包括對(duì)應(yīng)網(wǎng)頁級(jí)別下的多個(gè)預(yù)設(shè)網(wǎng)頁標(biāo)題,不同的所述預(yù)設(shè)標(biāo)題子集合對(duì)應(yīng)的網(wǎng)頁級(jí)別不同;
31、所述從所述目標(biāo)網(wǎng)頁中提取出與預(yù)設(shè)標(biāo)題集合匹配的至少一個(gè)第一網(wǎng)頁標(biāo)題,包括:
32、基于所述目標(biāo)網(wǎng)頁中的網(wǎng)頁標(biāo)題對(duì)應(yīng)的目標(biāo)網(wǎng)頁級(jí)別,從所述預(yù)設(shè)標(biāo)題集合中確定與所述目標(biāo)網(wǎng)頁級(jí)別匹配的目標(biāo)預(yù)設(shè)標(biāo)題子集合;
33、將所述目標(biāo)網(wǎng)頁中的網(wǎng)頁標(biāo)題與所述目標(biāo)預(yù)設(shè)標(biāo)題子集合中的預(yù)設(shè)網(wǎng)頁標(biāo)題進(jìn)行比對(duì),將與任一所述預(yù)設(shè)網(wǎng)頁標(biāo)題一致的網(wǎng)頁標(biāo)題確定為所述第一網(wǎng)頁標(biāo)題。
34、第二方面,本公開實(shí)施例還提供一種網(wǎng)頁信息提取裝置,所述裝置包括:
35、標(biāo)題匹配模塊,用于獲取目標(biāo)網(wǎng)頁鏈接,并基于所述目標(biāo)網(wǎng)頁鏈接確定目標(biāo)網(wǎng)頁;從所述目標(biāo)網(wǎng)頁中提取出與預(yù)設(shè)標(biāo)題集合匹配的至少一個(gè)第一網(wǎng)頁標(biāo)題;
36、樹結(jié)構(gòu)確定模塊,用于基于所述目標(biāo)網(wǎng)頁的網(wǎng)頁布局結(jié)構(gòu),確定所述目標(biāo)網(wǎng)頁對(duì)應(yīng)的目標(biāo)樹結(jié)構(gòu);在所述目標(biāo)樹結(jié)構(gòu)中,所述第一網(wǎng)頁標(biāo)題所對(duì)應(yīng)的節(jié)點(diǎn)為所述樹結(jié)構(gòu)的葉子節(jié)點(diǎn);
37、節(jié)點(diǎn)篩選模塊,用于從所述目標(biāo)樹結(jié)構(gòu)中篩選出至少一個(gè)目標(biāo)節(jié)點(diǎn),分別確定各個(gè)目標(biāo)節(jié)點(diǎn)對(duì)應(yīng)的第二網(wǎng)頁標(biāo)題;所述目標(biāo)節(jié)點(diǎn)與所述第一網(wǎng)頁標(biāo)題所對(duì)應(yīng)的節(jié)點(diǎn)具有相同的父節(jié)點(diǎn);至少一個(gè)所述第二網(wǎng)頁標(biāo)題至少包括所述至少一個(gè)第一網(wǎng)頁標(biāo)題;
38、標(biāo)題判斷模塊,用于針對(duì)每個(gè)所述第二網(wǎng)頁標(biāo)題,判斷所述第二網(wǎng)頁標(biāo)題是否攜帶新的網(wǎng)頁鏈接;所述新的網(wǎng)頁鏈接用于指示新的目標(biāo)網(wǎng)頁,所述新的目標(biāo)網(wǎng)頁用于展示所述第二網(wǎng)頁標(biāo)題的下一網(wǎng)頁級(jí)別的網(wǎng)頁信息;
39、信息確定模塊,用于在所述第二網(wǎng)頁標(biāo)題不攜帶新的網(wǎng)頁鏈接的情況下,將不攜帶新的網(wǎng)頁鏈接的第二網(wǎng)頁標(biāo)題以及該第二網(wǎng)頁標(biāo)題的內(nèi)容描述信息確定為目標(biāo)網(wǎng)頁信息。
40、一種可選的實(shí)施方式中,所述信息確定模塊還用于:
41、在所述第二網(wǎng)頁標(biāo)題攜帶新的網(wǎng)頁鏈接的情況下,將新的網(wǎng)頁鏈接作為所述目標(biāo)網(wǎng)頁鏈接并返回至基于所述目標(biāo)網(wǎng)頁鏈接確定目標(biāo)網(wǎng)頁的步驟。
42、一種可選的實(shí)施方式中,所述網(wǎng)頁布局結(jié)構(gòu)包括所述目標(biāo)網(wǎng)頁中的多個(gè)網(wǎng)頁結(jié)構(gòu)塊,任意兩個(gè)所述網(wǎng)頁結(jié)構(gòu)塊之間存在并列關(guān)系或者存在嵌套關(guān)系;
43、所述樹結(jié)構(gòu)確定模塊具體用于:
44、基于所述目標(biāo)網(wǎng)頁的網(wǎng)頁布局結(jié)構(gòu),確定所述第一網(wǎng)頁標(biāo)題所對(duì)應(yīng)的目標(biāo)網(wǎng)頁結(jié)構(gòu)塊;
45、以所述目標(biāo)網(wǎng)頁結(jié)構(gòu)塊為基礎(chǔ),依次確定上一級(jí)網(wǎng)頁結(jié)構(gòu)塊,直至確定出所述網(wǎng)頁布局結(jié)構(gòu)中的最高級(jí)別的網(wǎng)頁結(jié)構(gòu)塊;
46、基于確定出的各個(gè)目標(biāo)網(wǎng)頁結(jié)構(gòu)塊以及對(duì)應(yīng)的上一級(jí)網(wǎng)頁結(jié)構(gòu)塊,構(gòu)建所述目標(biāo)樹結(jié)構(gòu);各個(gè)目標(biāo)網(wǎng)頁結(jié)構(gòu)塊和各個(gè)上一級(jí)網(wǎng)頁結(jié)構(gòu)塊對(duì)應(yīng)為所述目標(biāo)樹結(jié)構(gòu)中的各個(gè)節(jié)點(diǎn)。
47、一種可選的實(shí)施方式中,所述樹結(jié)構(gòu)確定模塊通過以下步驟確定所述目標(biāo)網(wǎng)頁結(jié)構(gòu)塊的上一級(jí)網(wǎng)頁結(jié)構(gòu)塊:
48、確定所述目標(biāo)網(wǎng)頁的超文本標(biāo)記語言;所述超文本標(biāo)記語言指示多個(gè)頁面虛擬地址,任意兩個(gè)所述頁面虛擬地址之間存在并列關(guān)系或者存在嵌套關(guān)系,不同的所述頁面虛擬地址對(duì)應(yīng)不同的所述網(wǎng)頁結(jié)構(gòu)塊;
49、從所述超文本標(biāo)記語言中確定所述目標(biāo)網(wǎng)頁結(jié)構(gòu)塊對(duì)應(yīng)的頁面虛擬地址的上一級(jí)頁面虛擬地址;
50、基于所述頁面虛擬地址和所述網(wǎng)頁結(jié)構(gòu)塊之間的對(duì)應(yīng)關(guān)系,將所述上一級(jí)頁面虛擬地址對(duì)應(yīng)的網(wǎng)頁結(jié)構(gòu)塊確定為所述目標(biāo)網(wǎng)頁結(jié)構(gòu)塊的上一級(jí)網(wǎng)頁結(jié)構(gòu)塊。
51、一種可選的實(shí)施方式中,所述節(jié)點(diǎn)篩選模塊在用于所述從所述目標(biāo)樹結(jié)構(gòu)中篩選出至少一個(gè)目標(biāo)節(jié)點(diǎn)時(shí),具體用于:
52、從所述目標(biāo)樹結(jié)構(gòu)中確定多個(gè)交集節(jié)點(diǎn),所述交集節(jié)點(diǎn)為任意兩個(gè)鏈結(jié)構(gòu)之間相交的節(jié)點(diǎn);
53、確定各個(gè)所述交集節(jié)點(diǎn)的子節(jié)點(diǎn),在所述交集節(jié)點(diǎn)的任一子節(jié)點(diǎn)對(duì)應(yīng)所述第一網(wǎng)頁標(biāo)題的情況下,將所述交集節(jié)點(diǎn)確定為候選節(jié)點(diǎn);
54、基于所述候選節(jié)點(diǎn)的子節(jié)點(diǎn),確定所述目標(biāo)節(jié)點(diǎn)。
55、一種可選的實(shí)施方式中,所述節(jié)點(diǎn)篩選模塊在用于所述基于所述候選節(jié)點(diǎn)的子節(jié)點(diǎn),確定所述目標(biāo)節(jié)點(diǎn)時(shí),具體用于:
56、在所述候選節(jié)點(diǎn)的數(shù)量為1的情況下,將所述候選節(jié)點(diǎn)的子節(jié)點(diǎn),確定為所述目標(biāo)節(jié)點(diǎn);
57、在所述候選節(jié)點(diǎn)的數(shù)量大于1的情況下,比較各個(gè)所述候選節(jié)點(diǎn)的子節(jié)點(diǎn)對(duì)應(yīng)的第一網(wǎng)頁標(biāo)題的數(shù)量,從多個(gè)所述候選節(jié)點(diǎn)中篩選出其子節(jié)點(diǎn)對(duì)應(yīng)的第一網(wǎng)頁標(biāo)題的數(shù)量最多的目標(biāo)候選節(jié)點(diǎn),將所述目標(biāo)候選節(jié)點(diǎn)的子節(jié)點(diǎn),確定為所述目標(biāo)節(jié)點(diǎn)。
58、一種可選的實(shí)施方式中,所述裝置還包括信息展示模塊,所述信息展示模塊用于:
59、為用戶展示所述目標(biāo)網(wǎng)頁信息;
60、接收所述用戶設(shè)置的禁用標(biāo)題;所述禁用標(biāo)題為在所述目標(biāo)網(wǎng)頁信息中存在不滿足預(yù)設(shè)要求的網(wǎng)頁標(biāo)題的情況下,所述用戶基于所述不滿足預(yù)設(shè)要求的網(wǎng)頁標(biāo)題生成的;所述禁用標(biāo)題用于在從所述目標(biāo)樹結(jié)構(gòu)中篩選出至少一個(gè)目標(biāo)節(jié)點(diǎn)時(shí),排除掉所述禁用標(biāo)題所在鏈結(jié)構(gòu)上的節(jié)點(diǎn);
61、基于所述禁用標(biāo)題,重新執(zhí)行從所述目標(biāo)樹結(jié)構(gòu)中篩選出至少一個(gè)目標(biāo)節(jié)點(diǎn)的步驟。
62、一種可選的實(shí)施方式中,所述預(yù)設(shè)標(biāo)題集合包括多個(gè)預(yù)設(shè)標(biāo)題子集合,每個(gè)所述預(yù)設(shè)標(biāo)題子集合包括對(duì)應(yīng)網(wǎng)頁級(jí)別下的多個(gè)預(yù)設(shè)網(wǎng)頁標(biāo)題,不同的所述預(yù)設(shè)標(biāo)題子集合對(duì)應(yīng)的網(wǎng)頁級(jí)別不同;
63、所述標(biāo)題匹配模塊在用于所述從所述目標(biāo)網(wǎng)頁中提取出與預(yù)設(shè)標(biāo)題集合匹配的至少一個(gè)第一網(wǎng)頁標(biāo)題時(shí),具體用于:
64、基于所述目標(biāo)網(wǎng)頁中的網(wǎng)頁標(biāo)題對(duì)應(yīng)的目標(biāo)網(wǎng)頁級(jí)別,從所述預(yù)設(shè)標(biāo)題集合中確定與所述目標(biāo)網(wǎng)頁級(jí)別匹配的目標(biāo)預(yù)設(shè)標(biāo)題子集合;
65、將所述目標(biāo)網(wǎng)頁中的網(wǎng)頁標(biāo)題與所述目標(biāo)預(yù)設(shè)標(biāo)題子集合中的預(yù)設(shè)網(wǎng)頁標(biāo)題進(jìn)行比對(duì),將與任一所述預(yù)設(shè)網(wǎng)頁標(biāo)題一致的網(wǎng)頁標(biāo)題確定為所述第一網(wǎng)頁標(biāo)題。
66、第三方面,本公開實(shí)施例還提供一種電子設(shè)備,包括:處理器、存儲(chǔ)器和總線,所述存儲(chǔ)器存儲(chǔ)有所述處理器可執(zhí)行的機(jī)器可讀指令,當(dāng)電子設(shè)備運(yùn)行時(shí),所述處理器與所述存儲(chǔ)器之間通過總線通信,所述機(jī)器可讀指令被所述處理器執(zhí)行時(shí)執(zhí)行上述第一方面,或第一方面中任一種可能的實(shí)施方式中所述的網(wǎng)頁信息提取方法的步驟。
67、第四方面,本公開實(shí)施例還提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),該計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上存儲(chǔ)有計(jì)算機(jī)程序,該計(jì)算機(jī)程序被處理器運(yùn)行時(shí)執(zhí)行上述第一方面,或第一方面中任一種可能的實(shí)施方式中所述的網(wǎng)頁信息提取方法的步驟。
68、本公開實(shí)施例提供的網(wǎng)頁信息提取方法、裝置、設(shè)備及介質(zhì),可以獲取目標(biāo)網(wǎng)頁鏈接,基于目標(biāo)網(wǎng)頁鏈接確定目標(biāo)網(wǎng)頁,并從目標(biāo)網(wǎng)頁中提取出與預(yù)設(shè)標(biāo)題集合匹配的至少一個(gè)第一網(wǎng)頁標(biāo)題,然后基于目標(biāo)網(wǎng)頁的網(wǎng)頁結(jié)構(gòu)布局,確定目標(biāo)網(wǎng)頁對(duì)應(yīng)的目標(biāo)樹結(jié)構(gòu),接著從目標(biāo)樹結(jié)構(gòu)中篩選出與至少一個(gè)目標(biāo)節(jié)點(diǎn),分別確定各個(gè)目標(biāo)節(jié)點(diǎn)對(duì)應(yīng)的第二網(wǎng)頁標(biāo)題,這里目標(biāo)節(jié)點(diǎn)與第一網(wǎng)頁標(biāo)題所對(duì)應(yīng)的節(jié)點(diǎn)具有相同的父節(jié)點(diǎn),進(jìn)而針對(duì)每個(gè)第二網(wǎng)頁標(biāo)題,判斷第二網(wǎng)頁標(biāo)題是否攜帶新的網(wǎng)頁鏈接,在第二網(wǎng)頁標(biāo)題不攜帶新的網(wǎng)頁鏈接的情況下,將不攜帶新的網(wǎng)頁鏈接的第二網(wǎng)頁標(biāo)題以及該第二網(wǎng)頁標(biāo)題的內(nèi)容描述信息確定為目標(biāo)網(wǎng)頁信息。
69、這樣,通過目標(biāo)網(wǎng)頁鏈接進(jìn)入目標(biāo)網(wǎng)頁后,可以通過預(yù)設(shè)標(biāo)題集合篩選出從目標(biāo)網(wǎng)頁中篩選出第一網(wǎng)頁標(biāo)題,這樣可以根據(jù)預(yù)設(shè)標(biāo)題集合初步確定出需要的第一網(wǎng)頁標(biāo)題;進(jìn)而通過構(gòu)建目標(biāo)樹結(jié)構(gòu),從樹結(jié)構(gòu)中確定與第一網(wǎng)頁標(biāo)題所對(duì)應(yīng)的節(jié)點(diǎn)具有相同的父節(jié)點(diǎn)的目標(biāo)節(jié)點(diǎn),這樣可以在第一網(wǎng)頁標(biāo)題的基礎(chǔ)上,擴(kuò)展確定出與第一網(wǎng)頁標(biāo)題等級(jí)相同、但預(yù)設(shè)標(biāo)題集合中未包含的其他網(wǎng)頁標(biāo)題,從而提升第二網(wǎng)頁標(biāo)題的全面性和完整性;進(jìn)而針對(duì)每個(gè)第二網(wǎng)頁標(biāo)題判斷是否攜帶新的網(wǎng)頁鏈接,將不攜帶新的網(wǎng)頁鏈接的第二網(wǎng)頁標(biāo)題以及該第二網(wǎng)頁標(biāo)題的內(nèi)容描述信息作為需要提取的目標(biāo)網(wǎng)頁信息;考慮到網(wǎng)頁中都會(huì)存在網(wǎng)頁標(biāo)題以及網(wǎng)頁本身都具有網(wǎng)頁布局結(jié)構(gòu),本公開實(shí)施例有效利用上述網(wǎng)頁特點(diǎn),設(shè)計(jì)了通用化的網(wǎng)頁信息提取方法,針對(duì)不同的網(wǎng)頁,都可以采用本公開實(shí)施例提供的方案,有效提升網(wǎng)頁信息提取的智能化,無需針對(duì)每個(gè)網(wǎng)頁都人工開發(fā)網(wǎng)頁信息提取算法,針對(duì)不同網(wǎng)頁統(tǒng)一使用該方法即可,有利于減少人力成本和時(shí)間成本,有效提升網(wǎng)頁信息提取的便捷性。
70、應(yīng)當(dāng)理解的是,以上的一般描述和后文的細(xì)節(jié)描述僅是示例性和解釋性的,而非限制本公開的技術(shù)方案。
71、為使本公開的上述目的、特征和優(yōu)點(diǎn)能更明顯易懂,下文特舉較佳實(shí)施例,并配合所附附圖,作詳細(xì)說明如下。