網(wǎng)頁(yè)信息抽取方法
【專(zhuān)利摘要】本發(fā)明涉及一種網(wǎng)頁(yè)信息抽取方法,該方法包括:對(duì)網(wǎng)頁(yè)Web的頁(yè)面數(shù)據(jù)建立DOM樹(shù),從DOM樹(shù)中遞歸選取包含所有待抽取信息的節(jié)點(diǎn)子樹(shù),選取節(jié)點(diǎn)子樹(shù)中所有待抽取信息的屬性節(jié)點(diǎn)的路徑、值節(jié)點(diǎn)的路徑和最小的子樹(shù),將最小的子樹(shù)的根節(jié)點(diǎn)作為超文本標(biāo)記語(yǔ)言HTML標(biāo)簽相對(duì)特征坐標(biāo)系的原點(diǎn);將從DOM樹(shù)中訓(xùn)練得到待抽取信息的屬性和值在HTML標(biāo)簽相對(duì)特征坐標(biāo)系中的路徑,生成屬性坐標(biāo)和值坐標(biāo),根據(jù)相對(duì)特征坐標(biāo)系的原點(diǎn)、屬性坐標(biāo)和值坐標(biāo)定位待抽取信息;將屬性坐標(biāo)和值坐標(biāo)作為待抽取信息的抽取規(guī)則,所有待抽取信息的抽取規(guī)則組成Web的抽取規(guī)則集合并生成包裝器;通過(guò)包裝器的抽取規(guī)則的屬性坐標(biāo)和值坐標(biāo),定位待抽取信息的屬性和值,并抽取Web信息。
【專(zhuān)利說(shuō)明】網(wǎng)頁(yè)信息抽取方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及網(wǎng)頁(yè)【技術(shù)領(lǐng)域】,特別涉及一種網(wǎng)頁(yè)信息抽取方法。
【背景技術(shù)】
[0002]伴隨著互聯(lián)網(wǎng)及應(yīng)用和服務(wù)的普及,網(wǎng)上信息量以指數(shù)級(jí)增長(zhǎng),海量的數(shù)據(jù)使用戶(hù)遭遇了選擇困難的問(wèn)題。用戶(hù)搜索到的信息很大一部分是不感興趣的或是不相關(guān)的。因此,采集互聯(lián)網(wǎng)上的數(shù)據(jù),收集用戶(hù)感興趣的內(nèi)容,抽取有用信息將其集成結(jié)構(gòu)化數(shù)據(jù),呈現(xiàn)給用戶(hù)的相關(guān)技術(shù)變得十分重要。Web頁(yè)面具有動(dòng)態(tài)異構(gòu)性的特點(diǎn),Web頁(yè)面會(huì)隨著時(shí)間的變化發(fā)生動(dòng)態(tài)改變,且不同的網(wǎng)站之前具有異構(gòu)性的特點(diǎn),因此從不同的Web頁(yè)面中抽取有用的信息也具有相當(dāng)?shù)碾y度,且耗時(shí)。
【發(fā)明內(nèi)容】
[0003]本發(fā)明的目的是提供了一種網(wǎng)頁(yè)信息抽取方法,提高網(wǎng)頁(yè)信息抽取的準(zhǔn)確率和效率。
[0004]為實(shí)現(xiàn)上述目的,本發(fā)明提供了一種網(wǎng)頁(yè)信息抽取方法,所述方法包括:
[0005]對(duì)網(wǎng)頁(yè)Web的頁(yè)面數(shù)據(jù)建立文檔對(duì)象模型DOM樹(shù),從所述DOM樹(shù)中遞歸選取包含所有待抽取信息的節(jié)點(diǎn)子樹(shù),選取所述節(jié)點(diǎn)子樹(shù)中所述所有待抽取信息的屬性節(jié)點(diǎn)的路徑、值節(jié)點(diǎn)的路徑和最小的子樹(shù),將所述最小的子樹(shù)的根節(jié)點(diǎn)作為超文本標(biāo)記語(yǔ)言HTML標(biāo)簽相對(duì)特征坐標(biāo)系的原點(diǎn);
[0006]將從DOM樹(shù)中訓(xùn)練得到待抽取信息的屬性和值在HTML標(biāo)簽相對(duì)特征坐標(biāo)系中的路徑,生成屬性坐標(biāo)和值坐標(biāo),根據(jù)所述相對(duì)特征坐標(biāo)系的原點(diǎn)、所述屬性坐標(biāo)和值坐標(biāo)定位所述待抽取信息,其中所述所有待抽取信息包括所述待抽取信息;
[0007]將所述屬性坐標(biāo)和所述值坐標(biāo)作為所述待抽取信息的抽取規(guī)則,其中,不同的待抽取信息訓(xùn)練出的抽取規(guī)則不同,所述所有待抽取信息的抽取規(guī)則組成所述Web的抽取規(guī)則集合并生成包裝器;
[0008]通過(guò)所述包裝器的抽取規(guī)則的屬性坐標(biāo)和值坐標(biāo),定位所述待抽取信息的屬性和值,并抽取Web信息。
[0009]進(jìn)一步地,所述方法還包括:構(gòu)建所述HTML標(biāo)簽相對(duì)特征坐標(biāo)系:
[0010]將所述所有待抽取信息中的第一個(gè)待抽取信息的屬性或值所在HTML標(biāo)簽的相關(guān)節(jié)點(diǎn)作為訓(xùn)練坐標(biāo)原點(diǎn);
[0011]在以所述訓(xùn)練坐標(biāo)原點(diǎn)為根節(jié)點(diǎn)的子樹(shù)中查找所述待抽取信息的屬性和值;
[0012]當(dāng)所述訓(xùn)練坐標(biāo)原點(diǎn)不能定位所述所有待抽取信息的屬性和值時(shí),更新所述訓(xùn)練坐標(biāo)原點(diǎn),將所述訓(xùn)練坐標(biāo)原點(diǎn)的父節(jié)點(diǎn)作為更新后的訓(xùn)練坐標(biāo)原點(diǎn);
[0013]當(dāng)所述訓(xùn)練坐標(biāo)原點(diǎn)能定位所述所有待抽取信息的屬性和值時(shí),將所述所有待抽取信息中的每個(gè)待抽取信息的屬性和值所在標(biāo)簽到當(dāng)前訓(xùn)練坐標(biāo)原點(diǎn)的路徑作為所述每個(gè)待抽取信息的屬性坐標(biāo)和值坐標(biāo),所述每個(gè)待抽取信息的屬性坐標(biāo)和值坐標(biāo)組成的坐標(biāo)系構(gòu)建所述HTML標(biāo)簽相對(duì)特征坐標(biāo)系。
[0014]進(jìn)一步地,所述方法還包括:在滿(mǎn)足所述抽取規(guī)則的準(zhǔn)確率和召回率閾值的情況下,同類(lèi)Web頁(yè)面數(shù)據(jù)生成的包裝器最小,所述包裝器中的抽取規(guī)則所定位的標(biāo)簽的路徑最短。
[0015]進(jìn)一步地,在所述通過(guò)所述包裝器的抽取規(guī)則的屬性坐標(biāo)和值坐標(biāo),定位所述待抽取信息的屬性和值之前,所述方法還包括:
[0016]定位所述待抽取信息的抽取坐標(biāo)原點(diǎn),根據(jù)所述訓(xùn)練坐標(biāo)原點(diǎn)的文本特征和正則表達(dá)式匹配,查找出所述抽取坐標(biāo)原點(diǎn)所在標(biāo)簽。
[0017]進(jìn)一步地,所述抽取Web信息具體包括:
[0018]對(duì)所述Web建立HTML標(biāo)簽相對(duì)特征坐標(biāo)系;
[0019]對(duì)所述Web中的所述待抽取信息建立屬性坐標(biāo)和值坐標(biāo);
[0020]利用訓(xùn)練集中的網(wǎng)頁(yè)修正所述待抽取信息的屬性坐標(biāo)和值坐標(biāo),使得所述待抽取信息的屬性坐標(biāo)和值坐標(biāo)能夠定位到固定閾值比例的待抽取信息,并將所述待抽取信息的屬性坐標(biāo)和值坐標(biāo)作為所述待抽取信息的抽取規(guī)則;
[0021]對(duì)于同類(lèi)的Web頁(yè)面數(shù)據(jù),將所有待抽取信息的屬性坐標(biāo)和值坐標(biāo)對(duì)組合,并構(gòu)成同類(lèi)的Web頁(yè)面數(shù)據(jù)的包裝器;
[0022]通過(guò)所述坐標(biāo)原點(diǎn)的文本特征和正則表達(dá)式,查找出所述坐標(biāo)原點(diǎn)的標(biāo)簽,當(dāng)所述包裝器中的抽取規(guī)則定位到的屬性坐標(biāo)與所述待抽取信息的屬性一致時(shí),則所述包裝器中的抽取規(guī)則定位到的值坐標(biāo)為所述待抽取信息。
[0023]進(jìn)一步地,所述抽取Web信息具體還包括:
[0024]對(duì)于不同類(lèi)的Web頁(yè)面數(shù)據(jù),將所有待抽取信息的屬性坐標(biāo)和值坐標(biāo)對(duì)組合,并構(gòu)成不同類(lèi)的Web頁(yè)面數(shù)據(jù)的包裝器集合。
[0025]本發(fā)明提供的網(wǎng)頁(yè)信息抽取方法,對(duì)網(wǎng)頁(yè)Web的頁(yè)面數(shù)據(jù)建立文檔對(duì)象模型DOM樹(shù),從所述DOM樹(shù)中遞歸選取包含所有待抽取信息的節(jié)點(diǎn)子樹(shù),將所述最小的子樹(shù)的根節(jié)點(diǎn)作為超文本標(biāo)記語(yǔ)言HTML標(biāo)簽相對(duì)特征坐標(biāo)系的原點(diǎn);將從DOM樹(shù)中訓(xùn)練得到待抽取信息的屬性和值在HTML標(biāo)簽相對(duì)特征坐標(biāo)系中的路徑,生成屬性坐標(biāo)和值坐標(biāo),根據(jù)所述相對(duì)特征坐標(biāo)系的原點(diǎn)、所述屬性坐標(biāo)和值坐標(biāo)定位所述待抽取信息;將所述屬性坐標(biāo)和所述值坐標(biāo)作為所述待抽取信息的抽取規(guī)則,所述所有待抽取信息的抽取規(guī)則組成所述Web的抽取規(guī)則集合并生成包裝器;通過(guò)所述包裝器的抽取規(guī)則的屬性坐標(biāo)和值坐標(biāo),定位所述待抽取信息的屬性和值,并抽取Web信息。該方法利用雙向定位法抽取Web信息,可以降低抽取信息錯(cuò)誤率,提高抽取的準(zhǔn)確性;同時(shí)相對(duì)特征坐標(biāo)系的使用,極大的減少了構(gòu)造Web頁(yè)面的DOM樹(shù)所需要花費(fèi)的時(shí)間,提高信息抽取效率。
【專(zhuān)利附圖】
【附圖說(shuō)明】
[0026]圖1為本發(fā)明實(shí)施例提供的網(wǎng)頁(yè)信息抽取方法流程圖;
[0027]圖2為本發(fā)明實(shí)施例提供的網(wǎng)頁(yè)信息抽取方法結(jié)構(gòu)示意圖;
[0028]圖3為本發(fā)明實(shí)施例提供的DOM樹(shù)中元素標(biāo)簽中的屬性與值的關(guān)系示意圖;
[0029]圖4為本發(fā)明實(shí)施例提供的DOM樹(shù)中元素標(biāo)簽中的屬性與值的關(guān)系示意圖;
[0030]圖5為本發(fā)明實(shí)施例提供的DOM樹(shù)中元素標(biāo)簽中的屬性與值的關(guān)系示意圖;
[0031]圖6為本發(fā)明實(shí)施例提供的包裝器訓(xùn)練流程圖;
[0032]圖7為本發(fā)明實(shí)施例提供的信息抽取的流程圖。
【具體實(shí)施方式】
[0033]下面通過(guò)附圖和實(shí)施例,對(duì)本發(fā)明的技術(shù)方案做進(jìn)一步的詳細(xì)描述。
[0034]下面以圖1為例詳細(xì)說(shuō)明本發(fā)明實(shí)施例提供的網(wǎng)頁(yè)信息抽取方法,Web信息抽取方法的流程主要包括包裝器訓(xùn)練和信息抽取的流程。圖1為本發(fā)明實(shí)施例提供的網(wǎng)頁(yè)信息抽取方法流程圖,圖2為本發(fā)明實(shí)施例提供的網(wǎng)頁(yè)信息抽取方法結(jié)構(gòu)示意圖。結(jié)合圖1和圖2所示,該方法包括如下步驟:
[0035]步驟S101、對(duì)網(wǎng)頁(yè)Web的頁(yè)面數(shù)據(jù)建立文檔對(duì)象模型DOM樹(shù),從所述DOM樹(shù)中遞歸選取包含所有待抽取信息的節(jié)點(diǎn)子樹(shù),選取所述節(jié)點(diǎn)子樹(shù)中所述所有待抽取信息的屬性節(jié)點(diǎn)的路徑、值節(jié)點(diǎn)的路徑和最小的子樹(shù),將所述最小的子樹(shù)的根節(jié)點(diǎn)作為超文本標(biāo)記語(yǔ)言HTML標(biāo)簽相對(duì)特征坐標(biāo)系的原點(diǎn);
[0036]其中,構(gòu)建所述HTML標(biāo)簽相對(duì)特征坐標(biāo)系具體包括以下步驟:
[0037]步驟21、將所述所有待抽取信息中的第一個(gè)待抽取信息的屬性或值所在HTML標(biāo)簽的相關(guān)節(jié)點(diǎn)作為訓(xùn)練坐標(biāo)原點(diǎn);
[0038]步驟22、在以所述訓(xùn)練坐標(biāo)原點(diǎn)為根節(jié)點(diǎn)的子樹(shù)中查找所述待抽取信息的屬性和值;
[0039]步驟23、當(dāng)所述訓(xùn)練坐標(biāo)原點(diǎn)不能定位所述所有待抽取信息的屬性和值時(shí),更新所述訓(xùn)練坐標(biāo)原點(diǎn),將所述訓(xùn)練坐標(biāo)原點(diǎn)的父節(jié)點(diǎn)作為更新后的訓(xùn)練坐標(biāo)原點(diǎn);
[0040]具體地,當(dāng)訓(xùn)練坐標(biāo)原點(diǎn)不能定位所有待抽取信息的屬性和值時(shí),循環(huán)執(zhí)行步驟23,直到訓(xùn)練坐標(biāo)原點(diǎn)能定位所有待抽取信息的屬性和值。例如,當(dāng)訓(xùn)練坐標(biāo)原點(diǎn)c不能定位所有待抽取信息的屬性和值時(shí),更新訓(xùn)練坐標(biāo)原點(diǎn)C,將訓(xùn)練坐標(biāo)原點(diǎn)c的父節(jié)點(diǎn)d作為更新后的訓(xùn)練坐標(biāo)原點(diǎn);如果新的訓(xùn)練坐標(biāo)原點(diǎn)d也不能定位所有待抽取信息的屬性和值時(shí),再次更新訓(xùn)練坐標(biāo)原點(diǎn)山將訓(xùn)練坐標(biāo)原點(diǎn)d的父節(jié)點(diǎn)e作為更新后的訓(xùn)練坐標(biāo)原點(diǎn);以此類(lèi)推,直到訓(xùn)練坐標(biāo)原點(diǎn)能定位所有待抽取信息的屬性和值,再進(jìn)行步驟24。
[0041]步驟24、當(dāng)所述訓(xùn)練坐標(biāo)原點(diǎn)能定位所述所有待抽取信息的屬性和值時(shí),將所述所有待抽取信息中的每個(gè)待抽取信息的屬性和值所在標(biāo)簽到當(dāng)前訓(xùn)練坐標(biāo)原點(diǎn)的路徑作為所述每個(gè)待抽取信息的屬性坐標(biāo)和值坐標(biāo),所述每個(gè)待抽取信息的屬性坐標(biāo)和值坐標(biāo)組成的坐標(biāo)系構(gòu)建所述HTML標(biāo)簽相對(duì)特征坐標(biāo)系。
[0042]步驟S102、將從DOM樹(shù)中訓(xùn)練得到待抽取信息的屬性和值在HTML標(biāo)簽相對(duì)特征坐標(biāo)系中的路徑,生成屬性坐標(biāo)和值坐標(biāo),根據(jù)所述相對(duì)特征坐標(biāo)系的原點(diǎn)、所述屬性坐標(biāo)和值坐標(biāo)定位所述待抽取信息,其中所述所有待抽取信息包括所述待抽取信息;
[0043]具體地,DOM樹(shù)中元素標(biāo)簽中的屬性與值存在三種關(guān)系,圖3、4和5為本發(fā)明實(shí)施例提供的DOM樹(shù)中元素標(biāo)簽中的屬性與值的關(guān)系示意圖,具體地,如圖3所示,元素由混合式內(nèi)容構(gòu)成,抽取信息需定位到抽取信息的父節(jié)點(diǎn);如圖4所示,元素由混合式內(nèi)容構(gòu)成,抽取信息需定位到抽取信息的子節(jié)點(diǎn);如圖5所示,元素由子元素構(gòu)成,抽取信息需定位到抽取信息的兄弟節(jié)點(diǎn)。
[0044]步驟S103、將所述屬性坐標(biāo)和所述值坐標(biāo)作為所述待抽取信息的抽取規(guī)則,其中,不同的待抽取信息訓(xùn)練出的抽取規(guī)則不同,所述所有待抽取信息的抽取規(guī)則組成所述Web的抽取規(guī)則集合并生成包裝器;
[0045]包裝器訓(xùn)練模塊,通過(guò)對(duì)訓(xùn)練集進(jìn)行訓(xùn)練,查找所有待抽取信息所在DOM樹(shù)中的子樹(shù),構(gòu)建HTML標(biāo)簽相對(duì)特征坐標(biāo)系,構(gòu)造坐標(biāo)系的坐標(biāo)原點(diǎn),并訓(xùn)練得到屬性和值所在DOM子樹(shù)的路徑作為HTML標(biāo)簽相對(duì)特征坐標(biāo)系中的固定坐標(biāo),兩個(gè)坐標(biāo)即為抽取該屬性值的抽取規(guī)則,多個(gè)抽取規(guī)則組合在一起組成包裝器。
[0046]為更好地理解上述方法,以一個(gè)具體的流程對(duì)上述步驟101-步驟103的執(zhí)行過(guò)程進(jìn)行說(shuō)明。
[0047]如圖6所示的包裝器訓(xùn)練流程圖,步驟101-步驟103描述的包裝器訓(xùn)練流程圖具體包括以下步驟:
[0048]步驟201、訓(xùn)練開(kāi)始
[0049]步驟202、選擇訓(xùn)練集中的一個(gè)網(wǎng)頁(yè),輸入到包裝器訓(xùn)練模塊;
[0050]步驟203、對(duì)該網(wǎng)頁(yè)建立DOM樹(shù);
[0051]步驟204、將第一個(gè)抽取屬性所在DOM樹(shù)的節(jié)點(diǎn)作為坐標(biāo)原點(diǎn);
[0052]步驟205、將坐標(biāo)原點(diǎn)的父節(jié)點(diǎn)作為坐標(biāo)原點(diǎn);
[0053]步驟206、測(cè)試所有其他待抽取信息節(jié)點(diǎn)是否在該原點(diǎn)子樹(shù)上,如果都在,執(zhí)行步驟207,否則,執(zhí)行步驟205 ;
[0054]步驟207、計(jì)算所有待抽取信息的元數(shù)據(jù)屬性相對(duì)于坐標(biāo)原點(diǎn)的XPath路徑作為坐標(biāo),構(gòu)建了基于屬性的相對(duì)坐標(biāo)系;
[0055]步驟208、以屬性建立的坐標(biāo)原點(diǎn)作為原點(diǎn),計(jì)算在其所在子樹(shù)所有待抽取信息的值相對(duì)于坐標(biāo)原點(diǎn)的XPath路徑作為坐標(biāo),構(gòu)建基于值的相對(duì)坐標(biāo)系;
[0056]步驟209、分析所有訓(xùn)練集中的網(wǎng)頁(yè),使用XPath路徑提取屬性和值,驗(yàn)證屬性坐標(biāo)和值坐標(biāo)提取信息是否能夠滿(mǎn)足召回率和精確度達(dá)到閾值0.99,如果已經(jīng)達(dá)到,則執(zhí)行步驟210,否則執(zhí)行步驟202 ;
[0057]步驟210、將坐標(biāo)原點(diǎn)的文本以及所有抽取信息的屬性坐標(biāo)和值坐標(biāo)組合成包裝器輸出到信息抽取模塊;
[0058]步驟211、訓(xùn)練結(jié)束。
[0059]上述步驟201-步驟211是步驟101-步驟103的具體化,等同于步驟101-步驟103。
[0060]步驟S104、通過(guò)所述包裝器的抽取規(guī)則的屬性坐標(biāo)和值坐標(biāo),定位所述待抽取信息的屬性和值,并抽取Web信息。
[0061]信息抽取模塊,利用包裝器訓(xùn)練模塊訓(xùn)練出的包裝器,使用每條規(guī)則中的兩個(gè)坐標(biāo),定位待抽取屬性和值,進(jìn)行Web信息抽取,對(duì)兩種坐標(biāo)系下抽取的值進(jìn)行比較。
[0062]可選地,在所述通過(guò)所述包裝器的抽取規(guī)則的屬性坐標(biāo)和值坐標(biāo),定位所述待抽取信息的屬性和值之前,還包括:定位所述待抽取信息的抽取坐標(biāo)原點(diǎn),根據(jù)所述訓(xùn)練坐標(biāo)原點(diǎn)的文本特征和正則表達(dá)式匹配,查找出所述抽取坐標(biāo)原點(diǎn)所在標(biāo)簽。
[0063]其中,抽取Web信息具體包括以下步驟:
[0064]步驟31、對(duì)所述Web建立HTML標(biāo)簽相對(duì)特征坐標(biāo)系;
[0065]步驟32、對(duì)所述Web中的所述待抽取信息建立屬性坐標(biāo)和值坐標(biāo);
[0066]步驟33、利用訓(xùn)練集中的網(wǎng)頁(yè)修正所述待抽取信息的屬性坐標(biāo)和值坐標(biāo),使得所述待抽取信息的屬性坐標(biāo)和值坐標(biāo)能夠定位到固定閾值比例的待抽取信息,并將所述待抽取信息的屬性坐標(biāo)和值坐標(biāo)作為所述待抽取信息的抽取規(guī)則;
[0067]步驟34、對(duì)于同類(lèi)的Web頁(yè)面數(shù)據(jù),將所有待抽取信息的屬性坐標(biāo)和值坐標(biāo)對(duì)組合,并構(gòu)成同類(lèi)的Web頁(yè)面數(shù)據(jù)的包裝器;
[0068]進(jìn)一步地,對(duì)于不同類(lèi)的Web頁(yè)面數(shù)據(jù),將所有待抽取信息的屬性坐標(biāo)和值坐標(biāo)對(duì)組合,并構(gòu)成不同類(lèi)的Web頁(yè)面數(shù)據(jù)的包裝器集合。
[0069]步驟35、通過(guò)所述坐標(biāo)原點(diǎn)的文本特征和正則表達(dá)式,查找出所述坐標(biāo)原點(diǎn)的標(biāo)簽,當(dāng)所述包裝器中的抽取規(guī)則定位到的屬性坐標(biāo)與所述待抽取信息的屬性一致時(shí),則所述包裝器中的抽取規(guī)則定位到的值坐標(biāo)為所述待抽取信息。
[0070]為更好地理解上述方法,以一個(gè)具體的流程對(duì)上述步驟104的執(zhí)行過(guò)程進(jìn)行說(shuō)明。
[0071]如圖7所示,信息抽取的流程具體包括以下步驟:
[0072]步驟301、抽取開(kāi)始;
[0073]步驟302、取待抽取信息的Web頁(yè)面;
[0074]步驟303、取對(duì)應(yīng)包裝器的屬性坐標(biāo)和值坐標(biāo)對(duì)集合;
[0075]步驟304、取坐標(biāo)原點(diǎn)的文本,通過(guò)正則表達(dá)式定位該原點(diǎn);
[0076]步驟305、使用每條規(guī)則中的兩個(gè)坐標(biāo),雙向定位待抽取屬性和值;
[0077]步驟306、兩個(gè)坐標(biāo)都能定位到數(shù)據(jù),并且屬性與待抽取信息一致;如果滿(mǎn)足以上條件,執(zhí)行步驟307,否則,執(zhí)行步驟308.
[0078]步驟307、定位到的信息,即為需要抽取的信息,對(duì)所以待抽取信息,進(jìn)行步驟303到步驟308 ;
[0079]步驟308、待抽取信息抽取失敗,對(duì)于必須抽取的信息,產(chǎn)生告警,對(duì)于不重要的抽取信息,忽略繼續(xù)抽取;
[0080]步驟309、抽取結(jié)束。
[0081]上述步驟301-步驟309是步驟104的具體化,等同于步驟104。
[0082]進(jìn)一步地,在滿(mǎn)足所述抽取規(guī)則的準(zhǔn)確率和召回率閾值的情況下,同類(lèi)Web頁(yè)面數(shù)據(jù)生成的包裝器最小,所述包裝器中的抽取規(guī)則所定位的標(biāo)簽的路徑最短。
[0083]本發(fā)明實(shí)施例提供的網(wǎng)頁(yè)信息抽取方法,對(duì)網(wǎng)頁(yè)Web的頁(yè)面數(shù)據(jù)建立文檔對(duì)象模型DOM樹(shù),從所述DOM樹(shù)中遞歸選取包含所有待抽取信息的節(jié)點(diǎn)子樹(shù),將所述最小的子樹(shù)的根節(jié)點(diǎn)作為超文本標(biāo)記語(yǔ)言HTML標(biāo)簽相對(duì)特征坐標(biāo)系的原點(diǎn);將從DOM樹(shù)中訓(xùn)練得到待抽取信息的屬性和值在HTML標(biāo)簽相對(duì)特征坐標(biāo)系中的路徑,生成屬性坐標(biāo)和值坐標(biāo),根據(jù)所述相對(duì)特征坐標(biāo)系的原點(diǎn)、所述屬性坐標(biāo)和值坐標(biāo)定位所述待抽取信息;將所述屬性坐標(biāo)和所述值坐標(biāo)作為所述待抽取信息的抽取規(guī)則,所述所有待抽取信息的抽取規(guī)則組成所述Web的抽取規(guī)則集合并生成包裝器;通過(guò)所述包裝器的抽取規(guī)則的屬性坐標(biāo)和值坐標(biāo),定位所述待抽取信息的屬性和值,并抽取Web信息。降低抽取信息錯(cuò)誤率,提高抽取的準(zhǔn)確性;極大的減少了構(gòu)造Web頁(yè)面的DOM樹(shù)所需要花費(fèi)的時(shí)間,提高信息抽取效率。
[0084]因此,本發(fā)明提供的網(wǎng)頁(yè)信息抽取方法,利用雙向定位法抽取Web信息,可以降低抽取信息錯(cuò)誤率,提高抽取的準(zhǔn)確性;同時(shí)相對(duì)特征坐標(biāo)系的使用,極大的減少了構(gòu)造Web頁(yè)面的DOM樹(shù)所需要花費(fèi)的時(shí)間,提高信息抽取效率。
[0085]專(zhuān)業(yè)人員應(yīng)該還可以進(jìn)一步意識(shí)到,結(jié)合本文中所公開(kāi)的實(shí)施例描述的各示例的單元及算法步驟,能夠以電子硬件、計(jì)算機(jī)軟件或者二者的結(jié)合來(lái)實(shí)現(xiàn),為了清楚地說(shuō)明硬件和軟件的可互換性,在上述說(shuō)明中已經(jīng)按照功能一般性地描述了各示例的組成及步驟。這些功能究竟以硬件還是軟件方式來(lái)執(zhí)行,取決于技術(shù)方案的特定應(yīng)用和設(shè)計(jì)約束條件。專(zhuān)業(yè)技術(shù)人員可以對(duì)每個(gè)特定的應(yīng)用來(lái)使用不同方法來(lái)實(shí)現(xiàn)所描述的功能,但是這種實(shí)現(xiàn)不應(yīng)認(rèn)為超出本發(fā)明的范圍。
[0086]以上所述的【具體實(shí)施方式】,對(duì)本發(fā)明的目的、技術(shù)方案和有益效果進(jìn)行了進(jìn)一步詳細(xì)說(shuō)明,所應(yīng)理解的是,以上所述僅為本發(fā)明的【具體實(shí)施方式】而已,并不用于限定本發(fā)明的保護(hù)范圍,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
【權(quán)利要求】
1.一種網(wǎng)頁(yè)信息抽取方法,其特征在于,所述方法包括: 對(duì)網(wǎng)頁(yè)Web的頁(yè)面數(shù)據(jù)建立文檔對(duì)象模型DOM樹(shù),從所述DOM樹(shù)中遞歸選取包含所有待抽取信息的節(jié)點(diǎn)子樹(shù),選取所述節(jié)點(diǎn)子樹(shù)中所述所有待抽取信息的屬性節(jié)點(diǎn)的路徑、值節(jié)點(diǎn)的路徑和最小的子樹(shù),將所述最小的子樹(shù)的根節(jié)點(diǎn)作為超文本標(biāo)記語(yǔ)言HTML標(biāo)簽相對(duì)特征坐標(biāo)系的原點(diǎn); 將從DOM樹(shù)中訓(xùn)練得到待抽取信息的屬性和值在HTML標(biāo)簽相對(duì)特征坐標(biāo)系中的路徑,生成屬性坐標(biāo)和值坐標(biāo),根據(jù)所述相對(duì)特征坐標(biāo)系的原點(diǎn)、所述屬性坐標(biāo)和值坐標(biāo)定位所述待抽取信息,其中所述所有待抽取信息包括所述待抽取信息; 將所述屬性坐標(biāo)和所述值坐標(biāo)作為所述待抽取信息的抽取規(guī)則,其中,不同的待抽取信息訓(xùn)練出的抽取規(guī)則不同,所述所有待抽取信息的抽取規(guī)則組成所述Web的抽取規(guī)則集合并生成包裝器; 通過(guò)所述包裝器的抽取規(guī)則的屬性坐標(biāo)和值坐標(biāo),定位所述待抽取信息的屬性和值,并抽取Web信息。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括:構(gòu)建所述HTML標(biāo)簽相對(duì)特征坐標(biāo)系: 將所述所有待抽取信息中的第一個(gè)待抽取信息的屬性或值所在HTML標(biāo)簽的相關(guān)節(jié)點(diǎn)作為訓(xùn)練坐標(biāo)原點(diǎn); 在以所述訓(xùn)練坐標(biāo)原點(diǎn)為根節(jié)點(diǎn)的子樹(shù)中查找所述待抽取信息的屬性和值; 當(dāng)所述訓(xùn)練坐標(biāo)原點(diǎn)不能定位所述所有待抽取信息的屬性和值時(shí),更新所述訓(xùn)練坐標(biāo)原點(diǎn),將所述訓(xùn)練坐標(biāo)原點(diǎn)的父節(jié)點(diǎn)作為更新后的訓(xùn)練坐標(biāo)原點(diǎn); 當(dāng)所述訓(xùn)練坐標(biāo)原點(diǎn)能定位所述所有待抽取信息的屬性和值時(shí),將所述所有待抽取信息中的每個(gè)待抽取信息的屬性和值所在標(biāo)簽到當(dāng)前訓(xùn)練坐標(biāo)原點(diǎn)的路徑作為所述每個(gè)待抽取信息的屬性坐標(biāo)和值坐標(biāo),所述每個(gè)待抽取信息的屬性坐標(biāo)和值坐標(biāo)組成的坐標(biāo)系構(gòu)建所述HTML標(biāo)簽相對(duì)特征坐標(biāo)系。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括:在滿(mǎn)足所述抽取規(guī)則的準(zhǔn)確率和召回率閾值的情況下,同類(lèi)Web頁(yè)面數(shù)據(jù)生成的包裝器最小,所述包裝器中的抽取規(guī)則所定位的標(biāo)簽的路徑最短。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,在所述通過(guò)所述包裝器的抽取規(guī)則的屬性坐標(biāo)和值坐標(biāo),定位所述待抽取信息的屬性和值之前,所述方法還包括: 定位所述待抽取信息的抽取坐標(biāo)原點(diǎn),根據(jù)所述訓(xùn)練坐標(biāo)原點(diǎn)的文本特征和正則表達(dá)式匹配,查找出所述抽取坐標(biāo)原點(diǎn)所在標(biāo)簽。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述抽取Web信息具體包括: 對(duì)所述Web建立HTML標(biāo)簽相對(duì)特征坐標(biāo)系; 對(duì)所述Web中的所述待抽取信息建立屬性坐標(biāo)和值坐標(biāo); 利用訓(xùn)練集中的網(wǎng)頁(yè)修正所述待抽取信息的屬性坐標(biāo)和值坐標(biāo),使得所述待抽取信息的屬性坐標(biāo)和值坐標(biāo)能夠定位到固定閾值比例的待抽取信息,并將所述待抽取信息的屬性坐標(biāo)和值坐標(biāo)作為所述待抽取信息的抽取規(guī)則; 對(duì)于同類(lèi)的Web頁(yè)面數(shù)據(jù),將所有待抽取信息的屬性坐標(biāo)和值坐標(biāo)對(duì)組合,并構(gòu)成同類(lèi)的Web頁(yè)面數(shù)據(jù)的包裝器; 通過(guò)所述坐標(biāo)原點(diǎn)的文本特征和正則表達(dá)式,查找出所述坐標(biāo)原點(diǎn)的標(biāo)簽,當(dāng)所述包裝器中的抽取規(guī)則定位到的屬性坐標(biāo)與所述待抽取信息的屬性一致時(shí),則所述包裝器中的抽取規(guī)則定位到的值坐標(biāo)為所述待抽取信息。
6.根據(jù)權(quán)利要求1或5所述的方法,其特征在于,所述抽取Web信息具體還包括:對(duì)于不同類(lèi)的Web頁(yè)面數(shù)據(jù),將所有待抽取信息的屬性坐標(biāo)和值坐標(biāo)對(duì)組合,并構(gòu)成不同類(lèi)的Web頁(yè)面數(shù)據(jù)的包裝器集合。
【文檔編號(hào)】G06F17/30GK104462540SQ201410818097
【公開(kāi)日】2015年3月25日 申請(qǐng)日期:2014年12月24日 優(yōu)先權(quán)日:2014年12月24日
【發(fā)明者】脫立恒, 董微, 劉學(xué), 陸世亮 申請(qǐng)人:中國(guó)科學(xué)院聲學(xué)研究所, 上海尚恩華科網(wǎng)絡(luò)科技股份有限公司