網(wǎng)頁(yè)信息抽取方法

文檔序號(hào)：6639987閱讀：352來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

網(wǎng)頁(yè)信息抽取方法
【專(zhuān)利摘要】本發(fā)明涉及一種網(wǎng)頁(yè)信息抽取方法，該方法包括：對(duì)網(wǎng)頁(yè)Web的頁(yè)面數(shù)據(jù)建立DOM樹(shù)，從DOM樹(shù)中遞歸選取包含所有待抽取信息的節(jié)點(diǎn)子樹(shù)，選取節(jié)點(diǎn)子樹(shù)中所有待抽取信息的屬性節(jié)點(diǎn)的路徑、值節(jié)點(diǎn)的路徑和最小的子樹(shù)，將最小的子樹(shù)的根節(jié)點(diǎn)作為超文本標(biāo)記語(yǔ)言HTML標(biāo)簽相對(duì)特征坐標(biāo)系的原點(diǎn)；將從DOM樹(shù)中訓(xùn)練得到待抽取信息的屬性和值在HTML標(biāo)簽相對(duì)特征坐標(biāo)系中的路徑，生成屬性坐標(biāo)和值坐標(biāo)，根據(jù)相對(duì)特征坐標(biāo)系的原點(diǎn)、屬性坐標(biāo)和值坐標(biāo)定位待抽取信息；將屬性坐標(biāo)和值坐標(biāo)作為待抽取信息的抽取規(guī)則，所有待抽取信息的抽取規(guī)則組成Web的抽取規(guī)則集合并生成包裝器；通過(guò)包裝器的抽取規(guī)則的屬性坐標(biāo)和值坐標(biāo)，定位待抽取信息的屬性和值，并抽取Web信息。
【專(zhuān)利說(shuō)明】網(wǎng)頁(yè)信息抽取方法

【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及網(wǎng)頁(yè)【技術(shù)領(lǐng)域】，特別涉及一種網(wǎng)頁(yè)信息抽取方法。

【背景技術(shù)】
[0002]伴隨著互聯(lián)網(wǎng)及應(yīng)用和服務(wù)的普及，網(wǎng)上信息量以指數(shù)級(jí)增長(zhǎng)，海量的數(shù)據(jù)使用戶(hù)遭遇了選擇困難的問(wèn)題。用戶(hù)搜索到的信息很大一部分是不感興趣的或是不相關(guān)的。因此，采集互聯(lián)網(wǎng)上的數(shù)據(jù)，收集用戶(hù)感興趣的內(nèi)容，抽取有用信息將其集成結(jié)構(gòu)化數(shù)據(jù)，呈現(xiàn)給用戶(hù)的相關(guān)技術(shù)變得十分重要。Web頁(yè)面具有動(dòng)態(tài)異構(gòu)性的特點(diǎn)，Web頁(yè)面會(huì)隨著時(shí)間的變化發(fā)生動(dòng)態(tài)改變，且不同的網(wǎng)站之前具有異構(gòu)性的特點(diǎn)，因此從不同的Web頁(yè)面中抽取有用的信息也具有相當(dāng)?shù)碾y度，且耗時(shí)。

【發(fā)明內(nèi)容】

[0003]本發(fā)明的目的是提供了一種網(wǎng)頁(yè)信息抽取方法，提高網(wǎng)頁(yè)信息抽取的準(zhǔn)確率和效率。
[0004]為實(shí)現(xiàn)上述目的，本發(fā)明提供了一種網(wǎng)頁(yè)信息抽取方法，所述方法包括:
[0005]對(duì)網(wǎng)頁(yè)Web的頁(yè)面數(shù)據(jù)建立文檔對(duì)象模型DOM樹(shù)，從所述DOM樹(shù)中遞歸選取包含所有待抽取信息的節(jié)點(diǎn)子樹(shù)，選取所述節(jié)點(diǎn)子樹(shù)中所述所有待抽取信息的屬性節(jié)點(diǎn)的路徑、值節(jié)點(diǎn)的路徑和最小的子樹(shù)，將所述最小的子樹(shù)的根節(jié)點(diǎn)作為超文本標(biāo)記語(yǔ)言HTML標(biāo)簽相對(duì)特征坐標(biāo)系的原點(diǎn)；
[0006]將從DOM樹(shù)中訓(xùn)練得到待抽取信息的屬性和值在HTML標(biāo)簽相對(duì)特征坐標(biāo)系中的路徑，生成屬性坐標(biāo)和值坐標(biāo)，根據(jù)所述相對(duì)特征坐標(biāo)系的原點(diǎn)、所述屬性坐標(biāo)和值坐標(biāo)定位所述待抽取信息，其中所述所有待抽取信息包括所述待抽取信息；
[0007]將所述屬性坐標(biāo)和所述值坐標(biāo)作為所述待抽取信息的抽取規(guī)則，其中，不同的待抽取信息訓(xùn)練出的抽取規(guī)則不同，所述所有待抽取信息的抽取規(guī)則組成所述Web的抽取規(guī)則集合并生成包裝器；
[0008]通過(guò)所述包裝器的抽取規(guī)則的屬性坐標(biāo)和值坐標(biāo)，定位所述待抽取信息的屬性和值，并抽取Web信息。
[0009]進(jìn)一步地，所述方法還包括:構(gòu)建所述HTML標(biāo)簽相對(duì)特征坐標(biāo)系:
[0010]將所述所有待抽取信息中的第一個(gè)待抽取信息的屬性或值所在HTML標(biāo)簽的相關(guān)節(jié)點(diǎn)作為訓(xùn)練坐標(biāo)原點(diǎn)；
[0011]在以所述訓(xùn)練坐標(biāo)原點(diǎn)為根節(jié)點(diǎn)的子樹(shù)中查找所述待抽取信息的屬性和值；
[0012]當(dāng)所述訓(xùn)練坐標(biāo)原點(diǎn)不能定位所述所有待抽取信息的屬性和值時(shí)，更新所述訓(xùn)練坐標(biāo)原點(diǎn)，將所述訓(xùn)練坐標(biāo)原點(diǎn)的父節(jié)點(diǎn)作為更新后的訓(xùn)練坐標(biāo)原點(diǎn)；
[0013]當(dāng)所述訓(xùn)練坐標(biāo)原點(diǎn)能定位所述所有待抽取信息的屬性和值時(shí),將所述所有待抽取信息中的每個(gè)待抽取信息的屬性和值所在標(biāo)簽到當(dāng)前訓(xùn)練坐標(biāo)原點(diǎn)的路徑作為所述每個(gè)待抽取信息的屬性坐標(biāo)和值坐標(biāo)，所述每個(gè)待抽取信息的屬性坐標(biāo)和值坐標(biāo)組成的坐標(biāo)系構(gòu)建所述HTML標(biāo)簽相對(duì)特征坐標(biāo)系。
[0014]進(jìn)一步地，所述方法還包括:在滿(mǎn)足所述抽取規(guī)則的準(zhǔn)確率和召回率閾值的情況下，同類(lèi)Web頁(yè)面數(shù)據(jù)生成的包裝器最小，所述包裝器中的抽取規(guī)則所定位的標(biāo)簽的路徑最短。
[0015]進(jìn)一步地，在所述通過(guò)所述包裝器的抽取規(guī)則的屬性坐標(biāo)和值坐標(biāo)，定位所述待抽取信息的屬性和值之前，所述方法還包括:
[0016]定位所述待抽取信息的抽取坐標(biāo)原點(diǎn)，根據(jù)所述訓(xùn)練坐標(biāo)原點(diǎn)的文本特征和正則表達(dá)式匹配，查找出所述抽取坐標(biāo)原點(diǎn)所在標(biāo)簽。
[0017]進(jìn)一步地,所述抽取Web信息具體包括:
[0018]對(duì)所述Web建立HTML標(biāo)簽相對(duì)特征坐標(biāo)系；
[0019]對(duì)所述Web中的所述待抽取信息建立屬性坐標(biāo)和值坐標(biāo)；
[0020]利用訓(xùn)練集中的網(wǎng)頁(yè)修正所述待抽取信息的屬性坐標(biāo)和值坐標(biāo)，使得所述待抽取信息的屬性坐標(biāo)和值坐標(biāo)能夠定位到固定閾值比例的待抽取信息，并將所述待抽取信息的屬性坐標(biāo)和值坐標(biāo)作為所述待抽取信息的抽取規(guī)則；
[0021]對(duì)于同類(lèi)的Web頁(yè)面數(shù)據(jù)，將所有待抽取信息的屬性坐標(biāo)和值坐標(biāo)對(duì)組合，并構(gòu)成同類(lèi)的Web頁(yè)面數(shù)據(jù)的包裝器；
[0022]通過(guò)所述坐標(biāo)原點(diǎn)的文本特征和正則表達(dá)式，查找出所述坐標(biāo)原點(diǎn)的標(biāo)簽，當(dāng)所述包裝器中的抽取規(guī)則定位到的屬性坐標(biāo)與所述待抽取信息的屬性一致時(shí)，則所述包裝器中的抽取規(guī)則定位到的值坐標(biāo)為所述待抽取信息。
[0023]進(jìn)一步地,所述抽取Web信息具體還包括:
[0024]對(duì)于不同類(lèi)的Web頁(yè)面數(shù)據(jù)，將所有待抽取信息的屬性坐標(biāo)和值坐標(biāo)對(duì)組合，并構(gòu)成不同類(lèi)的Web頁(yè)面數(shù)據(jù)的包裝器集合。
[0025]本發(fā)明提供的網(wǎng)頁(yè)信息抽取方法，對(duì)網(wǎng)頁(yè)Web的頁(yè)面數(shù)據(jù)建立文檔對(duì)象模型DOM樹(shù)，從所述DOM樹(shù)中遞歸選取包含所有待抽取信息的節(jié)點(diǎn)子樹(shù)，將所述最小的子樹(shù)的根節(jié)點(diǎn)作為超文本標(biāo)記語(yǔ)言HTML標(biāo)簽相對(duì)特征坐標(biāo)系的原點(diǎn)；將從DOM樹(shù)中訓(xùn)練得到待抽取信息的屬性和值在HTML標(biāo)簽相對(duì)特征坐標(biāo)系中的路徑,生成屬性坐標(biāo)和值坐標(biāo),根據(jù)所述相對(duì)特征坐標(biāo)系的原點(diǎn)、所述屬性坐標(biāo)和值坐標(biāo)定位所述待抽取信息；將所述屬性坐標(biāo)和所述值坐標(biāo)作為所述待抽取信息的抽取規(guī)則，所述所有待抽取信息的抽取規(guī)則組成所述Web的抽取規(guī)則集合并生成包裝器；通過(guò)所述包裝器的抽取規(guī)則的屬性坐標(biāo)和值坐標(biāo)，定位所述待抽取信息的屬性和值，并抽取Web信息。該方法利用雙向定位法抽取Web信息，可以降低抽取信息錯(cuò)誤率，提高抽取的準(zhǔn)確性；同時(shí)相對(duì)特征坐標(biāo)系的使用，極大的減少了構(gòu)造Web頁(yè)面的DOM樹(shù)所需要花費(fèi)的時(shí)間，提高信息抽取效率。

【專(zhuān)利附圖】

【附圖說(shuō)明】
[0026]圖1為本發(fā)明實(shí)施例提供的網(wǎng)頁(yè)信息抽取方法流程圖；
[0027]圖2為本發(fā)明實(shí)施例提供的網(wǎng)頁(yè)信息抽取方法結(jié)構(gòu)示意圖；
[0028]圖3為本發(fā)明實(shí)施例提供的DOM樹(shù)中元素標(biāo)簽中的屬性與值的關(guān)系示意圖；
[0029]圖4為本發(fā)明實(shí)施例提供的DOM樹(shù)中元素標(biāo)簽中的屬性與值的關(guān)系示意圖；
[0030]圖5為本發(fā)明實(shí)施例提供的DOM樹(shù)中元素標(biāo)簽中的屬性與值的關(guān)系示意圖；
[0031]圖6為本發(fā)明實(shí)施例提供的包裝器訓(xùn)練流程圖；
[0032]圖7為本發(fā)明實(shí)施例提供的信息抽取的流程圖。

【具體實(shí)施方式】
[0033]下面通過(guò)附圖和實(shí)施例，對(duì)本發(fā)明的技術(shù)方案做進(jìn)一步的詳細(xì)描述。
[0034]下面以圖1為例詳細(xì)說(shuō)明本發(fā)明實(shí)施例提供的網(wǎng)頁(yè)信息抽取方法，Web信息抽取方法的流程主要包括包裝器訓(xùn)練和信息抽取的流程。圖1為本發(fā)明實(shí)施例提供的網(wǎng)頁(yè)信息抽取方法流程圖，圖2為本發(fā)明實(shí)施例提供的網(wǎng)頁(yè)信息抽取方法結(jié)構(gòu)示意圖。結(jié)合圖1和圖2所示，該方法包括如下步驟:
[0035]步驟S101、對(duì)網(wǎng)頁(yè)Web的頁(yè)面數(shù)據(jù)建立文檔對(duì)象模型DOM樹(shù)，從所述DOM樹(shù)中遞歸選取包含所有待抽取信息的節(jié)點(diǎn)子樹(shù)，選取所述節(jié)點(diǎn)子樹(shù)中所述所有待抽取信息的屬性節(jié)點(diǎn)的路徑、值節(jié)點(diǎn)的路徑和最小的子樹(shù)，將所述最小的子樹(shù)的根節(jié)點(diǎn)作為超文本標(biāo)記語(yǔ)言HTML標(biāo)簽相對(duì)特征坐標(biāo)系的原點(diǎn)；
[0036]其中，構(gòu)建所述HTML標(biāo)簽相對(duì)特征坐標(biāo)系具體包括以下步驟:
[0037]步驟21、將所述所有待抽取信息中的第一個(gè)待抽取信息的屬性或值所在HTML標(biāo)簽的相關(guān)節(jié)點(diǎn)作為訓(xùn)練坐標(biāo)原點(diǎn)；
[0038]步驟22、在以所述訓(xùn)練坐標(biāo)原點(diǎn)為根節(jié)點(diǎn)的子樹(shù)中查找所述待抽取信息的屬性和值；
[0039]步驟23、當(dāng)所述訓(xùn)練坐標(biāo)原點(diǎn)不能定位所述所有待抽取信息的屬性和值時(shí)，更新所述訓(xùn)練坐標(biāo)原點(diǎn)，將所述訓(xùn)練坐標(biāo)原點(diǎn)的父節(jié)點(diǎn)作為更新后的訓(xùn)練坐標(biāo)原點(diǎn)；
[0040]具體地，當(dāng)訓(xùn)練坐標(biāo)原點(diǎn)不能定位所有待抽取信息的屬性和值時(shí)，循環(huán)執(zhí)行步驟23，直到訓(xùn)練坐標(biāo)原點(diǎn)能定位所有待抽取信息的屬性和值。例如，當(dāng)訓(xùn)練坐標(biāo)原點(diǎn)c不能定位所有待抽取信息的屬性和值時(shí)，更新訓(xùn)練坐標(biāo)原點(diǎn)C，將訓(xùn)練坐標(biāo)原點(diǎn)c的父節(jié)點(diǎn)d作為更新后的訓(xùn)練坐標(biāo)原點(diǎn)；如果新的訓(xùn)練坐標(biāo)原點(diǎn)d也不能定位所有待抽取信息的屬性和值時(shí)，再次更新訓(xùn)練坐標(biāo)原點(diǎn)山將訓(xùn)練坐標(biāo)原點(diǎn)d的父節(jié)點(diǎn)e作為更新后的訓(xùn)練坐標(biāo)原點(diǎn)；以此類(lèi)推，直到訓(xùn)練坐標(biāo)原點(diǎn)能定位所有待抽取信息的屬性和值，再進(jìn)行步驟24。
[0041]步驟24、當(dāng)所述訓(xùn)練坐標(biāo)原點(diǎn)能定位所述所有待抽取信息的屬性和值時(shí)，將所述所有待抽取信息中的每個(gè)待抽取信息的屬性和值所在標(biāo)簽到當(dāng)前訓(xùn)練坐標(biāo)原點(diǎn)的路徑作為所述每個(gè)待抽取信息的屬性坐標(biāo)和值坐標(biāo)，所述每個(gè)待抽取信息的屬性坐標(biāo)和值坐標(biāo)組成的坐標(biāo)系構(gòu)建所述HTML標(biāo)簽相對(duì)特征坐標(biāo)系。
[0042]步驟S102、將從DOM樹(shù)中訓(xùn)練得到待抽取信息的屬性和值在HTML標(biāo)簽相對(duì)特征坐標(biāo)系中的路徑，生成屬性坐標(biāo)和值坐標(biāo)，根據(jù)所述相對(duì)特征坐標(biāo)系的原點(diǎn)、所述屬性坐標(biāo)和值坐標(biāo)定位所述待抽取信息，其中所述所有待抽取信息包括所述待抽取信息；
[0043]具體地，DOM樹(shù)中元素標(biāo)簽中的屬性與值存在三種關(guān)系，圖3、4和5為本發(fā)明實(shí)施例提供的DOM樹(shù)中元素標(biāo)簽中的屬性與值的關(guān)系示意圖，具體地，如圖3所示，元素由混合式內(nèi)容構(gòu)成，抽取信息需定位到抽取信息的父節(jié)點(diǎn)；如圖4所示，元素由混合式內(nèi)容構(gòu)成，抽取信息需定位到抽取信息的子節(jié)點(diǎn)；如圖5所示，元素由子元素構(gòu)成，抽取信息需定位到抽取信息的兄弟節(jié)點(diǎn)。
[0044]步驟S103、將所述屬性坐標(biāo)和所述值坐標(biāo)作為所述待抽取信息的抽取規(guī)則，其中，不同的待抽取信息訓(xùn)練出的抽取規(guī)則不同，所述所有待抽取信息的抽取規(guī)則組成所述Web的抽取規(guī)則集合并生成包裝器；
[0045]包裝器訓(xùn)練模塊，通過(guò)對(duì)訓(xùn)練集進(jìn)行訓(xùn)練，查找所有待抽取信息所在DOM樹(shù)中的子樹(shù)，構(gòu)建HTML標(biāo)簽相對(duì)特征坐標(biāo)系，構(gòu)造坐標(biāo)系的坐標(biāo)原點(diǎn)，并訓(xùn)練得到屬性和值所在DOM子樹(shù)的路徑作為HTML標(biāo)簽相對(duì)特征坐標(biāo)系中的固定坐標(biāo)，兩個(gè)坐標(biāo)即為抽取該屬性值的抽取規(guī)則，多個(gè)抽取規(guī)則組合在一起組成包裝器。
[0046]為更好地理解上述方法，以一個(gè)具體的流程對(duì)上述步驟101-步驟103的執(zhí)行過(guò)程進(jìn)行說(shuō)明。
[0047]如圖6所示的包裝器訓(xùn)練流程圖，步驟101-步驟103描述的包裝器訓(xùn)練流程圖具體包括以下步驟:
[0048]步驟201、訓(xùn)練開(kāi)始
[0049]步驟202、選擇訓(xùn)練集中的一個(gè)網(wǎng)頁(yè)，輸入到包裝器訓(xùn)練模塊；
[0050]步驟203、對(duì)該網(wǎng)頁(yè)建立DOM樹(shù)；
[0051]步驟204、將第一個(gè)抽取屬性所在DOM樹(shù)的節(jié)點(diǎn)作為坐標(biāo)原點(diǎn)；
[0052]步驟205、將坐標(biāo)原點(diǎn)的父節(jié)點(diǎn)作為坐標(biāo)原點(diǎn)；
[0053]步驟206、測(cè)試所有其他待抽取信息節(jié)點(diǎn)是否在該原點(diǎn)子樹(shù)上，如果都在，執(zhí)行步驟207，否則，執(zhí)行步驟205 ；
[0054]步驟207、計(jì)算所有待抽取信息的元數(shù)據(jù)屬性相對(duì)于坐標(biāo)原點(diǎn)的XPath路徑作為坐標(biāo)，構(gòu)建了基于屬性的相對(duì)坐標(biāo)系；
[0055]步驟208、以屬性建立的坐標(biāo)原點(diǎn)作為原點(diǎn)，計(jì)算在其所在子樹(shù)所有待抽取信息的值相對(duì)于坐標(biāo)原點(diǎn)的XPath路徑作為坐標(biāo)，構(gòu)建基于值的相對(duì)坐標(biāo)系；
[0056]步驟209、分析所有訓(xùn)練集中的網(wǎng)頁(yè)，使用XPath路徑提取屬性和值，驗(yàn)證屬性坐標(biāo)和值坐標(biāo)提取信息是否能夠滿(mǎn)足召回率和精確度達(dá)到閾值0.99，如果已經(jīng)達(dá)到，則執(zhí)行步驟210，否則執(zhí)行步驟202 ；
[0057]步驟210、將坐標(biāo)原點(diǎn)的文本以及所有抽取信息的屬性坐標(biāo)和值坐標(biāo)組合成包裝器輸出到信息抽取模塊；
[0058]步驟211、訓(xùn)練結(jié)束。
[0059]上述步驟201-步驟211是步驟101-步驟103的具體化，等同于步驟101-步驟103。
[0060]步驟S104、通過(guò)所述包裝器的抽取規(guī)則的屬性坐標(biāo)和值坐標(biāo)，定位所述待抽取信息的屬性和值，并抽取Web信息。
[0061]信息抽取模塊，利用包裝器訓(xùn)練模塊訓(xùn)練出的包裝器，使用每條規(guī)則中的兩個(gè)坐標(biāo)，定位待抽取屬性和值，進(jìn)行Web信息抽取，對(duì)兩種坐標(biāo)系下抽取的值進(jìn)行比較。
[0062]可選地，在所述通過(guò)所述包裝器的抽取規(guī)則的屬性坐標(biāo)和值坐標(biāo)，定位所述待抽取信息的屬性和值之前，還包括:定位所述待抽取信息的抽取坐標(biāo)原點(diǎn)，根據(jù)所述訓(xùn)練坐標(biāo)原點(diǎn)的文本特征和正則表達(dá)式匹配，查找出所述抽取坐標(biāo)原點(diǎn)所在標(biāo)簽。
[0063]其中，抽取Web信息具體包括以下步驟:
[0064]步驟31、對(duì)所述Web建立HTML標(biāo)簽相對(duì)特征坐標(biāo)系；
[0065]步驟32、對(duì)所述Web中的所述待抽取信息建立屬性坐標(biāo)和值坐標(biāo)；
[0066]步驟33、利用訓(xùn)練集中的網(wǎng)頁(yè)修正所述待抽取信息的屬性坐標(biāo)和值坐標(biāo)，使得所述待抽取信息的屬性坐標(biāo)和值坐標(biāo)能夠定位到固定閾值比例的待抽取信息，并將所述待抽取信息的屬性坐標(biāo)和值坐標(biāo)作為所述待抽取信息的抽取規(guī)則；
[0067]步驟34、對(duì)于同類(lèi)的Web頁(yè)面數(shù)據(jù)，將所有待抽取信息的屬性坐標(biāo)和值坐標(biāo)對(duì)組合，并構(gòu)成同類(lèi)的Web頁(yè)面數(shù)據(jù)的包裝器；
[0068]進(jìn)一步地，對(duì)于不同類(lèi)的Web頁(yè)面數(shù)據(jù)，將所有待抽取信息的屬性坐標(biāo)和值坐標(biāo)對(duì)組合，并構(gòu)成不同類(lèi)的Web頁(yè)面數(shù)據(jù)的包裝器集合。
[0069]步驟35、通過(guò)所述坐標(biāo)原點(diǎn)的文本特征和正則表達(dá)式，查找出所述坐標(biāo)原點(diǎn)的標(biāo)簽，當(dāng)所述包裝器中的抽取規(guī)則定位到的屬性坐標(biāo)與所述待抽取信息的屬性一致時(shí)，則所述包裝器中的抽取規(guī)則定位到的值坐標(biāo)為所述待抽取信息。
[0070]為更好地理解上述方法，以一個(gè)具體的流程對(duì)上述步驟104的執(zhí)行過(guò)程進(jìn)行說(shuō)明。
[0071]如圖7所示，信息抽取的流程具體包括以下步驟:
[0072]步驟301、抽取開(kāi)始；
[0073]步驟302、取待抽取信息的Web頁(yè)面；
[0074]步驟303、取對(duì)應(yīng)包裝器的屬性坐標(biāo)和值坐標(biāo)對(duì)集合；
[0075]步驟304、取坐標(biāo)原點(diǎn)的文本,通過(guò)正則表達(dá)式定位該原點(diǎn)；
[0076]步驟305、使用每條規(guī)則中的兩個(gè)坐標(biāo)，雙向定位待抽取屬性和值；
[0077]步驟306、兩個(gè)坐標(biāo)都能定位到數(shù)據(jù)，并且屬性與待抽取信息一致；如果滿(mǎn)足以上條件，執(zhí)行步驟307，否則，執(zhí)行步驟308.
[0078]步驟307、定位到的信息，即為需要抽取的信息，對(duì)所以待抽取信息，進(jìn)行步驟303到步驟308 ；
[0079]步驟308、待抽取信息抽取失敗，對(duì)于必須抽取的信息，產(chǎn)生告警，對(duì)于不重要的抽取信息，忽略繼續(xù)抽取；
[0080]步驟309、抽取結(jié)束。
[0081]上述步驟301-步驟309是步驟104的具體化，等同于步驟104。
[0082]進(jìn)一步地，在滿(mǎn)足所述抽取規(guī)則的準(zhǔn)確率和召回率閾值的情況下，同類(lèi)Web頁(yè)面數(shù)據(jù)生成的包裝器最小，所述包裝器中的抽取規(guī)則所定位的標(biāo)簽的路徑最短。
[0083]本發(fā)明實(shí)施例提供的網(wǎng)頁(yè)信息抽取方法，對(duì)網(wǎng)頁(yè)Web的頁(yè)面數(shù)據(jù)建立文檔對(duì)象模型DOM樹(shù)，從所述DOM樹(shù)中遞歸選取包含所有待抽取信息的節(jié)點(diǎn)子樹(shù)，將所述最小的子樹(shù)的根節(jié)點(diǎn)作為超文本標(biāo)記語(yǔ)言HTML標(biāo)簽相對(duì)特征坐標(biāo)系的原點(diǎn)；將從DOM樹(shù)中訓(xùn)練得到待抽取信息的屬性和值在HTML標(biāo)簽相對(duì)特征坐標(biāo)系中的路徑，生成屬性坐標(biāo)和值坐標(biāo),根據(jù)所述相對(duì)特征坐標(biāo)系的原點(diǎn)、所述屬性坐標(biāo)和值坐標(biāo)定位所述待抽取信息；將所述屬性坐標(biāo)和所述值坐標(biāo)作為所述待抽取信息的抽取規(guī)則，所述所有待抽取信息的抽取規(guī)則組成所述Web的抽取規(guī)則集合并生成包裝器；通過(guò)所述包裝器的抽取規(guī)則的屬性坐標(biāo)和值坐標(biāo)，定位所述待抽取信息的屬性和值，并抽取Web信息。降低抽取信息錯(cuò)誤率，提高抽取的準(zhǔn)確性；極大的減少了構(gòu)造Web頁(yè)面的DOM樹(shù)所需要花費(fèi)的時(shí)間，提高信息抽取效率。
[0084]因此，本發(fā)明提供的網(wǎng)頁(yè)信息抽取方法，利用雙向定位法抽取Web信息，可以降低抽取信息錯(cuò)誤率，提高抽取的準(zhǔn)確性；同時(shí)相對(duì)特征坐標(biāo)系的使用，極大的減少了構(gòu)造Web頁(yè)面的DOM樹(shù)所需要花費(fèi)的時(shí)間，提高信息抽取效率。
[0085]專(zhuān)業(yè)人員應(yīng)該還可以進(jìn)一步意識(shí)到，結(jié)合本文中所公開(kāi)的實(shí)施例描述的各示例的單元及算法步驟，能夠以電子硬件、計(jì)算機(jī)軟件或者二者的結(jié)合來(lái)實(shí)現(xiàn)，為了清楚地說(shuō)明硬件和軟件的可互換性，在上述說(shuō)明中已經(jīng)按照功能一般性地描述了各示例的組成及步驟。這些功能究竟以硬件還是軟件方式來(lái)執(zhí)行，取決于技術(shù)方案的特定應(yīng)用和設(shè)計(jì)約束條件。專(zhuān)業(yè)技術(shù)人員可以對(duì)每個(gè)特定的應(yīng)用來(lái)使用不同方法來(lái)實(shí)現(xiàn)所描述的功能，但是這種實(shí)現(xiàn)不應(yīng)認(rèn)為超出本發(fā)明的范圍。
[0086]以上所述的【具體實(shí)施方式】，對(duì)本發(fā)明的目的、技術(shù)方案和有益效果進(jìn)行了進(jìn)一步詳細(xì)說(shuō)明，所應(yīng)理解的是，以上所述僅為本發(fā)明的【具體實(shí)施方式】而已，并不用于限定本發(fā)明的保護(hù)范圍，凡在本發(fā)明的精神和原則之內(nèi)，所做的任何修改、等同替換、改進(jìn)等，均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
【權(quán)利要求】
1.一種網(wǎng)頁(yè)信息抽取方法，其特征在于，所述方法包括: 對(duì)網(wǎng)頁(yè)Web的頁(yè)面數(shù)據(jù)建立文檔對(duì)象模型DOM樹(shù)，從所述DOM樹(shù)中遞歸選取包含所有待抽取信息的節(jié)點(diǎn)子樹(shù)，選取所述節(jié)點(diǎn)子樹(shù)中所述所有待抽取信息的屬性節(jié)點(diǎn)的路徑、值節(jié)點(diǎn)的路徑和最小的子樹(shù)，將所述最小的子樹(shù)的根節(jié)點(diǎn)作為超文本標(biāo)記語(yǔ)言HTML標(biāo)簽相對(duì)特征坐標(biāo)系的原點(diǎn)；將從DOM樹(shù)中訓(xùn)練得到待抽取信息的屬性和值在HTML標(biāo)簽相對(duì)特征坐標(biāo)系中的路徑，生成屬性坐標(biāo)和值坐標(biāo)，根據(jù)所述相對(duì)特征坐標(biāo)系的原點(diǎn)、所述屬性坐標(biāo)和值坐標(biāo)定位所述待抽取信息，其中所述所有待抽取信息包括所述待抽取信息；將所述屬性坐標(biāo)和所述值坐標(biāo)作為所述待抽取信息的抽取規(guī)則，其中，不同的待抽取信息訓(xùn)練出的抽取規(guī)則不同，所述所有待抽取信息的抽取規(guī)則組成所述Web的抽取規(guī)則集合并生成包裝器；通過(guò)所述包裝器的抽取規(guī)則的屬性坐標(biāo)和值坐標(biāo)，定位所述待抽取信息的屬性和值，并抽取Web信息。
2.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述方法還包括:構(gòu)建所述HTML標(biāo)簽相對(duì)特征坐標(biāo)系: 將所述所有待抽取信息中的第一個(gè)待抽取信息的屬性或值所在HTML標(biāo)簽的相關(guān)節(jié)點(diǎn)作為訓(xùn)練坐標(biāo)原點(diǎn)；在以所述訓(xùn)練坐標(biāo)原點(diǎn)為根節(jié)點(diǎn)的子樹(shù)中查找所述待抽取信息的屬性和值；當(dāng)所述訓(xùn)練坐標(biāo)原點(diǎn)不能定位所述所有待抽取信息的屬性和值時(shí)，更新所述訓(xùn)練坐標(biāo)原點(diǎn)，將所述訓(xùn)練坐標(biāo)原點(diǎn)的父節(jié)點(diǎn)作為更新后的訓(xùn)練坐標(biāo)原點(diǎn)；當(dāng)所述訓(xùn)練坐標(biāo)原點(diǎn)能定位所述所有待抽取信息的屬性和值時(shí)，將所述所有待抽取信息中的每個(gè)待抽取信息的屬性和值所在標(biāo)簽到當(dāng)前訓(xùn)練坐標(biāo)原點(diǎn)的路徑作為所述每個(gè)待抽取信息的屬性坐標(biāo)和值坐標(biāo)，所述每個(gè)待抽取信息的屬性坐標(biāo)和值坐標(biāo)組成的坐標(biāo)系構(gòu)建所述HTML標(biāo)簽相對(duì)特征坐標(biāo)系。
3.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述方法還包括:在滿(mǎn)足所述抽取規(guī)則的準(zhǔn)確率和召回率閾值的情況下，同類(lèi)Web頁(yè)面數(shù)據(jù)生成的包裝器最小，所述包裝器中的抽取規(guī)則所定位的標(biāo)簽的路徑最短。
4.根據(jù)權(quán)利要求1所述的方法，其特征在于，在所述通過(guò)所述包裝器的抽取規(guī)則的屬性坐標(biāo)和值坐標(biāo)，定位所述待抽取信息的屬性和值之前，所述方法還包括: 定位所述待抽取信息的抽取坐標(biāo)原點(diǎn)，根據(jù)所述訓(xùn)練坐標(biāo)原點(diǎn)的文本特征和正則表達(dá)式匹配，查找出所述抽取坐標(biāo)原點(diǎn)所在標(biāo)簽。
5.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述抽取Web信息具體包括: 對(duì)所述Web建立HTML標(biāo)簽相對(duì)特征坐標(biāo)系；對(duì)所述Web中的所述待抽取信息建立屬性坐標(biāo)和值坐標(biāo)；利用訓(xùn)練集中的網(wǎng)頁(yè)修正所述待抽取信息的屬性坐標(biāo)和值坐標(biāo)，使得所述待抽取信息的屬性坐標(biāo)和值坐標(biāo)能夠定位到固定閾值比例的待抽取信息，并將所述待抽取信息的屬性坐標(biāo)和值坐標(biāo)作為所述待抽取信息的抽取規(guī)則；對(duì)于同類(lèi)的Web頁(yè)面數(shù)據(jù)，將所有待抽取信息的屬性坐標(biāo)和值坐標(biāo)對(duì)組合，并構(gòu)成同類(lèi)的Web頁(yè)面數(shù)據(jù)的包裝器；通過(guò)所述坐標(biāo)原點(diǎn)的文本特征和正則表達(dá)式，查找出所述坐標(biāo)原點(diǎn)的標(biāo)簽，當(dāng)所述包裝器中的抽取規(guī)則定位到的屬性坐標(biāo)與所述待抽取信息的屬性一致時(shí)，則所述包裝器中的抽取規(guī)則定位到的值坐標(biāo)為所述待抽取信息。
6.根據(jù)權(quán)利要求1或5所述的方法，其特征在于，所述抽取Web信息具體還包括:對(duì)于不同類(lèi)的Web頁(yè)面數(shù)據(jù)，將所有待抽取信息的屬性坐標(biāo)和值坐標(biāo)對(duì)組合，并構(gòu)成不同類(lèi)的Web頁(yè)面數(shù)據(jù)的包裝器集合。
【文檔編號(hào)】G06F17/30GK104462540SQ201410818097
【公開(kāi)日】2015年3月25日申請(qǐng)日期:2014年12月24日優(yōu)先權(quán)日:2014年12月24日
【發(fā)明者】脫立恒, 董微, 劉學(xué), 陸世亮申請(qǐng)人:中國(guó)科學(xué)院聲學(xué)研究所, 上海尚恩華科網(wǎng)絡(luò)科技股份有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：脫立恒;董微;劉學(xué);陸世亮;
技術(shù)所有人：中國(guó)科學(xué)院聲學(xué)研究所;上海尚恩華科網(wǎng)絡(luò)科技股份有限公司;
我是此專(zhuān)利的發(fā)明人

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話(huà)進(jìn)行咨詢(xún)。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

網(wǎng)頁(yè)信息抽取相關(guān)技術(shù)

網(wǎng)頁(yè)正文自動(dòng)抽取技術(shù)相關(guān)技術(shù)

java新聞網(wǎng)頁(yè)正文抽取相關(guān)技術(shù)

網(wǎng)頁(yè)新聞?wù)淖詣?dòng)抽取相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

網(wǎng)頁(yè)信息抽取方法