国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      基于樹權(quán)值的網(wǎng)頁(yè)數(shù)據(jù)記錄識(shí)別和抽取方法

      文檔序號(hào):6354001閱讀:323來(lái)源:國(guó)知局
      專利名稱:基于樹權(quán)值的網(wǎng)頁(yè)數(shù)據(jù)記錄識(shí)別和抽取方法
      技術(shù)領(lǐng)域
      本發(fā)明涉及信息抽取領(lǐng)域,尤其涉及基于樹權(quán)值的網(wǎng)頁(yè)數(shù)據(jù)記錄識(shí)別和抽取方法。
      背景技術(shù)
      隨著互聯(lián)網(wǎng)信息在時(shí)間度量下的發(fā)展呈指數(shù)級(jí)增長(zhǎng),網(wǎng)頁(yè)中包含著越來(lái)越多人們感興趣的資源和信息,但是伴隨著信息量增大,信息的查找開始變得困難。由于信息的無(wú)序性,我們只能采用“全文檢索”來(lái)查找所需的信息,但是包含所需信息的各類網(wǎng)頁(yè)中充斥著大量的廣告和鏈接等無(wú)關(guān)信息,使得我們無(wú)法快速且直觀的獲取到我們需要的有用信息, 而當(dāng)前依賴于人工獲取信息的方式效率低下,用戶所需的信息往往需要從多個(gè)不同的信息源獲得,由于包含這些信息的不同網(wǎng)站存在結(jié)構(gòu)上的差異性,要獲取需要的信息必須以人工的方式對(duì)不同的網(wǎng)站進(jìn)行查詢分析處理,最后將結(jié)果組織成需要的格式保存到數(shù)據(jù)庫(kù)中以供后續(xù)服務(wù)使用,這個(gè)過(guò)程是繁瑣的,而且效率也很低下。因而如何能夠準(zhǔn)確高效的從海量HTML文檔中抽取出用戶感興趣的內(nèi)容變得越來(lái)越重要,基于樹權(quán)值的網(wǎng)頁(yè)數(shù)據(jù)記錄識(shí)別和抽取方法正是在這種背景下被提出來(lái)的。網(wǎng)頁(yè)信息抽取技術(shù)是信息抽取技術(shù)在互聯(lián)網(wǎng)應(yīng)用領(lǐng)域的一個(gè)用例。網(wǎng)頁(yè)信息抽取是將分布在互聯(lián)網(wǎng)上的海量的結(jié)構(gòu)化,半結(jié)構(gòu)化或者自由的HTML文本中的特定信息抽取出來(lái),并轉(zhuǎn)換為統(tǒng)一的結(jié)構(gòu)化表現(xiàn)形式?;ヂ?lián)網(wǎng)網(wǎng)頁(yè)信息抽取有別于傳統(tǒng)信息抽取的特點(diǎn), 具有海量數(shù)據(jù)、結(jié)構(gòu)差異性、動(dòng)態(tài)變化性、非結(jié)構(gòu)化數(shù)據(jù)、語(yǔ)義信息缺乏。網(wǎng)頁(yè)信息抽取中負(fù)責(zé)將信息從網(wǎng)頁(yè)中抽取出來(lái)的程序被上被稱為包裝器 (Wrapper),它是從半結(jié)構(gòu)化HTML文本中抽取信息并轉(zhuǎn)化為統(tǒng)一的結(jié)構(gòu)化信息后存儲(chǔ)起來(lái)的程序。它將信息抽取自動(dòng)化,對(duì)面向海量的網(wǎng)頁(yè)信息時(shí)特別有用。根據(jù)生成方法的原理可以分為機(jī)器方法、自然語(yǔ)言理解方法、本體方法、HTML方法等等。基于HTML結(jié)構(gòu)特征的方法是目前網(wǎng)頁(yè)信息抽取技術(shù)中研究的最多的,也是發(fā)展的最好的技術(shù)方法?;贖TML結(jié)構(gòu)特征的方法充分利用了 HTML文本所具有的結(jié)構(gòu)特征來(lái)進(jìn)行數(shù)據(jù)抽取。在數(shù)據(jù)抽取之前, 先將HTML文本轉(zhuǎn)換為一個(gè)對(duì)應(yīng)的標(biāo)簽樹,然后通過(guò)自動(dòng)或者半自動(dòng)的方式生成抽取規(guī)則, 并將規(guī)則應(yīng)用于標(biāo)簽樹上進(jìn)行數(shù)據(jù)抽取。當(dāng)然,在這種方法的研究上也存在著一些問(wèn)題,如下I.現(xiàn)在的研究大多是將網(wǎng)頁(yè)中全部的HTML文本對(duì)應(yīng)的標(biāo)簽樹作為模板,這顯然是低效率的,而且實(shí)際上很多的文本節(jié)點(diǎn)也可能包含HTML標(biāo)簽,比如文本節(jié)點(diǎn)中的很多文本會(huì)帶有顏色或字體等裝飾性標(biāo)簽,還有一些文本具有超文本鏈接,而內(nèi)容中也可能包含圖片和表格等,這些都屬于無(wú)關(guān)信息。2.有一些文本節(jié)點(diǎn)在網(wǎng)頁(yè)集中是重復(fù)出現(xiàn)的,這些節(jié)點(diǎn)不應(yīng)該被作為關(guān)鍵內(nèi)容抽取,而是應(yīng)該作為模板的一部分。3.對(duì)于現(xiàn)存抽取方法中描述的樹比較方法,抽取的對(duì)象網(wǎng)頁(yè)集一般是小規(guī)模的, 對(duì)于大規(guī)模而言,效率會(huì)很低下。
      4
      4.對(duì)于頁(yè)面的結(jié)構(gòu)比較方式通常需要兩個(gè)頁(yè)面以上,如果只有單一頁(yè)面則無(wú)法抽取出模板。這幾個(gè)方面沒(méi)有被考慮是由于網(wǎng)頁(yè)的復(fù)雜和海量這兩個(gè)特征決定的,要在這樣復(fù)雜而海量的網(wǎng)頁(yè)集中保證抽取準(zhǔn)確率和召回率都有較高的結(jié)果的同時(shí),在抽取時(shí)間上也要確保有較快的速度,這在實(shí)際操作中是十分必要的。因而對(duì)于一個(gè)高準(zhǔn)確度和高效率的網(wǎng)頁(yè)內(nèi)容提取方法是迫切需要的。

      發(fā)明內(nèi)容
      本發(fā)明主要針對(duì)現(xiàn)有的網(wǎng)頁(yè)數(shù)據(jù)識(shí)別和抽取方法準(zhǔn)確度和效率低,不能有效的在大量網(wǎng)頁(yè)抽取出需要的信息;提出基于樹權(quán)值的網(wǎng)頁(yè)數(shù)據(jù)記錄識(shí)別和抽取方法,根據(jù)HTML 網(wǎng)頁(yè)的內(nèi)容的樹結(jié)構(gòu)特點(diǎn),通過(guò)對(duì)抓取到的網(wǎng)頁(yè)進(jìn)行處理轉(zhuǎn)化為標(biāo)簽樹結(jié)構(gòu),自底而上的為每個(gè)樹節(jié)點(diǎn)賦上權(quán)值,使得不同層次的節(jié)點(diǎn)具有不同的權(quán)值,然后根據(jù)相似子樹集和位置連續(xù)性來(lái)識(shí)別出數(shù)據(jù)記錄區(qū)域,然后根據(jù)包含數(shù)據(jù)記錄的標(biāo)簽樹集進(jìn)行樹對(duì)準(zhǔn)操作生成基準(zhǔn)樹作為抽取模板,可以得到高效率和高準(zhǔn)確度的結(jié)果。為了解決上述技術(shù)問(wèn)題,本發(fā)明的技術(shù)方案如下
      I.基于樹權(quán)值的網(wǎng)頁(yè)數(shù)據(jù)記錄識(shí)別和抽取方法,包括如下步驟
      (I)網(wǎng)頁(yè)處理和轉(zhuǎn)化;
      (2)數(shù)據(jù)記錄識(shí)別;
      (3)數(shù)據(jù)記錄對(duì)準(zhǔn)和抽??;
      (4)數(shù)據(jù)存儲(chǔ);
      所述網(wǎng)頁(yè)處理和轉(zhuǎn)化包括如下步驟
      11)對(duì)抓取的網(wǎng)頁(yè)依據(jù)標(biāo)簽的作用進(jìn)行分類后構(gòu)造標(biāo)簽樹;
      12)對(duì)所述標(biāo)簽樹的每個(gè)樹節(jié)點(diǎn)按照如下公式賦予權(quán)值
      權(quán)利要求
      1.基于樹權(quán)值的網(wǎng)頁(yè)數(shù)據(jù)記錄識(shí)別和抽取方法,其特征在于,包括如下步驟(1)網(wǎng)頁(yè)處理和轉(zhuǎn)化;(2)數(shù)據(jù)記錄識(shí)別;(3)數(shù)據(jù)記錄對(duì)準(zhǔn)和抽?。?4)數(shù)據(jù)存儲(chǔ);所述網(wǎng)頁(yè)處理和轉(zhuǎn)化包括如下步驟11)對(duì)抓取的網(wǎng)頁(yè)依據(jù)標(biāo)簽的作用進(jìn)行分類后構(gòu)造標(biāo)簽樹;12)對(duì)所述標(biāo)簽樹的每個(gè)樹節(jié)點(diǎn)按照如下公式賦予權(quán)值
      2.根據(jù)權(quán)利要求I所述的基于樹權(quán)值的網(wǎng)頁(yè)數(shù)據(jù)記錄識(shí)別和抽取方法,其特征在于, 所述步驟11)通過(guò)標(biāo)簽的作用將HTML的標(biāo)簽分為三類第一為規(guī)劃網(wǎng)頁(yè)布局的標(biāo)簽其提供內(nèi)容信息區(qū)域的標(biāo)簽;第二為描述顯示特點(diǎn)的標(biāo)簽其包含內(nèi)容顯示方式的標(biāo)簽;第三為超鏈接相關(guān)的標(biāo)簽。
      3.根據(jù)權(quán)利要求I所述的基于樹權(quán)值的網(wǎng)頁(yè)數(shù)據(jù)記錄識(shí)別和抽取方法,其特征在于, 在采用步驟12)對(duì)每個(gè)樹節(jié)點(diǎn)賦予權(quán)值之前,對(duì)網(wǎng)頁(yè)進(jìn)行除噪,所述除噪步驟為對(duì)標(biāo)簽樹進(jìn)行修剪,包括將葉子節(jié)點(diǎn)標(biāo)簽設(shè)為無(wú)關(guān)標(biāo)簽、相鄰文本或圖片節(jié)點(diǎn)的父節(jié)點(diǎn)標(biāo)簽設(shè)為無(wú)關(guān)標(biāo)簽、無(wú)兄弟的文本或圖片節(jié)點(diǎn)的父節(jié)點(diǎn)標(biāo)簽為無(wú)關(guān)標(biāo)簽。
      4.根據(jù)權(quán)利要求I所述的基于樹權(quán)值的網(wǎng)頁(yè)數(shù)據(jù)記錄識(shí)別和抽取方法,其特征在于, 所述步驟13)對(duì)于數(shù)據(jù)記錄識(shí)別需要對(duì)標(biāo)簽樹進(jìn)行比較來(lái)判斷其相似程度,采用的比較方法為如果標(biāo)簽樹Tl的子樹集里與標(biāo)簽樹T2的子樹集里存在權(quán)值相等的交集,滿足存在大于閥值K的子樹且權(quán)值相等子樹集必須存在順序關(guān)系,即W[Tl[i]] = = ff[T2[j]]且 W[Tl[k]] = = ff[T2[t]]時(shí),當(dāng)且僅當(dāng)i <= k時(shí)j <= t,則設(shè)標(biāo)簽樹Tl和標(biāo)簽樹T2相似。
      5.根據(jù)權(quán)利要求I所述的基于樹權(quán)值的網(wǎng)頁(yè)數(shù)據(jù)記錄識(shí)別和抽取方法,其特征在于, 所述步驟14)所述插入操作的插入位置通過(guò)如下步驟確定如果節(jié)點(diǎn)序列TiU]. . . TiDn]在標(biāo)簽樹Ti的共同父節(jié)點(diǎn)下有2個(gè)相鄰兄弟節(jié)點(diǎn),一個(gè)在最左邊,一個(gè)在最右邊,這兩個(gè)兄弟節(jié)點(diǎn)都在基準(zhǔn)樹Tb下有對(duì)應(yīng)的對(duì)準(zhǔn)節(jié)點(diǎn),那么節(jié)點(diǎn)序列TiU]. . . TiDn]能夠唯一的插入到基準(zhǔn)樹Tb下2個(gè)相鄰兄弟節(jié)點(diǎn)之間;如果節(jié)點(diǎn)序列TiU]-TiDn]在標(biāo)簽樹1\的共同父節(jié)點(diǎn)下只有I個(gè)左相鄰兄弟節(jié)點(diǎn)k,并且節(jié)點(diǎn)k對(duì)應(yīng)的對(duì)準(zhǔn)著基準(zhǔn)樹Tb下的最右邊的節(jié)點(diǎn),那么節(jié)點(diǎn)序列能夠唯一的插入到基準(zhǔn)樹Tb下節(jié)點(diǎn)k的最右邊位置;如果節(jié)點(diǎn)序列Ti [j]... Ti [m]在標(biāo)簽樹Ti的共同父節(jié)點(diǎn)下只有I個(gè)右相鄰兄弟節(jié)點(diǎn)k,并且節(jié)點(diǎn)k對(duì)應(yīng)的對(duì)準(zhǔn)著基準(zhǔn)樹Tb下的最左邊的節(jié)點(diǎn),那么節(jié)點(diǎn)序列TiU]. . . TiDn]能夠唯一的插入到基準(zhǔn)樹Tb下節(jié)點(diǎn)k的最左邊的位置;如果不能唯一確定標(biāo)簽樹Ti下一個(gè)非對(duì)準(zhǔn)節(jié)點(diǎn)k在基準(zhǔn)樹Tb下的位置,那么將執(zhí)行不插入,而是將標(biāo)簽樹Ti放到臨時(shí)數(shù)據(jù)記錄數(shù)組里。
      全文摘要
      本發(fā)明公開了基于樹權(quán)值的網(wǎng)頁(yè)數(shù)據(jù)記錄識(shí)別和抽取方法,包括如下步驟 網(wǎng)頁(yè)處理和轉(zhuǎn)化;數(shù)據(jù)記錄識(shí)別;數(shù)據(jù)記錄對(duì)準(zhǔn)和抽取;數(shù)據(jù)存儲(chǔ);根據(jù)HTML網(wǎng)頁(yè)的內(nèi)容的樹結(jié)構(gòu)特點(diǎn),通過(guò)對(duì)抓取到的網(wǎng)頁(yè)進(jìn)行處理轉(zhuǎn)化為標(biāo)簽樹結(jié)構(gòu),自底而上的為每個(gè)樹節(jié)點(diǎn)賦上權(quán)值,使得不同層次的節(jié)點(diǎn)具有不同的權(quán)值,然后根據(jù)相似子樹集和位置連續(xù)性來(lái)識(shí)別出數(shù)據(jù)記錄區(qū)域,然后根據(jù)包含數(shù)據(jù)記錄的標(biāo)簽樹集進(jìn)行樹對(duì)準(zhǔn)操作生成基準(zhǔn)樹作為抽取模板,可以得到高效率和高準(zhǔn)確度的結(jié)果。
      文檔編號(hào)G06F17/30GK102591931SQ20111043818
      公開日2012年7月18日 申請(qǐng)日期2011年12月23日 優(yōu)先權(quán)日2011年12月23日
      發(fā)明者吳健, 吳朝暉, 尹建偉, 彭勇, 李瑩, 楊弈錦, 鄧水光 申請(qǐng)人:浙江大學(xué)
      網(wǎng)友詢問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1