国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種網(wǎng)頁特征自適應(yīng)的信息抽取方法

      文檔序號(hào):6429018閱讀:255來源:國知局
      專利名稱:一種網(wǎng)頁特征自適應(yīng)的信息抽取方法
      技術(shù)領(lǐng)域
      本發(fā)明屬于信息抽取系統(tǒng)領(lǐng)域,具體涉及一種網(wǎng)頁特征自適應(yīng)的信息抽取方法, 該方法尤其適用于從學(xué)術(shù)主頁中抽取作者名字,郵箱,機(jī)構(gòu)信息和發(fā)表文章等信息。
      背景技術(shù)
      信息時(shí)代的來臨使得網(wǎng)絡(luò)逐漸成為人們分享和獲取信息的主要途徑,各種信息以網(wǎng)頁的形式發(fā)布在互聯(lián)網(wǎng)上供人們閱讀。然而隨著互聯(lián)網(wǎng)信息的爆炸性增長(zhǎng),人們發(fā)現(xiàn)在互聯(lián)網(wǎng)中找到所需的信息變得越來越困難,一方面信息量巨大,另一方面信息呈現(xiàn)的方式非常靈活和自由,這增加了人們辨別目標(biāo)信息的成本。因此,網(wǎng)頁信息抽取技術(shù)成為信息時(shí)代值得研究的領(lǐng)域。網(wǎng)頁信息抽取技術(shù)是從傳統(tǒng)的文本信息抽取上發(fā)展起來的。跟文本信息不同,網(wǎng)頁內(nèi)容是用超文本標(biāo)記語言(HTML)表述的,包含文本,圖片和其他多媒體信息,且標(biāo)記之間允許相互嵌套形成樹狀的結(jié)構(gòu)。網(wǎng)頁信息抽取任務(wù)的主要目的是從半結(jié)構(gòu)化的網(wǎng)頁文本中抽取出目標(biāo)信息。網(wǎng)頁信息通常具有如下特征(1)離散化,信息并不集中在某一站點(diǎn), 而是由不同的人發(fā)布到不同的站點(diǎn)上。(2)異構(gòu)性,即使是同類的信息在不同的網(wǎng)站上也會(huì)使用不同的方式呈現(xiàn)。(3)冗余性,相同的信息可能會(huì)在多個(gè)站點(diǎn)上重復(fù)出現(xiàn)。針對(duì)網(wǎng)頁信息的這些特征,網(wǎng)頁信息抽取系統(tǒng)需要能夠具有較強(qiáng)的適應(yīng)能力和辨別能力。早期的網(wǎng)頁信息抽取研究集中探索了規(guī)則化方法,從基于正則表達(dá)式的腳本化抽取方法,到之后發(fā)展起來的專有的抽取語言,其核心思想是提取出包含目標(biāo)信息的特定模式。模式的提取的方法是這類系統(tǒng)的主要不同,一些系統(tǒng)使用手工方式來提取模式,這樣的好處是提取的模式更加準(zhǔn)確,不過在處理復(fù)雜抽取任務(wù)時(shí)需要提取模式將非常之多,因此人工成本較高。為了降低模式提取的成本,人們提出了基于自動(dòng)訓(xùn)練的模式學(xué)習(xí)系統(tǒng),系統(tǒng)需要接受一組訓(xùn)練樣例,樣例由人工標(biāo)識(shí)出其中的目標(biāo)信息塊,學(xué)習(xí)系統(tǒng)自動(dòng)的根據(jù)從樣例中總結(jié)出可能的匹配模式,模式經(jīng)過驗(yàn)證和篩選后被用于實(shí)際的抽取任務(wù)。該方法具有了一定的自動(dòng)提取能力,但是由于底層仍然依賴于規(guī)則化方法,因此對(duì)復(fù)雜的抽取任務(wù)無法達(dá)到較高的準(zhǔn)確率。最近幾年來,抽取方法逐漸轉(zhuǎn)向于機(jī)器學(xué)習(xí)模型,一些原本在處理自然語言理解過程中的方法被應(yīng)用來處理信息抽取問題,取得了很好的效果。學(xué)術(shù)主頁是學(xué)術(shù)領(lǐng)域內(nèi)的研究人員用來展示自己個(gè)人基本信息和研究成果的站點(diǎn)。不同的作者根據(jù)自己的喜好制作不同的頁面模板呈現(xiàn)個(gè)人信息。盡管頁面風(fēng)格各不相同,但是學(xué)術(shù)主頁上通常包含了類似的信息,如作者名字,機(jī)構(gòu)信息,聯(lián)系方式,項(xiàng)目,文章信息等。使用信息抽取系統(tǒng)將這些信息收集起來是十分有價(jià)值的。

      發(fā)明內(nèi)容
      本發(fā)明的目的是提供一種網(wǎng)頁特征自適應(yīng)的信息抽取方法,該方法能夠從不同風(fēng)格的學(xué)術(shù)主頁中提取所需的信息,并且具有適應(yīng)能力強(qiáng),準(zhǔn)確率高,以及擴(kuò)展性強(qiáng)特點(diǎn)。本發(fā)明提供的一種網(wǎng)頁特征自適應(yīng)的信息抽取方法,其特征在于,該方法包括下述步驟第1步從互聯(lián)網(wǎng)中搜尋類型為學(xué)術(shù)主頁的站點(diǎn);第2步對(duì)搜尋的學(xué)術(shù)主頁進(jìn)行分析,將學(xué)術(shù)主頁的頁面看成是二元組(L,C)的集合,其中L是鏈接的URL,C是鏈接的上下文,再檢查L(zhǎng)和C中是否包含關(guān)鍵字,如果包含,則進(jìn)入第3步,否則過濾掉該鏈接;第3步對(duì)所述鏈接進(jìn)行分析,得到頁面的文檔樹結(jié)構(gòu),根據(jù)樹節(jié)點(diǎn)的屬性和內(nèi)容對(duì)頁面進(jìn)行劃分,分成文本單元T,構(gòu)成文本單元集合IT1, T2, ... , TJ第4步從文本單元集合IT1, T2, ... , TJ中抽取出作者名字N,郵箱M,機(jī)構(gòu)信息U 和文章信息集合{P1; P2,... , PJ這四個(gè)目標(biāo)字段,作為初步抽取結(jié)果;第5步對(duì)第4步得到的初步抽取結(jié)果進(jìn)行關(guān)聯(lián)分析,利用信息的關(guān)聯(lián)性消除歧義, 對(duì)缺失字段進(jìn)行補(bǔ)全,得到抽取結(jié)果,存至結(jié)果數(shù)據(jù)庫中;第6步將文章信息集合{P1; P2, ... , PJ中的元素與結(jié)果數(shù)據(jù)庫中的記錄進(jìn)行匹配,消除冗余數(shù)據(jù);第7步輸出抽取結(jié)果。本發(fā)明提供的一種網(wǎng)頁特征自適應(yīng)的信息抽取方法,該方法結(jié)合使用了機(jī)器學(xué)習(xí)算法,概率模型和規(guī)則化方法,能夠從不同風(fēng)格的學(xué)術(shù)主頁中提取出作者的名字,郵箱,機(jī)構(gòu)信息和發(fā)表文章等信息。具體而言,本發(fā)明有以下效果和優(yōu)點(diǎn)(1)適應(yīng)性強(qiáng)學(xué)術(shù)主頁的編寫者是許多不同的研究者,內(nèi)容和排版各式各樣。本發(fā)明能夠很好的解決頁面格式不統(tǒng)一的的問題,自動(dòng)的適應(yīng)各種變化情況;⑵準(zhǔn)確度高本發(fā)明的核心算法基于機(jī)器學(xué)習(xí)算法和概率模型,并結(jié)合使用了啟發(fā)式規(guī)則,對(duì)各個(gè)目標(biāo)字段的抽取都能夠達(dá)到很高的準(zhǔn)確率;(3)可擴(kuò)展性強(qiáng)本發(fā)明能夠被擴(kuò)展來提取出頁面中的其他字段,其識(shí)別過程也能夠被應(yīng)用來解決其他類似問題,擴(kuò)展過程簡(jiǎn)單,通用性強(qiáng)。


      圖1為本發(fā)明的抽取過程的整體流程圖;圖2為本發(fā)明對(duì)作者名進(jìn)行抽取的流程圖;圖3為本發(fā)明對(duì)郵箱進(jìn)行抽取的流程圖;圖4為本發(fā)明對(duì)機(jī)構(gòu)信息進(jìn)行抽取的流程圖;圖5為本發(fā)明對(duì)文章信息進(jìn)行抽取的流程圖。
      具體實(shí)施例方式下面結(jié)合附圖和實(shí)例對(duì)本發(fā)明進(jìn)行詳細(xì)說明。本發(fā)明提供的一種網(wǎng)頁特征自適應(yīng)的信息抽取方法,其步驟包括(1)從互聯(lián)網(wǎng)中搜尋類型為學(xué)術(shù)主頁的站點(diǎn),該過程可以分為兩個(gè)階段尋找階段和判定階段。
      在尋找階段,首先從已有的文獻(xiàn)數(shù)據(jù)中導(dǎo)出作者名字的數(shù)據(jù)集作為種子數(shù)據(jù),然后以數(shù)據(jù)集中的每一個(gè)作者名作為關(guān)鍵字在搜索引擎中進(jìn)行檢索,搜索引擎以列表形式返回檢索結(jié)果,每一條檢索結(jié)果通常由標(biāo)題,鏈接特征和一小段摘要文本組成,搜索引擎通常會(huì)返回多頁結(jié)果,將第一頁的檢索結(jié)果的鏈接特征和摘要文本存放在候選結(jié)果列表中。在判定階段,首先根據(jù)鏈接特征和摘要文本對(duì)候選結(jié)果列表中的檢索結(jié)果進(jìn)行過濾。過濾過程中用到了一個(gè)數(shù)據(jù)庫,該數(shù)據(jù)庫包含了檢索結(jié)果中經(jīng)常出現(xiàn)的混淆站點(diǎn),稱之為屏蔽鏈接數(shù)據(jù)庫。過濾策略包含兩個(gè)步驟,首先檢查檢索結(jié)果是否存在于屏蔽鏈接數(shù)據(jù)庫中,將位于該數(shù)據(jù)庫中的檢索結(jié)果直接排除。然后,對(duì)剩余的檢索結(jié)果,檢查其鏈接特征是否呈現(xiàn)為“ ” +作者名字的模式,如果是則保留,否則則直接排除,經(jīng)過這兩步過濾之再依次對(duì)剩余的每一條檢索結(jié)果進(jìn)行如下操作根據(jù)其鏈接特征發(fā)出頁面請(qǐng)求,使用支持向量機(jī)分類算法判定返回的頁面是否是作者學(xué)術(shù)主頁,如果是,則直接將其保存為作者學(xué)術(shù)主頁,判定結(jié)束,否則繼續(xù)對(duì)下一條檢索結(jié)果進(jìn)行相同的操作。(2)對(duì)作者學(xué)術(shù)主頁進(jìn)行分析,作者學(xué)術(shù)主頁通常是一個(gè)完整的站點(diǎn),包含了許多子頁面,其中有些包含了系統(tǒng)需要的目標(biāo)信息,有些則是完全無關(guān)的。為了提高爬取效率, 避免過多的無用頁面被后續(xù)模塊進(jìn)行深入解析,消耗計(jì)算資源,本發(fā)明使用了一種基于啟發(fā)式策略的過濾算法。該算法將頁面看成是二元組(L,C)的集合,其中L是鏈接的URL,C 是鏈接的上下文,該算法檢查L(zhǎng)和C中是否包含publication,paper, research等關(guān)鍵字, 如果包含則進(jìn)一步解析該鏈接(進(jìn)入步驟(3)),否則過濾掉該鏈接。(3)對(duì)待解析頁面進(jìn)行分析,得到網(wǎng)頁的文檔樹結(jié)構(gòu),根據(jù)文檔樹節(jié)點(diǎn)的屬性和內(nèi)容對(duì)頁面進(jìn)行劃分,分成若干個(gè)小單元,稱之為文本單元T,劃分結(jié)果為文本單元集合IT1, T2, ... , TJ,步驟如下。(a)首先使用HTML解析器對(duì)頁面進(jìn)行解析,得到頁面的文檔樹。文檔樹的節(jié)點(diǎn)即對(duì)應(yīng)于頁面里的HTML標(biāo)簽,文檔樹以樹形結(jié)構(gòu)展現(xiàn)出頁面里各個(gè)HTML標(biāo)簽之間的關(guān)系。(b)然后對(duì)頁面進(jìn)行劃分。HTML標(biāo)簽可以分為塊級(jí)元素和內(nèi)聯(lián)元素,常見的塊級(jí)元素如 BR,DIV, Hl,H2,Li, UL, TH, TD, TR, TABLE 等,常見的內(nèi)聯(lián)元素如 SPAN,BOLD, A, FONT, IMG等。HTML頁面可以被看做是塊級(jí)元素的集合,塊級(jí)元素之間擁有兩種關(guān)系父子關(guān)系和兄弟關(guān)系。塊級(jí)元素和內(nèi)聯(lián)元素之間可以相互嵌套。文檔樹就是以樹節(jié)點(diǎn)的形式呈現(xiàn)出這些關(guān)系,文檔樹中含有塊級(jí)元素的節(jié)點(diǎn)稱為塊級(jí)節(jié)點(diǎn),其他節(jié)點(diǎn)稱為非塊級(jí)節(jié)點(diǎn),對(duì)文檔樹的節(jié)點(diǎn)進(jìn)行遍歷,通過判斷節(jié)點(diǎn)的類別來對(duì)頁面進(jìn)行劃分,劃分步驟如下(bl)初始,文本單元集合為空;(b2)對(duì)文檔樹進(jìn)行深度優(yōu)先遍歷,找出所有的塊級(jí)節(jié)點(diǎn),對(duì)每一個(gè)塊級(jí)節(jié)點(diǎn)Ni, 生成一個(gè)文本單元Ti,并將Ni在頁面中相應(yīng)的內(nèi)容劃分至Ti ;(b3)對(duì)每一個(gè)塊級(jí)子節(jié)點(diǎn)Ni,判斷其在文檔樹中是否有非塊級(jí)子節(jié)點(diǎn),如果有則將其所有非塊級(jí)子節(jié)點(diǎn)在頁面中相應(yīng)的內(nèi)容劃分至Ti ;(b4)將Ti加入文本單元集合中;(b5)結(jié)束。(c)遍歷結(jié)束后,完成頁面的劃分,得到文本單元集合IT1, T2, ... , TJ。(4)從文本單元集合IT1, T2, ... , TJ中抽取出作者名字N,郵箱M,機(jī)構(gòu)信息U和文章信息集合{P1; P2,... , PJ這四個(gè)目標(biāo)字段,作為初步抽取結(jié)果;
      針對(duì)不同類型的目標(biāo)字段,下面分別介紹不同字段的抽取方法作者名字N的抽取過程如圖2所示,其基本步驟如下(al)使用支持向量機(jī)分類算法對(duì)文本單元集合IT1, T2, ... , Tj里的文本單元進(jìn)行分類,保留類別為作者名字的文本單元集合Tnanre ;(a2)使用作者名字?jǐn)?shù)據(jù)庫從Tn_中匹配出作者名字部分,作者名字?jǐn)?shù)據(jù)庫是一個(gè)事先準(zhǔn)備好的數(shù)據(jù)庫,該數(shù)據(jù)庫收集和整理了常見的英文男女人名和一些中文拼音,使用該數(shù)據(jù)庫從Τη_中匹配出候選的作者名字集合;(a3)提取出作者學(xué)術(shù)主頁標(biāo)題中的文字,大多數(shù)時(shí)候作者學(xué)術(shù)主頁的標(biāo)題會(huì)以 “XXX’ S Hompage”的形式包含作者的名字XXX,提取作者學(xué)術(shù)主頁標(biāo)題中的作者名字XXX;(a4)用(a3)得到的作者名字XXX對(duì)(a2)得到的候選作者名字進(jìn)行匹配,選擇與 XXX匹配程度最高的名字作為作者名字N輸出。郵箱M的抽取過程如圖3所示,其基本步驟如下(bl)首先使用支持向量機(jī)分類器從文本單元集合IT1, T2, ... , TJ中找出可能的郵箱候選文本單元集合TEmail。支持向量機(jī)的輸入特征包括郵箱信息中的常見符號(hào),如 “Email”,“@”,“.”等。在TEmail中尋找這些特征符號(hào),生成特征向量。支持向量機(jī)算法根據(jù)特征向量對(duì)TEmail中郵箱候選文本單元進(jìn)行判定,如果分類結(jié)果為肯定,則進(jìn)行(b2)處理, 否則直接過濾掉。(b2)去掉郵箱候選文本單元中多余的部分,如提示性前綴“Email ”,去除這些信息有利于后續(xù)步驟獲得合法的郵箱信息。(b3)接下來采用模糊匹配狀態(tài)機(jī)算法對(duì)郵箱候選文本單元進(jìn)行匹配,一個(gè)標(biāo)準(zhǔn)的郵箱有如下字段用戶名提供商域名.)+.頂級(jí)域名。該算法為每一個(gè)字段建立一個(gè)匹配節(jié)點(diǎn),使用狀態(tài)機(jī)枚舉可能的匹配形式,生成許多不同的匹配結(jié)果,通常有幾十個(gè)。(b4)將郵箱候選文本單元的各個(gè)字段和匹配結(jié)果進(jìn)行比對(duì),選取匹配程度最大的結(jié)果作為最終結(jié)果,并按照標(biāo)準(zhǔn)的郵箱字段將其轉(zhuǎn)換為規(guī)范的合法郵箱格式輸出。機(jī)構(gòu)信息U的抽取過程如圖4所示,其基本步驟如下(Cl)首先從互聯(lián)網(wǎng)上收集全球大學(xué)和研究所的數(shù)據(jù),包括機(jī)構(gòu)的名字和其對(duì)應(yīng)的主頁鏈接,建立一個(gè)機(jī)構(gòu)主頁數(shù)據(jù)庫。為數(shù)據(jù)庫建立倒排索引。倒排索引支持快速的關(guān)鍵字查找,能夠快速確定包含一組關(guān)鍵字的條目。(c2)使用支持向量機(jī)分類器從文本單元集合IT1, T2, ... , TJ中找出可能的機(jī)構(gòu)信息文本單元集合Tu,將Tu中的機(jī)構(gòu)信息文本單元轉(zhuǎn)換為文本形式,將其作為關(guān)鍵字在索引中查找,取得排名前三的檢索結(jié)果。將前三個(gè)檢索結(jié)果和相應(yīng)的機(jī)構(gòu)信息文本單元進(jìn)行模糊匹配,如果能夠匹配上則確定該文本是對(duì)應(yīng)該機(jī)構(gòu)的,將匹配程度最高的匹配結(jié)果輸出,否則如果均無法匹配上,則轉(zhuǎn)(C3)處理。(c3)利用主頁的URL進(jìn)行尋找,學(xué)術(shù)站點(diǎn)通常是機(jī)構(gòu)站點(diǎn)的子站點(diǎn),因此將主頁的域名與機(jī)構(gòu)主頁數(shù)據(jù)庫進(jìn)行匹配,如果存在匹配的記錄,則認(rèn)為作者屬于該所機(jī)構(gòu),將匹配的記錄作為結(jié)果輸出。文章信息{P1; P2, ... , PJ的抽取的過程如圖5所示,其基本步驟如下(a)首先使用支持向量機(jī)分類算法對(duì)文本單元進(jìn)行分類,篩選出可能包含文章信息的文本單元。分類算法的準(zhǔn)確率與文章信息的最終識(shí)別準(zhǔn)確率關(guān)系密切,分類算法需要過濾掉課程信息,專利,項(xiàng)目等容易發(fā)生混淆的相似信息。分類算法的準(zhǔn)確率主要依賴于兩個(gè)方面訓(xùn)練樣例和特征的選取。訓(xùn)練樣例的構(gòu)建按照迭代法,通過不斷的將錯(cuò)誤樣例添加到訓(xùn)練集中來更正原有模型。特征向量由一組具有區(qū)分能力的詞匯向量構(gòu)成。經(jīng)過分類算法的篩選,無關(guān)的文本單元被排除掉,得到候選文章信息文本單元。(b)然后對(duì)候選文章信息文本單元進(jìn)行序列標(biāo)注,提取候選文本中各個(gè)子字段,包括作者名字,標(biāo)題,會(huì)議期刊名,年份。序列標(biāo)注的算法基于條件隨機(jī)場(chǎng)模型,模型中用了下列特征①文本類特征a)詞條本身,包括原始形式和詞根形式b)大小寫特征,包括首字母大寫,全大寫,單個(gè)大寫字母c)數(shù)字特征,全數(shù)字,數(shù)字和字母的混合,羅馬字母d)標(biāo)點(diǎn)特征,逗號(hào),引號(hào),句號(hào)等e) HTML標(biāo)簽特征,標(biāo)簽起始,中間部分和結(jié)束部分②模式特征a)年份特征,19XX或者20XXb)頁模式,XXX-XXX③詞典特征 作者名字,地理位置,出版社,時(shí)間,會(huì)議期刊名,機(jī)構(gòu)名④術(shù)語特征文獻(xiàn)數(shù)據(jù)中常用的詞匯,如pp/editor/volume等從候選文章信息文本單元中提取出上述特征,條件隨機(jī)場(chǎng)模型中的特征函數(shù)使用真值形式,即函數(shù)輸出是或者否。經(jīng)過模型的計(jì)算,給出候選文章信息文本單元的最可能的標(biāo)注形式。具有相同標(biāo)簽的符號(hào)會(huì)被合并成相應(yīng)的子字段,如作者名字字段,標(biāo)題字段,會(huì)議期刊字段,年份字段等,然后分別對(duì)這些字段進(jìn)行相應(yīng)的后續(xù)處理。(C)作者名字段包含了整個(gè)作者列表,需要分割成單個(gè)作者的形式。分割算法基于啟發(fā)式規(guī)則,主要依據(jù)與名字的長(zhǎng)度,縮寫形式以及標(biāo)點(diǎn)符號(hào)。分割后的結(jié)果被保存在數(shù)組中。標(biāo)題字段需要經(jīng)過規(guī)范化裁剪才能作為最終的結(jié)果。裁剪的主要目的是為了去除掉前綴和后綴的非法字符,比如標(biāo)點(diǎn)符號(hào),邊界錯(cuò)誤等。會(huì)議期刊名在實(shí)際中存在多種表達(dá)方式,如大寫字母的縮寫和常見的習(xí)慣稱呼等。直接提取的會(huì)議期刊字段不能作為最終的結(jié)果,需要和數(shù)據(jù)庫中的進(jìn)行匹配。文獻(xiàn)期刊數(shù)據(jù)庫收集了常見的會(huì)議和期刊名以及相應(yīng)的縮寫形式。首先提取出待識(shí)別字段中大寫字母縮寫部分,在數(shù)據(jù)庫中進(jìn)行查找,如果匹配則將匹配的全稱與輸入字段進(jìn)行模糊匹配, 防止縮寫形式?jīng)_突的情況導(dǎo)致的錯(cuò)誤。若匹配則直接輸出結(jié)果。否則為會(huì)議期刊名建立索弓丨,將待匹配字段在索引中進(jìn)行檢索,將檢索結(jié)果與待匹配字段做模糊匹配。若找到匹配則輸出結(jié)果。年份字段使用規(guī)則化方法,使用正則表達(dá)式在輸入文本中尋找合法的年份模式。 合法年份模式有兩種形式第一種以19或者20開始,并且為四位數(shù)字;第二種以會(huì)議期刊名字的大寫字母縮寫形式開始,接著引號(hào)和年份。使用這兩種模式能夠處理實(shí)際中的絕大部分情況,識(shí)別準(zhǔn)確率超過百分之九十九。(5)對(duì)步驟(4)得到的初步抽取結(jié)果(包括作者名字N,郵箱M,機(jī)構(gòu)信息U和文章信息集合{P” P2, ...,PnD進(jìn)行缺失字段補(bǔ)全和歧義消除,得到最終的抽取結(jié)果,存至結(jié)果數(shù)據(jù)庫中。實(shí)際頁面中包含的信息可能存在一定程度的缺失和不規(guī)范的情況,對(duì)相同信息項(xiàng)可能識(shí)別出多個(gè)結(jié)果需要進(jìn)一步判定。該過程利用信息之間的關(guān)聯(lián)關(guān)系,對(duì)抽取結(jié)果進(jìn)行補(bǔ)全,對(duì)存在歧義的結(jié)果進(jìn)行進(jìn)一步判定。信息關(guān)聯(lián)包含如下情況(a)作者名和郵箱用戶名之間的關(guān)聯(lián);(b)機(jī)構(gòu)信息與主頁域名之間的關(guān)聯(lián);(c)作者名和文章信息中作者列表的關(guān)聯(lián);根據(jù)上述關(guān)聯(lián),可以對(duì)抽取結(jié)果進(jìn)行補(bǔ)全,如當(dāng)機(jī)構(gòu)信息存在缺失時(shí),可以將主頁鏈接在數(shù)據(jù)庫中進(jìn)行查詢,獲得對(duì)應(yīng)的機(jī)構(gòu)信息。在信息的歧義消除方面,當(dāng)存在多個(gè)郵箱時(shí),可以利用作者名和用戶名之間的對(duì)應(yīng)關(guān)系,排除掉錯(cuò)誤的結(jié)果。(6)將文章信息集合{P1; P2, ... , PJ中的元素與結(jié)果數(shù)據(jù)庫中的記錄進(jìn)行匹配, 消除冗余數(shù)據(jù)。雖然經(jīng)過關(guān)聯(lián)分析之后,抽取過程就已經(jīng)完成,但是結(jié)果中可能存在重復(fù)的冗余信息。本步驟將抽取結(jié)果與結(jié)果數(shù)據(jù)庫中的記錄進(jìn)行匹配。當(dāng)找到匹配結(jié)果時(shí),將兩者進(jìn)行模糊比對(duì),如果結(jié)果數(shù)據(jù)庫中的記錄存在相關(guān)字段的缺失,則對(duì)該字段進(jìn)行補(bǔ)全。如果在結(jié)果數(shù)據(jù)庫中沒有找到匹配結(jié)果,則將抽取結(jié)果添加到結(jié)果數(shù)據(jù)庫中。(7)輸出抽取結(jié)果。實(shí)例以從學(xué)術(shù)主頁http://www. cs. uiuc. edu/ hani/中抽取信息的過程為例,首先使用Jiawei Han作為搜索關(guān)鍵字在搜索引擎中進(jìn)行檢索,首先根據(jù)屏蔽數(shù)據(jù)庫的,排除掉 Wikipedia和DBLP的結(jié)果,然后選取排名前三的結(jié)果發(fā)出頁面請(qǐng)求,經(jīng)過分類器判定,選擇第一個(gè)搜索結(jié)果即為該作者的學(xué)術(shù)主頁。使用HTML解析器對(duì)頁面進(jìn)行解析,獲取其中的子鏈接,根據(jù)鏈接關(guān)鍵字和上下文選定如下子頁面進(jìn)一步分析http://www. cs. uiuc. edu/homes/hanj/pubs/index, htmhttps://agora, cs. illinois. edu/display/cs591han/Research+Publications+ -+Data+Mining+Researc h+Group+at+CS% 2C+UIUC對(duì)每一個(gè)待分析的頁面進(jìn)行文本單元的劃分,以首頁的頁面為例,得到如下結(jié)果"Jiawei Han"
      "Professor, Department of Computer Science" "Univ. of Illinois at Urbana-Champaign" "E-mail: hanj [at]cs.uiuc.edu"
      "Peixiang Zhao, Xiaolei Li, Dong Xin, and Jiawei Han, Graph Cube: On Warehousing and OLAP
      Multidimensional Networks, Proc. of 2011 ACM SIGMOD Int. Conf. on Management of Data
      (SIGMOD'll), Athens, Greece, June 2011"使用支持向量機(jī)對(duì)上述文本單元進(jìn)行分類,分別判定為作者名字,無關(guān)數(shù)據(jù),大學(xué)信息,郵箱,文章信息。根據(jù)判定的類別按照不同的提取流程進(jìn)行進(jìn)一步的提取,無關(guān)數(shù)據(jù)則直接放棄。作者名字的提取過程分別找到主頁標(biāo)題部分(Jiawei Han),正文中的作者名字 (Jiawei Han),以及文章信息中包含的作者名字(Jiawei Han, Xiaofei He,Deng Cai),經(jīng)過交叉匹配,確定Jiawei Han為最終的結(jié)果。郵箱信息的提取首先去掉前綴部分(E-mail)之后使用模糊匹配自動(dòng)機(jī)枚舉所有可能的郵箱匹配結(jié)果,如Hanj (用戶名)at 分隔符)cs (域名)·(點(diǎn))uiuc (域名)·(點(diǎn))edu (域名)按照匹配的符合程度對(duì)結(jié)果進(jìn)行評(píng)分,選取最優(yōu)結(jié)果作為郵箱的合法形式,之后轉(zhuǎn)換為合法形式輸出。機(jī)構(gòu)信息的提取過程將被分類為機(jī)構(gòu)信息的文本單元在機(jī)構(gòu)索引中進(jìn)行檢索,在本例中以“Univ. of Illinois at Urbana-Champaign”為關(guān)鍵字進(jìn)行檢索,得到的檢索結(jié)果中第一條記錄即為“University of Illinois at Urbana-Champaign”,經(jīng)過模糊匹配判定兩者相符,因此可以直接輸出結(jié)果。文章信息需要使用序列標(biāo)注算法對(duì)文章信息進(jìn)行標(biāo)注,識(shí)別出其中的作者名,比如對(duì)于前面找到的文章信息,將其標(biāo)注為如下形式〈作者〉PeixiangZhao, Xiaolei Li, Dong Xin, and Jiawei Han, </作者 X 標(biāo) H >Gfaph Cube :0n Warehousing and OLAP Multidimensional Networks,</豐示H >< H >Proc. of 2011 ACM SIGMOD Int. Conf. on Management of Data(SIGM0D' 11),</會(huì)議 X 地點(diǎn) >Athens, Greece, </ 地點(diǎn) X 時(shí)間 >June 2011</ 時(shí)間 >將各個(gè)子字段分別識(shí)別出來即完成了文章信息的識(shí)別過程。之后根據(jù)信息之間的相關(guān)關(guān)聯(lián)對(duì)存在缺失和歧義的結(jié)果進(jìn)行補(bǔ)全和判定,將結(jié)果與結(jié)果數(shù)據(jù)庫進(jìn)行合并。本發(fā)明不僅局限于上述具體實(shí)施方式
      ,本領(lǐng)域一般技術(shù)人員根據(jù)本發(fā)明公開的內(nèi)容,可以采用其它多種具體實(shí)施方式
      實(shí)施本發(fā)明,因此,凡是采用本發(fā)明的設(shè)計(jì)結(jié)構(gòu)和思路,做一些簡(jiǎn)單的變化或更改的設(shè)計(jì),都落入本發(fā)明保護(hù)的范圍。
      權(quán)利要求
      1.一種網(wǎng)頁特征自適應(yīng)的信息抽取方法,其特征在于,該方法包括下述步驟 第1步從互聯(lián)網(wǎng)中搜尋類型為學(xué)術(shù)主頁的站點(diǎn);第2步對(duì)搜尋的學(xué)術(shù)主頁進(jìn)行分析,將學(xué)術(shù)主頁的頁面看成是二元組(L,C)的集合,其中L是鏈接的URL,C是鏈接的上下文,再檢查L(zhǎng)和C中是否包含關(guān)鍵字,如果包含,則進(jìn)入第3步,否則過濾掉該鏈接;第3步對(duì)所述鏈接進(jìn)行分析,得到頁面的文檔樹結(jié)構(gòu),根據(jù)樹節(jié)點(diǎn)的屬性和內(nèi)容對(duì)頁面進(jìn)行劃分,分成文本單元T,構(gòu)成文本單元集合IT1, T2, ... , TJ第4步從文本單元集合IT1, T2,. . .,TJ中抽取出作者名字N,郵箱Μ,機(jī)構(gòu)信息U和文章信息集合{P” P2, ...,PJ這四個(gè)目標(biāo)字段,作為初步抽取結(jié)果;第5步對(duì)第4步得到的初步抽取結(jié)果進(jìn)行關(guān)聯(lián)分析,利用信息的關(guān)聯(lián)性消除歧義,對(duì)缺失字段進(jìn)行補(bǔ)全,得到抽取結(jié)果,存至結(jié)果數(shù)據(jù)庫中;第6步將文章信息集合{P” P2, ... , PJ中的元素與結(jié)果數(shù)據(jù)庫中的記錄進(jìn)行匹配,消除冗余數(shù)據(jù);第7步輸出抽取結(jié)果。
      2.根據(jù)權(quán)利要求1所述的信息抽取方法,其特征在于,第1步分為兩個(gè)階段尋找階段和判定階段;在尋找階段,首先從已有的文獻(xiàn)數(shù)據(jù)中導(dǎo)出作者名字的數(shù)據(jù)集作為種子數(shù)據(jù),然后以數(shù)據(jù)集中的每一個(gè)作者名作為關(guān)鍵字在搜索引擎中進(jìn)行檢索,搜索引擎以列表形式返回檢索結(jié)果,每一條檢索結(jié)果由標(biāo)題,鏈接特征和摘要文本組成,并將返回結(jié)果中的第一頁的檢索結(jié)果的鏈接特征和摘要文本存放在候選結(jié)果列表中;在判定階段,首先根據(jù)檢索結(jié)果的鏈接特征和摘要文本對(duì)候選結(jié)果列表按下述方式進(jìn)行過濾,首先檢查鏈接是否存在于屏蔽鏈接數(shù)據(jù)庫中,將位于該數(shù)據(jù)庫中的結(jié)果直接排除, 然后,對(duì)剩余的檢索結(jié)果,檢查其鏈接特征是否呈現(xiàn)為“ ” +作者名字的模式,如果是則保留,否則則直接排除,經(jīng)過這兩步過濾之再依次對(duì)剩余的每一條檢索結(jié)果進(jìn)行如下操作根據(jù)其鏈接特征發(fā)出頁面請(qǐng)求,使用支持向量機(jī)分類算法判定返回的頁面是否是作者學(xué)術(shù)主頁,如果是,則直接將其保存為作者學(xué)術(shù)主頁,判定結(jié)束,否則繼續(xù)對(duì)下一條檢索結(jié)果進(jìn)行相同的操作。
      3.根據(jù)權(quán)利要求1所述的信息抽取方法,其特征在于,步驟(3)包括下述過程(3. 1)首先使用HTML解析器對(duì)頁面進(jìn)行解析,得到頁面的文檔樹,文檔樹的節(jié)點(diǎn)即對(duì)應(yīng)于頁面里的HTML標(biāo)簽,文檔樹以樹形結(jié)構(gòu)展現(xiàn)出頁面里各個(gè)HTML標(biāo)簽之間的關(guān)系; (3. 2)然后對(duì)頁面進(jìn)行劃分,得到文本單元集合IT1, T2, ... , TJ。
      4.根據(jù)權(quán)利要求3所述的信息抽取方法,其特征在于,步驟(3.2)按下述過程對(duì)頁面進(jìn)行劃分(bl)初始,文本單元集合為空;(b2)對(duì)文檔樹進(jìn)行深度優(yōu)先遍歷,找出所有的塊級(jí)節(jié)點(diǎn),對(duì)每一個(gè)塊級(jí)節(jié)點(diǎn)Ni,生成一個(gè)文本單元Ti,并將Ni在頁面中相應(yīng)的內(nèi)容劃分至Ti ;(b3)對(duì)每一個(gè)塊級(jí)子節(jié)點(diǎn)Ni,判斷其在文檔樹中是否有非塊級(jí)子節(jié)點(diǎn),如果有則將其所有非塊級(jí)子節(jié)點(diǎn)在頁面中相應(yīng)的內(nèi)容劃分至Ti ; (b4)將Ti加入文本單元集合中;(b5)結(jié)束。
      全文摘要
      本發(fā)明公開了一種從學(xué)術(shù)主頁中抽取信息的方法,其步驟為(1)在互聯(lián)網(wǎng)中發(fā)現(xiàn)學(xué)術(shù)主頁;(2)對(duì)學(xué)術(shù)主頁進(jìn)行爬取和解析,使用啟發(fā)式策略減少無關(guān)頁面的爬取,加快解析速度;(3)將頁面解析成DOM樹的形式,并按照元素的屬性和內(nèi)容進(jìn)行劃分,得到內(nèi)聚的文本單元列表;(4)使用信息識(shí)別器對(duì)文本單元進(jìn)行識(shí)別,每種信息識(shí)別器只識(shí)別一種信息類型,對(duì)于文章信息還需要進(jìn)行子字段提取。(5)對(duì)抽取結(jié)果進(jìn)行關(guān)聯(lián)分析,利用信息的關(guān)聯(lián)性消除歧義,對(duì)缺失字段進(jìn)行補(bǔ)全;(6)將抽取結(jié)果與數(shù)據(jù)庫進(jìn)行匹配,消除冗余數(shù)據(jù),抽取結(jié)果以語義數(shù)據(jù)的形式保存在語義數(shù)據(jù)庫中。本發(fā)明通過結(jié)合使用啟發(fā)式規(guī)則,機(jī)器學(xué)習(xí)方法和條件概率模型能夠高效準(zhǔn)確的從學(xué)術(shù)主頁中抽取學(xué)術(shù)信息。
      文檔編號(hào)G06F17/30GK102254014SQ20111020513
      公開日2011年11月23日 申請(qǐng)日期2011年7月21日 優(yōu)先權(quán)日2011年7月21日
      發(fā)明者嚴(yán)奉偉, 李毅, 趙峰, 金海 申請(qǐng)人:華中科技大學(xué)
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1