本發(fā)明涉及一種面向聚焦的web網(wǎng)頁獲取和信息抽取方法。
背景技術(shù):
信息抽取能準確而高效的從網(wǎng)頁中抽取用戶感興趣的信息,不僅可以方便用戶對信息的查找,而且可以為文本處理技術(shù)的研究提供方便的數(shù)據(jù)清洗服務。聚焦爬蟲作為信息抽取的數(shù)據(jù)來源,聚焦爬蟲的設(shè)計顯得尤為重要?,F(xiàn)有的對聚焦爬蟲的研究主要從三個方面進行分析:分析網(wǎng)頁內(nèi)容、分析鏈接拓撲結(jié)構(gòu)和分析url。分析網(wǎng)頁內(nèi)容和分析鏈接拓撲結(jié)構(gòu)的方法都需要下載網(wǎng)頁,導致速度較慢。分析url的方法根據(jù)url的相似性指導爬蟲的執(zhí)行,不需要下載過多主題無關(guān)的網(wǎng)頁,大大提高爬蟲的效率。然而由于web網(wǎng)頁的海量性和異構(gòu)性,聚焦爬蟲面臨著速度和適應性的問題。
傳統(tǒng)的web信息抽取技術(shù)有基于規(guī)則的方法、基于統(tǒng)計的方法和基于本體的方法。這三種方法各有優(yōu)缺點。web信息抽取面臨的問題主要包括以下方面。
(1)面對成百上千億的網(wǎng)頁數(shù)量,自動高效地從海量web信息中抽取目標信息是一大難點。
(2)web網(wǎng)頁的呈現(xiàn)方式多種多樣,來自不同網(wǎng)站的網(wǎng)頁之間信息的呈現(xiàn)形式差異性更大,網(wǎng)頁的異構(gòu)性給web信息抽取帶來了巨大的挑戰(zhàn)。
(3)由于動態(tài)網(wǎng)頁技術(shù)的廣泛應用,網(wǎng)頁的樣式和布局隨時可能改變,網(wǎng)頁的這種動態(tài)性增加了web信息抽取的難度。
技術(shù)實現(xiàn)要素:
本發(fā)明的目的在于提供一種面向聚焦的web網(wǎng)頁獲取和信息抽取方法,在海量的web信息中,在用戶提供少量稀疏樣本的情況下,快速獲取主題結(jié)構(gòu)相似的網(wǎng)頁,并在此基礎(chǔ)上抽取用戶感興趣的信息,為普通用戶提供方便可用的web信息抽取服務以及為信息抽取技術(shù)提供語料庫。
為達到以上目的,本發(fā)明的構(gòu)思是:首先創(chuàng)建一個基于url結(jié)構(gòu)過濾的非監(jiān)督的聚焦爬蟲。url在一定程度上反映了網(wǎng)頁結(jié)構(gòu)和分類的情況,從url相似性出發(fā),實現(xiàn)了url相似性的計算方法和非監(jiān)督的權(quán)重調(diào)節(jié)機制來擬合url對網(wǎng)頁分類的反映情況,從而能夠提高爬蟲的效率。然后可以利用基于視覺單位的web網(wǎng)頁信息抽取技術(shù)在新聞領(lǐng)域進行信息抽取。所謂視覺單位是指新聞網(wǎng)頁中排版風格統(tǒng)一的模塊。由于建模的web信息抽取方法很難做到較好的適應性,因此可以考慮數(shù)據(jù)驅(qū)動的web網(wǎng)頁信息抽取,利用增量聚類方法對網(wǎng)頁信息進行抽取。大致思想為:首先利用聚類算法將訓練樣本分為多個類別,然后將候選信息節(jié)點與這些類對比,如果可以找到與自身匹配的類,那么此候選信息被選中,作為目標信息輸出。
根據(jù)上述發(fā)明構(gòu)思,本發(fā)明采用如下技術(shù)方案:
一種面向聚焦的web網(wǎng)頁獲取和信息抽取方法,具體操作步驟如下:
a.創(chuàng)建一個基于url結(jié)構(gòu)過濾的非監(jiān)督的聚焦爬蟲,以url相似度作為網(wǎng)頁相似度的依據(jù)來指導爬蟲的搜索行為,通過分析url各個元素的特征,分別比較url中各個元素的相似程度來衡量兩個url是否相似;
b.在新聞領(lǐng)域采取基于視覺單位的web網(wǎng)頁信息抽取技術(shù),根據(jù)視覺特征和文本特征自頂向下尋找dom樹的最小視覺單位,獲得多個視覺單位后,通過分析目標信息區(qū)別于非目標信息的特征檢測找出目標信息所在的視覺塊;
c.利用基于增量聚類的非模型web網(wǎng)頁信息抽取方法以獲得較好的適應性。
所述步驟a包括:
a-1.分解url結(jié)構(gòu)并將其向量化;
a-2.計算網(wǎng)頁的相似度;
a-3.對不同url元素賦予不同的權(quán)重,根據(jù)數(shù)據(jù)的更新不斷調(diào)節(jié)權(quán)重,元素的取值種類越少,此元素越是代表著網(wǎng)頁的粗分類;url元素所在位置的取值越多,代表網(wǎng)頁分類粒度越細,權(quán)重越高的元素代表網(wǎng)頁分類粒度越粗。
所述步驟a-1的具體實現(xiàn)方法如下:
基本url元素分解為服務器名稱、目錄和文件名稱;例如,url:htttp://edition.cnn.com//2014/06/06/sport/football/world-cup-franck-ribery-injured-france/index.html?hpt=isp_c2,其服務器名稱是edition.cnn.com,向量化后為{edition,cnn,edition.cnn.com},第一維表示子領(lǐng)域名稱,第二維表示主領(lǐng)域名稱,第三維表示服務器的名稱;url目錄以“/”分割,目錄2014/06/06由于表示時間,多個子目錄作為一個子目錄描述,將其向量化后為{2014/06/06,digital},目錄sport向量化后為{sport,string},其中第一維表示該子目錄本身,第二維表示子目錄的取值類型,string、digital、mix分別表示字母型、數(shù)字型、混合型;其他目錄類似地進行向量化;文件名稱為“index.html?hpt=isp_c2”,向量化后為{index,html,yes,index.html,string,yes},文件名稱特征使用一個六維向量表示,第一維表示文件名稱中點前綴字符,第二維表示點后綴字符,第三維表示文件名稱中是否有點號:yes表示有點號,no表示無點號,當文件名稱中沒有點號的時候,文件名稱特征向量的點前綴和點后綴取值為0,第四維表示文件名稱,第五維表示結(jié)尾字符串類型,最后一維表示是否有結(jié)尾參數(shù)。
所述步驟a-2的具體實現(xiàn)方法如下:
網(wǎng)頁的相似度由三個方面來判斷,分別是數(shù)據(jù)源相似性、領(lǐng)域相似性和布局相似性;數(shù)據(jù)源相似性指服務器名稱是否相似,領(lǐng)域相似性指網(wǎng)頁是否相似,布局相似性指網(wǎng)頁的布局是否相似,主要通過url中的文件名稱和目錄深度判斷,由于向量的元素都是字符串類型的,我們采用字符串的編輯距離來計算兩個向量的相似度;字符串的編輯距離,是指兩個字串之間,由一個轉(zhuǎn)成另一個所需的最少編輯操作次數(shù);許可的編輯操作包括將一個字符替換成另一個字符,插入一個字符,刪除一個字符;使用ed(s1,s2)表示字符串s1和字符串s2的編輯距離,向量v和向量w的相似度為:
式中vi和wi分別是向量v和w的第i個元素,n表示向量的大?。籹(v,w)表示向量v、w之間的相似度,l為字符串長度計算函數(shù),l(vi)表示向量的第i個元素vi的字符長度;max(l(vi),l(wi))表示求l(vi)和l(wi)中的最大值;
網(wǎng)頁相似度計算的具體步驟如下:
a-2-1.數(shù)據(jù)源相似度計算:根據(jù)式(1)中兩個向量相似度的計算方法計算數(shù)據(jù)源相似度s(dn1,dn2),dn1和dn2分別表示兩個服務器名稱的向量;
a-2-2.領(lǐng)域相似度計算:計算公式如下:
式中,s(d1,d2)表示領(lǐng)域相似度,s(subd1j,subd2j)為兩個子目錄的相似度,subd1j和subd2j分別表示兩個url中第j級子目錄的向量,j的取值從1開始,1表示最左邊的目錄,m表示兩個url中目錄深度最小值;wj為每個子目錄相似度的權(quán)重;
a-2-3.布局相似度的計算:公式如下:
st=wfs(f1,f2)+wddsdd
st表示兩個url的布局相似性,s(f1,f2)代表兩個url的文件名稱相似度,f1,f2分別表示兩個url的文件名稱向量,sdd表示目錄深度相似度,目錄深度相同取值為1,否則為0;wf,wdd分別為文件名稱和目錄深度在布局相似度計算中的權(quán)重;
a-2-4.url相似度計算:計算公式如下:
sm=wdns(dn1,dn2)+wds(d1,d2)+wtst
其中wdn+wd+wt=1,wd=∑wj,wt=wf+wdd
其中wdn,wd,wt分別表示數(shù)據(jù)源相似性、領(lǐng)域相似性和布局相似性在url相似度計算中的權(quán)重,其中wd為多級子目錄權(quán)重wj的總和。
所述步驟b包括:
b-1.利用dom識別網(wǎng)頁中的視覺單位:dom是w3c組織推薦的處理可擴展標記語言的標準編程接口,html文檔中的所有成分解析為dom后組成了一個節(jié)點樹,視覺單位的識別就是根據(jù)網(wǎng)頁的視覺特征將這些信息塊分割開,最終找到dom樹中表示這些信息塊的最小子樹;
b-2.從視覺單位中選取包含新聞正文的目標視覺塊,即對新聞正文進行抽取;對視覺單位定義了如下特征:
定義1,面積占比定義:指視覺單位面積與整個網(wǎng)頁面積的比值;視覺單位面積越大,該視覺單位包含正文的可能性越大;計算方法如下:
其中a(vu)表示該視覺單位的面積,a(page)表示整個網(wǎng)頁的面積,sa為面積占比;顯然,該信息塊面積越大,sa的值越大,包含正文的概率也就越大;
定義2,標點符號定義:視覺單位中是否包含句子結(jié)束符號,如果包含結(jié)束標點符號特征值為1用sp表示,否則為0;鏈接文本中一般不包含句子結(jié)束標點,而正文文本中基本上都包含;
定義3,鏈接文本密度定義:視覺單位中包含的鏈接文本長度與總文本長度的比值;計算方法如下:
其中l(wèi)(text)表示視覺單位中文本的長度,l(linktext)表示鏈接文本的長度,sld為鏈接文本密度;鏈接文本所占的比例越大,sld的值就越大,該視覺單位為正文部分的可能性越??;
定義4,文本密度定義:視覺單位中包含的非鏈接文本長度與總文本長度的比值;計算方法如下:
其中l(wèi)(nohyperlinktext)表示非鏈接文本的長度,std為文本密度;非鏈接文本所占的比例越大,std的值就越大,該信息塊為正文部分的可能性越大;
定義5,文本長度定義:視覺單位中包含的文本長度;計算方法如下:
其中min(l)表示視覺單位中包含的文本長度的最小值,max(l)為最大值,l(text)為當前視覺單位包含的文本長度,sl為相對文本長度;
根據(jù)以上定義,視覺單位(vu)的得分為:
score(vu)=wasa+wpsp–wldsld+wtdstd+wlsl
wa+wp+wld+wtd+wl=1
score(vu)表示視覺單位的得分,wa,wp,wld,wtd,wl分別為視覺單位面積、標點符號、鏈接文本密度、文本密度和文本長度特征的權(quán)重;通過對每個視覺單位打分,篩選出得分最高的視覺單位,認為是正文部分。
所述步驟c包括:
c-1.所述增量聚類方法的前提和假設(shè)為需要聚類的數(shù)據(jù)類型有限,簡化增量聚類的復雜性,在數(shù)據(jù)類別有限的情況下,新數(shù)據(jù)加入時能夠簡化聚類結(jié)構(gòu)變化的判斷方法,只需考慮新加入的點是否屬于已有的簇,如果屬于則將此數(shù)據(jù)歸入所屬的簇中,聚類中心不變,如果不屬于則將其存儲起來,待數(shù)量達到一定值時重新將所有數(shù)據(jù)做聚類;由于數(shù)據(jù)類型的有限性,隨著數(shù)據(jù)的不斷增加,需要重新聚類的情況會越來越少;
c-2.利用有限增量聚類方法對網(wǎng)頁新聞網(wǎng)頁進行聚類,采用的聚類方法是kmeans方法;
c-3.將新聞網(wǎng)頁特征化,并與步驟c-2得到的聚類中心對比,最后得到包含正文的domnode,信息抽取結(jié)束。
所述步驟c-2包括兩個主要內(nèi)容,kmeans方法k值的確定以及增量聚類方法的具體實現(xiàn);
c-2-1.k值的確定基于全局和局部穩(wěn)定度的評價;全局穩(wěn)定度用來衡量聚類結(jié)果簇間的相似程度,一個較好的聚類結(jié)果應該具有較大簇間距離;局部穩(wěn)定度用來衡量聚類結(jié)果簇內(nèi)是否緊湊;為了計算全局和局部穩(wěn)定度,定義了如下幾個指標:
定義6,簇內(nèi)平均距離定義:簇內(nèi)平均距離是指每個空間點到聚類中心的距離的平均;假設(shè)n個空間對象被聚類為k個簇,使用歐幾里得距離計算簇內(nèi)平均距離:
其中
定義7,簇間平均距離定義:簇間平均距離是指所有聚類中心的平均距離;假設(shè)n個空間對象被聚類為k個簇,簇間平均距離為:
其中
定義8,簇密度定義:簇密度是指簇內(nèi)包含的空間對象數(shù)與簇內(nèi)平均距離的比值;假設(shè)n個空間對象被聚類為k個簇,簇密度的值為:
其中,fi為ci的簇密度,ni和
聚類效果的評價從兩個方面進行:一是,從全局的角度考察,一個較好的聚類具有簇間低耦合的特點,用簇間平均距離與聚類個數(shù)的比值來衡量;二是,從局部的角度考慮,簇內(nèi)是否緊湊,用簇的平均密度來衡量;簇的平均密度越大說明單位距離內(nèi)簇包含的空間點越多,局部也就越穩(wěn)定;
用s表示全局穩(wěn)定度,計算方法如下:
在衡量聚類是否有效時,既要保證局部穩(wěn)定又要保證聚類全局穩(wěn)定,因此聚類有效性函數(shù)
c-2-2.增量聚類方法的具體實現(xiàn)方法如下:
定義9,隸屬度定義:假設(shè)n個空間對象被聚類為k個簇,定義空間對象p屬于簇ci的隸屬度為ci的簇內(nèi)平均距離與對象p到ci聚類中心距離的比值:
其中γi為p到簇ci的隸屬度,
增量的聚類方法過程如下:
c-2-2-1.設(shè)置增量樣本緩沖區(qū)存放待聚類的樣本;
c-2-2-2.每新來一個樣本,將其放入緩沖區(qū)中;
c-2-2-3.檢測緩沖區(qū),當緩沖區(qū)樣本數(shù)量大于一定值時,對緩沖區(qū)中每個樣本計算γi,如果存在任一個簇γi值大于等于0.5,將當前樣本加入γi值最大的簇,該簇的聚類中心不變,并將樣本從緩沖區(qū)中刪除,否則不做任何動作;
c-2-2-4.當緩沖區(qū)中所有的樣本都不能被歸入到已有簇時,將所有樣本重新做一次聚類;
步驟c-2-2-3中提到的簇的聚類中心不變是為了防止新加入的對象改變聚類結(jié)構(gòu),對于新加入的數(shù)據(jù),不屬于已有聚類的樣本放在緩沖區(qū)中,這種樣本屬于新的簇,等數(shù)量達到一定量后,再將所有數(shù)據(jù)重新聚類一次,達到一次全部調(diào)整的效果。
本發(fā)明的方法,與現(xiàn)有技術(shù)相比,具有以下突出的實質(zhì)性特點和顯著優(yōu)點:
一、基于url結(jié)構(gòu)過濾的非監(jiān)督聚焦爬蟲相較于基于內(nèi)容的聚焦爬蟲,可以達到更高的收獲率和執(zhí)行效率,相較于基于url分析的爬蟲,本發(fā)明在不需要用戶提供樣本的同時,可以達到同樣的效果。
二、基于視覺特征的網(wǎng)頁分割算法都部分依賴于html標簽,本發(fā)明提出的基于視覺單位的新聞正文抽取方法,其中視覺單位識別時所用的規(guī)則獨立于html標簽。
三、本發(fā)明提出的基于增量聚類的非模型web信息抽取方法是一種數(shù)據(jù)驅(qū)動的方法,不需要構(gòu)建抽取模型,通過數(shù)據(jù)的對比就可以準確抽取出目標信息,該方法克服了傳統(tǒng)網(wǎng)頁信息抽取中針對不同的網(wǎng)站制作不同的包裝器的缺點,提高了抽取方法的適應能力。
附圖說明
圖1為非監(jiān)督的權(quán)重調(diào)節(jié)機制的權(quán)重調(diào)節(jié)過程圖。
圖2為視覺單位識別過程圖。
圖3為基于增量聚類的非模型信息抽取方法的新聞正文抽取過程圖。
具體實施方式
以下結(jié)合附圖對本發(fā)明的具體實施做進一步詳細說明。
圖1展示了基于url結(jié)構(gòu)過濾的非監(jiān)督的聚焦爬蟲對url中各元素權(quán)重的調(diào)節(jié)過程。權(quán)重的計算過程如下。
a.權(quán)重初始化,為每個url元素權(quán)重設(shè)定初始值。
b.根據(jù)設(shè)定的權(quán)重計算url的相似度,并指導爬蟲的執(zhí)行。
c.在獲得一定量的url數(shù)據(jù)后,對權(quán)重進行更新,回到步驟2.
步驟a的實現(xiàn)方法如下。
首先為每個url元素權(quán)重設(shè)定初始值,獲得一定量url數(shù)據(jù)用于統(tǒng)計url元素的權(quán)重。初始值的設(shè)定遵循元素位置越往左越能代表網(wǎng)頁粗分類的大致規(guī)律,其值為:
其中k表示url中子目錄的個數(shù),w0位服務器名稱的權(quán)重,w1到wk依次為url中子目錄的權(quán)重。權(quán)重參數(shù)wf、wdd和wt的初始值根據(jù)經(jīng)驗值給出。
步驟c是權(quán)重更新機制,具體的操作方法如下。
獲得一定量數(shù)據(jù)后,將統(tǒng)計每個元素出現(xiàn)的頻率記為word_pv。當word_pv小于γ時舍棄。統(tǒng)計每個元素的權(quán)重為:
其中word_pvj是指大于γ的詞的頻率,i,k的含義如前所述,n表示第i個元素所在位置上詞頻大于γ的詞數(shù),num(url)表示爬蟲獲取的url總數(shù)。權(quán)重更新完成后將所有權(quán)重歸一化,用于url相似度的計算。
從公式中可以看出,當越多的高頻詞出現(xiàn)在元素位置上的時候,此元素的權(quán)重值就越大,代表此元素代表網(wǎng)頁的分類粒度越粗。
圖2是視覺單位識別的流程圖。其具體步驟如下。
a.通過爬蟲獲得web網(wǎng)頁上的網(wǎng)頁數(shù)據(jù)。
b.通過網(wǎng)頁解析獲得web網(wǎng)頁中最大的dom節(jié)點。
c.判斷該節(jié)點是否可分割,判斷的方法由網(wǎng)頁的分割規(guī)則確定。
d.如果不可再分,將其存入視覺單位庫。
e.如果可分則獲得其孩子節(jié)點繼續(xù)以上過程,直到?jīng)]有不可分割的dom節(jié)點為止。
其中節(jié)點的分為文本節(jié)點和連接節(jié)點,分別定義如下。
定義10文本節(jié)點定義:定義dom樹節(jié)點中的文本節(jié)點為非鏈接文本長度與文本長度比值(即文本密度)大于一定閾值a的dom節(jié)點。如果一個dom樹節(jié)點的所有孩子節(jié)點都是文本節(jié)點,則此dom樹節(jié)點也是文本節(jié)點。
定義11鏈接節(jié)點定義:鏈接節(jié)點是指錨文本密度超過一定閾值β的dom節(jié)點,其中錨文本密度是指鏈接文本與節(jié)點中所有文本的比值。如果一個dom樹節(jié)點的所有孩子節(jié)點都是鏈接節(jié)點,則此dom樹節(jié)點也是鏈接節(jié)點。
本發(fā)明中的文本節(jié)點和鏈接節(jié)點的定義獨立于html標簽,有利于提高網(wǎng)頁正文抽取系統(tǒng)的通用性。
步驟c涉及的分割規(guī)則如下:
規(guī)則1:如果當前dom節(jié)點的文本長度為0,則刪除此節(jié)點。
規(guī)則2:dom節(jié)點的背景顏色:如果當前節(jié)點的孩子節(jié)點中有一個節(jié)點的背景顏色與其他節(jié)點背景顏色不同,那么將分割該dom節(jié)點。
規(guī)則3:節(jié)點字體顏色:如果當前節(jié)點的孩子節(jié)點中有一個節(jié)點的字體顏色與其它節(jié)點不同,那么將分割該dom節(jié)點。
規(guī)則4:如果當前節(jié)點的孩子節(jié)點都是文本節(jié)點,則不再分割此節(jié)點。
規(guī)則5:如果當前節(jié)點的孩子節(jié)點都是鏈接節(jié)點,則不再分割此節(jié)點。
圖3是利用增量聚類的非模型信息抽取方法對新聞正文進行抽取的流程圖,具體的實現(xiàn)步驟如下。
由圖可知,其過程分為聚類和正文抽取兩個階段。聚類階段的具體步驟如下。
a.從新聞網(wǎng)頁中獲取訓練樣本。
b.將訓練樣本進行特征化表示。
c.利用特征化表示后的訓練樣本進行kmeans聚類并得到聚類中心。
其中在特征化的過程中,考慮了新聞正文的5個特征:
(1)文本長度,即dom樹節(jié)點內(nèi)包含的文本字符串長度。新聞網(wǎng)站中,根據(jù)新聞類型的不同新聞正文部分有長有短。
(2)平均段落文本長度,即正文文本長度與段落個數(shù)的比值。一般,不同類型的新聞網(wǎng)頁,不同的作者,新聞正文部分段落平均文本長度也不同。同時,此特征還可以區(qū)分新聞正文部分和用戶評論信息,用戶評論信息的平均文本長度一般較短。
(3)鏈接文本長度,指dom樹節(jié)點中包含的超鏈接中錨文本的長度,主要用來區(qū)分正文部分與導航欄、推薦閱讀等信息。
(4)圖片個數(shù),此特征表示dom樹節(jié)點中包含的圖片個數(shù),在新聞網(wǎng)站中,不同類型的新聞正文部分包含圖片的個數(shù)也是不同的。
(5)句號個數(shù),指dom樹節(jié)點中文本包含的句號個數(shù)。在新聞正文抽取過程中,一些短新聞容易和一些包含少量文字的非正文節(jié)點混淆,利用句號個數(shù)這一特征在一定程度上可以區(qū)分這種情況。
本發(fā)明采用以上這五個特征來量化網(wǎng)頁總dom樹節(jié)點。然后利用kmeans算法將其聚類。
正文抽取階段的具體步驟如下。
a.對獲得的新聞網(wǎng)頁進行預處理。將網(wǎng)頁中與新聞正文沒有關(guān)系的dom樹節(jié)點去掉,如腳本標簽。根據(jù)超鏈接個數(shù)所占比例刪除一些只包含超鏈接的節(jié)點。經(jīng)過網(wǎng)頁預處理后刪除一些候選節(jié)點。
b.將網(wǎng)頁特征化。將候選節(jié)點按照上述五個特征計算特征值,用向量的形式表示。
c.將特征向量與聚類過程得到的聚類中心進行對比,得到包含正文的dom節(jié)點。
其中步驟c的具體實現(xiàn)方法如下。
c-1.依次計算每個候選節(jié)點pj到簇cj的隸屬度γij,(i為從1到k的整數(shù),j為1到m的整數(shù)),選取γij的最大值γj_max。當γj_max大于或等于0.5時將此候選節(jié)點和γj_max加入到集合d中。當γj_max小于0.5時舍棄該候選節(jié)點。
c-2.將集合d中的候選節(jié)點按照隸屬度排序,取隸屬度最大的節(jié)點。
c-3.判斷按隸屬度排序后的節(jié)點序列是否前一個節(jié)點為后一個節(jié)點的父節(jié)點,即是否依次嵌套,找到最小的嵌套點作為正文節(jié)點輸出。