專利名稱:一種多視圖網(wǎng)絡(luò)垃圾頁面檢測方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種多視圖網(wǎng)絡(luò)垃圾頁面檢測方法,屬于internet信息檢索領(lǐng)域。
背景技術(shù):
部分網(wǎng)站擁有者為獲取商業(yè)利益,采用不正當(dāng)手段欺騙搜索引擎網(wǎng)站排序算法, 使不重要網(wǎng)站或頁面排序靠前,破壞引擎搜索結(jié)果。其相關(guān)技術(shù)有搜索引擎優(yōu)化(SEO)及搜索引擎市場(SEM)等,統(tǒng)稱為搜索引擎spam,即ffeb spam(網(wǎng)絡(luò)垃圾頁面)。目前Web spam已成為各種Web搜索面臨的重要挑戰(zhàn),嚴(yán)重影響信息檢索效果,同時ffeb spam發(fā)展迅速,新的spamming技術(shù)不斷出現(xiàn)。Web spam主要三種表現(xiàn)形式基于內(nèi)容、鏈接(link)及頁面隱藏。目前檢測spam頁面的方法多采用啟發(fā)式函數(shù),檢測特定形式的spam頁面,不能同時檢測多種spam頁面,檢測時間復(fù)雜度高,同時對訓(xùn)練數(shù)據(jù)的不平衡性敏感。所謂訓(xùn)練數(shù)據(jù)不平衡是指在訓(xùn)練數(shù)據(jù)中正常頁面的數(shù)量要遠(yuǎn)大于spam頁面的數(shù)量。Web頁面數(shù)量為海量數(shù)據(jù),人工標(biāo)注頁面為正常頁面還是spam頁面費時費力,只能人工標(biāo)注部分頁面,用標(biāo)注好的頁面訓(xùn)練分類器,對大量的未標(biāo)注頁面進行機器標(biāo)注,即用學(xué)習(xí)好的分類器將未標(biāo)注的頁面檢測為正常頁面或spam頁面。檢測spam頁面的主要技術(shù)手段有依據(jù)頁面內(nèi)容的方法、基于link的方法、統(tǒng)計方法及圖論方法等?;趦?nèi)容的spam檢測依據(jù)spam頁面內(nèi)容特征,采用啟發(fā)式函數(shù)對其檢測,難以形成統(tǒng)一模型。有些方法通過應(yīng)用統(tǒng)計技術(shù),分析頁面關(guān)鍵詞分布檢測spam頁面, 可用于解決因重復(fù)關(guān)鍵字、修改頁面內(nèi)容等對搜索結(jié)果頁面排序的改變;基于鏈接的搜索引擎頁面排序算法如I^ageRank及HITS,由于忽略了頁面內(nèi)容對頁面排序的影響,也可以用來檢測基于內(nèi)容的spam頁面。應(yīng)用機器學(xué)習(xí)方法在檢測內(nèi)容spam頁面時,首先提取頁面內(nèi)容特征,再使用分類技術(shù)實現(xiàn)頁面檢測?;阪溄拥捻撁媾判蛩惴ㄔ谒阉饕嬷械玫綇V泛應(yīng)用,可用于檢測基于link的 spam頁面。啟發(fā)式方法有二分圖方法,依據(jù)link鄰接矩陣中是否存在相關(guān)子圖判斷鏈接是否為link spam。另外,通過分析統(tǒng)計上不尋常的鏈接結(jié)構(gòu)及新的頁面排序算法可檢測 link spam 頁面。近年來,機器學(xué)習(xí)技術(shù)在ffeb spam檢測方面得到應(yīng)用,通過提取頁面特征,訓(xùn)練分類器,獲得較好的檢測性能。但當(dāng)數(shù)據(jù)維數(shù)較大時,都存在如下問題對訓(xùn)練數(shù)據(jù)的不平衡性敏感、不能同時檢測多種不同的spam頁面以及檢測時間復(fù)雜度高的問題。傳統(tǒng)分類器如決策樹、神經(jīng)網(wǎng)絡(luò)及支持向量機等都假設(shè)訓(xùn)練數(shù)據(jù)中屬于不同類的數(shù)據(jù)基本平衡,即各類數(shù)據(jù)的數(shù)量差異不大。研究表明,一旦當(dāng)各類數(shù)量差異較大時,尤其對于兩類問題,當(dāng)一類數(shù)據(jù)的數(shù)量遠(yuǎn)多于另一類數(shù)據(jù)的數(shù)量時,通過學(xué)習(xí)得到的分類器,對數(shù)量少的那一類(少數(shù)類)的分類準(zhǔn)確度將會大大降低。提高少數(shù)類的分類準(zhǔn)確度往往意義更大。Spam頁面數(shù)據(jù)較少,也就是說,我們收集的頁面中絕大部分都是正常頁面,而少數(shù)為spam頁面,降低訓(xùn)練數(shù)據(jù)不平衡對分類器的影響對提高spam頁面的識別率特別重要。
發(fā)明內(nèi)容
本發(fā)明的目的就是為了解決上述問題,提供一種多視圖web spam檢測方法,該方法只需依據(jù)訓(xùn)練數(shù)據(jù)學(xué)習(xí)權(quán)重矩陣,不需要訓(xùn)練分類器,所以具有對訓(xùn)練數(shù)據(jù)不平衡性不敏感特點;該方法可同時檢測多類spam頁面,優(yōu)于現(xiàn)有只針對特定spam頁面檢測有效的方法;檢測過程簡單,只需要根據(jù)訓(xùn)練數(shù)據(jù)學(xué)習(xí)到權(quán)重矩陣、計算范數(shù)的差,依據(jù)范數(shù)差的大小決定新頁面識別為正常頁面還是spam頁面。為了實現(xiàn)上述目的,本發(fā)明采用如下技術(shù)方案一種多視圖web spam檢測方法,該方法包括如下步驟步驟1 首先獲取訓(xùn)練數(shù)據(jù)中所有正常頁面和spam頁面的內(nèi)容視圖及鏈接視圖;步驟2 然后獲取待檢測頁面的內(nèi)容視圖及鏈接視圖;步驟3 將步驟1中所有正常頁面的內(nèi)容視圖及鏈接視圖各自構(gòu)造矩陣,得到正常內(nèi)容矩陣和正常鏈接矩陣;步驟4:將步驟1中所有spam頁面的內(nèi)容視圖及鏈接視圖各自構(gòu)造矩陣,得到 spam內(nèi)容矩陣及spam鏈接矩陣;步驟5 用待檢測頁面的內(nèi)容視圖及鏈接視圖各自構(gòu)造矩陣,得到待檢測內(nèi)容矩陣及待檢測鏈接矩陣;步驟6 利用正常內(nèi)容矩陣和待檢測內(nèi)容矩陣求解權(quán)重矩陣W_,利用spam內(nèi)容矩陣及待檢測內(nèi)容矩陣求解權(quán)重矩陣W+ ;步驟7 利用正常鏈接矩陣及權(quán)重矩陣W_求解近似矩陣B1,利用spam鏈接矩陣及權(quán)重矩陣w+求解近似矩陣化;步驟8 利用步驟7中的近似矩陣B1和待檢測鏈接矩陣求解正常范數(shù)E1,利用近似矩陣4和待檢測鏈接矩陣求解spam范數(shù)E+ ;步驟9 比較正常范數(shù)E1與spam范數(shù)E+的大?。蝗粽7稊?shù)小于spam范數(shù),則待檢測頁面為正常頁面;若正常范數(shù)大于spam范數(shù),則待檢測頁面為spam頁面;若兩者相等,則待檢測頁面隨機識別為正常頁面或spam頁面;步驟10 如果待檢測頁面被識別為正常頁面,就被保留下來,否則將待檢測頁面從頁面庫中刪除,檢測結(jié)束。 所述的步驟6中,求解權(quán)重矩陣I的公式如下min| I [AJ-[AJlI I2s. t. IIiII2 = I公式表示在滿足約束條件I |W_| I2 = 1的情況下,求解使得I I [AX]-[AJW_| I2取得最小值的權(quán)重矩陣w_;該最小化表示通過權(quán)重W-與[A_]構(gòu)造出的內(nèi)容矩陣[A_]W_與待測頁面的內(nèi)容矩陣[AJ間的差異性盡可能小。所述的步驟6中,求解權(quán)重矩陣W+的公式如下min| | [Aj-[AjffJ |2s. t. IW +1 12 = 1公式表示在滿足約束條件IffJI2 = I的情況下,求解使得I I [AJ-[AJffJ I2取得最小值的權(quán)重矩陣W+;該最小化表示通過權(quán)重W+與[AJ構(gòu)造出的內(nèi)容矩陣[AJW+與待測頁面P的內(nèi)容矩陣[AJ間的差異性盡可能小。
所述的步驟7中,計算近似矩陣B1和化的公式如下B1 = [Bjff_ (1)B2 = [B+]ff+ (2)公式(1)通過變換矩陣W_和[B_]計算待檢測頁面的近似矩陣B1 ;公式( 通過變換矩陣W+和[BJ計算待檢測頁面的近似矩陣4。所述的步驟8中,求解正常范數(shù)E_和spam范數(shù)E+公式如下E_ = I I [Bj-Bj I2 ;E+ = I I [BJ-B2I I2 ;范數(shù)的大小表示兩個近似矩陣與待檢測鏈接矩陣差異性的大小,范數(shù)越大,表示近似矩陣與待檢測鏈接矩陣差異性越大;反之范數(shù)越小,表示近似矩陣與待檢測鏈接矩陣差異性越小。本發(fā)明的有益效果本發(fā)明提出了一種多視圖spam頁面檢測方法,因其可以同時檢測多種類型spam頁面,從而提高了檢測的效率;同時本發(fā)明不需要訓(xùn)練分類器,從而避免了訓(xùn)練數(shù)據(jù)的不平衡對分類效果的影響,檢測算法對數(shù)據(jù)不平衡不敏感。
圖1為訓(xùn)練數(shù)據(jù)的視圖轉(zhuǎn)換成矩陣;圖2為待檢測頁面的視圖轉(zhuǎn)換成矩陣;圖3a為求解權(quán)重矩陣I的過程;
圖北為求解權(quán)重矩陣W+的過程圖如為近似矩陣B1計算;圖4b為近似矩陣化計算;圖5為頁面檢測過程。
具體實施例方式下面結(jié)合附圖與實施例對本發(fā)明作進一步說明。本發(fā)明的目的在于提供一種面向多種spam頁面的通用檢測方法。為實現(xiàn)上述目的,本發(fā)明的技術(shù)解決方案是提出了頁面特征多視圖表示的方法, 與傳統(tǒng)的頁面特征表示方法不同。本方法采用兩視圖表示一個頁面,所述的兩視圖表示,是指對同一個web頁面,既采用基于內(nèi)容的特征向量表示(稱為內(nèi)容視圖),又采用基于超鏈接的特征向量表示(稱為鏈接視圖),即一個頁面對應(yīng)兩個視圖,分別稱為內(nèi)容視圖及鏈接視圖。所述的訓(xùn)練數(shù)據(jù)是指已經(jīng)明確標(biāo)記為正常的頁面數(shù)據(jù)及spam的頁面數(shù)據(jù)。訓(xùn)練數(shù)據(jù)中標(biāo)記為正常的所有頁面的內(nèi)容視圖構(gòu)成正常內(nèi)容矩陣,記為[AJ,訓(xùn)練數(shù)據(jù)中標(biāo)記為正常的所有頁面的鏈接視圖構(gòu)成正常鏈接矩陣,記為[B_];訓(xùn)練數(shù)據(jù)中標(biāo)記為spam的所有頁面的內(nèi)容視圖構(gòu)成spam內(nèi)容矩陣,記為[A+],訓(xùn)練數(shù)據(jù)中標(biāo)記為spam的所有頁面的鏈接視圖構(gòu)成spam鏈接矩陣,記為[B+],如圖1所示;每個待檢測的頁面P的內(nèi)容視圖構(gòu)成待檢測內(nèi)容矩陣,記為[Αχ],每個待檢測頁面P的鏈接視圖構(gòu)成待檢測鏈接矩陣,記為[Βχ],如圖2所示。通過[AJ及[AJ視圖通過矩陣變換的方式,分別構(gòu)建出[Αχ],學(xué)習(xí)得到對應(yīng)的變換矩陣I和W+,如圖3a和北所示;通過變換矩陣I及[B_],構(gòu)造出待檢測頁面近似矩陣B1,通過變換矩陣W+及[B+]構(gòu)造出待檢測頁面近似矩陣B2,如圖如和4b所示。具體構(gòu)造方法如下詳細(xì)說明。然后計算矩陣&及化與[Bx]差的模,并由兩個模的大小,決定將待檢測頁面P識別為正常頁面還是spam頁面。以下對本發(fā)明中變換矩陣I和W+的學(xué)習(xí)及近似矩陣的構(gòu)造作進一步說明。具體包括1 學(xué)習(xí)變換矩陣I和W+通過下面方法求解變換矩陣W_ min| I [AJ-[AJlI I2 (1)s. t. IIiII2 = I公式(1)表示在滿足約束條件ι III I2 = 1的情況下,求解使得I I [AJ-[AJffJ I2 取得最小值的權(quán)重矩陣I。該最小化表示通過權(quán)重W_與[AJ構(gòu)造出的內(nèi)容矩陣[幻1_與待測頁面P的內(nèi)容矩陣[AJ間的差異性盡可能小。通過下面方法求解變換矩陣W+min| | [Aj-[AjffJ |2(2)s. t. IW +1 12 = 1公式(2)表示在滿足約束條件I |ff+| I2 = 1的情況下,求解使得I I [AJ-[AJffJ I2 取得最小值的權(quán)重矩陣W+。該最小化表示通過權(quán)重W+與[A+]構(gòu)造出的內(nèi)容矩陣[A+]W+與待測頁面P的內(nèi)容矩陣[AJ間的差異性盡可能小。2:計算近似矩陣B1和化
通過下面的方法計算B1和化B1 = [B_]W_ (3)B2 = [B+]ff+ (4)公式( 通過變換矩陣I和[B_]計算待檢測頁面P的待檢測頁面近似矩陣B1 ;公式(4)通過變換矩陣W+和[BJ計算待檢測頁面P的待檢測頁面近似矩陣化。3 計算待檢測頁面P的待檢測鏈接矩陣[Bx]與B1和化差矩陣的范數(shù)計算范數(shù)&= I I [BJ-B1 12及范數(shù)E+= I I [BJ-B2 |2。范數(shù)的大小表示兩個近似矩陣與待檢測鏈接矩陣差異性的大小。范數(shù)越大,表示近似矩陣與待檢測鏈接矩陣差異性越大;反之范數(shù)越小,表示近似矩陣與待檢測鏈接矩陣差異性越小。4:決定頁面P的歸類如果E > E+,則將P頁面識別為spam頁面;如果E_ < E+,則將P頁面識別為正常頁面;如果E_ = E+則將P頁面隨機識別為二者之一,如圖5所示。如果頁面P被識別為正常頁面,就被保留下來,否則將P從頁面庫中刪除。上述雖然結(jié)合附圖對本發(fā)明的具體實施方式
進行了描述,但并非對本發(fā)明保護范圍的限制,所屬領(lǐng)域技術(shù)人員應(yīng)該明白,在本發(fā)明的技術(shù)方案的基礎(chǔ)上,本領(lǐng)域技術(shù)人員不需要付出創(chuàng)造性勞動即可做出的各種修改或變形仍在本發(fā)明的保護范圍以內(nèi)。
權(quán)利要求
1.一種多視圖web spam檢測方法,其特征是,該方法包括如下步驟步驟1 首先獲取訓(xùn)練數(shù)據(jù)中所有正常頁面和spam頁面的內(nèi)容視圖及鏈接視圖; 步驟2 然后獲取待檢測頁面的內(nèi)容視圖及鏈接視圖;步驟3 將步驟1中所有正常頁面的內(nèi)容視圖及鏈接視圖各自構(gòu)造矩陣,得到正常內(nèi)容矩陣和正常鏈接矩陣;步驟4 將步驟1中所有spam頁面的內(nèi)容視圖及鏈接視圖各自構(gòu)造矩陣,得到spam內(nèi)容矩陣及spam鏈接矩陣;步驟5 用待檢測頁面的內(nèi)容視圖及鏈接視圖各自構(gòu)造矩陣,得到待檢測內(nèi)容矩陣及待檢測鏈接矩陣;步驟6 利用正常內(nèi)容矩陣和待檢測內(nèi)容矩陣求解權(quán)重矩陣評_,利用spam內(nèi)容矩陣及待檢測內(nèi)容矩陣求解權(quán)重矩陣W+ ;步驟7 利用正常鏈接矩陣及權(quán)重矩陣I求解近似矩陣B1,利用spam鏈接矩陣及權(quán)重矩陣W+求解近似矩陣化;步驟8 利用步驟7中的近似矩陣B1和待檢測鏈接矩陣求解正常范數(shù)E_,利用近似矩陣 B2和待檢測鏈接矩陣求解spam范數(shù)E+ ;步驟9 比較正常范數(shù)E_與spam范數(shù)E+的大小;若正常范數(shù)小于spam范數(shù),則待檢測頁面為正常頁面;若正常范數(shù)大于spam范數(shù),則待檢測頁面為spam頁面;若兩者相等,則待檢測頁面隨機識別為正常頁面或spam頁面;步驟10 如果待檢測頁面被識別為正常頁面,就被保留下來,否則將待檢測頁面從頁面庫中刪除,檢測結(jié)束。
2.如權(quán)利要求書1所述的一種多視圖webspam檢測方法,其特征是,所述的步驟6中, 求解權(quán)重矩陣W_的公式如下min| I [AJ-[A_]l I 2 s. t. IIiII2 = I公式表示在滿足約束條件I |w_| I2 = ι的情況下,求解使得11 [Ax]-[A_]w_| I2取得最小值的權(quán)重矩陣w_;該最小化表示通過權(quán)重W-與[A+]構(gòu)造出的內(nèi)容矩陣[AJ W_與待測頁面的內(nèi)容矩陣[AJ間的差異性盡可能小。
3.如權(quán)利要求書1所述的一種多視圖webspam檢測方法,其特征是,所述的步驟6中, 求解權(quán)重矩陣W+的公式如下min| I [AJ-[AJffJ 2 S. t. ι |w+ I2 = ι公式表示在滿足約束條件I |w+| I2 = ι的情況下,求解使得11 [AX]-[A+]W+| I2取得最小值的權(quán)重矩陣W+;該最小化表示通過權(quán)重W+與[A+]構(gòu)造出的內(nèi)容矩陣[A+] W+與待測頁面的內(nèi)容矩陣[AJ間的差異性盡可能小。
4.如權(quán)利要求書1所述的一種多視圖webspam檢測方法,其特征是,所述的步驟7中, 計算近似矩陣B1和化的公式如下B1 = [B_]l (1) B2 = [B+] W+ (2)公式(1)通過變換矩陣W_和[BJ計算待檢測頁面的近似矩陣B1 ;公式( 通過變換矩陣W+和[BJ計算待檢測頁面的近似矩陣4。
5.如權(quán)利要求書1所述的一種多視圖web spam檢測方法,其特征是,所述的步驟8中, 求解正常范數(shù)E_和spam范數(shù)E+公式如下E-= ![BJ-B1M2;E+= I I [BJ-B2I I2;范數(shù)的大小表示兩個近似矩陣與待檢測鏈接矩陣差異性的大小,范數(shù)越大,表示近似矩陣與待檢測鏈接矩陣差異性越大;反之范數(shù)越小,表示近似矩陣與待檢測鏈接矩陣差異性越小。本發(fā)明公開了提供一種多視圖web spam檢測方法,該方法包括如下步驟首先獲取訓(xùn)練數(shù)據(jù)中所有正常頁面和spam頁面的兩視圖;然后獲取待檢測頁面的兩視圖;對獲得的兩視圖各自構(gòu)造矩陣;求出正常范數(shù)及spam范數(shù);比較正常范數(shù)與spam范數(shù)的大小;若正常范數(shù)小于spam范數(shù),則待檢測頁面為正常頁面;若正常范數(shù)大于spam范數(shù),則待檢測頁面為spam頁面;若兩者相等,則待檢測頁面隨機識別為正常頁面或spam頁面。它具有對訓(xùn)練數(shù)據(jù)不平衡性不敏感、可同時檢測多種spam頁面及檢測過程簡單等優(yōu)點。
全文摘要
本發(fā)明公開了提供一種多視圖webspam檢測方法,該方法包括如下步驟首先獲取訓(xùn)練數(shù)據(jù)中所有正常頁面和spam頁面的兩視圖;然后獲取待檢測頁面的兩視圖;對獲得的兩視圖各自構(gòu)造矩陣;求出正常范數(shù)及spam范數(shù);比較正常范數(shù)與spam范數(shù)的大??;若正常范數(shù)小于spam范數(shù),則待檢測頁面為正常頁面;若正常范數(shù)大于spam范數(shù),則待檢測頁面為spam頁面;若兩者相等,則待檢測頁面隨機識別為正常頁面或spam頁面。它具有對訓(xùn)練數(shù)據(jù)不平衡性不敏感、可同時檢測多種spam頁面及檢測過程簡單等優(yōu)點。
文檔編號G06F17/30GK102521369SQ20111042470
公開日2012年6月27日 申請日期2011年12月16日 優(yōu)先權(quán)日2011年12月16日
發(fā)明者張化祥 申請人:山東師范大學(xué)