專利名稱:一種中文網(wǎng)頁語義過濾方法
技術領域:
本發(fā)明涉及一種中文網(wǎng)頁語義過濾方法,屬人工智能領域。
背景技術:
隨著互聯(lián)網(wǎng)的飛速發(fā)展,網(wǎng)絡在成為人們獲取信息源泉的同時,網(wǎng)頁上的不良信息隨之泛濫,如何進行信息的監(jiān)控和過濾成為了新的研究課題?,F(xiàn)今流行的過濾軟件多采用網(wǎng)址數(shù)據(jù)庫匹配和網(wǎng)頁內(nèi)容關鍵詞統(tǒng)計等實時過濾技術。這些方法雖然簡單有效,但是由于僅基于文本的簡單匹配而忽略了中文自然語言詞語的多義性和語義約束,無法有效識別網(wǎng)頁的語義傾向性信息,有時會出現(xiàn)誤判和漏判,降低了過濾的準確率。對此,本發(fā)明提出了一種基于文本語義的網(wǎng)頁過濾技術,使用貝葉斯分類算法分析網(wǎng)頁特征,并對攔截的領域網(wǎng)頁結(jié)合領域本體進一步計算語義相關度并決定是否屏蔽該網(wǎng)頁。貝葉斯分類算法改進了文本的匹配方式,原理簡單,健壯性強,算法速度快。本體作為領域的知識庫,可以有效表示領域的語義信息,并進行文本語義相似度計算。發(fā)明內(nèi)容
本發(fā)明提出并實現(xiàn)了一種中文網(wǎng)頁語義過濾方法,該方法能有效并高速地過濾不良網(wǎng)頁,滿足用戶的使用需求。
本發(fā)明通過下述技術方案完成
本體。
(1)利用代理服務器機制,為瀏覽器配置改進后的代理服務器,實現(xiàn)網(wǎng)頁的抓取。(2)根據(jù)正例網(wǎng)頁和反例網(wǎng)頁計算特征詞的權重,建立領域特征詞庫并制作領域(3)根據(jù)正例文本計算本體元素在網(wǎng)頁各部分的權重,得到本體元素權重庫。(4)從網(wǎng)絡應用層截取網(wǎng)頁,根據(jù)貝葉斯分類算法確定候選網(wǎng)頁(5)對候選網(wǎng)頁進行語義相關度計算并進行網(wǎng)頁過濾,獲得過濾后的網(wǎng)頁。
所述步驟(I)代理服務器的配置具體配置過程為
在windows操作系統(tǒng)中,打開瀏覽器,選擇工具-> 選項-> 網(wǎng)絡連接-> 代理服務器設置_>設置本地代理服務器的ip和端口如本例(127.0.0. I 808)。那么瀏覽器程序就會在提交請求時,將請求發(fā)送到本地的808端口,在本地啟動一個監(jiān)聽808端口的代理服務器程序,將所有的處理寫在代理服務器程序中,這樣就能順利的截獲到本地所請求的 Internet頁面,并且傳送給自然語言處理模塊分析處理。
腳本代理的具體內(nèi)容如下 function FindProxyForURL(url, host){url = url.toLowerCase O ; host = host. toLowerCase ();if(shExpMatch (url, “*· css*”)){return “DIRECT”;}
if(shExpMatch (url,*· jpg*,,)){return“DIRECT,,;}
if(shExpMatch (url,木.gif*,,)) {return“DIRECT,,;}
if(shExpMatch (url,*· js*”)){return “DIRECT”
if(shExpMatch (url,氺· png氺,,)){return“DIRECT,,;}
if(shExpMatch (url,*· swf*,,)){return“DIRECT,,;}
if(shExpMatch (url,*· ico*,,)){return“DIRECT,,;}
if(shExpMatch(url,**· flv*,,)){return“DIRECT,,;}
return “PROXY localhost :808” ;
}其要表達的意思是如果網(wǎng)頁中URL中存在” .css ” “. jpg” “. gif “. js ” “. png”“. swf”“.1co”等字樣,貝U直接讓瀏覽器訪問internet,而其他的url就會將請求發(fā)送到localhost :808。因為對于用戶來說,希望得到一個流暢的網(wǎng)頁瀏覽速度以及高效的網(wǎng)頁過濾效果,以上代理服務器的修改能夠讓如css, jpg, js, script等與自然語言過濾無關的http請求直接訪問internet,而相關的頁面的請求,需要瀏覽器發(fā)送到代理服務器,經(jīng)由代理服務器,向internet請求,并且這部分的內(nèi)容會被過濾系統(tǒng)檢查,并返回給用戶。在理想狀態(tài)下,系統(tǒng)給每一個網(wǎng)頁都只會分配線程,這個線程就是瀏覽器向代理服務器提出的訪問web page的請求,由于其他的請求都經(jīng)由配置文件設定,由瀏覽器直接從internet 處獲得,所以只需要再從代理服務器端獲得webpage,就可正常顯示這個頁面。
這種改進不僅降低了代理服務器端的工作壓力,而且有效縮短了用戶的頁面等待時間,保證網(wǎng)頁瀏覽的流暢性,不會造成用戶頁面需要顯示的元素丟失的情況。
所述步驟(2)特征詞權重的計算和領域本體的建立過程具體如下
1.領域特征詞提取
A.網(wǎng)頁爬蟲
采用htmlCleaner為分析工具,根據(jù)用戶輸入的初始搜索頁面進行鏈接的提取和頁面的搜索。
B.網(wǎng)頁正文信息提取
根據(jù)爬蟲所獲得的網(wǎng)頁的URL,對網(wǎng)頁進行解析。提取出該網(wǎng)頁的編碼格式,并以此為依據(jù),分析出其網(wǎng)頁其他標簽,如MetaDescription, MetaKeyfford, title, image...等等信息,剔除網(wǎng)頁的無用信息,提取出網(wǎng)頁的正文內(nèi)容。
C.文本信息進行預處理
在文本中,詞是最小的能夠獨立活動的有意義的詞語成分。在領域詞匯提取過程中,利用中科院ICTCLAS系統(tǒng)對領域文本集進行分詞及詞性標注,接著去除停用詞,例如 “是”、“的”、“與”這些無用的高頻詞。最后去除數(shù)量詞并進行單字合并,合并后的新詞作為候選的領域術語。
2.計算候選詞語的C-value值和TF-1DF值確定候選詞并建立領域特征詞庫
A. C-value 值計算
通過單字合并法得到大量的領域的候選詞仍舊包含與領域無關的詞語,甚至還包含了一些沒有任何意義的詞語,通過計算每個候選術語的C-value值的方法,對候選術語的C-value值進行排序,設定閾值對候選術語進行過濾,選出有實際漢語意思的詞。C-value的定義為
①如果詞a沒有任何可能在文檔中與其他單字或詞組成新的合并詞,那么它的 C-value值的計算公式如下公式(I)
C-value (a) = log2g (a) X f (a)(I)
②如果詞a在文檔中與其他單字或詞有可能組成新的合并詞,那么它的C-value 值計算公式如公式(2):
C-value (a) = log2g (a) X (f (a) -1/p (Ta) XEbe Taf (b))(2)
其中,a為詞;g(a)為詞a所包含的單字個數(shù);f(a)為候選術語a在文本語料中出現(xiàn)的次數(shù);Ta為包含詞a的更長的合并詞;p(Ta)為那些由詞a和單字組成的新的合并詞的個數(shù);Σ b e Taf (b)為那些由詞a和單字組成的新的合并詞出現(xiàn)的總次數(shù)。
一個候選詞語的C-value值越大,那么它成為一個詞的可能性越大。
B. TF-1DF 值計算
由于C-value本身只能對詞的正確性進行一定的篩選,缺乏對詞是否是領域類別信息的處理,無法將與領域無關的詞排除在語料庫外,對于這些無關詞,本發(fā)明使用TF-1DF 算法進行排除。計算方法如下公式(3)
TF-1DF=E tf^· X log (n/dfj)(3)
其中,Clfi表示第i個詞在η篇文檔中出現(xiàn)的次數(shù),tfu表示第i個詞在第j篇文檔中出現(xiàn)的次數(shù)。
通過TF-1DF的乘積計算,可以提取那些真正代表專業(yè)領域特性,使得那些常用的普通詞受到抑制,建立起領域特征詞庫。
3.領域本體的建立
以游戲領域為例,構建的領域本體包括兩個部分,一部分是過濾部分,即符合這部分本體語義關系的網(wǎng)頁是需要過濾的網(wǎng)頁;另一部分是非過濾部分,即符合這部分本體語義關系的網(wǎng)頁是提交給用戶的網(wǎng)頁。
所述步驟(3)本體元素權重的計算具體過程為
設正例網(wǎng)頁類別使用C1表示,反例網(wǎng)頁類別用C2表示??紤]詞頻和特征項在網(wǎng)頁類別中的分布情況,特征項\在C1中的權重計算方法如下
權利要求
1.一種中文網(wǎng)頁語義過濾方法的實現(xiàn)步驟 (1)利用代理服務器機制,為瀏覽器配置改進后的代理服務器,實現(xiàn)網(wǎng)頁的抓?。? (2)根據(jù)正例網(wǎng)頁和反例網(wǎng)頁計算特征詞的權重,建立領域特征詞庫并制作領域本體; (3)根據(jù)正例文本計算本體元素在網(wǎng)頁各部分的權重,得到本體元素權重庫; (4)從網(wǎng)絡應用層截取網(wǎng)頁,根據(jù)貝葉斯分類算法確定候選網(wǎng)頁; (5)對候選網(wǎng)頁進行語義相關度計算并進行網(wǎng)頁過濾,獲得過濾后的網(wǎng)頁。
2.根據(jù)權利要求1的方法,其特征在于,步驟(I)中利用現(xiàn)有的代理服務器機制,配置代理,對代理服務器進行改進,降低了代理服務器端的工作壓力,保證了用戶瀏覽網(wǎng)頁的速度,有效實現(xiàn)了網(wǎng)頁的抓取,為之后的分析過濾打下基礎。
3.根據(jù)權利要求1的方法,其特征在于,步驟(2)中對從網(wǎng)頁中處理得到的候選領域特征詞進行計算,根據(jù)計算所得的C-value值和TF-1DF值進行領域特征詞的確定并建立領域特征詞庫,其中,C-value值用來判斷該候選詞語是否為一個有意義的詞,TF-1DF值即特征詞的權重,用來確定該詞是否為真正能夠代表領域特征的特征詞匯。
4.根據(jù)權利要求1的方法,其特征在于,步驟(2)中領域本體設計為過濾部分和非過濾部分,符合過濾部分本體語義關系的網(wǎng)頁是需要過濾的網(wǎng)頁,需對其進行語義過濾;符合非過濾部分本體語義關系的網(wǎng)頁可直接提交給用戶,不進行過濾。
5.根據(jù)權利要求1的方法,其特征在于,步驟(3)中本體元素權重計算公式
6.根據(jù)權利要求1的方法,其特征在于,步驟⑷利用步驟⑴中改進的代理服務器對網(wǎng)頁進行抓取,利用貝葉斯分類算法以及事先確定的閾值對新網(wǎng)頁進行分類,得到候選網(wǎng)頁。
7.根據(jù)權利要求6的方法,其特征在于,根據(jù)實際應用需求,將貝葉斯分類器公式
8.根據(jù)權利要求1的方法,其特征在于,步驟(5)利用構建完成的領域本體對候選網(wǎng)頁進行語義分析并進行過濾。
9.根據(jù)權利要求8的方法,其特征在于,在語義分析過程中,首先對候選網(wǎng)頁中的本體元素進行抽取,并對網(wǎng)頁在一個網(wǎng)站中的相對路徑文本,主題文本,關鍵詞文本,正文文本,鏈接文本,按照其重要性分別賦予其權重為Ct1, a 2, a 3, a 4, a 5,滿足
全文摘要
鑒于各種不良網(wǎng)頁對互聯(lián)網(wǎng)用戶的影響以及現(xiàn)今流行的多種網(wǎng)頁過濾軟件在自然語言的多義性和同義性以及語義的約束性方面有著一定的局限性,本發(fā)明提出了一種中文網(wǎng)頁語義過濾方法,該方法首先根據(jù)正反例領域網(wǎng)頁計算領域特征詞的權重,建立領域特征詞庫并制作領域本體,根據(jù)正例文本得到本體元素權重庫;然后利用修改后的代理服務器抓取網(wǎng)頁并使用貝葉斯分類算法得到候選網(wǎng)頁;最后根據(jù)領域本體對候選網(wǎng)頁進行語義相關度計算并進行網(wǎng)頁過濾。該方法可以區(qū)分同領域網(wǎng)頁中的正反例網(wǎng)頁并可兼顧網(wǎng)頁過濾的實時性。通過大量游戲領域網(wǎng)頁的測試,該方法正確識別率在98%以上,效果令人滿意,滿足用戶的使用需求。
文檔編號G06F17/30GK102982154SQ20121050165
公開日2013年3月20日 申請日期2012年11月30日 優(yōu)先權日2012年11月30日
發(fā)明者劉杰, 吳敏華, 駱力明, 李冬樂, 顧卓蓉 申請人:首都師范大學