国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      基于網(wǎng)頁標(biāo)簽的安全監(jiān)控方法和系統(tǒng)的制作方法

      文檔序號:9687537閱讀:615來源:國知局
      基于網(wǎng)頁標(biāo)簽的安全監(jiān)控方法和系統(tǒng)的制作方法【
      技術(shù)領(lǐng)域
      】[0001]本發(fā)明設(shè)及一種基于網(wǎng)頁標(biāo)簽的安全監(jiān)控和網(wǎng)頁去噪的方法和系統(tǒng),屬于信息安全
      技術(shù)領(lǐng)域
      ?!?br>背景技術(shù)
      】[0002]當(dāng)前,紛繁復(fù)雜的互聯(lián)網(wǎng)越來越成為人類社會的重要信息源。然而,由于商業(yè)利益和網(wǎng)站維護(hù)的需要,幾乎所有的網(wǎng)頁除了有用的信息之外,還包含了一些和網(wǎng)頁主體內(nèi)容關(guān)聯(lián)不大的元素如:廣告條、導(dǎo)航鏈接、版權(quán)等信息,使用戶不能迅速定位所需信息。[0003]在運種情況下,網(wǎng)頁去噪技術(shù)成為網(wǎng)絡(luò)信息檢索特有的一個研究領(lǐng)域,受到越來越多的研究人員的關(guān)注,并提出了各種算法?,F(xiàn)有技術(shù)主要是研究如何從某一領(lǐng)域或者模板網(wǎng)頁中探測出主題信息,但運對其他類型的頁面卻難W成立?,F(xiàn)有技術(shù)采用機(jī)器學(xué)習(xí)的方法來識別廣告和不相關(guān)的噪音信息,但是運需要大量的人工參與?,F(xiàn)有技術(shù)中提出了VIPS算法,將頁面轉(zhuǎn)化成內(nèi)容結(jié)構(gòu)。VWS算法基于頁面的可視化信息來進(jìn)行頁面劃分,并定義其內(nèi)聚度。算法通過可視塊抽取,分隔條檢測及構(gòu)造內(nèi)容結(jié)構(gòu)Ξ步迭代進(jìn)行,W各塊的內(nèi)聚度值與預(yù)定義的終止條件比較作為迭代的終止條件。但該算法由于視覺特征的復(fù)雜性,運用的啟發(fā)知識往往較為模糊,需要人工不斷地總結(jié)調(diào)整規(guī)則?,F(xiàn)有技術(shù)采用了量化網(wǎng)頁的方法,但選取的特征提取自網(wǎng)頁文本內(nèi)容,最后只是對隸屬于不同類的網(wǎng)頁采用不同的去噪方法。而本發(fā)明能夠很好地解決上面的問題?!?br/>發(fā)明內(nèi)容】[0004]本發(fā)明目的在于提供了一種基于網(wǎng)頁標(biāo)簽的安全監(jiān)控方法,該方法主要解決了網(wǎng)頁去噪的問題,能將HTML網(wǎng)頁中的文本節(jié)點按照屬性的相似度進(jìn)行分類,提取具有最大文本量的類作為正文,從而達(dá)到去噪效果。該方法不僅避免了傳統(tǒng)去噪方法中對網(wǎng)頁模式的局限性,而且能夠通過網(wǎng)頁文本格式量化的方式提高去噪的精度。[0005]本發(fā)明解決其技術(shù)問題所采取的技術(shù)方案是:一種基于網(wǎng)頁標(biāo)簽的安全監(jiān)控方法,該方法解決了網(wǎng)頁去噪的問題,采用K-MEANS聚類算法對由去噪聲后的網(wǎng)頁進(jìn)行聚類處理,通過比較去噪聲前后的聚類效果,可W看出通過本方法處理的網(wǎng)頁,聚類正確率有了明顯提局。[0006]方法流程:[0007]步驟1:將讀入的HTML網(wǎng)頁轉(zhuǎn)化為D0M結(jié)構(gòu);[000引步驟2:對每個文本節(jié)點添加父節(jié)點〈attrInfo〉,設(shè)置其屬性為:id、font、size、color、italic、bold;[0009]步驟3:循環(huán)在當(dāng)前文本節(jié)點的祖先節(jié)點中查找每個文本節(jié)點的屬性,添加到<attrinfo〉標(biāo)簽中;[0010]步驟4:對文本節(jié)點兩兩之間計算相似關(guān)系,大于某一闊值即為相似,得到該網(wǎng)頁的相容關(guān)系圖;[0011]步驟5:計算該網(wǎng)頁所有文本節(jié)點的極大相容類,得到的極大相容類即為該網(wǎng)頁的文本類;[0012]步驟6:計算該網(wǎng)頁每個文本類的文本量總和;[0013]步驟7:選擇文本量最大的文本類作為正文,刪除正文之外的網(wǎng)頁文本。[0014]本發(fā)明的上述方法能夠應(yīng)用于基于網(wǎng)頁標(biāo)簽的安全監(jiān)控系統(tǒng)。[0015]本發(fā)明還提供了一種基于網(wǎng)頁標(biāo)簽的安全監(jiān)控系統(tǒng),該系統(tǒng)對訪客的來源,路徑,動作,行為,時間,操作的分析,可提供可疑訪問及訪客,非友好訪問及訪客的報告并產(chǎn)生報警報告,該系統(tǒng)可對非友好用戶進(jìn)行追蹤及報警。包括:[0016]異常數(shù)據(jù)的發(fā)現(xiàn)和處理模塊的功能是:通過分析統(tǒng)計數(shù)據(jù)的散度情況,即數(shù)據(jù)變異指標(biāo),來對數(shù)據(jù)的總體特征和分布情況進(jìn)行預(yù)測,在"支持度-置信度"框架下,利用相對支持度概念,處理異常數(shù)據(jù)[0017]大數(shù)據(jù)降維模塊的功能是:按照用戶的需求,將紛繁復(fù)雜的數(shù)據(jù)進(jìn)行有效地降維,既保持?jǐn)?shù)據(jù)的可靠性,又減少其他信息的干擾。W達(dá)到高可靠性,高擴(kuò)展性,高效性和低成本。[0018]云計算信息融合模塊的功能是:不同的信息處理應(yīng)用有著不同的需求,云計算環(huán)境下,實現(xiàn)基于主動機(jī)制的智能信息主動服務(wù),提供人人之間、人物之間、物物之間的信息推送機(jī)制。特別是基于構(gòu)件的事件定義與處理、觸發(fā)機(jī)制和規(guī)則定義與處理等技術(shù)方法。[0019]移動用戶分析模塊的功能是:WIE提供手機(jī)用戶界面,用戶可通過手機(jī)獲得服務(wù)。WIE可針對移動用戶進(jìn)行分析并提供分析報告。[0020]社交網(wǎng)分析模塊的功能是:WIE還可針對來自社交網(wǎng)的用戶流量進(jìn)行分析并提供分析報告。[0021]有益效果:[0022]1、本發(fā)明系統(tǒng)既保持?jǐn)?shù)據(jù)的可靠性,又減少其他信息的干擾。W達(dá)到高可靠性,高擴(kuò)展性,高效性和低成本。[0023]2、本發(fā)明方法主要解決了網(wǎng)頁去噪的問題,能將HTML網(wǎng)頁中的文本節(jié)點按照屬性的相似度進(jìn)行分類,提取具有最大文本量的類作為正文,從而達(dá)到去噪效果。[0024]3、本發(fā)明方法不僅避免了去噪算法對網(wǎng)頁模式的局限性,而且還通過網(wǎng)頁文本格式量化的方式提高了去噪的精度。[0025]4、本發(fā)明方法采用K-MEANS聚類算法對由去噪聲后的網(wǎng)頁進(jìn)行聚類處理,通過比較去噪聲前后的聚類效果,可W看出通過本算法處理的網(wǎng)頁,聚類正確率有了明顯提高?!靖綀D說明】[00%]圖1為本發(fā)明的HTML網(wǎng)頁結(jié)構(gòu)示意圖。[0027]圖2為本發(fā)明的相容關(guān)系圖。[0028]圖3為本發(fā)明的去噪前后F1值變化圖?!揪唧w實施方式】[0029]下面結(jié)合說明書附圖對本發(fā)明創(chuàng)造作進(jìn)一步的詳細(xì)說明。[0030]在HTML網(wǎng)頁中,元素(element)是文檔結(jié)構(gòu)的基本組成部分。每個HTML網(wǎng)頁由兩個主要元素組成:首部化ead)和主體(body)。首部包含標(biāo)題(title)和用來標(biāo)志文檔的一些輔助信息。主體緊跟在首部后面,是HTML網(wǎng)頁的最主要部分,文檔所包含的主要信息都在主體中。主體部分又由若干更小的元素組成:如段落(paragraph)、表格(table)和列表(list)等。HTML網(wǎng)頁中用標(biāo)簽來標(biāo)志一個元素,而標(biāo)簽還可W加上屬性來規(guī)定文檔的顯示樣式和效果。[0031]一個普通的HTML網(wǎng)頁的結(jié)構(gòu)如圖1,可W看出,HTML網(wǎng)頁本身具有樹形結(jié)構(gòu),所W很適合使用D0M(Doc皿entObjectModel)樹進(jìn)行描述。[0032]DOM是W3C制定的標(biāo)準(zhǔn)規(guī)范,是一種與瀏覽器、平臺、語言無關(guān)的HTML(或XML)應(yīng)用編程接口。HTML網(wǎng)頁在經(jīng)過解析器(如HTMLparser、afterwork、Nokogi;ri、NekoHTML等)的解析之后,都可W轉(zhuǎn)換為相應(yīng)的DOM樹形結(jié)構(gòu)。[0033]在HTMLD0M樹中常見的節(jié)點類型有:文檔節(jié)點(根節(jié)點)、元素節(jié)點、屬性節(jié)點、文本節(jié)點和注釋節(jié)點等。D0M樹中節(jié)點之間的關(guān)系符合圖論中樹的節(jié)點關(guān)系。對一個節(jié)點來說,可能與之相關(guān)的節(jié)點有:祖先節(jié)點、父節(jié)點、子節(jié)點、兄弟節(jié)點。[0034]D0M通過解析HTML網(wǎng)頁為之在邏輯上建立一個樹模型,而樹的節(jié)點是一個個的對象。運樣通過操作運棵樹和運些對象就可W完成對HTML網(wǎng)頁的操作,為處理HTML文檔提供了一個完美的概念性框架。[0035]很多編程語言如化vaSc;ript、php、java等都按照不同的解析器對D0M樹形結(jié)構(gòu)的操作方法提供了具體的實現(xiàn)。本發(fā)明實驗即利用JAVA對D0M4J解析器創(chuàng)建的D0M樹形結(jié)構(gòu)提供的方法展開的。[0036]本發(fā)明極大相容類具體包括:[0037]定義1:如果集合A上的二元關(guān)系R是自反的和對稱的,則稱R為A上的相容關(guān)系。若對x,yEA有X和y相容,則記為xRy。[0038]定義2:設(shè)R為集合A上的相容關(guān)系。1)如果S為A的非空子集且當(dāng)x,yeS時皆有xRy,則稱S為R的一個相容類。2)設(shè)S為R的相容類。若當(dāng)V6S時皆有XeS使xRy不成立,則稱S為R的一個極大相容類。[0039]舉例:如果集合A=U,2,3,4,5,6}上的相容關(guān)系R的簡化關(guān)系圖如圖2所示,貝化的所有極大相容類為{1,2,3,4},{2,5},{3,6},{5,6}。[0040]定義3:設(shè)R為集合A上的相容關(guān)系,關(guān)系矩陣法計算R的所有極大相容類的算法如下:[0041]1)列出R的簡化關(guān)系矩陣;[0042]2)R的所有第η級相容類為1x1},1x2},…,{xn};[0043]3)若n=l,則終止。[0044]4)若n>l,則i^n-1;[0045]5)A^{xjIaji=l且i<j含η};[0046]6)對每個i+1級相容類s,若snA辛Φ,則添加一個相容類{xi}u(snA);[0047]7)對已得到的任意二相容類S和S',若則刪去S';稱運樣合并后的相容類為第i級相容類。[004引8)若i>l,則并轉(zhuǎn)到5);[0049]9)若i=l,則終止;[0050]最后計算得到的相容類就稱為R的所有極大相容類。[0051]為了表述一致,本發(fā)明對HTML網(wǎng)頁對象的各種表述均按照D0M樹中各種定義展開的。另外,定義文本類為本算法中相似文本節(jié)點的集合。[0052]對HTML網(wǎng)頁來說,其中所有的文本節(jié)點都有顯示的樣式。控制文本節(jié)點顯示樣式的是文本節(jié)點的屬性,如:字體(font)、顏色(color)、字號(size)、加粗(boId)和傾斜(italiC)等。如果對HTML網(wǎng)頁按照文本節(jié)點的屬性進(jìn)行分類,將相同或者相似屬性的文本節(jié)點歸為一類,那么可W將網(wǎng)頁區(qū)分為不同的文本類。按照視覺定位網(wǎng)頁正文的方式,一般有W下常識,包括:[0053]1)正文的屬性一般相同或者相似。正文文本的標(biāo)題可能出現(xiàn)文本大小、加粗的情況、極少鏈接可能出現(xiàn)顏色不同的情況、文中極少的詞語有傾斜、加粗、顏色不同的情況。[0054]2)噪聲的屬性一般差別較大。幾乎對每一個網(wǎng)頁來說,出現(xiàn)在網(wǎng)頁正文周邊的廣告條、導(dǎo)航鏈接、版權(quán)等噪聲信息幾乎不會出現(xiàn)文本節(jié)點屬性相同或者相近的情況。一般情況下噪聲的文本節(jié)點屬性差別較大。[0055]3)在HTML網(wǎng)頁中,正文的文本量是最大的。將HTML網(wǎng)頁中文本節(jié)點按照屬性分類后,按照前述正文的屬性一般相同或相似運一常識,正文將被區(qū)分為一類。此時,正文的文本量相比HTML網(wǎng)當(dāng)前第1頁1 2 
      當(dāng)前第1頁1 2 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1