国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      多協(xié)議網(wǎng)絡(luò)文件內(nèi)容檢查方法

      文檔序號:6518975閱讀:240來源:國知局
      多協(xié)議網(wǎng)絡(luò)文件內(nèi)容檢查方法
      【專利摘要】本發(fā)明提供了一種多協(xié)議網(wǎng)絡(luò)文件內(nèi)容檢查方法,用于基于簡化特征的一類特征向量機來檢測網(wǎng)絡(luò)流量中的敏感信息;多協(xié)議網(wǎng)絡(luò)文件內(nèi)容檢查方法包括:首先識別數(shù)據(jù)包的網(wǎng)絡(luò)協(xié)議,進行數(shù)據(jù)包重組、解碼、文本提取和復(fù)原;然后,對于復(fù)原的文本進行分詞,使用特征簡約算法提取特征向量,并進行分類。特征簡約算法分別包括基于文檔頻率方法、信息增益方法、開方擬和檢驗方法。
      【專利說明】多協(xié)議網(wǎng)絡(luò)文件內(nèi)容檢查方法
      【技術(shù)領(lǐng)域】
      [0001]本發(fā)明涉及網(wǎng)絡(luò)信息【技術(shù)領(lǐng)域】的方法,具體涉及一種多協(xié)議網(wǎng)絡(luò)文件內(nèi)容檢查方法,更具體涉及一種基于簡化特征的一類特征向量機的檢測網(wǎng)絡(luò)流量中的敏感信息的方法。
      【背景技術(shù)】
      [0002]互聯(lián)網(wǎng)在近幾十年迅猛發(fā)展,使得網(wǎng)絡(luò)已經(jīng)成為了信息化的重要組成部分,然而隨之而來的卻是良莠不齊的信息充斥著互聯(lián)網(wǎng)空間。傳統(tǒng)的網(wǎng)絡(luò)流量敏感信息檢測方法只能檢測部分未編碼的或者非亂序的數(shù)據(jù)包,在檢測這部分信息也都是基于字符串匹配程序?qū)崿F(xiàn)的。但是隨著網(wǎng)絡(luò)服務(wù)的日益更新,傳統(tǒng)的文本敏感信息檢測方法已經(jīng)不能滿足時代的需求。傳統(tǒng)檢測方法的缺點主要體現(xiàn)在如下幾點:
      [0003]1、無法處理有編碼的或者亂序抵達的數(shù)據(jù)包
      [0004]許多網(wǎng)絡(luò)協(xié)議為了壓縮傳輸數(shù)據(jù)大小,或者保證傳輸?shù)恼_率,往往使用約定的某些編碼方式來傳輸數(shù)據(jù)包。傳統(tǒng)的檢測信息并不能理解傳送雙方的協(xié)議格式,因此無法正確對數(shù)據(jù)進行解碼。而對于由于網(wǎng)絡(luò)路徑的選擇不同而亂序,重復(fù)抵達的數(shù)據(jù)包,更是無法進行重組以獲取原始信息。
      [0005]2、全文匹配,浪費資源
      [0006]傳統(tǒng)技術(shù)對于進入系統(tǒng)內(nèi)的文本進行全文匹配才能得出其是否包含不良信息的結(jié)論,雖然研究人員為了優(yōu)化搜索難度,提出了 KMP算法,Boyer-Moore算法等,降低了系統(tǒng)處理的時間復(fù)雜度,但在最差的情況下,復(fù)雜度依然在O(m*n)。
      [0007]3、不良特征需要預(yù)先定義
      [0008]為了檢測出不良文本,傳統(tǒng)技術(shù)必須要預(yù)先定義需要被過濾的敏感信息,這就需要一個巨大的不良信息數(shù)據(jù)庫作為基礎(chǔ)。然而,一旦有新的不良信息出現(xiàn),數(shù)據(jù)庫的更新往往是滯后的,這就使得檢測系統(tǒng)沒有很好的實時性。
      [0009]4、對于不良信息檢測的魯棒性不強
      [0010]為了應(yīng)付檢測系統(tǒng),文本往往被構(gòu)造成與不良信息數(shù)據(jù)庫有略微差別,但是人可以識別的模式。例如使用空格將敏感詞語隔開,使用別字等,這個就為構(gòu)造不良信息數(shù)據(jù)庫構(gòu)成了難度。
      [0011]雖然研究人員使用分類這一概念來解決這個海量數(shù)據(jù)挖掘的問題,提出了 一類支持向量機的模型,但是在實際應(yīng)用時卻存在一些不足。其中比較突出的一點就是維數(shù)爆炸。這是因為文本內(nèi)包含的詞語量非常大,商務(wù)印書館出版的《現(xiàn)代漢語詞典》第5版(2005年5月出版),其中收錄了 65000個詞,使用如此高維度對存儲資源和計算能力是一種嚴(yán)重浪費。

      【發(fā)明內(nèi)容】

      [0012]本發(fā)明所要解決的技術(shù)問題是針對現(xiàn)有技術(shù)中存在上述缺陷,提供一種基于簡化特征的一類特征向量機的檢測網(wǎng)絡(luò)流量中的敏感信息的新方法,該方法能很好地解決數(shù)據(jù)傳統(tǒng)檢測方法面臨的問題。
      [0013]為了實現(xiàn)上述技術(shù)目的,根據(jù)本發(fā)明,提供了一種多協(xié)議網(wǎng)絡(luò)文件內(nèi)容檢查方法,用于基于簡化特征的一類特征向量機來檢測網(wǎng)絡(luò)流量中的敏感信息,其包括:首先識別數(shù)據(jù)包的網(wǎng)絡(luò)協(xié)議,進行數(shù)據(jù)包重組、解碼、文本提取和復(fù)原;然后,對于復(fù)原的文本進行分詞,使用特征簡約算法提取特征向量,并進行分類。
      [0014]優(yōu)選地,特征向量為一些名詞和動詞。
      [0015]優(yōu)選地,特征簡約算法分別包括基于文檔頻率方法、信息增益方法、開方擬和檢驗方法。
      [0016]優(yōu)選地,基于文檔頻率方法使用特征詞在一個類別中出現(xiàn)的文檔數(shù)量來表示這個特征詞與該類別的相關(guān)度,而且在某個類別中的越多的文檔中出現(xiàn)的特征詞被保留的可能性越大。
      [0017]優(yōu)選地,信息增益方法通過計算系統(tǒng)引入該特征和未引入該特征的前后信息量的差值定義這個特征給系統(tǒng)帶來的信息量來作為其對檢測某個類別的依據(jù)。
      [0018]優(yōu)選地,開方擬和檢驗方法通過觀察實際值與理論值的偏差來確定假設(shè)該特征對系統(tǒng)有很大影響的假定是否正確。
      [0019]根據(jù)本發(fā)明,提供了 一種多協(xié)議網(wǎng)絡(luò)文件內(nèi)容檢查方法,用于基于簡化特征的一類特征向量機來檢測網(wǎng)絡(luò)流量中的敏感信息,其包括:
      [0020]第一步,使用已經(jīng)完成人為標(biāo)記的文本數(shù)據(jù)庫,對其進行分詞,提取所有的名詞和動詞作為候選特征向量;
      [0021]第二步,使用特征簡約算法對候選特征向量進行提?。?br> [0022]第三步,使用一類支持向量機對已經(jīng)完成人為標(biāo)記的文本數(shù)據(jù)庫進行訓(xùn)練,其中使用在第二步中從所有向量中提取出的特征向量,由此獲得分類的標(biāo)準(zhǔn);
      [0023]第四步,確定數(shù)據(jù)包的傳輸協(xié)議,并根據(jù)RFC對于不同傳輸層和應(yīng)用層協(xié)議的定義來提取、復(fù)原文本信息;
      [0024]第五步,對于第四步中的復(fù)原的文本信息,進行分詞,特征向量提??;然后根據(jù)第三步中的訓(xùn)練結(jié)果使用SVM進行分類,檢測其是否為不良文本。
      [0025]優(yōu)選地,提取所有的名詞和動詞作為候選特征向量。
      [0026]優(yōu)選地,在第二步中,特征簡約算法對候選特征向量進行提取,其特征是只提取對于系統(tǒng)影響較大的特征向量,特征簡約算法包括基于文檔頻率方法、信息增益方法、開方擬和檢驗方法,具體為:
      [0027](I)、基于文檔頻率方法
      [0028]算法統(tǒng)計出所有數(shù)據(jù)庫中的非停詞的詞語出現(xiàn)頻率,然后根據(jù)出現(xiàn)頻率進行排序,選擇出現(xiàn)最多的若干個作為特征詞供SVM算法進行維度映射,具體選取的數(shù)量根據(jù)系統(tǒng)需要的精確率,其中首先對數(shù)據(jù)庫中的每一篇文章進行分詞,只保留名詞和動詞作為特征詞的備選詞,然后對每一個不存在于停詞表中的備選詞進行數(shù)量統(tǒng)計,記錄到頻率表中,最后,將頻率表中出現(xiàn)的備選詞根據(jù)出現(xiàn)數(shù)量的多少進行排序,選擇前η個作為DF算法得到的特征詞,算法結(jié)束;
      [0029](2)、信息增益方法[0030]對每一個預(yù)處理得到的備選詞進行信息熵和條件熵的值的計算,在對每個備選詞進行了引入熵值的計算值后,根據(jù)這個值從大到小來排序,選擇前η個作為IG算法得到的特征詞,算法結(jié)束;
      [0031]其中,所述的信息熵,可以用如下公式計算
      [0032]
      【權(quán)利要求】
      1.一種多協(xié)議網(wǎng)絡(luò)文件內(nèi)容檢查方法,用于基于簡化特征的一類特征向量機來檢測網(wǎng)絡(luò)流量中的敏感信息,其特征在于包括:首先識別數(shù)據(jù)包的網(wǎng)絡(luò)協(xié)議,進行數(shù)據(jù)包重組、解碼、文本提取和復(fù)原;然后,對于復(fù)原的文本進行分詞,使用特征簡約算法提取特征向量,并進行分類。
      2.根據(jù)權(quán)利要求1所述的多協(xié)議網(wǎng)絡(luò)文件內(nèi)容檢查方法,其特征在于,特征向量為一些名詞和動詞。
      3.根據(jù)權(quán)利要求1或2所述的多協(xié)議網(wǎng)絡(luò)文件內(nèi)容檢查方法,其特征在于,特征簡約算法分別包括基于文檔頻率方法、信息增益方法、開方擬和檢驗方法。
      4.根據(jù)權(quán)利要求3所述的多協(xié)議網(wǎng)絡(luò)文件內(nèi)容檢查方法,其特征在于,基于文檔頻率方法使用特征詞在一個類別中出現(xiàn)的文檔數(shù)量來表示這個特征詞與該類別的相關(guān)度,而且在某個類別中的越多的文檔中出現(xiàn)的特征詞被保留的可能性越大。
      5.根據(jù)權(quán)利要求3所述的多協(xié)議網(wǎng)絡(luò)文件內(nèi)容檢查方法,其特征在于,信息增益方法通過計算系統(tǒng)引入該特征和未引入該特征的前后信息量的差值定義這個特征給系統(tǒng)帶來的信息量來作為其對檢測某個類別的依據(jù)。
      6.根據(jù)權(quán)利要求3所述的多協(xié)議網(wǎng)絡(luò)文件內(nèi)容檢查方法,其特征在于,開方擬和檢驗方法通過觀察實際值與理論值的偏差來確定假設(shè)該特征對系統(tǒng)有很大影響的假定是否正確。
      7.一種多協(xié)議網(wǎng)絡(luò)文件內(nèi)容檢查方法,用于基于簡化特征的一類特征向量機來檢測網(wǎng)絡(luò)流量中的敏感信息,其特征在于包括: 第一步,使用已經(jīng)完成人為 標(biāo)記的文本數(shù)據(jù)庫,對其進行分詞,提取所有的名詞和動詞作為候選特征向量; 第二步,使用特征簡約算法對候選特征向量進行提??; 第三步,使用一類支持向量機對已經(jīng)完成人為標(biāo)記的文本數(shù)據(jù)庫進行訓(xùn)練,其中使用在第二步中從所有向量中提取出的特征向量,由此獲得分類的標(biāo)準(zhǔn); 第四步,確定數(shù)據(jù)包的傳輸協(xié)議,并根據(jù)RFC對于不同傳輸層和應(yīng)用層協(xié)議的定義來提取、復(fù)原文本信息; 第五步,對于第四步中的復(fù)原的文本信息,進行分詞,特征向量提??;然后根據(jù)第三步中的訓(xùn)練結(jié)果使用SVM進行分類,檢測其是否為不良文本。
      8.根據(jù)權(quán)利要求7所述的多協(xié)議網(wǎng)絡(luò)文件內(nèi)容檢查方法,其特征在于,提取所有的名詞和動詞作為候選特征向量。
      9.根據(jù)權(quán)利要求7或8所述的多協(xié)議網(wǎng)絡(luò)文件內(nèi)容檢查方法,其特征在于,在第二步中,特征簡約算法對候選特征向量進行提取,其特征是只提取對于系統(tǒng)影響較大的特征向量,特征簡約算法包括基于文檔頻率方法、信息增益方法、開方擬和檢驗方法,具體為: (I)、基于文檔頻率方法 算法統(tǒng)計出所有數(shù)據(jù)庫中的非停詞的詞語出現(xiàn)頻率,然后根據(jù)出現(xiàn)頻率進行排序,選擇出現(xiàn)最多的若干個作為特征詞供SVM算法進行維度映射,具體選取的數(shù)量根據(jù)系統(tǒng)需要的精確率,其中首先對數(shù)據(jù)庫中的每一篇文章進行分詞,只保留名詞和動詞作為特征詞的備選詞,然后對每一個不存在于停詞表中的備選詞進行數(shù)量統(tǒng)計,記錄到頻率表中,最后,將頻率表中出現(xiàn)的備選詞根據(jù)出現(xiàn)數(shù)量的多少進行排序,選擇前η個作為DF算法得到的特征詞,算法結(jié)束; (2)、信息增益方法 對每一個預(yù)處理得到的備選詞進行信息熵和條件熵的值的計算,在對每個備選詞進行了引入熵值的計算值后,根據(jù)這個值從大到小來排序,選擇前η個作為IG算法得到的特征詞,算法結(jié)束; 其中,所述的信息熵,可以用如下公式計算
      10.根據(jù)權(quán)利要求7或8所述的多協(xié)議網(wǎng)絡(luò)文件內(nèi)容檢查方法,其特征在于,在第四步中,根據(jù)數(shù)據(jù)包內(nèi)的偏移字段的值確定文本信息的網(wǎng)絡(luò)層以及應(yīng)用層使用的協(xié)議;將網(wǎng)絡(luò)層中的信息用于確認(rèn)數(shù)據(jù)包的順序,以便按照其原有的發(fā)送的正確序列還原應(yīng)用層的信息,應(yīng)用層中的信息詳細(xì)定義編碼方式。
      【文檔編號】G06F17/27GK103617156SQ201310567527
      【公開日】2014年3月5日 申請日期:2013年11月14日 優(yōu)先權(quán)日:2013年11月14日
      【發(fā)明者】劉功申, 丁宵云, 蘇波, 孟魁, 寧蔚 申請人:上海交通大學(xué)
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1