一種基于lte信令的數(shù)據(jù)過(guò)濾處理方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種基于LTE信令的數(shù)據(jù)過(guò)濾處理方法,屬于數(shù)據(jù)過(guò)濾處理技術(shù)領(lǐng) 域。
【背景技術(shù)】
[0002] 五元組簡(jiǎn)單數(shù)據(jù)過(guò)濾,是指首先定義變量SIP、DIP、SP、DP、PT分別為五元組過(guò)濾 中的源IP地址、目的IP地址、源端口號(hào)、目的端口號(hào)和傳輸協(xié)議類型,它們構(gòu)成了五元組的 基本元素。在一次會(huì)話中,根據(jù)過(guò)濾策略確定掩碼SIP_MASK、DIP_MASK、SP_MASK、DP_MASK 和PT_MASK的值,組成PCL (Policy Control List,策略控制列表),根據(jù)需求進(jìn)行信息一級(jí) 過(guò)濾。
[0003] KNN(Key NearestNeighbor)算法是一種基于統(tǒng)計(jì)的模式識(shí)別算法,主要被用在文 本分類中,其基本思想是:在新文本給定后,考慮在訓(xùn)練文本集中與該文本距離最近(即為 最相似)的一篇文本,根據(jù)這篇文本所屬的類別來(lái)判斷新文本所屬的類別。也就是說(shuō),把每 一篇文本都看作是一個(gè)N維向量,計(jì)算新文本與訓(xùn)練文本集中文本的距離,通過(guò)距離來(lái)確 定新文本的類別。
[0004] 優(yōu)化的AdaBoost算法是基于AdaBoost算法的最小風(fēng)險(xiǎn)貝葉斯深層過(guò)濾算法。以 AdaBoost算法作為分類器的訓(xùn)練框架,用最小風(fēng)險(xiǎn)貝葉斯分類算法代替AdaBoost算法中 的弱分類器,作為AdaBoost的分類器,最終達(dá)成兩個(gè)算法的結(jié)合。最小風(fēng)險(xiǎn)貝葉斯分類算 法就是以貝葉斯和樸素貝葉斯為基礎(chǔ)來(lái)解決錯(cuò)誤率問(wèn)題,是最小錯(cuò)誤率意義上的最優(yōu)化。 貝葉斯分類算法是通過(guò)某對(duì)象的先驗(yàn)概率模型,利用貝葉斯公式計(jì)算出其后驗(yàn)概率。從而 得到對(duì)象源的主題(選擇具有最大后驗(yàn)概率的類作為對(duì)象源所屬的主題)。通過(guò)訓(xùn)練源數(shù) 據(jù)集合,由貝葉斯分類算法得到每個(gè)數(shù)據(jù)信息在不同類的概率大小,構(gòu)造出貝葉斯分類模 型,樸素貝葉斯就是貝葉斯分類模型中誤差率最小的,并且其所需估計(jì)參數(shù)很少,實(shí)現(xiàn)算法 十分簡(jiǎn)單。AdaBoost算法是一種迭代算法,其核心思想是針對(duì)同一個(gè)訓(xùn)練集訓(xùn)練不同的分 類器(弱分類器),然后將這些弱分類器集合起來(lái),最終構(gòu)成一個(gè)最強(qiáng)的最終分類器(強(qiáng) 分類器)。算法的主要特點(diǎn)有:
[0005] 1.采用五元組簡(jiǎn)單過(guò)濾算法、KNN文本分類方法和改進(jìn)的AdaBoost方法進(jìn)行三級(jí) 深層內(nèi)容的信息過(guò)濾,有效的保證了系統(tǒng)的過(guò)濾性能與魯棒性;
[0006] 2.高速性,準(zhǔn)確性。KNN文本分類算法可以根據(jù)用戶自身的需要來(lái)選擇適合的文 檔,過(guò)濾掉無(wú)用的文檔,對(duì)大量的網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行快速、有效地自動(dòng)分類,適用于在海量數(shù)據(jù) 中進(jìn)行ig息篩選;
[0007] 3.經(jīng)優(yōu)化的AdaBoost算法可以排除一些不必要的訓(xùn)練數(shù)據(jù)特征,關(guān)注于關(guān)鍵的 訓(xùn)練數(shù)據(jù),并且按照不同的主題過(guò)濾策略對(duì)數(shù)據(jù)進(jìn)行過(guò)濾,把所有分類錯(cuò)誤的可能性都考 慮進(jìn)去,很大程度上降低誤判的風(fēng)險(xiǎn);
[0008] 4.降低系統(tǒng)負(fù)荷,提高系統(tǒng)運(yùn)行效率。采用聚類分析方法對(duì)樣本庫(kù)進(jìn)行自動(dòng)組織 與分類。
[0009] 5.穩(wěn)定性,通過(guò)三級(jí)過(guò)濾,可以極大提升過(guò)濾功能處理能力。
[0010] 但是對(duì)于ΚΝΝ文本分類算法,該算法也存在缺陷,當(dāng)樣本數(shù)量不平衡時(shí),如一個(gè)類 的樣本容量很大,而其他類樣本容量很小時(shí),有可能導(dǎo)致當(dāng)輸入一個(gè)新樣本時(shí),該樣本的Κ個(gè)鄰居中大容量類的樣本占多數(shù),因?yàn)樵撍惴ㄖ挥?jì)算"最近的"鄰居樣本,所以當(dāng)某一類的 樣本數(shù)量很大時(shí),會(huì)導(dǎo)致新樣本無(wú)法匹配到正確的樣本,可以采用改變權(quán)值的方法(增大 與該樣本距離小的鄰居的權(quán)值)來(lái)進(jìn)行改進(jìn),但會(huì)帶來(lái)算法的復(fù)雜度。
【發(fā)明內(nèi)容】
[0011] 針對(duì)以上問(wèn)題,本發(fā)明的目的在于提供一種高效的,穩(wěn)定的基于LTE信令的數(shù)據(jù) 過(guò)濾處理方法,其采用五元組簡(jiǎn)單過(guò)濾方法進(jìn)行數(shù)據(jù)預(yù)處理,然后采用ΚΝΝ文本分類方法 確定源信息的性質(zhì),最后通過(guò)優(yōu)化的AdaBoost方法得到數(shù)據(jù)與根據(jù)聚類分析得到的樣本 進(jìn)行特征匹配,最終實(shí)現(xiàn)深層內(nèi)容過(guò)濾。
[0012] 其具體步驟包括:
[0013] 1.五元組簡(jiǎn)單過(guò)濾。
[0014] 首先對(duì)網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行簡(jiǎn)單的一級(jí)過(guò)濾---五元組過(guò)濾。定義變量SIP、DIP、SP、 DP、PT分別表示五元組過(guò)濾中的源IP地址、目的IP地址、源端口號(hào)、目的端口號(hào)和傳輸協(xié) 議類型,它們構(gòu)成了五元組的基本元素。在一次會(huì)話中,根據(jù)過(guò)濾策略確定掩碼SIP_MASK、 DIP_MASK、SP_MASK、DP_MASK和PT_MASK的值,組成PCL(PolicyControlList,策略控制列 表),從而進(jìn)行信息一級(jí)過(guò)濾。
[0015] 2·KNN文本分類方法確定源性質(zhì)。
[0016] 將經(jīng)過(guò)五元組過(guò)濾處理后的數(shù)據(jù)稱為新文本,將其與給定的訓(xùn)練文本集中的文本 進(jìn)行KNN文本分類計(jì)算,對(duì)新的輸入實(shí)例即新文本,在訓(xùn)練文本集中找到與該實(shí)例最鄰近 的K個(gè)實(shí)例,則這K個(gè)實(shí)例的多數(shù)所屬于的那個(gè)類,就是新文本的類。也就是說(shuō),把新文本 和訓(xùn)練文本都看作是一個(gè)N維向量,計(jì)算新文本與訓(xùn)練文本集中每個(gè)文本的相似度,找出K 個(gè)最相似的樣本,通過(guò)加權(quán)距離和訓(xùn)練文本所屬的類別來(lái)確定新文本的類別。
[0017]KNN算法過(guò)程描述如下:
[0018] 1)對(duì)于新文本及訓(xùn)練文本,根據(jù)特征詞形成新文本向量和訓(xùn)練文本向量。
[0019] 根據(jù)傳統(tǒng)的向量空間模型,文本信息被形式化為特征空間中的加權(quán)特征向量。即 D=DC^W^I^W^…;Tn,Wn),根據(jù)特征詞確定新文本及訓(xùn)練文本的向量表示。
[0020] 2)計(jì)算新文本與訓(xùn)練文本集中每個(gè)文本的文本相似度.計(jì)算公式為:
[0021]
[0022] 其中山為新文本的特征向量,dj為第j類的中心向量,Μ為特征向量的維數(shù),WkS 向量的第k維。
[0023] 對(duì)于k值,因?yàn)镵NN方法被看作是一種從樣本中估計(jì)后驗(yàn)概率P(Wl |X)的方法,所 以為了得到可靠的估計(jì),k值需越大越好,這樣才可以提高估計(jì)的準(zhǔn)確性,但另一方面,又希 望這k個(gè)鄰近點(diǎn)距離新文本越近越好,記新文本后驗(yàn)概率為P(Wl |Xl),只有當(dāng)這k個(gè)鄰近點(diǎn) 距離新文本越近時(shí),P(w」Xl)才會(huì)盡可能的逼近P(Wl|X),以往都是根據(jù)人們的個(gè)人經(jīng)驗(yàn)來(lái) 確定k值,所以經(jīng)常出現(xiàn)估計(jì)不準(zhǔn)確的情況,若k值選擇的過(guò)小,得到的鄰近數(shù)會(huì)過(guò)小,則降 低分類精度,若k值選擇的過(guò)大,則容易增加噪聲數(shù)據(jù)降低分類準(zhǔn)確性,故現(xiàn)通過(guò)大量的實(shí) 驗(yàn)證明,當(dāng)k值取數(shù)據(jù)庫(kù)中的所有文本個(gè)數(shù)時(shí),新文本的分類結(jié)果為全局最優(yōu)解。
[0024] 3)在新文本的k個(gè)鄰居中,依次計(jì)算每類的權(quán)重,
[0025]
[0026] 其中,為新文本的特征向量,為相似度計(jì)算公式,為數(shù)據(jù)源性 質(zhì)。
[0027] 4)比較類的權(quán)重,將文本分到權(quán)重最大的那個(gè)類別中去。
[0028] 綜上所述,數(shù)據(jù)通過(guò)KNN文本分類的方法對(duì)數(shù)據(jù)信息進(jìn)行二級(jí)過(guò)濾,確定數(shù)據(jù)源 的性質(zhì)。
[0029] 3.優(yōu)化的AdaBoost方法進(jìn)行深層內(nèi)容過(guò)濾。
[0030] 本發(fā)明提出基于AdaBoost算法的最小風(fēng)險(xiǎn)貝葉斯深層過(guò)濾算法是以AdaBoost算 法作為分類器的訓(xùn)練框架,用最小風(fēng)險(xiǎn)貝葉斯分類算法代替AdaBoost算法中的弱分類器, 作為AdaBoost的分類器,達(dá)成兩個(gè)算法的結(jié)合,S卩基于AdaBoost的最小風(fēng)險(xiǎn)貝葉斯深層過(guò) 濾算法。
[0031]AdaBoost是一種迭代算法,其核心思想是針對(duì)同一個(gè)訓(xùn)練集訓(xùn)練不同的分類器 (弱分類器),然后將這些弱分類器集合起來(lái),最終構(gòu)成一個(gè)最強(qiáng)的最終分類器(強(qiáng)分類 器)。其算法是根據(jù)改變數(shù)據(jù)分布來(lái)實(shí)現(xiàn)的,根據(jù)每次訓(xùn)練集之中每個(gè)樣本的分類是否正 確,以及上次的總體分類的準(zhǔn)確性來(lái)確定每個(gè)樣本的權(quán)值,將修改過(guò)的最新權(quán)值送到下層 分類器中進(jìn)行訓(xùn)練,最后將每次訓(xùn)練后得到的分類器進(jìn)行融合,輸出最終的最強(qiáng)分類器。
[0032]假定訓(xùn)練樣本集為:S={(Xuyj, (x2,y2),......,(Xi,yi),XieX,y;eY},X,Y分 別對(duì)應(yīng)于正例樣本和負(fù)例樣本,M為訓(xùn)練的最大循環(huán)次數(shù),分類器的錯(cuò)誤率記為ε",最小錯(cuò) 誤率記為
[0033] 在AdaBoost原算法中,通過(guò)一個(gè)加權(quán)的多數(shù)表決方法來(lái)整合全部決策以產(chǎn)生最 終的決策·
[0034]
[0