国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種大型網(wǎng)站數(shù)據(jù)流的檢測與防御方法

      文檔序號:7614216閱讀:166來源:國知局
      專利名稱:一種大型網(wǎng)站數(shù)據(jù)流的檢測與防御方法
      技術(shù)領(lǐng)域
      本發(fā)明屬于網(wǎng)絡(luò)安全技術(shù)領(lǐng)域,特別是涉及一種大型網(wǎng)站數(shù)據(jù)流的檢測與防御方法。
      背景技術(shù)
      大型網(wǎng)站的安全,具有與一般網(wǎng)站不同的特點。大型網(wǎng)站的峰值業(yè)務(wù)量非常巨大,在峰值時段最容易遭受洪水式攻擊。所以,最直接有效的對大型網(wǎng)站的攻擊將是DDoS(Distributed Denial-of-Service分布式拒絕服務(wù))的洪水式攻擊。大型網(wǎng)站的業(yè)務(wù)量還具有突發(fā)性的特點,相比于一般網(wǎng)站的業(yè)務(wù)量,它更容易與洪水式攻擊相混淆。通常的為一般網(wǎng)站建立的抵御入侵的統(tǒng)計異常檢測方法,有可能會把正常的、突如其來的流誤判為攻擊流,因而變得不適用。因此,大型網(wǎng)站的安全問題,是一種新的技術(shù)挑戰(zhàn)。
      已有的大型網(wǎng)站采用的安全策略,主要是通過采用超大容量的服務(wù)器陣列、超大帶寬的網(wǎng)絡(luò)接入、以及分布式的多級、多點結(jié)構(gòu),以提高網(wǎng)站的可靠性和化解洪水式流量的攻擊。這種安全策略的主要問題是,人們不可能無窮盡地增加系統(tǒng)容量,以抵抗任何程度的DDoS攻擊;過大的系統(tǒng)容量也有可能得不到實際的利用。所以,采取有效的檢測與抵抗DDoS攻擊的措施,對于在合理的投入和配置條件下,提高大型網(wǎng)站的安全是非常重要的。
      大型網(wǎng)站業(yè)務(wù)量的變化,是一個非穩(wěn)態(tài)的隨機過程。普通網(wǎng)站的用戶對網(wǎng)站的訪問,受用戶作息時間的影響比較大,因而服務(wù)器上的業(yè)務(wù)量,具有明顯的以日、星期為周期的變化。這種業(yè)務(wù)量的宏觀變化特性,被用來進行業(yè)務(wù)量在不同時區(qū)服務(wù)器之間的動態(tài)負(fù)載均衡、對網(wǎng)站的分類和對流量的預(yù)測。普通網(wǎng)站的這種宏觀特性,可以在數(shù)小時內(nèi)保持不變,因而,普通網(wǎng)站業(yè)務(wù)量模型往往局限于峰值時段的、假定為穩(wěn)態(tài)過程的模型。大型網(wǎng)站的用戶行為受大型活動安排的影響比較大,流量在活動舉行前后和進行期間達到高峰(持續(xù)十幾至幾十分鐘)。這種宏觀上的變化,使得大型網(wǎng)站的峰值流具有非穩(wěn)態(tài)變化特性。
      近十年來的許多研究表明,實際的流具有二階自相似性(second orderself-similarity)和長相關(guān)性(long-range dependence)。所以,對于大型網(wǎng)站的業(yè)務(wù)量的隨機變化,仍然要用具有二階自相似性或長相關(guān)性的隨機過程來描述??紤]到模型的廣泛適用性和參數(shù)估計算法的有效性,本發(fā)明將采用hiddensemi-Markov model(HSMM)來描述業(yè)務(wù)量的隨機變化過程。Hidden Markovmodel(HMM)已經(jīng)在語音識別、手寫體/文字識別、數(shù)字通信編解碼、DNA序列分類等許多重要領(lǐng)域獲得了廣泛和成功的應(yīng)用。與HMM相比,HSMM更適合于描述非穩(wěn)態(tài)和非Markovian分布。HSMM能夠(但HMM不能)描述實際流的二階自相似性/長相關(guān)性和隨時間的動態(tài)變化特性,能夠估計用于衡量自相似性的Hurst parameter。所以,利用HSMM可以檢測業(yè)務(wù)量的統(tǒng)計異常情況,確定業(yè)務(wù)量的大小,等等。

      發(fā)明內(nèi)容
      本發(fā)明的目的在于克服現(xiàn)有技術(shù)的不足,提供一種能很好區(qū)分到達大型網(wǎng)站的突如其來的大量正常數(shù)據(jù)流和攻擊流并屏蔽攻擊流的一種大型網(wǎng)站數(shù)據(jù)流的檢測與防御方法。
      本發(fā)明采用的技術(shù)方案如下一種大型網(wǎng)站數(shù)據(jù)流的檢測與防御方法,通過采用隱半馬爾可夫模型建立檢測模型并利用大型網(wǎng)站的正常數(shù)據(jù)流訓(xùn)練所述檢測模型,再將所述檢測模型實時應(yīng)用于檢測到達大型網(wǎng)站的數(shù)據(jù)流,具體檢測辦法為計算各個數(shù)據(jù)流的觀測序列相對于檢測模型的或然概率,然后按照數(shù)據(jù)流的或然概率的分布和大小進行優(yōu)先級排隊,優(yōu)先級越高的數(shù)據(jù)流就越優(yōu)先得到服務(wù),優(yōu)先級越低的數(shù)據(jù)流則越后獲得服務(wù)。
      本發(fā)明所述的檢測模型隱半馬爾可夫模型的建模方法及模型訓(xùn)練方法包括(1)建立模型設(shè)大型網(wǎng)站正在檢測的數(shù)據(jù)流具有M個離散狀態(tài),分別表示為1,2,...,M,并記這些狀態(tài)的集合為S,狀態(tài)轉(zhuǎn)移關(guān)系用具有M狀態(tài)的馬爾可夫鏈來描述,矩陣A表示狀態(tài)轉(zhuǎn)移概率,它的元素amn代表從狀態(tài)m到狀態(tài)n的轉(zhuǎn)移概率,狀態(tài)之間的轉(zhuǎn)移是由低到高或由高到低逐級變化的過程,即當(dāng)|m-n|>1時amn=0;采用bm(k)表示對于給定狀態(tài)m在單位時間內(nèi)到達k個實體的概率,其符合Poisson分布,即bm(k)=P(X=k|state m)=&mu;mk-1(k-1)!e-&mu;m,]]>其中,k=1,2,...,∞,μm>0,m∈S,μ1≤μ2≤...≤μM;再令pm(d)代表狀態(tài)m的持續(xù)時間的離散概率分布,它表示前后兩個狀態(tài)之間的時間差為d的概率,其符合Pareto分布,即pm(d)=d-&lambda;m-(d+1)-&lambda;m,]]>其中,d=1,2,...,∞,λm>0,m∈S,然后用參數(shù)的集合Ω={A,π,λ,μ}來代表隱半馬爾可夫模型,其中π=(π1,π2,...,πM),是初始狀態(tài)概率分布向量,λ=(λ1,λ2,...,λM),μ=(μ1,μ2,...,μM);(2)模型訓(xùn)練即反復(fù)迭代運用如下所述的前向算法、反向算法和參數(shù)估計算法公式,直到模型參數(shù)收斂到一組固定的值,形成一個完善的檢測模型。
      前向-反向算法如下令ot代表第t個觀測向量,包括第t批到達的實體數(shù)rt和從第t-1批的開始時刻到第t批的開始時刻之間的時間間隔qt-1,即ot=(qt-1,rt),oab代表從第a個到第b個觀測向量序列,o1T則代表整個觀測序列,其長度為T,st代表流在第t個批到達時的狀態(tài),1≤t≤T,再定義下列變量,&alpha;t(m)=Pr[o1t,st=m|&Omega;],]]>&beta;t(m)=Pr[ot+1T|st=m,&Omega;],]]>&gamma;t(m)=Pr[st=m|o1T,&Omega;]=&alpha;t(m)&beta;t(m)Pr[o1T|&Omega;],]]>&xi;t(m,n)=Pr[st=m,st+1=n|o1T,&Omega;]=&alpha;t(m)pm(qt)amnbn(rt+1)&beta;t+1(n)Pr[o1T|&Omega;],]]>前向算法如下α1(m)=πmbm(r1),
      &alpha;t(m)=(&Sigma;M&GreaterEqual;n=m-1,m,m+1&GreaterEqual;1&alpha;t-1(n)pn(qt-1)anm)bm(rt),t=2,...,T,m&Element;S,]]>反向算法如下βT(m)=1,&beta;t(m)=&Sigma;M&GreaterEqual;n=m-1,m,m+1&GreaterEqual;1pm(qt)amn&beta;t+1(n)bn(rt+1),t=T-1,T-2,...,1,m&Element;S,]]>參數(shù)估計算法如下參數(shù)λm的最大或然估計&lambda;^m=argmax&lambda;m&Sigma;d&GreaterEqual;1p^m(d)ln(d-&lambda;m-(d+1)-&lambda;m),]]>或近似得到&lambda;^m&ap;&Sigma;t=1T&gamma;t(m)&Sigma;t=1T&gamma;t(m)(lnqt+12lnqt+1qt)=2&Sigma;t=1T&gamma;t(m)&Sigma;t=1T&gamma;t(m)(lnqt(qt+1)),]]>參數(shù)μm的最大或然估計&mu;^m=&Sigma;t=1T&gamma;t(m)(rt-1)&Sigma;t=1T&gamma;t(m),]]>初始狀態(tài)概率分布πm的最大或然估計&pi;^m=&gamma;1(m)&Sigma;m=1M&gamma;1(m),]]>狀態(tài)轉(zhuǎn)移概率amn的最大或然估計a^mn=&Sigma;t=1T-1&xi;t(m,n)&Sigma;n=1M&Sigma;t=1T-1&xi;t(m,n),]]>本發(fā)明所述的檢測模型的訓(xùn)練可離線進行,也可在線訓(xùn)練,離線訓(xùn)練為脫機利用正常數(shù)據(jù)流對檢測模型進行訓(xùn)練,確保訓(xùn)練后的模型可準(zhǔn)確計算正常數(shù)據(jù)流的或然概率,而所述在線訓(xùn)練則在具體工作時同步進行,先把離線訓(xùn)練后可投入使用的檢測模型參數(shù)當(dāng)前的值作為初值,并實時采集到達網(wǎng)站的數(shù)據(jù)流,當(dāng)數(shù)據(jù)流被檢測為正常時,反復(fù)運用“前向-反向”算法和參數(shù)估計算法,直到模型參數(shù)收斂到一組固定的值為止。
      本發(fā)明所述的將檢測模型實時應(yīng)用于檢測到達大型網(wǎng)站的數(shù)據(jù)流,即計算各個數(shù)據(jù)流的觀測序列相對于檢測模型的或然概率,其或然概率的具體計算方法為先采用前向算法,α1(m)=πmbm(r1),&alpha;t(m)=(&Sigma;M&GreaterEqual;n=m-1,m,m+1&GreaterEqual;1&alpha;t-1(n)pn(qt-1)anm)bm(rt),t=2,...,T,m&Element;S,]]>再采用如下公式計算Pr[o1t|&Omega;]=&Sigma;m=1M&alpha;t(m).]]>上述技術(shù)方案中,所述的數(shù)據(jù)流指每秒到達網(wǎng)站的請求數(shù)、或分組數(shù)、或字節(jié)數(shù)、或連接數(shù)、或會話數(shù)、或頁面數(shù)、或用戶數(shù)、或上述任意組合的數(shù)據(jù)量,并且所述的數(shù)據(jù)流包括來自于單個用戶的流、或來自于代理服務(wù)器的代表了一群用戶的匯聚流、或所有新用戶的匯總流、或到達大型網(wǎng)站的匯總流。
      本發(fā)明通過隱半馬爾可夫模型建立檢測模型;再通過正常數(shù)據(jù)流訓(xùn)練檢測模型;又以該檢測模型實時測試到達大型網(wǎng)站的數(shù)據(jù)流;通過數(shù)據(jù)流相對于檢測模型的或然概率的大小和分布進行優(yōu)先級排隊,正常流將具有較大的或然概率并符合正常流的或然概率分布從而被賦予較高的優(yōu)先級,攻擊流將不符合正常流模型并具有較低的或然概率或超出正常流的或然概率分布之外從而被賦予較低的優(yōu)先級。因此,正常流將以高的優(yōu)先權(quán)獲得網(wǎng)站提供的正常服務(wù),優(yōu)先級最低的數(shù)據(jù)流在網(wǎng)絡(luò)資源緊缺時,將被拋棄,從而很好地實現(xiàn)區(qū)分突如其來的大量正常數(shù)據(jù)流和攻擊流,達到對正常流提供正常服務(wù)并防止攻擊流對大型網(wǎng)站進行攻擊的目的。


      圖1為本發(fā)明的結(jié)構(gòu)示意圖。
      具體實施例方式
      下面結(jié)合附圖對本發(fā)明做進一步的說明。
      本發(fā)明的結(jié)構(gòu)示意圖如附圖1所示。首先對網(wǎng)絡(luò)正常使用情況下的流進行采集,經(jīng)過必要的處理,如轉(zhuǎn)換格式和濾除不需要的信息,后保存到正常用戶數(shù)據(jù)集①內(nèi)。②是HSMM模型參數(shù)估計模塊,它包含HSMM前向-反向算法和參數(shù)的迭代估計公式,該模塊在第一次對模型進行訓(xùn)練時,首先按照預(yù)設(shè)的值給模型參數(shù)賦初值,即令a1,1=a1,2=aM,M=aM,M-1=1/2,am,m=am,m-1=am,m+1=1/3(1<m<M),πm=1/M,1<λm=1.5<2,μm=max(rt)×m/M,M=10,然后進行前向-反向迭代運算,并求得所有模型參數(shù)估計值,重復(fù)這種迭代過程,直到或然概率Pr[o1T|Ω]不再增長或增長很小時為止。訓(xùn)練得到的模型參數(shù)和正常流相對于該模型的熵的分布將保存到HSMM模型參數(shù)③內(nèi)備用,前向算法模塊④包含HSMM的前向算法,它們所需要的模型參數(shù)取自于HSMM模型參數(shù)③,前向算法模塊④將用于實時在線的流的統(tǒng)計異常檢測。
      在實際應(yīng)用需要時,本發(fā)明也可以對模型參數(shù)進行在線更新。這時正常用戶數(shù)據(jù)流集①的數(shù)據(jù)來自于實時采集的流,當(dāng)實時采集的數(shù)據(jù)被檢測為正常時,即可以輸入到正常用戶數(shù)據(jù)流集①內(nèi)用于對模型參數(shù)的實時更新,用于模型參數(shù)實時更新的數(shù)據(jù)序列長度可以限于幾十分鐘到一個小時,以便模型適合于流量的動態(tài)變化和減少訓(xùn)練所需的時間。在進行模型參數(shù)實時更新時,HSMM模型參數(shù)估計模塊②將把模型參數(shù)當(dāng)前的值作為初值(而不是預(yù)設(shè)的值),運用HSMM的前向-反向算法,經(jīng)過多次重復(fù)迭代以后,得到模型參數(shù)的更新值。更新結(jié)果保存到HSMM模型參數(shù)③內(nèi),以備前向算法模塊④調(diào)用。
      ⑤是流的采集與區(qū)分模塊,當(dāng)該模塊接收到一個分組時,由其源目IP地址、協(xié)議、端口或者cookies等進行流的區(qū)分,然后累加該流在當(dāng)前單位時間內(nèi)到達的實體數(shù)rt;在當(dāng)前單位時間結(jié)束時,計算與上次批到達之間的時間差qt-1,并從數(shù)據(jù)庫中提取該流的前向變量值{αt-1(m)},送入前向算法模塊④計算前向變量{αt(m)},再計算熵ln(Pr[o1t|Ω])/t,由這個熵在正常流熵分布中出現(xiàn)的概率得到該流相對于給定模型參數(shù)的“正?!背潭龋凑照3潭鹊拇笮?,將該流下一單位時間內(nèi)到達的分組送入分類排隊控制模塊⑥中相應(yīng)的隊列進行排隊服務(wù),正常程度越大,則優(yōu)先權(quán)越高;反之則越低,最低優(yōu)先權(quán)的分組,在網(wǎng)絡(luò)資源不夠時,將被過濾掉。由此達到保護正常流和濾除攻擊流的目的,當(dāng)被監(jiān)測的流是總流量或總的新用戶數(shù)時,分類排隊控制模塊⑥只對異常情況進行報警。
      本實施例首先由一組觀測序列,對模型進行訓(xùn)練a)給出模型參數(shù)集合Ω的初值。可以采用各種合適的賦初值的辦法。但一種簡單而又合理的賦初值的方法是令狀態(tài)轉(zhuǎn)移概率為等概率分布,即令a1,1=a1,2=aM,M=aM,M-1=1/2,am,m=am,m-1=am,m+1=1/3(1<m<M),πm=1/M;令狀態(tài)的持續(xù)時間分布pm(d)為重尾的Pareto分布,即1<λm=1.5<2;令不同給定狀態(tài)的實體的到達率不同,即μm=max(rt)×m/M。M可以是10~30之間的任一整數(shù)。
      b)運用前向算法和反向算法迭代運算求前向變量{αt(m)}和{βt(m)}。。
      c)運用參數(shù)估計算法求得模型參數(shù)集合Ω的估計值。
      d)重復(fù)步驟b)和c)直到或然概率Pr[o1T|Ω]收斂到一定的值。
      e)將這組觀測序列的熵(即lnPr[o1T|Ω]/T)的頻率分布作為正常流的熵的分布。
      由于模型訓(xùn)練可以離線進行,所以不會影響系統(tǒng)的在線運行性能。實際上模型訓(xùn)練的時間也不長。如果實際應(yīng)用需要,該模型也可以在線訓(xùn)練,用于訓(xùn)練的序列長度可以限于幾十分鐘到一個小時,以便模型適合于流量的動態(tài)變化和減少訓(xùn)練所需的時間。在線訓(xùn)練可能面臨的問題是如何保證用于訓(xùn)練的流是正常流而不包含攻擊流。
      然后將訓(xùn)練后的模型實際應(yīng)用于流的統(tǒng)計異常檢測,即計算各個流對于給定模型參數(shù)的或然概率a)當(dāng)檢測系統(tǒng)第一次收到來自于某個流(由源目IP地址、協(xié)議、端口或者cookies進行流的區(qū)分)的實體時,統(tǒng)計它在該單位時間(例如1秒)內(nèi)到達的實體數(shù),并計算前向變量的初始值α1(m),m∈S;令t=1,τ0是該單位時間的開始時刻。
      b)在當(dāng)前的單位時間(其開始時刻是第τ秒),如果收到該流的實體,則令t=t+1,并統(tǒng)計該流在該單位時間內(nèi)到達的實體數(shù)rt,以及與上次批到達之間的時間差qt-1=τ-τ0。然后令τ0=τc)計算前向變量αt(m),m∈S,再計算熵ln(Pr[o1t|Ω])/t。
      d)該熵在正常流熵分布中出現(xiàn)的概率就是該流相對于給定模型參數(shù)(代表了所有正常用戶共同特征)的“正?!背潭取?br> e)重復(fù)步驟b)和d)。
      在或然概率計算中,最主要的時間可能在于從存儲器中搜索每個流在前一次批到達時的前向變量值{αt-1(m),m∈S}。這個搜索時間可以通過對IP地址的Hash運算、建立搜索樹、分流處理等而大大減少。另外,利用到達某一網(wǎng)站的IP分組的時間局域性(即最近出現(xiàn)過的源IP地址,有很大的概率再次出現(xiàn)),通過堆棧,使得最近出現(xiàn)過的IP地址在堆棧頂端,從而使得搜索地址列表的平均時間減少。實際上,并不需要對每個流單獨進行檢測,可以將若干個流匯聚在一起進行檢測。例如,將32bit的IP地址縮寫為10bit的碼,則需要檢測的“匯聚流”個數(shù)只有1024個。當(dāng)檢測系統(tǒng)發(fā)現(xiàn)其中某個匯聚流異常時,可以對該匯聚流進行更細致的分析,即對其中的每一個流進行檢測和分析,找出造成異常的那些流。
      在計算得到了一個流的熵ln(Pr[o1t|Ω])/t以后,就可以按照這個值在正常流熵分布中出現(xiàn)概率的大小,將該流的后續(xù)分組送入相應(yīng)的隊列進行排隊服務(wù)。這個值出現(xiàn)的概率越大,則優(yōu)先權(quán)越高;反之則越低。最低優(yōu)先權(quán)的實體,在網(wǎng)絡(luò)資源不夠時,將被過濾掉。由此達到保護正常流和化解DDoS攻擊流的目的。
      此外,對大型網(wǎng)站進行攻擊的流可以是任意產(chǎn)生的流,也可以是偽裝正常的流,或者重放正常的流。對付任意產(chǎn)生的流、偽裝源地址的流、利用其它服務(wù)器反射的流以及重放正常的流的有效辦法之一是采用cookies。沒有攜帶服務(wù)器即時產(chǎn)生的cookies的分組,可以很容易地被發(fā)現(xiàn),因而被區(qū)別對待。例如,對于沒有cookies的分組,如果其源IP地址或端口近期訪問過該網(wǎng)站,則可以簡單地過濾掉。否則,可以作為可能的新用戶,由專門的隊列甚至專門的服務(wù)器提供速率受限的服務(wù)(新用戶出現(xiàn)的速率通常只占總用戶到達率的很小的比例)。所以,難以檢測和過濾的流是那些具有正常的地址、端口和cookies的攻擊流。這種攻擊流為了達到對網(wǎng)站的“洪水”式的攻擊,必然要采用超大的流量或者協(xié)調(diào)眾多的攻擊流,從而在統(tǒng)計特性上表現(xiàn)出“異常”。這種異常將可以由本發(fā)明所提出的檢測技術(shù)模塊檢測出來,并被相應(yīng)的防御技術(shù)模塊所過濾掉。
      權(quán)利要求
      1.一種大型網(wǎng)站數(shù)據(jù)流的檢測與防御方法,其特征在于采用隱半馬爾可夫模型建立檢測模型并利用大型網(wǎng)站的正常數(shù)據(jù)流訓(xùn)練所述檢測模型,再將所述檢測模型實時應(yīng)用于檢測到達大型網(wǎng)站的數(shù)據(jù)流,具體檢測辦法為計算各個數(shù)據(jù)流的觀測序列相對于檢測模型的或然概率,然后按照數(shù)據(jù)流的或然概率的分布和大小進行優(yōu)先級排隊,優(yōu)先級越低的數(shù)據(jù)流越后獲得服務(wù)。
      2.根據(jù)權(quán)利要求1所述的大型網(wǎng)站數(shù)據(jù)流的檢測與防御方法,其特征在于所述的隱半馬爾可夫模型的建模方法及模型訓(xùn)練方法包括(1)建立模型,設(shè)大型網(wǎng)站正在檢測的數(shù)據(jù)流具有M個離散狀態(tài),分別表示為1,2,...,M,并記這些狀態(tài)的集合為S,狀態(tài)轉(zhuǎn)移關(guān)系用具有M狀態(tài)的馬爾可夫鏈來描述,矩陣A表示狀態(tài)轉(zhuǎn)移概率,它的元素amn代表從狀態(tài)m到狀態(tài)n的轉(zhuǎn)移概率,狀態(tài)之間的轉(zhuǎn)移是由低到高或由高到低逐級變化的過程,即當(dāng)|m-n|>1時amn=0;采用bm(k)表示對于給定狀態(tài)m在單位時間內(nèi)到達k個實體的概率,其符合Poisson分布,即bm(k)=P(X=k|statem)=&mu;mk-1e-&mu;m/(k-1)!,]]>其中,k=1,2,...,∞,μm>0,m∈S,μ1≤μ2≤...≤μM;再令pm(d)代表狀態(tài)m的持續(xù)時間的離散概率分布,它表示前后兩個狀態(tài)之間的時間差為d的概率,其符合Pareto分布,即pm(d)=d-&lambda;m-(d+1)-&lambda;m,]]>其中,d=1,2,…,∞,λm>0,m∈S,然后用參數(shù)的集合Ω={A,π,λ,μ}來代表隱半馬爾可夫模型,其中π=(π1,π2,...,πM),是初始狀態(tài)概率分布向量,λ=(λ1,λ2,...,λM),μ=(μ1,μ2,...,μM);(2)模型訓(xùn)練,包括主要的前向—反向算法如下令ot代表第t個觀測向量,它包括第t批到達的實體數(shù)rt和從第t-1批的開始時刻到第t批的開始時刻之間的時間間隔qt-1,即ot=(qt-1,rt),oab代表從第a個到第b個觀測向量序列,olT則代表整個觀測序列,其長度為T,st代表流在第t個批到達時的狀態(tài),1≤t≤T,再定義下列變量,&alpha;t(m)=Pr[o1t,st=m|&Omega;],]]>&beta;t(m)=Pr[ot+1T|st=m,&Omega;],]]>&gamma;t(m)=Pr[st=m|o1T,&Omega;]=&alpha;t(m)&beta;t(m)/Pr[o1T|&Omega;],]]>&xi;t(m,n)=Pr[st=m,st+1=n|o1T,&Omega;]=&alpha;t(m)pm(qt)amnbn(rt+1)&beta;t+1(n)/Pr[o1T|&Omega;],]]>前向算法如下α1(m)=πmbm(r1),&alpha;t(m)=(&Sigma;m&GreaterEqual;n=m-1,m,m+1&GreaterEqual;1&alpha;t-1(n)pn(qt-1)anm)bm(rt),t=2,...,T,m&Element;S,]]>反向算法如下βT(m)=1,&beta;t(m)=&Sigma;m&GreaterEqual;n=m-1,m,m+1&GreaterEqual;1pm(qt)amn&beta;t+1(n)bn(rt+1),t=T-1,T-2,...,1,m&Element;S,]]>然后再通過如下參數(shù)估計算法計算模型參數(shù)的估計值參數(shù)λm的最大或然估計&lambda;^m=argmax&lambda;m&Sigma;d&GreaterEqual;1p^m(d)ln(d-&lambda;m-(d+1)-&lambda;m),]]>或近似得到&lambda;^m&ap;&Sigma;t=1T&gamma;t(m)&Sigma;t=1T&gamma;t(m)(lnqt+12lnqt+1qt)=2&Sigma;t=1T&gamma;t(m)&Sigma;t=1T&gamma;t(m)(lnqt(qt+1),]]>參數(shù)μm的最大或然估計&mu;^m=&Sigma;t=1T&gamma;t(m)(rt-1)&Sigma;t=1T&gamma;t(m),]]>初始狀態(tài)概率分布πm的最大或然估計&pi;^m=&gamma;1(m)&Sigma;m=1m&gamma;1(m),]]>狀態(tài)轉(zhuǎn)移概率amn的最大或然估計a^mn=&Sigma;t=1T-1&xi;t(m,n)&Sigma;n=1M&Sigma;t=1T-1&xi;t(m,n),]]>最后迭代運用前向算法、反向算法和參數(shù)估計算法公式,直到模型參數(shù)收斂到一組固定的值,形成一個完善的檢測模型。
      3.根據(jù)權(quán)利要求2所述的大型網(wǎng)站數(shù)據(jù)流的檢測與防御方法,其特征在于所述的或然概率的具體計算方法為先采用前向算法,再采用如下公式計算Pr[o1t|&Omega;]=&Sigma;m=1M&alpha;t(m).]]>
      4.根據(jù)權(quán)利要求1或2或3所述的大型網(wǎng)站數(shù)據(jù)流的檢測與防御方法,其特征在于所述的數(shù)據(jù)流指每秒到達網(wǎng)站的請求數(shù)、或分組數(shù)、或字節(jié)數(shù)、或連接數(shù)、或會話數(shù)、或頁面數(shù)、或用戶數(shù)、或上述任意組合的數(shù)據(jù)量,并且所述的數(shù)據(jù)流包括來自于單個用戶的流、或來自于代理服務(wù)器的代表了一群用戶的匯聚流、或所有新用戶的匯總流、或到達大型網(wǎng)站的匯總流。
      5.根據(jù)權(quán)利要求4所述的大型網(wǎng)站數(shù)據(jù)流的檢測與防御方法,其特征在于所述的檢測模型的訓(xùn)練可離線進行,也可在線訓(xùn)練,所述在線訓(xùn)練把檢測模型參數(shù)當(dāng)前的值作為初值,并實時采集到達網(wǎng)站的數(shù)據(jù)流,當(dāng)數(shù)據(jù)流被檢測為正常時,反復(fù)運用“前向-反向”算法和參數(shù)估計公式,直到模型參數(shù)收斂到一組固定的值為止。
      6.根據(jù)權(quán)利要求5所述的大型網(wǎng)站數(shù)據(jù)流的檢測與防御方法,其特征在于按照數(shù)據(jù)流的或然概率的分布和大小進行優(yōu)先級排隊,優(yōu)先權(quán)高的流得到正常的服務(wù),優(yōu)先權(quán)最低的數(shù)據(jù)流,在網(wǎng)絡(luò)資源不夠時可被過濾掉。
      全文摘要
      本發(fā)明提供了一種適合于大型網(wǎng)站流的突發(fā)性的統(tǒng)計異常檢測和防攻擊方法,包括揭示突發(fā)流的隱半馬爾可夫模型建模方法、高效的模型訓(xùn)練和流的正常性測量算法、以及相應(yīng)的優(yōu)先級排隊服務(wù)和流量控制措施。本發(fā)明適用于構(gòu)建一個具有對正常流提供正常服務(wù)和對DDoS洪水式攻擊流進行過濾的、適合于大型網(wǎng)站如體育、新聞、娛樂、商業(yè)網(wǎng)站的統(tǒng)計異常檢測和防御系統(tǒng)。
      文檔編號H04L12/26GK1658576SQ20051003342
      公開日2005年8月24日 申請日期2005年3月9日 優(yōu)先權(quán)日2005年3月9日
      發(fā)明者余順爭 申請人:中山大學(xué)
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1