專利名稱:一種基于流量特征分析的網(wǎng)絡(luò)中間節(jié)點緩存優(yōu)化方法
技術(shù)領(lǐng)域:
本發(fā)明屬于計算機網(wǎng)絡(luò)通信領(lǐng)域,具體涉及一種基于流量特征分析的網(wǎng)絡(luò)中間節(jié)點緩存優(yōu)化方法。
背景技術(shù):
網(wǎng)絡(luò)中間節(jié)點緩存是一種非常傳統(tǒng)的用以解決網(wǎng)絡(luò)資源不足的方法,通過將可能會被重復(fù)訪問的數(shù)據(jù)緩存在網(wǎng)絡(luò)中間節(jié)點中,可以很大程度上減輕網(wǎng)絡(luò)負載,合理利用網(wǎng)絡(luò)資源從而得到更好地網(wǎng)絡(luò)服務(wù)質(zhì)量。就傳統(tǒng)的網(wǎng)絡(luò)中間節(jié)點緩存策略而言,其設(shè)計沒有符合中間節(jié)點編程透明性的重要原則,一般的設(shè)計模式都是針對于某一項已知的用戶層協(xié)議規(guī)則進行相應(yīng)的設(shè)計。然而,隨著網(wǎng)絡(luò)應(yīng)用的爆炸式發(fā)展,網(wǎng)絡(luò)當(dāng)中存在了大量的私有協(xié)議以及公共協(xié)議的協(xié)議復(fù)用情況,這樣導(dǎo)致傳統(tǒng)的網(wǎng)絡(luò)中間節(jié)點緩存策略無法覆蓋目前數(shù)量眾多的網(wǎng)絡(luò)應(yīng)用,其相應(yīng)的 效果也大打折扣。流量特征分析技術(shù)在信息安全領(lǐng)域已經(jīng)有非常多的應(yīng)用與研究,從深度包解析的角度而言,目前已經(jīng)提出了自動的生成協(xié)議狀態(tài)機的算法,從而可以對非公有協(xié)議構(gòu)建初步的協(xié)議狀態(tài)機,還原協(xié)議交互過程;流量分類技術(shù)也漸漸引入了很多方法解決私有協(xié)議問題,其通過分析數(shù)據(jù)流的特征,將數(shù)據(jù)流進行聚類,從而判別數(shù)據(jù)流中的數(shù)據(jù)屬于什么協(xié)議。以上的研究成果表明可以在中間節(jié)點實現(xiàn)編程透明化,即使得緩存策略的設(shè)計與優(yōu)化不再依賴于某種特定協(xié)議的特性。
發(fā)明內(nèi)容
本發(fā)明主要解決的問題是讓網(wǎng)絡(luò)中間節(jié)點緩存策略具有透明性,主要通過分析不同流量的不同特征,調(diào)整緩存資源分配策略,從而提升緩存命中率。本發(fā)明提供的基于流量特征分析的網(wǎng)絡(luò)中間節(jié)點緩存優(yōu)化方法,不針對于某一種特定的用戶層協(xié)議,而是通過分析經(jīng)過中間節(jié)點的流量的特征信息,結(jié)合緩存的命中率情況,建立相應(yīng)的流量特征緩存預(yù)測模型,預(yù)測擁有某種類型特征的流量集合的緩存權(quán)重,從而分配該集合相應(yīng)的緩存大小。當(dāng)流量經(jīng)過中間節(jié)點時,首先對流量進行分類,然后在為該類別所分配的緩沖區(qū)空間中,根據(jù)該空間的緩存狀況,結(jié)合LRU算法確定流量應(yīng)該如何被處理。定期的,系統(tǒng)會更新流量分類模型并重新分配緩存空間給新的不同分類,從而保證緩存策略與近期節(jié)點的流量狀況有很強的相關(guān)性。本發(fā)明提供的一種網(wǎng)絡(luò)中間節(jié)點流量緩存優(yōu)化方法,主要根據(jù)擁有不同特征的流量具有不同的緩存需求的特點,對具有類似流量特征的數(shù)據(jù)流量進行聚類,分析每個聚類的緩存價值并進行相應(yīng)的量化,再根據(jù)相應(yīng)的量化值,調(diào)整對于不同聚類流量的緩存資源,從而實現(xiàn)緩存資源利用的最大化。本發(fā)明提供的一種基于流量特征分析的網(wǎng)絡(luò)中間節(jié)點緩存優(yōu)化方法,具體步驟如下
1)存的網(wǎng)絡(luò)中間節(jié)點,,并設(shè)置系統(tǒng)的參數(shù)分類數(shù)目、命中率閾值和時間閾值,用戶可以根據(jù)實際的需要,在系統(tǒng)部署時對這些關(guān)鍵的參數(shù)進行更改;
2)根據(jù)步驟I)所述的系統(tǒng)的分類數(shù)目,將緩存區(qū)平均分配為等大小緩存空間,當(dāng)流量經(jīng)過中間節(jié)點時,系統(tǒng)的流量統(tǒng)計模塊開始統(tǒng)計數(shù)據(jù)的流量特征信息,對其進行量化和標(biāo)準(zhǔn)化,形成相應(yīng)的向量存入數(shù)據(jù)庫中;此時,系統(tǒng)會根據(jù)LRU算法來確定當(dāng)前階段的流量是否會被存入緩沖區(qū)當(dāng)中;
3)在流量不斷的經(jīng)過中間節(jié)點并緩存的過程中,用戶也不斷的向緩存請求數(shù)據(jù),當(dāng)整個緩存的命中率達到步驟I)中預(yù)設(shè)的命中率閾值時,系統(tǒng)開始將數(shù)據(jù)庫中的量化后的數(shù)據(jù)特征向量進行分類,得到多個流量分類,建立相應(yīng)的流量分類模型;再將每個流量分類的緩存權(quán)重進行運算,根據(jù)運算得到的分類權(quán)重結(jié)果,建立緩存空間分配模型; 4)模型建好之后,系統(tǒng)根據(jù)建模的結(jié)果,重新分配緩存空間;當(dāng)新的流量進入系統(tǒng)時,系統(tǒng)便依據(jù)新的流量分類模型確定該流量進入哪一個分類;當(dāng)確定所屬類別后,便在相應(yīng)的緩存空間中,依據(jù)LRU算法,確定流量如何被處理;
5)系統(tǒng)進入正常運行后,用戶可以通過對之前設(shè)定的命中率和時間閾值進行動態(tài)的調(diào)整,從而確定建模頻率,定期對經(jīng)過中間節(jié)點的流量進行分類,更新流量分類模型,再將每個流量分類的緩存權(quán)重進行運算,更新緩存空間分配模型,從而保證緩存分配策略與近期節(jié)點的流量情況緊密相關(guān),實現(xiàn)緩存資源利用的最大化。本發(fā)明中,對于網(wǎng)絡(luò)中間節(jié)點無論是網(wǎng)關(guān)代理還是路由器等,其主要的任務(wù)都是提供相應(yīng)的網(wǎng)絡(luò)服務(wù),因此其緩存功能不能夠消耗掉太多的運算資源,影響到其它主要的服務(wù)功能。本發(fā)明中,系統(tǒng)架構(gòu)圖如
圖1,整個系統(tǒng)主要由模型生成模塊、預(yù)測模塊和流量統(tǒng)計模塊三部分構(gòu)成。模型生成模塊,其主要利用采集的歷史流量特征數(shù)據(jù)與歷史分類的命中率數(shù)據(jù)生成相應(yīng)的流量分類模型和緩存空間分配模型。預(yù)測模塊用于對新的流量進行測算,看它屬于哪一個分類,并根據(jù)域內(nèi)緩存策略決定是否將該流量裝入緩存,或者用其替換現(xiàn)有的使用較少的流量。流量統(tǒng)計模塊主要負責(zé)建模所需要的數(shù)據(jù)統(tǒng)計,主要包括流量特征的提取量化以及每個緩存的數(shù)據(jù)流量的命中率信息。這些信息需要盡快的從流量中提取存儲,以便后續(xù)建立模型及利用模型對流量進行分類之用。本發(fā)明中,聚類流程圖如圖2所示。本發(fā)明中利用聚類算法獲得相應(yīng)的流量分類模型,聚類算法模塊的主要作用在于將流量統(tǒng)計模塊統(tǒng)計的量化后的數(shù)據(jù)特征向量。其中,非常重要的是選取什么特征進行量化和利用什么樣的算法進行聚類模型的構(gòu)建。本發(fā)明采用目前較為流行的K-means聚類算法,該算法時間復(fù)雜度低,實現(xiàn)簡單。本發(fā)明中,所述流量特征信息通過網(wǎng)絡(luò)測量工具進行采集,所選取的流量特征向量元組包括連接交互時間統(tǒng)計、占用帶寬、流量中數(shù)據(jù)包長度、流量數(shù)據(jù)量大小和交互間隔。這些元組的數(shù)值與流量的緩存價值息息相關(guān)。其直接反映了流量對于網(wǎng)絡(luò)帶寬資源的占用情況以及流量當(dāng)中數(shù)據(jù)的多少。實驗表明,帶寬資源占用越高且單次連接中平均傳輸?shù)臄?shù)據(jù)量越多的流量擁有更高的緩存價值。鑒于模型的建立與相應(yīng)的建模數(shù)據(jù)采集周期有關(guān),不同的建模周期會影響到聚類模型建立的精準(zhǔn)度,即如果周期過長,建模所采用的數(shù)據(jù)可能并非近期有效地流量統(tǒng)計數(shù)據(jù),而建模周期過短則可能會讓有些原本有效地數(shù)據(jù)無法發(fā)揮作用,并且頻繁建模也會損耗相當(dāng)大的運算效率。因此,在這里我們通過設(shè)定時間閾值與命中率閾值,即在給定時間周期建模的同時,當(dāng)命中率低于一定的時候系統(tǒng)也會自動的重新建模,從而可以讓系統(tǒng)建模頻率更加具有適應(yīng)性。本發(fā)明中,步驟3)中將每個聚類中平均加權(quán)的特征向量值通過計算,得到流量特征決定的緩存權(quán)重。首先,將所有等待輸入模型的數(shù)據(jù)進行標(biāo)準(zhǔn)化處理,假設(shè)等待輸入模型的的數(shù)據(jù)有n組,每組向量中有m個元組,利用以下公式對每一個元組數(shù)據(jù)進行標(biāo)準(zhǔn)化
權(quán)利要求
1.一種基于流量特征分析的網(wǎng)絡(luò)中間節(jié)點緩存優(yōu)化方法,其特征在于,通過分析經(jīng)過中間節(jié)點的流量的特征信息,結(jié)合緩存的命中率情況,建立相應(yīng)的流量特征緩存預(yù)測模型, 分配相應(yīng)的緩存空間,具體步驟如下1)將系統(tǒng)部署在需要緩存的網(wǎng)絡(luò)中間節(jié)點中,同時對分類數(shù)目,默認(rèn)命中率,時間閾值等系統(tǒng)運行中將要用到的系統(tǒng)參數(shù)進行設(shè)置;2)根據(jù)步驟I)所述的系統(tǒng)的分類數(shù)目,將緩存區(qū)平均分配為等大小的緩存空間,當(dāng)流量經(jīng)過中間節(jié)點時,流量統(tǒng)計模塊開始統(tǒng)計流量特征信息,對其進行量化和標(biāo)準(zhǔn)化,形成相應(yīng)的向量存入數(shù)據(jù)庫中;此時,系統(tǒng)會根據(jù)最近最少使用LRU算法來確定當(dāng)前階段的流量是否會被存入緩沖區(qū)當(dāng)中;3)在流量不斷的經(jīng)過中間節(jié)點并緩存的過程中,用戶也不斷的向緩存請求數(shù)據(jù),當(dāng)整個緩存的命中率達到步驟I)中預(yù)設(shè)的命中率閾值時,系統(tǒng)開始將數(shù)據(jù)庫中的量化后的數(shù)據(jù)特征向量進行分類,得到多個流量分類,建立相應(yīng)的流量分類模型;再將每個流量分類的緩存權(quán)重進行運算,根據(jù)運算得到的分類權(quán)重結(jié)果,建立緩存空間分配模型;4)模型建好之后,系統(tǒng)根據(jù)建模的結(jié)果,重新分配緩存空間;當(dāng)新的流量進入系統(tǒng)時, 系統(tǒng)便依據(jù)新的流量分類模型確定該流量進入哪一個分類;當(dāng)確定所屬類別后,便在相應(yīng)的緩存空間中,依據(jù)LRU算法,確定流量如何被處理;5)系統(tǒng)進入正常運行后,用戶可以通過對之前設(shè)定的命中率和時間閾值進行動態(tài)的調(diào)整,從而確定建模頻率,定期對經(jīng)過中間節(jié)點的流量進行分類,更新流量分類模型,再將每個流量分類的緩存權(quán)重進行運算,更新緩存空間分配模型,從而保證緩存分配策略與近期節(jié)點的流量情況緊密相關(guān),提高緩存資源利用率。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于所述系統(tǒng)主要由模型生成模塊、預(yù)測模塊及系統(tǒng)數(shù)據(jù)模塊組成。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于所述中間節(jié)點為路由器或者網(wǎng)關(guān)代理。
4.根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)中間節(jié)點緩存優(yōu)化方法,其特征在于,步驟I)中所述流量特征信息包括連接交互時間統(tǒng)計,占用帶寬,流量中數(shù)據(jù)包長度,流量數(shù)據(jù)量大小,交互間隔;所述流量特征信息通過網(wǎng)絡(luò)測量工具進行采集。
5.根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)中間節(jié)點緩存優(yōu)化方法,其特征在于步驟2)中所述對數(shù)據(jù)的流量特征進行量化和標(biāo)準(zhǔn)化,其利用以下公式進行數(shù)據(jù)處理
6.根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)中間節(jié)點緩存優(yōu)化方法,其特征在于步驟3)、步驟5) 中對流量進行分類采用k-means聚類算法。
7.根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)中間節(jié)點緩存優(yōu)化方法,其特征在于步驟3)中所述對每個流量分類的緩存權(quán)重進行運算,其公式如下
8.根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)中間節(jié)點緩存優(yōu)化方法,其特征在于步驟5)中緩存分配權(quán)重算法采用流量特征決定的緩存權(quán)重與流量命中率結(jié)合決定分類緩存比例的算法,具體數(shù)學(xué)公式如下
全文摘要
本發(fā)明屬于計算機網(wǎng)絡(luò)通信領(lǐng)域,具體為一種基于流量特征分析的網(wǎng)絡(luò)中間節(jié)點緩存優(yōu)化方法。本發(fā)明中當(dāng)流量經(jīng)過中間節(jié)點時,首先對流量進行分類,然后根據(jù)流量所屬的類別,在該類別所被劃分的緩沖區(qū)空間中,根據(jù)該區(qū)域的緩存狀況,結(jié)合最近最少使用(LRU)算法確定流量應(yīng)該如何被處理。定期的,系統(tǒng)會更新流量分類模型并重新分配緩存區(qū)空間給新的不同分類。本發(fā)明主要著眼于解決網(wǎng)絡(luò)中間節(jié)點緩存策略的透明性問題,即設(shè)法保證網(wǎng)絡(luò)中間節(jié)點緩存的算法設(shè)計與特定的用戶層協(xié)議設(shè)計無關(guān),并設(shè)法使得這種滿足編程透明性的策略其效率到最優(yōu)。
文檔編號H04L12/811GK103023801SQ20121050602
公開日2013年4月3日 申請日期2012年12月3日 優(yōu)先權(quán)日2012年12月3日
發(fā)明者趙進, 余浩淼, 王新 申請人:復(fù)旦大學(xué)