一種基于混合高斯的sdn流聚類方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及SDN數(shù)據(jù)流聚類,特別是一種基于混合高斯的SDN流聚類方法。
【背景技術(shù)】
[0002]軟件定義網(wǎng)絡(luò)(SoftwareDefinedNetwork,SDN),是Emulex網(wǎng)絡(luò)一種新型網(wǎng)絡(luò)創(chuàng) 新架構(gòu),是網(wǎng)絡(luò)虛擬化的一種實現(xiàn)方式,其核心技術(shù)OpenFlow通過將網(wǎng)絡(luò)設(shè)備控制面與數(shù) 據(jù)面分離開來,從而實現(xiàn)了網(wǎng)絡(luò)流量的靈活控制,使網(wǎng)絡(luò)作為管道變得更加智能。
[0003] 目前在軟件定義網(wǎng)絡(luò)(SDN)環(huán)境下,針對SDN流的高效、準確地歸類問題的研究還 沒有很大進展。
【發(fā)明內(nèi)容】
[0004] 有鑒于此,本發(fā)明的目的是提出一種基于混合高斯的SDN流聚類方法,使得聚類 結(jié)果的準確度和聚類速度得到很大的提升。
[0005] 本發(fā)明采用以下方案實現(xiàn):一種基于混合高斯的SDN流聚類方法,具體包括以下 步驟;
[0006] 步驟S1 :對原始SDN數(shù)據(jù)進行五元組記錄,并且采用KMeans聚類算法,完成SND數(shù) 據(jù)流與用戶之間的映射關(guān)系;
[0007] 步驟S2 :利用高斯混合模型GMM以及公式
SDN數(shù)據(jù) 流的概率密度分布進行估計,其中K為高斯模型的個數(shù),%為第i個高斯模型的權(quán)重,Pi(x| 0J為第i個高斯模型的概率密度函數(shù),所述Pi(x| 9J的均值為yk,方差為〇 k; 0i =(h,EJ,h,Ei為待求解的數(shù)據(jù)生成模型的參數(shù);
[0008] 步驟S3 :采用流持續(xù)時間、數(shù)據(jù)包數(shù)量、流大小、數(shù)據(jù)包大小、數(shù)據(jù)包間隔時間作 為SDN流向量屬性,通過邊信息獲得SDN流等價集;
[0009] 步驟S4 :對高斯混合模型GMM的數(shù)據(jù)生成模型進行調(diào)整;
[0010] 步驟S5 :采用must-link成對點約束和cannot-link成對點約束來輔助聚類。
[0011] 進一步的,所述步驟S4具體包括以下步驟:
[0012] 步驟S41 :將SDN流邊信息的取值空間表示為
其中,Y= {y:,…,y;,…,yN},y;表示第i個數(shù)據(jù)點的聚類中心,f表示在第s個等價集中第i個數(shù)據(jù)點的聚類中心,Ys表示第s個 等價集Xs的概率分布,Xs包含N3條數(shù)據(jù)流,所有等價集包含的數(shù)據(jù)條數(shù)iV= £iVs,x= 和1. h,…xN}表示N條數(shù)據(jù)流,X=仏,…XM}表示M個等價集,X^X^XM中的其中一個等 價集,yiG{1,…,K},K為聚類中心的個數(shù);
[0013] 步驟S42 :建立基于約束最大化的log-likelyhoodfunction:
[0016] 進一步的,所述的五元組包括源IP、源端口、目標IP、目標端口以及協(xié)議。
[0017] 進一步的,所述的SDN流等價集為獨立同分布。
[0018]進一步的,所述邊信息SDN流的目標ip、目標端口、協(xié)議。
[0019] 與現(xiàn)有技術(shù)相比,本發(fā)明有以下有益效果:因此本發(fā)明引入半監(jiān)督式聚類算法,根 據(jù)用戶歷史數(shù)據(jù),分析數(shù)據(jù)包與數(shù)據(jù)關(guān)聯(lián)特征。本發(fā)明是通過對基本高斯混合模型算法進 行了改進,引入流的邊信息,構(gòu)造基于邊信息等價集約束的高斯混合模型,提高聚類效果, 并將其運用到SDN數(shù)據(jù)流聚類中。本發(fā)明的基于邊信息等價集約束的高斯混合模型比較與 高斯混合模型以及K-Means聚類結(jié)果準確度和聚類速度均有較大的提升。
【附圖說明】
[0020] 圖1為本發(fā)明的方法流程示意圖。
【具體實施方式】
[0021] 下面結(jié)合附圖及實施例對本發(fā)明做進一步說明。
[0022] 如圖1所示,本實施例提供了一種基于混合高斯的SDN流聚類方法,具體包括以下 步驟;
[0023] 步驟S1:對原始SDN數(shù)據(jù)進行五元組記錄,并且采用KMeans聚類算法,完成SND數(shù) 據(jù)流與用戶之間的映射關(guān)系; K
[0024] 步驟S2:利用高斯混合模型GMM以及公式/心?I的=畎),對SDN數(shù)據(jù) /=1 流的概率密度分布進行估計,其中K為高斯模型的個數(shù),%為第i個高斯模型的權(quán)重,Pi(x| 0J為第i個高斯模型的概率密度函數(shù),所述Pi(x| 9J的均值為yk,方差為〇 k; 0i =(h,EJ,h,Ei為待求解的數(shù)據(jù)生成模型的參數(shù);
[0025] 步驟S3:采用流持續(xù)時間、數(shù)據(jù)包數(shù)量、流大小、數(shù)據(jù)包大小、數(shù)據(jù)包間隔時間作 為SDN流向量屬性,通過邊信息獲得SDN流等價集;
[0026] 步驟S4:對高斯混合模型GMM的數(shù)據(jù)生成模型進行調(diào)整;
[0027] 步驟S5:采用must-link成對點約束和cannot-link成對點約束來輔助聚類。
[0028] 在本實施例中,所述步驟S4具體包括以下步驟:
[0029] 步驟S41:將SDN流邊信息的取值空間表示為 QspKK=…= 34 =d? =l,…,,其中,Y= {y!,…,yi,…,yN},yi表示第i個數(shù)據(jù)點的聚類中心,對表示在第s個等價集中第i個數(shù)據(jù)點的聚類中心,Ys表示第s個 m 等價集xs的概率分布,Xs包含心條數(shù)據(jù)流,所有等價集包含的數(shù)據(jù)條數(shù),= ,X= {Xi,…xN}表示N條數(shù)據(jù)流,X= {Xi,…XM}表示M個等價集,X^X^XM中的其中一個等 價集,yiG{1,…,K},K為聚類中心的個數(shù);
[0030] 步驟S42:建立基于約束最大化的log-1ikelyhoodfunction:
[0034] 在本實施例中,所述的SDN流等價集為獨立同分布。
[0035] 在本實施例中,所述邊信息SDN流的目標ip、目標端口、協(xié)議。
[0036] 以上所述僅為本發(fā)明的較佳實施例,凡依本發(fā)明申請專利范圍所做的均等變化與 修飾,皆應(yīng)屬本發(fā)明的涵蓋范圍。
【主權(quán)項】
1. 一種基于混合高斯的SDN流聚類方法,其特征在于包括W下步驟; 步驟S1 :對原始SDN數(shù)據(jù)進行五元組記錄,并且采用Means聚類算法,完成SND數(shù)據(jù) 流與用戶之間的映射關(guān)系; 步驟S2 :利用高斯混合模型GMMW及公對SDN數(shù)據(jù)流的概率 密度分布進行估計,其中K為高斯模型的個數(shù),ai為第i個高斯模型的權(quán)重,Pi(x| 01)為第i個高斯模型的概率密度函數(shù),所述Pi(x| 0 1)的均值為yk,方差為0k; 0 1= (y1,玄1), iii,5: 1為待求解的數(shù)據(jù)生成模型的參數(shù); 步驟S3 :采用流持續(xù)時間、數(shù)據(jù)包數(shù)量、流大小、數(shù)據(jù)包大小、數(shù)據(jù)包間隔時間作為SDN流向量屬性,通過邊信息獲得SDN流等價集; 步驟S4 :對高斯混合模型GMM的數(shù)據(jù)生成模型進行調(diào)整; 步驟S5 :采用must-link成對點約束和cannot-link成對點約束來輔助聚類。2. 根據(jù)權(quán)利要求1所述的一種基于混合高斯的SDN流聚類方法,其特征在于:所述步 驟S4具體包括W下步驟: 步驟S41 :將SDN流邊信息的取值空間表示為 0 =盧 10,; =?'' =-V; =??? =成=F),s=l,???,!/},其中,Y=扔,…,yi,…,ywhy康示第i個數(shù)據(jù)點的聚類中屯、,茲表示在第S個等價集中第i個數(shù)據(jù)點的聚類中屯、,Y,表示第S個 等價集Xg的概率分布,Xg包含Ng條數(shù)據(jù)流,所有等價集包含的數(shù)據(jù)條數(shù)X= (xi,…表示N條數(shù)據(jù)流,X=找1,…XjJ表示M個等價集,X,是X產(chǎn)Xm中的其中一個等 價集,yiE(1,…,K},K為聚類中屯、的個數(shù); 步驟S42 :建立基于約束最大化的log-likelyhoodfunction:良據(jù)所述數(shù)據(jù)生成模型可W得到邊緣概率分布為:其中0B是當前參數(shù)估計,0是迭代計算后的參數(shù)估計,X表示等價 集,Y為等價集在各個聚類中屯、點的分布概率,y=yi,表示每一個聚類中屯、的先驗概率; 步驟S4 3 :將log-likelyhoodfunction簡化為其中,每一個等價集的后驗概率計 算定義如下庚中鱗為當前1類 的權(quán)重,A(<I巧)表示當前參數(shù)估計下X的概率,為為等價集Xg的元素,聲表示舊的參數(shù) 估計,0 1表示新的參數(shù)估計,1表示第1的聚類中屯、; 步驟S44:使用帶約束的最大似然估計的方法求解數(shù)據(jù)生成模型的參數(shù),使得 QE(0, 0B)的取值最大化;其中'I:其中鳴表示等價集Xs的元 素;3. 根據(jù)權(quán)利要求1所述的一種基于混合高斯的SDN流聚類方法,其特征在于:所述的 五元組包括源IP、源端口、目標IP、目標端口W及協(xié)議。4. 根據(jù)權(quán)利要求1所述的一種基于混合高斯的SDN流聚類方法,其特征在于:所述的 SDN流等價集為獨立同分布。5. 根據(jù)權(quán)利要求1所述的一種基于混合高斯的SDN流聚類方法,其特征在于:所述邊 信息SDN流的目標ip、目標端口、協(xié)議。
【專利摘要】本發(fā)明涉及一種基于混合高斯的SDN流聚類方法,通過對基本高斯混合模型算法進行了改進,引入流的邊信息,構(gòu)造基于邊信息等價集約束的高斯混合模型,提高聚類效果,并將其運用到SDN數(shù)據(jù)流聚類中。本發(fā)明使得聚類結(jié)果的準確度和聚類速度得到很大的提升。
【IPC分類】G06F17/30
【公開號】CN105005629
【申請?zhí)枴緾N201510488828
【發(fā)明人】鄭相涵, 陳鋒情
【申請人】福州大學
【公開日】2015年10月28日
【申請日】2015年8月11日