本發(fā)明屬于網(wǎng)絡(luò)流量分類(lèi)方法,具體涉及一種基于t分布混合模型的網(wǎng)絡(luò)多媒體業(yè)務(wù)半監(jiān)督分類(lèi)方法。
背景技術(shù):
近年來(lái),由于網(wǎng)絡(luò)多媒體業(yè)務(wù)的不斷發(fā)展,網(wǎng)絡(luò)流量的監(jiān)測(cè)管理和網(wǎng)絡(luò)安全的難度也隨之提升。對(duì)當(dāng)前網(wǎng)絡(luò)進(jìn)行流量分類(lèi)和分析能夠幫助互聯(lián)網(wǎng)服務(wù)提供商和相關(guān)網(wǎng)絡(luò)管理人員了解當(dāng)前網(wǎng)絡(luò)狀況,以保障網(wǎng)絡(luò)的服務(wù)質(zhì)量(QoS,Quality of Service)、提高計(jì)算機(jī)網(wǎng)絡(luò)的性能。因此,網(wǎng)絡(luò)流量分類(lèi)成為當(dāng)前計(jì)算機(jī)網(wǎng)絡(luò)的研究熱點(diǎn)。
流量分類(lèi)主要可以分為四種:基于端口號(hào)的方式、深度包檢測(cè)、基于統(tǒng)計(jì)的方式和基于行為和機(jī)器學(xué)習(xí)的方式。由于新的網(wǎng)絡(luò)應(yīng)用層出不窮,加密傳輸、動(dòng)態(tài)端口號(hào)等技術(shù)的出現(xiàn)使得前兩種方法對(duì)流量分類(lèi)的準(zhǔn)確率大為降低。而單獨(dú)采用統(tǒng)計(jì)的方式只能從宏觀角度對(duì)流量進(jìn)行分析,不能規(guī)避一些無(wú)關(guān)的統(tǒng)計(jì)特征,導(dǎo)致計(jì)算量大。目前通常采用機(jī)器學(xué)習(xí)的方式進(jìn)行流量分類(lèi)。
關(guān)于流量識(shí)別的機(jī)器學(xué)習(xí)算法,主要分為有監(jiān)督分類(lèi)算法、無(wú)監(jiān)督分類(lèi)算法和半監(jiān)督分類(lèi)算法。半監(jiān)督分類(lèi)是有監(jiān)督分類(lèi)和無(wú)監(jiān)督分類(lèi)的結(jié)合。由于其結(jié)合了已知標(biāo)簽的樣本,可以提前獲取部分信息,所以被一些算法所采用。部分半監(jiān)督網(wǎng)絡(luò)流量分類(lèi)的算法采用K-means及其改進(jìn)算法進(jìn)行分類(lèi);部分算法采用EM(Expectation Maximization)算法并使用高斯混合模型(GMM,Gaussian Mixture Model)進(jìn)行擬合。但是受到數(shù)據(jù)樣本的離群點(diǎn)的影響,這些算法的準(zhǔn)確率都偏低。
技術(shù)實(shí)現(xiàn)要素:
為克服以上算法的缺點(diǎn),本發(fā)明使用t分布混合模型(TMM,t-distribution Mixture Model)的EM算法對(duì)網(wǎng)絡(luò)流量的數(shù)據(jù)樣本進(jìn)行擬合,并提出一種有限t分布混合模型(LTMM,Limited t-distribution Mixture Model),提高了TMM擬合時(shí)的收斂速度。實(shí)驗(yàn)結(jié)果表明,本發(fā)明對(duì)于多媒體網(wǎng)絡(luò)業(yè)務(wù)的流量分類(lèi),總體正確率可達(dá)到97%以上,要優(yōu)于傳統(tǒng)的K-means算法和傳統(tǒng)的高斯混合模型的EM算法。
為達(dá)到上述目的,本發(fā)明的技術(shù)方案為基于t分布混合模型的網(wǎng)絡(luò)多媒體業(yè)務(wù)半監(jiān)督分類(lèi)方法,具體包含以下步驟:
(1)數(shù)據(jù)集預(yù)處理:采集互聯(lián)網(wǎng)上各種多媒體業(yè)務(wù)的數(shù)據(jù)流樣本,然后進(jìn)行預(yù)處理操作;
(2)t分布聚類(lèi)過(guò)程:對(duì)上述網(wǎng)絡(luò)數(shù)據(jù)流樣本執(zhí)行t分布混合模型或有限t分布混合模型的擬合工作,得到K個(gè)多維t分布聚類(lèi);
(3)分類(lèi)過(guò)程:對(duì)上述聚類(lèi)后的結(jié)果進(jìn)一步進(jìn)行分類(lèi),并計(jì)算最后分類(lèi)的總體正確率。
進(jìn)一步,上述預(yù)處理操作具體包括:
(2.1)對(duì)數(shù)據(jù)流樣本進(jìn)行z-score標(biāo)準(zhǔn)化操作,使數(shù)據(jù)無(wú)量綱化;
(2.2)特征提取,又包括以下步驟:
(2.2.1)根據(jù)數(shù)據(jù)流樣本,分別采用信息增益、信息增益率、一致性特征選擇方式進(jìn)行特征選擇,提取出相應(yīng)的特征組合;
(2.2.2)對(duì)這些特征組合分別進(jìn)行后續(xù)的實(shí)驗(yàn)分析,確定算法對(duì)應(yīng)的較好的特征選擇方法,提取出有效的特征組合;
(2.3)劃分已標(biāo)識(shí)樣本和未標(biāo)識(shí)樣本,采用半監(jiān)督分類(lèi),隨機(jī)選取一定比例樣本作為已標(biāo)識(shí)樣本,其余部分作為未標(biāo)識(shí)樣本來(lái)檢測(cè)實(shí)驗(yàn)效果。
作為優(yōu)選,上述一定比例為10%。
上述t分布聚類(lèi)過(guò)程,具體包括:
(3.1)為了實(shí)現(xiàn)聚類(lèi)過(guò)程,首先需要對(duì)數(shù)據(jù)變量進(jìn)行初始化,設(shè)數(shù)據(jù)樣本為X={x1,...,xN},聚類(lèi)數(shù)為K,包括:
(3.1.1)初始化K個(gè)聚類(lèi)中心,記為μ1,...,μK;
(3.1.2)初始化混合模型參數(shù)π1,...,πK為1/K;
(3.1.3)使用協(xié)方差公式,計(jì)算每個(gè)混合模型協(xié)方差Σ1,...,ΣK;
(3.2)根據(jù)μ,Σ和π向量,執(zhí)行EM算法的E步,具體步驟為:
(3.2.1)根據(jù)已求的μ,Σ和π參數(shù),使用貝葉斯公式計(jì)算t分布模型的后驗(yàn)概率;
(3.2.2)如果采用LTMM模型,則需要計(jì)算每個(gè)樣本點(diǎn)到聚類(lèi)中心的馬氏距離,根據(jù)t分布的3σ準(zhǔn)則確定離群噪聲點(diǎn);
(3.3)根據(jù)EM算法的M步,更新μ,Σ和π,具體步驟為:
(3.3.1)如果采用LTMM模型,則需要在計(jì)算M步之前,忽略離群噪聲點(diǎn)的影響,否則算法收斂速度較慢;
(3.3.2)根據(jù)EM算法的M步公式,更新μ,Σ和π;
(3.4)計(jì)算算法的似然函數(shù)L(x),如果第k+1次迭代后計(jì)算的似然函數(shù)L(k+1)(x)與第k次迭代后的似然函數(shù)L(k)(x)的差值小于誤差值eps,則算法迭代結(jié)束;否則返回步驟3.2。
上述t分布混合模型進(jìn)行擬合包括:
(5.1)初始化聚類(lèi)中心μ、協(xié)方差Σ和混合模型權(quán)重π;
(5.2)執(zhí)行t分布混合模型的EM算法,更新參數(shù);
(5.3)計(jì)算EM算法的似然函數(shù),如果第k+1次迭代的似然函數(shù)與第k次似然函數(shù)之間的差值小于誤差值,則算法迭代結(jié)束;否則返回步驟5.2。
上述有限t分布混合模型進(jìn)行擬合包括:
(6.1)計(jì)算E步,根據(jù)已求的μ,Σ和π參數(shù),使用貝葉斯公式計(jì)算后驗(yàn)概率;
(6.2)計(jì)算樣本點(diǎn)到聚類(lèi)中心的馬氏距離,根據(jù)t分布的3σ準(zhǔn)則確定離群噪聲點(diǎn);
(6.3)忽略離群噪聲點(diǎn)的影響,計(jì)算M步,更新μ,Σ和π參數(shù)。
上述分類(lèi)過(guò)程具體分為以下三類(lèi):
(7.1)聚類(lèi)后的簇中沒(méi)有已標(biāo)識(shí)的樣本,則這個(gè)聚類(lèi)可視為未知聚類(lèi),不在考慮范圍內(nèi);
(7.2)聚類(lèi)后的簇中已標(biāo)識(shí)的樣本的類(lèi)型僅有一種,則該聚類(lèi)的所有樣本都劃分為該類(lèi)型;
(7.3)聚類(lèi)后的簇中如果含多種已標(biāo)識(shí)的樣本類(lèi)型,則需要進(jìn)行進(jìn)一步的多分類(lèi)過(guò)程。
上述多分類(lèi)過(guò)程是采用Random Forest進(jìn)行更細(xì)粒度的劃分,最后根據(jù)結(jié)果綜合確定分類(lèi)的準(zhǔn)確率。
上述多媒體業(yè)務(wù)的數(shù)據(jù)流樣本包括6種多媒體業(yè)務(wù)類(lèi)型,即:在線標(biāo)清直播視頻、在線標(biāo)清非直播視頻、網(wǎng)頁(yè)瀏覽、在線音頻收聽(tīng)、網(wǎng)頁(yè)瀏覽、網(wǎng)絡(luò)語(yǔ)音聊天。
與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果:
1、本發(fā)明采用半監(jiān)督分類(lèi)方法對(duì)網(wǎng)絡(luò)多媒體業(yè)務(wù)進(jìn)行流量分類(lèi),這種方法結(jié)合了有監(jiān)督分類(lèi)和無(wú)監(jiān)督分類(lèi),可以提高網(wǎng)絡(luò)流量分類(lèi)的可靠性和有效性。
2、本發(fā)明使用TMM模型對(duì)網(wǎng)絡(luò)數(shù)據(jù)樣本進(jìn)行擬合,由于t分布的“長(zhǎng)尾”特性,能夠更好的匹配數(shù)據(jù)樣本的尾部特征,所得到的數(shù)據(jù)擬合模型將更準(zhǔn)確。
3、本發(fā)明提出LTMM模型,在進(jìn)行流量分類(lèi)的EM算法時(shí)由于忽略了數(shù)據(jù)樣本離群邊緣點(diǎn)的影響,可以在盡可能不降低準(zhǔn)確率的前提下顯著地降低迭代次數(shù)。
附圖說(shuō)明
圖1是本發(fā)明網(wǎng)絡(luò)多媒體流半監(jiān)督分類(lèi)的模型圖。
圖2是圖1中預(yù)處理部分的流程示意圖。
圖3是圖1中t分布聚類(lèi)部分的流程示意圖。
圖4是本發(fā)明在不同的聚類(lèi)數(shù)下與現(xiàn)有技術(shù)的仿真結(jié)果對(duì)比圖。
具體實(shí)施方式
現(xiàn)結(jié)合說(shuō)明書(shū)附圖對(duì)本發(fā)明創(chuàng)造作進(jìn)一步的詳細(xì)說(shuō)明。
網(wǎng)絡(luò)流量分布的數(shù)據(jù)集常用QoS特征進(jìn)行衡量,包括數(shù)據(jù)包大小、數(shù)據(jù)包傳輸間隔等。為了衡量數(shù)據(jù)樣本的分布情況,可以引入高斯混合模型(GMM)對(duì)樣本進(jìn)行擬合。而t分布可以看作高斯分布的拓展。由于其具有“長(zhǎng)尾”特性,可以更準(zhǔn)確地?cái)M合出數(shù)據(jù)樣本的分布情況。因此,數(shù)據(jù)樣本可以進(jìn)一步用t分布混合模型(TMM)進(jìn)行擬合。
對(duì)于高斯分布,數(shù)據(jù)樣本存在3σ準(zhǔn)則,即數(shù)據(jù)樣本如果出現(xiàn)在置信區(qū)間(μ-3σ,μ+3σ)外的取值不足0.3%,則樣本可以認(rèn)為是噪聲點(diǎn)。t分布由于存在自由度的影響,因此置信區(qū)間可以進(jìn)行修正。當(dāng)t分布自由度ν=3時(shí),出現(xiàn)在(μ-9.2187σ,μ+9.2187σ)外的取值不足0.3%;當(dāng)自由度ν=5時(shí),出現(xiàn)在(μ-5.5070σ,μ+5.5070σ)外的取值不足0.3%,即樣本可以認(rèn)為是噪聲點(diǎn)。
在計(jì)算高斯混合模型的E步中,需要計(jì)算馬氏距離(x-μ)r∑-1(x-μ)。由于馬氏距離可以看成是歐式距離||x-μ||的拓展,所以在計(jì)算馬氏距離時(shí)加上限制:如果某個(gè)樣本到所有K個(gè)高斯分布的馬氏距離均大于3,那么該樣本可以看作是離群點(diǎn)噪聲。在每一次計(jì)算M步的時(shí)候,首先忽略掉這些噪聲樣本,那么計(jì)算得到μ和Σ值就不會(huì)受到這些樣本的影響。這樣就完成了GMM模型的優(yōu)化。把這種模型稱為有限高斯混合模型(LGMM,Limited Gaussian Mixture Model)。
有限t分布混合模型(LTMM)的原理與有限高斯混合模型類(lèi)似,只不過(guò)需要修正馬氏距離的限制。以ν=5為例,由于雙側(cè)置信度為99.73%的置信區(qū)間為(μ-5.5070σ,μ+5.5070σ),所以算法可修正為:如果某個(gè)樣本到所有K個(gè)高斯分布的馬氏距離均大于5.5070,則該樣本可視為噪聲樣本,在執(zhí)行EM算法前可以忽略。
綜上所述,有限的t分布混合模型迭代算法的步驟如下:
步驟1:為了實(shí)現(xiàn)聚類(lèi)過(guò)程,首先需要對(duì)數(shù)據(jù)的聚類(lèi)中心μ、協(xié)方差Σ、混合模型參數(shù)π進(jìn)行初始化。
步驟2:執(zhí)行EM算法的E步,具體步驟為:
(1)根據(jù)已求的μ,Σ和π參數(shù),使用貝葉斯公式計(jì)算t分布模型的后驗(yàn)概率。
(2)計(jì)算每個(gè)樣本點(diǎn)到聚類(lèi)中心的馬氏距離,根據(jù)t分布的3σ準(zhǔn)則確定離群噪聲點(diǎn)。
步驟3:執(zhí)行EM算法的M步,具體步驟為:
(1)在計(jì)算M步之前,忽略離群噪聲點(diǎn)的影響,否則算法收斂速度較慢;
(2)根據(jù)EM算法的M步公式,更新μ,Σ和π
步驟4:計(jì)算算法的似然函數(shù)。如果第k+1次迭代后的似然函數(shù)與第k次的似然函數(shù)之間的差值小于誤差值,則算法迭代結(jié)束;否則返回步驟2。
如圖1所示,本發(fā)明提出的一種基于t分布混合模型的網(wǎng)絡(luò)多媒體業(yè)務(wù)半監(jiān)督分類(lèi)方法,該方法包括3個(gè)部分:數(shù)據(jù)集預(yù)處理、聚類(lèi)過(guò)程和分類(lèi)過(guò)程:
(1)采集互聯(lián)網(wǎng)上各種多媒體業(yè)務(wù)的數(shù)據(jù)流樣本,而后進(jìn)行預(yù)處理操作。
(2)對(duì)網(wǎng)絡(luò)數(shù)據(jù)流樣本執(zhí)行t分布混合模型(TMM)或有限t分布混合模型(LTMM)的擬合工作,得到K個(gè)多維t分布聚類(lèi)。
(3)聚類(lèi)后的結(jié)果進(jìn)一步進(jìn)行分類(lèi),并計(jì)算最后分類(lèi)的總體正確率。
下面對(duì)本發(fā)明實(shí)施例進(jìn)行詳細(xì)的說(shuō)明。
如圖2所示,采集互聯(lián)網(wǎng)上各種多媒體業(yè)務(wù)的數(shù)據(jù)流樣本,而后進(jìn)行預(yù)處理操作。具體步驟包括:
S101:對(duì)數(shù)據(jù)樣本進(jìn)行z-score標(biāo)準(zhǔn)化操作,使數(shù)據(jù)無(wú)量綱化。
S102:特征提取步驟:
(1)根據(jù)數(shù)據(jù)流樣本,分別采用信息增益、信息增益率、一致性特征選擇等方式進(jìn)行特征選擇,提取出相應(yīng)的特征組合;
(2)對(duì)這些特征組合分別進(jìn)行后續(xù)的實(shí)驗(yàn)分析,確定算法對(duì)應(yīng)的較好的特征選擇方法,提取出有效的特征組合。
S103:劃分已標(biāo)識(shí)樣本和未標(biāo)識(shí)樣本,采用半監(jiān)督分類(lèi),隨機(jī)選取10%作為已標(biāo)識(shí)樣本,90%作為未標(biāo)識(shí)樣本來(lái)檢測(cè)實(shí)驗(yàn)效果。
如圖3所示,對(duì)網(wǎng)絡(luò)數(shù)據(jù)流樣本執(zhí)行t分布聚類(lèi)過(guò)程,具體包括:
S201:為了實(shí)現(xiàn)聚類(lèi)過(guò)程,首先需要對(duì)數(shù)據(jù)變量的初始化。設(shè)數(shù)據(jù)樣本為X={x1,...,xN},聚類(lèi)數(shù)為K,包括:
(1)初始化K個(gè)聚類(lèi)中心,記為μ1,...,μK
(2)初始化混合模型參數(shù)π1,...,πK為1/K
(3)使用協(xié)方差公式,計(jì)算每個(gè)混合模型協(xié)方差Σ1,...,ΣK
S202:根據(jù)μ,Σ和π向量,執(zhí)行EM算法的E步,具體步驟為:
(1)根據(jù)已求的μ,Σ和π參數(shù),使用貝葉斯公式計(jì)算t分布模型的后驗(yàn)概率。
(2)如果采用LTMM模型,則需要計(jì)算每個(gè)樣本點(diǎn)到聚類(lèi)中心的馬氏距離,根據(jù)t分布的3σ準(zhǔn)則確定離群噪聲點(diǎn)。
S203:根據(jù)EM算法的M步,更新μ,Σ和π。具體步驟為:
(1)如果采用LTMM模型,則需要在計(jì)算M步之前,忽略離群噪聲點(diǎn)的影響,否則算法收斂速度較慢;
(2)根據(jù)EM算法的M步公式,更新μ,Σ和π
S204:計(jì)算算法的似然函數(shù)L(x)。如果第k+1次迭代后計(jì)算的似然函數(shù)L(k+1)(x)與第k次迭代后的似然函數(shù)L(k)(x)的差值小于誤差值eps,則算法迭代結(jié)束;否則返回步驟2。
聚類(lèi)后的結(jié)果進(jìn)一步進(jìn)行分類(lèi),并計(jì)算最后分類(lèi)的總體正確率。具體分為三類(lèi):
(1)聚類(lèi)后的簇中沒(méi)有已標(biāo)識(shí)的樣本,則這個(gè)聚類(lèi)可視為未知聚類(lèi),不在考慮范圍內(nèi);
(2)聚類(lèi)后的簇中已標(biāo)識(shí)的樣本的類(lèi)型僅有一種,則該聚類(lèi)的所有樣本都劃分為該類(lèi)型;
(3)聚類(lèi)后的簇中含多種已標(biāo)識(shí)的樣本類(lèi)型,那么還要進(jìn)行進(jìn)一步的多分類(lèi)過(guò)程。本發(fā)明采用Random Forest進(jìn)行更細(xì)粒度的劃分,最后將結(jié)果綜合比較分類(lèi)的準(zhǔn)確率。
本發(fā)明的仿真結(jié)果:
本發(fā)明的仿真實(shí)驗(yàn)使用matlab 2012b平臺(tái)上完成。實(shí)驗(yàn)的數(shù)據(jù)集采用的是南京郵電大學(xué)校園網(wǎng)內(nèi)抓取的網(wǎng)絡(luò)多媒體業(yè)務(wù)流。數(shù)據(jù)集的時(shí)間跨度是2014年4月到2015年8月,使用的抓包工具是WireShark。涉及的網(wǎng)絡(luò)多媒體業(yè)務(wù)主要可以分為6種多媒體業(yè)務(wù)類(lèi)型:在線標(biāo)清直播視頻、在線標(biāo)清非直播視頻、網(wǎng)頁(yè)瀏覽(內(nèi)容為文字和圖片)、在線音頻收聽(tīng)、網(wǎng)頁(yè)瀏覽(內(nèi)容為文字、圖片和視頻)、網(wǎng)絡(luò)語(yǔ)音聊天。每類(lèi)業(yè)務(wù)均為60條數(shù)據(jù)流,每條數(shù)據(jù)流的長(zhǎng)度均為半個(gè)小時(shí)。
圖4給出了不同的聚類(lèi)數(shù)對(duì)不同算法的總體正確率。從圖4(a)中可以直觀的看出,EM算法要優(yōu)于K-means及其改進(jìn)算法。對(duì)于TMM,采用的模型無(wú)論取自由度ν=3或5,總體的分類(lèi)正確率均要高于GMM模型的分類(lèi)正確率。因而采用TMM模型能更精確的擬合流量模型的數(shù)據(jù)集。
圖4(b)驗(yàn)證了常規(guī)混合模型和改進(jìn)的混合模型之間的差異。從圖中可以看出,TMM模型的分類(lèi)正確率均要高于GMM模型的分類(lèi)正確率,而改進(jìn)混合模型可能會(huì)導(dǎo)致總體分類(lèi)正確率的降低。但TMM模型和LTMM模型的擬合結(jié)果均優(yōu)于GMM模型,證明LTMM模型在正確率方面還是可以接受的。
步驟2中使用t分布的3σ準(zhǔn)則執(zhí)行去噪過(guò)程。對(duì)于高斯分布,數(shù)據(jù)樣本存在3σ準(zhǔn)則,即數(shù)據(jù)樣本如果出現(xiàn)在置信區(qū)間(μ-3σ,μ+3σ)外的取值不足0.3%,則樣本可以認(rèn)為是噪聲點(diǎn)。
由于t分布可以看作高斯分布的拓展,因此也存在類(lèi)似的3σ準(zhǔn)則。根據(jù)t分布表,置信區(qū)間將有所變動(dòng)。例如,當(dāng)t分布取自由度ν=5時(shí),出現(xiàn)在(μ-5.5070σ,μ+5.5070σ)外的取值不足0.3%。因此,當(dāng)某個(gè)樣本和所有K個(gè)聚類(lèi)中心的馬氏距離均大于5.5070,那么該樣本可以看作是離群噪聲點(diǎn)。在EM算法每次計(jì)算M步時(shí),首先忽略掉這些噪聲樣本,那么計(jì)算得到μ和Σ就不會(huì)受到這些樣本的影響,算法迭代次數(shù)降低,收斂速度提高。
對(duì)于算法的迭代次數(shù),經(jīng)過(guò)實(shí)驗(yàn)可以得出,當(dāng)ν=3,TMM模型的平均迭代次數(shù)為115.6,而LTMM模型的平均迭代次數(shù)僅為67.8;ν=5,TMM模型的平均迭代次數(shù)為148.4,而LTMM模型的平均迭代次數(shù)僅為60.1。證明雖然LTMM模型的總體正確率要稍低于TMM模型,但是收斂速度有顯著提高。