專利名稱:一種IP網(wǎng)絡(luò)下基于業(yè)務(wù)流QoS監(jiān)測的故障定位方法
技術(shù)領(lǐng)域:
本發(fā)明屬于網(wǎng)絡(luò)管理領(lǐng)域,為在各種提供QoS保證的IP網(wǎng)絡(luò)中的SLA(Service Level Agreement)服務(wù)等級協(xié)議的實(shí)施進(jìn)行業(yè)務(wù)流級別的QoS監(jiān)測以及故障定位,從而能夠通知網(wǎng)管系統(tǒng)進(jìn)行資源分配的調(diào)整,以保證網(wǎng)絡(luò)的服務(wù)質(zhì)量水平。
背景技術(shù):
隨著hternet和IP網(wǎng)絡(luò)的迅猛發(fā)展,越來越多的應(yīng)用業(yè)務(wù)開始通過IP網(wǎng)絡(luò)來實(shí)現(xiàn)傳輸。但是,IP網(wǎng)絡(luò)提供的是“盡力而為(Best Effort)”的服務(wù),沒有QoS (Quality of Service)的保證。因此,業(yè)務(wù)流量在傳輸過程中很容易由于網(wǎng)絡(luò)的擁塞而產(chǎn)生抖動、延遲、 丟包等現(xiàn)象。而目前的應(yīng)用業(yè)務(wù)中,實(shí)時(shí)業(yè)務(wù)的比重越來越大。實(shí)時(shí)性業(yè)務(wù)的一個(gè)很大特點(diǎn)就是數(shù)據(jù)傳輸量大,對抖動、丟包和延遲等QoS性能參數(shù)敏感,如VoIP、視頻點(diǎn)播和視頻
石隊(duì)寸。由于上述原因,網(wǎng)絡(luò)提供商除了積極的提供各種內(nèi)容豐富網(wǎng)絡(luò)服務(wù)外,更加關(guān)注于對所提供的網(wǎng)絡(luò)服務(wù)的質(zhì)量QoS的保證和評價(jià)。各大網(wǎng)絡(luò)提供商紛紛向各個(gè)級別的客戶(如企業(yè)用戶,政府機(jī)構(gòu)甚至是家庭用戶等)提供QoS和安全性保證,與此同時(shí)這些客戶也有迫切的希望加入到對網(wǎng)絡(luò)服務(wù)管理和質(zhì)量評價(jià)中來,至此SLA(Service Level Agreement)服務(wù)等級協(xié)議在各大國際標(biāo)準(zhǔn)化組織的積極策動下應(yīng)運(yùn)而生。SLA服務(wù)等級協(xié)議規(guī)定了網(wǎng)絡(luò)提供商在各個(gè)網(wǎng)絡(luò)域內(nèi)所應(yīng)該提供的最低、最高和平均狀況下的網(wǎng)絡(luò)性能指標(biāo)。因此,為了實(shí)現(xiàn)SLA就要求網(wǎng)絡(luò)提供商能夠?qū)崟r(shí)的掌握當(dāng)前運(yùn)行網(wǎng)絡(luò)的性能,及時(shí)的獲得網(wǎng)絡(luò)中各個(gè)域的QoS性能參數(shù)(如抖動、延遲和帶寬等)。在獲得這些SLA中規(guī)定的網(wǎng)絡(luò)性能參數(shù),我們可以對網(wǎng)絡(luò)運(yùn)行的可靠性、有效性進(jìn)行實(shí)時(shí)的監(jiān)測。從實(shí)際意義上講,目前各個(gè)運(yùn)營商都在積極建設(shè)自己的SLA評價(jià)和監(jiān)測體系,實(shí)現(xiàn)SLA的首要也是最難解決的一個(gè)問題就是對服務(wù)技術(shù)指標(biāo)的實(shí)時(shí)監(jiān)測。如果在某個(gè)時(shí)間內(nèi),QoS服務(wù)質(zhì)量沒有達(dá)到所簽訂SLA協(xié)議的要求,就要定位出現(xiàn)故障的網(wǎng)絡(luò)節(jié)點(diǎn),通知網(wǎng)管系統(tǒng)對故障節(jié)點(diǎn)進(jìn)行資源再分配,從而使故障節(jié)點(diǎn)的QoS指標(biāo)達(dá)到SLA協(xié)議所要求的最低標(biāo)準(zhǔn)。除此之外,為了避免網(wǎng)管系統(tǒng)頻繁操作所帶來的巨大開銷,在每次對網(wǎng)絡(luò)故障定位的同時(shí),所消耗的網(wǎng)絡(luò)帶寬和其它資源不易過大,否則沉重的監(jiān)測和定位開銷會給本來負(fù)載很重的網(wǎng)絡(luò)系統(tǒng)帶來更多的載荷。
發(fā)明內(nèi)容
本發(fā)明設(shè)計(jì)了一種IP網(wǎng)絡(luò)下基于業(yè)務(wù)流QoS監(jiān)測的故障定位方法,其中采用了一種基于業(yè)務(wù)流的分布式QoS監(jiān)測框架,利用業(yè)務(wù)傳輸過程中自身具有的相關(guān)性和QoS故障的傳播性等特點(diǎn)得到一種自適應(yīng)的修正算法,從而確定真正影響SLA降級的故障源。技術(shù)方案基于業(yè)務(wù)流的分布式QoS監(jiān)測框架包括中心服務(wù)器,QoS聚集服務(wù)器,業(yè)務(wù)流數(shù)據(jù)庫以及遍布于各個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)之上的QoS監(jiān)測器
中心服務(wù)器中心服務(wù)器從全網(wǎng)的觀點(diǎn)出發(fā),負(fù)責(zé)管理各個(gè)監(jiān)測域,直接管轄每個(gè)監(jiān)測域中的QoS聚集服務(wù)器,并具有全局分析的能力。聚集QoS服務(wù)器負(fù)責(zé)管理并協(xié)調(diào)本域內(nèi)的各個(gè)監(jiān)測器的監(jiān)測行為,聽從中心服務(wù)器的監(jiān)控請求進(jìn)而有選擇的啟用本域內(nèi)的監(jiān)測器,并能夠從各個(gè)監(jiān)測器中獲取對路由節(jié)點(diǎn)的QoS性能監(jiān)測數(shù)據(jù)并進(jìn)行分析。業(yè)務(wù)流數(shù)據(jù)庫每一個(gè)聚集QoS服務(wù)器均維護(hù)一個(gè)業(yè)務(wù)流數(shù)據(jù)庫。初始化,本地業(yè)務(wù)流數(shù)據(jù)庫均向所在域內(nèi)的網(wǎng)絡(luò)節(jié)點(diǎn)上的監(jiān)測器進(jìn)行注冊,當(dāng)監(jiān)測器監(jiān)測到某個(gè)業(yè)務(wù)流時(shí),以自己的地址以及業(yè)務(wù)流ID向RTANS登記,生成此業(yè)務(wù)的動態(tài)路徑信息表。QoS監(jiān)測器由各個(gè)監(jiān)測域的QoS聚集服務(wù)器直接管轄,一般部署與路由節(jié)點(diǎn)之上,主要完成對本地網(wǎng)絡(luò)性能信息的管理和獲取,并有處理數(shù)據(jù)的功能。本文中基于業(yè)務(wù)流QoS監(jiān)測的故障定位的設(shè)計(jì)方法如下監(jiān)測框架初始化中心服務(wù)器從全網(wǎng)的觀點(diǎn)出發(fā)管理各個(gè)監(jiān)控域,各個(gè)監(jiān)控域的QoS聚集服務(wù)器負(fù)責(zé)本域內(nèi)的所有QoS監(jiān)測器;每個(gè)監(jiān)測域維持一個(gè)業(yè)務(wù)流數(shù)據(jù)庫。每個(gè)本地業(yè)務(wù)流數(shù)據(jù)庫均向所在域內(nèi)的網(wǎng)絡(luò)路由節(jié)點(diǎn)上的QoS監(jiān)測器進(jìn)行注冊,當(dāng)監(jiān)測器監(jiān)測到某個(gè)業(yè)務(wù)流時(shí), 以自己的地址和業(yè)務(wù)流ID向業(yè)務(wù)流數(shù)據(jù)庫進(jìn)行登記,生成此業(yè)務(wù)流的業(yè)務(wù)流表。端到端的的SLA性能測量每隔一個(gè)時(shí)間片進(jìn)行一次端到端的的SLA性能測量,若滿足SLA合同中的規(guī)定中的服務(wù)質(zhì)量請求,則表明業(yè)務(wù)流運(yùn)行正常;時(shí)間片的大小可以根據(jù)SLA定義時(shí)的要求或用戶需求而調(diào)整,終端用戶在感到到故障時(shí)也可以直接向中心服務(wù)器申請SLA性能測量。動態(tài)業(yè)務(wù)路徑查詢當(dāng)發(fā)現(xiàn)業(yè)務(wù)流SLA性能指標(biāo)不滿足時(shí),中心服務(wù)器向各個(gè)域中的聚集QoS服務(wù)器發(fā)送業(yè)務(wù)流ID,本地聚集QoS服務(wù)器查詢本地業(yè)務(wù)流服務(wù)器獲取業(yè)務(wù)流在本域內(nèi)的途徑節(jié)點(diǎn)信息并發(fā)送給中心服務(wù)器,中心服務(wù)器進(jìn)行綜合并獲取該業(yè)務(wù)的動態(tài)路徑信息表。QoS性能數(shù)據(jù)收集與綜合評判1)中心服務(wù)器根據(jù)業(yè)務(wù)的動態(tài)路徑信息表向所有包括路徑節(jié)點(diǎn)的監(jiān)控域的聚集 QoS服務(wù)器發(fā)送路由節(jié)點(diǎn)監(jiān)測申請,本地的聚集QoS服務(wù)器控制對屬于本地的路由節(jié)點(diǎn)的監(jiān)測器發(fā)送監(jiān)測申請。2)中心服務(wù)器收集各個(gè)監(jiān)控域的聚集QoS服務(wù)器傳上來的QoS性能指標(biāo)數(shù)據(jù),并進(jìn)行綜合計(jì)算業(yè)務(wù)路徑的綜合QoS評價(jià)向量,判斷是否滿足SLA要求,如果滿足則表示業(yè)務(wù)流運(yùn)行正常。故障節(jié)點(diǎn)定位1)計(jì)算業(yè)務(wù)流途經(jīng)路徑中的每一個(gè)路由節(jié)點(diǎn)的節(jié)點(diǎn)QoS評價(jià)值,并與SLA要求進(jìn)行比較,找出其中不符合要求的節(jié)點(diǎn),稱為疑似故障節(jié)點(diǎn)。2)對于每個(gè)疑似故障節(jié)點(diǎn),依次尋找出其直接前驅(qū)和后繼疑似故障節(jié)點(diǎn)進(jìn)行相關(guān)性分析,對節(jié)點(diǎn)評價(jià)值進(jìn)行修正,如果修正后的值仍然不滿足SLA要求,則確定其為故障節(jié)
點(diǎn)ο
圖1為基于業(yè)務(wù)流的分布式QoS監(jiān)測框架圖。圖2為基于業(yè)務(wù)流QoS監(jiān)測的故障定位方法流程圖。
具體實(shí)施例方式下面結(jié)合實(shí)例對本發(fā)明作進(jìn)一步的描述,但該實(shí)例不應(yīng)理解為對本發(fā)明的限制。QoS監(jiān)測框架的實(shí)現(xiàn)與通信機(jī)制將網(wǎng)絡(luò)整個(gè)網(wǎng)絡(luò)根據(jù)地理位置劃分成幾個(gè)監(jiān)測域,每個(gè)監(jiān)測域內(nèi)設(shè)置一個(gè)QoS聚集服務(wù)器,負(fù)責(zé)本域內(nèi)QoS性能數(shù)據(jù)的整合分析,并關(guān)聯(lián)域內(nèi)唯一一個(gè)業(yè)務(wù)流數(shù)據(jù)庫服務(wù)器。每一個(gè)網(wǎng)絡(luò)路由節(jié)點(diǎn)都都配置了一個(gè)監(jiān)測模塊,負(fù)責(zé)監(jiān)測本地網(wǎng)絡(luò)性能信息的管理和獲取。每當(dāng)有監(jiān)測模塊發(fā)現(xiàn)有新的業(yè)務(wù)流通過路由節(jié)點(diǎn)時(shí),QoS監(jiān)測模塊將本路由節(jié)點(diǎn)地址以及業(yè)務(wù)流ID (如五元組源目的地址,源目的端口,協(xié)議類型)向業(yè)務(wù)流數(shù)據(jù)庫登記,如果本業(yè)務(wù)流ID已經(jīng)在已經(jīng)登記在業(yè)務(wù)流數(shù)據(jù)庫中,則在該業(yè)務(wù)流ID的表中中增加一條表項(xiàng)記錄,否則在數(shù)據(jù)庫中新建一個(gè)此業(yè)務(wù)流的動態(tài)路徑信息表。聚集QoS服務(wù)器與各路由節(jié)點(diǎn)上的監(jiān)測模塊,中心服務(wù)器與聚集服務(wù)器之間的通信采用SNMP協(xié)議的提供的Get/Set操作來實(shí)現(xiàn)。綜合QoS評價(jià)計(jì)算Path表示一個(gè)業(yè)務(wù)流給定的傳輸路徑,其中Pij表示在第i個(gè)域內(nèi)的第j個(gè)網(wǎng)絡(luò) IJ ; ^^ ·1)時(shí)延Delay(Path)=Zf=1 S^1D(Pij);2)抖動=Jitter(Path)=MaxiD(S)1 PiIMiniD(DGii1Psk);3)丟包率Loss(Path)=l-nf=1 ^(1 — L(Pij)Y,4)帶寬=Width (Path) = Min {Width (Pi)} ·對于一個(gè)確定路徑的業(yè)務(wù)流,由本地監(jiān)測器監(jiān)測的QoS性能數(shù)據(jù)經(jīng)由聚集QoS服務(wù)器匯總到中心服務(wù)器得到的QoS統(tǒng)計(jì)數(shù)據(jù)可以由一個(gè)矩陣表示
xIlX12 ‘“XX=X21X22 · 1-· λxPlXp 2 ,“ X
'ρπ」 其中Xij表示業(yè)務(wù)流途徑的第i個(gè)路由節(jié)點(diǎn)的第j個(gè)QoS性能參數(shù)的值。通過此QoS參數(shù)矩陣以及上面時(shí)延、抖動、丟包率、帶寬的公式,可以計(jì)算出綜合QoS評價(jià)向量
S(Path) =< Delay(Path)1 Jitter (Path), Loss (Path), Width (Path) >T,再與業(yè)務(wù)路徑的
SLA要求進(jìn)行比較。節(jié)點(diǎn)QoS評價(jià)計(jì)算我們可以獲取每個(gè)QoS參數(shù)的SLA違例最小(大)值n (XiTx)以及SLA合同規(guī)定的最大(小)值Xi1Tx (xf11)。則第i個(gè)節(jié)點(diǎn)上的第j個(gè)QoS參數(shù)的適合度情況可以表
示為g.r SxCn (Xi1滿足大于約束)或Eii=Xt"Sn (Xi1滿足小于約束)
VAij ^jMiyv J)以 Sij ^majt.^mm
接下來對業(yè)務(wù)流途徑的第i個(gè)節(jié)點(diǎn)的所有QoS參數(shù)進(jìn)行綜合評價(jià)節(jié)點(diǎn)評價(jià)值A(chǔ) = blgil+b2gi2+··· bngin,其中Id1到bn為η個(gè)QoS參數(shù)對應(yīng)的權(quán)重因子,VId2+…+bn = 1。節(jié)點(diǎn)相關(guān)性分析和修正函數(shù)業(yè)務(wù)流中的任意兩個(gè)節(jié)點(diǎn)i,j,如果i,j之間有s個(gè)網(wǎng)絡(luò)節(jié)點(diǎn),則i,j節(jié)點(diǎn)之間的才目關(guān)性因子。=(s功’其中
_ EitQi-ECQ^lCQj-ECQj]]}
權(quán)利要求
1.一種IP網(wǎng)絡(luò)下基于業(yè)務(wù)流QoS監(jiān)測的故障定位方法,該方法是基于一種業(yè)務(wù)流的分布式QoS監(jiān)測框架,包括中心服務(wù)器,QoS聚集服務(wù)器,業(yè)務(wù)流數(shù)據(jù)庫以及遍布于各個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)之上的QoS監(jiān)測器。該方法的具體步驟如下A.初始化階段,中心服務(wù)器從全網(wǎng)的觀點(diǎn)出發(fā)管理各個(gè)監(jiān)控域,各個(gè)監(jiān)控域的QoS聚集服務(wù)器負(fù)責(zé)本域內(nèi)的所有QoS監(jiān)測器;每個(gè)監(jiān)測域維持一個(gè)業(yè)務(wù)流數(shù)據(jù)庫;B.根據(jù)IP網(wǎng)絡(luò)業(yè)務(wù)在SLA定義時(shí)的要求,周期性或根據(jù)用戶申請進(jìn)行端到端的SLA性能測量。對于不符合SLA服務(wù)質(zhì)量要求的業(yè)務(wù)流,中心服務(wù)器通過各個(gè)監(jiān)測域中的業(yè)務(wù)流數(shù)據(jù)庫動態(tài)產(chǎn)生該業(yè)務(wù)的動態(tài)路徑信息表;C.中心服務(wù)器通過各個(gè)監(jiān)測域中的QoS聚集服務(wù)器收集動態(tài)路徑信息表中的各節(jié)點(diǎn)的當(dāng)前QoS性能指標(biāo),并通過計(jì)算得到路徑的綜合QoS評價(jià)向量(由延遲,抖動,丟包率,帶寬等性能值組成),判斷是否滿足SLA要求;D.如果SLA要求仍然不滿足,則計(jì)算路徑每個(gè)節(jié)點(diǎn)的節(jié)點(diǎn)QoS評價(jià)值,對其中不滿足 SLA要求的疑似故障節(jié)點(diǎn)參考其直接疑似前驅(qū)和直接疑似后繼故障節(jié)點(diǎn)進(jìn)行修正,得到修正后的節(jié)點(diǎn)QoS評價(jià)值再與SLA要求進(jìn)行比較,以確定是否為故障節(jié)點(diǎn)。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,步驟A包括A.每個(gè)監(jiān)控域有且只有一個(gè)QoS聚集服務(wù)器,管理本域內(nèi)的所有QoS監(jiān)測器,每個(gè)QoS 監(jiān)測器都負(fù)責(zé)一個(gè)路由節(jié)點(diǎn)的監(jiān)測,一般直接部署在路由節(jié)點(diǎn)上;各個(gè)聚集服務(wù)器都被全網(wǎng)唯一的中心服務(wù)器所支配;B.初始化階段,每個(gè)本地業(yè)務(wù)流數(shù)據(jù)庫均向所在域內(nèi)的網(wǎng)絡(luò)節(jié)點(diǎn)上的QoS監(jiān)測器進(jìn)行注冊,當(dāng)監(jiān)測器監(jiān)測到某個(gè)業(yè)務(wù)流時(shí),以自己的地址和業(yè)務(wù)流ID向業(yè)務(wù)流數(shù)據(jù)庫進(jìn)行登記,生成此業(yè)務(wù)流的業(yè)務(wù)流表。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,步驟B包括A.每隔一個(gè)時(shí)間片進(jìn)行一次端到端的的SLA性能測量,若滿足SLA合同中的規(guī)定中的服務(wù)質(zhì)量請求,則表明業(yè)務(wù)流運(yùn)行正常;時(shí)間片的大小可以根據(jù)SLA定義時(shí)的要求或用戶需求而調(diào)整,終端用戶在感到到故障時(shí)也可以直接向中心服務(wù)器申請SLA性能測量;B.當(dāng)發(fā)現(xiàn)業(yè)務(wù)流SLA性能指標(biāo)不滿足時(shí),中心服務(wù)器向各個(gè)域中的QoS聚集服務(wù)器發(fā)送業(yè)務(wù)流ID,本地QoS聚集服務(wù)器查詢本地業(yè)務(wù)流服務(wù)器獲取業(yè)務(wù)流在本域內(nèi)的途徑節(jié)點(diǎn)信息并發(fā)送給中心服務(wù)器,中心服務(wù)器進(jìn)行綜合并獲取該業(yè)務(wù)的動態(tài)路徑信息表。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,步驟C包括A.中心服務(wù)器根據(jù)業(yè)務(wù)的動態(tài)路徑信息表向所有包括路徑節(jié)點(diǎn)的監(jiān)控域的QoS聚集服務(wù)器發(fā)送路由節(jié)點(diǎn)監(jiān)測申請,本地的QoS聚集服務(wù)器控制對屬于本地的路由節(jié)點(diǎn)的監(jiān)測器發(fā)送監(jiān)測申請;B.中心服務(wù)器收集各個(gè)監(jiān)控域的QoS聚集服務(wù)器傳上來的QoS性能指標(biāo)數(shù)據(jù),并進(jìn)行綜合計(jì)算業(yè)得到務(wù)路徑上的綜合QoS評價(jià)向量,與SLA規(guī)定中的要求進(jìn)行比較,如果滿足則表示業(yè)務(wù)流運(yùn)行正常,否則執(zhí)行權(quán)利要求1中步驟D。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,步驟D包括A.計(jì)算業(yè)務(wù)流途經(jīng)路徑中的每一個(gè)路由節(jié)點(diǎn)的節(jié)點(diǎn)QoS評價(jià)值,并與SLA要求進(jìn)行比較,找出其中不符合要求的節(jié)點(diǎn),稱為疑似故障節(jié)點(diǎn)。B.對于每個(gè)疑似故障節(jié)點(diǎn),依次尋找出其直接前驅(qū)和直接后繼疑似故障節(jié)點(diǎn)進(jìn)行相關(guān)性分析,對節(jié)點(diǎn)評價(jià)值進(jìn)行修正,如果修正后的值仍然不滿足SLA要求,則確定其為故障節(jié)點(diǎn)ο
全文摘要
本發(fā)明涉及一種IP網(wǎng)絡(luò)下基于業(yè)務(wù)流QoS監(jiān)測的故障定位方法,該方法基于一種業(yè)務(wù)流的分布式QoS監(jiān)測框架,由中心服務(wù)器,QoS聚集服務(wù)器,業(yè)務(wù)流數(shù)據(jù)庫以及遍布于各個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)之上的QoS監(jiān)測器所組成。本方法根據(jù)各個(gè)QoS性能指標(biāo)(如帶寬、時(shí)延、抖動,丟包率等)在同一個(gè)業(yè)務(wù)流傳輸過程中自身具有的相關(guān)性和QoS故障的傳播性等特點(diǎn),通過一種自適應(yīng)的修正算法,從而確定真正影響SLA降級的故障源。
文檔編號H04L12/26GK102404137SQ20111022779
公開日2012年4月4日 申請日期2011年8月9日 優(yōu)先權(quán)日2011年8月9日
發(fā)明者孫建, 張梅琴, 張順頤, 王攀 申請人:江蘇欣網(wǎng)視訊科技有限公司