通信網(wǎng)絡(luò)告警系統(tǒng)的告警消息傳輸和處理方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及網(wǎng)絡(luò)通信技術(shù),尤其涉及一種通信網(wǎng)絡(luò)告警系統(tǒng)的告警消息傳輸和處 理方法。
【背景技術(shù)】
[0002] 通信網(wǎng)絡(luò)告警系統(tǒng)是通信運(yùn)營(yíng)商在運(yùn)營(yíng)支撐管理中必不可少的工具。告警的實(shí)時(shí) 采集、響應(yīng)的及時(shí)性以及高可靠性是對(duì)告警系統(tǒng)的基本要求。如圖1所示,告警系統(tǒng)一般為 采集、處理、功能展現(xiàn)的分層模式,即告警系統(tǒng)包括多個(gè)系統(tǒng)終端,多個(gè)告警處理單元(圖 中示例性的示出一個(gè))和多個(gè)告警采集單元。告警采集單元采集所負(fù)責(zé)的被管網(wǎng)元的告警 消息并上報(bào)給告警處理單元,告警處理單元將待處理的告警消息放入到告警消息隊(duì)列中并 且對(duì)告警消息隊(duì)列中的告警消息進(jìn)行告警分析處理。告警系統(tǒng)還可以包括數(shù)據(jù)庫(kù),用于存 儲(chǔ)告警消息。
[0003] 告警處理單元往往管理成百上千個(gè)網(wǎng)元經(jīng)告警采集單元上報(bào)的告警消息。一個(gè)告 警處理單元可以接收和處理來(lái)自多個(gè)告警采集單元上報(bào)的告警消息。一個(gè)告警采集單元管 理多個(gè)網(wǎng)元,各個(gè)網(wǎng)元直接或者若干網(wǎng)元組成一組通過(guò)網(wǎng)元代理的方式,將網(wǎng)元產(chǎn)生的告 警消息發(fā)送給該一個(gè)告警采集單元,由告警采集單元將告警消息上報(bào)給告警采集處理單元 進(jìn)行處理。顯然,一個(gè)告警處理單元可能處理來(lái)自多個(gè)告警采集單元的告警消息。
[0004] 一般來(lái)說(shuō),告警處理單元的告警接收和處理能力能夠應(yīng)對(duì)正常情況的告警消息, 但是在一些特殊情況下會(huì)產(chǎn)生告警風(fēng)暴,導(dǎo)致網(wǎng)元的告警發(fā)送與告警處理單元的告警接收 和處理會(huì)嚴(yán)重不對(duì)稱。例如,網(wǎng)元由于某些原因出現(xiàn)大面積的故障,導(dǎo)致網(wǎng)元的告警數(shù)量急 劇增加,告警采集單元發(fā)送的告警消息也隨之大量增加。這就很容易導(dǎo)致網(wǎng)路的堵塞、告警 的丟失,以及告警處理單元的告警消息隊(duì)列中積累的告警消息量過(guò)大,從而影響了告警處 理的及時(shí)性,尤其是對(duì)程度嚴(yán)重的重要告警處理的及時(shí)性;再比如,告警處理單元部分設(shè)備 出現(xiàn)故障,告警消息接收和處理的任務(wù)轉(zhuǎn)移到尚能正常運(yùn)行的高興處理單元設(shè)備上,導(dǎo)致 某些告警處理單元處理任務(wù)大大增加,眾多的告警消息擁堵在網(wǎng)路上,或者已接收待處理 的告警消息積累和排列過(guò)多,也會(huì)導(dǎo)致重要告警處理的及時(shí)性得不到保證。
[0005] 為了解決上述問(wèn)題,現(xiàn)有技術(shù)中公開(kāi)了一種告警消息傳輸方法,其中,網(wǎng)絡(luò)側(cè)的服 務(wù)器根據(jù)告警消息的數(shù)量超過(guò)預(yù)定數(shù)量值時(shí),根據(jù)已接收的所有告警消息的優(yōu)先級(jí)確定一 個(gè)優(yōu)先級(jí)閾值并將該優(yōu)先級(jí)閾值發(fā)送給具有告警消息采集能力的網(wǎng)元設(shè)備,網(wǎng)元設(shè)備停止 向服務(wù)器發(fā)送低于優(yōu)先級(jí)閾值的告警消息。其中,優(yōu)先級(jí)閾值的確定是一個(gè)指定的數(shù)值或 者是服務(wù)器尚未處理的所有告警消息的優(yōu)先級(jí)的平均值。雖然該方法中每個(gè)網(wǎng)元設(shè)備可以 保證在服務(wù)器中的告警消息較多時(shí)本網(wǎng)元設(shè)備中優(yōu)先級(jí)高于優(yōu)先級(jí)閾值的告警消息被發(fā) 送,但是由于優(yōu)先級(jí)閾值的確定是直接指定一個(gè)數(shù)值或者是服務(wù)器尚未處理的告警消息的 優(yōu)先級(jí)的平均值,并沒(méi)有考慮服務(wù)器的當(dāng)前告警消息處理能力;而且,該現(xiàn)有技術(shù)也沒(méi)有注 意到這些尚未處理的告警消息中可能存在可以不考慮處理的輔告警消息。因此,該現(xiàn)有技 術(shù)的優(yōu)先級(jí)閾值并不能夠正確反映故障發(fā)生時(shí)網(wǎng)絡(luò)的狀況,并且與發(fā)生故障時(shí)當(dāng)前告警消 息處理能力無(wú)關(guān),網(wǎng)元設(shè)備根據(jù)該優(yōu)先級(jí)閾值來(lái)確定不發(fā)送的告警消息的方式仍然解決不 了在一些特殊情況下產(chǎn)生告警風(fēng)暴時(shí),導(dǎo)致網(wǎng)路堵塞、告警丟失的問(wèn)題,從而仍會(huì)導(dǎo)致重要 告警處理的及時(shí)性得不到保證。
[0006] 同樣,為了解決在一些特殊情況下產(chǎn)生告警風(fēng)暴,導(dǎo)致網(wǎng)元的告警發(fā)送與告警處 理單元的告警接收和處理會(huì)嚴(yán)重不對(duì)稱的問(wèn)題,現(xiàn)有技術(shù)中還公開(kāi)了一種網(wǎng)元管理系統(tǒng)和 網(wǎng)絡(luò)管理系統(tǒng)之間過(guò)濾告警的方法,其中,網(wǎng)絡(luò)管理系統(tǒng)向網(wǎng)元管理系統(tǒng)設(shè)置告警相關(guān)性 規(guī)則,該告警相關(guān)性規(guī)則將最能夠說(shuō)明故障根源的告警的特征設(shè)為主告警特征,其他的與 所述故障相關(guān)的告警的特征設(shè)為輔告警特征;網(wǎng)元管理系統(tǒng)根據(jù)告警相關(guān)性規(guī)則確定故障 時(shí)產(chǎn)生的告警為主告警還是輔告警;如果是輔告警,并且輔告警符合告警相關(guān)性規(guī)則的過(guò) 濾條件,則不發(fā)送該輔告警。該現(xiàn)有技術(shù)通過(guò)告警相關(guān)性規(guī)則的應(yīng)用,阻止了部分輔告警的 發(fā)送,一定程度降低了故障發(fā)生時(shí)的告警風(fēng)暴帶來(lái)的問(wèn)題。但是,該現(xiàn)有技術(shù)由于是沒(méi)有考 慮網(wǎng)絡(luò)管理系統(tǒng)的故障處理能力而不發(fā)送所有符合告警相關(guān)性規(guī)則的過(guò)濾條件的告警消 息,盡管有助于緩解產(chǎn)生告警風(fēng)暴的可能,但是對(duì)于存在大量輔告警消息的情形,則會(huì)嚴(yán)重 破壞告警消息的完整性,可能導(dǎo)致無(wú)法分析故障;對(duì)于存在少量輔告警消息的情形,少量輔 告警消息的不發(fā)送的方式并不能夠真正緩解報(bào)警風(fēng)暴的問(wèn)題。
[0007] 因此,存在對(duì)能夠在告警處理單元對(duì)告警消息的接收和處理告警能力暫時(shí)相對(duì)的 嚴(yán)重不足時(shí),根據(jù)告警處理單元的故障處理能力來(lái)保證優(yōu)先級(jí)別高的告警消息的發(fā)送和傳 輸處理的告警消息傳輸和處理技術(shù)的需要。
【發(fā)明內(nèi)容】
[0008] 本發(fā)明的實(shí)施例提供了一種通信網(wǎng)絡(luò)告警系統(tǒng)的告警消息傳輸和處理方法,用以 緩解網(wǎng)路堵塞、告警丟失的問(wèn)題,并更為及時(shí)地處理優(yōu)先級(jí)較高的告警消息。
[0009] 根據(jù)本發(fā)明的一個(gè)方面,提供了一種通信網(wǎng)絡(luò)告警系統(tǒng)的告警消息傳輸和處理方 法,所述通信網(wǎng)絡(luò)告警系統(tǒng)包括用于告警分析的告警處理單元,網(wǎng)元設(shè)備和采集所管理的 所述網(wǎng)元設(shè)備產(chǎn)生的告警消息的告警采集單元,所述方法包括:
[0010] 當(dāng)所述告警處理單元按照預(yù)定時(shí)間周期確定其告警消息處理能力下降時(shí),所述告 警處理單元啟動(dòng)預(yù)先配置的過(guò)濾規(guī)則過(guò)濾告警消息隊(duì)列中的輔告警消息,并且計(jì)算告警消 息隊(duì)列中的過(guò)濾后的所有告警消息的平均優(yōu)先級(jí),向所述告警采集單元發(fā)送攜帶有告警消 息處理能力下降值VPM和所述平均優(yōu)先級(jí)Pm的告警消息處理能力下降的通知消息;
[0011] 所述告警采集單元從接收的通知消息中解析出告警消息處理能力下降值和所 述平均優(yōu)先級(jí)pm,并根據(jù)從所管理的網(wǎng)元設(shè)備采集的告警消息中最高優(yōu)先級(jí)的告警消息的 占比來(lái)確定該告警采集單元的名義優(yōu)先級(jí)調(diào)整因子0,按照如下公式確定本告警采集單元 的名義優(yōu)先級(jí)pn:
[0012] Pn=Pm(l+f3XVpro) (公式 1)
[0013] 其中,e大于等于0小于等于1 ;
[0014] 告警采集單元利用預(yù)先配置的屏蔽規(guī)則過(guò)濾掉本告警采集單元的已采集的告警 消息中的匹配屏蔽規(guī)則的告警消息,同時(shí),停止向告警處理單元發(fā)送優(yōu)先級(jí)低于本告警采 集單元的名義優(yōu)先級(jí)過(guò)濾后的告警消息。
[0015] 其中,所述告警處理單元根據(jù)如下規(guī)則確定告警消息處理能力下降值vPM:
[0016] 當(dāng)所述告警處理單元確定告警消息處理能力下降是由于告警處理單元的故障導(dǎo) 致時(shí):
「00171 卑所沭告*々卜理里元確宙告警消息處理能力下降是由于網(wǎng)元故障導(dǎo)致時(shí),
[0018] 當(dāng)所述告警處理單元確定告警消息處理能力下降是由于告警處理單元網(wǎng)絡(luò)側(cè)故 障和網(wǎng)元告警消息增加導(dǎo)致下降時(shí),Vpr〇C:n (公式4);
[0019] 式中,AlarmMinal為所述告警處理單元預(yù)定時(shí)間周期內(nèi)可以處理的額定告警消息 數(shù)量,所述告警消息隊(duì)列中的告警消息數(shù)量為L(zhǎng)ength,Alarm表示告警處理單元在預(yù)定時(shí) 間周期內(nèi)當(dāng)前可以處理的告警消息數(shù)量,Alarm,Length和AlarmMinal均為整數(shù)。
[0020] 其中,所述根據(jù)從所管理的網(wǎng)元設(shè)備采集的告警消息中最高優(yōu)先級(jí)的告警消息的 占比來(lái)確定該告警采集單元的名義優(yōu)先級(jí)調(diào)整因子0包括:
[0021] 統(tǒng)計(jì)該告警采集單元所采集的所有告警消息的數(shù)量以及最高優(yōu)先級(jí)的告警消息 的數(shù)量;
[0022] 計(jì)算所述告警采集單元中的最高優(yōu)先級(jí)的告警消息的數(shù)量相對(duì)于該告警采集單 元中的所有告警消息的數(shù)量的比值;
[0023] 如果所述比值低于第一調(diào)整因子閾值,則確定名義優(yōu)先級(jí)調(diào)整因子為: 0. 2<0 ^ 1 ;
[0024] 如果所述比值不低于第一調(diào)整因子閾值,則確定名義優(yōu)先級(jí)調(diào)整因子為: 0 ^ ^ 0. 2〇
[0025] 優(yōu)選地,第一調(diào)整因子閾值從20%至30%中選取。
[0026] 本發(fā)明的告警消息傳輸和處理方法還包括步驟:當(dāng)所述告警處理單元按照預(yù)定時(shí) 間周期根據(jù)告警消息長(zhǎng)隊(duì)列長(zhǎng)度確定其告警消息處理能力下降時(shí),所述告警處理單元對(duì)告 警消息隊(duì)列中過(guò)濾后的告警消息進(jìn)行告警消息相關(guān)性分析,將所述告警消息隊(duì)列中具有相 關(guān)性的告警消息作為一組處理。
[0027] 優(yōu)選地,所述告警處理單元對(duì)告警消息隊(duì)列中過(guò)濾后的告警消息進(jìn)行告警消息相 關(guān)性分析,將所述告警消息隊(duì)列中