一種基于過程監(jiān)視的集中運(yùn)維故障閉環(huán)處理方法
【專利摘要】本發(fā)明涉及一種基于過程監(jiān)視的集中運(yùn)維故障閉環(huán)處理方法,包括:監(jiān)視數(shù)據(jù)源:包括處理數(shù)據(jù)源和過程監(jiān)視故障分析;故障診斷:包括故障定位和初步診斷;故障處理:監(jiān)管故障處理的狀態(tài);故障處理結(jié)果的確認(rèn)和評(píng)價(jià)。本發(fā)明提供的技術(shù)方案實(shí)現(xiàn)運(yùn)維工作的精益化管理,研究集中運(yùn)維模式下先進(jìn)的技術(shù)支撐手段,實(shí)現(xiàn)資源優(yōu)化配置,減少人力成本,提升遠(yuǎn)程集中運(yùn)維能力。
【專利說明】
一種基于過程監(jiān)視的集中運(yùn)維故障閉環(huán)處理方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及一種電力系統(tǒng)中的故障處理方法,具體講涉及一種基于過程監(jiān)視的集 中運(yùn)維故障閉環(huán)處理方法。
【背景技術(shù)】
[0002] 國家電網(wǎng)公司發(fā)展方式的轉(zhuǎn)變迫切要求創(chuàng)新調(diào)度技術(shù)支持系統(tǒng)的運(yùn)維機(jī)制。推 動(dòng)公司發(fā)展方式轉(zhuǎn)變的根本途徑就是落實(shí)"四化工作",即集團(tuán)化運(yùn)作、集約化發(fā)展、精益化 管理、標(biāo)準(zhǔn)化建設(shè),需要按照"創(chuàng)新管理模式、優(yōu)化業(yè)務(wù)流程"的要求,科學(xué)合理的優(yōu)化和配 置公司現(xiàn)有的資源。當(dāng)前國家電網(wǎng)公司系統(tǒng)調(diào)度自動(dòng)化專業(yè)普遍存在結(jié)構(gòu)性缺員的問題, 尤其是運(yùn)行維護(hù)人員,需要改變現(xiàn)有的運(yùn)維模式,集約化地管理和使用人力、技術(shù)和設(shè)備資 源,提高運(yùn)維工作的質(zhì)量和效率。
[0003] 大運(yùn)行體系的建設(shè)給運(yùn)維工作賦予更為艱巨的任務(wù)。按照"三集五大"的戰(zhàn)略要 求,國家電網(wǎng)公司將建立大運(yùn)行體系,實(shí)現(xiàn)各級(jí)調(diào)度的調(diào)控一體化和調(diào)度一體化,調(diào)度技術(shù) 支持系統(tǒng)在采集范圍、服務(wù)對(duì)象、功能要求等方面都有了很大的拓展,承擔(dān)了更大的運(yùn)行風(fēng) 險(xiǎn),給運(yùn)維工作賦予了更為艱巨的任務(wù),迫切需要探索系統(tǒng)運(yùn)維工作的新模式,實(shí)現(xiàn)運(yùn)維工 作的精益化管理,研究集中運(yùn)維模式下先進(jìn)的技術(shù)支撐手段,實(shí)現(xiàn)資源優(yōu)化配置,減少人力 成本,提升遠(yuǎn)程集中運(yùn)維能力。
【發(fā)明內(nèi)容】
[0004] 為解決上述現(xiàn)有技術(shù)中的不足,本發(fā)明的目的是提供一種基于過程監(jiān)視的集中運(yùn) 維故障閉環(huán)處理方法,實(shí)現(xiàn)運(yùn)維工作的精益化管理,研究集中運(yùn)維模式下先進(jìn)的技術(shù)支撐 手段,實(shí)現(xiàn)資源優(yōu)化配置,減少人力成本,提升遠(yuǎn)程集中運(yùn)維能力。為了對(duì)披露的實(shí)施例的 一些方面有一個(gè)基本的理解,下面給出了簡單的概括。該概括部分不是泛泛評(píng)述,也不是要 確定關(guān)鍵/重要組成元素或描繪這些實(shí)施例的保護(hù)范圍。其唯一目的是用簡單的形式呈現(xiàn) 一些概念,以此作為后面的詳細(xì)說明的序言。
[0005] 本發(fā)明的目的是采用下述技術(shù)方案實(shí)現(xiàn)的:
[0006] 本發(fā)明提供一種基于過程監(jiān)視的集中運(yùn)維故障閉環(huán)處理方法,所述方法用于智能 電網(wǎng)調(diào)度控制系統(tǒng)的遠(yuǎn)程集中運(yùn)維,其改進(jìn)之處在于,所述方法包括下述步驟:
[0007] (1)監(jiān)視數(shù)據(jù)源:包括處理數(shù)據(jù)源和過程監(jiān)視故障分析;
[0008] (2)故障診斷:包括故障定位和初步診斷;
[0009] (3)故障處理:監(jiān)管故障處理的狀態(tài);
[0010] (4)故障處理結(jié)果的確認(rèn)和評(píng)價(jià)。
[0011] 進(jìn)一步地,所述步驟(1)中,處理數(shù)據(jù)源包括:
[0012] 定義告警信息的類型:
[0013] 1)監(jiān)視數(shù)據(jù)源分類:包括電網(wǎng)重要監(jiān)視數(shù)據(jù)、設(shè)備運(yùn)行狀態(tài)、應(yīng)用運(yùn)行狀態(tài)、網(wǎng)絡(luò) 通信狀態(tài)和本地機(jī)房環(huán)境監(jiān)視數(shù)據(jù);
[0014] 2)告警數(shù)據(jù)源包括:
[0015] ①調(diào)控中心直接轉(zhuǎn)發(fā)的告警直傳數(shù)據(jù):包括設(shè)備運(yùn)行狀態(tài)故障、應(yīng)用運(yùn)行狀態(tài)故 障和網(wǎng)絡(luò)通信狀態(tài)故障;
[0016] ②集中運(yùn)維中心本地監(jiān)視到的故障進(jìn)行實(shí)時(shí)告警:包括電網(wǎng)重要監(jiān)視數(shù)據(jù)越限、 傳輸數(shù)據(jù)中斷、跳變、不刷新、應(yīng)用故障超時(shí)、鏈路中斷超時(shí)、本地機(jī)房環(huán)境異常、遠(yuǎn)程瀏覽 中斷超時(shí)、數(shù)據(jù)網(wǎng)中斷和熱線電話緊急告警;其中傳輸數(shù)據(jù)中斷和跳變按照監(jiān)視數(shù)據(jù)源類 型細(xì)分到下一個(gè)級(jí)別;
[0017] ③根據(jù)歷史數(shù)據(jù)進(jìn)行分析的系統(tǒng)風(fēng)險(xiǎn)告警:包括系統(tǒng)資源重載(包括CPU、服務(wù)器 和內(nèi)存重載監(jiān)視)、應(yīng)用故障率越限、應(yīng)用持續(xù)(分為單次故障時(shí)間和日故障總時(shí)間)故障 時(shí)間越限、傳輸數(shù)據(jù)中斷次數(shù)越限、數(shù)值數(shù)據(jù)連續(xù)跳變、系統(tǒng)更新的持續(xù)時(shí)間越限、CORE文 件過多(包括某一進(jìn)程和某一目錄)和進(jìn)程連續(xù)產(chǎn)生CORE文件;
[0018] ④故障處理流程監(jiān)視到的流程告警信息:包括故障處理超時(shí)告警、故障處理延時(shí) 警告和故障處理結(jié)果評(píng)價(jià)不合格告警;
[0019] 根據(jù)告警信息類別,進(jìn)行故障分級(jí)和定義響應(yīng)時(shí)間:
[0020] 故障級(jí)別包括:
[0021] I級(jí):屬于緊急響應(yīng);其具體現(xiàn)象為:智能電網(wǎng)調(diào)度控制系統(tǒng)崩潰導(dǎo)致業(yè)務(wù)停止和 數(shù)據(jù)丟失,其對(duì)應(yīng)的響應(yīng)時(shí)間為:啟動(dòng)緊急處理預(yù)案,并在10分鐘內(nèi)提交故障處理方案;
[0022] II級(jí):屬于故障處理;其具體現(xiàn)象為:出現(xiàn)部件失效、系統(tǒng)性能下降但能正常運(yùn) 行,不影響正常業(yè)務(wù)運(yùn)作;其對(duì)應(yīng)的響應(yīng)時(shí)間為:協(xié)同產(chǎn)品生產(chǎn)商,并在1小時(shí)內(nèi)提交故障 處理方案;
[0023] III級(jí):屬于常規(guī)維護(hù);其具體現(xiàn)象為:出現(xiàn)系統(tǒng)報(bào)錯(cuò)或警告,但業(yè)務(wù)系統(tǒng)能繼續(xù) 運(yùn)行且性能不受影響;其對(duì)應(yīng)的響應(yīng)時(shí)間為:先由集中運(yùn)維中心進(jìn)行故障定位和處理,并 在6小時(shí)內(nèi)提交故障處理方案。
[0024] 進(jìn)一步地,所述步驟(1)中,過程監(jiān)視故障分析包括下述情況:
[0025] 〈1>正常-故障-正常:
[0026] 方式:理想狀態(tài)下采集到上述三個(gè)狀態(tài)過程的最短時(shí)間為15s,即在15s內(nèi)采到一 次故障狀態(tài);實(shí)際情況是事件從正常變?yōu)楣收虾?,集中運(yùn)維系統(tǒng)中的告警模塊開始每5秒 連續(xù)采集事件的狀態(tài),在300秒周期內(nèi)時(shí)刻S(S的定義范圍需要由各調(diào)控中心定義,這里只 是用于說明時(shí)間起點(diǎn)用)監(jiān)視到事件狀態(tài)由故障又變回到正常狀態(tài)時(shí),不發(fā)送告警信息;
[0027] 標(biāo)記:不標(biāo)記:
[0028] 告警監(jiān)視周期:從S時(shí)刻起進(jìn)入下一新的告警監(jiān)視周期:
[0029] 統(tǒng)計(jì)方式:記錄事件故障一次,同時(shí)故障恢復(fù)一次:從監(jiān)視到故障時(shí)刻起,集中運(yùn) 維系統(tǒng)中的計(jì)時(shí)器開始記錄故障時(shí)間,直到狀態(tài)變?yōu)檎r(shí),計(jì)時(shí)器確認(rèn)故障持續(xù)時(shí)長;
[0030] 〈2>正常一持續(xù)故障:
[0031] 方式:事件狀態(tài)從正常變?yōu)楣收虾?,如果?00秒內(nèi)事件狀態(tài)不發(fā)生變化,而持續(xù) 保持故障狀態(tài),則說明事件在最大監(jiān)視周期時(shí)間內(nèi)出現(xiàn)故障,且沒有自行恢復(fù)的能力,為系 統(tǒng)在第300秒時(shí)發(fā)出的告警;
[0032] 標(biāo)記:事件產(chǎn)生告警,并推送到故障處理流程中進(jìn)行診斷和處理;等處理完成后 返回告警,標(biāo)記事件故障消除;
[0033] 告警監(jiān)視周期:告警模塊每5秒繼續(xù)采集狀態(tài),直到采集到正常時(shí),則開始進(jìn)入下 一個(gè)新事件的監(jiān)視周期;
[0034] 統(tǒng)計(jì)方式:記錄事件故障一次:從監(jiān)視到故障時(shí)刻起,計(jì)時(shí)器開始記錄故障時(shí)間, 直到狀態(tài)變?yōu)檎r(shí),計(jì)時(shí)器確認(rèn)故障持續(xù)時(shí)長;
[0035] 〈3>正常-故障-退出:
[0036] 方法:事件狀態(tài)從正常變?yōu)楣收虾?,如果?00秒內(nèi)時(shí)刻S監(jiān)視到事件狀態(tài)由故 障又變?yōu)橥顺鰻顟B(tài)時(shí),說明事件在300秒內(nèi)出現(xiàn)故障,標(biāo)志事件處于故障狀態(tài)中,并發(fā)出告 警,報(bào)告值班人員事件發(fā)生故障并且系統(tǒng)無法自愈,需要人為參與故障處理;
[0037] 標(biāo)記:事件產(chǎn)生告警,并推送到故障處理流程中進(jìn)行診斷和處理;等處理完成后 返回告警,標(biāo)記該事件故障消除;
[0038] 告警監(jiān)視周期:告警模塊每5秒繼續(xù)采集狀態(tài),直到采集到正常時(shí),則開始進(jìn)入下 一個(gè)新事件的監(jiān)視周期;
[0039] 統(tǒng)計(jì)方法:記錄事件故障一次:從監(jiān)視到故障時(shí)刻起,計(jì)時(shí)器開始記錄故障時(shí)間, 直到狀態(tài)變?yōu)檎r(shí),計(jì)時(shí)器確認(rèn)故障持續(xù)時(shí)長;
[0040] 〈4>正常-(故障-退出:即連續(xù)閃變5次)-異常,即非正常永久退出:
[0041] 方式:當(dāng)系統(tǒng)發(fā)生故障時(shí),集中運(yùn)維系統(tǒng)監(jiān)視模塊首先將相關(guān)進(jìn)程重啟,如果連續(xù) 重啟5次都失敗,事件最終顯示異常狀態(tài),即狀態(tài)從故障到退出閃變5次,則監(jiān)視模塊放棄 將相關(guān)進(jìn)程重啟,永久退出;如果在300秒內(nèi)某時(shí)刻S監(jiān)視到事件狀態(tài)變成由正常或故障變 成異常時(shí),則在S秒時(shí)發(fā)出告警,說明事件發(fā)生異常,需要人工處理才能重新恢復(fù)該事件正 常運(yùn)行;
[0042] 標(biāo)記:事件產(chǎn)生告警,并推送到故障處理流程中進(jìn)行診斷和處理;等處理完成后 返回告警,標(biāo)記事件故障消除;
[0043] 告警監(jiān)視周期:等故障處理流程返回事件故障被消除后,確認(rèn)事件恢復(fù)正常時(shí),開 始進(jìn)入下一個(gè)新事件的監(jiān)視周期;
[0044] 統(tǒng)計(jì)方式:記錄事件異常一次:從監(jiān)視到異常時(shí)刻起,計(jì)時(shí)器開始記錄故障時(shí)間, 直到狀態(tài)變?yōu)檎r(shí),計(jì)時(shí)器確認(rèn)故障持續(xù)時(shí)長;
[0045] 〈5>正常-退出-正常:
[0046] 方式:某事件狀態(tài)從正常變?yōu)橥顺龊?,從退出時(shí)刻開始,告警模塊在后續(xù)時(shí)間內(nèi)第 S秒監(jiān)視到事件狀態(tài)恢復(fù)正常運(yùn)行,系統(tǒng)不發(fā)出告警;
[0047] 標(biāo)記:不標(biāo)記;
[0048] 告警監(jiān)視周期:從S時(shí)刻起進(jìn)入下一新的告警監(jiān)視周期;
[0049] 統(tǒng)計(jì)方式:記錄事件重新啟動(dòng)一次;計(jì)時(shí)器不統(tǒng)計(jì)故障時(shí)間;
[0050] 〈6>正常-退出-故障:
[0051] 方式:事件狀態(tài)從正常變?yōu)橥顺?,從退出時(shí)刻開始,告警模塊在后續(xù)時(shí)間內(nèi)第S秒 時(shí)監(jiān)視到進(jìn)程故障狀態(tài),告警模塊在第S秒發(fā)出告警,需要人為關(guān)注此事件,并且告警模塊 繼續(xù)監(jiān)視,直到捕捉到事件恢復(fù)正常;
[0052] 標(biāo)記:標(biāo)記事件產(chǎn)生告警,并推送到故障處理流程中進(jìn)行診斷和處理;如果在300 秒內(nèi)故障恢復(fù),則提示事件在重啟時(shí)發(fā)生一次故障,處理完成后返回告警,標(biāo)記該事件故障 消除;
[0053] 告警監(jiān)視周期:從告警模塊監(jiān)視到事件恢復(fù)正常時(shí)刻起,進(jìn)入下一新的告警監(jiān)視 周期;
[0054] 統(tǒng)計(jì)方式:記錄事件故障一次,計(jì)時(shí)器從事件發(fā)生故障開始計(jì)時(shí),直到狀態(tài)變?yōu)檎?常時(shí),計(jì)時(shí)器確認(rèn)故障持續(xù)時(shí)長。
[0055] 進(jìn)一步地,所述步驟(2)的故障診斷包括下述步驟:
[0056] 1>建立故障分析模型進(jìn)行故障定位,包括:
[0057] 關(guān)聯(lián)分析模型:根據(jù)告警信息的兩個(gè)源頭建立事件的關(guān)聯(lián)分析模型,所述告警信 息的兩個(gè)源頭包括調(diào)控中心直接給集中運(yùn)維中心通過通信協(xié)議直接發(fā)送各地的系統(tǒng)告警 信息和集中運(yùn)維中心根據(jù)實(shí)時(shí)采集的系統(tǒng)運(yùn)行狀態(tài)采用過程分析法發(fā)送的告警信息;
[0058] 遞歸分析模型:在同源故障中建立遞歸分析模型;所述遞歸分析模型采用排除法 進(jìn)行分析;
[0059] 2>故障識(shí)別及告警確認(rèn),包括:
[0060] 對(duì)于設(shè)備、應(yīng)用和通信鏈路發(fā)生故障時(shí),首先根據(jù)告警信息的類型采用關(guān)聯(lián)故障 模型去搜索故障源,確認(rèn)同源事件后,對(duì)同源事件標(biāo)注同一個(gè)告警ID號(hào);
[0061] 對(duì)于數(shù)值類監(jiān)視數(shù)據(jù)發(fā)生異常時(shí),通過相應(yīng)的遞歸模型進(jìn)行故障定位,定位后如 果屬于日常故障則由運(yùn)維值班員依據(jù)故障處理預(yù)案進(jìn)行日常維護(hù)處理,如果屬于較復(fù)雜的 故障(較復(fù)雜的故障指的是軟件本身的缺陷問題,或底層服務(wù)出現(xiàn)問題等,運(yùn)維人員無法 進(jìn)行定位的情況),需要及時(shí)聯(lián)系產(chǎn)品生產(chǎn)商進(jìn)行協(xié)作處理;
[0062] 當(dāng)告警發(fā)生后都會(huì)建立故障處理任務(wù),所述故障處理任務(wù)直到故障被消除后才被 標(biāo)記完成狀態(tài),任務(wù)完成后會(huì)發(fā)出一個(gè)告警消除消息,此消息會(huì)加載告警ID號(hào),根據(jù)告警 ID號(hào),同時(shí)消除一個(gè)或多個(gè)同源告警事件。
[0063] 進(jìn)一步地,所述步驟(3)的故障處理包括下述步驟:
[0064] A、接收故障告警并建立故障處理任務(wù);
[0065] B、故障處理及狀態(tài)監(jiān)視。
[0066] 進(jìn)一步地,所述步驟A包括:由調(diào)控中心將監(jiān)視數(shù)據(jù)實(shí)時(shí)發(fā)送給集中運(yùn)維中心,集 中運(yùn)維中心接收到實(shí)時(shí)監(jiān)視數(shù)據(jù)后首先進(jìn)行分類處理,采用過程監(jiān)視對(duì)事件狀態(tài)進(jìn)行監(jiān)視 和分析,并對(duì)發(fā)生的故障進(jìn)行告警;
[0067] 每個(gè)告警信息對(duì)應(yīng)一個(gè)ID號(hào),引起同一個(gè)告警的事件源均標(biāo)記上述告警ID號(hào);當(dāng) 告警發(fā)出時(shí),建立新的處理任務(wù),并對(duì)新建處理任務(wù)的受理狀態(tài)進(jìn)行流程管控。
[0068] 進(jìn)一步地,所述步驟B包括:產(chǎn)生新的告警后,根據(jù)告警級(jí)別啟動(dòng)不同的處理流 程,嚴(yán)重極別的故障啟動(dòng)應(yīng)急預(yù)案,所述應(yīng)急預(yù)案要求調(diào)控中心、集中運(yùn)維中心和產(chǎn)品生產(chǎn) 商之間定位故障并協(xié)同處理,邊處理邊通告,及時(shí)解除對(duì)智能電網(wǎng)調(diào)度控制系統(tǒng)運(yùn)行造成 重大的影響的事故;
[0069] 如果是日常維護(hù)流程,則根據(jù)故障分析模型進(jìn)行故障診斷與定位,由運(yùn)維值班員 統(tǒng)一處理;
[0070] 如果在處理過程中遇到較復(fù)雜的問題,要求產(chǎn)品生產(chǎn)商協(xié)同處理,并監(jiān)視故障處 理的時(shí)間;
[0071] 如果在規(guī)定的時(shí)間內(nèi)無法完成任務(wù)或需要延時(shí),則請(qǐng)求調(diào)控中心是否同意延時(shí)處 理,如果調(diào)控中心同意延時(shí),則由調(diào)控中心定義延時(shí)時(shí)長,如果在延時(shí)過程中完成任務(wù),則 不影響考評(píng)結(jié)果,如果無法完成任務(wù)則在考評(píng)中會(huì)考慮處理效率的得分;如果任務(wù)在申請(qǐng) 延時(shí)時(shí)未得到調(diào)控中心的同意,則任務(wù)由于處理超時(shí)則在考評(píng)中評(píng)分酌減。
[0072] 進(jìn)一步地,所述步驟(3)包括:當(dāng)故障任務(wù)處理完成后,返回告警模塊進(jìn)行標(biāo)記, 提示此事件引起的故障已經(jīng)消除,并解除告警,即標(biāo)記同一事件告警ID的故障源解除告警 狀態(tài),標(biāo)志該事件已經(jīng)處理完成,不存在風(fēng)險(xiǎn);由集中運(yùn)維中心提交故障處理結(jié)果,由調(diào)控 中心進(jìn)彳丁確認(rèn);
[0073] 如果遇重大故障則由集中運(yùn)維中心同產(chǎn)品生產(chǎn)商共同提交重大故障的報(bào)告,并由 調(diào)控中心根據(jù)處理時(shí)間,響應(yīng)速度,處理結(jié)果及服務(wù)態(tài)度四個(gè)項(xiàng)目進(jìn)行打分,最終得分計(jì)入 當(dāng)月的考評(píng)。
[0074] 與最接近的現(xiàn)有技術(shù)相比,本發(fā)明提供的技術(shù)方案具有的優(yōu)異效果是:
[0075] (1)本發(fā)明提供的一種基于過程監(jiān)視的集中運(yùn)維故障閉環(huán)處理方法,基于集中運(yùn) 維模式,綜合監(jiān)視智能電網(wǎng)調(diào)度控制系統(tǒng)運(yùn)行狀態(tài),對(duì)告警信息進(jìn)行分類監(jiān)視和告警,降低 告警誤告率,提高故障處理效率;
[0076] (2)采用過程監(jiān)視的方法,可以判斷系統(tǒng)各種運(yùn)行狀態(tài)發(fā)生變化的過程,能更準(zhǔn)確 地發(fā)出告警信息,可以對(duì)告警進(jìn)行分級(jí)處理,并根據(jù)告警信息的類別和級(jí)別采用多種顯示 方式,提示運(yùn)維值班人員快速處理故障;
[0077] (3)通過對(duì)告警信息的分類,實(shí)現(xiàn)快速定位故障,通過故障關(guān)聯(lián)分析模型,能夠合 并告警信息,解決重復(fù)告警的問題,通過故障遞歸模型可以快速定位故障源,降低誤告率;
[0078] (4)建立了一套完整的故障處理流程,從而對(duì)故障處理過程進(jìn)行監(jiān)管,保障集中運(yùn) 維模式運(yùn)轉(zhuǎn)流暢,職責(zé)清晰,節(jié)省技術(shù)成本和人力成本,提高運(yùn)維管理效率;
[0079] (5)建立了一套完整的運(yùn)維服務(wù)評(píng)價(jià)指標(biāo)和機(jī)制,對(duì)故障處理的效率和結(jié)果進(jìn)行 約束,提高故障處理率,完善運(yùn)行管理機(jī)制,使調(diào)控中心、集中運(yùn)維中心和生產(chǎn)商三方協(xié)作 處理故障,及時(shí)處理系統(tǒng)出現(xiàn)的各種問題,保障系統(tǒng)運(yùn)行穩(wěn)定性和可靠性;
[0080] (6)建立了故障信息知識(shí)庫,從而減少了值班員處理故障時(shí)人為失誤率,為各級(jí)調(diào) 控中心自動(dòng)化部門提供運(yùn)維技術(shù)的建議和實(shí)施方法,提高了系統(tǒng)故障處理的正確性;并為 系統(tǒng)軟件研發(fā)技術(shù)人員提供歷史數(shù)據(jù),以便于優(yōu)化系統(tǒng)性能。
[0081] 為了上述以及相關(guān)的目的,一個(gè)或多個(gè)實(shí)施例包括后面將詳細(xì)說明并在權(quán)利要求 中特別指出的特征。下面的說明以及附圖詳細(xì)說明某些示例性方面,并且其指示的僅僅是 各個(gè)實(shí)施例的原則可以利用的各種方式中的一些方式。其它的益處和新穎性特征將隨著下 面的詳細(xì)說明結(jié)合附圖考慮而變得明顯,所公開的實(shí)施例是要包括所有這些方面以及它們 的等同。
【附圖說明】
[0082] 附圖用來提供對(duì)本發(fā)明的進(jìn)一步理解,并且構(gòu)成說明書的一部分,與本發(fā)明的實(shí) 施例一起用于解釋本發(fā)明,并不構(gòu)成對(duì)本發(fā)明的限制。在附圖中:
[0083] 圖1是本發(fā)明實(shí)施例中基于集中運(yùn)維和過程監(jiān)視的故障處理功能圖;
[0084] 圖2是本發(fā)明實(shí)施例中三大機(jī)構(gòu)的職責(zé)分工及故障處理流程圖。
【具體實(shí)施方式】
[0085] 下面結(jié)合附圖對(duì)本發(fā)明的【具體實(shí)施方式】作進(jìn)一步的詳細(xì)說明。
[0086] 以下描述和附圖充分地示出本發(fā)明的具體實(shí)施方案,以使本領(lǐng)域的技術(shù)人員能夠 實(shí)踐它們。其他實(shí)施方案可以包括結(jié)構(gòu)的、邏輯的、電氣的、過程的以及其他的改變。實(shí)施 例僅代表可能的變化。除非明確要求,否則單獨(dú)的組件和功能是可選的,并且操作的順序可 以變化。一些實(shí)施方案的部分和特征可以被包括在或替換其他實(shí)施方案的部分和特征。本 發(fā)明的實(shí)施方案的范圍包括權(quán)利要求書的整個(gè)范圍,以及權(quán)利要求書的所有可獲得的等同 物。在本文中,本發(fā)明的這些實(shí)施方案可以被單獨(dú)地或總地用術(shù)語"發(fā)明"來表示,這僅僅 是為了方便,并且如果事實(shí)上公開了超過一個(gè)的發(fā)明,不是要自動(dòng)地限制該應(yīng)用的范圍為 任何單個(gè)發(fā)明或發(fā)明構(gòu)思。
[0087] 如圖1所示,圖1是本發(fā)明實(shí)施例中基于集中運(yùn)維和過程監(jiān)視的故障處理功能圖, 包括四大部分,第一部分就是監(jiān)視數(shù)據(jù)源,包括對(duì)數(shù)據(jù)源的處理方法和過程監(jiān)視故障分析 法;第二部分是故障診斷,基于對(duì)數(shù)據(jù)源的分析處理后,可以初步定位故障,對(duì)日常故障進(jìn) 行日常維護(hù)處理,如果遇到比較復(fù)雜的問題,將聯(lián)合產(chǎn)品生產(chǎn)商共同診斷故障,協(xié)調(diào)處理; 第三部分是故障處理過程中對(duì)故障處理的狀態(tài)進(jìn)行監(jiān)管,主要是為了提高故障處理的效 率,提升系統(tǒng)在線運(yùn)行的穩(wěn)定性,對(duì)各種操作流程和步驟進(jìn)行有序管控,保障系統(tǒng)的穩(wěn)定運(yùn) 行;第四部分是故障處理結(jié)果的確認(rèn)和評(píng)價(jià),當(dāng)故障處理完成后,由調(diào)控中心進(jìn)行確認(rèn),并 對(duì)服務(wù)質(zhì)量和效果進(jìn)行評(píng)價(jià),一方面可以促進(jìn)集中運(yùn)維工作的有序有效開展,另一方面建 立故障處理的閉環(huán)機(jī)制,掌握調(diào)控中心對(duì)運(yùn)維工作的需求,不斷提升遠(yuǎn)程集中運(yùn)維的技術(shù) 手段。
[0088] 如圖2所示,圖2是本發(fā)明實(shí)施例中三大機(jī)構(gòu)的職責(zé)分工及故障處理流程圖,包括 下述步驟:
[0089] (1)監(jiān)視數(shù)據(jù)源:
[0090] 一、定義告警信息的類型、級(jí)別和時(shí)限
[0091] 1)監(jiān)視數(shù)據(jù)源分類:包括電網(wǎng)重要監(jiān)視數(shù)據(jù)、設(shè)備運(yùn)行狀態(tài)、應(yīng)用運(yùn)行狀態(tài)、網(wǎng)絡(luò) 通信狀態(tài)和本地機(jī)房環(huán)境監(jiān)視數(shù)據(jù)五大類。
[0092] 2)告警數(shù)據(jù)源主要包括:
[0093] 調(diào)控中心直接轉(zhuǎn)發(fā)的告警直傳數(shù)據(jù):包括、設(shè)備運(yùn)行狀態(tài)故障、應(yīng)用運(yùn)行狀態(tài)故 障、網(wǎng)絡(luò)通信狀態(tài)故障。
[0094] 集中運(yùn)維中心本地監(jiān)視到的故障進(jìn)行實(shí)時(shí)告警:包括電網(wǎng)重要監(jiān)視數(shù)據(jù)越限、各 類傳輸數(shù)據(jù)中斷、跳變、不刷新、應(yīng)用故障超時(shí)、鏈路中斷超時(shí)、本地機(jī)房環(huán)境異常、遠(yuǎn)程瀏 覽中斷超時(shí)、數(shù)據(jù)網(wǎng)中斷、熱線電話緊急告警。其中傳輸數(shù)據(jù)中斷和跳變按照監(jiān)視數(shù)據(jù)源類 型細(xì)分到下一個(gè)級(jí)別。
[0095] 根據(jù)歷史數(shù)據(jù)進(jìn)行分析的系統(tǒng)風(fēng)險(xiǎn)告警:包括系統(tǒng)資源重載(包括CPU、服務(wù)器和 內(nèi)存重載監(jiān)視)、應(yīng)用故障率越限、應(yīng)用持續(xù)(分為單次故障時(shí)間和日故障總時(shí)間)故障時(shí) 間越限、傳輸數(shù)據(jù)中斷次數(shù)越限、數(shù)值數(shù)據(jù)連續(xù)跳變、系統(tǒng)更新的持續(xù)時(shí)間越限、CORE文件 過多(包括某一進(jìn)程和某一目錄)、進(jìn)程連續(xù)產(chǎn)生CORE文件七大類。
[0096] 故障處理流程監(jiān)視到的流程告警信息:包括故障處理超時(shí)告警、故障處理延時(shí)警 告、故障處理結(jié)果評(píng)價(jià)不合格三大類
[0097] 具體告警數(shù)據(jù)源分類如下表1所示。
[0098]
[0099] 3)根據(jù)告警信息類別,進(jìn)行告警分級(jí)和定義響應(yīng)時(shí)間,如下表2所示:
[0100] 表2告警分級(jí)和定義響應(yīng)時(shí)間
[0101]
[0102]
[0103] 告警信息分類表中所列舉的故障依據(jù)故障級(jí)別定義進(jìn)行分級(jí)。分級(jí)如圖二告警數(shù) 據(jù)源分類及告警級(jí)別定義表中數(shù)字編號(hào)所示。
[0104] 二、集中運(yùn)維系統(tǒng)過程監(jiān)視分析法:
[0105] 結(jié)合歷史數(shù)據(jù)和實(shí)時(shí)信息,通過對(duì)一個(gè)監(jiān)視事件發(fā)生的各種狀態(tài)進(jìn)行分析,判定 系統(tǒng)是否屬于故障情況。一個(gè)事件的狀態(tài)分為"正常"、"故障"、"退出"三種情況,狀態(tài)信息 在本地的刷新周期為l_3s,遠(yuǎn)程監(jiān)視數(shù)據(jù)采集周期為5s,一個(gè)事件狀態(tài)為"正常"狀態(tài),因 此我們假定從"正常"狀態(tài)做為一個(gè)過程的起始狀態(tài),并且定義300秒為系統(tǒng)最大自愈等待 時(shí)間一一即故障告警模塊在監(jiān)視到"故障"后等待300秒,并在此時(shí)間內(nèi)不發(fā)出告警,根據(jù) 300秒內(nèi)監(jiān)視的狀態(tài)變化再?zèng)Q定是否告警。事件狀態(tài)變化過程的實(shí)際情況和具體分析方法 如下,可以分為以下六種情況。
[0106] 1)正常-故障-正常
[0107] 方法:采集到這三個(gè)狀態(tài)過程的最短時(shí)間應(yīng)為15s,即在15s內(nèi)采到一次故障狀 態(tài),但是這是理想狀態(tài)。實(shí)際情況是某狀態(tài)從"正常"變?yōu)?故障"后,告警模塊開始每5秒 連續(xù)采集事件的狀態(tài),在300秒周期內(nèi)某時(shí)刻S監(jiān)視到事件狀態(tài)由"故障"又變回到"正常" 狀態(tài)時(shí),這時(shí)不發(fā)送告警信息。原因是該事件在很短的時(shí)間內(nèi)出現(xiàn)過故障,但是又迅速恢復(fù) 到正常,說明該事件能夠自愈,不涉及人工處理的過程。因?yàn)樵?00秒內(nèi)該事件的故障狀態(tài) 得到恢復(fù),有可能是本地值班員重啟相關(guān)進(jìn)程,或者本地系統(tǒng)的監(jiān)視程序在某種情況下對(duì) 相關(guān)進(jìn)程進(jìn)行了重啟,因此遠(yuǎn)程監(jiān)視時(shí)集中運(yùn)維系統(tǒng)不用發(fā)出故障告警。只是提示值班員 故障已經(jīng)自行恢復(fù),因此不需要推送告警信息。
[0108] 標(biāo)記:不標(biāo)記。
[0109] 告警監(jiān)視周期:從S時(shí)刻起進(jìn)入下一新的告警監(jiān)視周期。
[0110] 統(tǒng)計(jì)方法:記錄該事件故障一次,同時(shí)故障恢復(fù)一次。從監(jiān)視到"故障"這一時(shí)刻 起,計(jì)時(shí)器開始記錄故障時(shí)間,直到狀態(tài)變?yōu)?正常"時(shí),計(jì)時(shí)器確認(rèn)故障持續(xù)時(shí)長。
[0111] 2)正常一持續(xù)故障
[0112] 方法:某事件狀態(tài)從"正常"變?yōu)?故障"后,如果在300秒內(nèi)事件狀態(tài)不發(fā)生變化, 而持續(xù)保持"故障"狀態(tài),則說明該事件在最大監(jiān)視周期時(shí)間內(nèi)出現(xiàn)了故障,并且沒有自行 恢復(fù)的能力,這是系統(tǒng)在第300秒時(shí)發(fā)出告警。
[0113] 標(biāo)記:該事件產(chǎn)生告警,并推送到故障處理流程中進(jìn)行診斷和處理。等處理完成后 返回告警,標(biāo)記該事件故障消除。
[0114] 告警監(jiān)視周期:由于這個(gè)事件進(jìn)入到持續(xù)故障狀態(tài),并且標(biāo)記產(chǎn)生告警,因此告警 模塊每5秒繼續(xù)采集狀態(tài),直到采集到"正常"時(shí),則開始進(jìn)入下一個(gè)新事件的監(jiān)視周期。
[0115] 統(tǒng)計(jì)方法:記錄事件故障一次。從監(jiān)視到"故障"這一時(shí)刻起,計(jì)時(shí)器開始記錄故 障時(shí)間,直到狀態(tài)變?yōu)?正常"時(shí),計(jì)時(shí)器確認(rèn)故障持續(xù)時(shí)長。
[0116] 3)正常-故障-退出
[0117] 方法:某事件狀態(tài)從"正常"變?yōu)?故障"后,如果在300秒內(nèi)某時(shí)刻S監(jiān)視到事件 狀態(tài)由"故障"又變?yōu)?退出"狀態(tài)時(shí),說明該事件在短時(shí)間內(nèi)出現(xiàn)了故障,標(biāo)志該事件處于 故障狀態(tài)中,并發(fā)出告警,報(bào)告值班人員該事件發(fā)生了故障并且系統(tǒng)無法自愈,需要人為參 與故障處理。
[0118] 標(biāo)記:該事件產(chǎn)生告警,并推送到故障處理流程中進(jìn)行診斷和處理。等處理完成后 返回告警,標(biāo)記該事件故障消除。
[0119] 告警監(jiān)視周期:由于事件進(jìn)入到退出狀態(tài),并且標(biāo)記產(chǎn)生告警,因此告警模塊每5 秒繼續(xù)采集狀態(tài),直到采集到"正常"時(shí),則開始進(jìn)入下一個(gè)新事件的監(jiān)視周期。
[0120] 統(tǒng)計(jì)方法:記錄事件故障一次。從監(jiān)視到"故障"這一時(shí)刻起,計(jì)時(shí)器開始記錄故 障時(shí)間,直到狀態(tài)變?yōu)?正常"時(shí),計(jì)時(shí)器確認(rèn)故障持續(xù)時(shí)長。
[0121] 4)正常_(故障-退出(連續(xù)閃變5次))_異常(非正常永久退出)
[0122] 方法:當(dāng)系統(tǒng)發(fā)生故障時(shí),系統(tǒng)監(jiān)視程序會(huì)首先將相關(guān)進(jìn)程重啟,如果連續(xù)重啟5 次都失敗,該事件最終顯示"異常"狀態(tài)(實(shí)際上是狀態(tài)從"故障"到"退出"閃變了 5次), 則監(jiān)視程序放棄將相關(guān)進(jìn)程重啟,而永久退出。如果在300秒內(nèi)某時(shí)刻S監(jiān)視到事件狀態(tài) 變成由"正?;蚬收?變成"異常"時(shí),則在S秒時(shí)發(fā)出告警,說明事件發(fā)生了異常,和簡單 的故障狀態(tài)是有所區(qū)別的,需要人工處理才能重新恢復(fù)該事件正常運(yùn)行。
[0123] 標(biāo)記:該事件產(chǎn)生告警,并推送到故障處理流程中進(jìn)行診斷和處理。等處理完成后 返回告警,標(biāo)記該事件故障消除。
[0124] 告警監(jiān)視周期:由于事件進(jìn)入到"異常"狀態(tài),并且標(biāo)記產(chǎn)生告警,因此沒有人工處 理這個(gè)事件不可能恢復(fù)正常,因?yàn)橄嚓P(guān)進(jìn)程已經(jīng)永久退出服務(wù),這時(shí)需要等故障處理流程 返回該事件故障被消除后,確認(rèn)事件恢復(fù)正常時(shí),才則開始進(jìn)入下一個(gè)新事件的監(jiān)視周期。
[0125] 統(tǒng)計(jì)方法:記錄事件異常一次。從監(jiān)視到"異常"這一時(shí)刻起,計(jì)時(shí)器開始記錄故 障時(shí)間,直到狀態(tài)變?yōu)?正常"時(shí),計(jì)時(shí)器確認(rèn)故障持續(xù)時(shí)長。
[0126] 5)正常-退出-正常
[0127] 方法:某事件狀態(tài)從"正常"變?yōu)?退出"后,從"退出"時(shí)刻開始,告警模塊在后續(xù) 時(shí)間內(nèi)第S秒監(jiān)視到事件狀態(tài)恢復(fù)"正常"運(yùn)行,這時(shí)系統(tǒng)不發(fā)出告警,僅說明該事件在某 種情況下正常重啟了一次,例如程序開發(fā)人員對(duì)程序進(jìn)行消缺或升級(jí),這種情況在程序員 操作前應(yīng)提前通知集中運(yùn)維中心,并允許監(jiān)視系統(tǒng)對(duì)程序員的操作進(jìn)行追蹤,防止重大責(zé) 任事故的發(fā)生,這種情況也屬于系統(tǒng)安全防護(hù)的范疇。
[0128] 標(biāo)記:不標(biāo)記。
[0129] 告警監(jiān)視周期:從S時(shí)刻起進(jìn)入下一新的告警監(jiān)視周期。
[0130] 統(tǒng)計(jì)方法:記錄事件重新啟動(dòng)一次。計(jì)時(shí)器不統(tǒng)計(jì)故障時(shí)間。
[0131] 6)正常-退出-故障
[0132] 方法:某事件狀態(tài)從"正常"變?yōu)?退出",從"退出"時(shí)刻開始,告警模塊在后續(xù)時(shí) 間內(nèi)第S秒時(shí)監(jiān)視到進(jìn)程"故障"狀態(tài),正常情況下這種狀態(tài)是不應(yīng)該存在的,因?yàn)轱@然一 個(gè)事件的狀態(tài)從"正常"變?yōu)?退出"再變?yōu)?正常"時(shí)是事件正常重啟了一次,但是重啟后 迅速進(jìn)入"故障"狀態(tài),則說明本地系統(tǒng)的運(yùn)行環(huán)境可能存在某種錯(cuò)誤,這時(shí)告警模塊在第 S秒發(fā)出告警,需要人為關(guān)注這一事件,并且告警模塊繼續(xù)監(jiān)視,直到捕捉到事件恢復(fù)正常。
[0133] 標(biāo)記:標(biāo)記事件產(chǎn)生告警,并推送到故障處理流程中進(jìn)行診斷和處理。如果在很短 的時(shí)間內(nèi)故障恢復(fù),則提示值班員該事件在重啟時(shí)發(fā)生了一次故障,等處理完成后返回告 警,標(biāo)記該事件故障消除。(該事件的故障原因需要根據(jù)告警關(guān)聯(lián)分析法,故障快速診斷和 定位,以及采用其它的分析方法進(jìn)行診斷。如果由于故障時(shí)間非常短造成的沒有診斷結(jié)果, 則在統(tǒng)計(jì)分析時(shí)標(biāo)注該事件發(fā)生過錯(cuò)誤重啟過程,在進(jìn)行風(fēng)險(xiǎn)預(yù)警環(huán)節(jié)提示該事件重啟過 程有風(fēng)險(xiǎn)。)
[0134] 告警監(jiān)視周期:從告警模塊監(jiān)視到該事件恢復(fù)"正常"時(shí)刻起,進(jìn)入下一新的告警 監(jiān)視周期。
[0135] 統(tǒng)計(jì)方法:記錄事件故障一次,計(jì)時(shí)器從事件發(fā)生"故障"開始計(jì)時(shí),直到狀態(tài)變?yōu)?"正常"時(shí),計(jì)時(shí)器確認(rèn)故障持續(xù)時(shí)長。
[0136] (2)3.故障定位和初步診斷
[0137] 根據(jù)過程監(jiān)視分析法,可以提高告警正確率,在接收到告警消息之后,就需要進(jìn)行 故障定位和初步診斷。以下是故障定位和診斷的過程。
[0138] 1>建立典型的故障分析模型進(jìn)行故障定位:
[0139] 通過過程監(jiān)視分析法可以確定告警信息中的故障類型、告警時(shí)間、故障級(jí)別等信 息,因此故障告警的類型很容易被確定,因此故障分析模型首先要按告警信息的類型進(jìn)行 分類,并且不同類型的故障直接采用不同的故障模型,以此來減少分析時(shí)間,實(shí)現(xiàn)故障快速 定位的要求。實(shí)際上對(duì)集中運(yùn)維中心的快速定位要求并不是要求像開發(fā)人員一樣去解決問 題,只需要初步確定故障類型、可能引起故障的原因和故障時(shí)間就可以了,具體的問題要到 故障處理流程中解決,如果定位到日常維護(hù)工作,由集中運(yùn)維中心的運(yùn)維人員就可以按照 知識(shí)庫中提供的解決方案進(jìn)行日常維護(hù)處理,如果是比較復(fù)雜的問題,則直接提交產(chǎn)品生 產(chǎn)廠家協(xié)同處理,這樣可以將任務(wù)分級(jí),提高故障處理的效率,節(jié)省人力資源。以下是對(duì)幾 種故障模型的說明。
[0140] 關(guān)聯(lián)分析模型一一告警信息存在兩個(gè)源頭,一個(gè)是調(diào)控中心直接給集中運(yùn)維中心 通過通信協(xié)議直接發(fā)送各地的系統(tǒng)告警信息,另一個(gè)是集中運(yùn)維中心根據(jù)實(shí)時(shí)采集的系統(tǒng) 運(yùn)行狀態(tài)采用過程分析法發(fā)送告警,事實(shí)上這兩個(gè)告警源所發(fā)出的告警信息有可能是同一 事件的故障問題,因此為了減少重復(fù)告警次數(shù),我們需要對(duì)這兩個(gè)告警源進(jìn)行確認(rèn),如果是 同一個(gè)事件的故障告警,則只推送一次即可。根據(jù)上述要求,我們需要依據(jù)告警信息分類的 基礎(chǔ)上建立事件的關(guān)聯(lián)分析模型,例如實(shí)時(shí)分析告警中發(fā)現(xiàn)一個(gè)事件發(fā)生了故障,在推送 告警之前需要在告警直傳中對(duì)應(yīng)類型的事件告警中進(jìn)行搜索,搜索方式根據(jù)類別,告警時(shí) 標(biāo)和GPS對(duì)時(shí)推算同源事件,這樣可以實(shí)現(xiàn)精確定位,定位后便可以推送告警,并在告警直 傳模塊中標(biāo)記該事件已經(jīng)被關(guān)注。告警模塊同時(shí)還要定時(shí)掃描調(diào)控中心發(fā)送過來的所有告 警信息是否都一一被標(biāo)記已經(jīng)關(guān)注或處理中。
[0141] 遞歸分析模型一一類似于故障樹模型,不同的是比故障樹要簡單,因?yàn)槲覀冎?已經(jīng)對(duì)告警信息進(jìn)行了分類,只需要在同源故障中建立遞歸分析模型,就可以快速定位故 障。遞歸分析模型主要采用排除法進(jìn)行分析,例如集中運(yùn)維中心接收到一條實(shí)時(shí)告警消息, 發(fā)現(xiàn)數(shù)據(jù)中斷,于是運(yùn)維值班員首先查看通信鏈路是否中斷,如果是鏈路中斷,則說明是由 鏈路故障引起和系統(tǒng)事件,標(biāo)注這兩個(gè)故障為同一個(gè)告警源,當(dāng)鏈路恢復(fù)后,數(shù)據(jù)就能夠正 常顯示;如果此時(shí)鏈路是正常的,則查看是否前置數(shù)據(jù)有問題,如果前置數(shù)據(jù)沒有問題,則 繼續(xù)查看是否畫面數(shù)據(jù)不刷新,人機(jī)系統(tǒng)是否正常,依此類推,引起故障的嚴(yán)重原因定位在 第一層,逐層分析,最終找到引起故障的原因,進(jìn)行處理。些類模型主要用于數(shù)值類數(shù)據(jù)的 中斷、跳變、不刷新分析。
[0142] 2>故障識(shí)別及告警確認(rèn)
[0143] 對(duì)于設(shè)備、應(yīng)用和通信鏈路發(fā)生故障時(shí),首先根據(jù)告警類別采用關(guān)聯(lián)故障模型去 搜索故障源,確認(rèn)同源事件后,對(duì)同源事件標(biāo)注同一個(gè)告警ID號(hào)。
[0144] 對(duì)于數(shù)值類監(jiān)視數(shù)據(jù)發(fā)生異常時(shí),通過相應(yīng)的遞歸模型進(jìn)行故障定位,定位后如 果屬于日常故障則由運(yùn)維值班員依據(jù)故障處理預(yù)案進(jìn)行日常維護(hù)處理,如果屬于較復(fù)雜的 故障,需要及時(shí)聯(lián)系產(chǎn)品生產(chǎn)商進(jìn)行協(xié)作處理。
[0145] 當(dāng)告警發(fā)生后都會(huì)建立一個(gè)故障處理任務(wù),該任務(wù)直到故障被消除后才被標(biāo)記完 成狀態(tài),任務(wù)完成后會(huì)發(fā)出一個(gè)告警消除消息,此消息會(huì)加載告警ID號(hào),根據(jù)告警ID號(hào),同 時(shí)消除一個(gè)或多個(gè)同源告警事件。
[0146] (3)故障處理:
[0147] A、故障告警接收與建立故障處理任務(wù):
[0148] 由各調(diào)控中心將監(jiān)視數(shù)據(jù)發(fā)送給集中運(yùn)維中心進(jìn)行監(jiān)視和分析,集中運(yùn)維中心接 收到實(shí)時(shí)監(jiān)視數(shù)據(jù)后首先進(jìn)行分類處理,采用過程監(jiān)視法對(duì)事件狀態(tài)進(jìn)行監(jiān)視和分析,并 對(duì)發(fā)生的故障進(jìn)行告警,每個(gè)告警信息都有一個(gè)ID號(hào),而引起同一個(gè)告警的事件源都標(biāo)記 上這個(gè)告警ID號(hào)。當(dāng)告警發(fā)出時(shí),便建立了一個(gè)新的任務(wù),這個(gè)任務(wù)需要進(jìn)行人工處理,并 對(duì)新建任務(wù)的受理狀態(tài)進(jìn)行流程管控,即對(duì)這個(gè)故障處理的過程要進(jìn)行監(jiān)管。
[0149] B、故障處理及狀態(tài)監(jiān)視:
[0150] 產(chǎn)生一個(gè)新的告警后,根據(jù)告警級(jí)別啟動(dòng)不同的處理流程,嚴(yán)重極別的故障必須 啟動(dòng)應(yīng)急預(yù)案,如附圖2中的流程,預(yù)案要求調(diào)控中心、集中運(yùn)維中心和產(chǎn)品生產(chǎn)商之間快 速高效地定位故障并協(xié)同處理,邊處理邊通告,及時(shí)解除對(duì)系統(tǒng)運(yùn)行造成重大的影響的事 故。如果是日常維護(hù)流程,則可以根據(jù)故障分析模型進(jìn)行故障診斷與定位,由運(yùn)維值班員統(tǒng) 一處理,如果在處理過程中遇到較復(fù)雜的問題,可以要求產(chǎn)品生產(chǎn)商協(xié)同處理,并監(jiān)視故障 處理的時(shí)間,如果在規(guī)定的時(shí)間內(nèi)無法完成任務(wù)或遇到特殊情況需要延時(shí),則請(qǐng)求調(diào)控中 心是否同意延時(shí)處理,如果調(diào)控中心同意延時(shí),則由調(diào)控中心定義延時(shí)時(shí)長,如果在延時(shí)過 程中完成任務(wù),則不影響考評(píng)結(jié)果,如果仍然無法完成任務(wù)則在考評(píng)中會(huì)考慮處理效率的 得分。如果任務(wù)在申請(qǐng)延時(shí)時(shí)未得到調(diào)控中心的同意,則該任務(wù)由于處理超時(shí)則在考評(píng)中 會(huì)在相應(yīng)項(xiàng)目中酌減。
[0151] (4)處理結(jié)果確認(rèn)及評(píng)價(jià):
[0152] 當(dāng)任務(wù)處理完成后,首先要返回告警模塊進(jìn)行標(biāo)記,提示此事件引起的故障已經(jīng) 消除,并解除告警,即標(biāo)記同一事件告警ID的故障源解除告警狀態(tài),標(biāo)志該事件已經(jīng)處理 完成,不存在風(fēng)險(xiǎn)。由集中運(yùn)維中心提交故障處理結(jié)果,由調(diào)控中心進(jìn)行確認(rèn)。如果遇重 大故障需要?jiǎng)t由集中運(yùn)維中心會(huì)同產(chǎn)品生產(chǎn)商共同提交重大故障的報(bào)告,并由調(diào)控中心根 據(jù)處理時(shí)間,響應(yīng)速度,處理結(jié)果及服務(wù)態(tài)度四個(gè)項(xiàng)目進(jìn)行打分,最終的得分計(jì)入當(dāng)月的考 評(píng)。
[0153] 運(yùn)維服務(wù)評(píng)價(jià)指標(biāo):
[0154] 集中運(yùn)維工作的考評(píng)總分共計(jì)20分,按照下述表3定義的標(biāo)準(zhǔn)由調(diào)控中心進(jìn)行打 分。單次故障的處理結(jié)果進(jìn)行累計(jì)得到月度考評(píng)結(jié)果,提交上級(jí)主管部門審核后公示。
[0155] 表3運(yùn)維服務(wù)評(píng)價(jià)指標(biāo)
[0156]
[0157]
[0158] 本發(fā)明提供的一種基于過程監(jiān)視的集中運(yùn)維故障閉環(huán)處理方法及其系統(tǒng),在集中 運(yùn)維模式下對(duì)智能電網(wǎng)調(diào)度控制系統(tǒng)監(jiān)視信息進(jìn)行分類,對(duì)系統(tǒng)的運(yùn)行狀態(tài)的變化過程進(jìn) 行分析,正確觸發(fā)告警,降低告警誤報(bào)率,對(duì)監(jiān)視信息的分類,根據(jù)發(fā)生的故障對(duì)系統(tǒng)產(chǎn)生 的影響程度進(jìn)行分級(jí)告警,采用典型的故障分析模型對(duì)故障進(jìn)行初步診斷,每個(gè)告警事件 建立一個(gè)新任務(wù),該任務(wù)即對(duì)告警事件進(jìn)行處理,并對(duì)處理過程進(jìn)行實(shí)時(shí)跟蹤,對(duì)故障處理 超時(shí)、延時(shí)等情況進(jìn)行管控,直至任務(wù)完成后返回消除告警事件,生成故障報(bào)告,提交調(diào)控 中心,并為調(diào)控中心提供整體運(yùn)維服務(wù)評(píng)價(jià)平臺(tái),形成從故障發(fā)現(xiàn)、故障診斷到故障處理再 到處理結(jié)果反饋的閉環(huán)機(jī)制,建立完整的系統(tǒng)狀態(tài)過程監(jiān)視、故障告警和故障處理的流程; 同時(shí)建立故障信息知識(shí)庫,為運(yùn)行維護(hù)人員提供故障診斷的輔助手段,減少人為誤操作對(duì) 系統(tǒng)產(chǎn)生的額外影響。
[0159] 本發(fā)明實(shí)現(xiàn)對(duì)國調(diào)、分調(diào)及省調(diào)智能電網(wǎng)調(diào)度控制系統(tǒng)的軟、硬件集中監(jiān)視、集中 維護(hù)、集中管理;提供高效的遠(yuǎn)程維護(hù)技術(shù)手段,協(xié)助各地調(diào)度自動(dòng)化部門快速診斷、處理 系統(tǒng)應(yīng)用軟件的異常和故障;建立與生產(chǎn)廠家、科研機(jī)構(gòu)和檢測(cè)中心的聯(lián)動(dòng)接口,為科研開 發(fā)、仿真試驗(yàn)及系統(tǒng)檢測(cè)提供了技術(shù)支撐;建立廠家橫向聯(lián)動(dòng)機(jī)制,大大突顯了集中運(yùn)維 系統(tǒng)應(yīng)急響應(yīng)的優(yōu)越性。加強(qiáng)智能電網(wǎng)調(diào)度技術(shù)支持系統(tǒng)的統(tǒng)一運(yùn)維管理,規(guī)范調(diào)度技術(shù) 支持系統(tǒng)運(yùn)維工作流程,保障調(diào)度技術(shù)支持系統(tǒng)安全可靠運(yùn)行,提高調(diào)度技術(shù)支持系統(tǒng)整 體運(yùn)維水平,統(tǒng)一監(jiān)視調(diào)度自動(dòng)化系統(tǒng)運(yùn)行的關(guān)鍵設(shè)備、數(shù)據(jù)和軟件功能,能及時(shí)發(fā)現(xiàn)系統(tǒng) 運(yùn)行問題,減少問題造成的影響,為各級(jí)調(diào)度中心提供更好的運(yùn)維技術(shù)服務(wù)。
[0160] 除非另外具體陳述,術(shù)語比如處理、計(jì)算、運(yùn)算、確定、顯示等等可以指一個(gè)或更多 個(gè)處理或者計(jì)算系統(tǒng)、或類似設(shè)備的動(dòng)作和/或過程,所述動(dòng)作和/或過程將表示為處理系 統(tǒng)的寄存器或存儲(chǔ)器內(nèi)的物理(如電子)量的數(shù)據(jù)操作和轉(zhuǎn)換成為類似地表示為處理系統(tǒng) 的存儲(chǔ)器、寄存器或者其他此類信息存儲(chǔ)、發(fā)射或者顯示設(shè)備內(nèi)的物理量的其他數(shù)據(jù)。信息 和信號(hào)可以使用多種不同的技術(shù)和方法中的任何一種來表示。例如,在貫穿上面的描述中 提及的數(shù)據(jù)、指令、命令、信息、信號(hào)、比特、符號(hào)和碼片可以用電壓、電流、電磁波、磁場或粒 子、光場或粒子或者其任意組合來表示。
[0161] 應(yīng)該明白,公開的過程中的步驟的特定順序或?qū)哟问鞘纠苑椒ǖ膶?shí)例?;谠O(shè) 計(jì)偏好,應(yīng)該理解,過程中的步驟的特定順序或?qū)哟慰梢栽诓幻撾x本公開的保護(hù)范圍的情 況下得到重新安排。所附的方法權(quán)利要求以示例性的順序給出了各種步驟的要素,并且不 是要限于所述的特定順序或?qū)哟巍?br>[0162] 在上述的詳細(xì)描述中,各種特征一起組合在單個(gè)的實(shí)施方案中,以簡化本公開。不 應(yīng)該將這種公開方法解釋為反映了這樣的意圖,即,所要求保護(hù)的主題的實(shí)施方案需要清 楚地在每個(gè)權(quán)利要求中所陳述的特征更多的特征。相反,如所附的權(quán)利要求書所反映的那 樣,本發(fā)明處于比所公開的單個(gè)實(shí)施方案的全部特征少的狀態(tài)。因此,所附的權(quán)利要求書特 此清楚地被并入詳細(xì)描述中,其中每項(xiàng)權(quán)利要求獨(dú)自作為本發(fā)明單獨(dú)的優(yōu)選實(shí)施方案。
[0163] 本領(lǐng)域技術(shù)人員還應(yīng)當(dāng)理解,結(jié)合本文的實(shí)施例描述的各種說明性的邏輯框、模 塊、電路和算法步驟均可以實(shí)現(xiàn)成電子硬件、計(jì)算機(jī)軟件或其組合。為了清楚地說明硬件和 軟件之間的可交換性,上面對(duì)各種說明性的部件、框、模塊、電路和步驟均圍繞其功能進(jìn)行 了一般地描述。至于這種功能是實(shí)現(xiàn)成硬件還是實(shí)現(xiàn)成軟件,取決于特定的應(yīng)用和對(duì)整個(gè) 系統(tǒng)所施加的設(shè)計(jì)約束條件。熟練的技術(shù)人員可以針對(duì)每個(gè)特定應(yīng)用,以變通的方式實(shí)現(xiàn) 所描述的功能,但是,這種實(shí)現(xiàn)決策不應(yīng)解釋為背離本公開的保護(hù)范圍。
[0164] 上文的描述包括一個(gè)或多個(gè)實(shí)施例的舉例。當(dāng)然,為了描述上述實(shí)施例而描述部 件或方法的所有可能的結(jié)合是不可能的,但是本領(lǐng)域普通技術(shù)人員應(yīng)該認(rèn)識(shí)到,各個(gè)實(shí)施 例可以做進(jìn)一步的組合和排列。因此,本文中描述的實(shí)施例旨在涵蓋落入所附權(quán)利要求書 的保護(hù)范圍內(nèi)的所有這樣的改變、修改和變型。此外,就說明書或權(quán)利要求書中使用的術(shù) 語"包含",該詞的涵蓋方式類似于術(shù)語"包括",就如同"包括,"在權(quán)利要求中用作銜接詞所 解釋的那樣。此外,使用在權(quán)利要求書的說明書中的任何一個(gè)術(shù)語"或者"是要表示"非排 它性的或者"。
[0165] 最后應(yīng)當(dāng)說明的是:以上實(shí)施例僅用以說明本發(fā)明的技術(shù)方案而非對(duì)其限制,盡 管參照上述實(shí)施例對(duì)本發(fā)明進(jìn)行了詳細(xì)的說明,所屬領(lǐng)域的普通技術(shù)人員依然可以對(duì)本發(fā) 明的【具體實(shí)施方式】進(jìn)行修改或者等同替換,這些未脫離本發(fā)明精神和范圍的任何修改或者 等同替換,均在申請(qǐng)待批的本發(fā)明的權(quán)利要求保護(hù)范圍之內(nèi)。
【主權(quán)項(xiàng)】
1. 一種基于過程監(jiān)視的集中運(yùn)維故障閉環(huán)處理方法,所述方法用于智能電網(wǎng)調(diào)度控制 系統(tǒng)遠(yuǎn)程集中運(yùn)維,其特征在于,所述方法包括下述步驟: (1) 監(jiān)視數(shù)據(jù)源:包括處理數(shù)據(jù)源和過程監(jiān)視故障分析; (2) 故障診斷:包括故障定位和初步診斷; (3) 故障處理:監(jiān)管故障處理的狀態(tài); (4) 故障處理結(jié)果的確認(rèn)和評(píng)價(jià)。2. 如權(quán)利要求1所述的集中運(yùn)維故障閉環(huán)處理方法,其特征在于,所述步驟(1)中,處 理數(shù)據(jù)源包括: 定義告警信息的類型: 1) 監(jiān)視數(shù)據(jù)源分類:包括電網(wǎng)重要監(jiān)視數(shù)據(jù)、設(shè)備運(yùn)行狀態(tài)、應(yīng)用運(yùn)行狀態(tài)、網(wǎng)絡(luò)通信 狀態(tài)和本地機(jī)房環(huán)境監(jiān)視數(shù)據(jù); 2) 告警數(shù)據(jù)源包括: ① 調(diào)控中心直接轉(zhuǎn)發(fā)的告警直傳數(shù)據(jù):包括設(shè)備運(yùn)行狀態(tài)故障、應(yīng)用運(yùn)行狀態(tài)故障和 網(wǎng)絡(luò)通信狀態(tài)故障; ② 集中運(yùn)維中心本地監(jiān)視到的故障進(jìn)行實(shí)時(shí)告警:包括電網(wǎng)重要監(jiān)視數(shù)據(jù)越限、傳輸 數(shù)據(jù)中斷、跳變、不刷新、應(yīng)用故障超時(shí)、鏈路中斷超時(shí)、本地機(jī)房環(huán)境異常、遠(yuǎn)程瀏覽中斷 超時(shí)、數(shù)據(jù)網(wǎng)中斷和熱線電話緊急告警;其中傳輸數(shù)據(jù)中斷和跳變按照監(jiān)視數(shù)據(jù)源類型細(xì) 分到下一個(gè)級(jí)別; ③ 根據(jù)歷史數(shù)據(jù)進(jìn)行分析的系統(tǒng)風(fēng)險(xiǎn)告警:包括系統(tǒng)資源重載、應(yīng)用故障率越限、應(yīng) 用持續(xù)故障時(shí)間越限、傳輸數(shù)據(jù)中斷次數(shù)越限、數(shù)值數(shù)據(jù)連續(xù)跳變、系統(tǒng)更新的持續(xù)時(shí)間越 限、CORE文件過多和進(jìn)程連續(xù)產(chǎn)生CORE文件; ④ 故障處理流程監(jiān)視到的流程告警信息:包括故障處理超時(shí)告警、故障處理延時(shí)警告 和故障處理結(jié)果評(píng)價(jià)不合格告警; 根據(jù)告警信息類別,進(jìn)行故障分級(jí)和定義響應(yīng)時(shí)間: 故障級(jí)別包括: I級(jí):屬于緊急響應(yīng);其具體現(xiàn)象為:智能電網(wǎng)調(diào)度控制系統(tǒng)崩潰導(dǎo)致業(yè)務(wù)停止和數(shù)據(jù) 丟失,其對(duì)應(yīng)的響應(yīng)時(shí)間為:啟動(dòng)緊急處理預(yù)案,并在10分鐘內(nèi)提交故障處理方案; II級(jí):屬于故障處理;其具體現(xiàn)象為:出現(xiàn)部件失效、系統(tǒng)性能下降但能正常運(yùn)行,不 影響正常業(yè)務(wù)運(yùn)作;其對(duì)應(yīng)的響應(yīng)時(shí)間為:協(xié)同產(chǎn)品生產(chǎn)商,并在1小時(shí)內(nèi)提交故障處理方 案; III級(jí):屬于常規(guī)維護(hù);其具體現(xiàn)象為:出現(xiàn)系統(tǒng)報(bào)錯(cuò)或警告,但業(yè)務(wù)系統(tǒng)能繼續(xù)運(yùn)行 且性能不受影響;其對(duì)應(yīng)的響應(yīng)時(shí)間為:先由集中運(yùn)維中心進(jìn)行故障定位和處理,并在6小 時(shí)內(nèi)提交故障處理方案。3. 如權(quán)利要求1所述的集中運(yùn)維故障閉環(huán)處理方法,其特征在于,所述步驟(1)中,過 程監(jiān)視故障分析包括下述情況: 〈1>正常-故障-正常: 方式:理想狀態(tài)下采集到上述三個(gè)狀態(tài)過程的最短時(shí)間為15s,即在15s內(nèi)采到一次故 障狀態(tài);實(shí)際情況是事件從正常變?yōu)楣收虾?,集中運(yùn)維系統(tǒng)中的告警模塊開始每5秒連續(xù) 采集事件的狀態(tài),在300秒周期內(nèi)時(shí)刻S監(jiān)視到事件狀態(tài)由故障又變回到正常狀態(tài)時(shí),不發(fā) 送告警信息; 標(biāo)記:不標(biāo)記: 告警監(jiān)視周期:從S時(shí)刻起進(jìn)入下一新的告警監(jiān)視周期: 統(tǒng)計(jì)方式:記錄事件故障一次,同時(shí)故障恢復(fù)一次:從監(jiān)視到故障時(shí)刻起,集中運(yùn)維系 統(tǒng)中的計(jì)時(shí)器開始記錄故障時(shí)間,直到狀態(tài)變?yōu)檎r(shí),計(jì)時(shí)器確認(rèn)故障持續(xù)時(shí)長; 〈2>正常一持續(xù)故障: 方式:事件狀態(tài)從正常變?yōu)楣收虾?,如果?00秒內(nèi)事件狀態(tài)不發(fā)生變化,而持續(xù)保持 故障狀態(tài),則說明事件在最大監(jiān)視周期時(shí)間內(nèi)出現(xiàn)故障,且沒有自行恢復(fù)的能力,為系統(tǒng)在 第300秒時(shí)發(fā)出的告警; 標(biāo)記:事件產(chǎn)生告警,并推送到故障處理流程中進(jìn)行診斷和處理;等處理完成后返回 告警,標(biāo)記事件故障消除; 告警監(jiān)視周期:告警模塊每5秒繼續(xù)采集狀態(tài),直到采集到正常時(shí),則開始進(jìn)入下一個(gè) 新事件的監(jiān)視周期; 統(tǒng)計(jì)方式:記錄事件故障一次:從監(jiān)視到故障時(shí)刻起,計(jì)時(shí)器開始記錄故障時(shí)間,直到 狀態(tài)變?yōu)檎r(shí),計(jì)時(shí)器確認(rèn)故障持續(xù)時(shí)長; 〈3>正常-故障-退出: 方法:事件狀態(tài)從正常變?yōu)楣收虾螅绻?00秒內(nèi)時(shí)刻S監(jiān)視到事件狀態(tài)由故障又變 為退出狀態(tài)時(shí),說明事件在300秒內(nèi)出現(xiàn)故障,標(biāo)志事件處于故障狀態(tài)中,并發(fā)出告警,報(bào) 告值班人員事件發(fā)生故障并且系統(tǒng)無法自愈,需要人為參與故障處理; 標(biāo)記:事件產(chǎn)生告警,并推送到故障處理流程中進(jìn)行診斷和處理;等處理完成后返回 告警,標(biāo)記該事件故障消除; 告警監(jiān)視周期:集中運(yùn)維系統(tǒng)中的告警模塊每5秒繼續(xù)采集狀態(tài),直到采集到正常時(shí), 則開始進(jìn)入下一個(gè)新事件的監(jiān)視周期; 統(tǒng)計(jì)方法:記錄事件故障一次:從監(jiān)視到故障時(shí)刻起,計(jì)時(shí)器開始記錄故障時(shí)間,直到 狀態(tài)變?yōu)檎r(shí),計(jì)時(shí)器確認(rèn)故障持續(xù)時(shí)長; 〈4>正常-(故障-退出:即連續(xù)閃變5次)-異常,即非正常永久退出: 方式:當(dāng)系統(tǒng)發(fā)生故障時(shí),集中運(yùn)維系統(tǒng)監(jiān)視模塊首先將相關(guān)進(jìn)程重啟,如果連續(xù)重啟 5次都失敗,事件最終顯示異常狀態(tài),即狀態(tài)從故障到退出閃變5次,則監(jiān)視模塊放棄將相 關(guān)進(jìn)程重啟,永久退出;如果在300秒內(nèi)某時(shí)刻S監(jiān)視到事件狀態(tài)變成由正?;蚬收献兂僧?常時(shí),則在S秒時(shí)發(fā)出告警,說明事件發(fā)生異常,需要人工處理才能重新恢復(fù)該事件正常運(yùn) 行; 標(biāo)記:事件產(chǎn)生告警,并推送到故障處理流程中進(jìn)行診斷和處理;等處理完成后返回 告警,標(biāo)記事件故障消除; 告警監(jiān)視周期:等故障處理流程返回事件故障被消除后,確認(rèn)事件恢復(fù)正常時(shí),開始進(jìn) 入下一個(gè)新事件的監(jiān)視周期; 統(tǒng)計(jì)方式:記錄事件異常一次:從監(jiān)視到異常時(shí)刻起,計(jì)時(shí)器開始記錄故障時(shí)間,直到 狀態(tài)變?yōu)檎r(shí),計(jì)時(shí)器確認(rèn)故障持續(xù)時(shí)長; 〈5>正常-退出-正常: 方式:某事件狀態(tài)從正常變?yōu)橥顺龊?,從退出時(shí)刻開始,告警模塊在后續(xù)時(shí)間內(nèi)第S秒 監(jiān)視到事件狀態(tài)恢復(fù)正常運(yùn)行,系統(tǒng)不發(fā)出告警; 標(biāo)記:不標(biāo)記; 告警監(jiān)視周期:從S時(shí)刻起進(jìn)入下一新的告警監(jiān)視周期; 統(tǒng)計(jì)方式:記錄事件重新啟動(dòng)一次;計(jì)時(shí)器不統(tǒng)計(jì)故障時(shí)間; 〈6>正常-退出-故障: 方式:事件狀態(tài)從正常變?yōu)橥顺?,從退出時(shí)刻開始,告警模塊在后續(xù)時(shí)間內(nèi)第S秒時(shí)監(jiān) 視到進(jìn)程故障狀態(tài),告警模塊在第S秒發(fā)出告警,需要人為關(guān)注此事件,并且告警模塊繼續(xù) 監(jiān)視,直到捕捉到事件恢復(fù)正常; 標(biāo)記:標(biāo)記事件產(chǎn)生告警,并推送到故障處理流程中進(jìn)行診斷和處理;如果在300秒 內(nèi)故障恢復(fù),則提示事件在重啟時(shí)發(fā)生一次故障,處理完成后返回告警,標(biāo)記該事件故障消 除; 告警監(jiān)視周期:從集中運(yùn)維系統(tǒng)中的告警模塊監(jiān)視到事件恢復(fù)正常時(shí)刻起,進(jìn)入下一 新的告警監(jiān)視周期; 統(tǒng)計(jì)方式:記錄事件故障一次,集中運(yùn)維系統(tǒng)中的計(jì)時(shí)器從事件發(fā)生故障開始計(jì)時(shí),直 到狀態(tài)變?yōu)檎r(shí),集中運(yùn)維系統(tǒng)中的計(jì)時(shí)器確認(rèn)故障持續(xù)時(shí)長。4. 如權(quán)利要求1所述的集中運(yùn)維故障閉環(huán)處理方法,其特征在于,所述步驟⑵的故障 診斷包括下述步驟: 1>建立故障分析模型進(jìn)行故障定位,包括: 關(guān)聯(lián)分析模型:根據(jù)告警信息的兩個(gè)源頭建立事件的關(guān)聯(lián)分析模型,所述告警信息的 兩個(gè)源頭包括調(diào)控中心直接給集中運(yùn)維中心通過通信協(xié)議直接發(fā)送各地的系統(tǒng)告警信息 和集中運(yùn)維中心根據(jù)實(shí)時(shí)采集的系統(tǒng)運(yùn)行狀態(tài)采用過程分析法發(fā)送的告警信息; 遞歸分析模型:在同源故障中建立遞歸分析模型;所述遞歸分析模型采用排除法進(jìn)行 分析; 2>故障識(shí)別及告警確認(rèn),包括: 對(duì)于設(shè)備、應(yīng)用和通信鏈路發(fā)生故障時(shí),首先根據(jù)告警信息的類型采用關(guān)聯(lián)故障模型 去搜索故障源,確認(rèn)同源事件后,對(duì)同源事件標(biāo)注同一個(gè)告警ID號(hào); 對(duì)于數(shù)值類監(jiān)視數(shù)據(jù)發(fā)生異常時(shí),通過相應(yīng)的遞歸模型進(jìn)行故障定位,定位后如果屬 于日常故障則由運(yùn)維值班員依據(jù)故障處理預(yù)案進(jìn)行日常維護(hù)處理,如果屬于較復(fù)雜的故 障,需要及時(shí)聯(lián)系產(chǎn)品生產(chǎn)商進(jìn)行協(xié)作處理; 當(dāng)告警發(fā)生后建立故障處理任務(wù),所述故障處理任務(wù)直到故障被消除后才被標(biāo)記完成 狀態(tài),任務(wù)完成后會(huì)發(fā)出一個(gè)告警消除消息,此消息會(huì)加載告警ID號(hào),根據(jù)告警ID號(hào),同時(shí) 消除一個(gè)或多個(gè)同源告警事件。5. 如權(quán)利要求1所述的集中運(yùn)維故障閉環(huán)處理方法,其特征在于,所述步驟⑶的故障 處理包括下述步驟: A、 接收故障告警并建立故障處理任務(wù); B、 故障處理及狀態(tài)監(jiān)視。6. 如權(quán)利要求5所述的集中運(yùn)維故障閉環(huán)處理方法,其特征在于,所述步驟A包括:由 調(diào)控中心將監(jiān)視數(shù)據(jù)實(shí)時(shí)發(fā)送給集中運(yùn)維中心,集中運(yùn)維中心接收到實(shí)時(shí)監(jiān)視數(shù)據(jù)后首先 進(jìn)行分類處理,采用過程監(jiān)視對(duì)事件狀態(tài)進(jìn)行監(jiān)視和分析,并對(duì)發(fā)生的故障進(jìn)行告警; 每個(gè)告警信息對(duì)應(yīng)一個(gè)ID號(hào),引起同一個(gè)告警的事件源均標(biāo)記上述告警ID號(hào);當(dāng)告警 發(fā)出時(shí),建立新的處理任務(wù),并對(duì)新建處理任務(wù)的受理狀態(tài)進(jìn)行流程管控。7. 如權(quán)利要求5所述的集中運(yùn)維故障閉環(huán)處理方法,其特征在于,所述步驟B包括:產(chǎn) 生新的告警后,根據(jù)告警級(jí)別啟動(dòng)不同的處理流程,嚴(yán)重極別的故障啟動(dòng)應(yīng)急預(yù)案,所述應(yīng) 急預(yù)案要求調(diào)控中心、集中運(yùn)維中心和產(chǎn)品生產(chǎn)商之間定位故障并協(xié)同處理,邊處理邊通 告,及時(shí)解除對(duì)智能電網(wǎng)調(diào)度控制系統(tǒng)運(yùn)行造成重大的影響的事故; 如果是日常維護(hù)流程,則根據(jù)故障分析模型進(jìn)行故障診斷與定位,由運(yùn)維值班員統(tǒng)一 處理; 如果在處理過程中遇到較復(fù)雜的問題,要求產(chǎn)品生產(chǎn)商協(xié)同處理,并監(jiān)視故障處理的 時(shí)間; 如果在規(guī)定的時(shí)間內(nèi)無法完成任務(wù)或需要延時(shí),則請(qǐng)求調(diào)控中心是否同意延時(shí)處理, 如果調(diào)控中心同意延時(shí),則由調(diào)控中心定義延時(shí)時(shí)長,如果在延時(shí)過程中完成任務(wù),則不影 響考評(píng)結(jié)果,如果無法完成任務(wù)則在考評(píng)中會(huì)考慮處理效率的得分;如果任務(wù)在申請(qǐng)延時(shí) 時(shí)未得到調(diào)控中心的同意,則任務(wù)由于處理超時(shí)則在考評(píng)中評(píng)分酌減。8. 如權(quán)利要求1所述的集中運(yùn)維故障閉環(huán)處理方法,其特征在于,所述步驟(3)包括: 當(dāng)故障任務(wù)處理完成后,返回告警模塊進(jìn)行標(biāo)記,提示此事件引起的故障已經(jīng)消除,并解除 告警,即標(biāo)記同一事件告警ID的故障源解除告警狀態(tài),標(biāo)志該事件已經(jīng)處理完成,不存在 風(fēng)險(xiǎn);由集中運(yùn)維中心提交故障處理結(jié)果,由調(diào)控中心進(jìn)行確認(rèn); 如果遇重大故障則由集中運(yùn)維中心同產(chǎn)品生產(chǎn)商共同提交重大故障的報(bào)告,并由調(diào)控 中心根據(jù)處理時(shí)間,響應(yīng)速度,處理結(jié)果及服務(wù)態(tài)度四個(gè)項(xiàng)目進(jìn)行打分,最終得分計(jì)入當(dāng)月 的考評(píng)。
【文檔編號(hào)】G06Q50/06GK105868876SQ201510029083
【公開日】2016年8月17日
【申請(qǐng)日】2015年1月21日
【發(fā)明人】邢穎, 郎燕生, 李強(qiáng), 張印, 白洋, 朱承治, 章姝俊, 王少芳, 紀(jì)家橋, 紀(jì)憲博
【申請(qǐng)人】國家電網(wǎng)公司, 中國電力科學(xué)研究院, 國網(wǎng)浙江省電力公司