国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種網(wǎng)絡故障診斷方法及裝置與流程

      文檔序號:11253737閱讀:542來源:國知局
      一種網(wǎng)絡故障診斷方法及裝置與流程

      本發(fā)明涉及計算機技術領域,尤其涉及一種網(wǎng)絡故障診斷方法及裝置。



      背景技術:

      隨著信息技術的快速發(fā)展,網(wǎng)絡系統(tǒng)的規(guī)模不斷擴大,復雜程度也越來越高,這使得傳統(tǒng)的通過人工查看系統(tǒng)日志定位網(wǎng)絡故障的診斷方法已不再適用。

      目前,對于網(wǎng)絡故障的診斷,可利用大數(shù)據(jù)技術從海量日志記錄中提取出相關特征,進而運用機器學習算法對這些特征進行統(tǒng)計分析,便可快速檢測出故障。由于機器學習算法是概率性算法,因此檢測得到故障僅是疑似故障,還需通過人工分析日志以確認故障。此外,受到長度的限制,單條日志所能記錄的信息有限,例如,通常會記錄某個業(yè)務所出現(xiàn)的事件,但更細節(jié)的信息,比如網(wǎng)元的實時狀態(tài)信息等,則往往不會記錄。而這些細粒度信息的缺失,可能導致無法找到導致網(wǎng)絡發(fā)生故障的根因。也就是說,通過人工分析日志也只能確認故障,而無法保證能夠找到導致網(wǎng)絡發(fā)生故障的根因。

      綜上所述,現(xiàn)有的網(wǎng)絡故障診斷方法需人工介入以確認故障,并且只能確認故障而無法得出引起故障的根因。



      技術實現(xiàn)要素:

      為此,本發(fā)明實施例提供了一種網(wǎng)絡故障診斷方法及裝置,無需人工介入即可實現(xiàn)網(wǎng)絡故障的自動定位,并且能夠確定故障根因,實現(xiàn)了自動化故障診斷,提高了故障診斷效率。

      為達到上述目的,本發(fā)明的實施例采用如下技術方案:

      第一方面,提供一種網(wǎng)絡故障診斷方法,應用于網(wǎng)絡系統(tǒng),該網(wǎng)絡系統(tǒng)包括網(wǎng)元、網(wǎng)管設備、監(jiān)控設備以及網(wǎng)絡故障診斷裝置,方法包括:

      網(wǎng)絡故障診斷裝置獲取網(wǎng)元、網(wǎng)管設備及監(jiān)控設備的日志、告警、配置及kpi數(shù)據(jù),并根據(jù)所采集的數(shù)據(jù)檢測異常網(wǎng)元以及異常信息;

      網(wǎng)絡故障診斷裝置根據(jù)異常信息以及預存的、異常信息與故障事件的對應關系,確定與異常信息對應的第一故障事件;

      網(wǎng)絡故障診斷裝置根據(jù)第一故障事件以及預存的故障規(guī)則庫,確定與第一故障事件對應的第一故障規(guī)則,故障規(guī)則庫包括至少一個故障規(guī)則,每個故障規(guī)則包括至少兩個故障事件以及至少兩個故障事件之間的邏輯因果關系;

      網(wǎng)絡故障診斷裝置采集異常網(wǎng)元的實時數(shù)據(jù),根據(jù)異常網(wǎng)元的實時數(shù)據(jù),分別對第一故障事件中的疑似故障事件及第二故障事件進行確認,第二故障事件為第一故障規(guī)則所包括的至少兩個故障事件中除第一故障事件之外的故障事件,并根據(jù)確認結果及第一故障規(guī)則進行邏輯計算,確定引起網(wǎng)絡系統(tǒng)發(fā)生故障的根因。

      優(yōu)選的,在網(wǎng)絡故障診斷裝置采集網(wǎng)元、網(wǎng)管設備及監(jiān)控設備的日志、告警、配置及kpi數(shù)據(jù)之前,還可以包括:

      網(wǎng)絡故障診斷裝置獲取網(wǎng)絡系統(tǒng)可能出現(xiàn)的異常信息以及預存的故障規(guī)則庫中的每個故障規(guī)則所包括的故障事件;

      網(wǎng)絡故障診斷裝置分別將網(wǎng)絡系統(tǒng)可能出現(xiàn)的異常信息及故障規(guī)則庫中的每個故障規(guī)則所包括的故障事件進行抽象,得到異常信息對應的故障行為及故障事件對應的故障行為;

      網(wǎng)絡故障診斷裝置根據(jù)異常信息對應的故障行為及故障事件對應的抽象行為,建立并存儲異常信息與故障事件的對應關系。

      優(yōu)選的,在網(wǎng)絡故障診斷裝置根據(jù)疑似故障事件、第二故障事件的確認結果以及故障規(guī)則進行邏輯計算,確定引起網(wǎng)絡系統(tǒng)發(fā)生故障的根因之后,還可以包括:

      網(wǎng)絡故障診斷裝置根據(jù)根因生成對應的故障恢復腳本,并向異常網(wǎng)元或網(wǎng)管設備發(fā)送故障恢復腳本,以使異常網(wǎng)元或網(wǎng)管設備根據(jù)故障恢復腳 本修復網(wǎng)絡系統(tǒng)發(fā)生的故障。

      如此,在發(fā)現(xiàn)故障根因后,針對該故障根因,生成對對應的恢復腳本,并發(fā)送給相關設備以修復該故障,以使網(wǎng)絡系統(tǒng)恢復正常,這樣一來,無需人工介入即可實現(xiàn)網(wǎng)絡故障的自動修復。

      優(yōu)選的,在網(wǎng)絡故障診斷裝置根據(jù)異常網(wǎng)元的實時數(shù)據(jù),分別對第一故障事件中的疑似故障事件及第二故障事件進行確認之后,還可以包括:

      網(wǎng)絡故障診斷裝置獲取當前故障診斷過程中確認的故障事件以及歷史故障事件,根據(jù)當前故障診斷過程中確認的故障事件以及歷史故障事件,歷史故障事件為網(wǎng)絡故障診斷裝置在之前的故障診斷過程中確認的故障事件,挖掘新的故障規(guī)則,并將新的故障規(guī)則存儲至故障規(guī)則庫中。

      基于上述方案,可積累每次故障診斷的經(jīng)驗,進而根據(jù)積累的經(jīng)驗發(fā)現(xiàn)當前故障規(guī)則庫未覆蓋的故障規(guī)則,因此可達到提高故障定位的精度、擴大故障定位的廣度的目的。

      第二方面,提供一種網(wǎng)絡故障診斷裝置,網(wǎng)絡故障診斷裝置應用于網(wǎng)絡系統(tǒng),網(wǎng)絡系統(tǒng)還包括網(wǎng)元、網(wǎng)管設備以及監(jiān)控設備,網(wǎng)絡故障診斷裝置包括:數(shù)據(jù)獲取模塊、故障發(fā)現(xiàn)模塊、事件映射模塊以及故障確診模塊;

      數(shù)據(jù)獲取模塊,用于獲取網(wǎng)元、網(wǎng)管設備及監(jiān)控設備的日志、告警、配置及kpi數(shù)據(jù);

      故障發(fā)現(xiàn)模塊,用于根據(jù)日志、告警、配置及kpi數(shù)據(jù)檢測異常網(wǎng)元以及異常信息;

      事件映射模塊,用于根據(jù)異常信息以及預存的對應關系,得到異常信息對應的第一故障事件,預存的對應關系為異常信息與故障事件的對應關系;

      故障確診模塊,用于根據(jù)第一故障事件以及預存的故障規(guī)則庫,確定與第一故障事件對應的第一故障規(guī)則;其中,故障規(guī)則庫包括至少一個故障規(guī)則,每個故障規(guī)則包括至少兩個故障事件以及至少兩個故障事件之間的邏輯關系;

      數(shù)據(jù)采集模塊,還用于采集異常網(wǎng)元的實時數(shù)據(jù);

      故障確診模塊,還用于根據(jù)異常網(wǎng)元的實時數(shù)據(jù),分別對第一故障事 件中的疑似故障事件及第二故障事件進行確認,并根據(jù)疑似故障事件、第二故障事件的確認結果以及故障規(guī)則進行邏輯計算,確定引起網(wǎng)絡系統(tǒng)發(fā)生故障的根因,其中,第二故障事件為第一故障規(guī)則所包括的至少兩個故障事件中除第一故障事件之外的故障事件。

      第三方面,提供一種網(wǎng)絡故障診斷裝置,包括:

      處理器,用于執(zhí)行第一方面提供的網(wǎng)絡故障診斷方法。

      現(xiàn)有的網(wǎng)絡故障診斷方法需人工介入以確認故障,并且由于單條日志所能記錄的信息有限,單條日志往往不會記錄細粒度信息,因此可能無法找到導致網(wǎng)絡發(fā)生故障的根因。而基于本發(fā)明實施例提供的網(wǎng)絡故障診斷方法及裝置,通過采集網(wǎng)絡系統(tǒng)相關設備的日志、告警、配置及kpi數(shù)據(jù),根據(jù)所采集數(shù)據(jù)檢測異常網(wǎng)元及異常信息,并根據(jù)異常信息及預存的對應關系確定每條異常信息所對應的第一故障事件,進而根據(jù)第一故障事件及預存的故障規(guī)則庫確定故障規(guī)則,并通過采集異常網(wǎng)元的實時數(shù)據(jù),利用異常網(wǎng)元的實時數(shù)據(jù)對相關的疑似故障事件進行確認,同時根據(jù)故障規(guī)則進行邏輯計算,即可確定引起網(wǎng)絡系統(tǒng)發(fā)生故障的根因。由于通過異常信息與故障事件的對應關系即可將檢測得到的異常信息自動映射為相關的故障事件,同時,根據(jù)具體的故障事件采集相關網(wǎng)元的實時數(shù)據(jù),利用網(wǎng)元的實時數(shù)據(jù)即可對故障事件進行確認,進而根據(jù)確認結果以及相關的故障規(guī)則進行邏輯計算即可排除誤報故障,同時對真實故障進行根因定位??梢姡诒景l(fā)明實施例提供的網(wǎng)絡故障診斷方法及裝置,無需人工介入即可實現(xiàn)網(wǎng)絡故障的自動定位,并且能夠確定故障根因,從而實現(xiàn)自動化故障診斷,提高故障診斷效率。

      附圖說明

      為了更清楚地說明本發(fā)明實施例的技術方案,下面將對實施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領域普通技術人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。

      圖1為本發(fā)明實施例中的網(wǎng)絡系統(tǒng)的架構示意圖;

      圖2為本發(fā)明實施例提供的一種網(wǎng)絡故障診斷方法的流程示意圖;

      圖3為本發(fā)明實施例提供的一種故障規(guī)則的組成示意圖;

      圖4為本發(fā)明實施例提供的另一種網(wǎng)絡故障診斷方法的流程示意圖;

      圖5為本發(fā)明實施例提供的又一種網(wǎng)絡故障診斷方法的流程示意圖;

      圖6為本發(fā)明實施例提供的又一種網(wǎng)絡故障診斷方法的流程示意圖;

      圖7為本發(fā)明實施例提供的一種建立異常信息與故障事件的對應關系的方法的示意圖;

      圖8為本發(fā)明實施例提供的一種網(wǎng)絡故障診斷裝置的結構示意圖;

      圖9為本發(fā)明實施例提供的另一種網(wǎng)絡故障診斷裝置的結構示意圖;

      圖10為本發(fā)明實施例提供的又一種網(wǎng)絡故障診斷裝置的結構示意圖;

      圖11為本發(fā)明實施例提供的一種網(wǎng)絡故障診斷裝置的結構示意圖。

      具體實施方式

      下面將結合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術方案進行清楚、完整地描述。

      需要說明的是,為了便于清楚描述本發(fā)明實施例的技術方案,在本發(fā)明下述各實施例中,采用了“第一”、“第二”等字樣對功能和作用基本相同的相同項或相似項進行區(qū)分,本領域技術人員可以理解“第一”、“第二”等字樣并不對數(shù)量和執(zhí)行次序進行限定。

      另外,還需說明的是,在不沖突的情況下,本申請中的實施例及實施例中的特征可以相互結合。本領域普通技術人員可以理解,本申請實施例中示出的示例為本發(fā)明為便于讀者理解所作的示意性的說明,并不構成對本發(fā)明的限定。

      首先,為便于理解本發(fā)明實施例下述的網(wǎng)絡故障診斷方法,先對其應用環(huán)境-網(wǎng)絡系統(tǒng),進行簡要介紹如下:

      圖1所示為所述網(wǎng)絡系統(tǒng)的架構圖。參見圖1,所述網(wǎng)絡系統(tǒng)10包括網(wǎng)元101、網(wǎng)管設備102、監(jiān)控設備103以及網(wǎng)絡故障診斷裝置104。其中,網(wǎng)元101指能夠獨立完成一種或幾種功能的網(wǎng)絡設備或實體,如路由器、 交換機等;網(wǎng)管設備102則主要用于對網(wǎng)元101進行全面管理,例如,網(wǎng)管設備102可通過算法快速自動搜索網(wǎng)元101,并實時顯示網(wǎng)絡資源的鏈路關系和運行狀態(tài),實時監(jiān)測網(wǎng)元101的核心參數(shù),如監(jiān)測路由器及交換機的端口流量、端口使用率、內(nèi)存使用率、路由表等,監(jiān)測服務器的運行狀態(tài)、啟動情況、內(nèi)存、磁盤、進程、服務等指標;而監(jiān)控設備103則主要用于對網(wǎng)絡的應用系統(tǒng)及應用系統(tǒng)的運行狀況進行監(jiān)測;網(wǎng)絡故障診斷裝置用于執(zhí)行本發(fā)明實施例下述的網(wǎng)絡故障診斷方法以對網(wǎng)絡系統(tǒng)進行故障診斷,其可能是配置于網(wǎng)元101或網(wǎng)管設備102之上的裝置,也可能是獨立于網(wǎng)元101及網(wǎng)管設備102、并與網(wǎng)元101、網(wǎng)管設備102及監(jiān)控設備103可以通信的裝置,如圖1所示,本發(fā)明實施例對此不作具體限定。

      基于圖1所示的網(wǎng)絡系統(tǒng)10,本發(fā)明實施例提供一種網(wǎng)絡故障診斷方法,應用于圖1所示的網(wǎng)絡系統(tǒng)10,如圖2所示,包括:

      s201、網(wǎng)絡故障診斷裝置104獲取網(wǎng)元101、網(wǎng)管設備102及監(jiān)控設備103的日志、告警、配置及關鍵績效指標(keyperformanceindicator,kpi)數(shù)據(jù),并根據(jù)日志、告警、配置及kpi數(shù)據(jù)檢測異常網(wǎng)元以及異常信息。

      其中,需要說明的是,可通過網(wǎng)元101、網(wǎng)管設備102及監(jiān)控設備103周期性地采集日志、告警、配置及kpi數(shù)據(jù),并將所采集數(shù)據(jù)主動上報給網(wǎng)絡故障診斷裝置104,實現(xiàn)數(shù)據(jù)獲取。

      另外,還需說明的是,所述異常網(wǎng)元是指日志、告警、配置或kpi數(shù)據(jù)出現(xiàn)異常的網(wǎng)元,所述的異常信息即指異常網(wǎng)元所出現(xiàn)的異常,具體可以包括異常網(wǎng)元的名稱或ip地址、網(wǎng)元類型、出現(xiàn)異常的時間、對應的業(yè)務等等,本發(fā)明實施例對此不作具體限定。

      本領域普通技術人員可以理解,由于網(wǎng)絡系統(tǒng)某一業(yè)務的實現(xiàn)通常需要多個網(wǎng)元101協(xié)同完成,同時單個網(wǎng)元101可能存在多種業(yè)務,因此當網(wǎng)絡系統(tǒng)中的某個網(wǎng)元101出現(xiàn)故障后,網(wǎng)絡系統(tǒng)中的其他相關網(wǎng)元101或系統(tǒng)的某些參數(shù)也會因此受到影響而出現(xiàn)異常。例如,當實現(xiàn)開放最短路徑優(yōu)先(openshortestpathfirst,ospf)路由協(xié)議業(yè)務的網(wǎng)元a出現(xiàn)故障后,協(xié)同實現(xiàn)ospf路由協(xié)議業(yè)務的網(wǎng)元b可能因此受到影響而表現(xiàn)出異常,同時,網(wǎng)元a的另一業(yè)務-虛擬專用網(wǎng)絡(virtualprivatenetwork, vpn)業(yè)務,也可能因此受到影響而表現(xiàn)出異常。因此,步驟s201中網(wǎng)絡故障診斷裝置104根據(jù)所采集的數(shù)據(jù)檢測到的異常網(wǎng)元通常包括多個網(wǎng)元,異常信息也包括多條信息。

      s202、網(wǎng)絡故障診斷裝置104根據(jù)異常信息以及預存的對應關系,確定與異常信息對應的第一故障事件。

      其中,預存的對應關系為異常信息與故障規(guī)則中的故障事件的對應關系,通過該對應關系可將異常事件轉換為故障規(guī)則中的故障事件,以便于后續(xù)進行故障診斷及修復。

      具體的,所述的異常信息與故障事件的對應關系可描述為如下所示的表1,其中第一列為異常信息,第二列即為與異常信息對應的故障事件。例如,當檢測到異常信息為ospf流量下降時,對應的故障事件即為ospf流量下降。

      表1

      容易理解,由于步驟s201中檢測出的異常信息通常為多條,因此根據(jù)異常信息確定的第一故障事件也為多個。

      s203、網(wǎng)絡故障診斷裝置104根據(jù)第一故障事件以及預存的故障規(guī)則庫,確定與第一故障事件對應的第一故障規(guī)則。

      其中,故障規(guī)則庫包括至少一個故障規(guī)則,每個故障規(guī)則包括至少兩個故障事件之間的邏輯因果關系。示例性的,故障規(guī)則具體可以是故障樹、或決策書、或貝葉斯網(wǎng)絡等,本發(fā)明實施例對此不作具體限定。

      本領域普通技術人員容易理解,某一故障事件對應的故障規(guī)則可能是一條也可能是多條,例如,某一網(wǎng)元出現(xiàn)的某一故障事件可能僅出現(xiàn)在故障樹a中,也可能既出現(xiàn)在故障樹a中,又出現(xiàn)在故障樹b中。因此,步驟s203中,所確定的故障規(guī)則可能是一條,也可能是一組。同時,由 于步驟s202中得到的故障事件為多個,因此步驟s203中所確定的故障規(guī)則往往是一組。

      s204、網(wǎng)絡故障診斷裝置104采集異常網(wǎng)元的實時數(shù)據(jù),根據(jù)異常網(wǎng)元的實時數(shù)據(jù),分別對第一故障事件中的疑似故障事件及第二故障事件進行確認,并根據(jù)疑似故障事件、第二故障事件的確認結果以及故障規(guī)則進行邏輯計算,確定引起網(wǎng)絡系統(tǒng)發(fā)生故障的根因。

      其中,需要說明的是,所述第二故障事件為n個故障事件中除第一故障事件之外的故障事件。所述實時數(shù)據(jù)具體可以是網(wǎng)元的實時狀態(tài)或性能數(shù)據(jù),可針對具體的待確認故障事件,通過向相應的異常網(wǎng)元發(fā)送相關的查詢命令實現(xiàn)對網(wǎng)元實時數(shù)據(jù)的采集。

      另外,還需說明的是,本領域普通技術人員可以理解,在檢測異常信息時所用到的機器學習算法為概率性算法,其通過預設的靈敏度閾值來檢測異常信息,因此若靈敏度閾值設置的太高,則可能導致漏報故障,而若靈敏度閾值設置的太低,又可能所導致誤報故障。因此,根據(jù)檢測得到的異常信息所確定的故障事件屬于疑似故障。當然,對于某些特殊的故障事件,如,業(yè)務的流量下降,硬件的內(nèi)存使用率升高等,由于不存在誤報的可能,因此不屬于疑似故障事件。在本發(fā)明實施例中,根據(jù)異常信息所確定的第一故障事件中的部分故障事件可能為檢測算法靈敏度閾值太低所導致的誤報故障,因而需要根據(jù)網(wǎng)元101的實時狀態(tài)或性能數(shù)據(jù)確認這部分故障事件是否確為真實故障。

      容易理解,若步驟s203中所確定的故障規(guī)則只有一條,則僅需根據(jù)第一故障事件中的疑似故障事件、第二故障事件的確認結果,結合該條故障規(guī)則進行邏輯計算即可;若步驟s203中所確定的故障規(guī)則有多條,則需根據(jù)第一故障事件中的疑似故障事件、第二故障事件的確認結果,依次結合其中的每條故障規(guī)則進行邏輯計算以確定引起網(wǎng)絡系統(tǒng)發(fā)生故障的根因。需要說明的是,本領域普通技術人員容易想到,為簡化診斷過程,提高診斷速度,可僅選擇其中對應的第一故障事件數(shù)量較多的故障規(guī)則進行邏輯計算,本發(fā)明實施例對此不作具體限定。

      具體而言,若采用故障樹作為故障規(guī)則,則可按照自頂向下或自底向上的原則進行邏輯計算。

      示例性的,以下將以自定向下的原則為例,結合圖3所示的故障樹,簡單說明邏輯計算的具體過程:

      從頂事件t1開始向下搜索與頂事件t1通過邏輯門關聯(lián)的事件t2、t3以及t8,若搜索到事件t2、t3及t8(即確認事件t2、t3及t8均成立),則繼續(xù)向下搜索與事件t2、t3及t8通過邏輯門關聯(lián)的其它故障事件,直到搜索到底事件,搜索到的所有底事件即為故障根因。例如,假設向下搜索到事件t4、t5以及t7,則故障根因即為事件t4、t5、t7以及上一次搜索到的事件t8。其中,所謂底事件是指沒有其它故障事件通過邏輯門與其關聯(lián)的事件,如圖3中的事件t4,在事件t4下面沒有其他事件通過邏輯門與事件st4關聯(lián),因此事件t4即是底事件。

      具體的,如圖4所示,本發(fā)明實施例提供的網(wǎng)絡故障診斷方法中,網(wǎng)絡故障診斷裝置104根據(jù)日志、告警、配置及kpi數(shù)據(jù)確定檢測異常網(wǎng)元以及異常信息(即s202),具體可以包括:

      s202a、網(wǎng)絡故障診斷裝置104將日志、告警、配置及kpi數(shù)據(jù)解析為結構化數(shù)據(jù),并提取結構化數(shù)據(jù)的特征值。

      s202b、網(wǎng)絡故障診斷裝置104利用機器學習算法對結構化數(shù)據(jù)的特征值進行特征統(tǒng)計,得到統(tǒng)計結果。

      s202c、網(wǎng)絡故障診斷裝置104根據(jù)統(tǒng)計結果,確定異常網(wǎng)元以及異常信息。

      示例性的,可提取所采集數(shù)據(jù)的頻率及周期性兩個特征,并通過相關的機器學習算法對數(shù)據(jù)的頻率及周期特征進行統(tǒng)計分析,確定異常網(wǎng)元及異常信息,其依據(jù)在于:出現(xiàn)頻率越低、周期性越低的數(shù)據(jù),越可能是與故障相關的數(shù)據(jù)。

      進一步的,如圖5所示,本發(fā)明實施例提供的網(wǎng)絡故障診斷方法,在網(wǎng)絡故障診斷裝置104根據(jù)疑似故障事件、第二故障事件的確認結果以及故障規(guī)則進行邏輯計算,確定引起網(wǎng)絡系統(tǒng)發(fā)生故障的根因之后,還可以包括:

      s205、網(wǎng)絡故障診斷裝置104根據(jù)根因生成對應的故障恢復腳本,并向異常網(wǎng)元或網(wǎng)管設備102發(fā)送故障恢復腳本,以使異常網(wǎng)元或網(wǎng)管設備 102根據(jù)故障恢復腳本修復網(wǎng)絡系統(tǒng)發(fā)生的故障。

      即,在發(fā)現(xiàn)故障根因后,針對該故障根因,生成對對應的恢復腳本,并發(fā)送給相關設備以修復該故障,以使網(wǎng)絡系統(tǒng)恢復正常。

      優(yōu)選的,本發(fā)明實施例提供的網(wǎng)絡故障診斷方法,在網(wǎng)絡故障診斷裝置104根據(jù)異常網(wǎng)元的實時數(shù)據(jù),分別對第一故障事件中的疑似故障事件及第二故障事件進行確認之后,還可進一步包括:

      網(wǎng)絡故障診斷裝置104獲取當前故障診斷過程中確認的故障事件以及歷史故障事件,根據(jù)當前故障診斷過程中確認的故障事件以及歷史故障事件,挖掘新的故障規(guī)則,并將新的故障規(guī)則存儲至故障規(guī)則庫中。

      其中,歷史故障事件為之前的故障診斷過程中確認的故障事件。本領域普通技術人員容易理解,所述新的故障規(guī)則為故障規(guī)則庫未覆蓋的故障規(guī)則。

      本發(fā)明實施例的一種可能的實現(xiàn)方式中,可在每次故障診斷過程中將此次確認的故障事件存儲至數(shù)據(jù)庫中,形成歷史故障事件庫。這樣,在挖掘新的故障規(guī)則時,即可直接讀取歷史故障事件庫中的數(shù)據(jù)以獲取確認的故障事件。

      現(xiàn)有技術中,由于機器并不理解信息的語義,無法像技術人員那樣根據(jù)信息的語義推理出故障信息之間的因果關系,并隨著診斷次數(shù)的增加,不斷積累經(jīng)驗,從而總結歸納出相應的故障規(guī)則用于以后的故障診斷,所以現(xiàn)有的網(wǎng)絡故障診斷方法往往沒有充分利用故障診斷過程中所獲得的經(jīng)驗。而本發(fā)明實施例提供的網(wǎng)絡故障診斷方法,通過積累每次故障診斷的經(jīng)驗,進而根據(jù)積累的經(jīng)驗發(fā)現(xiàn)當前故障規(guī)則庫未覆蓋的故障規(guī)則,因此能夠提高故障定位的精度、擴大故障定位的廣度。

      優(yōu)選的,如圖6所示,本發(fā)明實施例提供的網(wǎng)絡故障診斷方法,在網(wǎng)絡故障診斷裝置104采集網(wǎng)元101、網(wǎng)管設備102及監(jiān)控設備103的日志、告警、配置及kpi數(shù)據(jù)之前,還可以包括:

      s206、網(wǎng)絡故障診斷裝置104獲取網(wǎng)絡系統(tǒng)可能出現(xiàn)的異常信息以及預存的故障規(guī)則庫中的所有故障規(guī)則所包括的全部故障事件。

      s207、網(wǎng)絡故障診斷裝置104將網(wǎng)絡系統(tǒng)可能出現(xiàn)的異常信息進行抽 象,得到該異常信息對應的故障行為,以及,將預存的故障規(guī)則庫中的每個故障規(guī)則所包括的故障事件進行抽象,得到該故障事件對應的故障行為。

      s208、網(wǎng)絡故障診斷裝置104根據(jù)異常信息對應的故障行為及故障事件對應的抽象行為,建立并存儲異常信息與故障事件的對應關系。

      例如,可將異常信息和故障事件抽象為以下4類故障行為:(1)業(yè)務:即網(wǎng)元所表現(xiàn)出的業(yè)務功能,例如,vpn業(yè)務,ospf路由協(xié)議業(yè)務等;(2)系統(tǒng):即網(wǎng)元所具有的非業(yè)務功能,具體可以是利用下層的硬件為上層的業(yè)務提供的基礎功能,如告警管理、時鐘管理等;(3)硬件:即網(wǎng)元的物理裝置,如中央處理器(centralprocessingunit,cpu)、網(wǎng)口、主控板等。進一步的,上述的每一類故障行為又可具體抽象為以下的3個子類:(1)性能:如業(yè)務的流量下降,硬件的cpu使用率升高等;(2)事件:如業(yè)務的協(xié)議震蕩,系統(tǒng)的時鐘源丟失等;(3)配置:如vpn業(yè)務封裝類型不一致。這樣,以故障行為中介即可建立其異常信息與故障事件的映射關系,也即異常信息與故障事件的對應關系。

      示例性的,參考圖7,假設網(wǎng)絡系統(tǒng)可能出現(xiàn)的異常信息包括:ospf流量下降量超過閾值、ospf_nbr_up或ospf_nbr_down頻繁出現(xiàn)、以及兩個網(wǎng)元配置的封裝類型不一致,故障規(guī)則庫中的故障規(guī)則包括以下3個故障事件:ospf流量下降、協(xié)議震蕩以及鄰居配置不一致,則通過將異常信息及故障事件抽象為圖7中間所示的故障行為,即可通過故障行為建立異常信息與故障事件的對應關系,如表1所示。

      現(xiàn)有的網(wǎng)絡故障診斷方法需人工介入以確認故障,并且由于單條日志所能記錄的信息有限,單條日志往往不會記錄細粒度信息,因此可能無法找到導致網(wǎng)絡發(fā)生故障的根因。而本發(fā)明實施例提供的網(wǎng)絡故障診斷方法,通過采集網(wǎng)絡系統(tǒng)相關設備的日志、告警、配置及kpi數(shù)據(jù),根據(jù)所采集數(shù)據(jù)檢測異常網(wǎng)元及異常信息,并根據(jù)異常信息及預存的對應關系確定每條異常信息所對應的第一故障事件,進而根據(jù)第一故障事件及預存的故障規(guī)則庫確定故障規(guī)則,并通過采集異常網(wǎng)元的實時數(shù)據(jù),利用異常網(wǎng)元的實時數(shù)據(jù)對相關的疑似故障事件進行確認,同時根據(jù)故障規(guī)則進行邏輯計算,即可確定引起網(wǎng)絡系統(tǒng)發(fā)生故障的根因。由于通過異常信息與故 障事件的對應關系即可將檢測得到的異常信息自動映射為相關的故障事件,同時,根據(jù)具體的故障事件采集相關網(wǎng)元的實時數(shù)據(jù),利用網(wǎng)元的實時數(shù)據(jù)即可對故障事件進行確認,進而根據(jù)確認結果以及相關的故障規(guī)則進行邏輯計算即可排除誤報故障,同時對真實故障進行根因定位??梢?,本發(fā)明實施例提供的網(wǎng)絡故障診斷方法無需人工介入即可實現(xiàn)網(wǎng)絡故障的自動定位,并且能夠確定故障根因,實現(xiàn)了自動化故障診斷,提高了故障診斷效率。

      基于上述方法,本發(fā)明實施例提供了一種網(wǎng)絡故障診斷裝置104,應用于圖1所示的網(wǎng)絡系統(tǒng)10,如圖8所示,包括:數(shù)據(jù)獲取模塊1041、故障發(fā)現(xiàn)模塊1042、事件映射模塊1043以及故障確診模塊1044。

      其中,數(shù)據(jù)獲取模塊1041,用于采集網(wǎng)元101、網(wǎng)管設備102及監(jiān)控設備103的日志、告警、配置及kpi數(shù)據(jù)。

      故障發(fā)現(xiàn)模塊1042,用于根據(jù)日志、告警、配置及kpi數(shù)據(jù)檢測異常網(wǎng)元以及異常信息。

      事件映射模塊1043,用于根據(jù)異常信息以及預存的對應關系,確定異常信息對應的第一故障事件。

      故障確診模塊1044,用于根據(jù)第一故障事件以及預存的故障規(guī)則庫,確定與第一故障事件對應的故障規(guī)則。

      數(shù)據(jù)獲取模塊1041,還用于采集異常網(wǎng)元的實時數(shù)據(jù)。

      故障確診模塊1044,還用于根據(jù)異常網(wǎng)元的實時數(shù)據(jù),分別對第一故障事件中的疑似故障事件及第二故障事件進行確認,并根據(jù)疑似故障事件、第二故障事件的確認結果以及故障規(guī)則進行邏輯計算,確定引起網(wǎng)絡系統(tǒng)發(fā)生故障的根因。

      其中,所述的對應關系為異常信息與故障事件的對應關系;所述的故障規(guī)則庫包括至少一個故障規(guī)則,每個故障規(guī)則包括至少兩個故障事件以及至少兩個故障事件之間的邏輯因果關系;所述的第二故障事件為n第一故障規(guī)則所包括的至少兩個故障事件中除第一故障事件之外的故障事件。

      具體的,本發(fā)明實施例提供的網(wǎng)絡故障診斷裝置104中,故障發(fā)現(xiàn)模塊1042具體可以用于:

      將日志、告警、配置及kpi數(shù)據(jù)解析為結構化數(shù)據(jù),并提取結構化數(shù)據(jù)的特征值;

      利用機器學習算法對結構化數(shù)據(jù)的特征值進行特征統(tǒng)計,得到統(tǒng)計結果:

      根據(jù)統(tǒng)計結果,確定異常網(wǎng)元以及異常信息。

      進一步的,如圖9所示,本發(fā)明實施例提供的網(wǎng)絡故障診斷裝置104還可以包括:策略生成模塊1045。

      策略生成模塊1045,用于在故障確診模塊1044根據(jù)疑似故障事件、第二故障事件的確認結果以及故障規(guī)則進行邏輯計算,確定引起網(wǎng)絡系統(tǒng)發(fā)生故障的根因之后,根據(jù)根因生成對應的故障恢復腳本,并向異常網(wǎng)元或網(wǎng)管設備102發(fā)送故障恢復腳本,以使異常網(wǎng)元或網(wǎng)管設備102根據(jù)故障恢復腳本修復網(wǎng)絡系統(tǒng)發(fā)生的故障。

      優(yōu)選的,如圖10所示,本發(fā)明實施例提供的網(wǎng)絡故障診斷裝置104還可進一步包括:故障規(guī)則挖掘模塊1046。

      故障規(guī)則挖掘模塊1046,用于在故障確診模塊1044根據(jù)異常網(wǎng)元的實時數(shù)據(jù),分別對第一故障事件中的疑似故障事件及第二故障事件進行確認之后,獲取故障確診模塊1044在當前故障診斷過程中確認的故障事件以及歷史故障事件,根據(jù)故障確診模塊1044在當前故障診斷過程中確認的故障事件以及歷史故障事件,挖掘新的故障規(guī)則,并將新的故障規(guī)則存儲至故障規(guī)則庫中。

      其中,歷史故障事件為故障確診模塊1044在之前的故障診斷過程中確認的故障事件。

      優(yōu)選的,本發(fā)明實施例提供的網(wǎng)絡故障診斷裝置104中,事件映射模塊1043還可以用于:

      在數(shù)據(jù)獲取模塊1041采集網(wǎng)元、網(wǎng)管設備102及監(jiān)控設備103的日志、告警、配置及kpi數(shù)據(jù)之前,獲取網(wǎng)絡系統(tǒng)可能出現(xiàn)的異常信息以及預存的故障規(guī)則庫中的每個故障規(guī)則所包括的故障事件;

      將網(wǎng)絡系統(tǒng)可能出現(xiàn)的異常信息進行抽象,得到該異常信息對應的故障行為,以及,將預存的故障規(guī)則庫中的所有故障規(guī)則所包括的全部故障 事件進行抽象,得到該故障事件對應的故障行為;

      根據(jù)異常信息對應的故障行為及故障事件對應的抽象行為,建立并存儲異常信息與故障事件的對應關系。

      由于本實施例提供的網(wǎng)絡故障診斷裝置104能夠用于執(zhí)行上述網(wǎng)絡故障診斷方法,因此,其所能獲得的技術效果也可以參照上述方法實施例的描述,此處不再贅述。

      此外,本發(fā)明實施例還提供了一種網(wǎng)絡故障診斷裝置,如圖11所示,所述網(wǎng)絡故障診斷裝置110包括處理器1101。

      其中,所述處理器1101用于執(zhí)行本發(fā)明實施例提供的網(wǎng)絡故障診斷方法。

      由于本實施例中網(wǎng)絡故障診斷裝置110能夠用于執(zhí)行上述網(wǎng)絡故障診斷方法,因此,其所能獲得的技術效果也可以參照上述方法實施例的描述,此處不再贅述。

      此外,本發(fā)明實施例還提供一種計算可讀媒體(或介質),包括在被執(zhí)行上述方法實施例中網(wǎng)絡故障診斷裝置110的操作的計算機可讀指令:

      另外,還提供一種計算機程序產(chǎn)品,包括上述計算機可讀媒體。

      應理解,在本發(fā)明的各種實施例中,上述各過程的序號的大小并不意味著執(zhí)行順序的先后,各過程的執(zhí)行順序應以其功能和內(nèi)在邏輯確定,而不應對本發(fā)明實施例的實施過程構成任何限定。

      所屬領域的技術人員可以清楚地了解到,為描述的方便和簡潔,上述描述的裝置,僅以上述各功能模塊的劃分進行舉例說明,實際應用中,可以根據(jù)需要而將上述功能分配由不同的功能模塊完成,即將裝置的內(nèi)部結構劃分成不同的功能模塊,以完成以上描述的全部或者部分功能。上述描述的系統(tǒng)、裝置和單元的具體工作過程,可以參考前述方法實施例中的對應過程,在此不再贅述。

      在本申請所提供的幾個實施例中,應該理解到,所揭露的系統(tǒng),裝置和方法,可以通過其它的方式實現(xiàn)。例如,以上所描述的裝置實施例僅僅是示意性的,例如,所述模塊或單元的劃分,僅僅為一種邏輯功能劃分,實際實現(xiàn)時可以有另外的劃分方式,例如多個單元或組件可以結合或者可 以集成到另一個系統(tǒng),或一些特征可以忽略,或不執(zhí)行。另一點,所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些接口,裝置或單元的間接耦合或通信連接,可以是電性,機械或其它的形式。

      所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個地方,或者也可以分布到多個網(wǎng)絡單元上。可以根據(jù)實際的需要選擇其中的部分或者全部單元來實現(xiàn)本實施例方案的目的。

      另外,在本發(fā)明各個實施例中的各功能單元可以集成在一個處理單元中,也可以是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一個單元中。上述集成的單元既可以采用硬件的形式實現(xiàn),也可以采用軟件功能單元的形式實現(xiàn)。

      所述集成的單元如果以軟件功能單元的形式實現(xiàn)并作為獨立的產(chǎn)品銷售或使用時,可以存儲在一個計算機可讀取存儲介質中?;谶@樣的理解,本發(fā)明的技術方案本質上或者說對現(xiàn)有技術做出貢獻的部分或者該技術方案的全部或部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計算機軟件產(chǎn)品存儲在一個存儲介質中,包括若干指令用以使得一臺計算機設備(可以是個人計算機,服務器,或者網(wǎng)絡設備等)或處理器(processor)執(zhí)行本發(fā)明各個實施例所述方法的全部或部分步驟。而前述的存儲介質包括:u盤、移動硬盤、只讀存儲器(read-onlymemory,rom)、隨機存儲器(randomaccessmemory,ram)、磁碟或者光盤等各種可以存儲程序代碼的介質。

      以上所述,僅為本發(fā)明的具體實施方式,但本發(fā)明的保護范圍并不局限于此,任何熟悉本技術領域的技術人員在本發(fā)明揭露的技術范圍內(nèi),可輕易想到變化或替換,都應涵蓋在本發(fā)明的保護范圍之內(nèi)。因此,本發(fā)明的保護范圍應以所述權利要求的保護范圍為準。

      當前第1頁1 2 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1