本申請涉及故障分析,尤其涉及一種故障分析方法、裝置、電子設備、存儲介質及產品。
背景技術:
1、運維監(jiān)控系統(tǒng)是指對it基礎設施進行監(jiān)控、管理和維護的一體化平臺。目前主流的運維監(jiān)控系統(tǒng)大部分只有采集、告警等功能,在故障發(fā)生時無法定位到問題點以及問題發(fā)生的實際原因,仍然需要對業(yè)務熟悉以及具有專業(yè)運維技能的人員去分析處理才能解決,以致于提高了人工成本,降低了故障定位分析的效率和準確度。
技術實現(xiàn)思路
1、基于上述需求,本申請?zhí)岢鲆环N故障分析方法、裝置、電子設備、存儲介質及產品,能夠降低人工成本,提高故障定位分析效率和準確度。
2、為實現(xiàn)上述目的,本申請?zhí)岢鋈缦录夹g方案:
3、根據(jù)本申請實施例的第一方面,提供了一種故障分析方法,包括:
4、基于故障發(fā)生時的初始異常應用節(jié)點的地址和預先構建的橫向依賴關系,確定所述初始異常應用節(jié)點的依賴應用節(jié)點;其中,所述橫向依賴關系包括各個應用節(jié)點之間的依賴關系和各個應用節(jié)點對應的應用處理時長;
5、根據(jù)所述依賴應用節(jié)點對應的應用處理時長,確定所述故障對應的目標異常應用節(jié)點;
6、基于預先構建的縱向依賴關系,從全棧數(shù)據(jù)中獲取所述目標異常應用節(jié)點對應的目標監(jiān)控數(shù)據(jù),并利用所述目標監(jiān)控數(shù)據(jù),分析所述目標異常應用節(jié)點的故障原因;所述縱向依賴關系包括應用節(jié)點的運行環(huán)境與應用節(jié)點之間的依賴關系,所述全棧數(shù)據(jù)包括網(wǎng)絡請求數(shù)據(jù)和系統(tǒng)監(jiān)控數(shù)據(jù)。
7、可選的,所述橫向依賴關系的構建過程,包括:
8、基于網(wǎng)絡請求中的調用鏈路數(shù)據(jù),確定網(wǎng)絡請求數(shù)據(jù);
9、基于所述網(wǎng)絡請求數(shù)據(jù),確定所述網(wǎng)絡請求數(shù)據(jù)中各個應用節(jié)點之間的依賴關系以及各個應用節(jié)點的應用處理時長,并基于各個應用節(jié)點之間的依賴關系以及各個應用節(jié)點的應用處理時長,構建橫向依賴關系。
10、可選的,基于網(wǎng)絡請求中的調用鏈路數(shù)據(jù),確定網(wǎng)絡請求數(shù)據(jù),包括:
11、利用apm探針采集網(wǎng)絡請求中的第一調用鏈路數(shù)據(jù),和/或,利用ebpf探針采集網(wǎng)絡請求中的第二調用鏈路數(shù)據(jù);其中,第一調用鏈路數(shù)據(jù)和第二調用鏈路數(shù)據(jù)均為網(wǎng)絡請求中應用節(jié)點調用請求的數(shù)據(jù);
12、基于所述第一調用鏈路數(shù)據(jù)和/或所述第二調用鏈路數(shù)據(jù),確定所述網(wǎng)絡請求數(shù)據(jù)。
13、可選的,根據(jù)所述依賴應用節(jié)點對應的應用處理時長,確定所述故障對應的目標異常應用節(jié)點,包括:
14、若所述初始異常應用節(jié)點返回異常,則將所述初始異常應用節(jié)點作為所述故障對應的目標異常應用節(jié)點;
15、若所述初始異常應用節(jié)點未返回異常,則將應用處理時長占比達到預設閾值的依賴應用節(jié)點按照應用處理時長降序排序后,作為所述故障對應的目標異常應用節(jié)點。
16、可選的,基于預先構建的縱向依賴關系,從全棧數(shù)據(jù)中獲取所述目標異常應用節(jié)點對應的目標監(jiān)控數(shù)據(jù),包括:
17、基于預先構建的縱向依賴關系,查詢所述目標異常應用節(jié)點所依賴的目標運行環(huán)境;
18、從全棧數(shù)據(jù)中獲取所述目標運行環(huán)境對應的數(shù)據(jù)作為所述目標異常應用節(jié)點對應的目標監(jiān)控數(shù)據(jù)。
19、可選的,利用所述目標監(jiān)控數(shù)據(jù),分析所述目標異常應用節(jié)點的故障原因,包括:
20、基于所述目標監(jiān)控數(shù)據(jù),確定所述目標異常應用節(jié)點對應的中間信息;其中,所述中間信息包括:當前接口響應時長、接口響應時長均值、同期接口響應時長、當前業(yè)務量、同期業(yè)務量、預測響應時長和進程使用數(shù)據(jù);
21、基于預先設置的故障類型判斷規(guī)則,對所述目標異常應用節(jié)點對應的中間信息進行故障類型識別,確定所述目標異常應用節(jié)點的故障原因。
22、可選的,基于預先設置的故障類型判斷規(guī)則,對所述目標異常應用節(jié)點對應的中間信息進行故障類型識別,確定所述目標異常應用節(jié)點的故障原因,包括:
23、將所述目標異常應用節(jié)點對應的中間信息輸入到預先訓練的故障類型識別模型中,得到所述目標異常應用節(jié)點的故障原因;
24、其中,所述故障類型識別模型是基于對樣本異常節(jié)點對應的樣本中間信息進行故障類型識別,以故障類型識別得到的預測故障原因和所述樣本異常節(jié)點的真實故障原因之間的差異最小為目標訓練得到的;所述樣本異常節(jié)點對應的樣本中間信息是基于預先采集的樣本異常節(jié)點的樣本監(jiān)控數(shù)據(jù)確定的。
25、可選的,故障分析方法,還包括:
26、在所述故障為主機異常時,從所述全棧數(shù)據(jù)中獲取所述主機對應的主機監(jiān)控數(shù)據(jù),并利用所述主機監(jiān)控數(shù)據(jù),分析所述故障對應的故障原因。
27、根據(jù)本申請實施例的第二方面,提供了一種故障分析裝置,包括:
28、節(jié)點查詢模塊,用于基于故障發(fā)生時的初始異常應用節(jié)點的地址和預先構建的橫向依賴關系,確定所述初始異常應用節(jié)點的依賴應用節(jié)點;其中,所述橫向依賴關系包括各個應用節(jié)點之間的依賴關系和各個應用節(jié)點對應的應用處理時長;
29、異常節(jié)點確定模塊,用于根據(jù)所述依賴應用節(jié)點對應的應用處理時長,確定所述故障對應的目標異常應用節(jié)點;
30、故障分析模塊,用于基于預先構建的縱向依賴關系,從全棧數(shù)據(jù)中獲取所述目標異常應用節(jié)點對應的目標監(jiān)控數(shù)據(jù),并利用所述目標監(jiān)控數(shù)據(jù),分析所述目標異常應用節(jié)點的故障原因;所述縱向依賴關系包括應用節(jié)點的運行環(huán)境與應用節(jié)點之間的依賴關系,所述全棧數(shù)據(jù)包括網(wǎng)絡請求數(shù)據(jù)和系統(tǒng)監(jiān)控數(shù)據(jù)。
31、根據(jù)本申請實施例的第三方面,提供了一種電子設備,包括:存儲器和處理器;
32、所述存儲器與所述處理器連接,用于存儲程序;
33、所述處理器,用于通過運行所述存儲器中的程序,實現(xiàn)上述故障分析方法。
34、根據(jù)本申請實施例的第四方面,提供了一種存儲介質,所述存儲介質上存儲有計算機程序,所述計算機程序被處理器執(zhí)行時,實現(xiàn)上述故障分析方法。
35、根據(jù)本申請實施例的第五方面,提供了一種計算機程序產品,包括計算機程序指令,所述計算機程序指令在被處理器運行時使得所述處理器實現(xiàn)上述故障分析方法。
36、本申請?zhí)岢龅墓收戏治龇椒?,基于故障發(fā)生時的初始異常應用節(jié)點的地址和預先構建的橫向依賴關系,確定初始異常應用節(jié)點的依賴應用節(jié)點;其中,橫向依賴關系包括各個應用節(jié)點之間的依賴關系和各個應用節(jié)點對應的應用處理時長;根據(jù)依賴應用節(jié)點對應的應用處理時長,確定故障對應的目標異常應用節(jié)點;基于預先構建的縱向依賴關系,從全棧數(shù)據(jù)中獲取目標異常應用節(jié)點對應的目標監(jiān)控數(shù)據(jù),并利用目標監(jiān)控數(shù)據(jù),分析目標異常應用節(jié)點的故障原因;縱向依賴關系包括應用節(jié)點的運行環(huán)境與應用節(jié)點之間的依賴關系,全棧數(shù)據(jù)包括網(wǎng)絡請求數(shù)據(jù)和系統(tǒng)監(jiān)控數(shù)據(jù)。采用本申請的技術方案,能夠通過橫向依賴關系以及網(wǎng)絡請求數(shù)據(jù)自動定位到故障節(jié)點,利用縱向依賴關系、系統(tǒng)監(jiān)控數(shù)據(jù)和網(wǎng)絡請求數(shù)據(jù)自動分析出故障原因,無需人工分析處理,降低了人工成本,提高了故障定位分析的效率和準確度。
1.一種故障分析方法,其特征在于,包括:
2.根據(jù)權利要求1所述的方法,其特征在于,所述橫向依賴關系的構建過程,包括:
3.根據(jù)權利要求2所述的方法,其特征在于,基于網(wǎng)絡請求中的調用鏈路數(shù)據(jù),確定網(wǎng)絡請求數(shù)據(jù),包括:
4.根據(jù)權利要求1所述的方法,其特征在于,根據(jù)所述依賴應用節(jié)點對應的應用處理時長,確定所述故障對應的目標異常應用節(jié)點,包括:
5.根據(jù)權利要求1所述的方法,其特征在于,基于預先構建的縱向依賴關系,從全棧數(shù)據(jù)中獲取所述目標異常應用節(jié)點對應的目標監(jiān)控數(shù)據(jù),包括:
6.根據(jù)權利要求1所述的方法,其特征在于,利用所述目標監(jiān)控數(shù)據(jù),分析所述目標異常應用節(jié)點的故障原因,包括:
7.根據(jù)權利要求6所述的方法,其特征在于,基于預先設置的故障類型判斷規(guī)則,對所述目標異常應用節(jié)點對應的中間信息進行故障類型識別,確定所述目標異常應用節(jié)點的故障原因,包括:
8.根據(jù)權利要求1至7中任意一項所述的方法,其特征在于,還包括:
9.一種故障分析裝置,其特征在于,包括:
10.一種電子設備,其特征在于,包括:存儲器和處理器;
11.一種存儲介質,其特征在于,所述存儲介質上存儲有計算機程序,所述計算機程序被處理器執(zhí)行時,實現(xiàn)如權利要求1至8中任意一項所述的故障分析方法。
12.一種計算機程序產品,其特征在于,包括計算機程序指令,所述計算機程序指令在被處理器運行時使得所述處理器實現(xiàn)如權利要求1至8中任意一項所述的故障分析方法。