本公開涉及計算機,尤其涉及一種運維平臺、故障排查方法及相關(guān)設(shè)備。
背景技術(shù):
1、隨著互聯(lián)網(wǎng)技術(shù)在全球范圍內(nèi)的不斷發(fā)展,包括平推薦臺在內(nèi)的各種互聯(lián)網(wǎng)業(yè)務(wù)平臺通常在全球均存在多個部署環(huán)境。目前,對于業(yè)務(wù)平臺的運行維護仍多通過管理人員人工完成。這樣,當(dāng)一個業(yè)務(wù)平臺的部署環(huán)境增多或者其提供業(yè)務(wù)增多時,業(yè)務(wù)平臺的維護成本,特別是人力成本,也將相應(yīng)地不斷增加。
2、為了降低業(yè)務(wù)平臺的維護成本,同時提高業(yè)務(wù)平臺的維護效率,目前急需一種能夠在業(yè)務(wù)平臺的運行過程中,自動化實現(xiàn)問題發(fā)現(xiàn)、問題分析以及問題修復(fù)及報告的運維平臺。
技術(shù)實現(xiàn)思路
1、有鑒于此,本公開的實施例提供一種運維平臺、故障排查方法及相關(guān)設(shè)備,能夠在業(yè)務(wù)平臺的運行過程中,自動化實現(xiàn)問題發(fā)現(xiàn)、問題分析以及問題修復(fù)及報告。
2、本公開實施例所述的運維平臺可以包括:調(diào)試接口、代理模塊以及多個故障排查引擎;其中,所述多個故障排查引擎中的每個故障排查引擎分別與一個后端云環(huán)境相對應(yīng);
3、所述調(diào)試接口用于接收業(yè)務(wù)管理平臺的提交的針對某一個維護對象的運行維護信息以及將所述故障排查引擎生成的故障排查報告返回至所述業(yè)務(wù)管理平臺;其中,所述運行維護信息包括:所述維護對象的標(biāo)識、問題描述信息以及環(huán)境信息;
4、所述代理模塊用于接收所述運行維護信息,基于所述運行維護信息中的環(huán)境信息確定所述維護對象對應(yīng)的后端云環(huán)境,將所述運行維護信息提交至與所述后端云環(huán)境對應(yīng)的故障排查引擎,以及將所述故障排查引擎生成的故障排查報告返回至所述調(diào)試接口;
5、所述故障排查引擎用于基于所述運行維護信息中的問題描述信息確定與所述問題描述信息對應(yīng)的故障排查鏈路圖,基于所述故障排查鏈路圖以及所述維護對象的標(biāo)識對所述維護對象進行故障排查,確定與所述問題描述對應(yīng)的故障根本原因,生成所述故障排查報告,以及將所述故障排查報告返回至所述代理模塊。
6、在本公開的實施例中,所述調(diào)試接口為表現(xiàn)層狀態(tài)轉(zhuǎn)化應(yīng)用程序接口,用于接收來自所述業(yè)務(wù)管理平臺中告警模塊、巡檢模塊或管理員模塊提交的針對所述維護對象的運行維護信息。
7、在本公開的實施例中,所述代理模塊包括:
8、映射關(guān)系存儲模塊,用于存儲預(yù)先設(shè)定的環(huán)境信息與后端云環(huán)境之間的第一映射關(guān)系;
9、運維信息接收模塊,用于接收來自所述調(diào)試接口的運行維護信息;
10、環(huán)境信息提取模塊,用于從接收的運行維護信息中提取環(huán)境信息;
11、映射模塊,用于基于所述第一映射關(guān)系以及提取的環(huán)境信息確定與所述維護對象對應(yīng)的目標(biāo)后端云環(huán)境;以及
12、轉(zhuǎn)發(fā)模塊,用于將接收的運行維護信息提交至與所述目標(biāo)后端云環(huán)境對應(yīng)的故障排查引擎,以及將來自所述故障排查引擎的故障排查報告返回至所述調(diào)試接口。
13、在本公開的實施例中,所述故障排查引擎包括:
14、問題表象提取模塊,用于從所述運行維護信息中提取問題描述信息;
15、故障排查鏈路圖規(guī)劃模塊,用于存儲預(yù)先設(shè)置的至少一個故障排查鏈路圖以及問題描述信息與所述故障排查鏈路圖之間的第二映射關(guān)系,以及基于所述第二映射關(guān)系,確定與所述問題描述信息對應(yīng)的目標(biāo)故障排查鏈路圖;
16、檢查以及分析模塊,用于基于所述目標(biāo)故障排查鏈路圖對所述維護對象進行故障排查,確定與所述問題描述對應(yīng)的故障根本原因;
17、問題修復(fù)模塊,用于基于所述故障根本原因生成故障修復(fù)方案;
18、報告模塊,用于基于所述目標(biāo)故障排查鏈路圖、所述故障根本原因以及所述故障修復(fù)方案生成故障排查報告,并將所述故障排查報告返回至所述代理模塊。
19、在本公開的實施例中,所述故障排查鏈路圖包含至少一個分支子鏈路,每個分支子鏈路包含至少一個節(jié)點;其中,每個分支子鏈路對應(yīng)一類故障原因;每個節(jié)點對應(yīng)一個故障具體原因,并定義故障排查方法以及歸因條件。
20、在本公開的實施例中,所述檢查以及分析模塊針對所述故障排查鏈路圖所包含的節(jié)點,分別執(zhí)行所述節(jié)點對應(yīng)的故障排查方法,確定所述維護對象是否符合當(dāng)前節(jié)點對應(yīng)的歸因條件,直至確定所述維護對象符合當(dāng)前節(jié)點對應(yīng)的歸因條件,并將當(dāng)前節(jié)點所對應(yīng)的故障具體原因作為與所述問題描述對應(yīng)的故障根本原因。
21、在本公開的實施例中,所述故障排查鏈路圖規(guī)劃模塊進一步用于為所述每個分支子鏈路分配一個優(yōu)先級;以及
22、所述檢查以及分析模塊按照所述優(yōu)先級從高到低的順序,從所述至少一個分支子鏈路中確定目標(biāo)分支子鏈路,并針對所述目標(biāo)分支子鏈路包含的至少一個節(jié)點,分別執(zhí)行所述節(jié)點對應(yīng)的故障排查方法。
23、在本公開的實施例中,所述檢查以及分析模塊采用二分法從所述目標(biāo)分支子鏈路包含的至少一個節(jié)點中選擇目標(biāo)節(jié)點,并執(zhí)行所述目標(biāo)節(jié)點對應(yīng)的故障排查方法。
24、本公開實施例所述的故障排查方法包括:接收業(yè)務(wù)管理平臺的提交的針對某一個維護對象的運行維護信息;其中,所述運行維護信息包括:所述維護對象的標(biāo)識、問題描述信息以及環(huán)境信息;基于所述運行維護信息中的環(huán)境信息確定所述業(yè)務(wù)管理平臺對應(yīng)的后端云環(huán)境;將所述運行維護信息提交至與所述后端云環(huán)境對應(yīng)的故障排查引擎;由所述故障排查引擎基于所述運行維護信息中的問題描述信息確定與所述問題描述信息對應(yīng)的故障排查鏈路圖,基于所述故障排查鏈路圖對所述維護對象信息對應(yīng)的維護對象進行故障排查,確定與所述問題描述對應(yīng)的故障根本原因,基于所述故障根本原因生成并向所述業(yè)務(wù)管理平臺反饋故障排查報告。
25、在本公開的實施例中,上述方法進一步包括:預(yù)先存儲環(huán)境信息與所述后端云環(huán)境之間的第一映射關(guān)系;其中,基于所述運行維護信息中的環(huán)境信息確定所述業(yè)務(wù)管理平臺對應(yīng)的后端云環(huán)境包括:基于所述第一映射關(guān)系以及所接收運行維護信息中的環(huán)境信息確定所述業(yè)務(wù)管理平臺對應(yīng)的后端云環(huán)境。
26、在本公開的實施例中,上述方法進一步包括:存儲預(yù)先設(shè)置的至少一個故障排查鏈路圖,以及問題描述信息與所述故障排查鏈路圖之間的第二映射關(guān)系;其中,基于所述運行維護信息中的問題描述信息確定與所述問題描述信息對應(yīng)的故障排查鏈路圖包括:從所述運行維護信息中提取問題描述信息;以及基于所述第二映射關(guān)系,確定與所提取出的問題描述信息對應(yīng)的目標(biāo)故障排查鏈路圖。
27、在本公開的實施例中,所述故障排查鏈路圖包含至少一個分支子鏈路,每個分支子鏈路包含至少一個節(jié)點;其中,每個分支子鏈路對應(yīng)一類故障原因;每個節(jié)點對應(yīng)一個故障具體原因,并定義故障排查方法以及歸因條件。
28、在本公開的實施例中,基于所述故障排查鏈路圖對所述維護對象信息對應(yīng)的維護對象進行故障排查,確定與所述問題描述對應(yīng)的故障根本原因包括:針對所述故障排查鏈路圖所包含的節(jié)點,分別執(zhí)行所述節(jié)點對應(yīng)的故障排查方法,確定所述維護對象是否符合當(dāng)前節(jié)點對應(yīng)的歸因條件,直至確定所述維護對象符合當(dāng)前節(jié)點對應(yīng)的歸因條件,并將當(dāng)前節(jié)點所對應(yīng)的故障具體原因作為與所述問題描述對應(yīng)的故障根本原因。
29、在本公開的實施例中,上述方法進一步包括:為所述每個分支子鏈路分配一個優(yōu)先級;其中,針對所述故障排查鏈路圖所包含的節(jié)點,分別執(zhí)行所述節(jié)點對應(yīng)的故障排查方法包括:按照所述優(yōu)先級從高到低的順序,從所述至少一個分支子鏈路中確定目標(biāo)分支子鏈路;以及針對所述目標(biāo)分支子鏈路包含的至少一個節(jié)點,分別執(zhí)行所述節(jié)點對應(yīng)的故障排查方法。
30、在本公開的實施例中,針對所述目標(biāo)分支子鏈路包含的至少一個節(jié)點,分別執(zhí)行所述節(jié)點對應(yīng)的故障排查包括:采用二分法從所述目標(biāo)分支子鏈路包含的至少一個節(jié)點中選擇目標(biāo)節(jié)點;以及執(zhí)行所述目標(biāo)節(jié)點對應(yīng)的故障排查方法。
31、此外,本公開的實施例還提供了一種電子設(shè)備,包括:存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執(zhí)行所述程序時實現(xiàn)上述故障排查方法。
32、本公開的實施例還提供了一種非暫態(tài)計算機可讀存儲介質(zhì),所述非暫態(tài)計算機可讀存儲介質(zhì)存儲計算機指令,所述計算機指令用于使計算機執(zhí)行上述故障排查方法。
33、本公開的實施例還提供了一種計算機程序產(chǎn)品,包括計算機程序指令,當(dāng)所述計算機程序指令在計算機上運行時,使得計算機執(zhí)行上述故障排查方法。
34、本公開實施例所述的運維平臺、故障排查方法及相關(guān)設(shè)備中不僅可以支持不同的后臺云環(huán)境,并且可以針對發(fā)現(xiàn)的問題表象,快速自動進行故障排查,大大減少人工的操作,從而極大地降低了對業(yè)務(wù)平臺進行運維所需的人力成本。
35、進一步,本公開實施例所述的運維平臺支持分支判斷邏輯,同時支持對不同分支配置優(yōu)先級,從而可以進一步大大提升故障排查效率。