專利名稱:一種故障關(guān)系生成及故障確定方法及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及業(yè)務(wù)支撐技術(shù)領(lǐng)域,尤其涉及一種故障關(guān)系生成及故障確定方法及裝置。
背景技術(shù):
云計(jì)算系統(tǒng)是利用大規(guī)模低成本運(yùn)算單元通過復(fù)雜的IP網(wǎng)絡(luò)相連所組成的,提供運(yùn)算服務(wù)的運(yùn)算系統(tǒng)。圖1為現(xiàn)有云計(jì)算系統(tǒng)的垂直分層結(jié)構(gòu)示意圖,云計(jì)算系統(tǒng)由底層向高層依次包括網(wǎng)絡(luò)層、物理服務(wù)器層、操作系統(tǒng)層、云計(jì)算平臺(tái)層以及云計(jì)算應(yīng)用層。云計(jì)算系統(tǒng)規(guī)模龐大,通常包括上千個(gè)服務(wù)器節(jié)點(diǎn),并且云計(jì)算系統(tǒng)的底層為性能較差的商業(yè)服務(wù)器節(jié)點(diǎn),其故障率較高。同時(shí)云計(jì)算系統(tǒng)以分布式計(jì)算模型為主,即一個(gè)應(yīng)用包含多個(gè)服務(wù)器之間的網(wǎng)絡(luò)交互和協(xié)同工作,因此當(dāng)云計(jì)算系統(tǒng)中某一服務(wù)器節(jié)點(diǎn)出現(xiàn)故障時(shí),與其相關(guān)的服務(wù)器節(jié)點(diǎn)的相應(yīng)部件也要受到影響出現(xiàn)故障。并且對(duì)于云計(jì)算系統(tǒng)由于其各個(gè)層次之間也存在依賴關(guān)系,不同層次之間的服務(wù)器節(jié)點(diǎn)的故障也會(huì)相互影響。因此如何在云計(jì)算系統(tǒng)中確定故障的根源成為一個(gè)比較棘手的問題。另外,對(duì)于其他結(jié)構(gòu)比較復(fù)雜的系統(tǒng),在進(jìn)行定位時(shí)也存在與云計(jì)算系統(tǒng)相同的問題?,F(xiàn)有技術(shù)在確定故障的根源時(shí),可以基于網(wǎng)絡(luò)設(shè)備之間的物理連接關(guān)系,其主要過程包括對(duì)各個(gè)網(wǎng)絡(luò)設(shè)備的故障進(jìn)行輪詢,根據(jù)輪詢的結(jié)果,將相互之間存在物理連接關(guān)系的網(wǎng)絡(luò)設(shè)備所在的區(qū)域稱為故障區(qū)域,在確定的故障區(qū)域內(nèi),根據(jù)每個(gè)故障的網(wǎng)絡(luò)設(shè)備與其他網(wǎng)絡(luò)設(shè)備之間的物理連接關(guān)系,確定該故障區(qū)域內(nèi)的故障根源。上述確定故障的方法中,基于網(wǎng)絡(luò)設(shè)備之間的物理連接關(guān)系確定,該方法只能解決通信設(shè)備層面的問題,而對(duì)于結(jié)構(gòu)比較復(fù)雜的系統(tǒng),例如云計(jì)算系統(tǒng)由于其包括上千個(gè)服務(wù)器節(jié)點(diǎn),連接關(guān)系非常復(fù)雜,并且位于不同層面的服務(wù)器之間也是相互關(guān)聯(lián)的。因此可知對(duì)于系統(tǒng)中這種在不同服務(wù)器節(jié)點(diǎn)之間,以及同一服務(wù)器節(jié)點(diǎn)的不同層面之間都具有復(fù)雜的相關(guān)性,因此基于上述網(wǎng)絡(luò)設(shè)備確定故障的方法無法應(yīng)用到該系統(tǒng)中。另外,在現(xiàn)有技術(shù)中還可以確定軟件中的故障,具體包括根據(jù)鏈接時(shí)的優(yōu)化器, 獲取靜態(tài)控制依賴信息,并根據(jù)動(dòng)態(tài)插裝可執(zhí)行程序,搜集動(dòng)態(tài)執(zhí)行軌跡信息;解析搜集到的軌跡信息,得到動(dòng)態(tài)依賴關(guān)系;再根據(jù)保存的動(dòng)態(tài)依賴關(guān)系的可疑度公式,計(jì)算得到的每個(gè)動(dòng)態(tài)依賴關(guān)系的可疑度;然后將可疑度的值映射到程序的可執(zhí)行語句上,并將各語句按照可疑度的大小進(jìn)行降序排列,輸出軟件故障定位的報(bào)告。上述確定軟件中的故障的方法,由于其只能用于對(duì)軟件進(jìn)行故障定位,也就是說只能用于對(duì)單個(gè)軟件內(nèi)部進(jìn)行故障的定位,因此無法適用于確定整個(gè)系統(tǒng)中的故障。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明實(shí)施例提供一種故障關(guān)系生成及故障確定方法及裝置,用以解決無法在系統(tǒng)中進(jìn)行故障定位的問題。本發(fā)明實(shí)施例提供的一種故障關(guān)系生成方法,包括
根據(jù)該報(bào)警事件發(fā)生的時(shí)間,該報(bào)警事件中攜帶的故障類型信息,以及保存的故障類型信息與時(shí)間范圍信息的對(duì)應(yīng)關(guān)系,確定該報(bào)警事件對(duì)應(yīng)的故障的有效期信息;并根據(jù)確定的有效期信息,確定發(fā)生時(shí)間處于該有效期內(nèi)的其他報(bào)警事件;將每個(gè)報(bào)警事件作為故障關(guān)系中的節(jié)點(diǎn),分別連接該報(bào)警事件對(duì)應(yīng)的節(jié)點(diǎn)到確定的其他報(bào)警事件對(duì)應(yīng)的節(jié)點(diǎn)的路徑。本發(fā)明實(shí)施例提供的一種基于上述生成的故障關(guān)系進(jìn)行故障確定的方法,包括根據(jù)用戶輸入的報(bào)警事件,在生成的故障關(guān)系中查找對(duì)應(yīng)該輸入的報(bào)警事件的節(jié)
點(diǎn);根據(jù)查找到的節(jié)點(diǎn),逆向路徑查找到達(dá)該節(jié)點(diǎn)的每條路徑,根據(jù)每條路徑上的節(jié)點(diǎn)對(duì)應(yīng)的報(bào)警事件進(jìn)行故障定位。本發(fā)明實(shí)施例提供的一種基于上述生成的故障關(guān)系確定報(bào)警事件的擴(kuò)散范圍的方法,包括根據(jù)用戶輸入的報(bào)警事件,在生成的故障關(guān)系中查找對(duì)應(yīng)該輸入的報(bào)警事件的節(jié)
點(diǎn);根據(jù)查找到的節(jié)點(diǎn),順次查找以該節(jié)點(diǎn)為起點(diǎn)的每條路徑,根據(jù)每條路徑上的節(jié)點(diǎn)對(duì)應(yīng)的報(bào)警事件,確定該報(bào)警事件的擴(kuò)散范圍。本發(fā)明實(shí)施例提供的一種云計(jì)算系統(tǒng)中故障關(guān)系生成裝置,包括第一確定模塊,用于根據(jù)報(bào)警事件發(fā)生的時(shí)間,該報(bào)警事件中攜帶的故障類型信息,以及保存的故障類型信息與時(shí)間范圍信息的對(duì)應(yīng)關(guān)系,確定該報(bào)警事件對(duì)應(yīng)的故障的有效期信息,并根據(jù)確定的有效期信息,確定發(fā)生時(shí)間在該有效期內(nèi)的其他報(bào)警事件;生成模塊,用于將每個(gè)報(bào)警事件作為故障關(guān)系中的節(jié)點(diǎn),分別連接該報(bào)警事件對(duì)應(yīng)的節(jié)點(diǎn)到確定的其他報(bào)警事件對(duì)應(yīng)的節(jié)點(diǎn)的路徑。本發(fā)明實(shí)施例提供的一種基于上述生成裝置的故障確定裝置,包括第一查找模塊,用于根據(jù)用戶輸入的報(bào)警事件,在生成的故障關(guān)系中查找對(duì)應(yīng)該輸入的報(bào)警事件的節(jié)點(diǎn);第一確定模塊,用于根據(jù)查找到的節(jié)點(diǎn),逆向路徑查找到達(dá)該節(jié)點(diǎn)的每條路徑,根據(jù)每條路徑上的節(jié)點(diǎn)對(duì)應(yīng)的報(bào)警事件進(jìn)行故障定位。本發(fā)明實(shí)施例提供的基于上述生成裝置的確定報(bào)警事件的擴(kuò)散范圍的裝置,所述裝置包括第二查找模塊,用于根據(jù)用戶輸入的報(bào)警事件,在生成的故障關(guān)系中查找對(duì)應(yīng)該輸入的報(bào)警事件的節(jié)點(diǎn);第二確定模塊,用于根據(jù)查找到的節(jié)點(diǎn),順次查找以該節(jié)點(diǎn)為起點(diǎn)的每條路徑,根據(jù)每條路徑上的節(jié)點(diǎn)對(duì)應(yīng)的報(bào)警事件,確定該報(bào)警事件的擴(kuò)散范圍。本發(fā)明實(shí)施例提供了一種故障關(guān)系生成及故障確定方法及裝置,該故障關(guān)系生成方法中根據(jù)報(bào)警事件發(fā)生的時(shí)間,該報(bào)警事件中攜帶的故障類型信息,以及保存的對(duì)應(yīng)該故障類型的時(shí)間范圍信息,確定該報(bào)警事件對(duì)應(yīng)故障的有效期信息,并確定發(fā)生時(shí)間處于該有效期內(nèi)的其他報(bào)警事件,將每個(gè)報(bào)警事件作為故障關(guān)系中的節(jié)點(diǎn),連接該報(bào)警事件對(duì)應(yīng)的節(jié)點(diǎn)到確定的該其他報(bào)警事件對(duì)應(yīng)的節(jié)點(diǎn)的路徑從而生成故障關(guān)系。由于在本發(fā)明實(shí)施例中根據(jù)在報(bào)警事件的有效期內(nèi)發(fā)生的其他報(bào)警事件,從而確定報(bào)警事件與其他報(bào)警事件之間的關(guān)系,因此在進(jìn)行故障定位時(shí)可以根據(jù)生成的故障關(guān)系進(jìn)行故障定位,從而為復(fù)雜的系統(tǒng)提供了一種有效,準(zhǔn)確的故障定位方法。
圖1為現(xiàn)有云計(jì)算系統(tǒng)的垂直分層結(jié)構(gòu)示意圖;圖2為本發(fā)明實(shí)施例提供的故障關(guān)系生成過程;圖3為本發(fā)明實(shí)施例提供的針對(duì)每個(gè)報(bào)警事件,確定該報(bào)警事件與其他報(bào)警時(shí)間之間的依賴關(guān)系的過程;圖4為本發(fā)明實(shí)施例提供的根據(jù)報(bào)警事件之間的故障關(guān)系參數(shù)確定的故障關(guān)系表的示意圖;圖5為本發(fā)明實(shí)施例提供的基于該生成的故障關(guān)系表確定故障的過程;圖6為本發(fā)明實(shí)施例提供的基于該生成的故障關(guān)系表進(jìn)行故障確定的具體過程;圖7為本發(fā)明實(shí)施例提供的一種故障關(guān)系生成裝置的結(jié)構(gòu)示意圖;圖8為本發(fā)明實(shí)施例提供的基于圖7所述的生成裝置的故障確定裝置的結(jié)構(gòu)示意圖;圖9為本發(fā)明實(shí)施例提供的基于圖7所述的生成裝置確定報(bào)警事件的擴(kuò)散范圍的裝置的結(jié)構(gòu)示意圖。
具體實(shí)施例方式本發(fā)明實(shí)施例中為了準(zhǔn)確的在系統(tǒng)中進(jìn)行故障確定,提供了一種故障關(guān)系生成方法,這是由于當(dāng)主機(jī)出現(xiàn)故障時(shí)會(huì)自動(dòng)的上報(bào)報(bào)警事件,其中該報(bào)警事件中記錄有故障類型信息,而在本發(fā)明實(shí)施例中針對(duì)不同的類型的故障,保存了該故障類型對(duì)應(yīng)的時(shí)間范圍信息,即認(rèn)為該類型的故障在該時(shí)間范圍內(nèi)會(huì)對(duì)產(chǎn)生其他故障,從而可以確定該報(bào)警事件對(duì)應(yīng)的故障的有效期,在該有效期內(nèi)發(fā)生的其他報(bào)警事件就可以認(rèn)為,該其他報(bào)警事件與該報(bào)警事件存在故障關(guān)系,并且是由該報(bào)警事件導(dǎo)致的該其他報(bào)警事件,因此根據(jù)報(bào)警事件之間的故障關(guān)系,就可以生成包含各個(gè)報(bào)警事件的故障關(guān)系。結(jié)合該故障關(guān)系即可對(duì)每種報(bào)警事件進(jìn)行故障定位。下面結(jié)合說明書附圖,對(duì)本發(fā)明實(shí)施例進(jìn)行詳細(xì)說明。圖2為本發(fā)明實(shí)施例提供的故障關(guān)系生成過程,該過程包括以下步驟S201 針對(duì)每個(gè)報(bào)警事件執(zhí)行以下步驟根據(jù)該報(bào)警事件發(fā)生的時(shí)間,該報(bào)警事件中攜帶的故障類型信息,以及保存的故障類型信息與時(shí)間范圍信息的對(duì)應(yīng)關(guān)系,確定該報(bào)警事件的故障的有效期信息。當(dāng)每臺(tái)主機(jī)在運(yùn)行某個(gè)程序,或者該主機(jī)的其中某個(gè)部件出現(xiàn)故障時(shí),該主機(jī)都會(huì)上報(bào)報(bào)警事件,當(dāng)該主機(jī)上報(bào)該報(bào)警事件時(shí)可以記錄該報(bào)警事件發(fā)生的時(shí)間,以便后續(xù)可以進(jìn)行故障關(guān)系的生成,并且為故障排查提供幫助。另外在每個(gè)報(bào)警事件中還可以包括;故障發(fā)生的主機(jī)的IP地址信息和/或該主機(jī)發(fā)生故障的對(duì)象。其中故障的對(duì)象也就是具體的該主機(jī)的哪個(gè)部件,者哪個(gè)應(yīng)用,或哪個(gè)進(jìn)程。S202:根據(jù)確定的有效期信息,確定發(fā)生時(shí)間在該有限期內(nèi)的其他報(bào)警事件。
由于在本發(fā)明實(shí)施例中針對(duì)每種故障類型保存了對(duì)應(yīng)該故障類型的時(shí)間范圍信息,當(dāng)針對(duì)該設(shè)定時(shí)間長(zhǎng)度內(nèi)的每個(gè)報(bào)警事件,生成故障關(guān)系時(shí),針對(duì)每個(gè)報(bào)警事件,根據(jù)該報(bào)警事件發(fā)生的時(shí)間,該報(bào)警事件中記錄的故障類型信息,以及保存的對(duì)應(yīng)故障類型的時(shí)間范圍信息,將該每個(gè)發(fā)生時(shí)間作為起點(diǎn),將該發(fā)生時(shí)間加上該時(shí)間范圍信息作為終點(diǎn), 該起點(diǎn)和終點(diǎn)間的時(shí)間為每個(gè)有效期,則可以統(tǒng)計(jì)發(fā)生時(shí)間在該有效期的其他報(bào)警事件。S203 將每個(gè)報(bào)警事件作為節(jié)點(diǎn),分別連接該報(bào)警事件對(duì)應(yīng)的節(jié)點(diǎn)到確定的其他報(bào)警事件對(duì)應(yīng)的節(jié)點(diǎn)的路徑。具體的在生成故障關(guān)系時(shí),將每個(gè)報(bào)警事件都作為故障關(guān)系中的一個(gè)節(jié)點(diǎn),當(dāng)確定第一報(bào)警事件的發(fā)生導(dǎo)致第二報(bào)警事件的發(fā)生時(shí),則分別查找第一報(bào)警事件和第二報(bào)警事件對(duì)應(yīng)的節(jié)點(diǎn),連接第一報(bào)警事件對(duì)應(yīng)的節(jié)點(diǎn)到其導(dǎo)致的第二報(bào)警事件對(duì)應(yīng)的節(jié)點(diǎn)的路徑,也可以說將該第一報(bào)警事件對(duì)應(yīng)的節(jié)點(diǎn)作為箭頭的起點(diǎn),將該第二報(bào)警事件對(duì)應(yīng)的節(jié)點(diǎn)作為箭頭的終點(diǎn),該箭頭連接的線路稱為一個(gè)路徑。本發(fā)明實(shí)施例在生成云計(jì)算系統(tǒng)的故障關(guān)系時(shí),對(duì)整個(gè)系統(tǒng)中的故障根源進(jìn)行分析,包括分析不同服務(wù)器節(jié)點(diǎn)之間,以及同一服務(wù)器節(jié)點(diǎn)的不同層面之間,對(duì)系統(tǒng)中的網(wǎng)絡(luò)、服務(wù)器、操作系統(tǒng)以及各應(yīng)用軟件的各維度進(jìn)行分析,從而準(zhǔn)確的確定出的系統(tǒng)中的故障關(guān)系。當(dāng)確定了系統(tǒng)中的故障關(guān)系后,當(dāng)該報(bào)警事件中還攜帶有故障發(fā)生的主機(jī)的IP地址信息時(shí),還可以確定該每個(gè)節(jié)點(diǎn)對(duì)應(yīng)的報(bào)警事件對(duì)應(yīng)的主機(jī)的信息,即針對(duì)每個(gè)節(jié)點(diǎn)保存發(fā)生該報(bào)警事件的主機(jī)的IP地址信息。由于本發(fā)明實(shí)施例提供的故障關(guān)系生成方法,可以生成系統(tǒng)中各個(gè)報(bào)警事件的故障關(guān)系,對(duì)于云計(jì)算系統(tǒng),由于其系統(tǒng)規(guī)模龐大,包括上千個(gè)服務(wù)器節(jié)點(diǎn),而且各個(gè)層次之間也存在依賴關(guān)系,不同層次之間的服務(wù)器節(jié)點(diǎn)的故障也會(huì)相互影響,因此采用本發(fā)明實(shí)施例提供的故障關(guān)系生成方法,可以用于對(duì)結(jié)構(gòu)復(fù)雜的云計(jì)算系統(tǒng)中的故障關(guān)系生成。當(dāng)對(duì)云計(jì)算系統(tǒng)中的報(bào)警事件進(jìn)行統(tǒng)計(jì)時(shí),認(rèn)為可以統(tǒng)計(jì)到云計(jì)算系統(tǒng)中的每個(gè)報(bào)警事件, 或者也可以在具體實(shí)現(xiàn)時(shí),將每個(gè)報(bào)警事件都上報(bào)到統(tǒng)一的平臺(tái),以便于后續(xù)根據(jù)報(bào)警事件進(jìn)行故障關(guān)系確定。另外,在本發(fā)明實(shí)施例中的報(bào)警事件是指當(dāng)系統(tǒng)中的一個(gè)部件無法完成其預(yù)定的功能時(shí),生成的一個(gè)報(bào)警事件。在該報(bào)警事件中包含故障類型信息。并且在報(bào)警事件上報(bào)時(shí)還會(huì)記錄該報(bào)警事件發(fā)生的時(shí)間信息,該報(bào)警事件發(fā)生的時(shí)間信息可以是在該報(bào)警事件在上報(bào)時(shí)攜帶在該報(bào)警事件中的,或者當(dāng)該報(bào)警事件的上報(bào)是實(shí)時(shí)的時(shí),也可以認(rèn)為接收到該報(bào)警事件的時(shí)間即為該報(bào)警事件發(fā)生的時(shí)間。另外,該報(bào)警事件中還攜帶有故障發(fā)生的主機(jī)的IP地址信息和或/該主機(jī)發(fā)生故障的對(duì)象,以確定具體是哪臺(tái)IP地址的主機(jī)出現(xiàn)了故障,并且當(dāng)該報(bào)警事件中主機(jī)發(fā)生故障的對(duì)象時(shí),還可以確定該主機(jī)具體哪個(gè)對(duì)象出現(xiàn)了故障。在本發(fā)明實(shí)施例中在設(shè)定時(shí)間長(zhǎng)度內(nèi)會(huì)統(tǒng)計(jì)到多個(gè)報(bào)警事件,當(dāng)該報(bào)警事件包含的內(nèi)容相同時(shí),可以認(rèn)為該報(bào)警事件為同一報(bào)警事件,從而可以統(tǒng)計(jì)該設(shè)定時(shí)間長(zhǎng)度內(nèi)每個(gè)報(bào)警事件發(fā)生的次數(shù)。當(dāng)報(bào)警事件中攜帶有時(shí)間信息時(shí),出去該時(shí)間信息其他信息都相同時(shí),可以認(rèn)為是同一報(bào)警事件。由于故障發(fā)生是存在依賴關(guān)系的,因此當(dāng)某一故障對(duì)應(yīng)的報(bào)警事件發(fā)生時(shí),該故障導(dǎo)致的其他故障的報(bào)警事件會(huì)在一定的時(shí)間范圍內(nèi)發(fā)生,因此根據(jù)在每個(gè)故障的有效期CN 102546205 A內(nèi)發(fā)生的其他報(bào)警事件,就可以確定報(bào)警事件之間的故障關(guān)系。具體的報(bào)警時(shí)間之間的故障關(guān)系可以用報(bào)警事件之間的故障關(guān)系參數(shù)來表示,由一種報(bào)警事件導(dǎo)致其他報(bào)警事件發(fā)生的可能性,具體的在確定報(bào)警事件之間的故障關(guān)系參數(shù)時(shí)包括針對(duì)每個(gè)其他報(bào)警事件, 統(tǒng)計(jì)該其他報(bào)警事件在幾個(gè)有效期內(nèi)出現(xiàn),根據(jù)統(tǒng)計(jì)的該設(shè)定時(shí)間長(zhǎng)度內(nèi)該報(bào)警事件發(fā)生的次數(shù),以及該其他報(bào)警事件在幾個(gè)有效期內(nèi)出現(xiàn),確定該報(bào)警事件發(fā)生導(dǎo)致該其他報(bào)警事件發(fā)生的故障關(guān)系參數(shù)。由于在每個(gè)有效期內(nèi)每個(gè)其他報(bào)警事件只能發(fā)生一次,因此針對(duì)每個(gè)其他報(bào)警事件統(tǒng)計(jì)其在幾個(gè)有效期內(nèi)出現(xiàn),就可以確定其與該報(bào)警事件關(guān)聯(lián)的發(fā)生次數(shù),根據(jù)該次數(shù), 以及該報(bào)警事件在該設(shè)定時(shí)間長(zhǎng)度內(nèi)發(fā)生的次數(shù),可以確定該報(bào)警事件發(fā)生導(dǎo)致該其他報(bào)警事件發(fā)生的故障關(guān)系參數(shù)。如果當(dāng)某一個(gè)報(bào)警事件El的發(fā)生,即某一個(gè)故障發(fā)生,可能導(dǎo)致另一報(bào)警事件E2 的發(fā)生時(shí),則可以認(rèn)為報(bào)警事件E2依賴于報(bào)警事件E1,表示為El- > E2。并且報(bào)警事件的發(fā)生在時(shí)間上具有關(guān)聯(lián)性,每個(gè)報(bào)警事件在一定的時(shí)間范圍內(nèi)會(huì)存在一定的影響,因此可以確定該報(bào)警事件的有效期,例如記為El. limit,當(dāng)兩個(gè)報(bào)警事件的發(fā)生時(shí)間滿足,El. t < E2. t且E2. t-El. t < El. limit,則稱事件El和E2具有時(shí)間相關(guān)性,其中El. t為報(bào)警事件El發(fā)生的時(shí)間,E2. t為報(bào)警事件E2發(fā)生的時(shí)間。在確定具有時(shí)間相關(guān)性的兩個(gè)報(bào)警事件El和E2之間的依賴關(guān)系時(shí),可以用概率來表示,具體為Pei > E2 = P (E2 I El) = P (E1E2) +P (El)其中沖吣吣?伍?脅)表示報(bào)警事件El導(dǎo)致報(bào)警事件E2發(fā)生的概率,P(E1E2)表示報(bào)警事件E1、報(bào)警事件E2同時(shí)發(fā)生的概率,P(El)表示報(bào)警事件El發(fā)生的概率。圖3為本發(fā)明實(shí)施例提供的針對(duì)每個(gè)報(bào)警事件,確定該報(bào)警事件與其他報(bào)警時(shí)間之間的依賴關(guān)系的過程,該過程包括以下步驟S301 根據(jù)每個(gè)報(bào)警事件發(fā)生的事時(shí)間,統(tǒng)計(jì)在設(shè)定的時(shí)間長(zhǎng)度內(nèi)發(fā)生的每個(gè)報(bào)
警事件。其中每個(gè)報(bào)警事件中記錄有故障類型信息,故障發(fā)生的主機(jī)的IP地址信息以及該主機(jī)發(fā)生故障的對(duì)象。S302 并確定在該設(shè)定時(shí)間長(zhǎng)度內(nèi),同一報(bào)警事件發(fā)生的次數(shù)。例如統(tǒng)計(jì)到第一報(bào)警事件在一個(gè)月內(nèi)發(fā)生了 10次,第二報(bào)警事件在一個(gè)月內(nèi)發(fā)生了 12次,第三報(bào)警事件在一個(gè)月內(nèi)發(fā)生了 9次。以下步驟是針對(duì)統(tǒng)計(jì)到的每種報(bào)警事件分別進(jìn)行的。S303:針對(duì)同一報(bào)警事件,根據(jù)該報(bào)警事件在該設(shè)定時(shí)間長(zhǎng)度內(nèi)每次發(fā)生的時(shí)間, 該報(bào)警事件中記錄的故障類型信息,以及保存的對(duì)應(yīng)該故障類型的時(shí)間范圍信息,確定該故障的每個(gè)有效期信息。對(duì)于第一報(bào)警事件,當(dāng)該報(bào)警事件對(duì)應(yīng)的故障為數(shù)據(jù)庫(kù)服務(wù)器硬盤故障時(shí),對(duì)應(yīng)數(shù)據(jù)庫(kù)服務(wù)器硬盤故障保存的時(shí)間范圍可以為1個(gè)小時(shí)。該第一報(bào)警事件在一個(gè)月內(nèi)每次
的發(fā)生時(shí)間分別為第一天的10:00,第10天的7:52,第15天的8:00,......,因此確定
的該報(bào)警事件對(duì)應(yīng)故障的每個(gè)有效期分別為第一天的10:00 11:00,第10天的7:52 8:52,H 15 天的 8:00 9:00,.......S304 統(tǒng)計(jì)在每個(gè)有效期內(nèi)發(fā)生的其他報(bào)警事件。
例如當(dāng)?shù)诙?bào)警事件在第一天的10:35發(fā)生時(shí),由于其發(fā)生的時(shí)間位于第一報(bào)警事件對(duì)應(yīng)的故障發(fā)生的有效期(第一天的10:00 11:00)內(nèi),因?yàn)榭梢哉J(rèn)為該第二報(bào)警事件為在第一報(bào)警事件的有效期內(nèi)發(fā)生的報(bào)警事件。S305:針對(duì)每個(gè)其他報(bào)警事件,統(tǒng)計(jì)該其他報(bào)警事件在每個(gè)有效期內(nèi)出現(xiàn)的次數(shù)。由于對(duì)于一個(gè)報(bào)警事件其在一段時(shí)間內(nèi)只能出現(xiàn)一次,因此一般在每個(gè)有效期內(nèi)如果一個(gè)報(bào)警事件出現(xiàn)時(shí),也就只能出現(xiàn)一次,因此針對(duì)每個(gè)其他報(bào)警事件,統(tǒng)計(jì)該其他報(bào)警事件在幾個(gè)有效期內(nèi)出現(xiàn),也就能確定該其他報(bào)警事件在每個(gè)有效期內(nèi)出現(xiàn)次數(shù)的和。當(dāng)然在每個(gè)有效期內(nèi)其他報(bào)警事件出現(xiàn)的次數(shù)不止一次時(shí),統(tǒng)計(jì)該其他報(bào)警事件在該報(bào)警事件的有效期內(nèi)出現(xiàn)的次數(shù),也可以確定該其他報(bào)警事件在每個(gè)有效期內(nèi)出現(xiàn)的次數(shù)的和。S306:確定該其他報(bào)警事件在每個(gè)有效期內(nèi)出現(xiàn)次數(shù)的和,與該設(shè)定時(shí)間長(zhǎng)度內(nèi)該報(bào)警事件發(fā)生的次數(shù)商,將該商值作為該報(bào)警事件導(dǎo)致確定的其他報(bào)警事件發(fā)生的故障關(guān)系參數(shù)。S307:將該報(bào)警事件及該其他報(bào)警事件分別作為故障關(guān)系中的節(jié)點(diǎn),連接該報(bào)警事件對(duì)應(yīng)的節(jié)點(diǎn)到其導(dǎo)致的該其他報(bào)警事件對(duì)應(yīng)的節(jié)點(diǎn)的路徑,基于確定的該報(bào)警事件導(dǎo)致確定的其他報(bào)警事件發(fā)生的故障關(guān)系參數(shù),對(duì)應(yīng)該路徑保存該兩個(gè)報(bào)警事件之間的故障關(guān)系參數(shù)。具體的在確定了每?jī)蓚€(gè)報(bào)警事件之間的路徑后,由于該兩個(gè)報(bào)警事件中,其中一個(gè)報(bào)警事件的發(fā)生將導(dǎo)致另一報(bào)警事件的發(fā)生,因此為了標(biāo)識(shí)報(bào)警事件之間的依賴關(guān)系, 該路徑可以包括方向標(biāo)識(shí),該路徑的方向標(biāo)識(shí)是由報(bào)警事件對(duì)應(yīng)的節(jié)點(diǎn)指向其導(dǎo)致的報(bào)警事件對(duì)應(yīng)的節(jié)點(diǎn)的。進(jìn)一步為了標(biāo)識(shí)每?jī)蓚€(gè)報(bào)警事件之間的關(guān)聯(lián)程度,由于確定了報(bào)警事件之間的故障關(guān)系參數(shù),因此可以針對(duì)每條路徑,根據(jù)每條路徑連接的每?jī)蓚€(gè)節(jié)點(diǎn)包含的報(bào)警事件,對(duì)應(yīng)該路徑保存該兩個(gè)報(bào)警事件之間的故障關(guān)系參數(shù)。下述表1為各個(gè)報(bào)警事件之間的故障關(guān)系參數(shù)的示意
報(bào)警事件 ElE2E3E4
~~Ε ~0950807
~~E20~09075
Ε30οΤ -Oo
Ε40θΓθ502~表 1在上述表1中以每個(gè)報(bào)警事件都為云計(jì)算系統(tǒng)中的報(bào)警事件為例進(jìn)行說明,其中報(bào)警事件El為數(shù)據(jù)庫(kù)服務(wù)器硬盤故障,報(bào)警事件Ε2為數(shù)據(jù)庫(kù)故障,報(bào)警事件Ε3為應(yīng)用服務(wù)器故障,報(bào)警事件Ε4為web服務(wù)故障,其中報(bào)警事件El導(dǎo)致報(bào)警事件E2發(fā)生的故障關(guān)系參數(shù)為0. 95,報(bào)警事件El導(dǎo)致報(bào)警事件E3發(fā)生的故障關(guān)系參數(shù)為0. 8,報(bào)警事件El導(dǎo)致報(bào)警事件E4發(fā)生的故障關(guān)系參數(shù)為0. 7,報(bào)警事件E2導(dǎo)致報(bào)警事件E3發(fā)生的故障關(guān)系
10參數(shù)為0. 9,報(bào)警事件E2導(dǎo)致報(bào)警事件E4發(fā)生的故障關(guān)系參數(shù)為0. 75,報(bào)警事件E3導(dǎo)致報(bào)警事件E4發(fā)生的故障關(guān)系參數(shù)為0. 8,報(bào)警事件E2、E3、E4導(dǎo)致報(bào)警事件El發(fā)生的故障關(guān)系參數(shù)為0,報(bào)警事件E3導(dǎo)致報(bào)警事件E2發(fā)生的故障關(guān)系參數(shù)為0. 1,報(bào)警事件E4導(dǎo)致報(bào)警事件E2發(fā)生的故障關(guān)系參數(shù)為0. 05,報(bào)警事件E4導(dǎo)致報(bào)警事件E3發(fā)生的故障關(guān)系參數(shù)為0.2。當(dāng)確定了每個(gè)報(bào)警事件導(dǎo)致其他報(bào)警事件發(fā)生的故障關(guān)系參數(shù)后,可以依據(jù)確定的報(bào)警事件的故障關(guān)系參數(shù)確定報(bào)警事件之間的故障關(guān)系。圖4為本發(fā)明實(shí)施例提供的根據(jù)報(bào)警事件之間的故障關(guān)系參數(shù)確定的故障關(guān)系表的示意圖,在該圖4中包含報(bào)警事件的節(jié)點(diǎn)之間通過對(duì)應(yīng)的路徑連接,并且針對(duì)每條路徑保存了該路徑連接的每?jī)蓚€(gè)節(jié)點(diǎn)對(duì)應(yīng)的報(bào)警事件之間的故障關(guān)系參數(shù)。具體的數(shù)據(jù)庫(kù)服務(wù)器硬盤故障報(bào)警事件與數(shù)據(jù)故障報(bào)警事件之間存在連接路徑, 并且對(duì)應(yīng)該路徑保存的該兩個(gè)報(bào)警事件的故障關(guān)系參數(shù)為0. 95,數(shù)據(jù)庫(kù)服務(wù)器硬盤故障報(bào)警事件與web服務(wù)故障報(bào)警事件之間存在連接路徑,并且對(duì)應(yīng)該路徑保存的該兩個(gè)報(bào)警事件的故障關(guān)系參數(shù)為0. 6,數(shù)據(jù)庫(kù)故障報(bào)警事件與應(yīng)用服務(wù)器故障報(bào)警事件之間存在連接路徑,并且對(duì)應(yīng)該路徑保存的該兩個(gè)報(bào)警事件的故障關(guān)系參數(shù)為0. 9,數(shù)據(jù)庫(kù)故障報(bào)警事件與web服務(wù)故障報(bào)警事件之間存在連接路徑,并且對(duì)應(yīng)該路徑保存的該兩個(gè)報(bào)警事件的故障關(guān)系參數(shù)為0. 7,認(rèn)證服務(wù)器故障報(bào)警事件與應(yīng)用服務(wù)器故障報(bào)警事件之間存在連接路徑,并且對(duì)應(yīng)該路徑保存的該兩個(gè)報(bào)警事件的故障關(guān)系參數(shù)為0. 5,應(yīng)用服務(wù)器故障報(bào)警事件、web服務(wù)操作系統(tǒng)Out of Memory報(bào)警事件與web服務(wù)故障報(bào)警事件都存在連接路徑, 對(duì)應(yīng)每條連接路徑的故障參數(shù)分別為0. 8,0. 6。當(dāng)根據(jù)設(shè)定時(shí)間長(zhǎng)度內(nèi)每個(gè)報(bào)警事件發(fā)生的次數(shù),以及在每個(gè)報(bào)警事件有效期內(nèi)其他報(bào)警事件發(fā)生的次數(shù),確定了該報(bào)警事件導(dǎo)致該其他報(bào)警事件發(fā)生的故障關(guān)系參數(shù)后,可以確定并生成報(bào)警事件之間故障關(guān)系。由于故障關(guān)系可以反映一段時(shí)間內(nèi)云計(jì)算系統(tǒng)中各個(gè)報(bào)警事件之間的關(guān)聯(lián)關(guān)系,但是該關(guān)聯(lián)關(guān)系可以在一定的時(shí)間內(nèi)會(huì)發(fā)生變化,為了及時(shí)有效的體現(xiàn)報(bào)警事件之間的關(guān)聯(lián)關(guān)系,可以按照一定的時(shí)間間隔,對(duì)報(bào)警事件之間的故障關(guān)系進(jìn)行更新。當(dāng)生成了報(bào)警事件之間的故障關(guān)系后,就可以依據(jù)該故障關(guān)系進(jìn)行故障定位了。 圖5為本發(fā)明實(shí)施例提供的基于該生成的故障關(guān)系確定故障的過程,該過程包括以下步驟S501 根據(jù)用戶輸入的報(bào)警事件,在生成的故障關(guān)系中查找包含該報(bào)警事件的節(jié)
點(diǎn)οS502:根據(jù)查找到的節(jié)點(diǎn),逆向路徑查找達(dá)到該節(jié)點(diǎn)的每條路徑,根據(jù)每條路徑中的節(jié)點(diǎn)對(duì)應(yīng)的報(bào)警事件進(jìn)行故障定位。在根據(jù)每條路徑中的節(jié)點(diǎn)對(duì)應(yīng)的其他報(bào)警事件進(jìn)行故障定位時(shí),由于在該故障關(guān)系中已經(jīng)確定了每個(gè)報(bào)警事件對(duì)應(yīng)的節(jié)點(diǎn)與其導(dǎo)致的該其他報(bào)警事件對(duì)應(yīng)的節(jié)點(diǎn)的路徑, 因此當(dāng)用戶需要對(duì)發(fā)生的某個(gè)報(bào)警事件進(jìn)行故障確定時(shí),逆向路徑查找到達(dá)該每個(gè)節(jié)點(diǎn)的每條路徑,就可以進(jìn)行故障定位了。依據(jù)圖4當(dāng)用戶輸入的報(bào)警事件為應(yīng)用服務(wù)器故障報(bào)警事件時(shí),查找到對(duì)應(yīng)應(yīng)用服務(wù)器故障報(bào)警事件的節(jié)點(diǎn),根據(jù)查找的節(jié)點(diǎn),逆向路徑查找達(dá)到該節(jié)點(diǎn)的路徑包括兩條,第一條路徑為認(rèn)證服務(wù)器故障報(bào)警事件對(duì)應(yīng)的路徑,第二條路徑為數(shù)據(jù)庫(kù)故障報(bào)警事件-數(shù)據(jù)庫(kù)服務(wù)器硬盤故障報(bào)警事件對(duì)應(yīng)的路徑。因此根據(jù)每條路徑的節(jié)點(diǎn)對(duì)應(yīng)的報(bào)警事件可以進(jìn)行故障定位,也就是說導(dǎo)致應(yīng)用服務(wù)器故障報(bào)警事件發(fā)生的報(bào)警事件可能為認(rèn)證服務(wù)器故障報(bào)警事件、或數(shù)據(jù)庫(kù)故障報(bào)警事件,或數(shù)據(jù)庫(kù)服務(wù)器硬盤故障報(bào)警事件。并且在本發(fā)明實(shí)施例中當(dāng)用戶數(shù)輸入了報(bào)警事件后,還可以根據(jù)生成的故障關(guān)系確定該報(bào)警事件的擴(kuò)散范圍,具體在確定該報(bào)警事件的擴(kuò)散范圍包括根據(jù)用戶輸入的報(bào)警事件,在生成的故障關(guān)系中查找對(duì)應(yīng)該輸入的報(bào)警事件的節(jié)點(diǎn);根據(jù)查找到的節(jié)點(diǎn),順次查找以該節(jié)點(diǎn)為起點(diǎn)的每條路徑,根據(jù)每條路徑上的其他節(jié)點(diǎn)對(duì)應(yīng)的其他報(bào)警事件,確定該報(bào)警事件的擴(kuò)散范圍。還以用戶輸入的報(bào)警事件為應(yīng)用服務(wù)器故障報(bào)警事件為例,在確定該報(bào)警事件的擴(kuò)散范圍時(shí),順次查找以該應(yīng)用服務(wù)器故障報(bào)警事件對(duì)應(yīng)的節(jié)點(diǎn)為起點(diǎn)的路徑包括一條, 這條路徑為到達(dá)web服務(wù)故障報(bào)警事件的路徑,因此可知當(dāng)應(yīng)用服務(wù)器故障報(bào)警事件擴(kuò)散的范圍內(nèi)包括web服務(wù)故障報(bào)警事件,即當(dāng)應(yīng)用服務(wù)器故障報(bào)警事件發(fā)生時(shí),其可能導(dǎo)致 web服務(wù)故障報(bào)警事件的發(fā)生。具體的由于報(bào)警事件之間的關(guān)聯(lián)可以通過故障關(guān)系參數(shù)體現(xiàn),當(dāng)報(bào)警事件之間的故障關(guān)系參數(shù)比較大時(shí),說明該兩個(gè)報(bào)警事件之間的關(guān)聯(lián)性比較大。因此在進(jìn)行故障定位時(shí),如果為了提高定位的速度,用戶可以輸入截止頻率信息,可以根據(jù)用戶輸入的截止頻率,將導(dǎo)致用戶輸入的報(bào)警事件關(guān)聯(lián)性較大的報(bào)警事件提供給用戶。當(dāng)用戶輸入查找截止頻率時(shí),逆向路徑查找到達(dá)該節(jié)點(diǎn)的每條路徑,根據(jù)每條路徑中的節(jié)點(diǎn)包含的其他報(bào)警事件進(jìn)行故障定位包括逆向路徑查找與該節(jié)點(diǎn)連接的每個(gè)第一節(jié)點(diǎn),針對(duì)每個(gè)第一節(jié)點(diǎn),判斷該節(jié)點(diǎn)與該第一直接之間的故障關(guān)系參數(shù)是否不小于所述截止頻率;當(dāng)該故障關(guān)系參數(shù)小于截止頻率時(shí),確定該路徑中包含的節(jié)點(diǎn)對(duì)應(yīng)的其他報(bào)警事件不會(huì)導(dǎo)致該報(bào)警事件的發(fā)生;當(dāng)該故障關(guān)系參數(shù)不小于截止頻率時(shí),逆向查找與該第一節(jié)點(diǎn)連接的每個(gè)第二節(jié)點(diǎn),并針對(duì)每個(gè)第二節(jié)點(diǎn),判斷該逆向路徑中該節(jié)點(diǎn)與第一節(jié)點(diǎn)對(duì)應(yīng)的故障關(guān)系參數(shù),與第一節(jié)點(diǎn)與第二節(jié)點(diǎn)對(duì)應(yīng)的故障關(guān)系參數(shù)的積是否不小于所述截止頻率,當(dāng)該積小于截止頻率時(shí),則確定第一節(jié)點(diǎn)對(duì)應(yīng)的其他報(bào)警事件的發(fā)生導(dǎo)致該報(bào)警事件的發(fā)生,當(dāng)該積不小于截止頻率時(shí),保存該積,將該第二節(jié)點(diǎn)作為第一節(jié)點(diǎn),逆向查找到的與該第二節(jié)點(diǎn)連接的第三節(jié)點(diǎn)作為第二節(jié)點(diǎn),將該積作為該節(jié)點(diǎn)與該第一節(jié)點(diǎn)之間的故障參數(shù),直到確定每個(gè)導(dǎo)致該報(bào)警事件發(fā)生的其他報(bào)警事件。圖6為本發(fā)明實(shí)施例提供的基于該生成的故障關(guān)系表進(jìn)行故障確定的具體過程, 該過程包括以下步驟S601 根據(jù)用戶輸入的報(bào)警事件,在生成的故障關(guān)系中查找對(duì)應(yīng)該報(bào)警事件的節(jié)
點(diǎn)οS602:根據(jù)查找到的節(jié)點(diǎn),逆向路徑查找到達(dá)該節(jié)點(diǎn)的每條路徑。S603:根據(jù)用戶輸入的查找截止頻率,針對(duì)每條路徑,逆向路徑查找與該用戶輸入的報(bào)警事件對(duì)應(yīng)的節(jié)點(diǎn)連接的第一節(jié)點(diǎn),判斷該第一節(jié)點(diǎn)與該節(jié)點(diǎn)之間的故障參數(shù)是否不小于所述截止頻率,當(dāng)判斷結(jié)果為是時(shí),進(jìn)行步驟S604,否則,進(jìn)行步驟S607。
S604:逆向查找與該第一節(jié)點(diǎn)連接的第二節(jié)點(diǎn),判斷該節(jié)點(diǎn)與第一節(jié)點(diǎn)之間的故障參數(shù),以及第一節(jié)點(diǎn)與第二節(jié)點(diǎn)之間的故障參數(shù)的積是否不小于所述截止頻率,當(dāng)判斷結(jié)果為是時(shí),進(jìn)行步驟S605,否則,進(jìn)行步驟S606。S605:保存當(dāng)前的積,將該第二節(jié)點(diǎn)作為第一節(jié)點(diǎn),逆向查找到的與該第二節(jié)點(diǎn)連接的第三節(jié)點(diǎn)作為第二節(jié)點(diǎn),將該積作為該節(jié)點(diǎn)與該第一節(jié)點(diǎn)之間的故障關(guān)系參數(shù),進(jìn)行步驟S604。S606:根據(jù)該故障關(guān)系參數(shù)的積不小于截止頻率的每條路徑中的節(jié)點(diǎn)包含的其他報(bào)警事件進(jìn)行故障定位。S607:該條路徑中包含的節(jié)點(diǎn)對(duì)應(yīng)的報(bào)警事件不會(huì)導(dǎo)致該用戶輸入的報(bào)警事件的發(fā)生。例如當(dāng)用戶輸入的報(bào)警事件為web服務(wù)故障報(bào)警事件時(shí),當(dāng)逆向查找到達(dá)該web 服務(wù)故障報(bào)警事件對(duì)應(yīng)的節(jié)點(diǎn)的每條路徑時(shí),查找到到五條路徑,其中(為了方便這段描述,用報(bào)警事件代替報(bào)警事件對(duì)應(yīng)的節(jié)點(diǎn))第一條路徑為數(shù)據(jù)庫(kù)服務(wù)器硬盤故障報(bào)警事件-web服務(wù)故障報(bào)警事件的路徑,第二條路徑為web服務(wù)器操作系統(tǒng)out of Memory報(bào)警事件ieb服務(wù)故障報(bào)警事件的路徑,第三條路徑為數(shù)據(jù)庫(kù)故障報(bào)警事件ieb服務(wù)故障報(bào)警事件的路徑,第四條路徑為數(shù)據(jù)庫(kù)服務(wù)器硬盤故障報(bào)警事件-數(shù)據(jù)庫(kù)故障報(bào)警事件-應(yīng)用服務(wù)器故障報(bào)警事件ieb服務(wù)故障報(bào)警事件的路徑,第五條路徑為認(rèn)證服務(wù)器故障報(bào)警時(shí)事件-應(yīng)用服務(wù)器故障報(bào)警事件ieb服務(wù)故障報(bào)警事件。此時(shí)當(dāng)用戶輸入的截止頻率為0. 7時(shí),對(duì)于第一條路徑和第二條路徑,由于數(shù)據(jù)庫(kù)服務(wù)器硬盤故障報(bào)警事件、web服務(wù)器操作系統(tǒng)out of Memory報(bào)警事件與web服務(wù)故障報(bào)警事件之間的故障關(guān)系參數(shù)都為0. 6小于0. 7,因此該兩條路徑中包含的節(jié)點(diǎn)對(duì)應(yīng)的報(bào)警事件不會(huì)導(dǎo)致該用戶輸入的報(bào)警事件的發(fā)生。對(duì)于第三條路徑由于數(shù)據(jù)庫(kù)故障報(bào)警事件與web服務(wù)故障報(bào)警事件之間的故障關(guān)系參數(shù)都為0. 7,因此可知該數(shù)據(jù)庫(kù)故障報(bào)警事件將會(huì)導(dǎo)致該web服務(wù)故障報(bào)警事件的發(fā)生。對(duì)于第四條路徑,由于第一節(jié)點(diǎn)對(duì)應(yīng)的應(yīng)用服務(wù)器故障報(bào)警事件與該節(jié)點(diǎn)對(duì)應(yīng)的 web服務(wù)故障報(bào)警事件之間的故障關(guān)系參數(shù)為0. 8大于0. 7,因此繼續(xù)逆向路徑查詢第二節(jié)點(diǎn)數(shù)據(jù)庫(kù)故障報(bào)警事件,由于第二節(jié)點(diǎn)對(duì)應(yīng)的數(shù)據(jù)庫(kù)故障報(bào)警事件與第一節(jié)點(diǎn)對(duì)應(yīng)的應(yīng)用服務(wù)器故障報(bào)警事件之間的故障關(guān)系參數(shù)為0. 9,第一節(jié)點(diǎn)對(duì)應(yīng)的應(yīng)用服務(wù)器故障報(bào)警事件與該節(jié)點(diǎn)對(duì)應(yīng)的web服務(wù)故障報(bào)警事件之間的故障關(guān)系參數(shù)為0. 8,兩者的積為0. 72 大于0. 7,因此繼續(xù)逆向路徑查詢第三節(jié)點(diǎn)數(shù)據(jù)庫(kù)服務(wù)器硬盤故障報(bào)警事件,由于數(shù)據(jù)庫(kù)服務(wù)器硬盤故障報(bào)警事件與數(shù)據(jù)庫(kù)故障報(bào)警事件之間的故障關(guān)系參數(shù)為0. 95,保存的該積為 0. 72,因此此時(shí)確定的0. 95與0. 72的積為0. 68小于0. 7,因此該路徑上數(shù)據(jù)庫(kù)故障報(bào)警事件、應(yīng)用服務(wù)器報(bào)警事件將會(huì)導(dǎo)致web服務(wù)故障報(bào)警事件的發(fā)生。對(duì)于第五條路徑,由于第一節(jié)點(diǎn)對(duì)應(yīng)的應(yīng)用服務(wù)器故障報(bào)警事件與該節(jié)點(diǎn)對(duì)應(yīng)的 web服務(wù)故障報(bào)警事件之間的故障關(guān)系參數(shù)為0. 8大于0. 7,因此繼續(xù)逆向路徑查詢第二節(jié)點(diǎn)認(rèn)證服務(wù)器故障報(bào)警事件,由于第二節(jié)點(diǎn)對(duì)應(yīng)的認(rèn)證服務(wù)器故障報(bào)警事件與第一節(jié)點(diǎn)對(duì)應(yīng)的應(yīng)用服務(wù)器故障報(bào)警事件之間的故障關(guān)系參數(shù)為0. 5,第一節(jié)點(diǎn)對(duì)應(yīng)的應(yīng)用服務(wù)器故障報(bào)警事件與該節(jié)點(diǎn)對(duì)應(yīng)的web服務(wù)故障報(bào)警事件之間的故障關(guān)系參數(shù)為0. 8,兩者的積為0. 4小于0. 7,因此該路徑上導(dǎo)致web服務(wù)故障報(bào)警事件發(fā)生的為應(yīng)用服務(wù)器故障報(bào)警事件。根據(jù)上述查找判斷的結(jié)果可知當(dāng)對(duì)web服務(wù)故障報(bào)警事件進(jìn)行故障確定時(shí),可以確定數(shù)據(jù)庫(kù)故障報(bào)警事件、應(yīng)用服務(wù)器故障報(bào)警事件將會(huì)導(dǎo)致web服務(wù)故障報(bào)警事件的發(fā)生。同樣的在根據(jù)某一報(bào)警事件,查找該報(bào)警事件的擴(kuò)散范圍時(shí),其方法與上述方法類似,只是依據(jù)路徑的方法順次查找,在這里就不在一一贅述。圖7為本發(fā)明實(shí)施例提供的一種故障關(guān)系生成裝置的結(jié)構(gòu)示意圖,該裝置包括第一確定模塊71,用于根據(jù)報(bào)警事件發(fā)生的時(shí)間,該報(bào)警事件中攜帶的故障類型信息,以及保存的故障類型信息與時(shí)間范圍信息的對(duì)應(yīng)關(guān)系,確定該報(bào)警事件對(duì)應(yīng)的故障的有效期信息,并根據(jù)確定的有效期信息,確定發(fā)生時(shí)間在該有效期內(nèi)的其他報(bào)警事件;生成模塊72,用于將每個(gè)報(bào)警事件作為故障關(guān)系中的節(jié)點(diǎn),分別連接該報(bào)警事件對(duì)應(yīng)的節(jié)點(diǎn)到確定的其他報(bào)警事件對(duì)應(yīng)的節(jié)點(diǎn)的路徑。所述裝置還包括第二確定模塊73,用于統(tǒng)計(jì)設(shè)定時(shí)間長(zhǎng)度內(nèi)該報(bào)警事件發(fā)生的次數(shù),并統(tǒng)計(jì)確定的其他報(bào)警事件分別在每個(gè)有效期內(nèi)出現(xiàn)次數(shù)的和,根據(jù)統(tǒng)計(jì)的該設(shè)定時(shí)間長(zhǎng)度內(nèi)該報(bào)警事件發(fā)生的次數(shù),以及確定的其他報(bào)警事件分別在每個(gè)有效期內(nèi)出現(xiàn)次數(shù)的和,確定該報(bào)警事件發(fā)生導(dǎo)致確定的其他報(bào)警事件發(fā)生的故障關(guān)系參數(shù),基于確定的該報(bào)警事件導(dǎo)致確定的其他報(bào)警事件發(fā)生的故障關(guān)系參數(shù),根據(jù)每條路徑連接的每?jī)蓚€(gè)節(jié)點(diǎn)對(duì)應(yīng)的報(bào)警事件,對(duì)應(yīng)該路徑保存該兩個(gè)報(bào)警事件之間的故障關(guān)系參數(shù)。所述第二確定模塊73具體用于,確定該其他報(bào)警事件在每個(gè)有效期內(nèi)出現(xiàn)次數(shù)的和,與所述設(shè)定時(shí)間長(zhǎng)度內(nèi)該報(bào)警事件發(fā)生的次數(shù)的商,將該商值作為該報(bào)警事件發(fā)生導(dǎo)致確定的其他報(bào)警事件發(fā)生的故障關(guān)系參數(shù)。圖8為本發(fā)明實(shí)施例提供的基于圖7所述的生成裝置的故障確定裝置的結(jié)構(gòu)示意圖,其特征在于,所述裝置包括第一查找模塊81,用于根據(jù)用戶輸入的報(bào)警事件,在生成的故障關(guān)系中查找對(duì)應(yīng)該輸入的報(bào)警事件的節(jié)點(diǎn);第一確定模塊82,用于根據(jù)查找到的節(jié)點(diǎn),逆向路徑查找到達(dá)該節(jié)點(diǎn)的每條路徑, 根據(jù)每條路徑上的節(jié)點(diǎn)對(duì)應(yīng)的報(bào)警事件進(jìn)行故障定位。所述第一確定模塊82具體用于,當(dāng)用戶輸入查找截止頻率時(shí),逆向路徑查找與該節(jié)點(diǎn)連接的每個(gè)第一節(jié)點(diǎn),針對(duì)每個(gè)第一節(jié)點(diǎn),判斷該節(jié)點(diǎn)與該第一節(jié)點(diǎn)之間的故障關(guān)系參數(shù)是否不小于所述截止頻率,當(dāng)該故障關(guān)系參數(shù)小于截止頻率時(shí),確定該路徑中包含的節(jié)點(diǎn)對(duì)應(yīng)的其他報(bào)警事件不會(huì)導(dǎo)致該報(bào)警事件的發(fā)生,當(dāng)該故障關(guān)系參數(shù)不小于截止頻率時(shí),逆向查找與該第一節(jié)點(diǎn)連接的每個(gè)第二節(jié)點(diǎn),并針對(duì)每個(gè)第二節(jié)點(diǎn),判斷該逆向路徑中該節(jié)點(diǎn)與第一節(jié)點(diǎn)對(duì)應(yīng)的故障關(guān)系參數(shù),與第一節(jié)點(diǎn)與第二節(jié)點(diǎn)對(duì)應(yīng)的故障關(guān)系參數(shù)的積是否不小于所述截止頻率,當(dāng)該積小于截止頻率時(shí),則確定第一節(jié)點(diǎn)對(duì)應(yīng)的其他報(bào)警事件的發(fā)生導(dǎo)致該報(bào)警事件的發(fā)生,當(dāng)該積不小于截止頻率時(shí),保存該積,將該第二節(jié)點(diǎn)作為第一節(jié)點(diǎn),逆向查找到的與該第二節(jié)點(diǎn)連接的第三節(jié)點(diǎn)作為第二節(jié)點(diǎn),將該積作為該節(jié)點(diǎn)與該第一節(jié)點(diǎn)之間的故障參數(shù),直到確定每個(gè)導(dǎo)致該報(bào)警事件發(fā)生的其他報(bào)警事件。圖9為本發(fā)明實(shí)施例提供的基于圖7所述的生成裝置確定報(bào)警事件的擴(kuò)散范圍的裝置的結(jié)構(gòu)示意圖,該裝置包括第二查找模塊91,用于根據(jù)用戶輸入的報(bào)警事件,在生成的故障關(guān)系中查找對(duì)應(yīng)該輸入的報(bào)警事件的節(jié)點(diǎn);第二確定模塊92,用于根據(jù)查找到的節(jié)點(diǎn),順次查找以該節(jié)點(diǎn)為起點(diǎn)的每條路徑, 根據(jù)每條路徑上的節(jié)點(diǎn)對(duì)應(yīng)的報(bào)警事件,確定該報(bào)警事件的擴(kuò)散范圍。本發(fā)明實(shí)施例提供了一種故障關(guān)系生成及故障確定方法及裝置,該故障關(guān)系生成方法中根據(jù)報(bào)警事件發(fā)生的時(shí)間,該報(bào)警事件中記錄的故障類型信息,以及保存的對(duì)應(yīng)該故障類型的時(shí)間范圍信息,確定該報(bào)警事件對(duì)應(yīng)故障的有效期信息,并確定發(fā)生時(shí)間處于該有效期內(nèi)的其他報(bào)警事件,將每個(gè)報(bào)警事件作為故障關(guān)系中的節(jié)點(diǎn),連接該報(bào)警事件對(duì)應(yīng)的節(jié)點(diǎn)到確定的該其他報(bào)警事件對(duì)應(yīng)的節(jié)點(diǎn)的路徑從而生成故障關(guān)系。由于在本發(fā)明實(shí)施例中根據(jù)在報(bào)警事件的有效期內(nèi)發(fā)生的其他報(bào)警事件,從而確定報(bào)警事件與其他報(bào)警事件之間的關(guān)系,因此在進(jìn)行故障定位時(shí)可以根據(jù)生成的故障關(guān)系進(jìn)行故障定位,從而為復(fù)雜的系統(tǒng)提供了一種有效,準(zhǔn)確的故障定位方法。顯然,本領(lǐng)域的技術(shù)人員可以對(duì)本發(fā)明進(jìn)行各種改動(dòng)和變型而不脫離本發(fā)明的精神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本發(fā)明也意圖包含這些改動(dòng)和變型在內(nèi)。
權(quán)利要求
1.一種故障關(guān)系生成方法,其特征在于,針對(duì)每個(gè)報(bào)警事件執(zhí)行以下步驟根據(jù)該報(bào)警事件發(fā)生的時(shí)間,該報(bào)警事件中攜帶的故障類型信息,以及保存的故障類型信息與時(shí)間范圍信息的對(duì)應(yīng)關(guān)系,確定該報(bào)警事件對(duì)應(yīng)的故障的有效期信息;并根據(jù)確定的有效期信息,確定發(fā)生時(shí)間處于該有效期內(nèi)的其他報(bào)警事件; 將每個(gè)報(bào)警事件作為故障關(guān)系中的節(jié)點(diǎn),分別連接該報(bào)警事件對(duì)應(yīng)的節(jié)點(diǎn)到確定的其他報(bào)警事件對(duì)應(yīng)的節(jié)點(diǎn)的路徑。
2.如權(quán)利要求1所述的方法,其特征在于,所述報(bào)警事件中還包括故障發(fā)生的主機(jī)的 IP地址信息和/或該主機(jī)發(fā)生故障的對(duì)象。
3.如權(quán)利要求1所述的方法,其特征在于,分別連接該報(bào)警事件對(duì)應(yīng)的節(jié)點(diǎn)到確定的其他報(bào)警事件對(duì)應(yīng)的節(jié)點(diǎn)的路徑之前,還包括統(tǒng)計(jì)設(shè)定時(shí)間長(zhǎng)度內(nèi)該報(bào)警事件發(fā)生的次數(shù);并統(tǒng)計(jì)確定的其他報(bào)警事件分別在每個(gè)有效期內(nèi)出現(xiàn)次數(shù)的和; 根據(jù)統(tǒng)計(jì)的該設(shè)定時(shí)間長(zhǎng)度內(nèi)該報(bào)警事件發(fā)生的次數(shù),以及確定的其他報(bào)警事件分別在每個(gè)有效期內(nèi)出現(xiàn)次數(shù)的和,確定該報(bào)警事件導(dǎo)致確定的其他報(bào)警事件發(fā)生的故障關(guān)系參數(shù);基于確定的該報(bào)警事件導(dǎo)致確定的其他報(bào)警事件發(fā)生的故障關(guān)系參數(shù),根據(jù)每條路徑連接的每?jī)蓚€(gè)節(jié)點(diǎn)對(duì)應(yīng)的報(bào)警事件,對(duì)應(yīng)該路徑保存該兩個(gè)報(bào)警事件之間的故障關(guān)系參數(shù)。
4.如權(quán)利要求3所述的方法,其特征在于,確定該報(bào)警事件導(dǎo)致確定的其他報(bào)警事件發(fā)生的故障關(guān)系參數(shù),具體包括確定統(tǒng)計(jì)得到的其他報(bào)警事件分別在每個(gè)有效期內(nèi)出現(xiàn)次數(shù)的和,與設(shè)定時(shí)間長(zhǎng)度內(nèi)該報(bào)警事件發(fā)生的次數(shù)的商,并將該商值作為該報(bào)警事件導(dǎo)致確定的其他報(bào)警事件發(fā)生的故障關(guān)系參數(shù)。
5.一種基于權(quán)利要求1生成的故障關(guān)系進(jìn)行故障確定的方法,其特征在于,所述方法包括根據(jù)用戶輸入的報(bào)警事件,在生成的故障關(guān)系中查找對(duì)應(yīng)該輸入的報(bào)警事件的節(jié)點(diǎn); 根據(jù)查找到的節(jié)點(diǎn),逆向路徑查找到達(dá)該節(jié)點(diǎn)的每條路徑,根據(jù)每條路徑上的節(jié)點(diǎn)對(duì)應(yīng)的報(bào)警事件進(jìn)行故障定位。
6.如權(quán)利要求5所述的方法,其特征在于,當(dāng)用戶輸入查找截止頻率時(shí),逆向路徑查找到達(dá)該節(jié)點(diǎn)的每條路徑,根據(jù)每條路徑上的節(jié)點(diǎn)對(duì)應(yīng)的報(bào)警事件進(jìn)行故障定位包括逆向路徑查找與該節(jié)點(diǎn)連接的每個(gè)第一節(jié)點(diǎn),針對(duì)每個(gè)第一節(jié)點(diǎn),判斷該節(jié)點(diǎn)與該第一節(jié)點(diǎn)之間的故障關(guān)系參數(shù)是否不小于所述截止頻率;當(dāng)該故障關(guān)系參數(shù)小于截止頻率時(shí),確定該路徑中包含的節(jié)點(diǎn)對(duì)應(yīng)的其他報(bào)警事件不會(huì)導(dǎo)致該報(bào)警事件的發(fā)生;當(dāng)該故障關(guān)系參數(shù)不小于截止頻率時(shí),逆向查找與該第一節(jié)點(diǎn)連接的每個(gè)第二節(jié)點(diǎn), 并針對(duì)每個(gè)第二節(jié)點(diǎn),判斷該逆向路徑中該節(jié)點(diǎn)與第一節(jié)點(diǎn)對(duì)應(yīng)的故障關(guān)系參數(shù),與第一節(jié)點(diǎn)與第二節(jié)點(diǎn)對(duì)應(yīng)的故障關(guān)系參數(shù)的積是否不小于所述截止頻率,當(dāng)該積小于截止頻率時(shí),則確定第一節(jié)點(diǎn)對(duì)應(yīng)的其他報(bào)警事件的發(fā)生導(dǎo)致該報(bào)警事件的發(fā)生,當(dāng)該積不小于截止頻率時(shí),保存該積,將該第二節(jié)點(diǎn)作為第一節(jié)點(diǎn),逆向查找到的與該第二節(jié)點(diǎn)連接的第三節(jié)點(diǎn)作為第二節(jié)點(diǎn),將該積作為該節(jié)點(diǎn)與該第一節(jié)點(diǎn)之間的故障參數(shù),直到確定每個(gè)導(dǎo)致該報(bào)警事件發(fā)生的其他報(bào)警事件。
7.一種基于權(quán)利要求1生成的故障關(guān)系確定報(bào)警事件的擴(kuò)散范圍的方法,其特征在于,所述方法包括根據(jù)用戶輸入的報(bào)警事件,在生成的故障關(guān)系中查找對(duì)應(yīng)該輸入的報(bào)警事件的節(jié)點(diǎn);根據(jù)查找到的節(jié)點(diǎn),順次查找以該節(jié)點(diǎn)為起點(diǎn)的每條路徑,根據(jù)每條路徑上的節(jié)點(diǎn)對(duì)應(yīng)的報(bào)警事件,確定該報(bào)警事件的擴(kuò)散范圍。
8.一種故障關(guān)系生成裝置,其特征在于,所述裝置包括第一確定模塊,用于根據(jù)報(bào)警事件發(fā)生的時(shí)間,該報(bào)警事件中攜帶的故障類型信息,以及保存的故障類型信息與時(shí)間范圍信息的對(duì)應(yīng)關(guān)系,確定該報(bào)警事件對(duì)應(yīng)的故障的有效期信息,并根據(jù)確定的有效期信息,確定發(fā)生時(shí)間在該有效期內(nèi)的其他報(bào)警事件;生成模塊,用于將每個(gè)報(bào)警事件作為故障關(guān)系中的節(jié)點(diǎn),分別連接該報(bào)警事件對(duì)應(yīng)的節(jié)點(diǎn)到確定的其他報(bào)警事件對(duì)應(yīng)的節(jié)點(diǎn)的路徑。
9.如權(quán)利要求8所述的裝置,其特征在于,所述裝置還包括第二確定模塊,用于統(tǒng)計(jì)設(shè)定時(shí)間長(zhǎng)度內(nèi)該報(bào)警事件發(fā)生的次數(shù),并統(tǒng)計(jì)確定的其他報(bào)警事件分別在每個(gè)有效期內(nèi)出現(xiàn)次數(shù)的和,根據(jù)統(tǒng)計(jì)的該設(shè)定時(shí)間長(zhǎng)度內(nèi)該報(bào)警事件發(fā)生的次數(shù),以及確定的其他報(bào)警事件分別在每個(gè)有效期內(nèi)出現(xiàn)次數(shù)的和,確定該報(bào)警事件發(fā)生導(dǎo)致確定的其他報(bào)警事件發(fā)生的故障關(guān)系參數(shù),基于確定的該報(bào)警事件導(dǎo)致確定的其他報(bào)警事件發(fā)生的故障關(guān)系參數(shù),根據(jù)每條路徑連接的每?jī)蓚€(gè)節(jié)點(diǎn)對(duì)應(yīng)的報(bào)警事件,對(duì)應(yīng)該路徑保存該兩個(gè)報(bào)警事件之間的故障關(guān)系參數(shù)。
10.如權(quán)利要求9所述的裝置,其特征在于,所述第二確定模塊具體用于,確定該其他報(bào)警事件在每個(gè)有效期內(nèi)出現(xiàn)次數(shù)的和,與所述設(shè)定時(shí)間長(zhǎng)度內(nèi)該報(bào)警事件發(fā)生的次數(shù)的商,將該商值作為該報(bào)警事件發(fā)生導(dǎo)致確定的其他報(bào)警事件發(fā)生的故障關(guān)系參數(shù)。
11.一種基于權(quán)利要求8所述的生成裝置的故障確定裝置,其特征在于,所述裝置包括第一查找模塊,用于根據(jù)用戶輸入的報(bào)警事件,在生成的故障關(guān)系中查找對(duì)應(yīng)該輸入的報(bào)警事件的節(jié)點(diǎn);第一確定模塊,用于根據(jù)查找到的節(jié)點(diǎn),逆向路徑查找到達(dá)該節(jié)點(diǎn)的每條路徑,根據(jù)每條路徑上的節(jié)點(diǎn)對(duì)應(yīng)的報(bào)警事件進(jìn)行故障定位。
12.如權(quán)利要求11所述的裝置,其特征在于,所述第一確定模塊具體用于,當(dāng)用戶輸入查找截止頻率時(shí),逆向路徑查找與該節(jié)點(diǎn)連接的每個(gè)第一節(jié)點(diǎn),針對(duì)每個(gè)第一節(jié)點(diǎn),判斷該節(jié)點(diǎn)與該第一節(jié)點(diǎn)之間的故障關(guān)系參數(shù)是否不小于所述截止頻率,當(dāng)該故障關(guān)系參數(shù)小于截止頻率時(shí),確定該路徑中包含的節(jié)點(diǎn)對(duì)應(yīng)的其他報(bào)警事件不會(huì)導(dǎo)致該報(bào)警事件的發(fā)生, 當(dāng)該故障關(guān)系參數(shù)不小于截止頻率時(shí),逆向查找與該第一節(jié)點(diǎn)連接的每個(gè)第二節(jié)點(diǎn),并針對(duì)每個(gè)第二節(jié)點(diǎn),判斷該逆向路徑中該節(jié)點(diǎn)與第一節(jié)點(diǎn)對(duì)應(yīng)的故障關(guān)系參數(shù),與第一節(jié)點(diǎn)與第二節(jié)點(diǎn)對(duì)應(yīng)的故障關(guān)系參數(shù)的積是否不小于所述截止頻率,當(dāng)該積小于截止頻率時(shí), 則確定第一節(jié)點(diǎn)對(duì)應(yīng)的其他報(bào)警事件的發(fā)生導(dǎo)致該報(bào)警事件的發(fā)生,當(dāng)該積不小于截止頻率時(shí),保存該積,將該第二節(jié)點(diǎn)作為第一節(jié)點(diǎn),逆向查找到的與該第二節(jié)點(diǎn)連接的第三節(jié)點(diǎn)作為第二節(jié)點(diǎn),將該積作為該節(jié)點(diǎn)與該第一節(jié)點(diǎn)之間的故障參數(shù),直到確定每個(gè)導(dǎo)致該報(bào)警事件發(fā)生的其他報(bào)警事件。
13. 一種基于權(quán)利要求8所述的生成裝置的確定報(bào)警事件的擴(kuò)散范圍的裝置,其特征在于,所述裝置包括第二查找模塊,用于根據(jù)用戶輸入的報(bào)警事件,在生成的故障關(guān)系中查找對(duì)應(yīng)該輸入的報(bào)警事件的節(jié)點(diǎn);第二確定模塊,用于根據(jù)查找到的節(jié)點(diǎn),順次查找以該節(jié)點(diǎn)為起點(diǎn)的每條路徑,根據(jù)每條路徑上的節(jié)點(diǎn)對(duì)應(yīng)的報(bào)警事件,確定該報(bào)警事件的擴(kuò)散范圍。
全文摘要
本發(fā)明公開了一種故障關(guān)系生成及故障確定方法及裝置,用以解決系統(tǒng)結(jié)構(gòu)復(fù)雜,無法進(jìn)行故障定位的問題。該方法根據(jù)報(bào)警事件發(fā)生的時(shí)間,確定該報(bào)警事件對(duì)應(yīng)故障的每個(gè)有效期信息,并確定在每個(gè)有效期內(nèi)發(fā)生的其他報(bào)警事件,將每個(gè)報(bào)警事件作為故障關(guān)系中的節(jié)點(diǎn),連接該報(bào)警事件對(duì)應(yīng)的節(jié)點(diǎn)到其導(dǎo)致的該確定的其他報(bào)警時(shí)間對(duì)應(yīng)的節(jié)點(diǎn)的路徑從而生成故障關(guān)系。由于在本發(fā)明實(shí)施例中根據(jù)在報(bào)警事件的有效期內(nèi)發(fā)生的其他報(bào)警事件,從而確定報(bào)警事件與其他報(bào)警事件之間的關(guān)系,因此在進(jìn)行故障定位時(shí)可以根據(jù)生成的故障關(guān)系進(jìn)行故障定位,從而為復(fù)雜的系統(tǒng)提供了一種有效,準(zhǔn)確的故障定位方法。
文檔編號(hào)H04L12/24GK102546205SQ20101059757
公開日2012年7月4日 申請(qǐng)日期2010年12月20日 優(yōu)先權(quán)日2010年12月20日
發(fā)明者周偉, 孫少陵, 張志宏, 羅治國(guó), 趙鵬 申請(qǐng)人:中國(guó)移動(dòng)通信集團(tuán)公司