確定異常網(wǎng)絡(luò)行為的可疑根本原因的制作方法
【專利說明】
【背景技術(shù)】
[0001]信息技術(shù)管理系統(tǒng)幫助管理員檢測和解決運(yùn)行在數(shù)據(jù)中心和其他類型的網(wǎng)絡(luò)中的各種應(yīng)用所面臨的問題。這種系統(tǒng)監(jiān)視信息技術(shù)系統(tǒng)的各個(gè)方面,諸如應(yīng)用響應(yīng)時(shí)間、資源利用和其他參數(shù)。管理系統(tǒng)收集監(jiān)視數(shù)據(jù)并使用它來檢測問題。
【附圖說明】
[0002]附圖圖示了本文描述的原理的各種示例,并且是說明書的一部分。圖示的示例僅僅是示例而不限制權(quán)利要求的范圍。
[0003]圖1是根據(jù)本文描述的原理的網(wǎng)絡(luò)的示例的圖。
[0004]圖2是根據(jù)本文描述的原理的評(píng)分策略因素的示例的圖。
[0005]圖3是根據(jù)本文描述的原理的排名的示例的圖。
[0006]圖4是根據(jù)本文描述的原理的用于確定異常網(wǎng)絡(luò)行為的可疑根本原因的方法的示例的圖。
[0007]圖5是根據(jù)本文描述的原理的歸類(triaging)系統(tǒng)的示例的圖。
[0008]圖6是根據(jù)本文描述的原理的歸類系統(tǒng)的示例的圖。
[0009]圖7是根據(jù)本文描述的原理的用于確定異常網(wǎng)絡(luò)行為的可疑根本原因的過程的流程圖的示例的圖。
【具體實(shí)施方式】
[0010]通常,當(dāng)網(wǎng)絡(luò)應(yīng)用有問題時(shí),檢測到問題的癥狀。然而,問題的根本原因常常更難以識(shí)別。根本原因可能在用于運(yùn)行應(yīng)用的任何網(wǎng)絡(luò)組件中,該網(wǎng)絡(luò)組件可能是數(shù)百個(gè)網(wǎng)絡(luò)組件中的一個(gè)。例如,數(shù)據(jù)庫中的問題可以影響使用該數(shù)據(jù)庫的商業(yè)交易的響應(yīng)時(shí)間。問題的癥狀是應(yīng)用的用戶所體驗(yàn)到的、交易的增加的響應(yīng)時(shí)間。但是,在這種情況下,根本原因是數(shù)據(jù)庫。然而,應(yīng)用可以使用若干個(gè)數(shù)據(jù)庫和其他虛擬組件。在虛擬化環(huán)境中,每天出現(xiàn)數(shù)百個(gè)或數(shù)千個(gè)改變事件。因此,識(shí)別作為根本原因的正確網(wǎng)絡(luò)組件是耗時(shí)的。
[0011]通常,根本原因產(chǎn)生于網(wǎng)絡(luò)中的改變事件,諸如安裝新代碼、更新、更換硬件、移位針對(duì)虛擬組件的主機(jī)、向服務(wù)器添加硬件、其他改變或其組合。因此,對(duì)問題進(jìn)行歸類的用戶能夠通過理解網(wǎng)絡(luò)的最近改變事件來減少問題的解決的時(shí)間。本文描述的原理包括一種用于確定異常網(wǎng)絡(luò)行為的可疑根本原因的方法。這種方法包括:從多個(gè)網(wǎng)絡(luò)組件中識(shí)別表現(xiàn)出異常網(wǎng)絡(luò)行為的網(wǎng)絡(luò)中的異常組件:基于評(píng)分策略向每個(gè)網(wǎng)絡(luò)組件分配可能性分?jǐn)?shù),所述評(píng)分策略考慮影響異常組件的最近改變事件;以及基于所述可能性分?jǐn)?shù)來識(shí)別被懷疑是根本原因的網(wǎng)絡(luò)組件的子集。
[0012]在下面的描述中,出于解釋的目的,闡述了許多特定的細(xì)節(jié)以便提供對(duì)本系統(tǒng)和方法的透徹理解。然而本領(lǐng)域技術(shù)人員來說將顯而易見的是,可以在沒有這些特定的細(xì)節(jié)的情況下實(shí)踐本裝置、系統(tǒng)和方法。說明書中對(duì)“示例”或類似語言的引用意指所描述的具體特征、結(jié)構(gòu)或特性被包括在至少這一個(gè)示例中,但不必然被包括在其他示例中。
[0013]圖1是根據(jù)本文描述的原理的網(wǎng)絡(luò)(100)的示例的圖。該網(wǎng)絡(luò)包括信息技術(shù)環(huán)境中的任何配置項(xiàng)目的任何物理或邏輯連接。在該示例中,該網(wǎng)絡(luò)(100)包括應(yīng)用服務(wù)
(101)。該服務(wù)被數(shù)據(jù)庫(102)、web服務(wù)器(104)和應(yīng)用服務(wù)器(106)支持并與之通信。此夕卜,數(shù)據(jù)庫(102)進(jìn)一步被第一服務(wù)器(108)和第二服務(wù)器(110)支持并與之通信。盡管圖1的示例描繪了具有特定數(shù)目和類型的組件的網(wǎng)絡(luò),然而根據(jù)本文描述的原理可以使用任何數(shù)目或類型的網(wǎng)絡(luò)組件。除了網(wǎng)絡(luò)的物理組件之外,網(wǎng)絡(luò)還可以包括在一個(gè)或多個(gè)網(wǎng)絡(luò)物理組件上托管的多個(gè)虛擬組件。
[0014]如果問題要出現(xiàn)在第一或第二服務(wù)器(108,110)中,則數(shù)據(jù)庫(102)將很可能表現(xiàn)出異常行為。同樣地,如果問題產(chǎn)生在數(shù)據(jù)庫(102)、web服務(wù)器(104)或應(yīng)用服務(wù)器(106)中,則服務(wù)將很可能表現(xiàn)出異常行為。相應(yīng)地,如果第一或第二服務(wù)器(108,110)具有在數(shù)據(jù)庫(102)中引起異常行為的問題,則服務(wù)應(yīng)用(101)也可能表現(xiàn)出異常行為。
[0015]網(wǎng)絡(luò)組件與監(jiān)視工具(112)通信,所述監(jiān)視工具(112)獲得與每個(gè)網(wǎng)絡(luò)組件的狀況有關(guān)的信息。在一些示例中,監(jiān)視工具(112)包括請(qǐng)求和接收與每個(gè)網(wǎng)絡(luò)組件有關(guān)的信息的外部傳感器。在其他示例中,監(jiān)視工具(112)包括對(duì)每個(gè)網(wǎng)絡(luò)組件可安裝的程序指令。這些程序指令內(nèi)部地監(jiān)視網(wǎng)絡(luò)組件的狀況并向公共位置發(fā)送數(shù)據(jù)以用于處理。程序指令可以按周期、按需求、按請(qǐng)求、按其他或其組合來發(fā)送數(shù)據(jù)。
[0016]監(jiān)視工具(112)從網(wǎng)絡(luò)組件向歸類系統(tǒng)(114)發(fā)送數(shù)據(jù),所述歸類系統(tǒng)(114)單獨(dú)地或集體地確定針對(duì)網(wǎng)絡(luò)組件的基線。所述基線是通過檢查從監(jiān)視工具(112)獲得的歷史數(shù)據(jù)來確定的。所述基線按小時(shí)、按天、按周、按月、按季度或按其他來確定網(wǎng)絡(luò)所經(jīng)歷的活動(dòng)的類型。例如,周末的基線網(wǎng)絡(luò)業(yè)務(wù)可以不同于工作日的基線業(yè)務(wù)。基線建立了網(wǎng)絡(luò)的可接受行為以及基于該行為的可接受操作范圍。在基線被建立之后,如果監(jiān)視工具(112)確定網(wǎng)絡(luò)參數(shù)在可接受操作范圍之外,則該狀況被認(rèn)為是異常行為。
[0017]歸類系統(tǒng)(114)包括監(jiān)視引擎,所述監(jiān)視引擎用于識(shí)別網(wǎng)絡(luò)中的表現(xiàn)出異常行為的異常組件。歸類系統(tǒng)(114)中的評(píng)分引擎基于評(píng)分策略向每個(gè)網(wǎng)絡(luò)組件分配可能性分?jǐn)?shù),所述評(píng)分策略考慮網(wǎng)絡(luò)中出現(xiàn)的改變事件。此外,歸類系統(tǒng)(114)中的排名引擎基于可能性分?jǐn)?shù)對(duì)被懷疑是根本原因的網(wǎng)絡(luò)組件的子集進(jìn)行排名。
[0018]監(jiān)視工具(112)還跟蹤網(wǎng)絡(luò)內(nèi)出現(xiàn)的改變事件。例如,監(jiān)視工具(112)記錄時(shí)間戳、改變事件的類型、改變事件的頻率、改變事件的下游影響、其他信息或其組合。改變事件可以包括:向網(wǎng)絡(luò)組件安裝程序代碼、安裝更新、添加或移除物理網(wǎng)絡(luò)組件、創(chuàng)建虛擬網(wǎng)絡(luò)組件、切換虛擬網(wǎng)絡(luò)組件的主機(jī)、向服務(wù)器添加硬件、其他改變事件或組合。
[0019]監(jiān)視工具(112)還跟蹤網(wǎng)絡(luò)的行為以確定網(wǎng)絡(luò)組件是否表現(xiàn)出異常行為??梢酝ㄟ^將網(wǎng)絡(luò)組件的當(dāng)前行為與利用歸類系統(tǒng)(114)建立的基線相比較來確定異常行為。如果網(wǎng)絡(luò)組件表現(xiàn)出處于相對(duì)于基線的可接受誤差容限之外的行為,則可以使歸類系統(tǒng)(114)識(shí)別異常行為,從而指示存在問題。
[0020]響應(yīng)于識(shí)別問題或異常行為,歸類系統(tǒng)(114)識(shí)別網(wǎng)絡(luò)內(nèi)出現(xiàn)的最近改變事件。利用預(yù)定的時(shí)間閾值來確定改變事件,所述改變事件包括將負(fù)責(zé)引起網(wǎng)絡(luò)問題的最可能改變事件。時(shí)間閾值可以由管理員、制造商、學(xué)習(xí)機(jī)構(gòu)或其組合來設(shè)置。
[0021]根據(jù)評(píng)分策略來對(duì)經(jīng)歷了最近改變事件的每個(gè)網(wǎng)絡(luò)組件進(jìn)行評(píng)分,所述評(píng)分策略對(duì)所識(shí)別的組件有多大可能是異常行為的根本原因進(jìn)行評(píng)分。每個(gè)網(wǎng)絡(luò)組件根據(jù)其可能性分?jǐn)?shù)而被排名,并且最高得分的組件被分類為可能疑犯。在一些示例中,將可能性分?jǐn)?shù)超過預(yù)定閾值的所有網(wǎng)絡(luò)組件分類為可能疑犯。在其他示例中,預(yù)定數(shù)目的網(wǎng)絡(luò)組件確定有多少改變事件被分類為可能疑犯。例如,預(yù)定數(shù)目可以是10。在這樣的示例中,具有最高的10個(gè)分?jǐn)?shù)的網(wǎng)絡(luò)組件是可能疑犯。如果歸類系統(tǒng)(114)確定存在超過百個(gè)具有最近改變事件的最近網(wǎng)絡(luò)組件,則僅10個(gè)最高的將被分類為可能疑犯。另一方面,如果僅9個(gè)具有最近改變事件的網(wǎng)絡(luò)組件被識(shí)別出,則將全部9個(gè)網(wǎng)絡(luò)組件分類為疑犯。在一些示例中,預(yù)定百分比的網(wǎng)絡(luò)組件基于其相似性分?jǐn)?shù)而被分類為可能疑犯。
[0022]使歸類系統(tǒng)(114)向用戶通知可能疑犯。這可以是通過向用戶發(fā)送識(shí)別可能疑犯的消息來完成的。在其他示例中,歸類系統(tǒng)(114)使可能疑犯在用戶界面(116)中可用。
[0023]將最高評(píng)分的網(wǎng)絡(luò)組件分類為首要疑犯。其余的可能疑犯在被發(fā)送至用戶之后繼續(xù)保持它們的排名。因此,用戶具有首先用首要疑犯確定問題的根本原因的選項(xiàng)。如果首要疑犯不是實(shí)際根本原因,則用戶可以繼續(xù)以使用第二高得分的改變事件對(duì)問題進(jìn)行故障查找,等等。盡管為用戶提供了可能疑犯,但是并不強(qiáng)迫用戶參考或使用可能疑犯來對(duì)問題歸類。盡管存在改變事件負(fù)責(zé)網(wǎng)絡(luò)的異常行為的實(shí)質(zhì)可能,然而在一些示例中,問題是由除改變事件外的某事引起的。如果沒有可能疑犯被證明是引起網(wǎng)絡(luò)問題的犯錯(cuò)者,則歸類系統(tǒng)(114)可以將附加的網(wǎng)絡(luò)組件分類為可能疑犯以便發(fā)送給用戶,或者指引用戶查詢來自將非改變事件評(píng)估為其他可能的疑犯的不同程序的信息。
[0024]在一些示例中,評(píng)分策略被更新以反映根本原因的最成功識(shí)別。因此,評(píng)分策略可以隨時(shí)間而學(xué)習(xí)以變得更準(zhǔn)確。在一些示例中,使歸類系統(tǒng)(114)關(guān)于是否有任何可能疑犯是實(shí)際根本原因而向用戶征求反饋。隨著歸類系統(tǒng)(114)獲得反饋,評(píng)分策略被更新。
[0025]圖2是根據(jù)本文描述的原理的評(píng)分策略因素的示例的圖。在該示例中,評(píng)分策略(200)包括頻率因素(202)、時(shí)間因素(204)、改變類型因素(206)、拓?fù)湟蛩?208)和其他因素(210)。
[0026]頻率因素(202)考慮具體類型的改變事件多久發(fā)生一次以及網(wǎng)絡(luò)問題多久產(chǎn)生一次。例如,如果