一種基于基線的運維管理健康分析方法
【技術領域】
[0001]本發(fā)明涉及運維管理技術領域,尤其涉及一種基于基線的運維管理健康分析方法。
【背景技術】
[0002]隨著信息化建設的深入發(fā)展,IT系統(tǒng)日益成為核心業(yè)務處理的關鍵基礎設施;為了保證網絡、服務器、數據庫等IT資源的正常運行,需要對其進行維護;當系統(tǒng)出現異常時能夠及時產生告警并通知到運維人員,運維人員根據告警對異常進行定位,診斷,并完成相應的維護操作。在運維的管理上,有很多的管理對象是不一樣的,因而它們需要監(jiān)視的指標是不同的,監(jiān)視的密度是不同的,指標正常與否的判斷標準是不同的,發(fā)現指標偏離后的處置分析、處置操作也是不同的。但又有很多管理對象一般是相同或近似的,目前,針對所有管理對象,通常是通過完全不同的監(jiān)視指標、監(jiān)視密度、判斷標準、處置分析和處置操作來進行運維管理,因而在碰到相同或近似的時,很多就是在重復進行運維管理,使得運維管理變得復雜化。
[0003]而在運維管理過程中,怎么針對指標的狀態(tài)進行分析及判斷是一個關鍵的問題,關系到運維管理系統(tǒng)的管理質量和管理效率,所以,需要一個比較好的分析方法來提高運維管理系統(tǒng)的管理質量和管理效率。
【發(fā)明內容】
[0004]鑒于目前運維管理技術領域存在的上述不足,本發(fā)明提供一種基于基線的運維管理健康分析方法,通過基線的基準線和上下偏離幅度來進行健康分析判斷,判斷標準更加準確,判斷更精確。
[0005]為達到上述目的,本發(fā)明的實施例采用如下技術方案:
[0006]—種基于基線的運維管理健康分析方法,所述基于基線的運維管理健康分析方法包括以下步驟:
[0007]通過預置的管理規(guī)則連續(xù)地、周期性地采集管理對象指標的實時狀況,并加以保存以形成歷史數據;
[0008]根據所述歷史數據通過四分位算法運算得到所述管理對象指標按時間變化的數據曲線一健康運行基準線;
[0009]以所述基準線為中心,根據歷史記錄數據點在上下偏離幅度內的百分比來設置合理偏離幅度的大?。?br>[0010]若所述管理對象指標數據在合理偏離幅度內進行波動,則判斷為正常狀態(tài),否則為越界狀態(tài);
[0011]通過統(tǒng)計越界的頻繁度來判斷運維管理系統(tǒng)的健康趨勢。
[0012]依照本發(fā)明的一個方面,所述通過預置的管理規(guī)則連續(xù)地、周期性地采集管理對象指標的實時狀況,并加以保存以形成歷史數據具體可為:通過監(jiān)測模板預置的管理規(guī)則對每個管理對象和每個監(jiān)測點進行連續(xù)、大量的數據采集,對采集到的實時狀況信息加以保存以形成歷史數據。
[0013]依照本發(fā)明的一個方面,所述管理規(guī)則根據所述監(jiān)測模板上的針對管理對象和監(jiān)測點的監(jiān)測規(guī)則進行制定。
[0014]依照本發(fā)明的一個方面,所述根據所述歷史數據通過四分位算法運算得到所述管理對象指標按時間變化的數據曲線一健康運行基準線中歷史數據具體可為:在管理對象正常運轉周期內采集和保存的歷史數據。
[0015]依照本發(fā)明的一個方面,所述歷史記錄數據點在上下偏離幅度內的百分比由用戶進行設置。
[0016]依照本發(fā)明的一個方面,所述基于基線的運維管理健康分析方法包括:通過發(fā)現越界實時調用智能處理策略。
[0017]依照本發(fā)明的一個方面,所述智能處理策略基于所述健康趨勢進行分析,以決定是否需要采取措施及采取什么樣的措施。
[0018]本發(fā)明實施的優(yōu)點:本發(fā)明所述的基于基線的運維管理健康分析方法,通過預置的管理規(guī)則連續(xù)地、周期性地采集管理對象指標的實時狀況,并加以保存以形成歷史數據;根據所述歷史數據通過四分位算法運算得到所述管理對象指標按時間變化的數據曲線一健康運行基準線;所述基準線為中心,根據歷史記錄數據點在上下偏離幅度內的百分比來設置合理偏離幅度的大小;若所述管理對象指標數據在合理偏離幅度內進行波動,則判斷為正常狀態(tài),否則為越界狀態(tài);通過統(tǒng)計越界的頻繁度來判斷運維管理系統(tǒng)的健康趨勢;采集持續(xù)一段時間后,運用四分位算法提煉出“與時段維度”關聯(lián)的每個管理對象的“健康標準”也就是健康運行基準線,使得基準線更加接近某指標運行的正常值;而偏離幅度的百分比等參數由用戶設置,簡單易懂,能夠讓用戶從宏觀上對基線監(jiān)測的嚴格程度有個比較準確的把握;判斷標準更加準確,判斷更精確。不斷收集各個監(jiān)測點運行數據,與該時段健康標準做比對,得出健康狀況偏差值,當偏差值越過許可范圍時,則觸發(fā)處理;可得到系統(tǒng)運行健康度趨勢,發(fā)現問題征兆進行提示,防患于未然,提高了運維管理質量和效率。
【附圖說明】
[0019]為了更清楚地說明本發(fā)明實施例中的技術方案,下面將對實施例中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領域普通技術人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據這些附圖獲得其他的附圖。
[0020]圖1為本發(fā)明所述的一種基于基線的運維管理健康分析方法示意圖。
【具體實施方式】
[0021]下面將結合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例。基于本發(fā)明中的實施例,本領域普通技術人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
[0022]如圖1所示,一種基于基線的運維管理健康分析方法,所述基于基線的運維管理健康分析方法包括以下步驟:
[0023]步驟S1:通過預置的管理規(guī)則連續(xù)地、周期性地采集管理對象指標的實時狀況,并加以保存以形成歷史數據;
[0024]所述步驟SI通過預置的管理規(guī)則連續(xù)地、周期性地采集管理對象指標的實時狀況,并加以保存以形成歷史數據的【具體實施方式】可為:通過監(jiān)測模板預置的管理規(guī)則對每個管理對象和每個監(jiān)測點進行連續(xù)、大量的數據采集。例如,若監(jiān)測模板預置的管理規(guī)則為“采集CHJ的使用率”,貝Ij通過監(jiān)測模板對CPU的使用率進行連續(xù)、周期、大量的采集。將采集到的對應管理對象指標的實時狀況數據進行保存,以時間為軸形成大量的歷史數據,這是未來我們進行系統(tǒng)分析的“數據”基礎。
[0025]在實際應用中,所述管理規(guī)則根據所述監(jiān)測模板上的針對管理對象和監(jiān)測點的監(jiān)測規(guī)則進行制定。
[0026]步驟S2:根據所述歷史數據通過四分位算法運算得到所述管理對象指標按時間變化的數據曲線一健康運行基準線;
[0027]在實際應用中,所述步驟S2根據所述歷史數據通過四分位算法運算得到所述管理對象指標按時間變化的數據曲線一健康運行基準線的【具體實施方式】可為:基于這些歷史數據,取系統(tǒng)正常運轉的工作周期,比如某幾日或某幾周,將該時間段內的監(jiān)測模板采集到的所有實時狀況信息保存形成的歷史數據提取出來,用數學方法四分位算法處理后得到一條某管理對象關鍵指標按時間變化的數據曲線一健康運行基準線。例如,根據某個時間段內正常運行的CPU的使用率得到了一條隨時間變化的數據曲線。通過四分位算法使得基準線更加接近某指標運行的正常值。
[0028]在實際應用中,所述基準線可包括日基線和周基線。
[0029]日基線:從該指標的歷史記錄中選擇最近某幾日正常運行的數據進行綜合判斷;
[0030]周基線:從該指標的歷史記錄中選擇最近某幾周正常運行的數據進行綜合判斷。
[0031]在實際應用中,所述健康運行基準線是一根曲線,其橫坐標是時間軸,縱坐標是指標的值。
[0032]例如,日基線類型,基準線的橫坐標的范圍是一天,從O點到24點。
[0033]例如,周基線類型,基準線的橫坐標的范圍是一周,從周一的O點到周日的24點。
[0034]在實際應用中,以某臺服務器“CPU使用率”指標的“日基線”為例,其形成過程可如下:
[0035]1、取一段正常運行的周期,如:2015年9月6日到9月9日,共四天。將這段周期內所有該指標的歷史記錄點映射到一個二維坐標中,橫坐標是時間,縱坐標是指標的歷史記錄值。
[0036]2、將二位坐標中所有歷史記錄點合并到“一天”中顯示,如原某個歷史記錄點(時間:2015年9月7日9點30分30秒指標的值:65 % ),合并后時間去除年月日信息,保留時分秒,形成新的二維坐標。
[0037]3、將“一天”按某個“間隔”等分成N個點,間隔可以是5分鐘、10分鐘、I小時等等,若以I小時為例,那么一天可以平均分成24個時刻。計算出每個時刻指標的平均值:將每個時刻前后各1/2