本發(fā)明屬于運維數(shù)據(jù)處理技術領域,尤其涉及一種基于云加端模式的運維數(shù)據(jù)處理系統(tǒng)和方法。
背景技術:
云監(jiān)控運維服務是基于云計算技術提供的監(jiān)控運維服務。通過和云計算平臺的整合,針對網(wǎng)絡、系統(tǒng)、應用等內(nèi)容提供可用性、用戶體驗和安全性方面的監(jiān)控服務。保障用戶的業(yè)務穩(wěn)定安全運行。當服務器發(fā)送故障時,及時的給網(wǎng)站管理人員發(fā)送郵件和短信報警。第一時間了解網(wǎng)站狀態(tài),將故障時間降低到最小。同時也提供其他服務,例如追蹤用戶訪問網(wǎng)站的速度、協(xié)助用戶判斷故障原因等。云計算作為信息技術領域的一種創(chuàng)新模式,因其低成本、彈性、按需付費等特點引發(fā)了新一輪的商業(yè)模式變革,已經(jīng)成為一種技術應用新常態(tài)。分布式計算和自動化管理,能夠跨平臺、分布式集群化部署,提升整體計算分析和計算資源利用率,實現(xiàn)整體計算成本的降低;能夠基于智能分析和數(shù)據(jù)挖掘數(shù)據(jù)提升數(shù)據(jù)的有效性,提高監(jiān)控系統(tǒng)的實用價值,能夠充分結合多媒體應用大信息量交互和頻繁的信令調(diào)度進行優(yōu)化設計,提高處理性能,并實現(xiàn)統(tǒng)一管理手段,從而減少維護使用成本。
然而,現(xiàn)有的云監(jiān)控和運維服務,對于傳統(tǒng)的企業(yè)信息系統(tǒng),在數(shù)據(jù)處理上有很多的局限性。首先,企業(yè)信息系統(tǒng)部署在企業(yè)局域網(wǎng)內(nèi)部,無法直接通過探針采集數(shù)據(jù)并上傳到監(jiān)控云中。有的企業(yè)開通了數(shù)據(jù)的上傳通道,可以在云端進行監(jiān)控和報警處理,但是有些企業(yè)運維數(shù)據(jù)過大,現(xiàn)有的網(wǎng)絡帶寬無法滿足數(shù)據(jù)傳輸?shù)囊?,另外,許多的數(shù)據(jù)對運維工作用處不大,也上傳到了云端,造成資源浪費。
因此,需要提出一種合理的運維數(shù)據(jù)處理技術來避免上述缺陷的產(chǎn)生。
技術實現(xiàn)要素:
針對現(xiàn)有技術的不足,本發(fā)明的目的是提供一種基于云加端模式的運維數(shù)據(jù)處理系統(tǒng)和方法,充分利用云計算的技術優(yōu)勢,對運維數(shù)據(jù)進行分析處理;在企業(yè)內(nèi)部部署企業(yè)端運維數(shù)據(jù)處理系統(tǒng),負責對接云端,采集監(jiān)控數(shù)據(jù)和日志等運維信息,進行基本的處理,并上傳到云端。
一種基于云加端模式的運維數(shù)據(jù)處理系統(tǒng),所述運維數(shù)據(jù)處理系統(tǒng)系統(tǒng)包括:
運維云服務:部署在云端,接收企業(yè)端上傳的運維數(shù)據(jù),基于云計算資源對云進行分析和管理數(shù)據(jù),并下發(fā)給各個運維企業(yè)端,所述管理數(shù)據(jù)包括數(shù)據(jù)通信、數(shù)據(jù)分析、數(shù)據(jù)存儲和處理規(guī)則。
運維企業(yè)端:部署在每個企業(yè)防火墻內(nèi)部的獨立服務器上,該服務器需要對互聯(lián)網(wǎng)的訪問權限,但不必被外界網(wǎng)絡訪問到;所述運維企業(yè)端接收Agent采集運維數(shù)據(jù),存儲到本地,按照處理規(guī)則進行分析處理后,上傳到云端服務系統(tǒng)。
Agent:部署在運行業(yè)務系統(tǒng)的服務器上,是采集數(shù)據(jù)的探針和命令執(zhí)行器;每個Agent對應唯一的企業(yè)運維端系統(tǒng),向其發(fā)送運維數(shù)據(jù)并接受運維指令。
優(yōu)選地,所述處理規(guī)則包括數(shù)據(jù)的采集規(guī)則、匯總規(guī)則、上傳條件和基準庫。
優(yōu)選地,所述運維數(shù)據(jù)包括性能數(shù)據(jù)、業(yè)務數(shù)據(jù)和快照數(shù)據(jù)三種。
優(yōu)選地,所述性能數(shù)據(jù)為實時監(jiān)控的數(shù)據(jù),體現(xiàn)當前時刻的性能指標的實際數(shù)值;所述業(yè)務數(shù)據(jù)是業(yè)務處理過程數(shù)據(jù);所述快照數(shù)據(jù)是指服務和應用在某一時刻的全部上下文信息。
優(yōu)選地,所述性能數(shù)據(jù)具有實效性,需要實時收集,實時分析,及時報警,處理分析過程在企業(yè)端完成,數(shù)據(jù)無需上傳到云端;所述業(yè)務數(shù)據(jù),需要實時收集,企業(yè)端每隔一段時間,對業(yè)務數(shù)據(jù)進行匯總,并將匯總數(shù)據(jù)上傳到云端,云端定期的進行處理和分析,發(fā)掘用戶的操作習慣、熱度應用操作,并以報表形式呈現(xiàn);所述快照數(shù)據(jù),根據(jù)數(shù)據(jù)處理規(guī)則,只有滿足一定觸發(fā)條件時,才會采集快照數(shù)據(jù),存儲到企業(yè)端,保留一定的時間,用于分析追蹤問題。
優(yōu)選地,所述匯總的類別包括業(yè)務領域、業(yè)務模塊、業(yè)務操作、操作耗時、執(zhí)行次數(shù)、數(shù)據(jù)庫連接數(shù)量和執(zhí)行SQL數(shù)量。在云端定義基準庫,包括但不限于性能基準庫、異?;鶞蕩旌凸收匣鶞蕩臁?/p>
優(yōu)選地,所述基準庫由多個企業(yè)端數(shù)據(jù)綜合生成,按照各個企業(yè)端系統(tǒng)的硬件配置、操作系統(tǒng)類型和并發(fā)數(shù)以及相關環(huán)境因素進行歸檔和分類,并隨著數(shù)據(jù)的積累自動調(diào)整。
優(yōu)選地,所述運維數(shù)據(jù)處理系統(tǒng)采用消息隊列作為通信協(xié)議,在云端部署消息隊列服務器,企業(yè)端系統(tǒng)向消息服務器發(fā)送消息,并監(jiān)聽特定的消息頻道,云端通過消息發(fā)送信息令給各個云端子系統(tǒng),其具體過程如下:
企業(yè)端通過消息隊列服務器,定時上傳運維數(shù)據(jù)包到云端,每個數(shù)據(jù)包包括起止時間、運維數(shù)據(jù)內(nèi)容、企業(yè)端標識ID;
云端接收到數(shù)據(jù)包后進行解析,將每條數(shù)據(jù)ID+企業(yè)端ID作為主鍵,進行存儲,防止數(shù)據(jù)的重復,成功存儲后,將該時間段設為完成;
云端定時檢查數(shù)據(jù)完整性,對為完成的時間段,想企業(yè)端發(fā)送數(shù)據(jù)重傳請求,完成數(shù)據(jù)的補償過程。
一種基于云加端模式的運維數(shù)據(jù)處理方法,所述運維數(shù)據(jù)處理方法基于上述運維數(shù)據(jù)處理系統(tǒng),所述處理方法包括以下過程:企業(yè)端運維系統(tǒng)同步云端的基準庫信息和數(shù)據(jù)處理規(guī)則,收集Agent采集的數(shù)據(jù)后,對信息進行過濾和匯總,將有效數(shù)據(jù)和匯總信息上傳到云端;如果診斷為非正常狀態(tài),則根據(jù)數(shù)據(jù)處理規(guī)則,進行故障處理,保存快照數(shù)據(jù),并告知云端;云端接收到運維數(shù)據(jù),保存到云存儲中,將運維指標進行統(tǒng)計和分析,并形成統(tǒng)計分析報告;最后更新基準庫。
本發(fā)明的技術方案具有以下有益效果:
本發(fā)明提供的一種基于云加端模式的運維數(shù)據(jù)處理系統(tǒng)和方法,帶來以下明顯的效果:充分利用了云計算的特性:低成本的處理運維數(shù)據(jù),實現(xiàn)多個項目數(shù)據(jù)的橫向對比,積累了系統(tǒng)的運維數(shù)據(jù),實現(xiàn)數(shù)據(jù)驅動業(yè)務的服務模式;節(jié)省了運維的人力和物力:基于互聯(lián)網(wǎng)和通信技術,企業(yè)端運維數(shù)據(jù)上傳到云端,避免運維人員到處奔波;節(jié)省數(shù)據(jù)流量:對監(jiān)控數(shù)據(jù)和日志數(shù)據(jù)等在企業(yè)端進處理和過濾,快照數(shù)據(jù)僅保存在企業(yè)端,有效的避免了數(shù)據(jù)傳輸造成的浪費;企業(yè)運維端,對運維數(shù)據(jù)進行存儲,可以建立獨立自治的運維微系統(tǒng),供企業(yè)信息管理員自助的對業(yè)務系統(tǒng)進行運維;監(jiān)控模式創(chuàng)新:目前的運維產(chǎn)品,要么部署在企業(yè)內(nèi)部運行,要么要求被監(jiān)控服務器能夠訪問外網(wǎng),該創(chuàng)新能夠提供云加端運維模式,屬于比較新穎的做法;解決了通信問題:大多數(shù)企業(yè)應用部署在私有防火墻內(nèi)部,不允許外網(wǎng)訪問,因此無法通過TCP連接到云端;采用消息通信,運維端系統(tǒng)向云端發(fā)送運維數(shù)據(jù)。
附圖說明
下面通過附圖和實施例,對本發(fā)明的技術方案做進一步的詳細描述。
圖1是本發(fā)明一種基于云加端模式的運維數(shù)據(jù)處理系統(tǒng)和方法的系統(tǒng)結構圖;
圖2是本發(fā)明一種基于云加端模式的運維數(shù)據(jù)處理系統(tǒng)和方法的消息隊列服務器處理過程示意圖。
具體實施方式
為了清楚了解本發(fā)明的技術方案,將在下面的描述中提出其詳細的結構。顯然,本發(fā)明實施例的具體施行并不足限于本領域的技術人員所熟習的特殊細節(jié)。本發(fā)明的優(yōu)選實施例詳細描述如下,除詳細描述的這些實施例外,還可以具有其他實施方式。
下面結合附圖和實施例對本發(fā)明做進一步詳細說明。
本發(fā)明的目的旨在設計一種基于云加端模式的運維數(shù)據(jù)處理方法和系統(tǒng)。針對大多數(shù)企業(yè)應用部署在防火墻內(nèi)部的現(xiàn)狀,利用云加端運術方案,實現(xiàn)對企業(yè)內(nèi)部應用運維數(shù)據(jù)進行處理,進行本地化存儲,并將需要的數(shù)據(jù)上傳到云端。運維云端不僅能夠收集到每個項目的運維數(shù)據(jù),而且對各家的數(shù)據(jù)進行橫向對比,生成企業(yè)運行報表,對企業(yè)IT規(guī)劃具有很好的指導價值。同時,對業(yè)務異常、故障類型、性能基準按照領域歸類和分析,不斷積累用戶的運維基準庫數(shù)據(jù),對運維規(guī)則處理和領域研發(fā)具有很好的參考和反饋。而企業(yè)端系統(tǒng)可以對運維數(shù)據(jù)的處理規(guī)則、報警處理策略、以及數(shù)據(jù)存儲和通信處理等進行定制和擴展。
本發(fā)明設計了一種運維數(shù)據(jù)處理系統(tǒng)和方法,通過互聯(lián)網(wǎng)技術和部署端系統(tǒng),解決網(wǎng)絡連通和數(shù)據(jù)通信問題;通過云計算技術對運維數(shù)據(jù)進行分析,形成全面運維報告處理,實現(xiàn)對企業(yè)系統(tǒng)的自動化監(jiān)控和運維,及時發(fā)現(xiàn)運行隱患,提高資源利用率,最大程度的保障生產(chǎn)正常運行。
參照圖1,基于云計算技術,在總部部署一套運維系統(tǒng),集中為所有的企業(yè)客戶項目提供監(jiān)控和運維服務。在每個企業(yè)客戶防火墻內(nèi)部部署一套企業(yè)運維端系統(tǒng),負責采集數(shù)據(jù)和分析處理,并把分析結果上傳到云服務器進行綜合分析。如果發(fā)生故障或報警,企業(yè)運維端系統(tǒng)根據(jù)設置好的規(guī)則進行處理。包含如下組件:運維云服務:部署在云端,接收企業(yè)端上傳的運維數(shù)據(jù),基于云計算資源對云進行分析和管理數(shù)據(jù),并下發(fā)給各個運維企業(yè)端,所述管理數(shù)據(jù)包括數(shù)據(jù)通信、數(shù)據(jù)分析、數(shù)據(jù)存儲和處理規(guī)則;運維企業(yè)端:部署在每個企業(yè)防火墻內(nèi)部的獨立服務器上,該服務器需要對互聯(lián)網(wǎng)的訪問權限,但不必被外界網(wǎng)絡訪問到;所述運維企業(yè)端接收Agent采集運維數(shù)據(jù),存儲到本地,按照處理規(guī)則進行分析處理后,上傳到云端服務系統(tǒng);Agent:部署在運行業(yè)務系統(tǒng)的服務器上,是采集數(shù)據(jù)的探針和命令執(zhí)行器;每個Agent對應唯一的企業(yè)運維端系統(tǒng),向其發(fā)送運維數(shù)據(jù)并接受運維指令。
上述運維數(shù)據(jù)分為性能數(shù)據(jù)、業(yè)務數(shù)據(jù)和快照數(shù)據(jù)。
性能數(shù)據(jù)為實時監(jiān)控的數(shù)據(jù),體現(xiàn)當前時刻的性能指標的實際數(shù)值;業(yè)務數(shù)據(jù)是業(yè)務處理過程數(shù)據(jù),比如某個用戶在工作時間內(nèi)做了某些業(yè)務操作;快照數(shù)據(jù),服務和應用在某一時刻的全部上下文信息,包括線程信息、宕機dump文件、數(shù)據(jù)庫狀態(tài)、主機狀態(tài)等;性能數(shù)據(jù),具有實效性,需要實時收集,實時分析,及時報警,處理分析過程在企業(yè)端完成,數(shù)據(jù)無需上傳到云端;
業(yè)務數(shù)據(jù),需要實時收集,企業(yè)端每隔一段時間,對業(yè)務數(shù)據(jù)進行匯總,并將匯總數(shù)據(jù)上傳到云端,匯總類別包括業(yè)務領域、業(yè)務模塊、業(yè)務操作、操作耗時、執(zhí)行次數(shù)、數(shù)據(jù)庫連接數(shù)量、執(zhí)行SQL數(shù)量等。云端定期的進行處理和分析,發(fā)掘用戶的操作習慣、熱度應用操作等,并以報表形式呈現(xiàn);
快照數(shù)據(jù),根據(jù)數(shù)據(jù)處理規(guī)則,只有滿足一定觸發(fā)條件時,才會采集快照數(shù)據(jù),存儲到企業(yè)端,保留一定的時間,用于分析追蹤問題。
在云端定義基準庫,包括但不限于性能基準庫、異?;鶞蕩旌凸收匣鶞蕩欤换鶞蕩煊啥鄠€企業(yè)端數(shù)據(jù)綜合生成,按照各個企業(yè)端系統(tǒng)的硬件配置、操作系統(tǒng)類型、并發(fā)數(shù)等環(huán)境因素進行歸檔和分類,并隨著數(shù)據(jù)的積累自動調(diào)整;
一種基于云加端模式的運維數(shù)據(jù)處理方法,所述運維數(shù)據(jù)處理方法基于上述運維數(shù)據(jù)處理系統(tǒng),所述處理方法包括以下過程:企業(yè)端運維系統(tǒng)同步云端的基準庫信息和數(shù)據(jù)處理規(guī)則,收集Agent采集的數(shù)據(jù)后,對信息進行過濾和匯總,將有效數(shù)據(jù)和匯總信息上傳到云端,如果診斷為非正常狀態(tài),則根據(jù)數(shù)據(jù)處理規(guī)則,進行故障處理,保存快照數(shù)據(jù),并告知云端,云端接收到運維數(shù)據(jù),保存到云存儲中,將運維指標進行統(tǒng)計和分析,并形成統(tǒng)計分析報告,更新基準庫。
通過技術上的通信處理,需要考慮部署企業(yè)端運維系統(tǒng)的服務器開通訪問互聯(lián)網(wǎng)權限,但是從外面無法訪問到企業(yè)防火墻內(nèi)部,這是一種單向通信的網(wǎng)絡。因此云服務無法通過TCP建立端到端的連接,無法直接向企業(yè)端發(fā)送指令和調(diào)用。為了實現(xiàn)通信的交互性,使用消息隊列作為通信協(xié)議,在云端部署消息隊列服務器,企業(yè)端系統(tǒng)向消息服務器發(fā)送消息,并監(jiān)聽特定的消息頻道,云端通過消息發(fā)送信息令給各個云端子系統(tǒng), 其具體過程如下:
企業(yè)端通過消息隊列服務器,定時上傳運維數(shù)據(jù)包到云端,每個數(shù)據(jù)包包括起止時間、運維數(shù)據(jù)內(nèi)容、企業(yè)端標識ID;
云端接收到數(shù)據(jù)包后進行解析,將每條數(shù)據(jù)ID+企業(yè)端ID作為主鍵,進行存儲,防止數(shù)據(jù)的重復,成功存儲后,將該時間段設為完成;
云端定時檢查數(shù)據(jù)完整性,對為完成的時間段,想企業(yè)端發(fā)送數(shù)據(jù)重傳請求,完成數(shù)據(jù)的補償過程。
通過使用云加端運維數(shù)據(jù)處理,在云和端分別對運維數(shù)據(jù)進行不同的分析處理,進而對企業(yè)客戶應用集中運維,生成運維數(shù)據(jù)報表,實現(xiàn)一屏看千家。
在云端,不僅收集到了每個企業(yè)端的運維數(shù)據(jù),而且對各家的數(shù)據(jù)進行橫向對比,生成企業(yè)運行報表,對企業(yè)IT規(guī)劃具有很好的指導價值,同時,對錯誤進行分類統(tǒng)計,對性能按照領域歸類,對產(chǎn)品廠商的各領域研發(fā)部門有很好的反饋和參考。
通過企業(yè)端的實時數(shù)據(jù)處理功能,我們能夠及時掌握應用的運行狀況,盡早的發(fā)現(xiàn)系統(tǒng)中存在問題,并快速進行問題的定位。實現(xiàn)了對企業(yè)內(nèi)部應用運維服務的能力,能夠促進運維模式的變革。
總部的運維技術人員收到通知后,通過云運維平臺查看追蹤問題。對于不可再現(xiàn)問題,企業(yè)端系統(tǒng)保存了系統(tǒng)快照,運維人員事后查看異??煺?,根據(jù)對快照中的信息進行分析并解決問題。
充分利用了云計算的特性。低成本的處理運維數(shù)據(jù),實現(xiàn)多個項目數(shù)據(jù)的橫向對比,積累了系統(tǒng)的運維數(shù)據(jù),實現(xiàn)數(shù)據(jù)驅動業(yè)務的服務模式。
節(jié)省了運維的人力和物力?;诨ヂ?lián)網(wǎng)和通信技術,企業(yè)端運維數(shù)據(jù)上傳到云端,避免運維人員到處奔波。
節(jié)省數(shù)據(jù)流量。對監(jiān)控數(shù)據(jù)和日志數(shù)據(jù)等在企業(yè)端進處理和過濾,快照數(shù)據(jù)僅保存在企業(yè)端,有效的避免了數(shù)據(jù)傳輸造成的浪費。
企業(yè)運維端,對運維數(shù)據(jù)進行存儲,可以建立獨立自治的運維微系統(tǒng),供企業(yè)信息管理員自助的對業(yè)務系統(tǒng)進行運維。
監(jiān)控模式創(chuàng)新,目前的運維產(chǎn)品,要么部署在企業(yè)內(nèi)部運行,要么要求被監(jiān)控服務器能夠訪問外網(wǎng),該創(chuàng)新能夠提供云加端運維模式,屬于比較新穎的做法。
解決了通信問題,大多數(shù)企業(yè)應用部署在私有防火墻內(nèi)部,不允許外網(wǎng)訪問,因此無法通過TCP連接到云端。采用消息通信,運維端系統(tǒng)向云端發(fā)送運維數(shù)據(jù)。
最后應當說明的是:以上實施例僅用以說明本發(fā)明的技術方案而非對其限制,盡管參照上述實施例對本發(fā)明進行了詳細的說明,所屬領域的普通技術人員依然可以對本發(fā)明的具體實施方式進行修改或者等同替換,這些未脫離本發(fā)明精神和范圍的任何修改或者等同替換,均在申請待批的權利要求保護范圍之內(nèi)。