一種云數據中心監(jiān)控系統的制作方法
【專利摘要】本發(fā)明公開了一種云數據中心監(jiān)控系統,包括:監(jiān)控主機、離散監(jiān)控控制節(jié)點和告警平臺;離散監(jiān)控控制節(jié)點用于對第一監(jiān)控部的監(jiān)控項進行第一輪詢監(jiān)控,進行相應的數據采集和處理,并將采集到的第一數據主動發(fā)送給監(jiān)控主機;監(jiān)控主機用于對第二監(jiān)控部的監(jiān)控項進行第二輪詢監(jiān)控,并對第二輪詢監(jiān)控所得第二數據以及接收的離散監(jiān)控控制節(jié)點采集的第一數據進行相應處理;告警平臺用于在監(jiān)控主機判定第一數據超出第一告警閾值,和/或,第二數據超出第二告警閾值時進行告警。采用了離散控制,將一部分監(jiān)控項交由離散監(jiān)控控制接點進行輪詢監(jiān)控,大大地減輕了監(jiān)控主機的輪詢壓力,可以有效減少監(jiān)控主機的輪詢時間,避免監(jiān)控主機出現宕機的情況。
【專利說明】
一種云數據中心監(jiān)控系統
技術領域
[0001]本發(fā)明涉及數據中心監(jiān)控技術領域,特別是涉及一種云數據中心監(jiān)控系統。
【背景技術】
[0002]隨著科學技術的發(fā)展,信息技術得到了長足的進步。我們如今已經進入了互聯網時代,隨著信息交互的日益頻繁和多種多樣,往往采用數據中心來作為特定設備網絡。
[0003]所謂的數據中心是一整套復雜的設施,它不僅僅包括計算機系統和其他與之配套的設備,還包含冗余的數據通信連接、環(huán)境控制設備、監(jiān)控設備以及各種安全裝置。為了保證數據中心的正常運行,需要對其進行監(jiān)控。在機房監(jiān)控中,往往面臨著大量的監(jiān)控項,其包含軟件監(jiān)控和硬件監(jiān)控,然而監(jiān)控項過多會造成對監(jiān)控項的輪詢時間過長,甚至會造成監(jiān)控主機宕機,即監(jiān)控主機死機,這形成了數據中心的一種致命性的缺陷。
[0004]因而,如何避免對監(jiān)控項的輪詢時間過長,以及監(jiān)控主機宕機的情況,是本領域技術人員目前需要解決的技術問題。
【發(fā)明內容】
[0005]本發(fā)明的目的是提供一種云數據中心監(jiān)控系統,可以有效避免對監(jiān)控項的輪詢時間過長,以及監(jiān)控主機宕機的情況的發(fā)生。
[0006]為解決上述技術問題,本發(fā)明提供了如下技術方案:
[0007]—種云數據中心監(jiān)控系統,包括:監(jiān)控主機、離散監(jiān)控控制節(jié)點和告警平臺;
[0008]其中,所述離散監(jiān)控控制節(jié)點用于對第一監(jiān)控部的監(jiān)控項進行第一輪詢監(jiān)控,進行相應的數據采集和處理,并將采集到的第一數據主動發(fā)送給所述監(jiān)控主機;
[0009]所述監(jiān)控主機用于對第二監(jiān)控部的監(jiān)控項進行第二輪詢監(jiān)控,并對第二輪詢監(jiān)控所得第二數據以及接收的所述離散監(jiān)控控制節(jié)點采集的第一數據進行相應處理;
[0010]所述告警平臺用于在所述監(jiān)控主機判定所述第一數據超出第一告警閾值,和/或,所述第二數據超出第二告警閾值時進行告警。
[0011 ] 優(yōu)選地,所述監(jiān)控主機包括:
[0012]輪詢模塊,用于對第二監(jiān)控部的監(jiān)控項進行第二輪詢監(jiān)控,采集第二數據;
[0013]被動接收模塊,用于被動接收所述離散監(jiān)控控制節(jié)點采集的第一數據;
[0014]數據處理模塊,用于接收所述輪詢模塊采集的第二數據和所述被動接收模塊獲得的第一數據,并判斷所述第一數據和所述第二數據是否超出對應的告警閾值;
[0015]告警處理模塊,用于接收所述數據處理模塊輸出的判定結果,并在所述第一數據超出第一告警閾值,和/或,所述第二數據超出第二告警閾值時向所述告警平臺發(fā)出告警信號。
[0016]優(yōu)選地,所述監(jiān)控主機還包括:
[0017]配置分發(fā)模塊,用于獲取所述監(jiān)控主機所要監(jiān)控資源的配置信息,并啟動所述輪詢模塊、被動接收模塊、數據處理模塊和所述告警處理模塊。
[0018]優(yōu)選地,所述監(jiān)控主機還包括:
[0019]自監(jiān)控模塊,用于對所述配置分發(fā)模塊、輪詢模塊、被動接收模塊、數據處理模塊和所述告警處理模塊進行監(jiān)控,用于在上述任一模塊出現故障時,進行報警。
[0020]優(yōu)選地,所述離散監(jiān)控控制節(jié)點和所述告警平臺連接,用于在所述告警平臺出現故障時,將所述告警平臺的故障信息發(fā)送給所述監(jiān)控主機,以及在自身監(jiān)測到故障時直接向所述告警平臺發(fā)出對應的控制節(jié)點告警信號。
[0021]優(yōu)選地,所述離散監(jiān)控控制節(jié)點包括用于對數據中心的硬件進行監(jiān)控的工控機、arm或單片機。
[0022]優(yōu)選地,所述離散監(jiān)控控制節(jié)點通過RS232或RS485通訊轉TCP/IP進行通訊,通過ip獲取對應監(jiān)控設備的信息。
[0023]優(yōu)選地,還包括:
[0024]被監(jiān)控端代理,所述被監(jiān)控端代理設置在各被監(jiān)控端的主機上,用于對對應的被監(jiān)控端主機進行輪詢監(jiān)控,并將獲取的對應第三數據主動發(fā)送至所述監(jiān)控主機;
[0025]所述監(jiān)控主機還用于對所述第三數據進行相應處理,判斷所述第三數據是否超出對應的告警閾值,并在所述第三數據超出對應的告警閾值時向所述告警平臺發(fā)出相應的告警信號。
[0026]優(yōu)選地,還包括:數據庫模塊,與所述監(jiān)控主機連接,用于存儲所述監(jiān)控主機處理的各項數據。
[0027]與現有技術相比,上述技術方案具有以下優(yōu)點:
[0028]本發(fā)明實施例所提供的一種云數據中心監(jiān)控系統,包括:監(jiān)控主機、離散監(jiān)控控制節(jié)點和告警平臺;其中,離散監(jiān)控控制節(jié)點用于對第一監(jiān)控部的監(jiān)控項進行第一輪詢監(jiān)控,進行相應的數據采集和處理,并將采集到的第一數據主動發(fā)送給監(jiān)控主機;監(jiān)控主機用于對第二監(jiān)控部的監(jiān)控項進行第二輪詢監(jiān)控,并對第二輪詢監(jiān)控所得第二數據以及接收的離散監(jiān)控控制節(jié)點采集的第一數據進行相應處理;告警平臺用于在監(jiān)控主機判定第一數據超出第一告警閾值,和/或,第二數據超出第二告警閾值時進行告警。采用了離散控制,將一部分監(jiān)控項交由離散監(jiān)控控制接點進行輪詢監(jiān)控,并將采集到的數據主動推送給監(jiān)控主機,對于這部分的監(jiān)控項來說,監(jiān)控主機只需要被動接受該部分監(jiān)控項的輪詢監(jiān)控數據,而無需監(jiān)控主機對這部分監(jiān)控項進行輪詢監(jiān)控,大大地減輕了監(jiān)控主機的輪詢壓力,可以有效減少監(jiān)控主機的輪詢時間,避免監(jiān)控主機出現宕機的情況。
【附圖說明】
[0029]為了更清楚地說明本發(fā)明實施例或現有技術中的技術方案,下面將對實施例或現有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖是本發(fā)明的一些實施例,對于本領域普通技術人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據這些附圖獲得其他的附圖。
[0030]圖1為本發(fā)明一種【具體實施方式】所提供的云數據中心監(jiān)控系統結構示意圖;
[0031]圖2為本發(fā)明另一種【具體實施方式】所提供的云數據中心監(jiān)控系統結構示意圖。
【具體實施方式】
[0032]本發(fā)明的核心是提供一種云數據中心監(jiān)控系統,可以有效避免對監(jiān)控項的輪詢時間過長,以及監(jiān)控主機宕機的情況的發(fā)生。
[0033]為了使本發(fā)明的上述目的、特征和優(yōu)點能夠更為明顯易懂,下面結合附圖對本發(fā)明的【具體實施方式】做詳細的說明。
[0034]在以下描述中闡述了具體細節(jié)以便于充分理解本發(fā)明。但是本發(fā)明能夠以多種不同于在此描述的其它方式來實施,本領域技術人員可以在不違背本發(fā)明內涵的情況下做類似推廣。因此本發(fā)明不受下面公開的具體實施的限制。
[0035]請參考圖1,圖1為本發(fā)明一種【具體實施方式】所提供的云數據中心監(jiān)控系統結構示意圖。
[0036]在本發(fā)明的一種【具體實施方式】中,一種云數據中心監(jiān)控系統包括:監(jiān)控主機1、至少一個離散監(jiān)控控制節(jié)點2和告警平臺3;其中,離散監(jiān)控控制節(jié)點2用于對第一監(jiān)控部的監(jiān)控項進行第一輪詢監(jiān)控,進行相應的數據采集和處理,并將采集到的第一數據主動發(fā)送給監(jiān)控主機I;監(jiān)控主機I用于對第二監(jiān)控部的監(jiān)控項進行第二輪詢監(jiān)控,并對第二輪詢監(jiān)控所得第二數據以及接收的離散監(jiān)控控制節(jié)點2采集的第一數據進行相應處理;告警平臺3用于在監(jiān)控主機I判定第一數據超出第一告警閾值,和/或,第二數據超出第二告警閾值時進行告警。
[0037]在本實施方式中,采用了離散控制的原理,將一部分監(jiān)控項分配給離散監(jiān)控控制節(jié)點,則離散監(jiān)控控制節(jié)點就對自身所分配到的監(jiān)控項進行輪詢監(jiān)控,并進行數據采集以及進行調節(jié)控制,將采集到的數據發(fā)送給監(jiān)控主機,則監(jiān)控主機只需要被動的接收該數據即可,則監(jiān)控主機就無需對這一部分的監(jiān)控項直接進行輪詢監(jiān)控也能獲得該部分監(jiān)控項的監(jiān)控數據,這就大大地減輕了監(jiān)控主機的輪詢壓力,可以有效減少監(jiān)控主機的輪詢時間,避免監(jiān)控主機出現宕機的情況。
[0038]需要說明的是,所謂的第一監(jiān)控部的監(jiān)控項只是指分配給離散監(jiān)控控制接點的監(jiān)控項;第二監(jiān)控部的監(jiān)控項指的只是分配給監(jiān)控主機的監(jiān)控項。監(jiān)控主機對第二數據以及第一數據進行相應處理指的是,調取第一數據和/或第二數據中的特征參數,并將該特征參數與該特征參數對應的告警閾值進行比對,得出比對信息。
[0039]請參考圖2,圖2為本發(fā)明另一種【具體實施方式】所提供的云數據中心監(jiān)控系統結構示意圖。
[0040]在上述實施方式的基礎上,本發(fā)明一種實施方式中的監(jiān)控主機包括:
[0041]輪詢模塊11,用于對第二監(jiān)控部的監(jiān)控項進行第二輪詢監(jiān)控,采集第二數據,為了提高監(jiān)控效率,監(jiān)控主機也會被分配到需要監(jiān)控的監(jiān)控項,則輪詢模塊就對這一部分監(jiān)控項進行輪詢監(jiān)控,采集監(jiān)控數據。被動接收模塊12,用于被動接收離散監(jiān)控控制節(jié)點采集的第一數據。數據處理模塊13,用于接收輪詢模塊采集的第二數據和被動接收模塊獲得的第一數據,并判斷第一數據和第二數據是否超出對應的告警閾值,在數據處理模塊中預存有預設的告警閾值,當數據處理模塊獲取到對應的監(jiān)控數據時,就調取對應的告警閾值與之進行比對。告警處理模塊14,用于接收數據處理模塊輸出的判定結果,并在第一數據超出第一告警閾值,和/或,第二數據超出第二告警閾值時向告警平臺發(fā)出告警信號。
[0042]進一步地,監(jiān)控主機I還包括:配置分發(fā)模塊15,用于獲取監(jiān)控主機所要監(jiān)控資源的配置信息,并啟動輪詢模塊、被動接收模塊、數據處理模塊和告警處理模塊,將需要監(jiān)控的資源的配置信息寫到指定的目錄下,則配置分發(fā)模塊就可以進行配置文件的解析并啟動其他模塊。更進一步地,監(jiān)控主機還包括:自監(jiān)控模塊16,用于對配置分發(fā)模塊15、輪詢模塊
11、被動接收模塊12、數據處理模塊13和告警處理模塊14進行監(jiān)控,用于在上述任一模塊出現故障時,進行報警。其中,自監(jiān)控模塊對配置分發(fā)模塊15、輪詢模塊11、被動接收模塊12、數據處理模塊13和告警處理模塊14這五個模塊的運行狀態(tài)進行監(jiān)控,如果這五個模塊中的任一模塊丟失,或者進程掛掉,則控制該進程進行重啟,如果重啟失敗,則產生告警請求工作人員進行支持。
[0043]監(jiān)控主機的監(jiān)控框架包括:輪詢模塊11、被動接收模塊12、數據處理模塊13、告警處理模塊14、配置分發(fā)模塊15和自監(jiān)控模塊16。來完成對分配給自身的監(jiān)控項的輪詢監(jiān)控和對自身狀態(tài)的監(jiān)控。
[0044]在本發(fā)明的一種實施方式中,離散監(jiān)控控制節(jié)點和告警平臺連接,用于在告警平臺出現故障時,將告警平臺的故障信息發(fā)送給監(jiān)控主機,以及在自身監(jiān)測到故障時直接向告警平臺發(fā)出對應的控制節(jié)點告警信號。
[0045]在本實施方式中,不僅對監(jiān)控平臺進行了監(jiān)控,在告警平臺出現異常時,離散監(jiān)控控制接點能夠將告警平臺的故障信息發(fā)送至監(jiān)控主機,可以在監(jiān)控主機的顯示界面產生告警提示;而且在監(jiān)控主機出現異常時,直接接收離散監(jiān)控控制節(jié)點的告警信號進行告警;此夕卜,在離散監(jiān)控控制節(jié)點出現異常時,直接向告警平臺發(fā)出對應的控制節(jié)點告警信號進行告警或者監(jiān)控主機在不能獲取到離散監(jiān)控控制節(jié)點推送的數據時向告警平臺發(fā)出離散監(jiān)控控制節(jié)點掛掉的告警信號。使得整個監(jiān)控系統的告警更加及時和準確。告警平臺同時被監(jiān)控主機和離散監(jiān)控控制節(jié)點控制,并且自身也被監(jiān)控,大大提高了告警的準確性,當告警平臺異常時,離散監(jiān)控控制節(jié)點會發(fā)送相應數據給監(jiān)控主機,監(jiān)控主機則會在界面產生告警提示;當監(jiān)控主機宕機時,硬件出現故障,離散監(jiān)控控制節(jié)點能夠正常的產生告警通知;當離散監(jiān)控控制節(jié)點發(fā)生異常時,監(jiān)控主機就不能夠獲取到推送的數據,產生離散監(jiān)控節(jié)點掛掉的告警。
[0046]在本發(fā)明的上述各實施方式中,離散監(jiān)控控制節(jié)點包括用于對數據中心的硬件進行監(jiān)控的工控機、arm或單片機。其中,離散監(jiān)控控制節(jié)點可以對數據中心的一些關鍵性設備進行離散的監(jiān)控控制,可以使用工控機、arm或單片機來完成對數據中心硬件的監(jiān)控,采集數據發(fā)送到監(jiān)控主機,在異常時發(fā)出告警信號,不僅減輕了監(jiān)控主機的輪詢壓力,還提高了告警的準確性。對于數據中心中硬件的監(jiān)控,如配電柜、UPS、空調等設備,離散監(jiān)控控制節(jié)點可以通過RS232或RS485通訊轉TCP/IP進行通訊,通過ip獲取對應監(jiān)控設備的信息,這樣大大擴展了監(jiān)控的接口,如果需要監(jiān)控的監(jiān)控項數據較少,也可以根據實際情況直接使用I/O端口進行直接監(jiān)控。
[0047]在上述任一實施方式的基礎行,本發(fā)明一種實施方式中的云數據中心監(jiān)控系統還包括:被監(jiān)控端代理4,被監(jiān)控端代理4設置在各被監(jiān)控端的主機上,用于對對應的被監(jiān)控端主機進行輪詢監(jiān)控,并將獲取的對應第三數據主動發(fā)送至監(jiān)控主機;監(jiān)控主機還用于對第三數據進行相應處理,判斷第三數據是否超出對應的告警閾值,并在第三數據超出對應的告警閾值時向告警平臺發(fā)出相應的告警信號。
[0048]在本實施方式中被監(jiān)控端代理4即被監(jiān)控端agent,將被監(jiān)控端agent的agent模塊安裝在被監(jiān)控端的主機上,由agent模塊來輪詢對應的監(jiān)控項,完成對被監(jiān)控端主機的輪詢監(jiān)控,并將監(jiān)控數據推送給監(jiān)控主機,以進一步減輕監(jiān)控主機的輪詢壓力。也就是說agent模塊實質上是一個輪詢模塊,將其安裝在被監(jiān)控端的主機上,將需要監(jiān)控的監(jiān)控腳本放在指定的文件夾中,啟動程序,進行輪詢,獲取監(jiān)控項的數據,推送給監(jiān)控主機,以減輕監(jiān)控主機的輪詢壓力。
[0049]進一步地,該系統還包括:數據庫模塊5,與所述監(jiān)控主機連接,用于存儲所述監(jiān)控主機處理的各項數據,如監(jiān)控主機接收到的監(jiān)控數據和對應的閾值進行比對得到的結果。
[0050]綜上所述,本發(fā)明所提供的云數據中心監(jiān)控系統,通過離散監(jiān)控控制節(jié)點和agent減輕監(jiān)控主機的輪詢和控制壓力,而采用離散控制的思想,可以將一部分的監(jiān)控項進行分配給離散監(jiān)控控制節(jié)點,該節(jié)點對這些監(jiān)控項進行輪詢監(jiān)控,采集數據及進行調節(jié)控制,將采集到的數據發(fā)送給監(jiān)控主機,監(jiān)控主機只需要被動的接收數據,這樣大大減輕了監(jiān)控主機的輪詢壓力;將agent安裝在被監(jiān)控端的機器上,讓agent來輪詢監(jiān)控項,完成對該被監(jiān)控端主機的監(jiān)控,把監(jiān)控數據推送給監(jiān)控主機,減輕監(jiān)控主機的輪詢壓力。此外,還提高了告警的及時性及準確性。
[0051]以上對本發(fā)明所提供一種云數據中心監(jiān)控系統進行了詳細介紹。本文中應用了具體個例對本發(fā)明的原理及實施方式進行了闡述,以上實施例的說明只是用于幫助理解本發(fā)明的方法及其核心思想。應當指出,對于本技術領域的普通技術人員來說,在不脫離本發(fā)明原理的前提下,還可以對本發(fā)明進行若干改進和修飾,這些改進和修飾也落入本發(fā)明權利要求的保護范圍內。
【主權項】
1.一種云數據中心監(jiān)控系統,其特征在于,包括:監(jiān)控主機、離散監(jiān)控控制節(jié)點和告警平臺; 其中,所述離散監(jiān)控控制節(jié)點用于對第一監(jiān)控部的監(jiān)控項進行第一輪詢監(jiān)控,進行相應的數據采集和處理,并將采集到的第一數據主動發(fā)送給所述監(jiān)控主機; 所述監(jiān)控主機用于對第二監(jiān)控部的監(jiān)控項進行第二輪詢監(jiān)控,并對第二輪詢監(jiān)控所得第二數據以及接收的所述離散監(jiān)控控制節(jié)點采集的第一數據進行相應處理; 所述告警平臺用于在所述監(jiān)控主機判定所述第一數據超出第一告警閾值,和/或,所述第二數據超出第二告警閾值時進行告警。2.根據權利要求1所述的系統,其特征在于,所述監(jiān)控主機包括: 輪詢模塊,用于對第二監(jiān)控部的監(jiān)控項進行第二輪詢監(jiān)控,采集第二數據; 被動接收模塊,用于被動接收所述離散監(jiān)控控制節(jié)點采集的第一數據; 數據處理模塊,用于接收所述輪詢模塊采集的第二數據和所述被動接收模塊獲得的第一數據,并判斷所述第一數據和所述第二數據是否超出對應的告警閾值; 告警處理模塊,用于接收所述數據處理模塊輸出的判定結果,并在所述第一數據超出第一告警閾值,和/或,所述第二數據超出第二告警閾值時向所述告警平臺發(fā)出告警信號。3.根據權利要求2所述的系統,其特征在于,所述監(jiān)控主機還包括: 配置分發(fā)模塊,用于獲取所述監(jiān)控主機所要監(jiān)控資源的配置信息,并啟動所述輪詢模塊、被動接收模塊、數據處理模塊和所述告警處理模塊。4.根據權利要求3所述的系統,其特征在于,所述監(jiān)控主機還包括: 自監(jiān)控模塊,用于對所述配置分發(fā)模塊、輪詢模塊、被動接收模塊、數據處理模塊和所述告警處理模塊進行監(jiān)控,用于在上述任一模塊出現故障時,進行報警。5.根據權利要求4所述的系統,其特征在于,所述離散監(jiān)控控制節(jié)點和所述告警平臺連接,用于在所述告警平臺出現故障時,將所述告警平臺的故障信息發(fā)送給所述監(jiān)控主機,以及在自身監(jiān)測到故障時直接向所述告警平臺發(fā)出對應的控制節(jié)點告警信號。6.根據權利要求5所述的系統,其特征在于,所述離散監(jiān)控控制節(jié)點包括用于對數據中心的硬件進行監(jiān)控的工控機、arm或單片機。7.根據權利要求6所述的系統,其特征在于,所述離散監(jiān)控控制節(jié)點通過RS232或RS485通訊轉TCP/IP進行通訊,通過ip獲取對應監(jiān)控設備的信息。8.根據權利要求1至7任一項所述的系統,其特征在于,還包括: 被監(jiān)控端代理,所述被監(jiān)控端代理設置在各被監(jiān)控端的主機上,用于對對應的被監(jiān)控端主機進行輪詢監(jiān)控,并將獲取的對應第三數據主動發(fā)送至所述監(jiān)控主機; 所述監(jiān)控主機還用于對所述第三數據進行相應處理,判斷所述第三數據是否超出對應的告警閾值,并在所述第三數據超出對應的告警閾值時向所述告警平臺發(fā)出相應的告警信號。9.根據權利要求8所述的系統,其特征在于,還包括: 數據庫模塊,與所述監(jiān)控主機連接,用于存儲所述監(jiān)控主機處理的各項數據。
【文檔編號】H04L12/24GK105897492SQ201610482066
【公開日】2016年8月24日
【申請日】2016年6月27日
【發(fā)明人】段誼海, 劉成平
【申請人】浪潮(北京)電子信息產業(yè)有限公司