云計算集群服務器狀態(tài)監(jiān)控系統(tǒng)和方法
【專利摘要】本發(fā)明提供一種云計算集群服務器狀態(tài)監(jiān)控系統(tǒng)和方法。所述系統(tǒng)包括多個云計算服務器(1,2,3)組成的集群服務器(10);連接到集群服務器(10)的多個云計算服務器的備份服務器(11),用于對該多個云計算服務器的數(shù)據(jù)進行備份;連接到所述集群服務器(10)和備份服務器(11)的設備感知服務器(12),用于感知集群服務器(10)和備份服務器(11)的異常情況。根據(jù)本發(fā)明的監(jiān)控系統(tǒng)和方法,可以感知云計算服務器的異常,判斷服務器設備是否有流量,是否在正常處理報文,評估異常風險并做出相應動作,保證服務器設備在異常后快速恢復業(yè)務。
【專利說明】云計算集群服務器狀態(tài)監(jiān)控系統(tǒng)和方法【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及云計算集群服務器【技術(shù)領(lǐng)域】,具體涉及一種云計算集群服務器狀態(tài)監(jiān)控系統(tǒng)和方法。
【背景技術(shù)】
[0002]云計算是一種全新的計算模式,其核心思想是企業(yè)或個人不再需要在電腦中安裝大量應用軟件,而是通過Web瀏覽器接入到一種大范圍的、按需定制的服務中,即“云服務”。云計算技術(shù)將使用戶體驗發(fā)生根本性的變化。相比傳統(tǒng)服務器架構(gòu),云計算服務器大大提高了其利用率,同時也在系統(tǒng)中省去了很多重復的硬件,將計算、存儲、交換、管理等集成到標準系統(tǒng)中,并且與外界的網(wǎng)絡設備、存儲設備間的接口和通用架構(gòu)保待一致。
[0003]集群服務器,簡而言之,就是一組相互獨立的服務器在網(wǎng)絡中表現(xiàn)為單一的系統(tǒng),并以單一系統(tǒng)的模式加以管理。此單一系統(tǒng)為客戶工作站提供高可靠性的服務。一組集群服務器包含多臺擁有共享數(shù)據(jù)存儲空間的服務器,各服務器之間通過內(nèi)部局域網(wǎng)進行相互通信;當其中一臺服務器發(fā)生故障時,它所運行的應用程序?qū)⒂善渌姆掌髯詣咏庸?;在大多?shù)情況下,集群中所有的計算機都擁有一個共同的名稱,集群系統(tǒng)內(nèi)任意一臺服務器都可被所有的網(wǎng)絡用戶所使用。
[0004]在云計算集群服務器系統(tǒng)中,由多個服務器組成的集群服務器做用戶負載和服務器備份,用戶登錄服務器時,會根據(jù)云計算服務器負載到指定服務器上處理用戶數(shù)據(jù)。其中服務器之間都有至少一個備份服務器,對大規(guī)模集群方式的云計算服務器組來說,感知其中一臺服務器設備的指定業(yè)務模塊異常非常重要,其中云計算服務器通常由網(wǎng)頁處理模塊,用戶交互管理模塊,用戶數(shù)據(jù)存儲模塊組成,當其中一個業(yè)務模塊出現(xiàn)異常時,其他模塊無法感知。
[0005]現(xiàn)有技術(shù)存在的問題:
[0006]現(xiàn)有技術(shù)是服務器設備異常后,等待管理員重啟;服務器設備異常后,等待服務器設備進程異常調(diào)度超時,服務器設備重啟。
[0007]因此,急需提出一種云計算集群服務器狀態(tài)監(jiān)控系統(tǒng)和方法,幫助我們解決上述的問題。
【發(fā)明內(nèi)容】
[0008]本發(fā)明的一種云計算集群服務器狀態(tài)監(jiān)控系統(tǒng)和方法,使用一個感知服務器,能夠快速感知服務器設備異常,快速做出服務器設備異常判斷并快速通過判斷提供正確的處理方式恢復服務器設備工作,當一個服務器出現(xiàn)一個模塊異常時,由第三方監(jiān)控設備對其進行感知,評估異常風險并做出相應動作,保證服務器設備在異常后快速恢復業(yè)務。
[0009]根據(jù)本發(fā)明的一個方面,提供了一種云計算集群服務器狀態(tài)監(jiān)控系統(tǒng),包括:集群服務器10,包括多個云計算服務器1,2,3 ;備份服務器11,連接到集群服務器10的多個云計算服務器,用于對該多個云計算服務器的數(shù)據(jù)進行備份;設備感知服務器12,連接到所述集群服務器10和備份服務器11,用于感知集群服務器10和備份服務器11的異常情況。
[0010]其中,所述設備感知服務器12感知集群服務器10中某臺云計算服務器的業(yè)務模
塊異常,當該云計算服務器的某個業(yè)務模塊異常時,所述感知服務器12評估異常風險并報
m
目O
[0011]其中,所述設備感知服務器12感知的業(yè)務模塊包括網(wǎng)頁處理模塊、用戶交互管理模塊及用戶數(shù)據(jù)存儲模塊。
[0012]進一步,所述設備感知服務器12對感知的異常情況報文進行判斷,并根據(jù)異常服務器的功能及異常模塊的類型做出相應的異常情況恢復和操作處理。
[0013]根據(jù)本發(fā)明的另一方面,提供了一種云計算集群服務器狀態(tài)監(jiān)控方法,包括如下步驟:
[0014]流量檢查步驟,所述設備感知服務器對每個服務器的發(fā)報文和收報文進行統(tǒng)計,當在一定時間內(nèi)只有發(fā)送報文或者接收報文時,或者沒有報文時,所述感知服務器發(fā)送狀態(tài)請求報文;
[0015]異常檢測步驟,當集群服務器接收到所述設備感知服務器的狀態(tài)請求報文后,根據(jù)狀態(tài)請求報文的類型對本服務器的指定業(yè)務模塊進行檢查,并返回業(yè)務模塊狀態(tài);
[0016]異常處理步驟,所述設備感知服務器判斷此所述服務器設備是否異常,再根據(jù)服務器設備所處的功能是主服務器還是備份服務器來做出相應的判斷處理。
[0017]更進一步地,所述異常處理步驟中,在所述設備感知服務器判斷主服務器模塊異常的情況下,如果異常的模塊為非數(shù)據(jù)模塊,則通知異常服務器設備重啟異常模塊。
[0018]更進一步地,所述異常處理步驟中,在所述設備感知服務器判斷主服務器模塊異常的情況下,如果異常的模塊為數(shù)據(jù)模塊,說明數(shù)據(jù)損壞,需要快速進行數(shù)據(jù)恢復,則發(fā)送重啟消息給異常服務器設備,并激活備份服務器設備。
[0019]更進一步地,所述異常處理步驟中,在所述設備感知服務器判斷備份服務器異常的情況下,則只對備份數(shù)據(jù)發(fā)送重啟消息。
[0020]本發(fā)明具有以下的優(yōu)點:
[0021]根據(jù)本發(fā)明的云計算集群服務器狀態(tài)監(jiān)控系統(tǒng)和方法,其中的每個集群服務器主動且定時向狀態(tài)監(jiān)控系統(tǒng)進行狀態(tài)信息報文發(fā)送,設備感知服務器根據(jù)未定時接收到相應的狀態(tài)信息來判斷需要對異常服務器執(zhí)行恢復動作,重啟指定服務器,縮短業(yè)務恢復時間。
[0022]采用本發(fā)明的云計算集群服務器狀態(tài)監(jiān)控系統(tǒng)和方法,根據(jù)異常的具體情況具體分析,可避免通過系統(tǒng)自動超時喚醒異常中斷來重啟設備,或人為地去重啟設備,達到了通過第三方實時監(jiān)測來快速恢復集群服務器設備的工作能力,縮短服務器設備異常后的恢復時間能夠更快地恢復服務器設備以及網(wǎng)絡運營,節(jié)約了人力和物力成本,使快速恢復集群服務器網(wǎng)絡設備的異常情況的技術(shù)邁上了一個新臺階,成為新時代的網(wǎng)絡監(jiān)控產(chǎn)品,對于企業(yè)的運營、生產(chǎn)和生活都會帶來了一定意義的好處。
[0023]構(gòu)成本申請的一部分的附圖用來提供對本發(fā)明的進一步理解,本發(fā)明的示意性實施例及其說明用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的不當限定。
【專利附圖】
【附圖說明】
[0024]圖1顯示了本發(fā)明的云計算集群服務器狀態(tài)監(jiān)控系統(tǒng)的結(jié)構(gòu)示意圖;[0025]圖2顯示了本發(fā)明的云計算集群服務器狀態(tài)監(jiān)控方法的流程示意圖;
[0026]圖3顯示了本發(fā)明的狀態(tài)監(jiān)控方法中的異常處理流程示意圖。
【具體實施方式】
[0027]為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚明了,下面結(jié)合【具體實施方式】并參照附圖,對本發(fā)明進一步詳細說明。應該理解,這些描述只是示例性的,而并非要限制本發(fā)明的范圍。此外,在以下說明中,省略了對公知結(jié)構(gòu)和技術(shù)的描述,以避免不必要地混淆本發(fā)明的概念。
[0028]圖1顯示了本發(fā)明的云計算集群服務器狀態(tài)監(jiān)控系統(tǒng)的結(jié)構(gòu)示意圖。
[0029]如圖1所示,本發(fā)明的云計算集群服務器狀態(tài)監(jiān)控系統(tǒng)包含下述部分:包含多個云計算服務器的集群服務器10、備份服務器11以及設備感知服務器12。
[0030]集群服務器10由多個云計算服務器組成,例如圖1中所示的服務器1、服務器2、服務器3等多個服務器組成的集群,用于用戶數(shù)據(jù)處理和服務器備份。用戶登錄某一個云計算服務器時,會根據(jù)云計算服務器的數(shù)據(jù)吞吐負載轉(zhuǎn)到合適的服務器上處理用戶數(shù)據(jù)。
[0031]備份服務器11連接到集群服務器10的多個云計算服務器,用于對該多個云計算服務器的數(shù)據(jù)進行備份。備份服務器可以根據(jù)集群服務器的數(shù)量設置一個或多個,保證各個云計算服務器都至少配置到一個備份服務器即可。
[0032]設備感知服務器12,連接到所述集群服務器和備份服務器,用于感知集群服務器和備份服務器的異常情況。
[0033]具體來說,設備感知服務器12感知集群服務器中某臺云計算服務器設備的指定業(yè)務模塊異常,包括網(wǎng)頁處理模塊、用戶交互管理模塊及用戶數(shù)據(jù)存儲模塊的異常情況。并且,當一個服務器業(yè)務模塊異常時,所述感知服務器評估異常風險并報警,使得云計算服務器設備在異常后快速恢復業(yè)務,減少對網(wǎng)絡造成的影響。
[0034]進一步,設備感知服務器12對感知的異常情況報文進行判斷,并分別根據(jù)異常服務器的功能及異常模塊的類型做出相應的異常情況恢復和操作處理。同時解決了現(xiàn)有技術(shù)中當服務器模塊中的一個業(yè)務模塊出現(xiàn)異常時,其他模塊無法感知的問題。
[0035]對大規(guī)模集群方式的云計算服務器組來說,感知其中一臺服務器設備的指定業(yè)務模塊異常非常重要。通常,云計算服務器包括網(wǎng)頁處理模塊、用戶交互管理模塊以及用戶數(shù)據(jù)存儲模塊。當其中一個業(yè)務模塊出現(xiàn)異常時,其他模塊無法感知。本發(fā)明中,通過設置第三方的設備感知服務器12,當一個服務器出現(xiàn)一個模塊異常時,由第三方監(jiān)控設備設備感知服務器對其進行感知,評估異常風險并報警,使得云計算服務器設備在異常后快速恢復業(yè)務。當服務器設備異常時,通常是無法快速感知的,都是通過系統(tǒng)自動超時喚醒異常中斷來重啟設備,此時間較長,本發(fā)明通過第三方實時監(jiān)測來快速恢復集群設備的工作能力。
[0036]優(yōu)選的,設備感知服務器12通過TCP/IP網(wǎng)絡和集群服務器或備份服務器相連接,該設備感知服務器除具有一般服務器的功能外,主要作用是對集群服務器狀態(tài)進行監(jiān)測。
[0037]圖2顯示了本發(fā)明的云計算集群服務器狀態(tài)監(jiān)控方法的流程示意圖。
[0038]如圖2所示,本發(fā)明的云計算集群服務器狀態(tài)監(jiān)控方法包括下述步驟:
[0039]流量檢查步驟SI,所述設備感知服務器定時比如每20秒統(tǒng)計每個服務器的發(fā)送報文和接收報文的數(shù)量都正常時,繼續(xù)定時統(tǒng)計;當所述設備感知服務器在一定時間內(nèi)比如5-10秒,優(yōu)選5秒統(tǒng)計到只有發(fā)送報文或者只有接收報文時,或者沒有報文發(fā)送和接收時,所述設備感知服務器根據(jù)報文格式發(fā)送查詢狀態(tài)請求報文給集群服務器;
[0040]異常檢測步驟S2,當集群服務器接收到所述設備感知服務器的查詢狀態(tài)請求報文后,對報文進行解析,根據(jù)查詢狀態(tài)請求報文的類型對本服務器的指定業(yè)務模塊進行檢查,并應答設備感知服務器的查詢狀態(tài)請求報文,應答內(nèi)容為本服務器的業(yè)務模塊狀態(tài)信息;
[0041]異常處理步驟S3,所述設備感知服務器對收到的業(yè)務模塊狀態(tài)信息報文進行解析,并依此報文判斷此服務器設備是否異常,再根據(jù)此服務器設備所處的功能是主服務器還是備份服務器來做出相應的判斷處理。
[0042]圖3顯示了本發(fā)明的狀態(tài)監(jiān)控方法中的異常處理流程示意圖。
[0043]參考圖3,如圖3所示,在異常處理步驟中,在所述設備感知服務器根據(jù)收到的業(yè)務模塊狀態(tài)信息報文判斷主服務器模塊異常的情況下,如果異常的模塊為非數(shù)據(jù)模塊,則發(fā)送報文通知異常服務器設備重啟異常模塊。
[0044]在異常處理步驟中,在所述設備感知服務器根據(jù)收到的業(yè)務模塊狀態(tài)信息報文判斷主服務器模塊異常的情況下,如果異常模塊為數(shù)據(jù)模塊,說明數(shù)據(jù)損壞,需要快速進行數(shù)據(jù)恢復,則發(fā)送重啟消息報文給異常服務器設備,并激活備份服務器設備。
[0045]在異常處理步驟中,在所述設備感知服務器根據(jù)收到的業(yè)務模塊狀態(tài)信息報文判斷備份服務器模塊異常的情況下,則只對備份數(shù)據(jù)發(fā)送重啟消息。
[0046]在上述步驟S1-S3的操作均完成后,則返回步驟SI中。
[0047]本發(fā)明的云計算集群服務器狀態(tài)監(jiān)控系統(tǒng)和方法,包括一個設備感知服務器,此設備感知服務器用來做集群服務器和備份服務器的異常感知設備,當一個服務器業(yè)務模塊異常時,所述設備感知服務器通過判斷服務器設備是否有流量,是否在正常處理報文,評估異常風險并做出相應動作,保證服務器設備在異常后快速恢復業(yè)務。
[0048]通過上述操作,由于設備感知服務器定時監(jiān)測集群服務器的狀態(tài)信息,從而設備感知服務器只需根據(jù)狀態(tài)信息報文的有無及統(tǒng)計情況便可判斷各個服務器有無異常,因此在服務器設備異常后,能夠快速檢測出異常,具有快速檢測服務器設備中指定的業(yè)務模塊異常的功能,因此減少了異常檢測時間。
[0049]另外,在服務器設備異常后,根據(jù)判斷出現(xiàn)異常的具體情況來決定具體的異常處理及恢復辦法。例如,在所述設備感知服務器根據(jù)收到的業(yè)務模塊狀態(tài)信息報文判斷主服務器模塊異常的情況下,如果異常的模塊為非數(shù)據(jù)模塊,則發(fā)送報文通知異常服務器設備重啟異常模塊;在所述設備感知服務器根據(jù)收到的業(yè)務模塊狀態(tài)信息報文判斷主服務器模塊異常的情況下,如果異常模塊為數(shù)據(jù)模塊,說明數(shù)據(jù)損壞,需要快速進行數(shù)據(jù)恢復,則發(fā)送重啟消息報文給異常服務器設備,并激活備份服務器設備。服務器的異常對于網(wǎng)絡用戶而言,就是掉線,因此監(jiān)測服務器的狀態(tài)并快速處理異常情況對于用戶而言,不會因為等待時間長而造成困擾。縮短業(yè)務恢復時間,不會因重啟時間長或需要人為重啟導致用戶斷網(wǎng)時間長,設備異常后能迅速恢復正常??偠灾?,本發(fā)明中,根據(jù)異常的具體情況具體分析,縮短設備異常后的恢復時間。對于云計算服務器的使用帶來了很多便利。
[0050]應當理解的是,本發(fā)明的上述【具體實施方式】僅僅用于示例性說明或解釋本發(fā)明的原理,而不構(gòu)成對本發(fā)明的限制。因此,在不偏離本發(fā)明的精神和范圍的情況下所做的任何修改、等同替換、改進等,均應包含在本發(fā)明的保護范圍之內(nèi)。此外,本發(fā)明所附權(quán)利要求旨在涵蓋落入所附權(quán)利要求范圍和邊界、或者這種范圍和邊界的等同形式內(nèi)的全部變化和修改例。
【權(quán)利要求】
1.一種云計算集群服務器狀態(tài)監(jiān)控系統(tǒng),包括: 集群服務器(10),包括多個云計算服務器(1,2,3); 備份服務器(11),連接到集群服務器(10)的多個云計算服務器,用于對該多個云計算服務器的數(shù)據(jù)進行備份; 設備感知服務器(12),連接到所述集群服務器(10)和備份服務器(11 ),用于感知集群服務器(10)和備份服務器(11)的異常情況。
2.根據(jù)權(quán)利要求1所述的云計算集群服務器狀態(tài)監(jiān)控系統(tǒng),所述設備感知服務器(12)感知集群服務器(10)中某臺云計算服務器的業(yè)務模塊異常,當該云計算服務器的某個業(yè)務模塊異常時,所述感知服務器(12)評估異常風險并報警。
3.根據(jù)權(quán)利要求2所述的云計算集群服務器狀態(tài)監(jiān)控系統(tǒng),所述設備感知服務器(12)感知的業(yè)務模塊包括網(wǎng)頁處理模塊、用戶交互管理模塊及用戶數(shù)據(jù)存儲模塊。
4.根據(jù)權(quán)利要求2所述的云計算集群服務器狀態(tài)監(jiān)控系統(tǒng),所述設備感知服務器(12)對感知的異常情況報文進行判斷,并根據(jù)異常服務器的功能及異常模塊的類型做出相應的異常情況恢復和操作處理。
5.一種云計算集群服務器狀態(tài)監(jiān)控方法,包括如下步驟: 流量檢查步驟,所述設備感知服務器對每個服務器的發(fā)報文和收報文進行統(tǒng)計,當在一定時間內(nèi)只有發(fā)送報文或者接收報文時,或者沒有報文時,所述感知服務器發(fā)送狀態(tài)請求報文; 異常檢測步驟,當集群服務器接收到所述設備感知服務器的狀態(tài)請求報文后,根據(jù)狀態(tài)請求報文的類型對本服務器的指定業(yè)務模塊進行檢查,并返回業(yè)務模塊狀態(tài); 異常處理步驟,所述設備感知服務器判斷此所述服務器設備是否異常,再根據(jù)服務器設備所處的功能是主服務器還是備份服務器來做出相應的判斷處理。
6.根據(jù)權(quán)利要求5所述的云計算集群服務器狀態(tài)監(jiān)控方法,其中所述異常處理步驟中,在所述設備感知服務器判斷主服務器模塊異常的情況下,如果異常的模塊為非數(shù)據(jù)模塊,則通知異常服務器設備重啟異常模塊。
7.根據(jù)權(quán)利要求5所述的云計算集群服務器狀態(tài)監(jiān)控方法,其中所述異常處理步驟中,在所述設備感知服務器判斷主服務器模塊異常的情況下,如果異常的模塊為數(shù)據(jù)模塊,說明數(shù)據(jù)損壞,需要快速進行數(shù)據(jù)恢復,則發(fā)送重啟消息給異常服務器設備,并激活備份服務器設備。
8.根據(jù)權(quán)利要求5所述的云計算集群服務器狀態(tài)監(jiān)控方法,其中所述異常處理步驟中,在所述設備感知服務器判斷備份服務器異常的情況下,則只對備份數(shù)據(jù)發(fā)送重啟消息。
【文檔編號】H04L12/24GK103475696SQ201310372875
【公開日】2013年12月25日 申請日期:2013年8月23日 優(yōu)先權(quán)日:2013年8月23日
【發(fā)明者】康暖 申請人:漢柏科技有限公司