專利名稱:一種具有彈性體系架構的集群管理監(jiān)控系統(tǒng)的構建方法
技術領域:
本發(fā)明屬于計算機領域,涉及集群管理監(jiān)控系統(tǒng),特別涉及一種具有彈性體系架構的集群管理監(jiān)控系統(tǒng)的構建方法。
背景技術:
集群就是通過高性能網(wǎng)絡或局部網(wǎng)將一組計算機系統(tǒng)(節(jié)點)互聯(lián),形成的具有單一系統(tǒng)映像的高性能、高可用、高可擴展性、高性價比的多計算機系統(tǒng)。由于其相對于傳統(tǒng)的大型機的高可用性和低價格的優(yōu)勢,用集群構造超級計算機或超級服務器成為一種流行的趨勢。
近年來,隨著技術的發(fā)展,集群的規(guī)模從過去的數(shù)個節(jié)點擴充到數(shù)百個節(jié)點甚至數(shù)千個節(jié)點,對集群系統(tǒng)的管理監(jiān)控也變得越來越復雜,集群管理監(jiān)控越來越成為一項具有挑戰(zhàn)性的工作。如何保持對軟件的更新、監(jiān)視硬件和軟件的運行狀態(tài)以及對集群進行定期的維護等都成為集群管理員費時費力的工作。集群管理監(jiān)控系統(tǒng)的出現(xiàn)大大解放了集群管理員的日常工作,使他們可以通過圖形界面方便地實現(xiàn)對整個集群的管理。集群管理監(jiān)控系統(tǒng)是集群系統(tǒng)軟件的一部分,處于系統(tǒng)軟件的最頂層,它對整個集群的軟、硬件起到管理的作用,為集群的系統(tǒng)管理員和最終用戶提供服務。集群系統(tǒng)的一個基本特點是“整個系統(tǒng)呈現(xiàn)給用戶的是單一系統(tǒng)的映像”,為實現(xiàn)這一目標,應提供在單一控制臺上包括對集群的規(guī)劃、安裝、配置、監(jiān)控、日常維護、開機關機等系統(tǒng)管理全過程的控制支持。集群管理監(jiān)控系統(tǒng)應提供一套多功能、易使用、可擴展的實用化管理工具,幫助管理員監(jiān)控整個集群的工作狀態(tài),保證集群系統(tǒng)高效、穩(wěn)定地運行。
基于B/S結構的集群管理監(jiān)控系統(tǒng)已成為集群管理監(jiān)控系統(tǒng)的發(fā)展趨勢,而目前多數(shù)B/S結構的集群管理監(jiān)控系統(tǒng)的體系架構分為四層,即WebServer、總管理節(jié)點、子管理節(jié)點和被管節(jié)點。命令從上到下依次轉發(fā),這種分層方式的缺點是任務轉發(fā)次數(shù)過多,任務下達到被管節(jié)點需要在網(wǎng)絡上進行三次交互,通信效率不高,尤其是當集群規(guī)模較小時,子管理節(jié)點根本沒有存在的意義。這種體系架構無法根據(jù)集群規(guī)模靈活改變,并且通信次數(shù)過多,增加了網(wǎng)絡負擔,降低了任務執(zhí)行效率。
發(fā)明內容
針對上述現(xiàn)有技術存在的缺陷和不足,本發(fā)明的目的在于,提供一種根據(jù)集群規(guī)模靈活改變體系架構的集群管理監(jiān)控系統(tǒng)的構建方法。
為了實現(xiàn)上述任務,本發(fā)明采取如下的技術方案一種具有彈性體系架構的集群管理監(jiān)控系統(tǒng)的構建方法,其特征在于,體系架構的構建采用分層設計,根據(jù)集群規(guī)模和管理節(jié)點、子管理節(jié)點和被管節(jié)點的角色劃分層數(shù),實現(xiàn)層級托管,對于小規(guī)模集群系統(tǒng)采用兩層體系架構,大規(guī)模集群系統(tǒng)則采用三層體系架構;體系架構的改變通過一個配置文件即可快速實現(xiàn);任務按業(yè)務類型分類,劃分為管理、監(jiān)控和報警三種類型,不同業(yè)務類型對應不同業(yè)務流程;任務的轉發(fā)和執(zhí)行采用多線程并發(fā)機制;采用B/S結構,客戶端通過瀏覽器遠程管理監(jiān)控集群系統(tǒng)。
在本發(fā)明中,集群中的各節(jié)點(服務器)采用層級托管的方式進行管理和監(jiān)控。當集群規(guī)模較小時,采用兩層體系架構,即管理層和被管理層,并將Web Server置于管理層,即通過Web Server直接將命令轉發(fā)給被管節(jié)點,Web Server和被管節(jié)點之間不再需要一個單獨的管理節(jié)點,這種架構最大程度地減少了任務轉發(fā)次數(shù)(零轉發(fā)),降低了通信出錯率,提高了通信效率;當規(guī)模較大時,采用三層體系架構,即管理層、子管理層和被管理層,分層托管,有效減少了直接與管理層交互的被管理節(jié)點數(shù)目,解決了管理節(jié)點的單點瓶頸問題,提高了集群系統(tǒng)的可擴展性。同時,層與層之間的任務轉發(fā)采用多線程并發(fā)機制,大大提高了批量任務執(zhí)行時管理監(jiān)控系統(tǒng)的執(zhí)行效率,提高了系統(tǒng)可靠性。在本發(fā)明中,將所有任務按業(yè)務類型劃分(管理、監(jiān)控和報警),不同業(yè)務類型對應不同業(yè)務流程,業(yè)務流程彼此獨立,模塊化結構好,提高了管理監(jiān)控系統(tǒng)的可擴展性和易維護性。
圖1為小規(guī)模集群管理監(jiān)控系統(tǒng)體系架構及層間的交互流程圖。
圖2為大規(guī)模集群管理監(jiān)控系統(tǒng)體系架構及層間的交互流程圖。
以下結合附圖和發(fā)明人給出的實施例對本發(fā)明進行進一步的詳細說明。
具體實施例方式
在本發(fā)明的根據(jù)集群規(guī)模靈活改變體系架構的集群管理監(jiān)控系統(tǒng)構建方法中,集群管理監(jiān)控系統(tǒng)的構建采用分層設計,按集群規(guī)模和節(jié)點角色劃分層數(shù)。當集群規(guī)模較小時采用兩層體系架構,把Web Server作為管理層,不再需要一個單獨的管理節(jié)點,而是由Web Server直接向各節(jié)點派發(fā)命令,這種體系架構最大程度地減少了任務轉發(fā)次數(shù)(零轉發(fā)),降低了通信出錯率,提高了通信效率。當集群規(guī)模較大時采用三層架構,實現(xiàn)了層級托管,即Web Server(管理節(jié)點)轉發(fā)任務給其下屬的各子管理節(jié)點,各子管理節(jié)點再將任務派發(fā)給其轄域內的各被管節(jié)點,這種層級托管機制,有效減少了直接與管理節(jié)點交互的節(jié)點數(shù)目,解決了管理節(jié)點的單點瓶頸問題,提高了通信效率,同時還大大提高了集群系統(tǒng)規(guī)模的可擴展性。
在本發(fā)明中,系統(tǒng)能夠根據(jù)集群規(guī)模靈活改變體系架構,同時確保命令在網(wǎng)絡上的轉發(fā)次數(shù)最少,極大地提高了任務執(zhí)行效率。
本發(fā)明如附圖1所示,其中,帶箭頭的虛線表示管理業(yè)務流程、帶箭頭的點劃線表示監(jiān)控業(yè)務流程、帶箭頭的實線表示報警業(yè)務流程、單向箭頭表示層間單向交互,雙向箭頭表示層間雙向交互。小規(guī)模集群管理監(jiān)控系統(tǒng)采用兩層體系架構,即管理層和被管理層。管理層包括三個模塊Web Server、MonitorAgent和AlarmAgent,而被管理層僅包括一個接收和執(zhí)行命令的模塊。兩層之間按業(yè)務類型的不同采用不同的交互流程。其中,管理流程為(圖中帶箭頭的虛線所示)Web Server直接將管理命令派發(fā)到各被管節(jié)點,WebServer和被管節(jié)點之間無須再通過一個管理節(jié)點轉發(fā)命令,被管節(jié)點執(zhí)行命令后返回結果給Web Server,這種設計最大程度地減少了管理命令的轉發(fā)次數(shù)(零轉發(fā)),提高了通信效率;監(jiān)控流程為(圖中帶箭頭的點劃線所示)MonitorAgent模塊按一定時間間隔(用戶可自由設定)定期收取各被管節(jié)點的性能和健康(服務器各部件的溫度、電壓和風扇轉速等)信息,再將這些信息寫入數(shù)據(jù)庫(便于對歷史數(shù)據(jù)進行再現(xiàn)和分析),管理節(jié)點的WebServer模塊負責從數(shù)據(jù)庫中按用戶需求提取相應的監(jiān)控數(shù)據(jù),并以動態(tài)圖形界面的形式呈現(xiàn)給用戶;報警流程為(圖中帶箭頭的實線所示)每個被管節(jié)點定期監(jiān)控自身的性能和健康信息,若發(fā)現(xiàn)性能超標或節(jié)點不健康則主動向管理節(jié)點匯報,管理節(jié)點的AlarmAgent模塊收到報警信息后,將立刻啟動報警機制,在本發(fā)明中,實現(xiàn)了瀏覽器界面報警、email報警和撥號報警三種報警方式。此外,AlarmAgent執(zhí)行完報警處理事務后,還要將報警信息寫入數(shù)據(jù)庫中,便于用戶查看報警歷史信息并進行數(shù)據(jù)分析。
如附圖2所示,其中,帶箭頭的虛線表示管理業(yè)務流程、帶箭頭的點劃線表示監(jiān)控業(yè)務流程、帶箭頭的實線表示報警業(yè)務流程、單向箭頭表示層間單向交互,雙向箭頭表示層間雙向交互。大規(guī)模集群管理監(jiān)控系統(tǒng)采用三層體系架構,即管理層、子管理層和被管理層。管理層包括兩個模塊WebServer和Alarm Agent,子管理層包括一個命令轉發(fā)模塊,被管理層包括一個命令執(zhí)行模塊。需要特別說明的是,在本發(fā)明中,子管理節(jié)點本身也是一個被管節(jié)點,它可以被它自己或其它子管理節(jié)點管理,否則,它將游離于整個集群管理監(jiān)控系統(tǒng)之外。在大規(guī)模集群管理監(jiān)控系統(tǒng)架構中,三層間的通信按業(yè)務類型采用不同的交互流程。其中,管理流程為(圖中帶箭頭的虛線所示)Web Server將命令派發(fā)給子管理節(jié)點,子管理節(jié)點再將命令轉發(fā)給被管理節(jié)點,命令執(zhí)行完成后沿原路返回執(zhí)行結果;監(jiān)控流程為(圖中帶箭頭的點劃線所示)各子管理節(jié)點負責定期收取其所轄范圍內的被管節(jié)點的監(jiān)控信息,并將這些信息寫入數(shù)據(jù)庫(便于日后進行歷史數(shù)據(jù)再現(xiàn)和分析),管理節(jié)點的Web Server模塊負責從數(shù)據(jù)庫中按用戶需求提取相應的監(jiān)控數(shù)據(jù),并以動態(tài)圖形界面的形式呈現(xiàn)給用戶;報警流程(圖中帶箭頭的實線所示)為管理節(jié)點的AlarmAgent模塊負責所有子管理節(jié)點和被管節(jié)點的報警業(yè)務,具體的業(yè)務流程與小規(guī)模集群下的報警業(yè)務流程類似,不再贅述。通過流程分析可以看到,大規(guī)模集群系統(tǒng)下的這種層級托管機制,有效減少了直接與管理節(jié)點交互的被管節(jié)點的個數(shù),解決了管理節(jié)點的單點瓶頸問題,提高了通信效率,同時還大大提高了集群系統(tǒng)規(guī)模的可擴展性。
在本發(fā)明中,用戶只需要通過填寫一個簡單的配置文件,即可實現(xiàn)上述功能。以下為發(fā)明人給出的一種具體實施例用戶填寫配置文件,配置文件內容包括三項節(jié)點名、節(jié)點IP和節(jié)點角色。
啟動Web Server和各節(jié)點的Agent。
Web server啟動后,管理節(jié)點將自動讀取配置文件信息并將此信息寫入數(shù)據(jù)庫的NodeInfo表(反映節(jié)點信息的表,包括節(jié)點名、節(jié)點IP和節(jié)點ID)和NMInfo表(反映節(jié)點角色及節(jié)點隸屬關系,包括節(jié)點ID及其子管理節(jié)點ID)。同時,一個負責記錄整個集群拓撲結構的類將讀取這兩個表中的信息并構建系統(tǒng)拓撲結構對象topology,并將此對象加載到內存中。當用戶執(zhí)行管理命令時,系統(tǒng)首先根據(jù)topology對象判斷用戶所選擇的一系列節(jié)點分別隸屬于哪些子管理節(jié)點,再將命令同時派發(fā)給這些子管理節(jié)點,通過子管理節(jié)點轉發(fā)管理命令到被管節(jié)點上,被管節(jié)點收到命令后執(zhí)行,執(zhí)行結果將按原路返回給Web Server。若用戶所選擇的某些節(jié)點沒有子管理節(jié)點,則web server將直接發(fā)送管理命令給這些節(jié)點,節(jié)點執(zhí)行完成后將結果返回給Web Server,此時管理監(jiān)控系統(tǒng)架構在局部范圍內演變?yōu)樾∫?guī)模系統(tǒng)的兩層架構。
各層在轉發(fā)命令時,采用了多線程并發(fā)機制,具體實現(xiàn)是構建一個線程池,線程池為每一個任務分配一個獨立的線程,各線程彼此獨立,該機制保障了批量任務執(zhí)行時管理監(jiān)控系統(tǒng)的執(zhí)行效率。此外,在本發(fā)明中所構建的線程池是一個自適應大小的線程池,它可以根據(jù)任務量的大小自行創(chuàng)建或殺死池中的線程,實現(xiàn)按需構建,從而確保任務執(zhí)行效率和資源的最低使用。
管理節(jié)點或子管理節(jié)點Agent啟動后,將從數(shù)據(jù)庫讀取其所管轄節(jié)點的ID列表,并加載所有監(jiān)控方法到內存中,此時,系統(tǒng)將創(chuàng)建一個“任務規(guī)劃線程池”,該池具有兩個特點根據(jù)任務量自適應池中線程數(shù)目;周期性執(zhí)行所計劃的任務。通過該池實現(xiàn)了高效、低資源利用率地執(zhí)行監(jiān)控業(yè)務,即通過該池按一定周期定期監(jiān)控各節(jié)點性能和健康信息。此外,在本發(fā)明中,為每一個節(jié)點的每一個監(jiān)控方法在池中分配一個獨立的線程,各線程獨立運行,這種設計避免了由于某一個監(jiān)控信息獲取失敗而導致其它信息無法獲取的問題。各監(jiān)控方法通過面向對象的通信協(xié)議RMI遠程獲取被管節(jié)點的監(jiān)控信息并將信息寫入數(shù)據(jù)庫。需要特別說明的是,在本發(fā)明中,周期性執(zhí)行各監(jiān)控業(yè)務是指前一次任務必須執(zhí)行完成(無論成功或失敗)后間隔一定周期才執(zhí)行下一次任務,而不是基于時間間隔的周期性執(zhí)行(即無論前一次的任務完成與否,按時間間隔定期執(zhí)行任務),基于時間間隔的這種執(zhí)行方式容易導致大量任務的阻塞。
被管節(jié)點的Agent啟動后,將啟動報警守護進程,按一定時間間隔周期性監(jiān)控本節(jié)點的性能和健康信息,若發(fā)現(xiàn)問題將主動向管理節(jié)點匯報。管理節(jié)點收到報警信息后,將立刻執(zhí)行報警事務處理業(yè)務,并將報警信息寫入數(shù)據(jù)庫。此外,被管節(jié)點Agent還負責接受并執(zhí)行來自管理節(jié)點或子管理節(jié)點的命令。
通過上述實施例可以看出,本發(fā)明的具有彈性體系架構的集群管理監(jiān)控系統(tǒng)的構建方法,能夠根據(jù)集群規(guī)模靈活改變管理監(jiān)控系統(tǒng)的體系架構。當集群規(guī)模較小時采用兩層架構,最大程度減少了任務轉發(fā)次數(shù)(零轉發(fā)),提高了通信效率。當規(guī)模較大時采用三層架構,有效減少了直接與管理節(jié)點交互的節(jié)點個數(shù),解決了管理節(jié)點的單點瓶頸問題,提高了集群規(guī)模的可擴展性。體系架構的改變通過一個配置文件即可快速實現(xiàn)。按業(yè)務類型(管理、監(jiān)控和報警)劃分任務,不同業(yè)務類型對應不同的業(yè)務流程,各流程彼此獨立,模塊化結構較好,提高了管理監(jiān)控系統(tǒng)的可擴展性和易維護性。引入多線程并發(fā)機制,大大提高了批量任務執(zhí)行時管理監(jiān)控系統(tǒng)的執(zhí)行效率。此外,系統(tǒng)采用B/S結構,用戶通過web瀏覽器即可方便地對集群系統(tǒng)進行遠程管理監(jiān)控。
權利要求
1.一種具有彈性體系架構的集群管理監(jiān)控系統(tǒng)的構建方法,其特征在于,體系架構的構建采用分層設計,根據(jù)集群規(guī)模和管理節(jié)點、子管理節(jié)點和被管節(jié)點的角色劃分層數(shù),實現(xiàn)層級托管,對于小規(guī)模集群系統(tǒng)采用兩層體系架構,大規(guī)模集群系統(tǒng)采用三層體系架構;體系架構的改變通過一個配置文件即可快速實現(xiàn);任務按業(yè)務類型分類,劃分為管理、監(jiān)控和報警三種類型,不同業(yè)務類型對應不同業(yè)務流程;任務的轉發(fā)和執(zhí)行采用多線程并發(fā)機制;采用B/S結構,客戶端通過瀏覽器遠程管理監(jiān)控集群系統(tǒng)。
2.如權利要求1所述的方法,其特征在于,所述的小規(guī)模集群系統(tǒng)的兩層體系架構劃分為管理層和被管理層兩層;大規(guī)模集群系統(tǒng)的三層體系架構劃分為管理層、子管理層和被管理層。
3.如權利要求2所述的方法,其特征在于,所述的兩層體系架構的管理層有Web Server、MonitorAgent和AlarmAgent三個模塊;被管理層僅有一個接收和執(zhí)行命令的模塊,兩層之間按業(yè)務類型的不同采用不同的交互流程;其管理流程為Web Server直接將管理命令派發(fā)到各被管節(jié)點,WebServer和被管節(jié)點之間無須再通過一個管理節(jié)點轉發(fā)命令,被管節(jié)點執(zhí)行命令后返回結果給Web Server;監(jiān)控流程為MonitorAgent模塊按用戶自定義的時間間隔定期收取各被管節(jié)點的性能和健康信息,再將這些信息寫入數(shù)據(jù)庫,用戶通過WebServer從數(shù)據(jù)庫中獲取監(jiān)控信息;報警流程為每個被管節(jié)點定期監(jiān)控自身的性能和健康信息,若發(fā)現(xiàn)性能超標或節(jié)點不健康則主動向管理節(jié)點匯報,管理節(jié)點的AlarmAgent模塊收到報警信息后,將立刻啟動報警機制,此外,AlarmAgent執(zhí)行完報警處理事務后,還要將報警信息寫入數(shù)據(jù)庫中,便于用戶查看報警歷史信息并進行數(shù)據(jù)分析。
4.如權利要求2所述的方法,其特征在于,所述的三層體系架構的管理層包括Web Server和Alarm Agent兩個模塊,子管理層包括一個命令轉發(fā)模塊,被管理層包括一個命令執(zhí)行模塊;子管理層中的各子管理節(jié)點本身也是被管節(jié)點,它可以被它自己或其它子管理節(jié)點管理,否則,它將游離于整個集群管理監(jiān)控系統(tǒng)之外;三層之間按業(yè)務類型采用不同的交互流程,其各業(yè)務流程之間彼此相互獨立;其管理流程為Web Server將命令派發(fā)給子管理節(jié)點,子管理節(jié)點再將命令轉發(fā)給被管理節(jié)點,命令執(zhí)行完成后沿原路返回執(zhí)行結果;監(jiān)控流程為各子管理節(jié)點定期收取其所轄范圍內的被管節(jié)點的監(jiān)控信息,并將這些信息寫入數(shù)據(jù)庫;報警流程為管理節(jié)點的AlarmAgent模塊負責所有子管理節(jié)點和被管節(jié)點的報警業(yè)務,每個被管節(jié)點定期監(jiān)控自身的性能和健康信息,若發(fā)現(xiàn)性能超標或節(jié)點不健康則主動向管理節(jié)點匯報,管理節(jié)點的AlarmAgent模塊收到報警信息后,將立刻啟動報警機制,此外,AlarmAgent執(zhí)行完報警處理事務后,還要將報警信息寫入數(shù)據(jù)庫中,便于用戶查看報警歷史信息并進行數(shù)據(jù)分析。
5.如權利要求1所述的方法,其特征在于,所述的配置文件內容包括節(jié)點名、節(jié)點IP和節(jié)點ID,Web server啟動后,管理節(jié)點將自動讀取配置文件信息并將此信息寫入數(shù)據(jù)庫的反映節(jié)點信息的NodeInfo表和反映節(jié)點角色及節(jié)點隸屬關系的NMInfo表,一個負責記錄整個集群拓撲結構的類將讀取這兩個表中的信息并構建系統(tǒng)拓撲結構對象topology,并將此對象加載到內存中,系統(tǒng)依據(jù)此對象所存儲的集群拓撲結構信息進行任務的轉發(fā)。
6.如權利要求1所述的方法,其特征在于,所述的多線程并發(fā)機制是,任務轉發(fā)時,上層節(jié)點為其轄域內的每一個子節(jié)點開辟一個或一組獨立的線程進行單任務或多任務的轉發(fā)和結果信息的獲取。
全文摘要
本發(fā)明公開了一種具有彈性體系架構的集群管理監(jiān)控系統(tǒng)的構建方法,該方法中,系統(tǒng)體系架構的構建采用分層設計,根據(jù)集群規(guī)模和節(jié)點角色劃分層數(shù),實現(xiàn)層級托管,對于小規(guī)模集群系統(tǒng)采用兩層體系架構,實現(xiàn)了任務的零轉發(fā),提高了通信效率,大規(guī)模集群系統(tǒng)則采用三層體系架構,解決了管理節(jié)點的單點瓶頸問題,提高了通信效率和集群規(guī)模的可擴展性;體系架構的改變通過一個配置文件即可快速實現(xiàn);任務按業(yè)務類型分類,不同業(yè)務類型對應不同業(yè)務流程;任務的轉發(fā)和執(zhí)行采用多線程并發(fā)機制,大大提高了批量任務執(zhí)行時管理監(jiān)控系統(tǒng)的執(zhí)行效率;采用B/S結構,客戶端通過瀏覽器即可方便地對集群系統(tǒng)進行遠程管理監(jiān)控。
文檔編號G06F15/16GK1805379SQ20061004160
公開日2006年7月19日 申請日期2006年1月5日 優(yōu)先權日2006年1月5日
發(fā)明者薛正華, 李景山, 董小社, 伍衛(wèi)國, 胡雷鈞, 李萬城, 王守昊 申請人:西安交通大學, 浪潮電子信息產業(yè)股份有限公司