一種自動收集計算機集群節(jié)點信息并分析的方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及集成電路芯片制造技術(shù)領(lǐng)域,具體涉及一種計算機集群系統(tǒng)。
【背景技術(shù)】
[0002]集成電路芯片制造是一個十分復(fù)雜的過程,完成一種芯片的制造可能需要花費幾周時間和經(jīng)歷數(shù)百道工序。由于半導(dǎo)體相關(guān)科技發(fā)展已經(jīng)趨于物理現(xiàn)象極限,客戶的要求亦日趨多樣化,使得半導(dǎo)體工藝的彈性和復(fù)雜程度變得越來越高,稍有差錯就會使公司發(fā)生很大損失,因此信息自動化技術(shù)被大量的引入到半導(dǎo)體制造工廠中。
[0003]信息自動化可以大大提高設(shè)備的管理水平、進行工藝數(shù)據(jù)的收集和統(tǒng)計工藝控制、保證物流控制更加順利,同時還可以提高工藝方案(recipe)的管理水平,減少誤操作和返工的現(xiàn)象,這些都大大推動產(chǎn)品良率的提升。同時信息自動化還可以實現(xiàn)先進的實時派工,提高生產(chǎn)速度和效率,信息自動化對于提升半導(dǎo)體制造工廠的價值起到了至關(guān)重要的作用。
[0004]由于半導(dǎo)體制造工廠中越來越多的自動化控制業(yè)務(wù)得到了 IT(Informat1nTechnology,信息技術(shù))的支持并借助于IT實現(xiàn)了自動化,所以高度可用的企業(yè)IT基礎(chǔ)設(shè)施變得異常重要。為了確保業(yè)務(wù)服務(wù)是高度可用的,IT基礎(chǔ)設(shè)施的高可靠性是保證。通常,高度可用的IT基礎(chǔ)設(shè)施通過基于冗余的高可用性(High Availability簡稱HA)方案來實現(xiàn),其中基于冗余的HA方案從IT管理角度來說是主要的可用性量度。基于冗余的HA方案通過將關(guān)鍵數(shù)據(jù)和應(yīng)用從崩潰的IT系統(tǒng)故障轉(zhuǎn)移到另一個對等的系統(tǒng)中來為客戶提供連續(xù)的不間斷的服務(wù),從而降低了服務(wù)的停機時間和相應(yīng)的損失。
[0005]然而,隨著計算機技術(shù)的發(fā)展,IT的基礎(chǔ)設(shè)施架構(gòu)變得越來越復(fù)雜而難以管理。添加新機器、改變網(wǎng)絡(luò)配置或存儲設(shè)備通常是復(fù)雜且容易出錯的手動任務(wù)。而且隨著IT基礎(chǔ)設(shè)施架構(gòu)內(nèi)計算機集群的規(guī)模變得越來越龐大,集群系統(tǒng)的管理監(jiān)控也變得越來越復(fù)雜,集群的監(jiān)控管理越來越成為一項具有挑戰(zhàn)性的工作。目前狀況下,集群系統(tǒng)內(nèi)的硬件節(jié)點在做過變更后,需要系統(tǒng)管理員手工檢查狀況,由于手工操作對系統(tǒng)管理員帶來了更高的要求,且容易出錯;如何有效地監(jiān)控集群系統(tǒng),保證集群系統(tǒng)的冗余,成為系統(tǒng)管理員費時費力的工作。
【發(fā)明內(nèi)容】
[0006]本發(fā)明的目的在于,提供一種自動收集計算機集群節(jié)點信息并分析的方法,解決以上技術(shù)問題;
[0007]本發(fā)明的目的在于,提供一種自動收集計算機集群節(jié)點信息并分析的系統(tǒng),解決以上技術(shù)問題;
[0008]本發(fā)明所解決的技術(shù)問題可以采用以下技術(shù)方案來實現(xiàn):
[0009]一種自動收集計算機集群節(jié)點信息并分析的方法,其中,包括以下步驟:
[0010]步驟Si,獲取計算機集群中的所有節(jié)點信息;
[0011]步驟s2,存儲所述節(jié)點信息;
[0012]步驟s3,從存儲的所述節(jié)點信息中獲取未檢測的節(jié)點,依據(jù)相應(yīng)的檢測策略對所述節(jié)點進行冗余分析并生成分析結(jié)果;
[0013]步驟s4,循環(huán)所述步驟S3直至所有節(jié)點完成冗余分析;
[0014]步驟s5,依據(jù)所述分析結(jié)果判斷是否有節(jié)點存在單點風險,并生成一檢測結(jié)果。
[0015]優(yōu)選地,步驟s3具體如下:
[0016]步驟s31,獲取待檢測節(jié)點的平臺類型;
[0017]步驟s32,獲取與所述平臺類型對應(yīng)的檢測策略;
[0018]步驟s33,利用檢測策略對待檢測節(jié)點進行冗余信息檢測,并生成分析結(jié)果。
[0019]優(yōu)選地,每一種平臺類型對應(yīng)一種檢測策略,每一種檢測策略包括至少一個檢測規(guī)則;步驟s5中,當被檢測節(jié)點不滿足相應(yīng)的檢測策略的任意一個檢測規(guī)則時,則判斷被檢測節(jié)點存在單點風險。
[0020]優(yōu)選地,在所述步驟s2之后所述步驟s5之前,還包括步驟s6,依據(jù)一預(yù)設(shè)的拓撲關(guān)系將所述計算機集群中的節(jié)點生成一節(jié)點信息數(shù)據(jù)鏈,所述節(jié)點信息數(shù)據(jù)鏈包含的節(jié)點信息通過一圖形生成單元生成系統(tǒng)硬件架構(gòu)圖。
[0021]優(yōu)選地,步驟s6具體如下:
[0022]步驟s61,獲取所述節(jié)點的平臺類型;
[0023]步驟s62,獲取與所述平臺類型對應(yīng)的拓撲關(guān)系;
[0024]步驟s63,依據(jù)所述拓撲關(guān)系形成一樹形結(jié)構(gòu)的節(jié)點信息數(shù)據(jù)鏈,保存在一設(shè)定格式的文件中;
[0025]步驟s64,所述圖形生成單元獲取所述設(shè)定格式的文件,并依據(jù)所述設(shè)定格式的文件中包含的節(jié)點信息動態(tài)生成所述系統(tǒng)硬件架構(gòu)圖。
[0026]優(yōu)選地,所述檢測策略包括系統(tǒng)硬件冗余檢測策略,所述系統(tǒng)硬件冗余檢測策略的檢測規(guī)則包括硬件是否為雙硬盤及硬盤是否做了鏡像,和/或是否是雙電源,和/或雙電源是否連接到不同的不間斷電源。
[0027]優(yōu)選地,所述檢測策略包括網(wǎng)絡(luò)鏈路冗余檢測策略,所述網(wǎng)絡(luò)鏈路冗余檢測策略的檢測規(guī)則包括是否是雙網(wǎng)卡,和/或雙網(wǎng)卡是否連接到了不同網(wǎng)絡(luò)管理設(shè)備上,和/或所連接的網(wǎng)絡(luò)管理設(shè)備是否冗余。
[0028]優(yōu)選地,所述檢測策略包括光纖鏈路冗余檢測策略,所述光纖鏈路冗余檢測策略的檢測規(guī)則包括是否是雙主機總線適配器卡;和/或雙主機總線適配器卡是否連接到了不同的光纖管理設(shè)備上;和/或所連接的光纖管理設(shè)備是否冗余。
[0029]優(yōu)選地,所述檢測策略包括業(yè)務(wù)應(yīng)用系統(tǒng)冗余檢測策略,所述業(yè)務(wù)應(yīng)用系統(tǒng)冗余檢測策略的檢測規(guī)則包括核心業(yè)務(wù)應(yīng)用系統(tǒng)是否存在于至少兩個主機上。
[0030]優(yōu)選地,所述設(shè)定格式的文件采用可擴展標記語言格式文件,所述節(jié)點信息數(shù)據(jù)鏈保存在可擴展標記語言格式文件中。
[0031]本發(fā)明還提供一種自動收集計算機集群節(jié)點信息并分析的系統(tǒng),其中,
[0032]包括,
[0033]節(jié)點信息收集模塊,用于獲取計算機集群中的節(jié)點信息;
[0034]節(jié)點信息存儲模塊,與所述節(jié)點信息收集模塊連接,用于存儲所述節(jié)點信息收集模塊收集的節(jié)點信息;
[0035]冗余信息分析模塊,與所述節(jié)點信息存儲模塊連接,依據(jù)設(shè)定的檢測策略對節(jié)點進行冗余分析,并生成一分析結(jié)果。
[0036]優(yōu)選地,所述冗余信息分析模塊包含一報表生成單元,用于依據(jù)所述分析結(jié)果生成一冗余信息分析報表,所述冗余信息分析報表至少包含所有檢查失敗的節(jié)點名稱和檢查項目。
[0037]優(yōu)選地,還包括,系統(tǒng)硬件架構(gòu)信息生成模塊,與所述節(jié)點信息存儲模塊連接,用于依據(jù)計算機集群節(jié)點之間預(yù)設(shè)的拓撲關(guān)系形成一樹形結(jié)構(gòu)的節(jié)點信息數(shù)據(jù)鏈。
[0038]優(yōu)選地,還包含一圖形生成單元,所述圖形生成單元與所述系統(tǒng)硬件架構(gòu)信息生成模塊連接,通過獲取所述節(jié)點信息數(shù)據(jù)鏈包含的節(jié)點信息生成系統(tǒng)硬件架構(gòu)圖。
[0039]有益效果:由于采用以上技術(shù)方案,
[0040]I)本發(fā)明可以有效的降低系統(tǒng)管理員的工作量,避免手工輸入的錯誤和遺漏,為集群平臺的監(jiān)控分析提供數(shù)據(jù)基礎(chǔ),降低集群系統(tǒng)出現(xiàn)單點故障的風險,提高系統(tǒng)的可靠性;
[0041]2)本發(fā)明可以有效地規(guī)避IT基礎(chǔ)設(shè)施中的單點風險,為系統(tǒng)管理員在添加硬件、軟件或者是修改當前的程序或流程后做冗余性檢查,減少單點故障;
[0042]3)本發(fā)明還提出了一種根據(jù)預(yù)設(shè)的集群節(jié)點拓撲關(guān)系,形成樹形節(jié)點信息數(shù)據(jù)鏈,動態(tài)生成系統(tǒng)硬件架構(gòu)圖的技術(shù)手段,為系統(tǒng)管理員對整體系統(tǒng)可靠性分析和決策提供有效依據(jù)。
【附圖說明】
[0043]圖1為本發(fā)明的系統(tǒng)流程示意圖;
[0044]圖2為本發(fā)明對節(jié)點信息進行冗余分析的流程示意圖;
[0045]圖3為本發(fā)明生成系統(tǒng)硬件架構(gòu)圖的流程示意圖;
[0046]圖4為本發(fā)明信息數(shù)據(jù)鏈的一種具體實施例的XML文件示例;
[0047]圖5為圖4中的XML文件中列出的節(jié)點信息生成的系統(tǒng)硬件架構(gòu)圖示例。
【具體實施方式】
[0048]下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動的前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
[0049]需要說明的是,在不沖突的情況下,本發(fā)明中的實施例及實施例中的特征可以相