本發(fā)明涉及人工智能,尤其涉及一種用于集群系統(tǒng)智能運維的效能評價方法和設備。
背景技術:
1、隨著現(xiàn)代信息化和智能化技術的快速發(fā)展,集群系統(tǒng)作為一種由大規(guī)模設備組成的復雜系統(tǒng),已被廣泛應用于多個領域,如能源、交通、通信、國防等。集群系統(tǒng)通常由多個相互協(xié)作的設備或節(jié)點組成,其復雜的結構和廣泛的應用環(huán)境導致了運維工作的高度復雜性。為保證集群系統(tǒng)的持續(xù)、高效運行,智能運維技術成為集群系統(tǒng)領域的重要研究方向。
2、傳統(tǒng)的集群系統(tǒng)運維主要依賴于人工監(jiān)控和預定的維修周期,常見的運維模式包括定期維修和事后維修。然而,這些模式存在著明顯的不足:1、事后維修:當集群系統(tǒng)發(fā)生故障后才進行修復,往往導致系統(tǒng)停機時間過長,增加了系統(tǒng)維護成本和風險。2、定期維修:預設的維修周期無法靈活應對集群系統(tǒng)中設備的運行狀態(tài),容易出現(xiàn)維修過頻或維修不足的問題。
3、為了提升集群系統(tǒng)運維的效率和可靠性,智能化的預測性維修和實時的效能評價方法逐漸成為研究熱點。近年來,隨著大數(shù)據(jù)、人工智能、深度學習等技術的發(fā)展,基于強化學習和深度學習的智能決策技術逐步應用于集群系統(tǒng)的智能運維中。通過構建集群系統(tǒng)的多維態(tài)勢感知和效能評價模型,可以在系統(tǒng)發(fā)生故障前及時預測潛在問題,制定相應的運維決策,最大限度地提升系統(tǒng)運行的可靠性和效能。
4、盡管如此,現(xiàn)有的集群系統(tǒng)效能評價方法仍面臨一些關鍵問題和挑戰(zhàn):1、多維態(tài)勢感知的復雜性:集群系統(tǒng)中的設備之間具有高度的協(xié)同性和不確定性,實時監(jiān)控系統(tǒng)中的多維態(tài)勢信息(如節(jié)點狀態(tài)、任務執(zhí)行情況、環(huán)境變化等)并進行綜合分析存在一定的技術挑戰(zhàn)。2、效能評價的精度不足:由于集群系統(tǒng)的高復雜性,傳統(tǒng)的效能評價方法難以準確評估系統(tǒng)的運行狀態(tài),尤其是在大規(guī)模集群系統(tǒng)的動態(tài)變化情況下,缺少科學、合理的效能評價模型。3、缺乏彈性評估:在面臨突發(fā)事件或故障時,如何評估集群系統(tǒng)的彈性和恢復能力,以便快速制定修復和重構方案,是現(xiàn)有技術中的一個重要難點。
5、申請人前期針對長期運行階段系統(tǒng)性能退化條件下三層級時間動態(tài)集群系統(tǒng)的“預測性維修”問題,通過基于dqn深度強化學習的方法綜合權衡系統(tǒng)退化狀態(tài)與維修收益不均衡特征,生成預測性維修方案,具體參見中國發(fā)明專利申請(申請?zhí)枺?02411357728x,申請日:20240927)公開的一種基于dqn的集群系統(tǒng)預測性維修決策方法;針對面向大規(guī)模局部破壞的兩層級時間動態(tài)集群系統(tǒng)多團隊“災后搶修”問題,通過基于actor-critic深度強化學習的方法統(tǒng)籌維修時序與路徑規(guī)劃兩層級決策,生成修復性維修方案,具體參見中國發(fā)明專利申請(申請?zhí)枺?024112822477,申請日:20240913)公開的一種基于ac-mcts算法的面向集群系統(tǒng)災后修復性維修的方法;針對具有多編隊特征的三層級時空動態(tài)集群系統(tǒng)“動態(tài)重構”問題,通過基于dppo深度強化學習的方法分析三層級集群系統(tǒng)集簇內(nèi)部節(jié)點間功能重構以及集簇間功能重構的兩層級動態(tài)重構,生成動態(tài)重構方案,具體參見中國發(fā)明專利申請(申請?zhí)枺?024114796053,申請日:20241023)公開的一種基于dppo深度強化學習的集群系統(tǒng)動態(tài)重構決策方法。
技術實現(xiàn)思路
1、為了解決上述問題,本發(fā)明提出了一種基于數(shù)學模型的集群系統(tǒng)智能運維效能評價方法,能夠通過構建合理的效能指標體系、網(wǎng)絡平均效率計算模型、任務執(zhí)行均衡度評價模型和彈性評估模型,對集群系統(tǒng)在不同運行階段的效能進行科學、精準的評價。本發(fā)明通過引入深度強化學習算法,對多維態(tài)勢信息進行實時采集、分析和預測,能夠有效提升集群系統(tǒng)的智能運維決策效率。
2、為了實現(xiàn)上述的目的,本發(fā)明采用了以下的技術方案:
3、一種用于集群系統(tǒng)智能運維的效能評價方法,所述的集群系統(tǒng)為電力系統(tǒng)集群、無人機集群系統(tǒng)或工業(yè)儲能系統(tǒng)中的大規(guī)模電池組集群系統(tǒng),所述方法包括以下步驟:
4、a)效能指標體系的構建:針對集群系統(tǒng)的通用特性和專用特性,構建效能評價指標體系,所述通用特性包括可靠性、維修性、保障性、安全性和環(huán)境適應性,所述專用特性包括時間動態(tài)特性和時空動態(tài)特性;
5、b)數(shù)據(jù)采集:通過多維態(tài)勢感知模塊采集集群系統(tǒng)的實時運行數(shù)據(jù),所述數(shù)據(jù)包括節(jié)點健康狀態(tài)、鏈路狀態(tài)、任務執(zhí)行狀態(tài)和環(huán)境變化信息;
6、c)集群系統(tǒng)的網(wǎng)絡效率評價:利用網(wǎng)絡平均效率公式e(g),評價集群系統(tǒng)節(jié)點間的信息傳遞效率,所述公式為:
7、;
8、其中n為節(jié)點數(shù)量,wi和wj分別為節(jié)點i和節(jié)點j的權重,dij為節(jié)點i和節(jié)點j之間的最短路徑長度;
9、d)任務執(zhí)行均衡度評價:針對三層級時空動態(tài)集群,采用集群均衡度εb評價集群系統(tǒng)任務執(zhí)行能力的均衡性,所述均衡度計算公式為:
10、;
11、其中i?表示集群?s?中集簇的總數(shù),ji表示集簇?ci中節(jié)點的總數(shù),為各集簇所有節(jié)點的平均余度值;εij表示節(jié)點n(i,j)的覆蓋區(qū)域與同集簇其他節(jié)點的覆蓋區(qū)域在任務區(qū)域內(nèi)的重合面積之和。
12、作為優(yōu)選,所述網(wǎng)絡效率評價中采用歸一化處理,將平均效率e(g)歸一化為0≤e(g)≤10,并且當集群系統(tǒng)中每對節(jié)點之間均存在邊時,e(g)=1。
13、作為優(yōu)選,所述集群系統(tǒng)的均衡度評價通過余度矩陣miε={εij}計算集簇任務的重疊區(qū)域,結合任務分布計算每個集簇的任務能力;矩陣中元素εij表示節(jié)點?n=(i,j)的覆蓋區(qū)域與同集簇其他節(jié)點的覆蓋區(qū)域在任務區(qū)域內(nèi)的重合面積之和。
14、作為優(yōu)選,所述效能評價方法還包括基于時間動態(tài)特性的網(wǎng)絡連通性分析,通過構建鄰接矩陣a={aij}和距離矩陣矩l={lij},分析集群系統(tǒng)在不同階段的網(wǎng)絡連通狀態(tài)。
15、作為優(yōu)選,集群系統(tǒng)的可靠性通過可靠性框圖模型計算,所述模型包括串聯(lián)、并聯(lián)、混聯(lián)或k/n冗余集群模型,可靠性公式為:
16、a)串聯(lián)結構的可靠性rs(t)公式:
17、rs(t)=r1(t)×r2(t)×...×rn(t)≤min{r1(t),r2(t),…,rn(t)};
18、其中0<ri(t)<1,i=1,2,…n表示節(jié)點ni的可靠度;
19、?b)并聯(lián)結構的可靠性rs(t)公式:
20、rs(t)=1-∏ni=1[1-ri(t)];
21、其中0<ri(t)<1,i=1,2,…n表示節(jié)點ni的可靠度;
22、c)混聯(lián)集群中,集簇ca,?cb,?cc的可靠度表示為:
23、rca=1-(1-r1)(1-r2);
24、rcb=rca(r3);
25、rcc=r4r5;
26、且集簇?cb與集簇?cc先并聯(lián),再與另一個節(jié)點r6串聯(lián),則集群可靠度表示為:
27、rs=[1-(1-rb)(1-rc)](r6);
28、d)k/n冗余集群模型
29、假設每一個節(jié)點的可靠度均為r且相互獨立,那么基于x個節(jié)點可正常運行的概率,k/n冗余集群的可靠度表示為:
30、。
31、作為優(yōu)選,集群系統(tǒng)的彈性評估包括對恢復時間的倒數(shù)進行計算,以得出系統(tǒng)從故障中恢復的彈性度量rfom:
32、;
33、其特征在于,t1為故障發(fā)生時間,t4為恢復至正常狀態(tài)的時間;
34、集群系統(tǒng)的彈性通過彈性損失度公式rl進行評估,所述公式為:
35、rl=∫t1t4(fom*-fom(t))dt;
36、其特征在于,fom為目標性能,fom(t)為時間t時刻的性能值。
37、作為優(yōu)選,針對相互依賴的基礎設施集群系統(tǒng)彈性的綜合度量指標gr,可以綜合考慮魯棒性robu、快速性rapi、單位時間平均性能損失tapl和恢復能力ra的度量對其進行定義,如下所示:
38、;
39、其中rapir和rapid分別表示恢復和破壞階段的快速性度量指標,上式中各項指標均可以作為fom的函數(shù)獲得,如下所示:
40、;
41、;
42、?;
43、;
44、其krp是恢復階段中斜坡檢測技術檢測到的斜坡數(shù)量;
45、另一種彈性的綜合度量方法將故障狀況fprof和恢復狀況?rprof合并為:
46、;
47、其中fprof和?rprof表示在各個階段中損失和恢復的性能,如下所示:
48、;
49、;
50、其中qs是表示集群的性能。
51、作為優(yōu)選,集群系統(tǒng)的效能評價結果用于生成智能運維決策,指導預測性維修、災后搶修和動態(tài)重構的運維方案。
52、作為優(yōu)選,所述方法通過對多個運維階段的數(shù)據(jù)進行綜合分析,輸出集群系統(tǒng)在正常、退化、破壞及恢復等不同階段的效能報告,并為后續(xù)優(yōu)化提供依據(jù)。
53、進一步,本發(fā)明公開了一種用于集群系統(tǒng)智能運維的效能評價設備,所述設備執(zhí)行所述的方法,包括:
54、a)?數(shù)據(jù)采集模塊,用于實時采集集群系統(tǒng)的運行數(shù)據(jù),所述數(shù)據(jù)包括節(jié)點健康狀態(tài)、鏈路狀態(tài)、任務執(zhí)行狀態(tài)和環(huán)境變化信息;
55、b)?效能指標構建模塊,用于構建集群系統(tǒng)的效能評價指標體系,所述指標針對集群系統(tǒng)的通用特性和專用特性,構建效能評價指標體系,所述通用特性包括可靠性、維修性、保障性、安全性和環(huán)境適應性,所述專用特性包括時間動態(tài)特性和時空動態(tài)特性;
56、c)?效能計算模塊,用于基于所述效能指標對集群系統(tǒng)的當前效能進行計算和分析;
57、d)?結果輸出模塊,用于生成集群系統(tǒng)的效能報告,并為智能運維決策提供反饋和優(yōu)化建議。
58、本發(fā)明由于采用了上述的技術方案,結合數(shù)學模型和強化學習算法,通過精確的效能評價和智能決策,有效解決了傳統(tǒng)集群系統(tǒng)運維方法中的不足,實現(xiàn)了集群系統(tǒng)的高效、精準管理。其具體技術效果包括以下幾個方面:
59、1、提高集群系統(tǒng)的整體效能評價精度:本發(fā)明通過構建基于網(wǎng)絡平均效率和任務執(zhí)行均衡度的數(shù)學模型,能夠?qū)合到y(tǒng)的節(jié)點間信息傳遞效率和任務執(zhí)行能力進行準確的量化評估。通過網(wǎng)絡平均效率公式e(g)和均衡度公式εb,能夠精確反映集群系統(tǒng)在不同運行狀態(tài)下的表現(xiàn),包括正常運行、故障發(fā)生、任務分配不均衡等情況。相比于傳統(tǒng)的簡單指標評估方式,該方法在動態(tài)環(huán)境下的評價更加準確、全面。
60、2、優(yōu)化智能運維決策效率:通過引入深度強化學習算法(如dqn、dppo等),本發(fā)明能夠?qū)崟r預測集群系統(tǒng)的態(tài)勢變化,針對不同運維場景(如預測性維修、災后搶修、動態(tài)重構)生成最優(yōu)的運維決策方案。通過對節(jié)點健康狀態(tài)、鏈路狀態(tài)等多維態(tài)勢信息的實時分析,本發(fā)明可以根據(jù)未來的態(tài)勢變化趨勢,提前制定應對方案,避免突發(fā)故障的發(fā)生,提升了系統(tǒng)的響應速度和決策質(zhì)量。
61、3、增強集群系統(tǒng)的彈性與恢復能力:本發(fā)明提出了基于彈性損失度rl的評估模型,能夠有效評估集群系統(tǒng)在突發(fā)事件后的恢復能力。通過計算集群系統(tǒng)在故障后的恢復時間rfom和恢復性能損失,系統(tǒng)能夠快速量化故障對整體效能的影響,并指導快速恢復策略的制定。這一評估模型能夠顯著提升集群系統(tǒng)在突發(fā)事件中的自愈能力和抗風險能力,減少系統(tǒng)停機時間和損失。
62、4、提升大規(guī)模集群系統(tǒng)的任務執(zhí)行能力:本發(fā)明通過任務執(zhí)行均衡度公式εb對集群系統(tǒng)的任務執(zhí)行能力進行評價,確保任務在不同集簇之間的合理分配和均衡執(zhí)行,避免某些節(jié)點或集簇因過載或閑置導致的任務延遲或系統(tǒng)性能下降。該方法特別適用于三層級時空動態(tài)集群系統(tǒng),能夠動態(tài)調(diào)整任務分配,提高系統(tǒng)的整體執(zhí)行效率。
63、5、提供全面的效能評估報告,支持運維優(yōu)化:本發(fā)明的效能評價方法通過多維度、全方位的評估,能夠生成系統(tǒng)的效能報告,涵蓋集群系統(tǒng)在正常、退化、破壞及恢復階段的表現(xiàn)。該報告能夠為運維團隊提供可靠的數(shù)據(jù)支持,有助于優(yōu)化后續(xù)的運維策略,提高集群系統(tǒng)的長期穩(wěn)定性和運行效能。
64、6、綜合考慮集群系統(tǒng)的通用特性和專用特性:該方法不僅評估集群系統(tǒng)的通用特性(如可靠性、維修性、環(huán)境適應性等),還結合了集群系統(tǒng)的專用特性(如時間動態(tài)特性和時空動態(tài)特性),為效能評價提供了更加全面的視角。這種多層次的評價方式確保了系統(tǒng)能夠在多樣化的應用場景下保持穩(wěn)定、高效的運行。
65、綜上所述,本發(fā)明在提高集群系統(tǒng)效能評價的精確性、優(yōu)化智能運維決策、增強系統(tǒng)彈性與恢復能力方面展現(xiàn)了顯著的技術效果,能夠廣泛應用于多領域的集群系統(tǒng)運維管理,提升系統(tǒng)整體效能和智能化水平。