本發(fā)明涉及電網(wǎng)調(diào)度領(lǐng)域,尤其是一種基于強化學習的智能電網(wǎng)調(diào)度算法。
背景技術(shù):
1、電力,作為現(xiàn)代社會的命脈,其高效與可靠的調(diào)度構(gòu)成了維系社會生產(chǎn)與生活平穩(wěn)運行的生命線。在當今世界,電力不僅僅是簡單的能量傳遞,它承載著數(shù)字化轉(zhuǎn)型、經(jīng)濟活力與可持續(xù)發(fā)展的多重使命,是現(xiàn)代社會不可或缺的基石。隨著全球電氣化進程的加速推進,電力需求呈現(xiàn)指數(shù)級增長的態(tài)勢,加之可再生能源的大規(guī)模接入,電網(wǎng)調(diào)度系統(tǒng)正面臨一場深刻的變革與挑戰(zhàn)。
2、盡管當前的電網(wǎng)調(diào)度系統(tǒng)已邁入自動化時代,顯著提升了調(diào)度效率與準確性,但傳統(tǒng)的調(diào)度模式在應(yīng)對日益復(fù)雜多變的電力供需環(huán)境時,其局限性日益凸顯。在電網(wǎng)調(diào)度領(lǐng)域,動作空間是指調(diào)度決策者或調(diào)度算法可以選擇的所有可能的操作集合。在電力系統(tǒng)的調(diào)度和控制中,動作空間的定義對于實現(xiàn)有效的調(diào)度策略至關(guān)重要,因為它直接關(guān)系到如何在復(fù)雜多變的電力供需環(huán)境中做出最優(yōu)決策。動作空間的龐大復(fù)雜性與調(diào)度策略的固有僵化,意味著電網(wǎng)調(diào)度難以在瞬息萬變的市場環(huán)境中做出最優(yōu)化決策。此外,依賴于專家設(shè)計的啟發(fā)式調(diào)度策略雖在特定場景下表現(xiàn)不俗,但持續(xù)優(yōu)化的難度與復(fù)雜度卻成為制約其進一步發(fā)展的瓶頸。尤其在突發(fā)事件面前,如電力需求的驟然飆升或由自然災(zāi)害引發(fā)的電網(wǎng)故障,人工干預(yù)雖是必要的補救手段,但其耗時且易受主觀判斷影響的特性,往往使得電網(wǎng)恢復(fù)過程緩慢且充滿不確定性,甚至因人為失誤而加劇電網(wǎng)的不穩(wěn)定狀態(tài)。
技術(shù)實現(xiàn)思路
1、發(fā)明目的,為了解決上述提出的問題,本發(fā)明提供一種基于強化學習的智能電網(wǎng)調(diào)度算法,通過在線強化學習的自我調(diào)整和學習,達到減少人工干預(yù),增強模型對智能電網(wǎng)電力調(diào)度的參與度。
2、技術(shù)方案,一種基于強化學習的智能電網(wǎng)調(diào)度算法,包括如下步驟:
3、步驟s1、構(gòu)建智能電網(wǎng)調(diào)度的基礎(chǔ)模型,同時輸入預(yù)采集的電網(wǎng)數(shù)據(jù),并描述算法應(yīng)用的環(huán)境以及目標,包括定義環(huán)境中的狀態(tài)空間及動作空間;
4、步驟s2、使用所構(gòu)建的模型對預(yù)采集數(shù)據(jù)進行預(yù)訓練,使得模型掌握基本的安全行為和環(huán)境規(guī)則;
5、步驟s3、基于在線強化學習動態(tài)調(diào)整的能力,根據(jù)實際環(huán)境反饋對預(yù)訓練模型進行微調(diào),以提高模型性能;
6、步驟s4、引入分層強化學習理念處理持續(xù)安全的場景,將包括連續(xù)與離散情況的復(fù)雜動作空間細分為不同的層次結(jié)構(gòu),每個層次負責特定類型的決策;
7、步驟s5、引入了啟發(fā)式規(guī)則,對層次結(jié)構(gòu)進行裁剪與優(yōu)化;
8、步驟s6、優(yōu)化后的模型輸出決策,供電網(wǎng)調(diào)度采用。
9、根據(jù)本技術(shù)的另一個方面,所述步驟s1中定義環(huán)境中的狀態(tài)空間及動作空間具體為:
10、步驟s11、定義環(huán)境中的狀態(tài)空間,包括:
11、步驟s111、將環(huán)境的狀態(tài)空間建模為一個異質(zhì)圖,用一個五元組g=(v,e,τ,φ,ψ)來表示,其中,v代表頂點集合,即電網(wǎng)中的各個節(jié)點,e代表邊的集合,即各個節(jié)點之間連接的拓撲結(jié)構(gòu);
12、步驟s112、對于節(jié)點類型采用映射函數(shù)τ:v→n,將每個節(jié)點映射到一種節(jié)點的類型,其中v代表頂點集合,n代表環(huán)境中對應(yīng)的節(jié)點類型集合,
13、n={line,substation,generator,loader,storage};
14、步驟s113、對于邊類型采用映射函數(shù)φ:e→r,將每個節(jié)點映射到對應(yīng)的特征,其中,r代表環(huán)境中對應(yīng)的邊類型集合,r={1,2}代表其所連接的母線編號,ψ:v→f代表特征映射函數(shù);
15、步驟s12、定義環(huán)境中的動作空間,包括:對于環(huán)境中的動作空間a,將其分解為以下6個部分,即
16、do-nothing:當前時間節(jié)點什么都不做;
17、電線重連:重新連接某條斷掉的線路li;
18、電線斷連:斷連某條未斷的線路lj;
19、重新配置變電站母線結(jié)構(gòu):改變某個變電站si的母線配置;
20、恢復(fù)變電站母線結(jié)構(gòu):恢復(fù)某個變電站si的母線配置,即,將所有節(jié)點連接到母線1上;
21、重新分配發(fā)電機發(fā)電量、存儲結(jié)構(gòu)的充放電:連續(xù)的動作類型,調(diào)整各個發(fā)電機{gi}或者存儲單元{sti}的發(fā)電或者充電功率。
22、根據(jù)本技術(shù)的另一個方面,所述步驟s2中訓練采用的獎勵函數(shù)采取以下的方法:
23、
24、根據(jù)本技術(shù)的另一個方面,所述步驟s1構(gòu)建的模型基礎(chǔ)結(jié)構(gòu)以及各個頭的結(jié)構(gòu)如下:
25、骨干網(wǎng):使用異質(zhì)圖神經(jīng)網(wǎng)絡(luò)hn對每種節(jié)點的原始特征進行表征學習,得到每個節(jié)點相同維度的抽象特征{f1,f2,f3,...},之后具體的決策是以這些抽象特征作為輸入,整個過程用數(shù)學關(guān)系描述為g'=hn(g),其中,g為原始輸入圖,g'為輸出圖,二者只有特征映射函數(shù)發(fā)生改變;
26、頂層決策節(jié)點:頂層決策節(jié)點的決策目標是選擇一個寬泛的動作類型,即從6個子集中選擇一個,節(jié)點結(jié)構(gòu)接受6個代表不同動作空間的特征向量經(jīng)過mlp輸出一個6維的邏輯值logits代表不同的動作;
27、電線重/斷連單元:模型輸入為正常/斷連線路的特征向量,即input={fi|i∈lr}或input={fi|i∈ld},其中,lr與ld分別代表斷連與正常線路節(jié)點組成的集合,決策的神經(jīng)網(wǎng)絡(luò)模型為transformers模型或直接使用特征向量,利用得到的向量做目標定位得到選擇某條線路的概率,并對未冷卻的線路做標記;
28、母線的配置單元:利用變電站節(jié)點得到特征向量{fi|i∈s},選擇某個具體的變電站節(jié)點i,其中,s為變電站節(jié)點組成的集合;
29、發(fā)電機以及存儲結(jié)構(gòu)單元:使用各個發(fā)電機以及存儲單元節(jié)點的特征向量{fi|i∈st∪ge},利用mlp輸出二維向量值做決策,其中,st與ge分別代表存儲結(jié)構(gòu)節(jié)點與發(fā)電機節(jié)點。
30、根據(jù)本技術(shù)的另一個方面,所述步驟s3中的強化學習微調(diào)階段進一步為:
31、步驟s31、選擇固定骨干網(wǎng)backbone的部分參數(shù),用以維持強化學習目標對應(yīng)的動態(tài)變化的分布穩(wěn)定性;
32、步驟s32、選擇交替優(yōu)化頂層決策節(jié)點以及其他決策節(jié)點,用以減少訓練以及決策的困難;
33、步驟s33、采用ppo算法并引入了廣義動作option準則,對gae進行一定的修正,使ppo算法兼容option;
34、修正之后的gae如下所示:
35、
36、其中,ki代表第i個動作持續(xù)的時間,對于普通動作ki=1;對于option來說,ki≥1;若對任意i都有ki=1,則修正公式退化到原始的gae公式。
37、根據(jù)本技術(shù)的另一個方面,所述步驟s4中的決策過程進一步為:
38、步驟s41、首先根據(jù)環(huán)境輸入,構(gòu)造圖模型的輸入結(jié)構(gòu)g,之后,由異質(zhì)圖模型hg得到每個節(jié)點的特征向量{fi};
39、步驟s42、利用特征向量,在頂層決策節(jié)點輸出對應(yīng)的概率分布上采樣,選擇某個具體的動作類型ai;
40、步驟s43、確定選定的動作類型之后,在具體的節(jié)點上得到具體的動作分布,再進行采樣得到最終的動作。
41、有益效果:通過前期的模仿學習,模型迅速掌握專家行為模式,減少了從零開始探索環(huán)境所需的時間和資源,提高了電網(wǎng)調(diào)度的穩(wěn)定性和效率;在不斷變化的真實環(huán)境中,模型結(jié)合在線強化學習進行自我調(diào)整,提高對新情境的適應(yīng)能力和魯棒性,實現(xiàn)對電網(wǎng)調(diào)度的有效控制和優(yōu)化;本發(fā)明使用分層強化學習思想,特別是廣義動作的引入,強化了模型在安全環(huán)境下采取更高效的決策路徑,減少無謂的計算負擔,同時確保了系統(tǒng)在面對突發(fā)情況時的快速響應(yīng)能力;針對復(fù)雜環(huán)境設(shè)計多層級神經(jīng)網(wǎng)絡(luò)輸出,有效管理連續(xù)與離散混合的動作空間和分層結(jié)構(gòu),同時,通過啟發(fā)式規(guī)則對分層結(jié)構(gòu)進行裁剪,簡化決策樹的深度,確保神經(jīng)網(wǎng)絡(luò)的決策邏輯清晰、不冗余,既能充分挖掘環(huán)境的深層規(guī)律,又保證了模型訓練與決策過程的高效與簡潔。