一種基于強化學習的智能電網(wǎng)調(diào)度算法的制作方法

文檔序號：40399057發(fā)布日期：2024-12-20 12:22閱讀：6來源：國知局

本發(fā)明涉及電網(wǎng)調(diào)度領(lǐng)域，尤其是一種基于強化學習的智能電網(wǎng)調(diào)度算法。

背景技術(shù)：

1、電力，作為現(xiàn)代社會的命脈，其高效與可靠的調(diào)度構(gòu)成了維系社會生產(chǎn)與生活平穩(wěn)運行的生命線。在當今世界，電力不僅僅是簡單的能量傳遞，它承載著數(shù)字化轉(zhuǎn)型、經(jīng)濟活力與可持續(xù)發(fā)展的多重使命，是現(xiàn)代社會不可或缺的基石。隨著全球電氣化進程的加速推進，電力需求呈現(xiàn)指數(shù)級增長的態(tài)勢，加之可再生能源的大規(guī)模接入，電網(wǎng)調(diào)度系統(tǒng)正面臨一場深刻的變革與挑戰(zhàn)。

2、盡管當前的電網(wǎng)調(diào)度系統(tǒng)已邁入自動化時代，顯著提升了調(diào)度效率與準確性，但傳統(tǒng)的調(diào)度模式在應(yīng)對日益復(fù)雜多變的電力供需環(huán)境時，其局限性日益凸顯。在電網(wǎng)調(diào)度領(lǐng)域，動作空間是指調(diào)度決策者或調(diào)度算法可以選擇的所有可能的操作集合。在電力系統(tǒng)的調(diào)度和控制中，動作空間的定義對于實現(xiàn)有效的調(diào)度策略至關(guān)重要，因為它直接關(guān)系到如何在復(fù)雜多變的電力供需環(huán)境中做出最優(yōu)決策。動作空間的龐大復(fù)雜性與調(diào)度策略的固有僵化，意味著電網(wǎng)調(diào)度難以在瞬息萬變的市場環(huán)境中做出最優(yōu)化決策。此外，依賴于專家設(shè)計的啟發(fā)式調(diào)度策略雖在特定場景下表現(xiàn)不俗，但持續(xù)優(yōu)化的難度與復(fù)雜度卻成為制約其進一步發(fā)展的瓶頸。尤其在突發(fā)事件面前，如電力需求的驟然飆升或由自然災(zāi)害引發(fā)的電網(wǎng)故障，人工干預(yù)雖是必要的補救手段，但其耗時且易受主觀判斷影響的特性，往往使得電網(wǎng)恢復(fù)過程緩慢且充滿不確定性，甚至因人為失誤而加劇電網(wǎng)的不穩(wěn)定狀態(tài)。

技術(shù)實現(xiàn)思路

1、發(fā)明目的，為了解決上述提出的問題，本發(fā)明提供一種基于強化學習的智能電網(wǎng)調(diào)度算法，通過在線強化學習的自我調(diào)整和學習，達到減少人工干預(yù)，增強模型對智能電網(wǎng)電力調(diào)度的參與度。

2、技術(shù)方案，一種基于強化學習的智能電網(wǎng)調(diào)度算法，包括如下步驟：

3、步驟s1、構(gòu)建智能電網(wǎng)調(diào)度的基礎(chǔ)模型，同時輸入預(yù)采集的電網(wǎng)數(shù)據(jù)，并描述算法應(yīng)用的環(huán)境以及目標，包括定義環(huán)境中的狀態(tài)空間及動作空間；

4、步驟s2、使用所構(gòu)建的模型對預(yù)采集數(shù)據(jù)進行預(yù)訓練，使得模型掌握基本的安全行為和環(huán)境規(guī)則；

5、步驟s3、基于在線強化學習動態(tài)調(diào)整的能力，根據(jù)實際環(huán)境反饋對預(yù)訓練模型進行微調(diào)，以提高模型性能；

6、步驟s4、引入分層強化學習理念處理持續(xù)安全的場景，將包括連續(xù)與離散情況的復(fù)雜動作空間細分為不同的層次結(jié)構(gòu)，每個層次負責特定類型的決策；

7、步驟s5、引入了啟發(fā)式規(guī)則，對層次結(jié)構(gòu)進行裁剪與優(yōu)化；

8、步驟s6、優(yōu)化后的模型輸出決策，供電網(wǎng)調(diào)度采用。

9、根據(jù)本技術(shù)的另一個方面，所述步驟s1中定義環(huán)境中的狀態(tài)空間及動作空間具體為：

10、步驟s11、定義環(huán)境中的狀態(tài)空間，包括：

11、步驟s111、將環(huán)境的狀態(tài)空間建模為一個異質(zhì)圖，用一個五元組g＝(v,e,τ,φ,ψ)來表示，其中，v代表頂點集合，即電網(wǎng)中的各個節(jié)點，e代表邊的集合，即各個節(jié)點之間連接的拓撲結(jié)構(gòu)；

12、步驟s112、對于節(jié)點類型采用映射函數(shù)τ:v→n，將每個節(jié)點映射到一種節(jié)點的類型，其中v代表頂點集合，n代表環(huán)境中對應(yīng)的節(jié)點類型集合，

13、n＝{line,substation,generator,loader,storage}；

14、步驟s113、對于邊類型采用映射函數(shù)φ:e→r，將每個節(jié)點映射到對應(yīng)的特征，其中，r代表環(huán)境中對應(yīng)的邊類型集合，r＝{1,2}代表其所連接的母線編號，ψ:v→f代表特征映射函數(shù)；

15、步驟s12、定義環(huán)境中的動作空間，包括：對于環(huán)境中的動作空間a，將其分解為以下6個部分，即

16、do-nothing：當前時間節(jié)點什么都不做；

17、電線重連：重新連接某條斷掉的線路li；

18、電線斷連：斷連某條未斷的線路lj；

19、重新配置變電站母線結(jié)構(gòu)：改變某個變電站si的母線配置；

20、恢復(fù)變電站母線結(jié)構(gòu)：恢復(fù)某個變電站si的母線配置，即，將所有節(jié)點連接到母線1上；

21、重新分配發(fā)電機發(fā)電量、存儲結(jié)構(gòu)的充放電：連續(xù)的動作類型，調(diào)整各個發(fā)電機{gi}或者存儲單元{sti}的發(fā)電或者充電功率。

22、根據(jù)本技術(shù)的另一個方面，所述步驟s2中訓練采用的獎勵函數(shù)采取以下的方法：

23、

24、根據(jù)本技術(shù)的另一個方面，所述步驟s1構(gòu)建的模型基礎(chǔ)結(jié)構(gòu)以及各個頭的結(jié)構(gòu)如下：

25、骨干網(wǎng)：使用異質(zhì)圖神經(jīng)網(wǎng)絡(luò)hn對每種節(jié)點的原始特征進行表征學習，得到每個節(jié)點相同維度的抽象特征{f1,f2,f3,...}，之后具體的決策是以這些抽象特征作為輸入，整個過程用數(shù)學關(guān)系描述為g'＝hn(g)，其中，g為原始輸入圖，g'為輸出圖，二者只有特征映射函數(shù)發(fā)生改變；

26、頂層決策節(jié)點：頂層決策節(jié)點的決策目標是選擇一個寬泛的動作類型，即從6個子集中選擇一個，節(jié)點結(jié)構(gòu)接受6個代表不同動作空間的特征向量經(jīng)過mlp輸出一個6維的邏輯值logits代表不同的動作；

27、電線重/斷連單元：模型輸入為正常/斷連線路的特征向量，即input＝{fi|i∈lr}或input＝{fi|i∈ld}，其中，lr與ld分別代表斷連與正常線路節(jié)點組成的集合，決策的神經(jīng)網(wǎng)絡(luò)模型為transformers模型或直接使用特征向量，利用得到的向量做目標定位得到選擇某條線路的概率，并對未冷卻的線路做標記；

28、母線的配置單元：利用變電站節(jié)點得到特征向量{fi|i∈s}，選擇某個具體的變電站節(jié)點i，其中，s為變電站節(jié)點組成的集合；

29、發(fā)電機以及存儲結(jié)構(gòu)單元：使用各個發(fā)電機以及存儲單元節(jié)點的特征向量{fi|i∈st∪ge}，利用mlp輸出二維向量值做決策，其中，st與ge分別代表存儲結(jié)構(gòu)節(jié)點與發(fā)電機節(jié)點。

30、根據(jù)本技術(shù)的另一個方面，所述步驟s3中的強化學習微調(diào)階段進一步為：

31、步驟s31、選擇固定骨干網(wǎng)backbone的部分參數(shù)，用以維持強化學習目標對應(yīng)的動態(tài)變化的分布穩(wěn)定性；

32、步驟s32、選擇交替優(yōu)化頂層決策節(jié)點以及其他決策節(jié)點，用以減少訓練以及決策的困難；

33、步驟s33、采用ppo算法并引入了廣義動作option準則，對gae進行一定的修正，使ppo算法兼容option；

34、修正之后的gae如下所示：

35、

36、其中，ki代表第i個動作持續(xù)的時間，對于普通動作ki＝1；對于option來說，ki≥1；若對任意i都有ki＝1，則修正公式退化到原始的gae公式。

37、根據(jù)本技術(shù)的另一個方面，所述步驟s4中的決策過程進一步為：

38、步驟s41、首先根據(jù)環(huán)境輸入，構(gòu)造圖模型的輸入結(jié)構(gòu)g，之后，由異質(zhì)圖模型hg得到每個節(jié)點的特征向量{fi}；

39、步驟s42、利用特征向量，在頂層決策節(jié)點輸出對應(yīng)的概率分布上采樣，選擇某個具體的動作類型ai；

40、步驟s43、確定選定的動作類型之后，在具體的節(jié)點上得到具體的動作分布，再進行采樣得到最終的動作。

41、有益效果：通過前期的模仿學習，模型迅速掌握專家行為模式，減少了從零開始探索環(huán)境所需的時間和資源，提高了電網(wǎng)調(diào)度的穩(wěn)定性和效率；在不斷變化的真實環(huán)境中，模型結(jié)合在線強化學習進行自我調(diào)整，提高對新情境的適應(yīng)能力和魯棒性，實現(xiàn)對電網(wǎng)調(diào)度的有效控制和優(yōu)化；本發(fā)明使用分層強化學習思想，特別是廣義動作的引入，強化了模型在安全環(huán)境下采取更高效的決策路徑，減少無謂的計算負擔，同時確保了系統(tǒng)在面對突發(fā)情況時的快速響應(yīng)能力；針對復(fù)雜環(huán)境設(shè)計多層級神經(jīng)網(wǎng)絡(luò)輸出，有效管理連續(xù)與離散混合的動作空間和分層結(jié)構(gòu)，同時，通過啟發(fā)式規(guī)則對分層結(jié)構(gòu)進行裁剪，簡化決策樹的深度，確保神經(jīng)網(wǎng)絡(luò)的決策邏輯清晰、不冗余，既能充分挖掘環(huán)境的深層規(guī)律，又保證了模型訓練與決策過程的高效與簡潔。

完整全部詳細技術(shù)資料下載

當前第1頁1 2

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：程真,海雷,管詩駢,張?zhí)旌?張劉東
技術(shù)所有人：中科方寸知微（南京）科技有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構(gòu)動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種基于強化學習的智能電網(wǎng)調(diào)度算法的制作方法