本申請屬于故電網(wǎng),更具體地說,涉及基于最優(yōu)性保證的多智能體強化學習調(diào)度方法。
背景技術(shù):
1、電力系統(tǒng)作為現(xiàn)代社會的重要基礎(chǔ)設(shè)施之一,其運行狀態(tài)直接關(guān)系到經(jīng)濟發(fā)展和社會穩(wěn)定。在電力系統(tǒng)中,電網(wǎng)調(diào)度是確保電力系統(tǒng)安全、穩(wěn)定和高效運行的關(guān)鍵環(huán)節(jié)。然而,隨著電力系統(tǒng)規(guī)模的不斷擴大和電力需求的增長,傳統(tǒng)的電網(wǎng)調(diào)度方法已經(jīng)難以滿足復(fù)雜、大規(guī)模電網(wǎng)的要求。
2、當前,針對電網(wǎng)調(diào)度優(yōu)化的技術(shù)方案主要包括基于規(guī)則的靜態(tài)調(diào)度方法和基于數(shù)學模型的優(yōu)化算法。基于規(guī)則的靜態(tài)調(diào)度方法往往依賴于經(jīng)驗和固定的規(guī)則,如按照負荷預(yù)測結(jié)果制定調(diào)度計劃,或者根據(jù)歷史數(shù)據(jù)設(shè)定閾值進行安全控制。
3、基于規(guī)則的靜態(tài)調(diào)度方法在處理電網(wǎng)大規(guī)模和復(fù)雜性方面存在一定的局限性,往往無法達到最優(yōu)的調(diào)度效果。而基于數(shù)學模型的優(yōu)化算法雖然能夠提供更精確的調(diào)度方案,但計算復(fù)雜度較高,難以在實時環(huán)境中快速求解。
4、傳統(tǒng)的調(diào)度方法往往缺乏靈活性和實時性,無法有效應(yīng)對電網(wǎng)運行狀態(tài)的動態(tài)變化。在電力系統(tǒng)中,實時性是至關(guān)重要的,因為任何延遲或錯誤都可能導致電網(wǎng)不穩(wěn)定甚至事故發(fā)生。
技術(shù)實現(xiàn)思路
1、本發(fā)明提供了基于最優(yōu)性保證的多智能體強化學習調(diào)度方法,擬解決目前采用基靜態(tài)調(diào)度方法處理電網(wǎng)大規(guī)模和復(fù)雜的數(shù)據(jù)存在一定局限性的技術(shù)問題。
2、基于最優(yōu)性保證的多智能體強化學習調(diào)度方法,包括以下步驟:
3、步驟1:獲取電網(wǎng)拓撲結(jié)構(gòu)和電網(wǎng)中各個元素之間的關(guān)聯(lián)關(guān)系和參數(shù)數(shù)據(jù),并基于所獲取的數(shù)據(jù)建立基于數(shù)學模型的電網(wǎng)仿真系統(tǒng);
4、步驟2:構(gòu)建調(diào)度目標和約束,指導智能體學習過程中的決策;
5、步驟3:構(gòu)建每個智能體的狀態(tài)空間、動作空間和獎勵函數(shù),實現(xiàn)對電網(wǎng)狀態(tài)的感知、決策和學習;
6、步驟4:采用強化學習算法,基于所構(gòu)建的調(diào)度目標、約束、智能體的狀態(tài)空間、動作空間以及獎勵函數(shù),再結(jié)合仿真環(huán)境訓練智能體的策略;
7、步驟5:基于訓練好的智能體策略,生成實時的調(diào)度方案,并基于電網(wǎng)的動態(tài)變化,對調(diào)度方案進行實時調(diào)整和優(yōu)化。
8、本發(fā)明通過建立基于數(shù)學模型的電網(wǎng)仿真系統(tǒng),以模擬電網(wǎng)的實際運行情況,根據(jù)電網(wǎng)調(diào)度的需求和要求,構(gòu)建調(diào)度目標和約束指導智能體在學習過程中作出合適的決策;再針對每個智能體,構(gòu)建狀態(tài)空間、動作空間和獎勵函數(shù),并利用強化學習算法結(jié)合仿真環(huán)境訓練智能體的策略,訓練過程中,智能體通過仿真環(huán)境的交互,不斷優(yōu)化策略,已達到最優(yōu)的調(diào)度效果;并且智能體可以實時感知電網(wǎng)的動態(tài)變化,并根據(jù)實時信息對調(diào)度方案進行實時調(diào)整和優(yōu)化,如此保證了電網(wǎng)調(diào)度的及時性和準確性,有效解決了傳統(tǒng)調(diào)度方法缺乏靈活性和實時性的問題。
9、優(yōu)選的,所述步驟1包括以下步驟:
10、步驟1.1:獲取電網(wǎng)拓撲結(jié)構(gòu)和電網(wǎng)中各個元素之間的關(guān)聯(lián)關(guān)系和參數(shù)數(shù)據(jù),將獲取的電網(wǎng)數(shù)據(jù)整理成節(jié)點和邊的形式,其中節(jié)點表示電網(wǎng)中的各個設(shè)備,便表示設(shè)備間的連接關(guān)系,并根據(jù)拓撲結(jié)構(gòu)確定各個節(jié)點之間的直接連接關(guān)系;
11、步驟1.2:基于潮流計算方法,建立節(jié)點潮流方程,描述電網(wǎng)中各個節(jié)點之間的功率平衡關(guān)系;
12、步驟1.3:將節(jié)點潮流方程整合為一個非線性方程組,構(gòu)建潮流計算模型;
13、步驟1.4:基于所建立的潮流計算模型構(gòu)建電網(wǎng)仿真系統(tǒng)的軟件實現(xiàn)。
14、優(yōu)選的,所述節(jié)點潮流方程如下:
15、
16、式中:pi和qi分別是第i個節(jié)點的有功功率和無功功率;vi表示第i個節(jié)點的電壓幅值;vj表示第j個節(jié)點的電壓幅值;θi表示第i個節(jié)點的電壓相角;gij和bij分別是第i到第j個節(jié)點之間的導納的實部和虛部;θj表示第j個節(jié)點的電壓相角;n表示電網(wǎng)中節(jié)點的總數(shù)。
17、優(yōu)選的,所述非線性方程組如下:
18、f(v,θ)=0;
19、式中:v表示電網(wǎng)所有節(jié)點的電壓幅值向量;θ表示電網(wǎng)所有節(jié)點的電壓相角向量。
20、優(yōu)選的,所述調(diào)度目標以最小成本為調(diào)度目標,目標函數(shù)如下:
21、
22、式中:w1、w2以及w3表示各項成本的權(quán)重;vgen表示發(fā)電成本;closs表示輸電損耗成本;cimbalance表示負荷不平衡成本;v表示節(jié)點電壓向量;θ表示節(jié)點相角向量;pg表示發(fā)電機有功功率向量;qg表示發(fā)電機無功功率向量。
23、優(yōu)選的,所述約束包括:
24、電壓穩(wěn)定限制:
25、
26、式中:vmin和vmax表示每個節(jié)點允許的最小和最大電壓幅值;vi表示節(jié)點i的電壓幅值;輸電線路容量限制:
27、
28、式中:pl和ql分別表示每條輸電線路上的有功和無功功率流;sl表示輸電線路的額定容量;
29、功率平衡約束:
30、pg-pd-ploss=0;
31、qg-qd=0;
32、式中:pg表示所有發(fā)電機產(chǎn)生的總有功功率;pd表示所有負荷消耗的總有功功率;qg表示所有發(fā)電機產(chǎn)生的總無功功率;qd表示所有負荷消耗的總無功功率;ploss表示輸電線路中的總有功功率損耗。
33、優(yōu)選的,所述步驟3包括以下步驟:
34、步驟3.1:將電網(wǎng)的狀態(tài)表示為一個向量,并將電網(wǎng)的狀態(tài)表示為智能體的狀態(tài)空間;
35、步驟3.2:將每個智能體的調(diào)度決策動作用一個向量進行表示,并將該向量表示為智能體的動作空間;
36、步驟3.3:以成本最小化為獎勵函數(shù)的目標,獎勵智能體采取降低成本的動作。
37、優(yōu)選的,所述步驟3.1包括以下步驟:
38、對于每個時間步,獲取電網(wǎng)中所有節(jié)點的電壓幅值和相角;
39、將電壓幅值和相角按照順序排列,形成狀態(tài)向量;將所述形成的狀態(tài)向量作為智能體的狀態(tài)空間。
40、優(yōu)選的,所述步驟3.2包括以下步驟:
41、對于每個智能體,在每個時間步選擇一個動作,該動作對應(yīng)于一個動作向量;
42、動作向量中的每個元素代表一個調(diào)度參數(shù),將調(diào)度參數(shù)按照順序排列,形成動作向量。
43、本發(fā)明的有益效果包括:
44、本發(fā)明通過建立基于數(shù)學模型的電網(wǎng)仿真系統(tǒng),以模擬電網(wǎng)的實際運行情況,根據(jù)電網(wǎng)調(diào)度的需求和要求,構(gòu)建調(diào)度目標和約束指導智能體在學習過程中作出合適的決策;再針對每個智能體,構(gòu)建狀態(tài)空間、動作空間和獎勵函數(shù),并利用強化學習算法結(jié)合仿真環(huán)境訓練智能體的策略,訓練過程中,智能體通過仿真環(huán)境的交互,不斷優(yōu)化策略,已達到最優(yōu)的調(diào)度效果;并且智能體可以實時感知電網(wǎng)的動態(tài)變化,并根據(jù)實時信息對調(diào)度方案進行實時調(diào)整和優(yōu)化,如此保證了電網(wǎng)調(diào)度的及時性和準確性,有效解決了傳統(tǒng)調(diào)度方法缺乏靈活性和實時性的問題。
1.基于最優(yōu)性保證的多智能體強化學習調(diào)度方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的基于最優(yōu)性保證的多智能體強化學習調(diào)度方法,其特征在于,所述步驟1包括以下步驟:
3.根據(jù)權(quán)利要求2所述的基于最優(yōu)性保證的多智能體強化學習調(diào)度方法,其特征在于,所述節(jié)點潮流方程如下:
4.根據(jù)權(quán)利要求2所述的基于最優(yōu)性保證的多智能體強化學習調(diào)度方法,其特征在于,所述非線性方程組如下:
5.根據(jù)權(quán)利要求1所述的基于最優(yōu)性保證的多智能體強化學習調(diào)度方法,其特征在于,所述調(diào)度目標以最小成本為調(diào)度目標,目標函數(shù)如下:
6.根據(jù)權(quán)利要求1所述的基于最優(yōu)性保證的多智能體強化學習調(diào)度方法,其特征在于,所述約束包括:
7.根據(jù)權(quán)利要求1所述的基于最優(yōu)性保證的多智能體強化學習調(diào)度方法,其特征在于,所述步驟3包括以下步驟:
8.根據(jù)權(quán)利要求7所述的基于最優(yōu)性保證的多智能體強化學習調(diào)度方法,其特征在于,所述步驟3.1包括以下步驟:
9.根據(jù)權(quán)利要求7所述的基于最優(yōu)性保證的多智能體強化學習調(diào)度方法,其特征在于,所述步驟3.2包括以下步驟: