本發(fā)明屬于配電網(wǎng)故障恢復(fù),具體涉及一種基于深度強化學(xué)習(xí)的配電網(wǎng)故障恢復(fù)方法。
背景技術(shù):
1、近年來,人們對于能源尤其是電力能源的需求日益增長,一次能源的短缺以及其燃燒造成的環(huán)境問題越發(fā)引起公眾的廣泛關(guān)注。隨著分布式電源(distributedgeneration,dg)并網(wǎng)比例的逐漸增加,改變了傳統(tǒng)配電網(wǎng)的初始拓?fù)浣Y(jié)構(gòu),對配電網(wǎng)產(chǎn)生了一定程度的影響。配電網(wǎng)處于電力系統(tǒng)末端,是直接面向用戶的關(guān)鍵環(huán)節(jié),承擔(dān)著向用戶負(fù)荷供配電的重要責(zé)任。不僅需要保障正常狀態(tài)下的穩(wěn)定運行,更應(yīng)該在發(fā)生故障時具有較強的應(yīng)對能力。電力保供事關(guān)國計民生,故障恢復(fù)是保障供電的重要支撐之一。因此,配電網(wǎng)故障恢復(fù)研究具有十分重要的意義。
2、配電網(wǎng)具有“閉環(huán)設(shè)計,開環(huán)運行”的特點,網(wǎng)絡(luò)重構(gòu)是配電網(wǎng)故障恢復(fù)的重要手段。在配電網(wǎng)正常運行時,分段開關(guān)閉合而聯(lián)絡(luò)開關(guān)斷開,以保持輻射狀結(jié)構(gòu)。配電網(wǎng)出現(xiàn)故障時,立即斷開故障兩端分段開關(guān)以隔離故障,再將故障下游的非故障失電負(fù)荷轉(zhuǎn)到其他線路進(jìn)行短時應(yīng)急供電,減小失電損失并防止故障擴散,實現(xiàn)配電網(wǎng)故障恢復(fù)。
3、在配電網(wǎng)故障恢復(fù)的研究中已對不同類型的算法進(jìn)行了應(yīng)用,主要有傳統(tǒng)數(shù)學(xué)規(guī)劃算法、啟發(fā)式算法和深度強化學(xué)習(xí)算法。數(shù)學(xué)規(guī)劃算法和啟發(fā)式算法針對大規(guī)模的配電網(wǎng)對象時,對硬件計算能力的要求較高,且耗費時間過長,很難滿足故障恢復(fù)的實時性要求。深度強化學(xué)習(xí)方法可以提前進(jìn)行離線訓(xùn)練得到學(xué)習(xí)好的網(wǎng)絡(luò)模型,在恢復(fù)時可直接調(diào)用模型進(jìn)行快速決策,相對于傳統(tǒng)方法在求解效率上有很大提升。隨著配電網(wǎng)絡(luò)規(guī)模擴大,dg大量并網(wǎng),深度強化學(xué)習(xí)方法能夠更好地適應(yīng)故障恢復(fù)需求。因此,研究基于深度強化學(xué)習(xí)的配電網(wǎng)故障恢復(fù)策略具有重要的理論和現(xiàn)實意義。
技術(shù)實現(xiàn)思路
1、本發(fā)明的目的在于提供一種基于深度強化學(xué)習(xí)的配電網(wǎng)故障恢復(fù)方法,其可以解決含分布式電源的配電網(wǎng)在出現(xiàn)線路故障的情況下,無法快速有效進(jìn)行負(fù)荷恢復(fù)的問題,提高了配電網(wǎng)故障恢復(fù)的效率,同時可以保障潮流的安全性。
2、為實現(xiàn)上述目的,本發(fā)明采用如下技術(shù)方案:
3、本發(fā)明提出了一種基于深度強化學(xué)習(xí)的配電網(wǎng)故障恢復(fù)方法,該方法,包括以下步驟:
4、步驟1、基于含分布式電源的配電網(wǎng)系統(tǒng),構(gòu)造目標(biāo)函數(shù)和約束條件,建立配電網(wǎng)故障恢復(fù)模型;
5、步驟2、設(shè)計基于環(huán)路-開關(guān)編碼的動作空間,并基于輻射狀約束進(jìn)行不可行解篩選;
6、步驟3、搭建配電網(wǎng)故障恢復(fù)的強化學(xué)習(xí)框架,提出基于近端策略優(yōu)化算法的故障恢復(fù)策略,對智能體進(jìn)行訓(xùn)練,并將訓(xùn)練好的決策網(wǎng)絡(luò)應(yīng)用于配電網(wǎng)故障恢復(fù),可根據(jù)系統(tǒng)狀態(tài)進(jìn)行開關(guān)通斷選擇,實現(xiàn)負(fù)荷轉(zhuǎn)供及潮流優(yōu)化。
7、另外,根據(jù)本發(fā)明上述實施例的一種基于深度強化學(xué)習(xí)的配電網(wǎng)故障恢復(fù)方法,還可以具有如下附加的技術(shù)特征:
8、在本發(fā)明的一些實施例中,所述步驟1中,配電網(wǎng)故障恢復(fù)模型的參數(shù)包括節(jié)點參數(shù)、支路參數(shù)、分布式電源參數(shù),應(yīng)用強化學(xué)習(xí)進(jìn)行配電網(wǎng)故障恢復(fù),需要構(gòu)建包含負(fù)荷需求數(shù)據(jù)、分布式新能源出力數(shù)據(jù)和故障線路數(shù)據(jù)的訓(xùn)練集、驗證集和測試集。
9、在本發(fā)明的一些實施例中,所述步驟1中,配電網(wǎng)系統(tǒng)模型采用ieee33節(jié)點配電網(wǎng)模型,該模型提供詳細(xì)的節(jié)點和支路數(shù)據(jù),方便進(jìn)行系統(tǒng)分析和優(yōu)化。同時為適應(yīng)當(dāng)前配電網(wǎng)的發(fā)展需求和實際應(yīng)用,在標(biāo)準(zhǔn)模型的基礎(chǔ)上,加入兩臺風(fēng)電、兩臺光伏分布式電源,為負(fù)荷恢復(fù)和潮流優(yōu)化提供了更多的支撐手段。
10、分布式發(fā)電能夠充分利用環(huán)境資源且污染極小,有效減少了周圍負(fù)荷對電網(wǎng)供電的依賴。一方面,在電力系統(tǒng)運行過程中,dg的存在給了系統(tǒng)一定程度的緩沖能力,在用電高峰時作為備用能源給電網(wǎng)以支撐,減小系統(tǒng)電壓的波動,尤其在極端情況下可以保障關(guān)鍵負(fù)荷的短時應(yīng)急供電,提高系統(tǒng)供電可靠性。另一方面,dg分布在負(fù)荷附近,可以直接為附近的用電負(fù)荷進(jìn)行供電,省去了架設(shè)輸電線路和建設(shè)變電站的成本,也使得電能傳輸中的網(wǎng)損明顯減小。
11、在本發(fā)明的一些實施例中,所述步驟1中,在配電網(wǎng)發(fā)生故障時,在配電網(wǎng)發(fā)生故障時,應(yīng)盡可能使損失最小,將停電對用戶的影響降到最低。在恢復(fù)過程中保障節(jié)點電壓、支路潮流等參數(shù)在允許的范圍內(nèi),確保配電網(wǎng)安全穩(wěn)定地恢復(fù)供電。因此,需由此構(gòu)造目標(biāo)函數(shù)和約束條件,建立配電網(wǎng)故障恢復(fù)模型。
12、步驟1.1:建立配電網(wǎng)故障恢復(fù)模型的目標(biāo)函數(shù):
13、min:f=ωblackoutcblackout+ωlosscloss
14、式中,ωblackout為失負(fù)荷對應(yīng)的權(quán)重系數(shù),ωloss為網(wǎng)損對應(yīng)的權(quán)重系數(shù);cblackout為失負(fù)荷代價,closs為網(wǎng)損代價。
15、
16、式中,n為節(jié)點集合;ui為節(jié)點i的接入狀態(tài),為0-1變量,0為未接入,1為接入;piload為節(jié)點i的有功負(fù)荷需求。
17、
18、式中,xij為i-j支路的通斷狀態(tài),為0-1變量,0為斷開,1為連通;為i-j支路的網(wǎng)損。
19、步驟1.2:建立配電網(wǎng)故障恢復(fù)模型約束條件:
20、所述約束條件主要包括功率平衡約束、線路傳輸功率約束、節(jié)點電壓約束、網(wǎng)絡(luò)輻射狀約束,如下所示:
21、所述功率平衡約束:
22、
23、式中,δpiline、分別為與節(jié)點i連接的線路凈流入節(jié)點i的有功功率和無功功率,pipv和分別為節(jié)點i處分布式光伏的有功和無功輸出,piwt和分別為節(jié)點i處風(fēng)電機組的有功、無功輸出,piload和為節(jié)點i的有功和無功負(fù)荷需求。
24、所述線路傳輸功率約束:
25、
26、式中,和分別為流經(jīng)i-j支路的有功功率上、下限;和分別為流經(jīng)i-j支路的無功功率上、下限;pij、qij分別為流經(jīng)i-j支路的有功功率和無功功率。
27、所述節(jié)點電壓約束:
28、1-ζ≤ui≤1+ζ
29、式中,ui為節(jié)點i處的電壓標(biāo)幺值,ζ為節(jié)點電壓最大偏差。
30、所述網(wǎng)絡(luò)輻射狀約束:
31、
32、式中,bi,j和bj,i為輔助變量,若j為i的父節(jié)點,則bi,j=1,否則bi,j=0,反之,若i為j的父節(jié)點,則bj,i=1,否則bj,i=0;ωi為與節(jié)點i連接的節(jié)點集合,rg表示根節(jié)點集合。在輻射狀網(wǎng)絡(luò)中,除根節(jié)點外每個節(jié)點有且只有一個父節(jié)點,而根節(jié)點沒有父節(jié)點。
33、在本發(fā)明的一些實施例中,所述步驟2中,為了減小配電網(wǎng)重構(gòu)的動作空間,并篩除部分不可行解,將配電網(wǎng)系統(tǒng)分解成m個基本環(huán)路,每個基本環(huán)路包含一個聯(lián)絡(luò)開關(guān)和若干個分段開關(guān),基于基本環(huán)路理論,將基本環(huán)路編號和開關(guān)結(jié)合在一起,構(gòu)建基于環(huán)路-開關(guān)編碼的動作空間;每個動作包含要決策的基本環(huán)路lp,p=1,2,...,m和環(huán)路內(nèi)斷開的開關(guān)其中p為基本環(huán)路序號,為基本環(huán)路lp包含的開關(guān)集合,q為開關(guān)序號,hp為基本環(huán)路lp包含的開關(guān)數(shù)量。通過單步?jīng)Q策實現(xiàn)重構(gòu)的合環(huán)解環(huán)決策步驟,簡化了強化學(xué)習(xí)探索的流程;
34、進(jìn)行動作選擇時,決策到的基本環(huán)路lp只可以選擇一個開關(guān)斷開,通過保存已選動作序列進(jìn)行回溯,主要可分為兩種情況:
35、(1)若首次對基本環(huán)路lp進(jìn)行決策,即已保存的動作序列中不包含環(huán)路lp,則先將環(huán)路內(nèi)的聯(lián)絡(luò)開關(guān)閉合,然后斷開當(dāng)前決策到的開關(guān)
36、(2)若非首次對基本環(huán)路lp決策,即已保存的動作序列中包含環(huán)路lp,則需要先將此基本環(huán)路上一次所決策的斷開開關(guān)重新閉合,再斷開當(dāng)前所選開關(guān)
37、動作空間定義為:
38、
39、這樣操作不需要分兩步進(jìn)行合環(huán)解環(huán)的開關(guān)選擇,簡化了繁瑣的決策步驟,也能屏蔽掉大部分可能造成環(huán)內(nèi)非公共支路上孤島的開關(guān)組合方案,提高了決策效率。
40、在本發(fā)明的一些實施例中,所述步驟2中,配電網(wǎng)可以看作由節(jié)點和支路組成的圖,由圖論可知,樹是一個沒有環(huán)路的連通圖,因此可以將配電網(wǎng)的輻射狀結(jié)構(gòu)與樹進(jìn)行比較。一個節(jié)點數(shù)量為n、電源(主網(wǎng)供電電源)數(shù)量為1的配電網(wǎng),若為輻射狀結(jié)構(gòu)需要滿足以下兩個條件:
41、(1)網(wǎng)絡(luò)是連通的;
42、(2)網(wǎng)絡(luò)中有n-1條閉合的支路。
43、在對其輻射狀條件進(jìn)行分析時,首先檢測閉合支路數(shù)量是否滿足,其次還要檢測其連通性,即不存在孤島。
44、在本發(fā)明的一些實施例中,所述步驟3中,需要將配電網(wǎng)優(yōu)化重構(gòu)問題轉(zhuǎn)化為典型的馬爾可夫決策過程,其狀態(tài)st、動作at、獎勵rt定義如下:
45、(1)狀態(tài)st:狀態(tài)需要考慮所有會對決策造成影響的因素,對于配電網(wǎng)故障恢復(fù)問題,故障產(chǎn)生時刻的配電網(wǎng)運行狀態(tài)、故障位置信息是關(guān)鍵的分析數(shù)據(jù)。因此,觀測狀態(tài)st包括配電網(wǎng)的dg出力數(shù)據(jù)、負(fù)荷需求數(shù)據(jù)和線路通斷狀態(tài)數(shù)據(jù),其中線路通斷數(shù)據(jù)隱含了故障線路位置信息。此外,設(shè)置了環(huán)路狀態(tài)標(biāo)志位以區(qū)分負(fù)荷轉(zhuǎn)供和優(yōu)化重構(gòu)兩部分決策,將故障線路歸屬的環(huán)路狀態(tài)置1,作為屏蔽環(huán)路的依據(jù)。
46、
47、其中,ptload、分別為t決策步節(jié)點負(fù)荷有功和無功需求集合;ptpv、分別為t步光伏有功、無功功率輸出集合;ptwt、分別為風(fēng)電有功、無功功率輸出集合;為線路狀態(tài)集合,相比于優(yōu)化重構(gòu)的線路狀態(tài),多了一個故障線路標(biāo)志位,狀態(tài)0為斷開,1為閉合,2為故障;為t步的環(huán)路屏蔽掩碼標(biāo)志,位數(shù)與基本環(huán)路個數(shù)相等,初始狀態(tài)值都為0,當(dāng)選擇到故障所在線路斷開時,將其對應(yīng)的環(huán)路狀態(tài)置1,表示后續(xù)不再對此環(huán)路進(jìn)行決策。
48、(2)動作at:動作的定義是基于基本環(huán)路進(jìn)行編碼的,包含決策的環(huán)路和開關(guān)編號。
49、at∈aloop_swi
50、其中,aloop_swi為基于環(huán)路-開關(guān)編碼的動作空間,每個動作包含了決策的基本環(huán)路和此環(huán)路內(nèi)要斷開的開關(guān)。
51、(3)獎勵rt:訓(xùn)練時代價主要包括失負(fù)荷代價、網(wǎng)損代價和安全約束代價三部分,獎勵由三部分加權(quán)取反得到。其中,失負(fù)荷代價和網(wǎng)損代價即為權(quán)利要求4所述的目標(biāo)函數(shù),安全約束代價為系統(tǒng)節(jié)點電壓或支路潮流越限懲罰,即電力系統(tǒng)節(jié)點電壓或支路潮流超過了安全范圍,可表示為:
52、
53、其中,為t步的安全約束代價;ωa為支路潮流越限懲罰系數(shù),ωu為節(jié)點電壓越限懲罰系數(shù);μij,t為支路潮流越限標(biāo)志,為0-1變量,代表i-j支路是否越限,μij,t=1表示支路潮流越限,μij,t=0表示支路潮流未越限;ηi,t為節(jié)點電壓越限標(biāo)志,為0-1變量,代表i節(jié)點是否越限,ηi,t=1表示節(jié)點電壓越限,ηi,t=0表示節(jié)點電壓未越限。
54、因此,獎勵rt可以表示為:
55、
56、式中,為t步的失負(fù)荷代價,為t步的網(wǎng)損代價;ωpf為安全約束代價權(quán)重。
57、在本發(fā)明的一些實施例中,所述步驟3中,近端策略優(yōu)化算法(proximal?policyoptimization,ppo),是一種基于策略(policy-based)的強化學(xué)習(xí)算法。ppo算法是基于ac架構(gòu)的,從組成上來看共包含三個深度神經(jīng)網(wǎng)絡(luò),即actor_old、actor和critic網(wǎng)絡(luò),actor網(wǎng)絡(luò)用于選擇動作,輸入系統(tǒng)狀態(tài)信息,輸出當(dāng)前狀態(tài)下動作選擇概率,需要訓(xùn)練更新、梯度反向傳播;actor_old網(wǎng)絡(luò)用于存儲更新actor網(wǎng)絡(luò)前的網(wǎng)絡(luò)參數(shù),在優(yōu)化過程中使用,避免策略更新幅度過大;critic網(wǎng)絡(luò)用于計算狀態(tài)價值,輸入系統(tǒng)狀態(tài)信息,輸出當(dāng)前狀態(tài)的值函數(shù),需要訓(xùn)練更新、梯度反向傳播。
58、在本發(fā)明的一些實施例中,所述步驟3中,訓(xùn)練方式具體包括以下步驟:
59、步驟3.1初始化actor_old、actor和critic網(wǎng)絡(luò),其中actor_old與actor網(wǎng)絡(luò)結(jié)構(gòu)相同;
60、步驟3.2設(shè)定總迭代次數(shù)為e,當(dāng)前迭代次數(shù)記為epoch,初始化epoch=1,初始化經(jīng)驗池;
61、步驟3.3設(shè)定一次迭代最大步數(shù)為t,當(dāng)前動作步數(shù)為t,策略更新次數(shù)為m;
62、步驟3.4初始化t=1;
63、步驟3.5讀取源荷數(shù)據(jù)與故障位置數(shù)據(jù),對狀態(tài)進(jìn)行初始化;
64、步驟3.6在決策時刻,首先根據(jù)故障位置和環(huán)路掩碼標(biāo)志位,進(jìn)行動作篩選,得到可執(zhí)行動作集,進(jìn)而選擇可執(zhí)行動作;
65、步驟3.7執(zhí)行動作at,進(jìn)行潮流計算,計算執(zhí)行動作后的失負(fù)荷量、網(wǎng)損以及電壓偏差等,從而得到獎勵rt;
66、步驟3.8將過往經(jīng)驗序列存儲到經(jīng)驗池;
67、步驟3.9若滿足回合數(shù)t<t,則t+1賦值給t,跳轉(zhuǎn)至步驟3.6,否則,表示第epoch次迭代完成;
68、步驟3.10在對經(jīng)驗池數(shù)據(jù)進(jìn)行學(xué)習(xí)時,首先將獲得這一批數(shù)據(jù)的actor網(wǎng)絡(luò)中的參數(shù)復(fù)制給actor_old網(wǎng)絡(luò);
69、步驟3.11首先將這批數(shù)據(jù)的狀態(tài)輸入到critic網(wǎng)絡(luò),得到對應(yīng)的估計值函數(shù)。然后,使用獎勵和估計值函數(shù)來計算每個時間步的目標(biāo)值函數(shù)和優(yōu)勢函數(shù);
70、步驟3.12利用這批數(shù)據(jù)的優(yōu)勢函數(shù)和目標(biāo)值函數(shù),計算ppo的損失函數(shù),對actor網(wǎng)絡(luò)和critic網(wǎng)絡(luò)的參數(shù)進(jìn)行m次策略梯度更新,清空經(jīng)驗池;
71、步驟3.13若滿足迭代次數(shù)epoch<e,則epoch+1賦值給epoch,跳轉(zhuǎn)至步驟3.4,否則,表示迭代完成,網(wǎng)絡(luò)訓(xùn)練結(jié)束。
72、在本發(fā)明的一些實施例中,所述步驟3.6中,動作篩選過程具體為:在負(fù)荷轉(zhuǎn)供階段,設(shè)置僅可決策故障線路的開關(guān)斷開。此時,根據(jù)狀態(tài)st中的故障位置信息,將動作空間中不包含故障線路開關(guān)的動作加入mask序列,決策網(wǎng)絡(luò)只會選擇故障線路開關(guān)進(jìn)行斷開,同時根據(jù)所選動作的環(huán)路信息,閉合故障線路所屬基本環(huán)路的聯(lián)絡(luò)開關(guān),并將對應(yīng)環(huán)路的標(biāo)志位置1,這樣就完成了一次負(fù)荷轉(zhuǎn)供。在完成負(fù)荷轉(zhuǎn)供后,進(jìn)入潮流優(yōu)化階段,此時根據(jù)狀態(tài)中的信息,得到需要屏蔽的基本環(huán)路,將包含此基本環(huán)路的動作加入mask序列,不再對故障所在環(huán)路進(jìn)行更改。此外,潮流優(yōu)化階段也應(yīng)用了輻射狀約束檢測篩除不可行解,并進(jìn)行動作屏蔽。
73、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:
74、(1)本發(fā)明提出了轉(zhuǎn)供-優(yōu)化兩階段故障恢復(fù)策略,在負(fù)荷轉(zhuǎn)供的基礎(chǔ)上,進(jìn)一步優(yōu)化了系統(tǒng)潮流分布,避免了僅負(fù)荷轉(zhuǎn)供可能造成的潮流越限問題,保證故障恢復(fù)后系統(tǒng)安全、穩(wěn)定地進(jìn)行供電。
75、(2)本發(fā)明更好地適應(yīng)含dg配電網(wǎng)的故障恢復(fù),相比于數(shù)學(xué)規(guī)劃和啟發(fā)式算法等傳統(tǒng)優(yōu)化方法,在處理大規(guī)模配電網(wǎng)故障恢復(fù)問題時效率較低的情況,采用基于ppo的故障恢復(fù)算法有效提高了決策求解速度,滿足問題的實時性要求。
76、(3)本發(fā)明對動作集做出了一定改進(jìn),基于環(huán)路-開關(guān)的編碼方式,簡化了重構(gòu)時合環(huán)解環(huán)操作決策的繁瑣步驟,又通過不可行解篩選和動作掩碼方式,進(jìn)一步縮減了動作空間,在實現(xiàn)配電網(wǎng)故障恢復(fù)目標(biāo)的同時,有效提升了算法的訓(xùn)練效率。