本發(fā)明屬于配電網(wǎng)韌性提升,具體涉及一種基于數(shù)據(jù)-模型混合驅(qū)動(dòng)方法的多類(lèi)型移動(dòng)應(yīng)急資源優(yōu)化調(diào)度和配電網(wǎng)韌性提升策略。
背景技術(shù):
1、配電系統(tǒng)作為關(guān)鍵基礎(chǔ)設(shè)施之一,是其他基礎(chǔ)設(shè)施正常運(yùn)行的基礎(chǔ),其安全穩(wěn)定運(yùn)行對(duì)國(guó)民經(jīng)濟(jì)發(fā)展與社會(huì)穩(wěn)定有著極其重要的作用,但近年來(lái)自然災(zāi)害和人為襲擊等極端事件正日益威脅著配電系統(tǒng)安全。極端事件對(duì)配電網(wǎng)的影響范圍極廣,為了盡可能降低極端事件的影響,需要進(jìn)一步提升配電網(wǎng)安全穩(wěn)定運(yùn)行能力,開(kāi)展配電網(wǎng)韌性提升策略的研究成為新時(shí)代的必然趨勢(shì)。
2、隨著城市電氣化交通的快速發(fā)展,交通網(wǎng)中的充電站數(shù)量激增,交通網(wǎng)與配電網(wǎng)的能量交換能力不斷提升,且交通網(wǎng)絡(luò)中流動(dòng)的移動(dòng)儲(chǔ)能能量不斷增大,形成了規(guī)模巨大、形式多樣、拓?fù)潇`活的離散能量網(wǎng)絡(luò),為增強(qiáng)配電網(wǎng)韌性提供了物質(zhì)和能量基礎(chǔ)。移動(dòng)儲(chǔ)能車(chē)是一種能夠?qū)㈦娔艽鎯?chǔ)并靈活輸送到不同地點(diǎn)的車(chē)輛,在自然災(zāi)害或電力中斷時(shí),移動(dòng)儲(chǔ)能車(chē)可以迅速接入充電站節(jié)點(diǎn)為重要設(shè)施和設(shè)備提供臨時(shí)電力供應(yīng),是使用最為廣泛的電網(wǎng)應(yīng)急供電資源。但是,極端事件也會(huì)直接或間接地影響交通路網(wǎng)照成道路損壞、交通癱瘓等情況。這極大地限制了移動(dòng)儲(chǔ)能車(chē)在交通網(wǎng)中的流動(dòng)性,影響了配電網(wǎng)韌性提升。因此,需要調(diào)度應(yīng)急搶修隊(duì)對(duì)損壞道路進(jìn)行搶修?,F(xiàn)有的配電網(wǎng)韌性提升研究中,大部分假設(shè)交通網(wǎng)道路故障修復(fù)時(shí)間是一個(gè)固定的時(shí)間,甚至假設(shè)故障一直存在來(lái)開(kāi)展韌性提升研究,這與實(shí)際情況不符合。此外,現(xiàn)有研究也忽略了移動(dòng)應(yīng)急資源的動(dòng)態(tài)交互關(guān)系對(duì)其優(yōu)化調(diào)度決策的影響。部分研究在求解算法上選擇純模型方法對(duì)移動(dòng)應(yīng)急資源隨機(jī)優(yōu)化調(diào)度數(shù)學(xué)模型進(jìn)行求解,雖然該方法具有解釋性強(qiáng)且能夠得到較精確結(jié)果的優(yōu)點(diǎn),但是該方法泛化能力差,而且受大量整數(shù)變量和非線性約束的影響導(dǎo)致其實(shí)時(shí)性差,不能滿足實(shí)際移動(dòng)應(yīng)急資源的實(shí)時(shí)決策需求。而部分技術(shù)將強(qiáng)化學(xué)習(xí)方法(純數(shù)據(jù)方法)應(yīng)用于移動(dòng)應(yīng)急資源優(yōu)化調(diào)度,使智能體具備實(shí)時(shí)決策的能力,但是在訓(xùn)練過(guò)程中存在訓(xùn)練時(shí)間長(zhǎng)、可能求解出不可行策略的不足。
技術(shù)實(shí)現(xiàn)思路
1、因此,針對(duì)上述現(xiàn)有技術(shù)存在的缺陷和不足,考慮需要一種高效、準(zhǔn)確的方法用以求解考慮交通網(wǎng)道路狀態(tài)和鄰接關(guān)系動(dòng)態(tài)變化的多類(lèi)型移動(dòng)應(yīng)急資源調(diào)度策略,以提升極端事件發(fā)生后的配電網(wǎng)韌性。
2、有鑒于此,本發(fā)明的目的在于提供一種基于數(shù)據(jù)-模型混合驅(qū)動(dòng)方法的多類(lèi)型移動(dòng)應(yīng)急資源調(diào)度和配電網(wǎng)韌性提升策略,該策略從移動(dòng)儲(chǔ)能車(chē)和應(yīng)急搶修隊(duì)的動(dòng)態(tài)交互關(guān)系出發(fā),同時(shí)協(xié)調(diào)移動(dòng)儲(chǔ)能車(chē)和應(yīng)急搶修隊(duì)進(jìn)行負(fù)荷恢復(fù)和道路維修。該策略能夠考慮修復(fù)道路所需時(shí)長(zhǎng)不確定下調(diào)度應(yīng)急搶修隊(duì)對(duì)交通網(wǎng)損壞道路進(jìn)行修復(fù),同時(shí)能夠考慮交通網(wǎng)道路狀態(tài)動(dòng)態(tài)變化下調(diào)度移動(dòng)儲(chǔ)能車(chē)對(duì)配電網(wǎng)節(jié)點(diǎn)進(jìn)行負(fù)荷恢復(fù)。此外,該策略創(chuàng)新性地將數(shù)據(jù)方法和模型方法相結(jié)合用以求解上述的復(fù)雜高維度非線性的多類(lèi)型移動(dòng)應(yīng)急資源調(diào)度問(wèn)題;其中,數(shù)據(jù)驅(qū)動(dòng)部分由基于圖注意力機(jī)制的圖神經(jīng)網(wǎng)絡(luò)多智能體強(qiáng)化學(xué)習(xí)算法gatd3qn支撐,該算法結(jié)合了基于注意力機(jī)制的圖神經(jīng)網(wǎng)絡(luò)、double?dqn算法和duelingdqn算法的優(yōu)勢(shì)對(duì)傳統(tǒng)dqn算法的特征提取能力和q值計(jì)算進(jìn)行優(yōu)化,并采用優(yōu)先經(jīng)驗(yàn)回放策略提高算法的采樣效率和訓(xùn)練效果,該算法能深入挖掘電力-交通耦合網(wǎng)圖數(shù)據(jù)和移動(dòng)應(yīng)急資源鄰接關(guān)系中的特性信息,求解出最優(yōu)的多類(lèi)型移動(dòng)應(yīng)急資源路由行為策略;模型驅(qū)動(dòng)部分將移動(dòng)儲(chǔ)能車(chē)和應(yīng)急搶修隊(duì)的調(diào)度模型、配電網(wǎng)重構(gòu)模型和配電網(wǎng)最優(yōu)潮流模型構(gòu)建為misocp模型并求解出最優(yōu)的多類(lèi)型移動(dòng)應(yīng)急資源調(diào)度行為策略,包括移動(dòng)儲(chǔ)能車(chē)的功率調(diào)度決策、應(yīng)急搶修隊(duì)的道路修復(fù)決策或者返回倉(cāng)庫(kù)決策,以實(shí)現(xiàn)配電網(wǎng)韌性提升。
3、本發(fā)明解決其技術(shù)問(wèn)題具體采用的技術(shù)方案是:
4、一種基于數(shù)據(jù)-模型混合驅(qū)動(dòng)方法的多類(lèi)型移動(dòng)應(yīng)急資源優(yōu)化調(diào)度和配電網(wǎng)韌性提升策略,從移動(dòng)儲(chǔ)能車(chē)和應(yīng)急搶修隊(duì)的動(dòng)態(tài)交互關(guān)系出發(fā),同時(shí)協(xié)調(diào)移動(dòng)儲(chǔ)能車(chē)和應(yīng)急搶修隊(duì)進(jìn)行負(fù)荷恢復(fù)和道路維修;考慮修復(fù)道路所需時(shí)長(zhǎng)不確定下調(diào)度應(yīng)急搶修隊(duì)對(duì)交通網(wǎng)損壞道路進(jìn)行修復(fù);以及考慮交通網(wǎng)道路狀態(tài)動(dòng)態(tài)變化下調(diào)度移動(dòng)儲(chǔ)能車(chē)對(duì)配電網(wǎng)節(jié)點(diǎn)進(jìn)行負(fù)荷恢復(fù);將數(shù)據(jù)方法和模型方法相結(jié)合用以求解以上多類(lèi)型移動(dòng)應(yīng)急資源調(diào)度問(wèn)題;其中,數(shù)據(jù)驅(qū)動(dòng)部分由基于圖注意力機(jī)制的圖神經(jīng)網(wǎng)絡(luò)多智能體強(qiáng)化學(xué)習(xí)算法gatd3qn支撐,gatd3qn算法結(jié)合基于注意力機(jī)制的圖神經(jīng)網(wǎng)絡(luò)、double?dqn算法和dueling?dqn算法對(duì)傳統(tǒng)dqn算法的特征提取能力和q值計(jì)算進(jìn)行優(yōu)化,并采用優(yōu)先經(jīng)驗(yàn)回放策略提高算法的采樣效率和訓(xùn)練效果,以求解出最優(yōu)的多類(lèi)型移動(dòng)應(yīng)急資源路由行為策略;模型驅(qū)動(dòng)部分將移動(dòng)儲(chǔ)能車(chē)和應(yīng)急搶修隊(duì)的調(diào)度模型、配電網(wǎng)重構(gòu)模型和配電網(wǎng)最優(yōu)潮流模型構(gòu)建為misocp模型并求解出最優(yōu)的多類(lèi)型移動(dòng)應(yīng)急資源調(diào)度行為策略,包括移動(dòng)儲(chǔ)能車(chē)的功率調(diào)度決策、應(yīng)急搶修隊(duì)的道路修復(fù)決策或者返回倉(cāng)庫(kù)決策,以實(shí)現(xiàn)配電網(wǎng)韌性提升。
5、進(jìn)一步地,該策略執(zhí)行時(shí)包括以下步驟:
6、步驟s1:構(gòu)建并初始化電力-交通耦合網(wǎng)模型、移動(dòng)儲(chǔ)能車(chē)圖強(qiáng)化學(xué)習(xí)模型和應(yīng)急搶修隊(duì)圖強(qiáng)化學(xué)習(xí)模型;
7、步驟s2:模擬極端事件發(fā)生后的電力-交通耦合網(wǎng)故障場(chǎng)景,并在配電網(wǎng)中設(shè)置線路斷開(kāi),交通網(wǎng)中設(shè)置道路損壞;
8、步驟s3:對(duì)圖強(qiáng)化學(xué)習(xí)算法環(huán)境初始化,電力-交通耦合網(wǎng)故障場(chǎng)景初始化;
9、步驟s4:根據(jù)電力-交通耦合網(wǎng)信息和移動(dòng)應(yīng)急資源自身狀態(tài)信息,構(gòu)建圖神經(jīng)網(wǎng)絡(luò)強(qiáng)化學(xué)習(xí)算法的移動(dòng)儲(chǔ)能車(chē)狀態(tài)和應(yīng)急搶修隊(duì)狀態(tài)得到狀態(tài)矩陣ot,根據(jù)移動(dòng)應(yīng)急資源鄰接關(guān)系構(gòu)建鄰接矩陣at;
10、步驟s5:根據(jù)ε-greedy策略和圖神經(jīng)網(wǎng)絡(luò)強(qiáng)化學(xué)習(xí)算法作為數(shù)據(jù)驅(qū)動(dòng)部分計(jì)算移動(dòng)儲(chǔ)能車(chē)路由行為策略和應(yīng)急搶修隊(duì)路由行為策略
11、步驟s6:分別執(zhí)行移動(dòng)儲(chǔ)能車(chē)路由行為策略和應(yīng)急搶修隊(duì)路由行為策略并對(duì)移動(dòng)儲(chǔ)能車(chē)和應(yīng)急搶修隊(duì)的狀態(tài)進(jìn)行判斷和更新;
12、步驟s7:所述模型驅(qū)動(dòng)部分根據(jù)移動(dòng)儲(chǔ)能車(chē)調(diào)度模型結(jié)合配電網(wǎng)重構(gòu)模型和配電網(wǎng)最優(yōu)潮流模型計(jì)算移動(dòng)儲(chǔ)能車(chē)的功率調(diào)度策略和獎(jiǎng)勵(lì)函數(shù)rtm,根據(jù)應(yīng)急搶修隊(duì)調(diào)度模型計(jì)算應(yīng)急搶修隊(duì)的維修調(diào)度策略和獎(jiǎng)勵(lì)函數(shù)rtr;
13、步驟s8:更新圖神經(jīng)網(wǎng)絡(luò)強(qiáng)化學(xué)習(xí)算法的移動(dòng)儲(chǔ)能車(chē)狀態(tài)和應(yīng)急搶修隊(duì)狀態(tài)得到下一狀態(tài)矩陣ot+1,更新鄰接矩陣at+1;
14、步驟s9:將當(dāng)前步的信息和初始優(yōu)先級(jí)存儲(chǔ)于移動(dòng)儲(chǔ)能車(chē)圖強(qiáng)化學(xué)習(xí)記憶單元dm,將和初始優(yōu)先級(jí)存儲(chǔ)于應(yīng)急搶修隊(duì)圖強(qiáng)化學(xué)習(xí)記憶單元dr;
15、步驟s10:對(duì)記憶單元采用優(yōu)先經(jīng)驗(yàn)回放策略進(jìn)行樣本重要性采樣,并基于隨機(jī)梯度下降方法分別對(duì)移動(dòng)儲(chǔ)能車(chē)和應(yīng)急搶修隊(duì)的圖神經(jīng)網(wǎng)絡(luò)權(quán)重進(jìn)行更新;
16、步驟s11:判斷是否到達(dá)結(jié)束時(shí)間tend,若否,則執(zhí)行步驟s3~s10;
17、步驟s12:判斷是否到達(dá)訓(xùn)練結(jié)束幕數(shù)eend,若否,則執(zhí)行步驟s3~s11;若是,則輸出移動(dòng)儲(chǔ)能車(chē)和應(yīng)急搶修隊(duì)的圖強(qiáng)化學(xué)習(xí)算法參數(shù)、路由和調(diào)度策略。
18、進(jìn)一步地,在步驟s1中,對(duì)電力-交通耦合網(wǎng)模型、移動(dòng)儲(chǔ)能車(chē)圖強(qiáng)化學(xué)習(xí)模型和應(yīng)急搶修隊(duì)圖強(qiáng)化學(xué)習(xí)模型的初始化,并初始化訓(xùn)練幕數(shù)。
19、將配電網(wǎng)中的節(jié)點(diǎn)和節(jié)點(diǎn)間連接的線路視為點(diǎn)和邊構(gòu)成基礎(chǔ)的配電網(wǎng)圖;在其中加入充電站節(jié)點(diǎn),構(gòu)成配電網(wǎng)圖模型其中npds表示配電網(wǎng)節(jié)點(diǎn)集合,lpds表示配電網(wǎng)線路集合,表示充電站節(jié)點(diǎn)集合;
20、將交通網(wǎng)中的節(jié)點(diǎn)和節(jié)點(diǎn)間連接的道路視為點(diǎn)和邊構(gòu)成基礎(chǔ)的交通網(wǎng)圖;加入充電站節(jié)點(diǎn)和應(yīng)急搶修隊(duì)倉(cāng)庫(kù)構(gòu)成交通網(wǎng)圖模型其中ntn表示交通網(wǎng)節(jié)點(diǎn)集合;ltn表示交通網(wǎng)道路集合;表示交通網(wǎng)中充電站節(jié)點(diǎn)集合;表示交通網(wǎng)中搶修隊(duì)倉(cāng)庫(kù)節(jié)點(diǎn)集合;
21、將所有移動(dòng)儲(chǔ)能車(chē)和應(yīng)急搶修隊(duì)看作代理,并將每個(gè)代理視為一個(gè)節(jié)點(diǎn),同時(shí)將其連接視為邊,構(gòu)建出移動(dòng)應(yīng)急資源動(dòng)態(tài)網(wǎng)絡(luò)模型其中m為移動(dòng)儲(chǔ)能車(chē)集合,w為應(yīng)急搶修隊(duì)集合,為由移動(dòng)應(yīng)急資源鄰接關(guān)系構(gòu)成的鄰接矩陣。
22、進(jìn)一步地,在步驟s2中,在配電網(wǎng)中隨機(jī)設(shè)置部分線路中斷,構(gòu)建出損壞線路集合lpds,off,用于模擬配電網(wǎng)薄弱線路在極端事件發(fā)生后的中斷情況;并在交通網(wǎng)中隨機(jī)設(shè)置部分道路損壞,構(gòu)建出損壞道路集合以模擬交通網(wǎng)部分道路在極端事件照成的障礙物堵塞通行的情況。
23、進(jìn)一步地,在步驟s3中具體包括:對(duì)圖強(qiáng)化學(xué)習(xí)算法環(huán)境中的各項(xiàng)變量初始化以及對(duì)電力-交通耦合網(wǎng)故障場(chǎng)景初始化,并初始化訓(xùn)練時(shí)間。
24、進(jìn)一步地,在步驟s4中:
25、根據(jù)電力-交通耦合網(wǎng)信息和移動(dòng)應(yīng)急資源自身狀態(tài)信息,構(gòu)建移動(dòng)儲(chǔ)能車(chē)圖神經(jīng)網(wǎng)絡(luò)強(qiáng)化學(xué)習(xí)算法的狀態(tài)包括移動(dòng)儲(chǔ)能車(chē)自身狀態(tài)信息鄰接移動(dòng)應(yīng)急資源狀態(tài)信息所在位置的交通網(wǎng)道路信息配電網(wǎng)節(jié)點(diǎn)負(fù)荷數(shù)據(jù)pted、新能源出力ptwt;
26、根據(jù)電力-交通耦合網(wǎng)信息和移動(dòng)應(yīng)急資源自身狀態(tài)信息,構(gòu)建應(yīng)急搶修隊(duì)圖神經(jīng)網(wǎng)絡(luò)強(qiáng)化學(xué)習(xí)算法的狀態(tài)包括移動(dòng)儲(chǔ)能車(chē)自身狀態(tài)信息鄰接移動(dòng)應(yīng)急資源狀態(tài)信息所在位置的交通網(wǎng)道路信息交通網(wǎng)道路故障信息和損壞道路維修時(shí)長(zhǎng)
27、再根據(jù)移動(dòng)應(yīng)急資源鄰接關(guān)系構(gòu)建鄰接矩陣at,鄰接矩陣at用于輸入到圖強(qiáng)化學(xué)習(xí)算法中參與狀態(tài)-動(dòng)作值的計(jì)算。
28、進(jìn)一步地,在步驟s5中,首先,計(jì)算t時(shí)刻的隨機(jī)數(shù)pt,其取值范圍為[0,1),采用ε-greedy策略比較當(dāng)前εt值和隨機(jī)數(shù)pt,如果有pt<εt,則采用隨機(jī)的方法生成移動(dòng)儲(chǔ)能車(chē)路由行為策略和應(yīng)急搶修隊(duì)路由行為策略
29、如果有pt≥εt,則通過(guò)圖神經(jīng)網(wǎng)絡(luò)多智能體強(qiáng)化學(xué)習(xí)算法生成移動(dòng)儲(chǔ)能車(chē)路由行為策略和應(yīng)急搶修隊(duì)路由行為策略
30、所述移動(dòng)儲(chǔ)能車(chē)圖強(qiáng)化學(xué)習(xí)算法和應(yīng)急搶修隊(duì)圖強(qiáng)化學(xué)習(xí)算法中采用的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)相同:采用同一個(gè)神經(jīng)網(wǎng)絡(luò)控制多輛移動(dòng)儲(chǔ)能車(chē),并采用另一個(gè)神經(jīng)網(wǎng)絡(luò)控制多支應(yīng)急搶修隊(duì);神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)為:首先為一層全連接的輸入層,對(duì)輸入移動(dòng)應(yīng)急資源狀態(tài)集合ot進(jìn)行初步特征提取和維度轉(zhuǎn)換,輸出隨后是兩層圖注意力網(wǎng)絡(luò)層,這兩層網(wǎng)絡(luò)基于注意力機(jī)制對(duì)狀態(tài)矩陣和移動(dòng)應(yīng)急資源鄰接矩陣at進(jìn)行注意力系數(shù)計(jì)算,并基于注意力矩陣進(jìn)行特征提取,輸出基于鄰接關(guān)系的特征最后一層采用dueling?dqn算法的策略,將特征信息分流到兩個(gè)全連接的支路:第一條支路輸出狀態(tài)函數(shù)標(biāo)量值v(ot,at);第二條支路輸出狀態(tài)下的動(dòng)作優(yōu)勢(shì)值函數(shù)向量
31、進(jìn)一步地,在步驟s7中,構(gòu)建了移動(dòng)儲(chǔ)能車(chē)調(diào)度模型、配電網(wǎng)重構(gòu)模型和配電網(wǎng)最優(yōu)潮流模型
32、構(gòu)建了應(yīng)急搶修隊(duì)調(diào)度模型;
33、基于配電網(wǎng)節(jié)點(diǎn)負(fù)荷恢復(fù)和交通網(wǎng)損壞道路維修任務(wù)構(gòu)建目標(biāo)函數(shù);
34、在計(jì)算過(guò)程中,對(duì)約束(34)和(35)采用大m法進(jìn)行線性化,約束(39)采用二階錐松弛方法進(jìn)行線性化;應(yīng)急搶修隊(duì)調(diào)度問(wèn)題的約束(46)和(47)采用mccormick?envelope方式進(jìn)行線性化;
35、模型驅(qū)動(dòng)部分以公式(51)-(53)為目標(biāo)函數(shù),以公式(20)-(50)為約束構(gòu)建混合整數(shù)二階錐規(guī)劃模型misocp,采用gurobi求解器進(jìn)行求解;求解得到由移動(dòng)儲(chǔ)能車(chē)恢復(fù)的配電網(wǎng)節(jié)點(diǎn)負(fù)荷量,并采用公式(54)計(jì)算移動(dòng)儲(chǔ)能車(chē)獎(jiǎng)勵(lì)函數(shù)
36、
37、式中,表示t時(shí)刻由第m輛移動(dòng)儲(chǔ)能車(chē)進(jìn)行負(fù)荷支撐的配電網(wǎng)節(jié)點(diǎn)集合;為t時(shí)刻配電網(wǎng)節(jié)點(diǎn)的負(fù)荷恢復(fù)量;為配電網(wǎng)節(jié)點(diǎn)的負(fù)荷等級(jí)權(quán)重系數(shù);在交通網(wǎng)充電站間移動(dòng)過(guò)的過(guò)程中移動(dòng)儲(chǔ)能車(chē)的獎(jiǎng)勵(lì)值為0;
38、通過(guò)求解misocp得到應(yīng)急搶修隊(duì)的道路維修策略或者調(diào)度策略,并計(jì)算應(yīng)急搶修隊(duì)獎(jiǎng)勵(lì)函數(shù)
39、進(jìn)一步地,在步驟s10中,在移動(dòng)儲(chǔ)能車(chē)圖強(qiáng)化學(xué)習(xí)記憶單元dm中以重要性采樣方式分別采集樣本ns,并通過(guò)公式(62)計(jì)算每個(gè)樣本的重要性權(quán)重:
40、
41、式中,nd表示記憶單元dm中的樣本總數(shù);表示該樣本的優(yōu)先級(jí);β為一個(gè)超參數(shù);
42、結(jié)合double?dqn算法的策略,采用公式(63)和(64)進(jìn)行損失函數(shù)計(jì)算:
43、
44、式中,和分別為移動(dòng)儲(chǔ)能車(chē)當(dāng)前網(wǎng)絡(luò)參數(shù)和目標(biāo)網(wǎng)絡(luò)參數(shù);γ為折扣因子反映未來(lái)q值對(duì)當(dāng)前動(dòng)作的影響,取值為[0,1];
45、基于隨機(jī)梯度下降方法和樣本重要性權(quán)重對(duì)移動(dòng)儲(chǔ)能車(chē)圖強(qiáng)化學(xué)習(xí)算法的神經(jīng)網(wǎng)絡(luò)參數(shù)進(jìn)行更新,具體表示為:
46、
47、式中,αm為移動(dòng)儲(chǔ)能車(chē)當(dāng)前網(wǎng)絡(luò)的梯度下降算法的學(xué)習(xí)率;并經(jīng)過(guò)固定步數(shù)nup后,采用下面方式對(duì)移動(dòng)儲(chǔ)能車(chē)目標(biāo)網(wǎng)絡(luò)的參數(shù)進(jìn)行更新:
48、
49、根據(jù)公式(63)計(jì)算得到的td-error值對(duì)計(jì)算每一個(gè)樣本新的優(yōu)先級(jí)其中,∈為常數(shù),用于防止優(yōu)先級(jí)為零;在移動(dòng)儲(chǔ)能車(chē)圖強(qiáng)化學(xué)習(xí)記憶單元dm中對(duì)每個(gè)樣本的優(yōu)先級(jí)進(jìn)行更新;
50、對(duì)應(yīng)急搶修隊(duì)圖強(qiáng)化學(xué)習(xí)算法神經(jīng)網(wǎng)絡(luò)進(jìn)行參數(shù)更新。
51、以及,一種電子設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)如上所述的基于數(shù)據(jù)-模型混合驅(qū)動(dòng)方法的多類(lèi)型移動(dòng)應(yīng)急資源優(yōu)化調(diào)度和配電網(wǎng)韌性提升策略的步驟。
52、相比于現(xiàn)有技術(shù),本發(fā)明及其優(yōu)選方案能夠解決復(fù)雜高維度非線性的多類(lèi)型移動(dòng)應(yīng)急資源隨機(jī)優(yōu)化調(diào)度問(wèn)題,其有益效果至少包括:
53、首先,本發(fā)明調(diào)度應(yīng)急搶修隊(duì)對(duì)交通網(wǎng)故障道路進(jìn)行搶修,將交通網(wǎng)道路狀態(tài)動(dòng)態(tài)變化對(duì)配電網(wǎng)韌性提升的影響考慮在內(nèi),避免了現(xiàn)有技術(shù)存在的忽略道路損壞情況或者假設(shè)道路修復(fù)為固定時(shí)間的問(wèn)題,使得本發(fā)明相比于現(xiàn)有技術(shù)能夠更加有效地運(yùn)用于實(shí)際災(zāi)后電力-交通耦合網(wǎng)故障搶修中,獲得更好的配電網(wǎng)韌性提升效果。
54、其次,本發(fā)明深入研究了多類(lèi)型移動(dòng)應(yīng)急資源間的動(dòng)態(tài)交互關(guān)系對(duì)其協(xié)同調(diào)度的影響。將所有移動(dòng)應(yīng)急資源(即移動(dòng)儲(chǔ)能車(chē)和應(yīng)急搶修隊(duì))視為代理,并將所有代理的動(dòng)態(tài)鄰接關(guān)系抽象為邊,進(jìn)而將所有移動(dòng)儲(chǔ)能車(chē)和應(yīng)急搶修隊(duì)代理的協(xié)同和合作關(guān)系轉(zhuǎn)換成移動(dòng)應(yīng)急資源動(dòng)態(tài)圖結(jié)構(gòu);同時(shí)從移動(dòng)應(yīng)急資源在交通網(wǎng)中移動(dòng)產(chǎn)生的交通流變化以及移動(dòng)應(yīng)急資源動(dòng)態(tài)圖結(jié)構(gòu)中鄰接關(guān)系變化中挖掘有效特征信息用以求解出最優(yōu)的路由和調(diào)度策略。
55、最后,本發(fā)明結(jié)合了數(shù)據(jù)驅(qū)動(dòng)方法的高效性和模型驅(qū)動(dòng)方法的準(zhǔn)確性優(yōu)勢(shì)提出了一種新的數(shù)據(jù)-模型混合驅(qū)動(dòng)方法。該方法能夠更有效地求解考慮交通道路修復(fù)時(shí)間不確定性、鄰接關(guān)系動(dòng)態(tài)變化、交通流變化、修復(fù)道路所需時(shí)長(zhǎng)等不確定性因素的多類(lèi)型移動(dòng)應(yīng)急資源優(yōu)化調(diào)度數(shù)學(xué)模型。在數(shù)據(jù)驅(qū)動(dòng)部分,為了研究移動(dòng)應(yīng)急資源的動(dòng)態(tài)交互關(guān)系,該方法構(gòu)建了一種新的圖注意力神經(jīng)網(wǎng)絡(luò)多智能體強(qiáng)化學(xué)習(xí)算法gatd3qn。相比于現(xiàn)有技術(shù),該算法放棄使用傳統(tǒng)全連接的神經(jīng)網(wǎng)絡(luò),而是采用基于注意力機(jī)制的圖神經(jīng)網(wǎng)絡(luò)對(duì)復(fù)雜圖信息和動(dòng)態(tài)鄰接關(guān)系進(jìn)行特征提取。圖注意力神經(jīng)網(wǎng)絡(luò)相較于傳統(tǒng)全連接神經(jīng)網(wǎng)絡(luò)通過(guò)引入節(jié)點(diǎn)級(jí)別的注意力,能夠關(guān)注動(dòng)態(tài)圖中最相關(guān)的鄰接節(jié)點(diǎn)并有效地聚合信息提高了模型捕捉重要的局部和全局模式的能力,進(jìn)而提升移動(dòng)應(yīng)急資源挖掘鄰接智能體的有效信息的能力。此外,面對(duì)傳統(tǒng)dqn算法存在的q值過(guò)估計(jì)、訓(xùn)練不穩(wěn)定性和樣本效率低等缺點(diǎn),gatd3qn算法結(jié)合了double?dqn算法和dueling?dqn算法的優(yōu)勢(shì)對(duì)傳統(tǒng)dqn算法的特征提取能力和q值計(jì)算進(jìn)行優(yōu)化,并采用優(yōu)先經(jīng)驗(yàn)回放(prioritized?experience?replay,per)策略提高算法的采樣效率和訓(xùn)練效果(對(duì)應(yīng)gatd3qn算法從樣本經(jīng)驗(yàn)池中采樣和計(jì)算td-error用于反向更新神經(jīng)網(wǎng)絡(luò)參數(shù)的設(shè)計(jì))。數(shù)據(jù)驅(qū)動(dòng)部分采用的gatd3qn算法能夠?qū)D注意力網(wǎng)絡(luò)優(yōu)秀的非歐式數(shù)據(jù)信息提取能力和強(qiáng)化學(xué)習(xí)算法強(qiáng)大的序貫隨機(jī)優(yōu)化決策能力相結(jié)合,有效地從移動(dòng)儲(chǔ)能車(chē)和應(yīng)急搶修隊(duì)構(gòu)成的動(dòng)態(tài)鄰接關(guān)系和電力-交通耦合網(wǎng)圖數(shù)據(jù)提取出關(guān)鍵信息以制定移動(dòng)儲(chǔ)能車(chē)和應(yīng)急搶修隊(duì)的路由行為策略;在模型驅(qū)動(dòng)部分,該方法將移動(dòng)儲(chǔ)能車(chē)和應(yīng)急搶修隊(duì)的調(diào)度模型、配電網(wǎng)重構(gòu)模型和配電網(wǎng)最優(yōu)潮流模型構(gòu)建為misocp模型并求解出最優(yōu)的多類(lèi)型移動(dòng)應(yīng)急資源調(diào)度行為策略,包括移動(dòng)儲(chǔ)能車(chē)的功率調(diào)度決策、應(yīng)急搶修隊(duì)的道路修復(fù)決策或者返回倉(cāng)庫(kù)決策。
56、綜上,本發(fā)明能夠同時(shí)考慮交通網(wǎng)道路狀態(tài)動(dòng)態(tài)變化和鄰接移動(dòng)應(yīng)急資源關(guān)系動(dòng)態(tài)變化,通過(guò)數(shù)據(jù)-模型混合驅(qū)動(dòng)方法求解得到的移動(dòng)儲(chǔ)能車(chē)和應(yīng)急搶修隊(duì)的路由和調(diào)度策略恢復(fù)配電網(wǎng)節(jié)點(diǎn)負(fù)荷和修理交通網(wǎng)損壞道路,實(shí)現(xiàn)了配電網(wǎng)的韌性提升。