本公開涉及電力,具體涉及一種基于深度確定性策略梯度的配網(wǎng)缺陷管理方法及裝置。
背景技術(shù):
1、在電力系統(tǒng)的穩(wěn)定運(yùn)行中,電網(wǎng)缺陷管理扮演著至關(guān)重要的角色。然而,當(dāng)前的缺陷管理方法面臨著諸多挑戰(zhàn),主要體現(xiàn)在:(1)現(xiàn)有的電網(wǎng)缺陷管理很大程度上依賴于人工排查和記錄,不僅效率低下,而且受限于人員數(shù)量和人員的主觀經(jīng)驗(yàn)水平,難以保證缺陷處理的及時(shí)性和準(zhǔn)確性。(2)新增缺陷如果無法及時(shí)納入排期,影響設(shè)備的運(yùn)行狀態(tài),甚至可能引發(fā)電力安全事故,對電網(wǎng)的穩(wěn)定性和安全性構(gòu)成威脅。(3)施工力量的短缺以及消缺排期的不合理,會(huì)導(dǎo)致消缺進(jìn)度難以有效開展,特別是在需要配合停電計(jì)劃進(jìn)行消缺作業(yè)時(shí),資源配置的不足更加凸顯。(4)人工排查和數(shù)據(jù)收集的不完善導(dǎo)致數(shù)據(jù)存在遺漏,且傳統(tǒng)方法難以應(yīng)對大量缺陷數(shù)據(jù)的快速處理和分析,使得電網(wǎng)缺陷管理的復(fù)雜性和不確定性大大增加;(5)惡劣天氣條件對施工進(jìn)度的影響,也使得電網(wǎng)缺陷管理的復(fù)雜性和不確定性大大增加。
技術(shù)實(shí)現(xiàn)思路
1、本公開實(shí)施例的目的在于提供一種基于深度確定性策略梯度的配網(wǎng)缺陷管理方法及裝置,以至少解決現(xiàn)有技術(shù)中存在的電網(wǎng)缺陷管理復(fù)雜性和不確定性較大,影響電網(wǎng)的穩(wěn)定和安全運(yùn)行的技術(shù)問題。
2、為了解決上述技術(shù)問題,本公開的實(shí)施例采用了如下技術(shù)方案:
3、第一方面,本公開實(shí)施例提供一種基于改進(jìn)深度確定性策略的配網(wǎng)缺陷管理方法,包括:
4、建立電網(wǎng)環(huán)境資料庫,其中,所述電網(wǎng)環(huán)境資料庫包括缺陷記錄庫、天氣狀態(tài)庫、線路資料庫和人力資源庫;
5、通過智能體與所述電網(wǎng)環(huán)境資料庫的交互學(xué)習(xí)訓(xùn)練ddpg模型;
6、利用準(zhǔn)隨機(jī)分形搜索算法對所述ddpg模型中的噪聲進(jìn)行優(yōu)化,得到qrfs-ddpg模型;
7、將獲取的電網(wǎng)環(huán)境信息輸入所述qrfs-ddpg模型,確定配網(wǎng)缺陷的消缺計(jì)劃安排。
8、在一些實(shí)施例中,通過智能體與所述電網(wǎng)環(huán)境資料庫的交互學(xué)習(xí)訓(xùn)練ddpg模型,包括:
9、構(gòu)建策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò),其中,所述策略網(wǎng)絡(luò)根據(jù)當(dāng)前電網(wǎng)狀態(tài)輸出派送工單決策,所述價(jià)值網(wǎng)絡(luò)評估所述派送工單決策的預(yù)期回報(bào);
10、通過確定性策略梯度算法和深度學(xué)習(xí)對所述策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)進(jìn)行訓(xùn)練,得到配網(wǎng)缺陷管理策略。
11、在一些實(shí)施例中,構(gòu)建策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò),包括:
12、確定策略函數(shù)?和價(jià)值函數(shù),其中,所述策略函數(shù),表示在給定狀態(tài)?s下,根據(jù)參數(shù)確定的策略分布,輸出動(dòng)作?a,所述價(jià)值函數(shù)預(yù)測在狀態(tài)?s?下執(zhí)行動(dòng)作?a并遵循策略的預(yù)期回報(bào),狀態(tài)?s?為智能體所處的電網(wǎng)環(huán)境,動(dòng)作?a?為智能體派送的缺陷工單,所述缺陷工單包括分配給預(yù)設(shè)缺陷團(tuán)隊(duì)和預(yù)計(jì)消缺時(shí)間,表示策略網(wǎng)絡(luò)參數(shù),表示價(jià)值網(wǎng)絡(luò)參數(shù);
13、確定目標(biāo)函數(shù),其中,所述目標(biāo)函數(shù)定義為從當(dāng)前狀態(tài)?s開始,遵循策略?所獲得的折扣回報(bào)的總和,表示為:
14、,
15、式中,?為時(shí)間步的折扣因子,為在時(shí)間?t?獲得的即時(shí)獎(jiǎng)勵(lì);
16、通過確定性策略梯度算法和深度學(xué)習(xí)對所述策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)進(jìn)行訓(xùn)練,得到配網(wǎng)缺陷管理策略,包括:
17、通過策略梯度更新所述策略網(wǎng)絡(luò)參數(shù),以優(yōu)化所述目標(biāo)函數(shù),學(xué)習(xí)最優(yōu)策略;
18、通過最小化q值的預(yù)測誤差更新所述價(jià)值網(wǎng)絡(luò)參數(shù),以學(xué)習(xí)狀態(tài)-動(dòng)作對的價(jià)值,得到最優(yōu)價(jià)值。
19、在一些實(shí)施例中,通過策略梯度更新所述策略網(wǎng)絡(luò)參數(shù),包括:
20、通過梯度上升優(yōu)化所述策略網(wǎng)絡(luò)參數(shù),表示為:
21、,
22、其中,是所述策略網(wǎng)絡(luò)根據(jù)當(dāng)前狀態(tài)s輸出的動(dòng)作。
23、在一些實(shí)施例中,通過最小化q值的預(yù)測誤差更新所述價(jià)值網(wǎng)絡(luò)參數(shù),包括:
24、確定所述價(jià)值網(wǎng)絡(luò)更新的損失函數(shù)為:
25、,
26、式中,y為目標(biāo)q值,所述目標(biāo)q值的計(jì)算公式為:
27、,
28、式中,是即時(shí)獎(jiǎng)勵(lì),是折扣因子,q'?是目標(biāo)價(jià)值網(wǎng)絡(luò)的輸出。
29、在一些實(shí)施例中,所述方法還包括:
30、獲取配網(wǎng)經(jīng)驗(yàn)數(shù)據(jù),其中所述配網(wǎng)經(jīng)驗(yàn)數(shù)據(jù)包括缺陷的狀態(tài)、派工單的執(zhí)行情況、缺陷實(shí)際消除時(shí)間與計(jì)劃消除時(shí)間的差異中的至少一種;
31、根據(jù)所述配網(wǎng)經(jīng)驗(yàn)數(shù)據(jù)更新策略估計(jì)和價(jià)值估計(jì);
32、利用更新后的所述策略估計(jì)和價(jià)值估計(jì)訓(xùn)練所述ddpg模型。
33、在一些實(shí)施例中,將獲取的電網(wǎng)環(huán)境信息輸入所述qrfs-ddpg模型,確定配網(wǎng)缺陷的消缺計(jì)劃安排,包括:
34、通過所述qrfs-ddpg模型,對所述電網(wǎng)環(huán)境信息中配網(wǎng)缺陷的消除重要性進(jìn)行評分,得到評分結(jié)果;
35、根據(jù)所述評分結(jié)果對所述配網(wǎng)缺陷的處理進(jìn)行排期以及派送工單。
36、在一些實(shí)施例中,利用準(zhǔn)隨機(jī)分形搜索算法對所述ddpg模型中的噪聲進(jìn)行優(yōu)化,得到qrfs-ddpg模型,包括:
37、通過逐步縮小搜索空間迭代搜索預(yù)設(shè)電網(wǎng)環(huán)境下的最佳噪聲;
38、將所述最佳噪聲添加在所述策略網(wǎng)絡(luò)輸出的動(dòng)作上,表示為:
39、,
40、其中,是在時(shí)間步?t?選擇的動(dòng)作,是actor網(wǎng)絡(luò)輸出的動(dòng)作,是每一步從ornstein-uhlenbeck過程中抽取的噪聲項(xiàng)。
41、在一些實(shí)施例中,確定所述策略函數(shù)和價(jià)值函數(shù)之前,所述方法還包括:
42、通過智能體初始化策略網(wǎng)絡(luò)參數(shù)和價(jià)值網(wǎng)絡(luò)參數(shù),以及對應(yīng)的目標(biāo)網(wǎng)絡(luò)參數(shù)。
43、第二方面,本公開實(shí)施例提供一種基于改進(jìn)深度確定性策略的配網(wǎng)缺陷管理裝置,包括:
44、資料庫建立模塊,配置為建立電網(wǎng)環(huán)境資料庫,其中,所述電網(wǎng)環(huán)境資料庫包括缺陷記錄庫、天氣狀態(tài)庫、線路資料庫和人力資源庫;
45、模型訓(xùn)練模塊,配置為通過智能體與所述電網(wǎng)環(huán)境資料庫的交互學(xué)習(xí)訓(xùn)練ddpg模型;
46、模型優(yōu)化模塊,配置為利用準(zhǔn)隨機(jī)分形搜索算法對所述ddpg模型中的噪聲進(jìn)行優(yōu)化,得到qrfs-ddpg模型;
47、缺陷管理模塊,配置為將獲取的電網(wǎng)環(huán)境信息輸入所述qrfs-ddpg模型,確定配網(wǎng)缺陷的消缺計(jì)劃安排。
48、第三方面,本公開實(shí)施例提供一種電子設(shè)備,至少包括存儲(chǔ)器和處理器,所述存儲(chǔ)器上存儲(chǔ)有計(jì)算機(jī)程序,所述處理器在執(zhí)行所述存儲(chǔ)器上的計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)上述的基于改進(jìn)深度確定性策略的配網(wǎng)缺陷管理方法。
49、第四方面,本公開實(shí)施例提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述的基于改進(jìn)深度確定性策略的配網(wǎng)缺陷管理方法。
50、本公開實(shí)施例提供的一種基于深度確定性策略梯度的配網(wǎng)缺陷管理方法及裝置,通過建立電網(wǎng)環(huán)境資料庫,其中,所述電網(wǎng)環(huán)境資料庫包括缺陷記錄庫、天氣狀態(tài)庫、線路資料庫和人力資源庫;通過智能體與所述電網(wǎng)環(huán)境資料庫的交互學(xué)習(xí)訓(xùn)練ddpg模型;利用準(zhǔn)隨機(jī)分形搜索算法對所述ddpg模型中的噪聲進(jìn)行優(yōu)化,得到qrfs-ddpg模型;將獲取的電網(wǎng)環(huán)境信息輸入所述qrfs-ddpg模型,確定配網(wǎng)缺陷的消缺計(jì)劃安排,能夠利用強(qiáng)化學(xué)習(xí)算法等實(shí)現(xiàn)電網(wǎng)缺陷的自動(dòng)識(shí)別、分類和缺陷處理的智能排期,減少對人工經(jīng)驗(yàn)的依賴,提高電網(wǎng)缺陷管理的智能化水平,提高缺陷處理的準(zhǔn)確性和響應(yīng)速度,提高缺陷處理的效率和質(zhì)量,確保電網(wǎng)的穩(wěn)定和安全運(yùn)行;同時(shí),可以優(yōu)化電網(wǎng)缺陷的消缺計(jì)劃,對電網(wǎng)缺陷進(jìn)行科學(xué)合理的消缺計(jì)劃安排,確保資源的高效分配和使用,提升電網(wǎng)的運(yùn)行效率和安全性,例如,可以更好地協(xié)調(diào)人力資源,優(yōu)化消缺計(jì)劃,減少停電時(shí)間提高電網(wǎng)運(yùn)行的整體可靠性。另外,由于ddpg算法的優(yōu)勢在于其穩(wěn)定性和對高維連續(xù)動(dòng)作空間的適應(yīng)能力,而配網(wǎng)缺陷管理決策易受環(huán)境影響,因此,本實(shí)施例中,對強(qiáng)化學(xué)習(xí)中的深度確定性策略梯度方法進(jìn)行改進(jìn),得到基于優(yōu)化ddpg網(wǎng)絡(luò)的配網(wǎng)缺陷管理方法,能夠增強(qiáng)電網(wǎng)缺陷管理的適應(yīng)性和靈活性,通過算法的自適應(yīng)性,使缺陷管理系統(tǒng)能夠適應(yīng)各種復(fù)雜環(huán)境和突發(fā)情況,確保電網(wǎng)在面對不確定性時(shí)仍能維持穩(wěn)定運(yùn)行。