本技術(shù)涉及強(qiáng)化學(xué)習(xí),具體而言,涉及一種強(qiáng)化學(xué)習(xí)電網(wǎng)調(diào)控智能體的構(gòu)建方法。
背景技術(shù):
1、“數(shù)字化轉(zhuǎn)型”和“可持續(xù)的能源轉(zhuǎn)型”是推動國民經(jīng)濟(jì)高質(zhì)量發(fā)展、實現(xiàn)“雙碳”戰(zhàn)略目標(biāo)的必由之路。隨著可再生能源占比日益攀升和電網(wǎng)運行環(huán)境愈加復(fù)雜,傳統(tǒng)電力系統(tǒng)調(diào)度模式難以在變化劇烈、參數(shù)不準(zhǔn)的復(fù)雜環(huán)境中滿足電力系統(tǒng)的實時調(diào)控需求。
2、現(xiàn)有電力系統(tǒng)調(diào)度策略主要采用最優(yōu)化方法,首先利用凸松弛或線性化方法將復(fù)雜電網(wǎng)模型簡化為易處理的凸模型或線性模型,然后再調(diào)用優(yōu)化算法或求解器進(jìn)行求解。然而,隨著可再生能源和靈活性資源大規(guī)模接入,電網(wǎng)狀態(tài)變化劇烈,運行環(huán)境趨于復(fù)雜,計算負(fù)擔(dān)日益增長,諸多新型可調(diào)設(shè)備(例如,虛擬電廠、聚合商、需求側(cè)響應(yīng)等)難以精準(zhǔn)建模?;趦?yōu)化建模的電力系統(tǒng)調(diào)度方法嚴(yán)重依賴精準(zhǔn)的電網(wǎng)參數(shù)和可調(diào)設(shè)備數(shù)學(xué)模型,逐漸難以滿足復(fù)雜運行環(huán)境中電力系統(tǒng)的即時調(diào)控需求,給現(xiàn)代電力系統(tǒng)的高效快速決策和安全經(jīng)濟(jì)運行帶來了重要挑戰(zhàn)。
技術(shù)實現(xiàn)思路
1、本技術(shù)提供了一種強(qiáng)化學(xué)習(xí)電網(wǎng)調(diào)控智能體的構(gòu)建方法,能夠采用強(qiáng)化學(xué)習(xí)方法與基于歷史數(shù)據(jù)的電力系統(tǒng)模擬運行環(huán)境迭代交互,訓(xùn)練得到神經(jīng)網(wǎng)絡(luò)調(diào)度智能體,在復(fù)雜電網(wǎng)環(huán)境下實現(xiàn)對電力系統(tǒng)實時調(diào)度指令的快速決策,兼顧電力系統(tǒng)運行的安全性和經(jīng)濟(jì)性的雙重訴求。
2、具體的技術(shù)方案如下:
3、第一方面,本技術(shù)實施例提供了一種強(qiáng)化學(xué)習(xí)電網(wǎng)調(diào)控智能體的構(gòu)建方法,所述電網(wǎng)調(diào)控智能體包括第一電網(wǎng)調(diào)控網(wǎng)絡(luò)、第一價值網(wǎng)絡(luò)、第二電網(wǎng)調(diào)控網(wǎng)絡(luò)、第二價值網(wǎng)絡(luò),所述方法包括:
4、所述第一電網(wǎng)調(diào)控網(wǎng)絡(luò)根據(jù)從電力系統(tǒng)仿真環(huán)境中獲取的當(dāng)前時刻電網(wǎng)狀態(tài),預(yù)測出當(dāng)前時刻電網(wǎng)調(diào)控策略,所述電網(wǎng)調(diào)控智能體將所述當(dāng)前時刻電網(wǎng)調(diào)控策略反饋給所述電力系統(tǒng)仿真環(huán)境,以便所述電力系統(tǒng)仿真環(huán)境根據(jù)所述當(dāng)前時刻電網(wǎng)調(diào)控策略進(jìn)行安全性檢查以及潮流計算,獲得針對所述當(dāng)前時刻電網(wǎng)調(diào)控策略的當(dāng)前時刻獎勵值,以及獲得下一時刻電網(wǎng)狀態(tài),將所述當(dāng)前時刻電網(wǎng)狀態(tài)、所述當(dāng)前時刻電網(wǎng)調(diào)控策略、所述當(dāng)前時刻獎勵值和所述下一時刻電網(wǎng)狀態(tài)存入經(jīng)驗回放池;
5、所述第一價值網(wǎng)絡(luò)從所述經(jīng)驗回放池中獲取所述當(dāng)前時刻電網(wǎng)狀態(tài)和所述當(dāng)前時刻電網(wǎng)調(diào)控策略,并進(jìn)行網(wǎng)絡(luò)估計,獲得當(dāng)前時刻后的綜合獎勵值;
6、所述第二電網(wǎng)調(diào)控網(wǎng)絡(luò)根據(jù)所述下一時刻電網(wǎng)狀態(tài),預(yù)測出下一時刻電網(wǎng)調(diào)控策略;
7、所述第二價值網(wǎng)絡(luò)根據(jù)所述下一時刻電網(wǎng)狀態(tài)和所述下一時刻電網(wǎng)調(diào)控策略進(jìn)行網(wǎng)絡(luò)估計,獲得下一時刻后的綜合獎勵值;
8、根據(jù)所述下一時刻后的綜合獎勵值、所述當(dāng)前時刻后的綜合獎勵值和所述當(dāng)前時刻獎勵值,計算所述第一價值網(wǎng)絡(luò)的當(dāng)前損失值;
9、當(dāng)所述當(dāng)前損失值未達(dá)到價值網(wǎng)絡(luò)損失函數(shù)的最小化值時,對所述第一價值網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù)進(jìn)行調(diào)整,并對所述第一電網(wǎng)調(diào)控網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù)進(jìn)行調(diào)整,將下一時刻作為新的當(dāng)前時刻,并返回執(zhí)行步驟所述第一電網(wǎng)調(diào)控網(wǎng)絡(luò)根據(jù)從電力系統(tǒng)仿真環(huán)境中獲取的當(dāng)前時刻電網(wǎng)狀態(tài),預(yù)測出當(dāng)前時刻電網(wǎng)調(diào)控策略,直至達(dá)到預(yù)設(shè)收斂條件時,獲得完成強(qiáng)化學(xué)習(xí)后的電網(wǎng)調(diào)控智能體,其中,預(yù)設(shè)收斂條件包括以下至少一項:所述當(dāng)前損失值達(dá)到價值網(wǎng)絡(luò)損失函數(shù)的最小化值、所述下一時刻電網(wǎng)狀態(tài)滿足目標(biāo)電網(wǎng)狀態(tài)、訓(xùn)練步數(shù)大于或者等于步數(shù)閾值。
10、在一種可能的實施方式中,任一時刻的電網(wǎng)調(diào)控策略包括用于恢復(fù)電網(wǎng)斷面越限的調(diào)度策略;
11、所述第一價值網(wǎng)絡(luò)包括第一主干網(wǎng)絡(luò)、第一主要輸出網(wǎng)絡(luò)和第一輔助任務(wù)輸出網(wǎng)絡(luò),所述第二價值網(wǎng)絡(luò)包括第二主干網(wǎng)絡(luò)、第二主要輸出網(wǎng)絡(luò)和第二輔助任務(wù)輸出網(wǎng)絡(luò);
12、所述第一價值網(wǎng)絡(luò)從所述經(jīng)驗回放池中獲取所述當(dāng)前時刻電網(wǎng)狀態(tài)和所述當(dāng)前時刻電網(wǎng)調(diào)控策略,并進(jìn)行網(wǎng)絡(luò)估計,獲得當(dāng)前時刻后的綜合獎勵值,包括:所述第一主干網(wǎng)絡(luò)從所述經(jīng)驗回放池中獲取所述當(dāng)前時刻電網(wǎng)狀態(tài)、所述當(dāng)前時刻電網(wǎng)調(diào)控策略和所述下一時刻電網(wǎng)狀態(tài),并對所述當(dāng)前時刻電網(wǎng)狀態(tài)和所述當(dāng)前時刻電網(wǎng)調(diào)控策略進(jìn)行特征提取處理,獲得當(dāng)前時刻的多維度特征向量;所述第一主要輸出網(wǎng)絡(luò)對所述當(dāng)前時刻的多維度特征向量進(jìn)行網(wǎng)絡(luò)估計,獲得整個電力系統(tǒng)在當(dāng)前時刻后的綜合獎勵值;所述第一輔助任務(wù)輸出網(wǎng)絡(luò)對所述多維度特征向量進(jìn)行網(wǎng)絡(luò)估計,獲得每個斷面在當(dāng)前時刻后的綜合獎勵值;
13、所述第二價值網(wǎng)絡(luò)根據(jù)所述下一時刻電網(wǎng)狀態(tài)和所述下一時刻電網(wǎng)調(diào)控策略進(jìn)行網(wǎng)絡(luò)估計,獲得下一時刻后的綜合獎勵值,包括:所述第二主干網(wǎng)絡(luò)對所述下一時刻電網(wǎng)狀態(tài)和所述下一時刻電網(wǎng)調(diào)控策略進(jìn)行特征提取處理,獲得下一時刻的多維度特征向量;所述第二主要輸出網(wǎng)絡(luò)對所述下一時刻的多維度特征向量進(jìn)行網(wǎng)絡(luò)估計,獲得所述整個電力系統(tǒng)在下一時刻后的綜合獎勵值;所述第二輔助任務(wù)輸出網(wǎng)絡(luò)對所述下一時刻的多維度特征向量進(jìn)行網(wǎng)絡(luò)估計,獲得每個斷面在下一時刻后的綜合獎勵值;
14、在一種可能的實施方式中,所述電力系統(tǒng)仿真環(huán)境根據(jù)所述當(dāng)前時刻電網(wǎng)調(diào)控策略進(jìn)行安全性檢查以及潮流計算,獲得針對所述當(dāng)前時刻電網(wǎng)調(diào)控策略的當(dāng)前時刻獎勵值,包括:
15、所述電力系統(tǒng)仿真環(huán)境根據(jù)所述當(dāng)前時刻電網(wǎng)調(diào)控策略,對整個電力系統(tǒng)進(jìn)行安全性檢查以及潮流計算,獲得所述整個電力系統(tǒng)的當(dāng)前時刻獎勵值;
16、所述電力系統(tǒng)仿真環(huán)境根據(jù)所述當(dāng)前時刻電網(wǎng)調(diào)控策略,分別對每個斷面進(jìn)行安全性檢查以及潮流計算,獲得每個斷面的當(dāng)前時刻獎勵值。
17、在一種可能的實施方式中,根據(jù)所述下一時刻后的綜合獎勵值、所述當(dāng)前時刻后的綜合獎勵值和所述當(dāng)前時刻獎勵值,計算所述第一價值網(wǎng)絡(luò)的當(dāng)前損失值,包括:
18、計算所述整個電力系統(tǒng)在下一時刻后的綜合獎勵值與所述整個電力系統(tǒng)在當(dāng)前時刻后的綜合獎勵值之差,獲得所述整個電力系統(tǒng)的綜合獎勵差;
19、根據(jù)所述整個電力系統(tǒng)的綜合獎勵差與所述整個電力系統(tǒng)的當(dāng)前時刻獎勵值之差,計算所述第一主要輸出網(wǎng)絡(luò)的當(dāng)前損失值;
20、針對同一斷面,計算該斷面在下一時刻后的綜合獎勵值與該斷面在當(dāng)前時刻后的綜合獎勵值之差,獲得該斷面的綜合獎勵差;
21、根據(jù)每個斷面的綜合獎勵差和每個斷面的當(dāng)前時刻獎勵值,計算所述第一輔助任務(wù)輸出網(wǎng)絡(luò)的當(dāng)前損失值;
22、根據(jù)所述第一主要輸出網(wǎng)絡(luò)的當(dāng)前損失值、所述第一輔助任務(wù)輸出網(wǎng)絡(luò)的當(dāng)前損失值和所述第一輔助任務(wù)輸出網(wǎng)絡(luò)的損失權(quán)重,計算所述第一價值網(wǎng)絡(luò)的當(dāng)前損失值。
23、在一種可能的實施方式中,所述當(dāng)前時刻電網(wǎng)狀態(tài)包括:每個發(fā)電機(jī)組的當(dāng)前狀態(tài)信息、每個斷面的當(dāng)前斷面功率、每個斷面的斷面功率上下限、每個負(fù)載設(shè)備的有功功率、每個直流聯(lián)絡(luò)線的當(dāng)前狀態(tài)信息。
24、在一種可能的實施方式中,所述電力系統(tǒng)仿真環(huán)境中使用的獎勵函數(shù)的獎勵維度包括已越限斷面恢復(fù)成功、新能源消納率超過消納率閾值、機(jī)組調(diào)度成本低于成本閾值、電網(wǎng)正常運行中至少一項;
25、懲罰維度包括已越限斷面恢復(fù)失敗、觸發(fā)了新的斷面越限、系統(tǒng)負(fù)荷平衡被打破、機(jī)組調(diào)度超出范圍約束中至少一項。
26、在一種可能的實施方式中,所述電網(wǎng)調(diào)控智能體中任一神經(jīng)網(wǎng)絡(luò)的前向計算和/或反向計算采用多gpu并行計算;和/或,
27、所述電力系統(tǒng)仿真環(huán)境采用cpu分布式并行計算。
28、第二方面,本技術(shù)實施例提供了一種計算機(jī)可讀存儲介質(zhì),其上存儲有計算機(jī)程序,該程序被處理器執(zhí)行時實現(xiàn)如第一方面任一可能的實現(xiàn)方式所述的方法。
29、第三方面,本技術(shù)實施例提供了一種電子設(shè)備,電子設(shè)備包括:一個或多個處理器;
30、所述處理器與存儲裝置耦合,所述存儲裝置用于存儲一個或多個程序;當(dāng)一個或多個程序被一個或多個處理器執(zhí)行,使得電子設(shè)備實現(xiàn)如第一方面任一可能的實現(xiàn)方式所述的方法。
31、第四方面,本技術(shù)實施例提供了一種計算機(jī)程序產(chǎn)品,所述計算機(jī)程序產(chǎn)品中包含有指令,當(dāng)指令在計算機(jī)或處理器上運行時,使得計算機(jī)或處理器執(zhí)行第一方面任一可能的實現(xiàn)方式所述的方法。
32、本技術(shù)實施例提供的強(qiáng)化學(xué)習(xí)電網(wǎng)調(diào)控智能體的構(gòu)建方法,能夠構(gòu)建包括第一電網(wǎng)調(diào)控網(wǎng)絡(luò)、第一價值網(wǎng)絡(luò)、第二電網(wǎng)調(diào)控網(wǎng)絡(luò)、第二價值網(wǎng)絡(luò)的電網(wǎng)調(diào)控智能體,第一電網(wǎng)調(diào)控網(wǎng)絡(luò)根據(jù)從電力系統(tǒng)仿真環(huán)境中獲取的當(dāng)前時刻電網(wǎng)狀態(tài),預(yù)測出當(dāng)前時刻電網(wǎng)調(diào)控策略,電網(wǎng)調(diào)控智能體將當(dāng)前時刻電網(wǎng)調(diào)控策略反饋給電力系統(tǒng)仿真環(huán)境,以便電力系統(tǒng)仿真環(huán)境根據(jù)當(dāng)前時刻電網(wǎng)調(diào)控策略進(jìn)行安全性檢查以及潮流計算,獲得針對當(dāng)前時刻電網(wǎng)調(diào)控策略的當(dāng)前時刻獎勵值,以及獲得下一時刻電網(wǎng)狀態(tài),將當(dāng)前時刻電網(wǎng)狀態(tài)、當(dāng)前時刻電網(wǎng)調(diào)控策略、當(dāng)前時刻獎勵值和下一時刻電網(wǎng)狀態(tài)存入經(jīng)驗回放池;第一價值網(wǎng)絡(luò)從經(jīng)驗回放池中獲取當(dāng)前時刻電網(wǎng)狀態(tài)和當(dāng)前時刻電網(wǎng)調(diào)控策略,并進(jìn)行網(wǎng)絡(luò)估計,獲得當(dāng)前時刻后的綜合獎勵值;第二電網(wǎng)調(diào)控網(wǎng)絡(luò)根據(jù)下一時刻電網(wǎng)狀態(tài),預(yù)測出下一時刻電網(wǎng)調(diào)控策略;第二價值網(wǎng)絡(luò)根據(jù)下一時刻電網(wǎng)狀態(tài)和下一時刻電網(wǎng)調(diào)控策略進(jìn)行網(wǎng)絡(luò)估計,獲得下一時刻后的綜合獎勵值;根據(jù)下一時刻后的綜合獎勵值、當(dāng)前時刻后的綜合獎勵值和當(dāng)前時刻獎勵值,計算第一價值網(wǎng)絡(luò)的當(dāng)前損失值;當(dāng)當(dāng)前損失值未達(dá)到價值網(wǎng)絡(luò)損失函數(shù)的最小化值時,對第一價值網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù)進(jìn)行調(diào)整,并對第一電網(wǎng)調(diào)控網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù)進(jìn)行調(diào)整,將下一時刻作為新的當(dāng)前時刻,并返回執(zhí)行步驟第一電網(wǎng)調(diào)控網(wǎng)絡(luò)根據(jù)從電力系統(tǒng)仿真環(huán)境中獲取的當(dāng)前時刻電網(wǎng)狀態(tài),預(yù)測出當(dāng)前時刻電網(wǎng)調(diào)控策略,直至達(dá)到預(yù)設(shè)收斂條件時,獲得完成強(qiáng)化學(xué)習(xí)后的電網(wǎng)調(diào)控智能體。由此可知,本技術(shù)實施例能夠采用強(qiáng)化學(xué)習(xí)方法與基于歷史數(shù)據(jù)的電力系統(tǒng)模擬運行環(huán)境迭代交互,訓(xùn)練得到神經(jīng)網(wǎng)絡(luò)調(diào)度智能體,在復(fù)雜電網(wǎng)環(huán)境下實現(xiàn)對電力系統(tǒng)實時調(diào)度指令的快速決策,兼顧電力系統(tǒng)運行的安全性和經(jīng)濟(jì)性的雙重訴求。
33、此外,本技術(shù)實施例還可以實現(xiàn)的技術(shù)效果包括:
34、1、本技術(shù)實施例通過在第一價值網(wǎng)絡(luò)和第二價值網(wǎng)絡(luò)中增加逐斷面的輔助任務(wù),解決了對斷面的稀疏獎勵問題,從而可以大幅加速前期訓(xùn)練效率,增強(qiáng)訓(xùn)練穩(wěn)定性。
35、2、通過使得電網(wǎng)調(diào)控智能體中任一神經(jīng)網(wǎng)絡(luò)的前向計算和/或反向計算采用多gpu(graphics?processing?unit,圖形處理器)并行計算,電力系統(tǒng)仿真環(huán)境采用cpu(central?processingunit,中央處理器)分布式并行計算,可以提高電網(wǎng)調(diào)控智能體整體的計算效率。為避免電力系統(tǒng)仿真環(huán)境(即模擬環(huán)境)并行計算阻塞整體訓(xùn)練,采用異步式的計算邏輯,避免設(shè)備間由于等待引起的阻塞。此外,由于框架整體的異步式非阻塞,也可以通過采用ray框架等分布式計算框架,將cpu上的模擬環(huán)境計算進(jìn)程遷移至計算集群內(nèi)不同的服務(wù)器硬件上執(zhí)行,雖然由于涉及網(wǎng)絡(luò)通信,單次環(huán)境計算執(zhí)行時間將變的更久,但可以通過異步調(diào)用更多的計算資源來彌補(bǔ)通行時間帶來的損失,突破單機(jī)計算資源限制,實現(xiàn)更高的加速效果。