国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于多智能體的源荷雙側(cè)儲(chǔ)能協(xié)同調(diào)度方法

      文檔序號(hào):40387621發(fā)布日期:2024-12-20 12:10閱讀:4來源:國知局
      一種基于多智能體的源荷雙側(cè)儲(chǔ)能協(xié)同調(diào)度方法

      本發(fā)明涉及電力調(diào)度,具體為一種基于多智能體的源荷雙側(cè)儲(chǔ)能協(xié)同調(diào)度方法。


      背景技術(shù):

      1、隨著新型電力系統(tǒng)(下稱系統(tǒng))建設(shè)的快速推進(jìn),新能源發(fā)電比例迅速提升,但其不確定性對(duì)系統(tǒng)運(yùn)行構(gòu)成了巨大挑戰(zhàn)。儲(chǔ)能憑借其高度靈活性支持新能源的消納,增強(qiáng)了電力系統(tǒng)的調(diào)節(jié)能力。然而,由于儲(chǔ)能資源分布不均、調(diào)用方式單一,部分儲(chǔ)能未能得到充分利用,導(dǎo)致資源浪費(fèi)。在電力系統(tǒng)中,源荷雙側(cè)均建有儲(chǔ)能設(shè)備。電源側(cè)受儲(chǔ)能容量限制存在新能源消納不足的現(xiàn)象,使得系統(tǒng)運(yùn)行性能有限。

      2、另一方面,用戶側(cè)供應(yīng)商整合分布式和集中式儲(chǔ)能后通過對(duì)外出租共享從而獲利,未出租部分儲(chǔ)能可以利用電價(jià)差進(jìn)行充放電套利。但該模式的充放電策略比較單一,所獲收益較低,無法最大化儲(chǔ)能效率。


      技術(shù)實(shí)現(xiàn)思路

      1、為解決現(xiàn)有技術(shù)中存在的上述技術(shù)問題,本發(fā)明提供了一種基于多智能體的源荷雙側(cè)儲(chǔ)能協(xié)同調(diào)度方法,具體技術(shù)方案包括以下步驟:

      2、步驟s1:基于多智能體的源荷雙側(cè)儲(chǔ)能系統(tǒng)構(gòu)建目標(biāo)函數(shù),并設(shè)置約束條件;

      3、步驟s2:基于目標(biāo)函數(shù)及約束條件,構(gòu)建馬爾可夫決策模型;

      4、步驟s3:基于馬爾可夫決策模型,對(duì)每一個(gè)馬爾科夫決策周期,獲取源荷雙側(cè)儲(chǔ)能系統(tǒng)對(duì)應(yīng)的狀態(tài)空間;

      5、步驟s4:將狀態(tài)空間代入馬爾可夫決策模型進(jìn)行q值擬合,得到對(duì)應(yīng)的動(dòng)作空間并執(zhí)行。

      6、優(yōu)選地,步驟s1具體包括:

      7、步驟s11:以棄風(fēng)量最小以及儲(chǔ)能利用率最大為目標(biāo)構(gòu)建目標(biāo)函數(shù),公式如下:

      8、;

      9、式中,為調(diào)度時(shí)段序數(shù),為單日總調(diào)度時(shí)段數(shù),為棄風(fēng)懲罰系數(shù),為時(shí)段內(nèi)新能源機(jī)組的實(shí)際出力,為時(shí)段內(nèi)新能源機(jī)組的最大可調(diào)用出力,為儲(chǔ)能的臺(tái)序數(shù),為第臺(tái)儲(chǔ)能時(shí)段內(nèi)的實(shí)際功率,為第臺(tái)儲(chǔ)能時(shí)段內(nèi)的功率最大值;

      10、步驟s12:設(shè)置約束條件,公式如下:

      11、;

      12、;

      13、;

      14、式中,為時(shí)段內(nèi)發(fā)電機(jī)組注入節(jié)點(diǎn)的有功功率,為時(shí)段內(nèi)儲(chǔ)能注入節(jié)點(diǎn)的有功功率,為時(shí)段內(nèi)節(jié)點(diǎn)的有功功率,、分別為時(shí)段內(nèi)節(jié)點(diǎn)、節(jié)點(diǎn)的電壓,、分別為節(jié)點(diǎn)導(dǎo)納矩陣的實(shí)部、虛部,為時(shí)段內(nèi)線路上的電壓相角差,為發(fā)電機(jī)組的臺(tái)序數(shù),為時(shí)段內(nèi)第臺(tái)發(fā)電機(jī)組有功功率的出力值,、分別為第臺(tái)發(fā)電機(jī)組有功功率的最小出力值、最大出力值,為時(shí)段內(nèi)時(shí)段第臺(tái)發(fā)電機(jī)組無功功率的出力值,、分別為第臺(tái)發(fā)電機(jī)組無功功率的最小出力值、最大出力值,為第臺(tái)儲(chǔ)能時(shí)段內(nèi)的功率最小值。

      15、優(yōu)選地,步驟s2具體包括:基于目標(biāo)函數(shù)及約束條件,構(gòu)建馬爾可夫決策模型(,,,,);其中,

      16、為狀態(tài)空間,公式如下:

      17、;

      18、式中,為功率信息,為電網(wǎng)電壓,為儲(chǔ)能的荷電狀態(tài),為時(shí)間;

      19、為動(dòng)作空間,公式如下:

      20、;

      21、式中,為共享儲(chǔ)能的充放電功率,為廠站儲(chǔ)能的充放電功率;

      22、為狀態(tài)轉(zhuǎn)移概率;為獎(jiǎng)勵(lì)函數(shù),具體為,公式如下:

      23、;

      24、式中,為時(shí)段內(nèi)智能體與環(huán)境交互獲得的獎(jiǎng)勵(lì),為越限動(dòng)作懲罰;

      25、為折扣因子,0≦≦1;

      26、對(duì)每一個(gè)馬爾科夫決策周期,獲取對(duì)應(yīng)的狀態(tài)空間;

      27、將狀態(tài)空間代入馬爾可夫決策模型進(jìn)行q值擬合,得到對(duì)應(yīng)的動(dòng)作空間并執(zhí)行。

      28、優(yōu)選地,步驟s4具體為:

      29、在actor-critic框架中,將注意力網(wǎng)絡(luò)引入critic網(wǎng)絡(luò),并通過maan-td3算法(multi-agent?attention?noisy?twin?delayed?deep?deterministic?policy?gradient,多智能體含噪注意力雙延遲策略梯度算法)擬合q值;

      30、步驟s41:將全局的狀態(tài)動(dòng)作對(duì)( s, a)輸入多層感知機(jī),按智能體順序堆疊向量后得到向量;其中, s∈, a∈;

      31、步驟s42:將向量輸入多頭注意力網(wǎng)絡(luò)提取特征,得到特征輸出;

      32、步驟s43:層歸一化處理特征輸出,得到結(jié)果 x;將結(jié)果 x輸入殘差網(wǎng)絡(luò)結(jié)合向量,再輸入全連接層,并將全連接層的輸出 out作為q值。

      33、進(jìn)一步,步驟s41之前,還包括:為狀態(tài) s添加隨機(jī)噪聲擾動(dòng),構(gòu)成探索狀態(tài),公式如下:

      34、?。

      35、進(jìn)一步,使用神經(jīng)網(wǎng)絡(luò)參數(shù)化actor網(wǎng)絡(luò),并通過梯度下降法更新actor網(wǎng)絡(luò)。

      36、優(yōu)選地,殘差網(wǎng)絡(luò)為bellman殘差網(wǎng)絡(luò)。

      37、優(yōu)選地,通過最小化損失函數(shù)更新critic網(wǎng)絡(luò)的參數(shù),公式如下:

      38、;

      39、;

      40、式中,為網(wǎng)絡(luò)參數(shù),為第個(gè)智能體的critic網(wǎng)絡(luò)的損失函數(shù),為經(jīng)驗(yàn)池中儲(chǔ)存的第二觀測(cè)數(shù)據(jù),為對(duì)應(yīng)的獎(jiǎng)勵(lì)值,為更新后儲(chǔ)存的第二觀測(cè)數(shù)據(jù),為損失函數(shù)的期望值,為價(jià)值函數(shù)的目標(biāo)策略,表示第個(gè)智能體的actor網(wǎng)絡(luò)得到的q值,為目標(biāo)q值,為第個(gè)智能體獲得的獎(jiǎng)勵(lì)值,為更新后價(jià)值函數(shù)的目標(biāo)策略,表示更新actor網(wǎng)絡(luò)得到的q值,為智能體的數(shù)量,為第個(gè)智能體對(duì)應(yīng)的動(dòng)作,為更新后第個(gè)智能體對(duì)應(yīng)的動(dòng)作,為第個(gè)智能體的觀測(cè);其中,=1,2,…,。

      41、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果:本發(fā)明所提供的技術(shù)方案可通過協(xié)同調(diào)度源荷雙側(cè)儲(chǔ)能提升儲(chǔ)能的利用效率、電源側(cè)的新能源消納能力和系統(tǒng)運(yùn)行性能。另一方面,可在棄風(fēng)量減少的基礎(chǔ)上提升整體經(jīng)濟(jì)效益。



      技術(shù)特征:

      1.一種基于多智能體的源荷雙側(cè)儲(chǔ)能協(xié)同調(diào)度方法,其特征在于,包括以下步驟:

      2.如權(quán)利要求1所述的一種基于多智能體的源荷雙側(cè)儲(chǔ)能協(xié)同調(diào)度方法,其特征在于,步驟s1具體包括:

      3.如權(quán)利要求2所述的一種基于多智能體的源荷雙側(cè)儲(chǔ)能協(xié)同調(diào)度方法,其特征在于,步驟s2具體包括:基于目標(biāo)函數(shù)及約束條件,構(gòu)建馬爾可夫決策模型(,,,,);其中,

      4.如權(quán)利要求1所述的一種基于多智能體的源荷雙側(cè)儲(chǔ)能協(xié)同調(diào)度方法,其特征在于,步驟s4具體為:

      5.如權(quán)利要求4所述的一種基于多智能體的源荷雙側(cè)儲(chǔ)能協(xié)同調(diào)度方法,其特征在于,步驟s41之前,還包括:為狀態(tài)s添加隨機(jī)噪聲擾動(dòng),構(gòu)成探索狀態(tài),公式如下:

      6.如權(quán)利要求4所述的一種基于多智能體的源荷雙側(cè)儲(chǔ)能協(xié)同調(diào)度方法,其特征在于,使用神經(jīng)網(wǎng)絡(luò)參數(shù)化actor網(wǎng)絡(luò),并通過梯度下降法更新actor網(wǎng)絡(luò)。

      7.如權(quán)利要求4所述的一種基于多智能體的源荷雙側(cè)儲(chǔ)能協(xié)同調(diào)度方法,其特征在于,殘差網(wǎng)絡(luò)為bellman殘差網(wǎng)絡(luò)。

      8.如權(quán)利要求4所述的一種基于多智能體的源荷雙側(cè)儲(chǔ)能協(xié)同調(diào)度方法,其特征在于,還包括,通過最小化損失函數(shù)更新critic網(wǎng)絡(luò)的參數(shù),公式如下:


      技術(shù)總結(jié)
      本發(fā)明涉及電力調(diào)度技術(shù)領(lǐng)域,公開了一種基于多智能體的源荷雙側(cè)儲(chǔ)能協(xié)同調(diào)度方法。該方法包括:基于多智能體的源荷雙側(cè)儲(chǔ)能系統(tǒng)構(gòu)建目標(biāo)函數(shù)和約束條件;根據(jù)目標(biāo)函數(shù)和約束條件構(gòu)建馬爾可夫決策模型,并引入注意力機(jī)制,通過MAAN?TD3算法求解馬爾可夫決策模型,得到源荷雙側(cè)儲(chǔ)能系統(tǒng)對(duì)應(yīng)的動(dòng)作空間并執(zhí)行。該方法可通過協(xié)同調(diào)度荷源雙側(cè)儲(chǔ)能提升儲(chǔ)能的利用效率、電源側(cè)的新能源消納能力和系統(tǒng)運(yùn)行性能。另一方面,可在棄風(fēng)量減少的基礎(chǔ)上提升整體經(jīng)濟(jì)效益。

      技術(shù)研發(fā)人員:陳實(shí),朱鈺杰,劉藝洪,唐國登,王舒灝,陳江平,晏紅平
      受保護(hù)的技術(shù)使用者:四川大學(xué)
      技術(shù)研發(fā)日:
      技術(shù)公布日:2024/12/19
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1