面向復雜環(huán)境的元強化學習多智能體系統(tǒng)的制作方法

文檔序號：40391155發(fā)布日期：2024-12-20 12:14閱讀：4來源：國知局

本申請屬于電力系統(tǒng)，更具體地說，涉及面向復雜環(huán)境的元強化學習多智能體系統(tǒng)。

背景技術：

1、電力電網(wǎng)系統(tǒng)是一個極其復雜的網(wǎng)絡系統(tǒng),其包括大量發(fā)電廠、變電站、輸電線路以及各類用電設備等構成的綜合系統(tǒng)。隨著智能電網(wǎng)技術的不斷發(fā)展,電網(wǎng)系統(tǒng)正在向著更加分布式、互聯(lián)互通的方向演變。這不僅提高了電網(wǎng)的靈活性和可靠性,但也帶來了新的技術挑戰(zhàn)。

2、在現(xiàn)代電網(wǎng)系統(tǒng)中,各類電力資產(chǎn)的配置、狀態(tài)和連接關系正在不斷變化。例如,分布式可再生能源的廣泛接入、電動汽車充電設施的部署、用戶側(cè)儲能系統(tǒng)的應用等,都導致了電網(wǎng)拓撲結構的持續(xù)演化。同時,由于環(huán)境因素和設備故障的影響,電網(wǎng)系統(tǒng)還會經(jīng)常面臨突發(fā)的狀態(tài)變化。這些動態(tài)的電網(wǎng)環(huán)境給電網(wǎng)運維管理帶來了巨大的挑戰(zhàn)。

3、傳統(tǒng)的集中式電網(wǎng)管理和控制方法,難以有效應對電網(wǎng)復雜環(huán)境下的動態(tài)變化。電網(wǎng)系統(tǒng)往往需要依靠大量的人工干預和經(jīng)驗判斷,來維護資產(chǎn)的拓撲圖、檢測和處理故障等。這不僅效率低下,還容易因人為失誤而導致電網(wǎng)運行不穩(wěn)定。因此,迫切需要開發(fā)新型的智能控制技術,來實現(xiàn)電網(wǎng)系統(tǒng)的自適應管理。

4、近年來,基于多智能體系統(tǒng)$(multi-agent?system,mas)的分布式電網(wǎng)控制方法引起了廣泛關注。在這種方法中,電網(wǎng)中的各個節(jié)點或設備被建模為相互協(xié)作的智能代理,通過局部信息交換和自組織協(xié)調(diào),共同完成電網(wǎng)的優(yōu)化調(diào)度和故障處理等任務。然而,現(xiàn)有的mas方法大多依賴于預先設計的規(guī)則和策略,難以適應復雜多變的電網(wǎng)環(huán)境。

技術實現(xiàn)思路

1、本發(fā)明提供了面向復雜環(huán)境的元強化學習多智能體系統(tǒng)，擬解決現(xiàn)有的mas方法大多依賴于預先設計的規(guī)則和策略,難以適應復雜多變的電網(wǎng)環(huán)境的技術問題。

2、面向復雜環(huán)境的元強化學習多智能體系統(tǒng)，包括智能體模塊、元學習模塊、多智能體協(xié)作模塊以及環(huán)境模擬模塊；

3、所述智能體模塊包括多個，用于執(zhí)行決策和行為控制；每個智能體之間通過通信和信息共享進行協(xié)調(diào)和交互；

4、所述元學習模塊提供基于梯度的優(yōu)化算法，用于智能體模塊的策略和價值函數(shù)的可快速學習和遷移；

5、所述多智能體協(xié)作模塊用于管理和協(xié)調(diào)多個智能體之間的合作和競爭關系；

6、所述環(huán)境模擬模塊基于所構建的仿真環(huán)境模擬實際環(huán)境，為元學習模塊提供適合的訓練和驗證場景。

7、本發(fā)明通過元學習模塊從大量模擬的電網(wǎng)場景中學習到一組通用的策略參數(shù)，將該策略參數(shù)作為智能體的初始化參數(shù)，幫組智能體模塊快速適應新的環(huán)境；再基于多智能體協(xié)作模塊管理和協(xié)調(diào)電網(wǎng)中各個節(jié)點智能體之間的合作和競爭關系，使得個智能體模塊能夠根據(jù)環(huán)境變化，動態(tài)調(diào)整自身的行為策略，提高整個系統(tǒng)的靈活性和魯棒性；并且通過環(huán)境模擬模塊構建高保真的電網(wǎng)仿真環(huán)境為元學習模塊提供了豐富的訓練場景，增加了策略在復雜電網(wǎng)環(huán)境下的泛化能力。

8、優(yōu)選的，每個所述智能體模塊包括一個決策模塊和一個行為執(zhí)行模塊；

9、所述決策模塊負責根據(jù)當前環(huán)境狀態(tài)和目標，使用元強化學習算法生成最優(yōu)的行動決策；

10、所述行為執(zhí)行光模塊負責將決策轉(zhuǎn)換為實際的動作輸出，并將結果反饋給決策模塊。

11、優(yōu)選的，所述決策模塊基于深度強化學習的方法構建一個深度神經(jīng)網(wǎng)絡作為策略函數(shù)近似器，使用maml算法學習一組通用的策略網(wǎng)絡參數(shù)，提高智能體在復雜環(huán)境下的快速學習能力；當輸入為當前環(huán)境觀測時，輸出為每種可選行動的概率分布，智能體根據(jù)概率最高的分布確定最終的行動。

12、優(yōu)選的，所述智能體之間通過廣播和單播的形式進行信息交換，共享環(huán)境信息和行為決策，采用基于局部領域的通信機制。

13、優(yōu)選的，所述元學習模塊包括一個元學習訓練器和一個元策略生成器；

14、所述元學習訓練器負責基于maml算法對智能體決策模塊的策略網(wǎng)絡急性元級別的訓練和優(yōu)化；

15、所述元策略生成負責根據(jù)訓練好的策略參數(shù)為各個智能體生成合適當前環(huán)境的初始策略。

16、優(yōu)選的，所述元學習訓練器的訓練步驟如下：

17、a.從一組模擬環(huán)境中，隨機采樣若個任務作為訓練集；

18、b.對每個任務，使用maml算法更新策略參數(shù)，獲得針對該任務的最優(yōu)策略；

19、c.計算策略參數(shù)對于整個任務集的梯度，并用該梯度更新初始的策略參數(shù)；

20、d.重復步驟a到步驟c直至元策略收斂，得到適合復雜環(huán)境的通用策略參數(shù)。

21、優(yōu)選的，所述多智能體模塊包括協(xié)作機制單元、合作激勵單元、爭議解決單元、自組織協(xié)調(diào)單元以及學習優(yōu)化單元；

22、所述協(xié)作機制單元采用分布式協(xié)作機制，每個智能體模塊具有獨立的決策能力和行為執(zhí)行能力，通過廣播和單播的通信方式，智能體模塊之間進行信息交換，共享環(huán)境性信息和行為決策，并通過局部領域的通信機制，提高協(xié)作效率；

23、所述合作激勵單元采用基于全局獎勵的合作激勵機制，當智能體模塊之間的行為產(chǎn)生協(xié)同效果時，給予正向反饋和獎勵；當智能體模塊之間的行為產(chǎn)生沖突時，給出負向反饋和獎勵；

24、爭議解決單元采用基于博弈論的解決機制，利用各智能體的局部信息和預期收益，通過博弈策略達成折衷方案，并引入仲裁者角色對爭議進行調(diào)節(jié)和仲裁；

25、所述自組織協(xié)調(diào)單元對每個智能體之間采用自組織的方式進行動態(tài)的角色分工和任務分配；并根據(jù)當前環(huán)境狀態(tài)和任務需求，智能體自主調(diào)整自身的行為策略；并通過自適應的協(xié)調(diào)機制，提高整個系統(tǒng)的靈活性和魯棒性；

26、所述學習和優(yōu)化單元利用強化學習方法，不斷優(yōu)化智能體模塊的協(xié)作策略；根據(jù)反饋的懲罰信號，調(diào)整智能體模塊的決策和行為；通過多輪迭代使多個智能體之間形成穩(wěn)定高效的協(xié)作模式。

27、本發(fā)明的有益效果包括：

28、本發(fā)明通過元學習模塊從大量模擬的電網(wǎng)場景中學習到一組通用的策略參數(shù)，將該策略參數(shù)作為智能體的初始化參數(shù)，幫組智能體模塊快速適應新的環(huán)境；再基于多智能體協(xié)作模塊管理和協(xié)調(diào)電網(wǎng)中各個節(jié)點智能體之間的合作和競爭關系，使得個智能體模塊能夠根據(jù)環(huán)境變化，動態(tài)調(diào)整自身的行為策略，提高整個系統(tǒng)的靈活性和魯棒性；并且通過環(huán)境模擬模塊構建高保真的電網(wǎng)仿真環(huán)境為元學習模塊提供了豐富的訓練場景，增加了策略在復雜電網(wǎng)環(huán)境下的泛化能力。

技術特征：

1.面向復雜環(huán)境的元強化學習多智能體系統(tǒng)，其特征在于，包括智能體模塊、元學習模塊、多智能體協(xié)作模塊以及環(huán)境模擬模塊；

2.根據(jù)權利要求1所述的面向復雜環(huán)境的強化學習多智能體系統(tǒng)，其特征在于，每個所述智能體模塊包括一個決策模塊和一個行為執(zhí)行模塊；

3.根據(jù)權利要求2所述的面向復雜環(huán)境的強化學習多智能體系統(tǒng)，其特征在于，所述決策模塊基于深度強化學習的方法構建一個深度神經(jīng)網(wǎng)絡作為策略函數(shù)近似器，使用maml算法學習一組通用的策略網(wǎng)絡參數(shù)，提高智能體在復雜環(huán)境下的快速學習能力；當輸入為當前環(huán)境觀測時，輸出為每種可選行動的概率分布，智能體根據(jù)概率最高的分布確定最終的行動。

4.根據(jù)權利要求1所述的面向復雜環(huán)境的強化學習多智能體系統(tǒng)，其特征在于，所述智能體之間通過廣播和單播的形式進行信息交換，共享環(huán)境信息和行為決策，采用基于局部領域的通信機制。

5.根據(jù)權利要求1所述的面向復雜環(huán)境的強化學習多智能體系統(tǒng)，其特征在于，所述元學習模塊包括一個元學習訓練器和一個元策略生成器；

6.根據(jù)權利要求5所述的面向復雜環(huán)境的強化學習多智能體系統(tǒng)，其特征在于，所述元學習訓練器的訓練步驟如下：

7.根據(jù)權利要求1所述的面向復雜環(huán)境的強化學習智能體系統(tǒng)，其特征在于，所述多智能體模塊包括協(xié)作機制單元、合作激勵單元、爭議解決單元、自組織協(xié)調(diào)單元以及學習優(yōu)化單元；

技術總結
本申請屬于電力系統(tǒng)技術領域，更具體地說，涉及面向復雜環(huán)境的元強化學習多智能體系統(tǒng)，本發(fā)明通過元學習模塊從大量模擬的電網(wǎng)場景中學習到一組通用的策略參數(shù)，將該策略參數(shù)作為智能體的初始化參數(shù)，幫組智能體模塊快速適應新的環(huán)境；再基于多智能體協(xié)作模塊管理和協(xié)調(diào)電網(wǎng)中各個節(jié)點智能體之間的合作和競爭關系，使得個智能體模塊能夠根據(jù)環(huán)境變化，動態(tài)調(diào)整自身的行為策略，提高整個系統(tǒng)的靈活性和魯棒性；并且通過環(huán)境模擬模塊構建高保真的電網(wǎng)仿真環(huán)境為元學習模塊提供了豐富的訓練場景，增加了策略在復雜電網(wǎng)環(huán)境下的泛化能力。

技術研發(fā)人員：鄭樺,陳騫,楊偉,梁壽愚,盧志良,姜誠,董召杰,李成,彭君權,趙必美,任正國,曾凡強,陳元峰,王鵬凱
受保護的技術使用者：鄭樺
技術研發(fā)日：
技術公布日：2024/12/19

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：鄭樺,陳騫,楊偉,梁壽愚,盧志良,姜誠,董召杰,李成,彭君權,趙必美,任正國,曾凡強,陳元峰,王鵬凱
技術所有人：鄭樺
我是此專利的發(fā)明人

上一篇：一種可拆卸乳貼的制作方法
上一篇：一種一次性醫(yī)用沖洗連接管的制作方法

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

面向復雜環(huán)境的元強化學習多智能體系統(tǒng)的制作方法