一種基于運行成本優(yōu)化的多智能體強化學(xué)習方法與流程

文檔序號：40395400發(fā)布日期：2024-12-20 12:18閱讀：7來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本技術(shù)屬于電力系統(tǒng)，更具體地說，涉及一種基于運行成本優(yōu)化的多智能體強化學(xué)習方法。

背景技術(shù)：

1、隨著智能電網(wǎng)的發(fā)展,如何提高電力系統(tǒng)的運行效率和可靠性成為了關(guān)鍵問題之一。電力系統(tǒng)通常由眾多發(fā)電廠、輸電線路、變電站等組成,構(gòu)成了一個復(fù)雜的網(wǎng)絡(luò)系統(tǒng)。在系統(tǒng)運行過程中,需要協(xié)調(diào)各節(jié)點的發(fā)電、調(diào)度、配電等決策,以滿足電力需求,同時需要最小化總體運行成本。

2、傳統(tǒng)的電網(wǎng)調(diào)度方法主要依靠人工經(jīng)驗進行決策,難以適應(yīng)日益復(fù)雜的電力系統(tǒng)環(huán)境。近年來,強化學(xué)習技術(shù)在電力系統(tǒng)優(yōu)化中展現(xiàn)了良好的應(yīng)用前景。強化學(xué)習可以通過與環(huán)境的交互,自動學(xué)習出最優(yōu)的決策策略,從而提高電網(wǎng)的運行效率。

3、然而,電力系統(tǒng)中存在多個獨立的決策主體,如發(fā)電廠、輸配電公司等,它們各自有自己的目標和決策方式。如何在多智能體環(huán)境下,通過協(xié)調(diào)優(yōu)化每個主體的決策,實現(xiàn)電網(wǎng)系統(tǒng)的全局最優(yōu)調(diào)度,成為了一個亟待解決的關(guān)鍵問題。

技術(shù)實現(xiàn)思路

1、本發(fā)明提供了一種基于運行成本優(yōu)化的多智能體強化學(xué)習方法，擬實現(xiàn)在多智能體環(huán)境下，通過協(xié)調(diào)優(yōu)化每個主體的決策，實現(xiàn)電網(wǎng)系統(tǒng)在最低成本下的最優(yōu)調(diào)度。

2、一種基于運行成本優(yōu)化的多智能體強化學(xué)習方法，包括以下步驟：

3、步驟1：將整個電網(wǎng)系統(tǒng)劃分為多個區(qū)域，每個區(qū)域?qū)?yīng)一個智能體；定義每個智能體的狀態(tài)向量，并確定每個智能體可采取的行動，建立每個智能體的成本函數(shù)，用于描述執(zhí)行所述行動的成本；

4、步驟2：采用深度神經(jīng)網(wǎng)絡(luò)作為每個智能體的決策模型，并采用深度強化學(xué)習算法訓(xùn)練每個智能體的決策模型，通過決策模型輸出每個智能體的行動決策；

5、步驟3：構(gòu)建基于多智能體演化策略算法的多智能體強化學(xué)習框架，為每個智能體定義獨立的獎勵函數(shù)，并建立智能體之間的信息交換和協(xié)調(diào)決策，通過多智能體強化學(xué)習框架以最小化成本優(yōu)化每個智能體的行動決策；

6、步驟4：基于博弈論的方法協(xié)調(diào)各智能體的行動決策達到全局最優(yōu)；輸出全局最優(yōu)的行動決策，各智能體基于輸出的行動決策執(zhí)行相應(yīng)的動作。

7、本發(fā)明將電網(wǎng)系統(tǒng)劃分為多個區(qū)域，每個區(qū)域?qū)?yīng)一個獨立的智能體，將復(fù)雜的全局問題轉(zhuǎn)換為多個局部問題，提高決策的可實施性；對于每個智能體建立成本函數(shù)全面的描述智能體執(zhí)行某種行動所帶來的成本影響；并采用深度神經(jīng)網(wǎng)絡(luò)作為每個智能體的決策模型，并使用深度強化學(xué)習算法對決策模型進行訓(xùn)練；通過與環(huán)境的交互，智能體可以資助學(xué)習出最優(yōu)的行動決策策略，逐步降低自身的運行成本；并構(gòu)建基于多智能體演化策略算法的強化學(xué)習框架，為每個智能體構(gòu)建單獨的獎勵函數(shù)，使得能夠根據(jù)自身的狀態(tài)和其他智能體的決策，學(xué)習最優(yōu)的行動策略；最優(yōu)采用基于博弈論的方法進一步協(xié)調(diào)各智能體的行動決策，確保系統(tǒng)收斂到全局最優(yōu)狀態(tài)；提高電網(wǎng)系統(tǒng)的整體運行效率和經(jīng)濟性。

8、優(yōu)選的，所述構(gòu)建的成本函數(shù)如下：

9、

10、式中：w1、w2和w3為相應(yīng)的權(quán)重系數(shù)，ci(si,ai)表示智能體i的總成本函數(shù)；表示智能體i的發(fā)電成本函數(shù)；表示智能體i的電網(wǎng)損耗成本函數(shù)；表示智能體i的排放成本函數(shù)，即發(fā)電過程中產(chǎn)生的污染物排放所導(dǎo)致的環(huán)境成本；si表示智能體i所處的狀態(tài)；ai表示智能體i的初步?jīng)Q策。

11、優(yōu)選的，所述決策模型的結(jié)構(gòu)如下：

12、輸入層：輸入為智能體的狀態(tài)向量；

13、隱藏層：決策模型所采用一個多層感知機結(jié)構(gòu)，多層感知機由多個全連接隱藏層組成；每個全連接隱藏層使用relu?activation?function作為激活函數(shù)；

14、輸出層：輸出層輸出智能體可采取的行動；若智能體的輸出為離散動作的輸出層采用全連接層+softmax?activation的結(jié)構(gòu)，輸出個動作的概率分布；若智能體的輸出為連續(xù)動作的使用全連接層+tanh?activation，輸出動作的確定性值；對于輸出的概率分布選擇概率最高的動作。

15、優(yōu)選的，所多智能體強化學(xué)習框架的訓(xùn)練步驟如下：

16、a.每個智能體根據(jù)當前狀態(tài)和其他智能體的當前狀態(tài)信息，通過自身的決策模型輸出行動決策；

17、b.智能體執(zhí)行行動決策后，通過獎勵函數(shù)獲得及時的獎勵，所述獎勵函數(shù)與智能體的成本函數(shù)相反；

18、c.利用多智能體演化策略算法，更新每個智能體決策模型的參數(shù)，使得整體系統(tǒng)的總成本不斷降低；

19、d.重復(fù)上述步驟a到步驟d，直至系統(tǒng)達到穩(wěn)定的全局最優(yōu)狀態(tài)。

20、優(yōu)選的，所述步驟c包括以下步驟：

21、初始化每個智能體的決策模型參數(shù)θi；

22、在當前參數(shù)θi下，采樣k個動作序列：

23、對于每個采樣的動作序列執(zhí)行動作序列，獲得累積獎勵：

24、

25、式中：表示在執(zhí)行動作序列后，智能體i獲得的累積獎勵；表示智能體i在第t個時間步獲得的即時獎勵；

26、計算動作序列的性能指標：

27、

28、式中：表示動作序列對應(yīng)的性能指標，即智能體i的總成本；

29、使用采樣的性能指標，更新智能體i的參數(shù)θi：

30、

31、式中：θi表示智能體i的決策模型參數(shù)；θi'表示智能體i更新后的決策模型參數(shù)；α表示學(xué)習率，控制參數(shù)更新的步長；表示針對θi的梯度；k表示采樣數(shù)量。

32、優(yōu)選的，所述步驟4包括以下步驟：

33、步驟4.1：將整個多智能體建模為一個非合作博弈模型；每個智能體都是博弈的參與者，目標是最小化自身的成本函數(shù)；

34、步驟4.2：尋找每個智能體在其他智能體決策確定的情況自身的納什均衡解，即自身的決策最優(yōu)解；

35、步驟4.3：基于博弈論分析，檢查當前的行動決策是否已達到納什均衡；

36、步驟4.4：若未達到納什均衡，則進行決策協(xié)調(diào)，直至最終收斂到納什均衡解。

37、優(yōu)選的，所述步驟4.3中納什均衡解應(yīng)當滿足如下條件：

38、

39、式中：ai*表示智能體i的最優(yōu)決策；ai表示智能體i的初步?jīng)Q策；ci(si,ai*)表示智能體i的總成本函數(shù)；ci(si,ai*)表示智能體i基于最優(yōu)決策計算出的成本；ci(si,ai)表示智能體i基于初步?jīng)Q策計算出的成本。

40、優(yōu)選的，所述步驟4.4中的決策協(xié)調(diào)包括以下步驟：

41、每個智能體根據(jù)當前狀態(tài)和其他智能體的決策計算自身的最優(yōu)決策；

42、將各智能體的最優(yōu)決策進行交換和比較，直至所有智能體的決策都不能再進行改善后，輸出最終的全局最優(yōu)行動決策。

43、本發(fā)明的有益效果包括：

44、本發(fā)明將電網(wǎng)系統(tǒng)劃分為多個區(qū)域，每個區(qū)域?qū)?yīng)一個獨立的智能體，將復(fù)雜的全局問題轉(zhuǎn)換為多個局部問題，提高決策的可實施性；對于每個智能體建立成本函數(shù)全面的描述智能體執(zhí)行某種行動所帶來的成本影響；并采用深度神經(jīng)網(wǎng)絡(luò)作為每個智能體的決策模型，并使用深度強化學(xué)習算法對決策模型進行訓(xùn)練；通過與環(huán)境的交互，智能體可以資助學(xué)習出最優(yōu)的行動決策策略，逐步降低自身的運行成本；并構(gòu)建基于多智能體演化策略算法的強化學(xué)習框架，為每個智能體構(gòu)建單獨的獎勵函數(shù)，使得能夠根據(jù)自身的狀態(tài)和其他智能體的決策，學(xué)習最優(yōu)的行動策略；最優(yōu)采用基于博弈論的方法進一步協(xié)調(diào)各智能體的行動決策，確保系統(tǒng)收斂到全局最優(yōu)狀態(tài)；提高電網(wǎng)系統(tǒng)的整體運行效率和經(jīng)濟性。

完整全部詳細技術(shù)資料下載

當前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：盧志良,陳元峰,任正國,梁壽愚,姚森敬,梁凌宇,董召杰,尚佳寧,吳石松,李成,彭君權(quán),趙必美,曾凡強,敖榜,王鵬凱
技術(shù)所有人：盧志良
我是此專利的發(fā)明人

上一篇：一種用于飛機儀表盤深溝球軸承生產(chǎn)的切管裝置的制作方法
上一篇：一種水浸在線監(jiān)測裝置的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種基于運行成本優(yōu)化的多智能體強化學(xué)習方法與流程