本技術(shù)屬于電力系統(tǒng),更具體地說,涉及一種基于運行成本優(yōu)化的多智能體強化學(xué)習方法。
背景技術(shù):
1、隨著智能電網(wǎng)的發(fā)展,如何提高電力系統(tǒng)的運行效率和可靠性成為了關(guān)鍵問題之一。電力系統(tǒng)通常由眾多發(fā)電廠、輸電線路、變電站等組成,構(gòu)成了一個復(fù)雜的網(wǎng)絡(luò)系統(tǒng)。在系統(tǒng)運行過程中,需要協(xié)調(diào)各節(jié)點的發(fā)電、調(diào)度、配電等決策,以滿足電力需求,同時需要最小化總體運行成本。
2、傳統(tǒng)的電網(wǎng)調(diào)度方法主要依靠人工經(jīng)驗進行決策,難以適應(yīng)日益復(fù)雜的電力系統(tǒng)環(huán)境。近年來,強化學(xué)習技術(shù)在電力系統(tǒng)優(yōu)化中展現(xiàn)了良好的應(yīng)用前景。強化學(xué)習可以通過與環(huán)境的交互,自動學(xué)習出最優(yōu)的決策策略,從而提高電網(wǎng)的運行效率。
3、然而,電力系統(tǒng)中存在多個獨立的決策主體,如發(fā)電廠、輸配電公司等,它們各自有自己的目標和決策方式。如何在多智能體環(huán)境下,通過協(xié)調(diào)優(yōu)化每個主體的決策,實現(xiàn)電網(wǎng)系統(tǒng)的全局最優(yōu)調(diào)度,成為了一個亟待解決的關(guān)鍵問題。
技術(shù)實現(xiàn)思路
1、本發(fā)明提供了一種基于運行成本優(yōu)化的多智能體強化學(xué)習方法,擬實現(xiàn)在多智能體環(huán)境下,通過協(xié)調(diào)優(yōu)化每個主體的決策,實現(xiàn)電網(wǎng)系統(tǒng)在最低成本下的最優(yōu)調(diào)度。
2、一種基于運行成本優(yōu)化的多智能體強化學(xué)習方法,包括以下步驟:
3、步驟1:將整個電網(wǎng)系統(tǒng)劃分為多個區(qū)域,每個區(qū)域?qū)?yīng)一個智能體;定義每個智能體的狀態(tài)向量,并確定每個智能體可采取的行動,建立每個智能體的成本函數(shù),用于描述執(zhí)行所述行動的成本;
4、步驟2:采用深度神經(jīng)網(wǎng)絡(luò)作為每個智能體的決策模型,并采用深度強化學(xué)習算法訓(xùn)練每個智能體的決策模型,通過決策模型輸出每個智能體的行動決策;
5、步驟3:構(gòu)建基于多智能體演化策略算法的多智能體強化學(xué)習框架,為每個智能體定義獨立的獎勵函數(shù),并建立智能體之間的信息交換和協(xié)調(diào)決策,通過多智能體強化學(xué)習框架以最小化成本優(yōu)化每個智能體的行動決策;
6、步驟4:基于博弈論的方法協(xié)調(diào)各智能體的行動決策達到全局最優(yōu);輸出全局最優(yōu)的行動決策,各智能體基于輸出的行動決策執(zhí)行相應(yīng)的動作。
7、本發(fā)明將電網(wǎng)系統(tǒng)劃分為多個區(qū)域,每個區(qū)域?qū)?yīng)一個獨立的智能體,將復(fù)雜的全局問題轉(zhuǎn)換為多個局部問題,提高決策的可實施性;對于每個智能體建立成本函數(shù)全面的描述智能體執(zhí)行某種行動所帶來的成本影響;并采用深度神經(jīng)網(wǎng)絡(luò)作為每個智能體的決策模型,并使用深度強化學(xué)習算法對決策模型進行訓(xùn)練;通過與環(huán)境的交互,智能體可以資助學(xué)習出最優(yōu)的行動決策策略,逐步降低自身的運行成本;并構(gòu)建基于多智能體演化策略算法的強化學(xué)習框架,為每個智能體構(gòu)建單獨的獎勵函數(shù),使得能夠根據(jù)自身的狀態(tài)和其他智能體的決策,學(xué)習最優(yōu)的行動策略;最優(yōu)采用基于博弈論的方法進一步協(xié)調(diào)各智能體的行動決策,確保系統(tǒng)收斂到全局最優(yōu)狀態(tài);提高電網(wǎng)系統(tǒng)的整體運行效率和經(jīng)濟性。
8、優(yōu)選的,所述構(gòu)建的成本函數(shù)如下:
9、
10、式中:w1、w2和w3為相應(yīng)的權(quán)重系數(shù),ci(si,ai)表示智能體i的總成本函數(shù);表示智能體i的發(fā)電成本函數(shù);表示智能體i的電網(wǎng)損耗成本函數(shù);表示智能體i的排放成本函數(shù),即發(fā)電過程中產(chǎn)生的污染物排放所導(dǎo)致的環(huán)境成本;si表示智能體i所處的狀態(tài);ai表示智能體i的初步?jīng)Q策。
11、優(yōu)選的,所述決策模型的結(jié)構(gòu)如下:
12、輸入層:輸入為智能體的狀態(tài)向量;
13、隱藏層:決策模型所采用一個多層感知機結(jié)構(gòu),多層感知機由多個全連接隱藏層組成;每個全連接隱藏層使用relu?activation?function作為激活函數(shù);
14、輸出層:輸出層輸出智能體可采取的行動;若智能體的輸出為離散動作的輸出層采用全連接層+softmax?activation的結(jié)構(gòu),輸出個動作的概率分布;若智能體的輸出為連續(xù)動作的使用全連接層+tanh?activation,輸出動作的確定性值;對于輸出的概率分布選擇概率最高的動作。
15、優(yōu)選的,所多智能體強化學(xué)習框架的訓(xùn)練步驟如下:
16、a.每個智能體根據(jù)當前狀態(tài)和其他智能體的當前狀態(tài)信息,通過自身的決策模型輸出行動決策;
17、b.智能體執(zhí)行行動決策后,通過獎勵函數(shù)獲得及時的獎勵,所述獎勵函數(shù)與智能體的成本函數(shù)相反;
18、c.利用多智能體演化策略算法,更新每個智能體決策模型的參數(shù),使得整體系統(tǒng)的總成本不斷降低;
19、d.重復(fù)上述步驟a到步驟d,直至系統(tǒng)達到穩(wěn)定的全局最優(yōu)狀態(tài)。
20、優(yōu)選的,所述步驟c包括以下步驟:
21、初始化每個智能體的決策模型參數(shù)θi;
22、在當前參數(shù)θi下,采樣k個動作序列:
23、對于每個采樣的動作序列執(zhí)行動作序列,獲得累積獎勵:
24、
25、式中:表示在執(zhí)行動作序列后,智能體i獲得的累積獎勵;表示智能體i在第t個時間步獲得的即時獎勵;
26、計算動作序列的性能指標:
27、
28、式中:表示動作序列對應(yīng)的性能指標,即智能體i的總成本;
29、使用采樣的性能指標,更新智能體i的參數(shù)θi:
30、
31、式中:θi表示智能體i的決策模型參數(shù);θi'表示智能體i更新后的決策模型參數(shù);α表示學(xué)習率,控制參數(shù)更新的步長;表示針對θi的梯度;k表示采樣數(shù)量。
32、優(yōu)選的,所述步驟4包括以下步驟:
33、步驟4.1:將整個多智能體建模為一個非合作博弈模型;每個智能體都是博弈的參與者,目標是最小化自身的成本函數(shù);
34、步驟4.2:尋找每個智能體在其他智能體決策確定的情況自身的納什均衡解,即自身的決策最優(yōu)解;
35、步驟4.3:基于博弈論分析,檢查當前的行動決策是否已達到納什均衡;
36、步驟4.4:若未達到納什均衡,則進行決策協(xié)調(diào),直至最終收斂到納什均衡解。
37、優(yōu)選的,所述步驟4.3中納什均衡解應(yīng)當滿足如下條件:
38、
39、式中:ai*表示智能體i的最優(yōu)決策;ai表示智能體i的初步?jīng)Q策;ci(si,ai*)表示智能體i的總成本函數(shù);ci(si,ai*)表示智能體i基于最優(yōu)決策計算出的成本;ci(si,ai)表示智能體i基于初步?jīng)Q策計算出的成本。
40、優(yōu)選的,所述步驟4.4中的決策協(xié)調(diào)包括以下步驟:
41、每個智能體根據(jù)當前狀態(tài)和其他智能體的決策計算自身的最優(yōu)決策;
42、將各智能體的最優(yōu)決策進行交換和比較,直至所有智能體的決策都不能再進行改善后,輸出最終的全局最優(yōu)行動決策。
43、本發(fā)明的有益效果包括:
44、本發(fā)明將電網(wǎng)系統(tǒng)劃分為多個區(qū)域,每個區(qū)域?qū)?yīng)一個獨立的智能體,將復(fù)雜的全局問題轉(zhuǎn)換為多個局部問題,提高決策的可實施性;對于每個智能體建立成本函數(shù)全面的描述智能體執(zhí)行某種行動所帶來的成本影響;并采用深度神經(jīng)網(wǎng)絡(luò)作為每個智能體的決策模型,并使用深度強化學(xué)習算法對決策模型進行訓(xùn)練;通過與環(huán)境的交互,智能體可以資助學(xué)習出最優(yōu)的行動決策策略,逐步降低自身的運行成本;并構(gòu)建基于多智能體演化策略算法的強化學(xué)習框架,為每個智能體構(gòu)建單獨的獎勵函數(shù),使得能夠根據(jù)自身的狀態(tài)和其他智能體的決策,學(xué)習最優(yōu)的行動策略;最優(yōu)采用基于博弈論的方法進一步協(xié)調(diào)各智能體的行動決策,確保系統(tǒng)收斂到全局最優(yōu)狀態(tài);提高電網(wǎng)系統(tǒng)的整體運行效率和經(jīng)濟性。