本發(fā)明涉及用水需求預(yù)測,具體是基于深度強(qiáng)化學(xué)習(xí)框架的區(qū)域需水量自適應(yīng)動態(tài)預(yù)測方法。
背景技術(shù):
1、在現(xiàn)代城市的供水管理中,準(zhǔn)確預(yù)測區(qū)域需水量(如生活社區(qū),工業(yè)園區(qū),科技園區(qū),產(chǎn)業(yè)園區(qū)等)是實(shí)現(xiàn)最優(yōu)水資源分配的重要環(huán)節(jié)。由于需水量受多種因素影響,如氣象條件、生產(chǎn)操作狀態(tài)和供水系統(tǒng)自身的運(yùn)行狀態(tài),傳統(tǒng)的預(yù)測方法如基于統(tǒng)計(jì)學(xué)的時(shí)間序列分析方法雖能反映供水量變化規(guī)律,但難以動態(tài)適應(yīng)供水策略和環(huán)境條件的變化,預(yù)測顆粒度較粗,預(yù)測精度較低。
2、隨著深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)技術(shù)的快速發(fā)展,智能化供水預(yù)測成為可能。深度學(xué)習(xí)通過構(gòu)建復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型捕捉數(shù)據(jù)中的非線性特征,提高預(yù)測準(zhǔn)確性;而強(qiáng)化學(xué)習(xí)通過模擬智能體在環(huán)境中的決策過程,不斷優(yōu)化控制策略,逐步接近最優(yōu)解。這兩種技術(shù)的結(jié)合,為區(qū)域需水量預(yù)測提供了新的思路。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明所要解決的技術(shù)問題是提供一種基于深度強(qiáng)化學(xué)習(xí)框架的區(qū)域需水量自適應(yīng)動態(tài)預(yù)測方法,可以有效解決上述背景技術(shù)中提出的問題。
2、為解決上述問題,本發(fā)明所采取的技術(shù)方案是:基于深度強(qiáng)化學(xué)習(xí)框架的區(qū)域需水量自適應(yīng)動態(tài)預(yù)測方法,包括獲取區(qū)域內(nèi)歷史供水量數(shù)據(jù),通過歷史供水量數(shù)據(jù)訓(xùn)練時(shí)序預(yù)測模型,利用該模型得到下一時(shí)刻需水量的初始預(yù)測值;構(gòu)建基于深度確定性策略梯度框架(ddpg)的強(qiáng)化學(xué)習(xí)框架,訓(xùn)練(ddpg)模型并利用貝葉斯優(yōu)化對模型的超參數(shù)進(jìn)行調(diào)優(yōu),輸出對初始預(yù)測需水量的修正;根據(jù)修正值調(diào)整初始預(yù)測值得到最終預(yù)測結(jié)果。
3、作為本發(fā)明的進(jìn)一步優(yōu)選方案,所述通過歷史供水量數(shù)據(jù)訓(xùn)練時(shí)序預(yù)測模型包括以下步驟:
4、s1.將歷史用水量數(shù)據(jù)按時(shí)間排序,時(shí)間顆粒度為δt,組成時(shí)間序列數(shù)據(jù)集x={x1,x2,...,xn},其中x1表示當(dāng)前時(shí)刻t之前n個(gè)間隔為δt的用水量向量n≥24;對應(yīng)的目標(biāo)值集合為y={y1,y2,...,yn},其中yi表示時(shí)刻t的用水量;對數(shù)據(jù)集進(jìn)行標(biāo)準(zhǔn)化處理,劃分訓(xùn)練集和測試集;
5、s2.構(gòu)建時(shí)間序列預(yù)測模型,其中最后一層為全連接層,用于輸出下一時(shí)刻需水量的初始預(yù)測結(jié)果;
6、s3.訓(xùn)練時(shí)間序列預(yù)測模型,選擇t時(shí)刻用水量預(yù)測值與實(shí)際值yi之間的均方誤差作為損失函數(shù);
7、s4.采用網(wǎng)格搜索法調(diào)整超參數(shù),利用測試集驗(yàn)證模型性能。
8、作為本發(fā)明的進(jìn)一步優(yōu)選方案,所述時(shí)序預(yù)測模型為循環(huán)神經(jīng)網(wǎng)絡(luò)、長短時(shí)記憶網(wǎng)絡(luò)、門控循環(huán)網(wǎng)絡(luò)或時(shí)間卷積神經(jīng)網(wǎng)絡(luò)的其中一種;時(shí)序預(yù)測模型訓(xùn)練完成后,利用該模型預(yù)測t+1時(shí)刻的供水量yt+1,作為初始預(yù)測值。
9、作為本發(fā)明的進(jìn)一步優(yōu)選方案,所述基于深度確定性策略梯度框架ddpg的強(qiáng)化學(xué)習(xí)框架,包括
10、狀態(tài)空間s:狀態(tài)空間st包含初始預(yù)測值yt+1和其他影響因素xt,其中xt包括供水狀態(tài),生產(chǎn)操作狀態(tài)和氣象狀態(tài);供水狀態(tài)包括t-3至t時(shí)刻的預(yù)測供水量和實(shí)際供水量、t時(shí)刻水庫/水塔水位和管網(wǎng)壓力;氣象狀態(tài)包括t時(shí)刻的溫度、濕度、降雨/雪量、天氣類型;生產(chǎn)操作狀態(tài)包括區(qū)域供水管網(wǎng)中t時(shí)刻各水泵開關(guān)狀態(tài)、閥門開關(guān)狀態(tài);
11、動作空間a:定義為對初始預(yù)測值yt+1的調(diào)整,設(shè)調(diào)整值為δ,修正后的預(yù)測值為y′t+1=y(tǒng)t+1+δ,其中δ受當(dāng)前狀態(tài)影響,即δ∝μ(st);
12、獎勵函數(shù)r:使用絕對誤差mae作為衡量指標(biāo),并選擇初始預(yù)測值yt+1為基準(zhǔn);如果ddpg模型采用調(diào)整策略δ后的預(yù)測值絕對誤差(ae’t+1=|y’t+1-yt+1|)低于初始預(yù)測值的絕對誤差(aet+1=|yt+1-yt+1|),則獲得正獎勵;同時(shí),乘以一個(gè)系數(shù)k來放大獎勵信號,強(qiáng)化修正動作所造成的收益差異:r=k(ae-ae′)。
13、作為本發(fā)明的進(jìn)一步優(yōu)選方案,所述深度確定性策略梯度框架(ddpg),包括兩個(gè)部分,一部分是用于選擇動作的策略網(wǎng)絡(luò),另一部分是用于評估動作質(zhì)量的價(jià)值網(wǎng)絡(luò);所述策略網(wǎng)絡(luò)用于訓(xùn)練策略函數(shù),即根據(jù)當(dāng)前狀態(tài)st輸出動作δt,δt=μ(st|θμ)+nt,其中nt是高斯噪聲,所述價(jià)值網(wǎng)絡(luò)用于近似q值函數(shù),進(jìn)而評估狀態(tài)-動作對的價(jià)值,表示為q(st,δt|θq)。
14、作為本發(fā)明的進(jìn)一步優(yōu)選方案,所述深度確定性策略梯度框架(ddpg),利用經(jīng)驗(yàn)回放和目標(biāo)網(wǎng)絡(luò)來穩(wěn)定訓(xùn)練過程,其中目標(biāo)網(wǎng)絡(luò)包括目標(biāo)策略網(wǎng)絡(luò)μ′(st|θμ′)和目標(biāo)價(jià)值網(wǎng)絡(luò)q′(st,δt|θq′)。
15、作為本發(fā)明的進(jìn)一步優(yōu)選方案,所述基于深度確定性策略梯度框架(ddpg)的強(qiáng)化學(xué)習(xí)框架建立過程具體為:
16、(a)初始化:隨機(jī)初始化策略網(wǎng)絡(luò)μ((st|θμ)和價(jià)值網(wǎng)絡(luò)q((st,δt|θq)及其目標(biāo)網(wǎng)絡(luò)μ′和q′,并將目標(biāo)網(wǎng)絡(luò)參數(shù)設(shè)置為與主網(wǎng)絡(luò)相同;初始化經(jīng)驗(yàn)回放緩沖區(qū)d;初始化噪聲參數(shù),獎勵函數(shù)修正系數(shù)k和其他超參數(shù);
17、(b)策略選擇:在每個(gè)時(shí)間步t,根據(jù)策略網(wǎng)絡(luò)的輸出并加入噪聲選擇動作δt,到達(dá)st+1,計(jì)算獎勵rt;其中δt=μ(st|θμ)+nt;
18、(c)存儲經(jīng)驗(yàn):將經(jīng)歷(st,δt,rt,st+1)存儲到經(jīng)驗(yàn)回放緩沖區(qū);
19、(d)經(jīng)驗(yàn)回放:從經(jīng)驗(yàn)回放緩沖區(qū)中隨機(jī)抽取一批樣本(si,δi,ri,si+1)用于訓(xùn)練;
20、(e)價(jià)值網(wǎng)絡(luò)更新:計(jì)算目標(biāo)q值qi并更新價(jià)值網(wǎng)絡(luò)參數(shù)為
21、qi=ri+γq′(si+1,μ′(si+1|θμ′)|θq′)
22、最小化價(jià)值網(wǎng)絡(luò)的損失函數(shù):
23、
24、通過梯度下降更新價(jià)值網(wǎng)絡(luò)參數(shù)θq:
25、
26、(f)策略網(wǎng)絡(luò)更新:最大化策略網(wǎng)絡(luò)的目標(biāo)函數(shù)為
27、j(θμ)=es~d[q(s,μ(s|θμ)|θq)]
28、使用策略梯度法更新策略網(wǎng)絡(luò)參數(shù):
29、
30、(g)目標(biāo)網(wǎng)絡(luò)軟更新:通過軟更新方式更新目標(biāo)網(wǎng)絡(luò)參數(shù):
31、θq′←τθq+(1-r)θq′
32、θμ′←τ0μ+(1-τ)θμ′。
33、作為本發(fā)明的進(jìn)一步優(yōu)選方案,所述貝葉斯優(yōu)化的目標(biāo)函數(shù)為ddpg訓(xùn)練過程中的平均獎勵,使用高斯過程作為目標(biāo)函數(shù)的概率模型;超參數(shù)的搜索空間為策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)學(xué)習(xí)率,經(jīng)驗(yàn)回放緩沖區(qū)大小,目標(biāo)網(wǎng)絡(luò)軟更新參數(shù),樣本批量大小和策略網(wǎng)絡(luò)更新頻率。
34、作為本發(fā)明的進(jìn)一步優(yōu)選方案,所述深度強(qiáng)化學(xué)習(xí)框架輸出對初始預(yù)測供水量的修正值δt,根據(jù)修正值調(diào)整初始預(yù)測值,得到最終預(yù)測結(jié)果y′t+1。
35、與現(xiàn)有技術(shù)相比,本發(fā)明提供了一種基于深度強(qiáng)化學(xué)習(xí)框架的區(qū)域需水量自適應(yīng)動態(tài)預(yù)測方法,具備以下有益效果:
36、該方法通過歷史供水量數(shù)據(jù)訓(xùn)練時(shí)序預(yù)測網(wǎng)絡(luò)模型,并利用深度確定性策略梯度(ddpg)算法對初始預(yù)測值進(jìn)行優(yōu)化修正,獲得更準(zhǔn)確的預(yù)測結(jié)果,該方法首次將時(shí)間序列預(yù)測模型與深度強(qiáng)化學(xué)習(xí)結(jié)合進(jìn)行用水量預(yù)測優(yōu)化:既捕捉需水時(shí)間序列中的動態(tài)變化,又根據(jù)環(huán)境和操作狀態(tài)的變化選擇最優(yōu)調(diào)整策略并進(jìn)行實(shí)時(shí)修正,不斷優(yōu)化預(yù)測結(jié)果,顯著提高了需水預(yù)測的可控性,實(shí)時(shí)性和準(zhǔn)確性。
37、此外,本發(fā)明利用貝葉斯優(yōu)化方法對模型的超參數(shù)進(jìn)行調(diào)優(yōu)。貝葉斯優(yōu)化通過高斯過程對目標(biāo)函數(shù)進(jìn)行建模,在有限的計(jì)算資源下找到最優(yōu)的超參數(shù)組合,提高了模型性能和訓(xùn)練效率。