本發(fā)明涉及智能電網(wǎng),尤其是涉及基于深度強(qiáng)化學(xué)習(xí)的微電網(wǎng)電能交易方法。
背景技術(shù):
隨著能源短缺和溫室效應(yīng)等環(huán)境問題日趨嚴(yán)峻,對于可再生能源的利用成為了一個重要的研究方向,智能電網(wǎng)的提出是為了整合可再生能源、降低電網(wǎng)成本及提供更好電網(wǎng)質(zhì)量。智能電網(wǎng)由若干個微電網(wǎng)組成,微電網(wǎng)主要包括內(nèi)部負(fù)載、可再生能源發(fā)電機(jī)及電能存儲設(shè)備。
由于各微電網(wǎng)可再生能源產(chǎn)量、負(fù)荷的不確定性以及拓?fù)浣Y(jié)構(gòu)的復(fù)雜性,合理的電能交易方案對提高電網(wǎng)效益,減少損失,提高能源利用率具有重要意義。saadw等[saadw,hanz,poorhv,etal.game-theoreticmethodsforthesmartgrid:anoverviewofmicrogridsystems,demand-sidemanagement,andsmartgridcommunications[j].ieeesignalprocessingmagazine,2012,29(5):86-105.]指出微電網(wǎng)之間通過傳輸線和變壓站進(jìn)行電能傳輸?shù)倪^程中,傳輸距離以及變壓損耗是影響傳輸成本的直接因素,地理位置臨近的微電網(wǎng)之間的交易可以更好地平衡其內(nèi)部的電能供需關(guān)系,減少微電網(wǎng)對使用高污染能源的傳統(tǒng)電網(wǎng)的依賴,降低電網(wǎng)成本。對于智能電網(wǎng)電能的分配問題,dalalg等[dalalg,gilboae,mannors.hierarchicaldecisionmakinginelectricitygridmanagement[c]//proceedingsofthe33rdinternationalconferenceonmachinelearning.2016:2197-2206.]提出了在長期和短期兩種時間尺度上使用強(qiáng)化學(xué)習(xí)算法,學(xué)習(xí)微電網(wǎng)的產(chǎn)能與負(fù)荷模型,減少電網(wǎng)出現(xiàn)供電不足的情況,提高電網(wǎng)的可靠性的方法。guanc等[guanc,wangy,linx,etal.reinforcementlearning-basedcontrolofresidentialenergystoragesystemsforelectricbillminimization[c]//consumercommunicationsandnetworkingconference(ccnc),2015:637-642.]采用了時間差分算法來學(xué)習(xí)可再生能源的變化規(guī)律,并根據(jù)學(xué)習(xí)的結(jié)果決定電能交易量。
在電能交易中,最大的困難在于可再生能源產(chǎn)能和微電網(wǎng)負(fù)荷的不穩(wěn)定性。為了解決這個問題,fathim等[fathim,bevranih.adaptiveenergyconsumptionschedulingforconnectedmicrogridsunderdemanduncertainty[j].ieeetransactionsonpowerdelivery,2013,28(3):1576-1583.]提出自適應(yīng)的電能消費(fèi)方案來解決不確定的負(fù)荷帶來的困擾。由于可再生能源的產(chǎn)量受限于實(shí)際天氣,不同時間的產(chǎn)量服從一定的狀態(tài)轉(zhuǎn)移概率,因此,kuznetsovae等[kuznetsovae,liyf,ruizc,etal.reinforcementlearningformicrogridenergymanagement[j].energy,2013,59:133-146.]將可再生能源的產(chǎn)量模擬為馬爾可夫過程,并在此基礎(chǔ)上提出了基于強(qiáng)化學(xué)習(xí)算法的電能管理方案。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的是為解決微電網(wǎng)的電能交易問題,提供深度強(qiáng)化學(xué)習(xí)結(jié)合了q學(xué)習(xí)和深度卷積神經(jīng)網(wǎng)絡(luò),克服了人工神經(jīng)網(wǎng)絡(luò)需要在訓(xùn)練過程中需要先對數(shù)據(jù)進(jìn)行分類,緩解了q學(xué)習(xí)算法在狀態(tài)集和動作集維度大的情況下學(xué)習(xí)速度會快速下降問題的基于深度強(qiáng)化學(xué)習(xí)的微電網(wǎng)電能交易方法。
本發(fā)明包括以下步驟:
1)設(shè)定區(qū)域內(nèi)有n個微電網(wǎng)的智能電網(wǎng),各微電網(wǎng)之間相互連接且與電廠相連,對于一個微電網(wǎng)i,1≤i≤n,其電池存儲容量為c、儲能增益系數(shù)為β,斷電損失系數(shù)為p,與智能電網(wǎng)中其余n-1個微電網(wǎng)之間的電能傳輸損耗系數(shù)為lij,電能交易價格為ρij,1≤j≠i≤n,與電廠的傳輸損耗系數(shù)為lii,電能交易價格為ρii;
2)構(gòu)造深度卷積神經(jīng)網(wǎng)絡(luò);初始化深度卷積神經(jīng)網(wǎng)絡(luò)的權(quán)重參數(shù)θi,1≤i≤n、輸入序列長度w以及網(wǎng)絡(luò)更新的操作次數(shù)b;初始化深度卷積神經(jīng)網(wǎng)絡(luò)輸出的q值;初始化學(xué)習(xí)因子α,折扣因子γ;
3)在k時刻,記錄所有微電網(wǎng)前一時刻的電能產(chǎn)量g(k-1)=[gi(k-1)]1≤i≤n與負(fù)荷d(k-1)=[di(k-1)]1≤i≤n,其中,
4)在第k時刻,當(dāng)k<w時,微電網(wǎng)i隨機(jī)選取一種交易方案xi(k)=[xij(k)]1≤j≠i≤n,xij(k)∈[-a,a],其中,
5)微電網(wǎng)i與相連的微電網(wǎng)之間提出各自的交易方案,確定與微電網(wǎng)之間的實(shí)際交易量yij(k),1≤j≠i≤n以及與電廠之間的交易量yii(k);
6)觀察第k時刻所有微電網(wǎng)的可再生能源產(chǎn)量g(k)和負(fù)荷d(k);
7)微電網(wǎng)i觀察本次交易產(chǎn)生的效益ui(k);
8)記錄第k時刻的經(jīng)驗(yàn)
9)對第k時刻深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的權(quán)重參數(shù)θ(k)進(jìn)行b次更新操作;
10)根據(jù)環(huán)境變化,重復(fù)步驟3)~9),直到微電網(wǎng)i學(xué)習(xí)到穩(wěn)定的交易選擇策略。
在步驟1)中,所述微電網(wǎng)的智能電網(wǎng)中另一個微電網(wǎng)之間的電能傳輸損耗系數(shù)lij由兩個微電網(wǎng)的電能傳輸路徑的長度確定。
在步驟2)中,所述構(gòu)造深度卷積神經(jīng)網(wǎng)絡(luò)包含h+m層,前h層為卷積層,后m層為全連接層,其中最后一層的輸出數(shù)目與智能電網(wǎng)的可選交易方案數(shù)目一致。
在步驟4)中,所述交易量是有限個離散數(shù)值的集合,在第k時刻,對于一個微電網(wǎng)i來說,與智能電網(wǎng)中另一個微電網(wǎng)j之間的交易量xij(k)的具體含義如下所示:
在步驟5)中,所述微電網(wǎng)i和微電網(wǎng)j之間的實(shí)際傳輸量yij(k)由以下方法確定:
微電網(wǎng)i與其他微電網(wǎng)之間無法根據(jù)交易方案完成的部分由電廠承擔(dān),與電廠的交易量為yii(k)。
在步驟6)中,在第k時刻,微電網(wǎng)i的效益ui(k)由儲能增益
其中,i(·)是指示函數(shù),當(dāng)括號內(nèi)變量為真的時候函數(shù)取值為1,否則為0。
在步驟9)中,所述對第k時刻深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的權(quán)重參數(shù)θ(k)進(jìn)行b次更新操作的具體方法可為:在每一次更新過程中,隨機(jī)從經(jīng)驗(yàn)池d中選取一個經(jīng)驗(yàn)
與已有的微電網(wǎng)電能交易方法不同,本發(fā)明中微電網(wǎng)基于深度強(qiáng)化學(xué)習(xí),主動學(xué)習(xí)各微電網(wǎng)的可再生能源產(chǎn)量以及負(fù)荷模型,隨著迭代學(xué)習(xí)的深入,優(yōu)化交易策略,減少交易成本,提高對可再生能源的利用率與用戶滿意度,最終達(dá)到提高長期效益目的。
具體實(shí)施方式
下面結(jié)合實(shí)例進(jìn)一步描述本發(fā)明的技術(shù)方案,但要求保護(hù)的范圍并不局限于所述。
一種基于深度強(qiáng)化學(xué)習(xí)的微電網(wǎng)電能交易方法包括以下步驟:
步驟1:構(gòu)造一個深度卷積神經(jīng)網(wǎng)絡(luò),包含4個層。第一層為卷積層,輸入大小為36,包含有20個3×3的卷積核,步進(jìn)為1,輸出大小為20×4×4;第二層為卷積層,輸入大小為20×4×4,包含有40個2×2的卷積核,步進(jìn)為1,輸出大小為40×3×3;第三層為全連接層,輸入大小為360,輸出大小為180;最后一層為全連接層,輸入大小為180,輸出大小為125。4層都采用relu函數(shù)作為激活函數(shù);
步驟2:初始化深度卷積神經(jīng)網(wǎng)絡(luò)的權(quán)重參數(shù)θ1、輸入序列長度w=11以及網(wǎng)絡(luò)更新的操作次數(shù)b=16;初始化次用戶所有動作的q值;初始化學(xué)習(xí)因子α=0.7,折扣因子γ=0.5;微電網(wǎng)個數(shù)n=3,對于微電網(wǎng)1,與微電網(wǎng)2和3之間的傳輸損耗系數(shù)l12=0.014,l13=0.021,交易價格ρ12=0.5元/kw·h,ρ13=0.42元/kw·h,與電廠之間的傳輸損耗系數(shù)l11=0.037,交易價格為ρ11=0.38元/kw·h。斷電損失系數(shù)p=300,初始化微電網(wǎng)最大儲能值c=5×103kw·h,最大傳輸限制a=3×103kw·h,儲能增益系數(shù)為β=2.7;
步驟3:在k時刻,記錄所有微電網(wǎng)k-1時刻所有微電網(wǎng)的可再生能源產(chǎn)量g(k-1)和負(fù)荷d(k-1),并由此組成當(dāng)前時刻的狀態(tài)s(k)=[g(k-1),d(k-1)];
步驟4:在第k時刻,k<w時,微電網(wǎng)1隨機(jī)選取一組交易方案x1(k)=[x1j]2≤j≤3,x1j∈[-a,a];k>w時,構(gòu)造深度卷積神經(jīng)網(wǎng)絡(luò)的輸入序列
步驟5:微電網(wǎng)1與相連的微電網(wǎng)之間提出交易方案,確定與電網(wǎng)之間的實(shí)際交易量y1j,2≤j≤3以及與電廠的交易量y11;
步驟6:微電網(wǎng)1觀察當(dāng)前時刻的可再生能源產(chǎn)能g(k)和負(fù)荷d(k);
步驟7:微電網(wǎng)1觀察本次交易產(chǎn)生的效益u1(k);
步驟8:記錄k時刻經(jīng)驗(yàn)
步驟9:對第k時刻網(wǎng)絡(luò)的權(quán)重參數(shù)θ1(k)進(jìn)行16次更新操作。在每一次更新過程中,隨機(jī)從經(jīng)驗(yàn)池d中選取一個經(jīng)驗(yàn)
步驟10:根據(jù)環(huán)境變化,重復(fù)步驟3-9,直到微電網(wǎng)1學(xué)習(xí)到穩(wěn)定的交易策略。
本發(fā)明涉及微電網(wǎng)的電能交易方法,屬于智能電網(wǎng)領(lǐng)域。本發(fā)明提供一種基于深度強(qiáng)化學(xué)習(xí)的微電網(wǎng)電能交易方法,制定與其他相連微電網(wǎng)和電廠的電能交易方案。其特征在于,微電網(wǎng)通過無線網(wǎng)絡(luò)收集相連的微電網(wǎng)的可再生能源產(chǎn)量和負(fù)荷以及交易量等信息,基于深度強(qiáng)化學(xué)習(xí)算法,通過觀察自身的電能儲量,決定與其他微電網(wǎng)和電廠之間電能的交易量。微電網(wǎng)不需要預(yù)知自己與其他微電網(wǎng)的產(chǎn)能和負(fù)荷模型,即可實(shí)現(xiàn)最優(yōu)的電能交易方案,該方案可提高可再生能源的利用率,降低對傳統(tǒng)能源的依賴性,增加微電網(wǎng)的長期效益。