本發(fā)明屬于暖通控制,尤其是涉及一種基于強(qiáng)化學(xué)習(xí)和注意力機(jī)制的暖通空調(diào)節(jié)能減排方法及系統(tǒng)。
背景技術(shù):
1、大型工業(yè)暖通空調(diào)能耗高,覆蓋區(qū)域廣,一年總能源賬單普遍在上百萬(wàn)至千萬(wàn)量級(jí)。
2、傳統(tǒng)的暖通空調(diào)控制系統(tǒng)多采用pid(比例-積分-微分)控制器,它是一種簡(jiǎn)單、成熟的控制方法,廣泛應(yīng)用于工業(yè)過(guò)程控制中,然而也存在著具諸多局限,如單一因素計(jì)算控制,依賴經(jīng)驗(yàn)的粗放式調(diào)試,靜態(tài)規(guī)則設(shè)定,震蕩調(diào)試控制等。隨著人工智能技術(shù)的發(fā)展,特別是機(jī)器學(xué)習(xí)算法的應(yīng)用,暖通空調(diào)控制領(lǐng)域出現(xiàn)了許多創(chuàng)新方法,如,任春盛、烏日汗提出的“人工智能在暖通空調(diào)中的最新應(yīng)用與展望”,美的提出的“綠色數(shù)智未來(lái)”都提及利用機(jī)器學(xué)習(xí)算法來(lái)實(shí)現(xiàn)暖通空調(diào)的節(jié)能減排控制。
3、但是,在暖通空調(diào)控制中,環(huán)境條件是在不斷變化的,如室內(nèi)外溫濕度、占用率等,一般的機(jī)器學(xué)習(xí)算法難以適應(yīng)不斷變化的環(huán)境條件,從而導(dǎo)致控制效果不佳。而且,在暖通空調(diào)控制領(lǐng)域,我們是希望通過(guò)自動(dòng)控制能夠優(yōu)化長(zhǎng)期的能效和舒適度,一般的機(jī)器學(xué)習(xí)算法只能滿足短期的控制效果,無(wú)法滿足暖通空調(diào)控制的長(zhǎng)期優(yōu)化目標(biāo)需求。為此,有研究提出將強(qiáng)化學(xué)習(xí)應(yīng)用于暖通空調(diào)控制中,如“基于q-learning的空調(diào)系統(tǒng)冷卻側(cè)強(qiáng)化學(xué)習(xí)算法”,該研究具體提出了基于強(qiáng)化學(xué)習(xí)的無(wú)模型優(yōu)化方法,將其用于空調(diào)冷卻水系統(tǒng)的優(yōu)化,其中狀態(tài)變量是濕球溫度和系統(tǒng)冷負(fù)荷,動(dòng)作變量是風(fēng)機(jī)和水泵的頻率,優(yōu)化目標(biāo)是系統(tǒng)效率cop。但是該方法僅關(guān)注了系統(tǒng)效率cop,沒(méi)有考慮到人體舒適性,在暖通空調(diào)控制中實(shí)用性并不強(qiáng)。而且長(zhǎng)期優(yōu)化的成功在很大程度上取決于獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì),前述方案中,存在獎(jiǎng)勵(lì)函數(shù)設(shè)置不合理的問(wèn)題,導(dǎo)致無(wú)法體現(xiàn)強(qiáng)化學(xué)習(xí)在暖通空調(diào)控制中的優(yōu)勢(shì)。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的是針對(duì)上述問(wèn)題,提出一種基于強(qiáng)化學(xué)習(xí)和注意力機(jī)制的暖通空調(diào)節(jié)能減排方法及系統(tǒng),使用強(qiáng)化學(xué)習(xí)來(lái)對(duì)暖通空調(diào)進(jìn)行控制,實(shí)現(xiàn)確保人體舒適的情況下達(dá)到節(jié)能減排的目的。
2、一種基于強(qiáng)化學(xué)習(xí)和注意力機(jī)制的暖通空調(diào)節(jié)能減排方法,包括:
3、訓(xùn)練階段
4、構(gòu)建以transformer網(wǎng)絡(luò)為主體的強(qiáng)化學(xué)習(xí)模型;
5、根據(jù)歷史數(shù)據(jù)構(gòu)建s-a序列組合,s表示暖通空調(diào)環(huán)境反饋的狀態(tài),a表示對(duì)暖通空調(diào)的控制動(dòng)作;
6、使用s-a序列組合,利用交叉損失函數(shù)訓(xùn)練強(qiáng)化學(xué)習(xí)模型;
7、推理階段
8、b1.訓(xùn)練后的強(qiáng)化學(xué)習(xí)模型根據(jù)當(dāng)前狀態(tài)預(yù)測(cè)多個(gè)控制組合;
9、b2.使用獎(jiǎng)勵(lì)函數(shù)選擇前k個(gè)最高獎(jiǎng)勵(lì)的控制動(dòng)作組合;
10、b3.對(duì)所選的每個(gè)控制動(dòng)作組合,預(yù)測(cè)執(zhí)行該動(dòng)作后的新?tīng)顟B(tài);
11、b4.對(duì)每個(gè)新?tīng)顟B(tài)預(yù)測(cè)新的控制動(dòng)作組合,選擇累積獎(jiǎng)勵(lì)最高的k個(gè)控制動(dòng)作組合;
12、b5.重復(fù)b3-b4,直到找到最優(yōu)的動(dòng)作序列;
13、b6.將累積獎(jiǎng)勵(lì)最高的動(dòng)作序列作為最終決策。
14、在上述的基于強(qiáng)化學(xué)習(xí)和注意力機(jī)制的暖通空調(diào)節(jié)能減排方法中,當(dāng)根據(jù)狀態(tài)預(yù)測(cè)的控制動(dòng)作組合中包含無(wú)動(dòng)作的控制動(dòng)作組合時(shí),認(rèn)為已找到最優(yōu)的動(dòng)作序列;
15、或者,當(dāng)根據(jù)狀態(tài)預(yù)測(cè)的控制動(dòng)作組合中,最高累積獎(jiǎng)勵(lì)的控制動(dòng)作組合為無(wú)動(dòng)作時(shí),認(rèn)為已找到最優(yōu)的動(dòng)作序列;
16、或者,達(dá)到?jīng)Q策的預(yù)定步數(shù)后認(rèn)為已找到最優(yōu)的動(dòng)作序列。
17、在上述的基于強(qiáng)化學(xué)習(xí)和注意力機(jī)制的暖通空調(diào)節(jié)能減排方法中,推理階段,在最終決策的最后一個(gè)動(dòng)作執(zhí)行完畢之前,重新執(zhí)行步驟b1-b5做出下一階段的最終決策;
18、在執(zhí)行決策的過(guò)程中,實(shí)時(shí)接收真實(shí)的狀態(tài)信息,當(dāng)真實(shí)狀態(tài)信息與預(yù)測(cè)的狀態(tài)相差超過(guò)設(shè)定狀態(tài)閾值時(shí),重新啟動(dòng)推理執(zhí)行步驟b1-b5;
19、步驟b1中,強(qiáng)化學(xué)習(xí)模型根據(jù)觀測(cè)到的狀態(tài)st預(yù)測(cè)得到動(dòng)作概率高于設(shè)定閾值的一個(gè)或多個(gè)控制動(dòng)作組合at1、……atn。
20、在上述的基于強(qiáng)化學(xué)習(xí)和注意力機(jī)制的暖通空調(diào)節(jié)能減排方法中,所述的歷史數(shù)據(jù)為連續(xù)的s-a序列組合,包含了從狀態(tài)到動(dòng)作再到新?tīng)顟B(tài)的狀態(tài)轉(zhuǎn)移信息,以使強(qiáng)化學(xué)習(xí)模型在訓(xùn)練過(guò)程中學(xué)習(xí)根據(jù)狀態(tài)預(yù)測(cè)動(dòng)作的能力,同時(shí)學(xué)習(xí)根據(jù)舊狀態(tài)和執(zhí)行動(dòng)作預(yù)測(cè)新動(dòng)作的能力;
21、步驟b3中,強(qiáng)化學(xué)習(xí)模型預(yù)測(cè)執(zhí)行該動(dòng)作后的新?tīng)顟B(tài)st+1。
22、在上述的基于強(qiáng)化學(xué)習(xí)和注意力機(jī)制的暖通空調(diào)節(jié)能減排方法中,所述的狀態(tài)s包括室內(nèi)平均溫度、室內(nèi)平均濕度、送風(fēng)溫度、送風(fēng)濕度、送風(fēng)機(jī)電流頻率;
23、所述的控制動(dòng)作a包括表冷器閥門(mén)開(kāi)度、加熱器閥門(mén)開(kāi)度、加濕器閥門(mén)開(kāi)度。
24、在上述的基于強(qiáng)化學(xué)習(xí)和注意力機(jī)制的暖通空調(diào)節(jié)能減排方法中,獎(jiǎng)勵(lì)函數(shù)包括溫濕度懲罰、能耗懲罰和溫濕度標(biāo)準(zhǔn)差懲罰;
25、且所述的能耗懲罰包括,表冷器閥門(mén)、加熱器閥門(mén)、加濕器閥門(mén)關(guān)閉時(shí)不懲罰,閥門(mén)開(kāi)度從零至一百能耗懲罰線性增加。
26、在上述的基于強(qiáng)化學(xué)習(xí)和注意力機(jī)制的暖通空調(diào)節(jié)能減排方法中,所述的k為2或3或4或5或6或7或8或9或10。
27、在上述的基于強(qiáng)化學(xué)習(xí)和注意力機(jī)制的暖通空調(diào)節(jié)能減排方法中,步驟b4中,累積獎(jiǎng)勵(lì)最高的k個(gè)控制動(dòng)作組合與在前的控制動(dòng)作組合構(gòu)成從當(dāng)前狀態(tài)開(kāi)始至當(dāng)前步的k個(gè)動(dòng)作序列;
28、訓(xùn)練階段:使用獎(jiǎng)勵(lì)函數(shù)離線計(jì)算s-a序列中每一行訓(xùn)練數(shù)據(jù)對(duì)應(yīng)的獎(jiǎng)勵(lì)值,以構(gòu)建s-a-r序列組合,使用s-a-r序列組合,利用交叉損失函數(shù)訓(xùn)練強(qiáng)化學(xué)習(xí)模型。
29、在上述的基于強(qiáng)化學(xué)習(xí)和注意力機(jī)制的暖通空調(diào)節(jié)能減排方法中,k>2,且步驟s5之前還包括,獲取k個(gè)動(dòng)作序列的累積獎(jiǎng)勵(lì)并排序,當(dāng)排序靠后的動(dòng)作序列較排序第一的動(dòng)作序列累積獎(jiǎng)勵(lì)差值大于設(shè)定差值時(shí),刪除這些動(dòng)作序列,且使k取k-n,n表示刪除的動(dòng)作序列條數(shù),直到k≤2。
30、一種基于強(qiáng)化學(xué)習(xí)和注意力機(jī)制的暖通空調(diào)節(jié)能減排系統(tǒng),通過(guò)執(zhí)行上述方法進(jìn)行暖通空調(diào)節(jié)能減排控制。
31、本發(fā)明的優(yōu)點(diǎn)在于:
32、1、本方案利用強(qiáng)化學(xué)習(xí)進(jìn)行暖通空調(diào)節(jié)能減排的控制,能夠?qū)崿F(xiàn)更精確更細(xì)致的暖通控制,并且利用強(qiáng)化學(xué)習(xí)的環(huán)境學(xué)習(xí)能力使控制系統(tǒng)能夠根據(jù)實(shí)時(shí)反饋?zhàn)詣?dòng)調(diào)整控制策略以適應(yīng)系統(tǒng)變化和外部條件的不確定性,從而不斷提高系統(tǒng)貼合現(xiàn)實(shí)的控制能力;
33、2、本方案為強(qiáng)化學(xué)習(xí)所設(shè)計(jì)的獎(jiǎng)勵(lì)函數(shù)不僅涉及到了能耗和溫濕度,而且考慮了溫濕度標(biāo)準(zhǔn)差,通過(guò)控制溫濕度波動(dòng)幅度盡可能小來(lái)避免閥門(mén)大開(kāi)大關(guān),以提高系統(tǒng)的穩(wěn)定性,減少噪音和振動(dòng)并延長(zhǎng)設(shè)備使用壽命,以及從減少系統(tǒng)短時(shí)間內(nèi)需消耗大量能量來(lái)達(dá)到設(shè)定溫濕度水平的角度來(lái)降低能源的浪費(fèi);
34、同時(shí),考慮了包括表冷器、加熱器、加濕器的閥門(mén)開(kāi)度的能耗懲罰,能夠使閥門(mén)開(kāi)度盡可能小,并關(guān)閉不必要的閥門(mén),避免表冷/加熱閥門(mén)同開(kāi)導(dǎo)致冷熱抵消,造成能源浪費(fèi);
35、3、本方案將transfromer網(wǎng)絡(luò)用于暖通空調(diào)節(jié)能減排控制的強(qiáng)化學(xué)習(xí),利用transfromer的快速學(xué)習(xí)能力,使用歷史2年的數(shù)據(jù)來(lái)訓(xùn)練網(wǎng)絡(luò)構(gòu)建一個(gè)對(duì)不同狀態(tài)變量有不同權(quán)重的強(qiáng)化學(xué)習(xí)模型,使模型學(xué)習(xí)到更準(zhǔn)確的動(dòng)作預(yù)測(cè),使其在實(shí)際應(yīng)用中,所給出的預(yù)測(cè)結(jié)果將獲得更高的獎(jiǎng)勵(lì);
36、4、本方案推理階段使用獎(jiǎng)勵(lì)函數(shù)在每一步中選擇前k個(gè)最高獎(jiǎng)勵(lì)的控制動(dòng)作組合,使模型學(xué)習(xí)在一系列狀態(tài)中選擇最優(yōu)的動(dòng)作序列,以達(dá)到最大化長(zhǎng)期積累獎(jiǎng)勵(lì)的目標(biāo),并且以是否需要繼續(xù)動(dòng)作來(lái)確定是否繼續(xù)做決策,契合暖通控制的應(yīng)用場(chǎng)景;
37、5、在進(jìn)行決策過(guò)程中,根據(jù)累積獎(jiǎng)勵(lì)函數(shù)值的大小,剔除較小獎(jiǎng)勵(lì)值的動(dòng)作序列并更新k值,可減輕系統(tǒng)計(jì)算負(fù)擔(dān);如使系統(tǒng)可以選擇較大的k值來(lái)通過(guò)更多的序列動(dòng)作確保最終選擇的正確性,并通過(guò)特定的條件不斷簡(jiǎn)化序列來(lái)抵消使用較大k值所帶來(lái)的計(jì)算負(fù)擔(dān)。