基于強(qiáng)化學(xué)習(xí)和注意力機(jī)制的暖通空調(diào)節(jié)能減排方法及系統(tǒng)與流程

文檔序號(hào)：39969046發(fā)布日期：2024-11-15 14:15閱讀：33來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>控制;調(diào)節(jié)裝置的制造及其應(yīng)用技術(shù)

基于強(qiáng)化學(xué)習(xí)和注意力機(jī)制的暖通空調(diào)節(jié)能減排方法及系統(tǒng)與流程

本發(fā)明屬于暖通控制，尤其是涉及一種基于強(qiáng)化學(xué)習(xí)和注意力機(jī)制的暖通空調(diào)節(jié)能減排方法及系統(tǒng)。

背景技術(shù)：

1、大型工業(yè)暖通空調(diào)能耗高，覆蓋區(qū)域廣，一年總能源賬單普遍在上百萬(wàn)至千萬(wàn)量級(jí)。

2、傳統(tǒng)的暖通空調(diào)控制系統(tǒng)多采用pid(比例-積分-微分)控制器，它是一種簡(jiǎn)單、成熟的控制方法，廣泛應(yīng)用于工業(yè)過(guò)程控制中，然而也存在著具諸多局限，如單一因素計(jì)算控制，依賴經(jīng)驗(yàn)的粗放式調(diào)試，靜態(tài)規(guī)則設(shè)定，震蕩調(diào)試控制等。隨著人工智能技術(shù)的發(fā)展，特別是機(jī)器學(xué)習(xí)算法的應(yīng)用，暖通空調(diào)控制領(lǐng)域出現(xiàn)了許多創(chuàng)新方法，如，任春盛、烏日汗提出的“人工智能在暖通空調(diào)中的最新應(yīng)用與展望”，美的提出的“綠色數(shù)智未來(lái)”都提及利用機(jī)器學(xué)習(xí)算法來(lái)實(shí)現(xiàn)暖通空調(diào)的節(jié)能減排控制。

3、但是，在暖通空調(diào)控制中，環(huán)境條件是在不斷變化的，如室內(nèi)外溫濕度、占用率等，一般的機(jī)器學(xué)習(xí)算法難以適應(yīng)不斷變化的環(huán)境條件，從而導(dǎo)致控制效果不佳。而且，在暖通空調(diào)控制領(lǐng)域，我們是希望通過(guò)自動(dòng)控制能夠優(yōu)化長(zhǎng)期的能效和舒適度，一般的機(jī)器學(xué)習(xí)算法只能滿足短期的控制效果，無(wú)法滿足暖通空調(diào)控制的長(zhǎng)期優(yōu)化目標(biāo)需求。為此，有研究提出將強(qiáng)化學(xué)習(xí)應(yīng)用于暖通空調(diào)控制中，如“基于q-learning的空調(diào)系統(tǒng)冷卻側(cè)強(qiáng)化學(xué)習(xí)算法”，該研究具體提出了基于強(qiáng)化學(xué)習(xí)的無(wú)模型優(yōu)化方法，將其用于空調(diào)冷卻水系統(tǒng)的優(yōu)化，其中狀態(tài)變量是濕球溫度和系統(tǒng)冷負(fù)荷，動(dòng)作變量是風(fēng)機(jī)和水泵的頻率，優(yōu)化目標(biāo)是系統(tǒng)效率cop。但是該方法僅關(guān)注了系統(tǒng)效率cop，沒(méi)有考慮到人體舒適性，在暖通空調(diào)控制中實(shí)用性并不強(qiáng)。而且長(zhǎng)期優(yōu)化的成功在很大程度上取決于獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)，前述方案中，存在獎(jiǎng)勵(lì)函數(shù)設(shè)置不合理的問(wèn)題，導(dǎo)致無(wú)法體現(xiàn)強(qiáng)化學(xué)習(xí)在暖通空調(diào)控制中的優(yōu)勢(shì)。

技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明的目的是針對(duì)上述問(wèn)題，提出一種基于強(qiáng)化學(xué)習(xí)和注意力機(jī)制的暖通空調(diào)節(jié)能減排方法及系統(tǒng)，使用強(qiáng)化學(xué)習(xí)來(lái)對(duì)暖通空調(diào)進(jìn)行控制，實(shí)現(xiàn)確保人體舒適的情況下達(dá)到節(jié)能減排的目的。

2、一種基于強(qiáng)化學(xué)習(xí)和注意力機(jī)制的暖通空調(diào)節(jié)能減排方法，包括：

3、訓(xùn)練階段

4、構(gòu)建以transformer網(wǎng)絡(luò)為主體的強(qiáng)化學(xué)習(xí)模型；

5、根據(jù)歷史數(shù)據(jù)構(gòu)建s-a序列組合，s表示暖通空調(diào)環(huán)境反饋的狀態(tài)，a表示對(duì)暖通空調(diào)的控制動(dòng)作；

6、使用s-a序列組合，利用交叉損失函數(shù)訓(xùn)練強(qiáng)化學(xué)習(xí)模型；

7、推理階段

8、b1.訓(xùn)練后的強(qiáng)化學(xué)習(xí)模型根據(jù)當(dāng)前狀態(tài)預(yù)測(cè)多個(gè)控制組合；

9、b2.使用獎(jiǎng)勵(lì)函數(shù)選擇前k個(gè)最高獎(jiǎng)勵(lì)的控制動(dòng)作組合；

10、b3.對(duì)所選的每個(gè)控制動(dòng)作組合，預(yù)測(cè)執(zhí)行該動(dòng)作后的新?tīng)顟B(tài)；

11、b4.對(duì)每個(gè)新?tīng)顟B(tài)預(yù)測(cè)新的控制動(dòng)作組合，選擇累積獎(jiǎng)勵(lì)最高的k個(gè)控制動(dòng)作組合；

12、b5.重復(fù)b3-b4，直到找到最優(yōu)的動(dòng)作序列；

13、b6.將累積獎(jiǎng)勵(lì)最高的動(dòng)作序列作為最終決策。

14、在上述的基于強(qiáng)化學(xué)習(xí)和注意力機(jī)制的暖通空調(diào)節(jié)能減排方法中，當(dāng)根據(jù)狀態(tài)預(yù)測(cè)的控制動(dòng)作組合中包含無(wú)動(dòng)作的控制動(dòng)作組合時(shí)，認(rèn)為已找到最優(yōu)的動(dòng)作序列；

15、或者，當(dāng)根據(jù)狀態(tài)預(yù)測(cè)的控制動(dòng)作組合中，最高累積獎(jiǎng)勵(lì)的控制動(dòng)作組合為無(wú)動(dòng)作時(shí)，認(rèn)為已找到最優(yōu)的動(dòng)作序列；

16、或者，達(dá)到?jīng)Q策的預(yù)定步數(shù)后認(rèn)為已找到最優(yōu)的動(dòng)作序列。

17、在上述的基于強(qiáng)化學(xué)習(xí)和注意力機(jī)制的暖通空調(diào)節(jié)能減排方法中，推理階段，在最終決策的最后一個(gè)動(dòng)作執(zhí)行完畢之前，重新執(zhí)行步驟b1-b5做出下一階段的最終決策；

18、在執(zhí)行決策的過(guò)程中，實(shí)時(shí)接收真實(shí)的狀態(tài)信息，當(dāng)真實(shí)狀態(tài)信息與預(yù)測(cè)的狀態(tài)相差超過(guò)設(shè)定狀態(tài)閾值時(shí)，重新啟動(dòng)推理執(zhí)行步驟b1-b5；

19、步驟b1中，強(qiáng)化學(xué)習(xí)模型根據(jù)觀測(cè)到的狀態(tài)st預(yù)測(cè)得到動(dòng)作概率高于設(shè)定閾值的一個(gè)或多個(gè)控制動(dòng)作組合at1、……atn。

20、在上述的基于強(qiáng)化學(xué)習(xí)和注意力機(jī)制的暖通空調(diào)節(jié)能減排方法中，所述的歷史數(shù)據(jù)為連續(xù)的s-a序列組合，包含了從狀態(tài)到動(dòng)作再到新?tīng)顟B(tài)的狀態(tài)轉(zhuǎn)移信息，以使強(qiáng)化學(xué)習(xí)模型在訓(xùn)練過(guò)程中學(xué)習(xí)根據(jù)狀態(tài)預(yù)測(cè)動(dòng)作的能力，同時(shí)學(xué)習(xí)根據(jù)舊狀態(tài)和執(zhí)行動(dòng)作預(yù)測(cè)新動(dòng)作的能力；

21、步驟b3中，強(qiáng)化學(xué)習(xí)模型預(yù)測(cè)執(zhí)行該動(dòng)作后的新?tīng)顟B(tài)st+1。

22、在上述的基于強(qiáng)化學(xué)習(xí)和注意力機(jī)制的暖通空調(diào)節(jié)能減排方法中，所述的狀態(tài)s包括室內(nèi)平均溫度、室內(nèi)平均濕度、送風(fēng)溫度、送風(fēng)濕度、送風(fēng)機(jī)電流頻率；

23、所述的控制動(dòng)作a包括表冷器閥門(mén)開(kāi)度、加熱器閥門(mén)開(kāi)度、加濕器閥門(mén)開(kāi)度。

24、在上述的基于強(qiáng)化學(xué)習(xí)和注意力機(jī)制的暖通空調(diào)節(jié)能減排方法中，獎(jiǎng)勵(lì)函數(shù)包括溫濕度懲罰、能耗懲罰和溫濕度標(biāo)準(zhǔn)差懲罰；

25、且所述的能耗懲罰包括，表冷器閥門(mén)、加熱器閥門(mén)、加濕器閥門(mén)關(guān)閉時(shí)不懲罰，閥門(mén)開(kāi)度從零至一百能耗懲罰線性增加。

26、在上述的基于強(qiáng)化學(xué)習(xí)和注意力機(jī)制的暖通空調(diào)節(jié)能減排方法中，所述的k為2或3或4或5或6或7或8或9或10。

27、在上述的基于強(qiáng)化學(xué)習(xí)和注意力機(jī)制的暖通空調(diào)節(jié)能減排方法中，步驟b4中，累積獎(jiǎng)勵(lì)最高的k個(gè)控制動(dòng)作組合與在前的控制動(dòng)作組合構(gòu)成從當(dāng)前狀態(tài)開(kāi)始至當(dāng)前步的k個(gè)動(dòng)作序列；

28、訓(xùn)練階段：使用獎(jiǎng)勵(lì)函數(shù)離線計(jì)算s-a序列中每一行訓(xùn)練數(shù)據(jù)對(duì)應(yīng)的獎(jiǎng)勵(lì)值，以構(gòu)建s-a-r序列組合，使用s-a-r序列組合，利用交叉損失函數(shù)訓(xùn)練強(qiáng)化學(xué)習(xí)模型。

29、在上述的基于強(qiáng)化學(xué)習(xí)和注意力機(jī)制的暖通空調(diào)節(jié)能減排方法中，k＞2，且步驟s5之前還包括，獲取k個(gè)動(dòng)作序列的累積獎(jiǎng)勵(lì)并排序，當(dāng)排序靠后的動(dòng)作序列較排序第一的動(dòng)作序列累積獎(jiǎng)勵(lì)差值大于設(shè)定差值時(shí)，刪除這些動(dòng)作序列，且使k取k-n，n表示刪除的動(dòng)作序列條數(shù)，直到k≤2。

30、一種基于強(qiáng)化學(xué)習(xí)和注意力機(jī)制的暖通空調(diào)節(jié)能減排系統(tǒng)，通過(guò)執(zhí)行上述方法進(jìn)行暖通空調(diào)節(jié)能減排控制。

31、本發(fā)明的優(yōu)點(diǎn)在于：

32、1、本方案利用強(qiáng)化學(xué)習(xí)進(jìn)行暖通空調(diào)節(jié)能減排的控制，能夠?qū)崿F(xiàn)更精確更細(xì)致的暖通控制，并且利用強(qiáng)化學(xué)習(xí)的環(huán)境學(xué)習(xí)能力使控制系統(tǒng)能夠根據(jù)實(shí)時(shí)反饋?zhàn)詣?dòng)調(diào)整控制策略以適應(yīng)系統(tǒng)變化和外部條件的不確定性，從而不斷提高系統(tǒng)貼合現(xiàn)實(shí)的控制能力；

33、2、本方案為強(qiáng)化學(xué)習(xí)所設(shè)計(jì)的獎(jiǎng)勵(lì)函數(shù)不僅涉及到了能耗和溫濕度，而且考慮了溫濕度標(biāo)準(zhǔn)差，通過(guò)控制溫濕度波動(dòng)幅度盡可能小來(lái)避免閥門(mén)大開(kāi)大關(guān)，以提高系統(tǒng)的穩(wěn)定性，減少噪音和振動(dòng)并延長(zhǎng)設(shè)備使用壽命，以及從減少系統(tǒng)短時(shí)間內(nèi)需消耗大量能量來(lái)達(dá)到設(shè)定溫濕度水平的角度來(lái)降低能源的浪費(fèi)；

34、同時(shí)，考慮了包括表冷器、加熱器、加濕器的閥門(mén)開(kāi)度的能耗懲罰，能夠使閥門(mén)開(kāi)度盡可能小，并關(guān)閉不必要的閥門(mén)，避免表冷/加熱閥門(mén)同開(kāi)導(dǎo)致冷熱抵消，造成能源浪費(fèi)；

35、3、本方案將transfromer網(wǎng)絡(luò)用于暖通空調(diào)節(jié)能減排控制的強(qiáng)化學(xué)習(xí)，利用transfromer的快速學(xué)習(xí)能力，使用歷史2年的數(shù)據(jù)來(lái)訓(xùn)練網(wǎng)絡(luò)構(gòu)建一個(gè)對(duì)不同狀態(tài)變量有不同權(quán)重的強(qiáng)化學(xué)習(xí)模型，使模型學(xué)習(xí)到更準(zhǔn)確的動(dòng)作預(yù)測(cè)，使其在實(shí)際應(yīng)用中，所給出的預(yù)測(cè)結(jié)果將獲得更高的獎(jiǎng)勵(lì)；

36、4、本方案推理階段使用獎(jiǎng)勵(lì)函數(shù)在每一步中選擇前k個(gè)最高獎(jiǎng)勵(lì)的控制動(dòng)作組合，使模型學(xué)習(xí)在一系列狀態(tài)中選擇最優(yōu)的動(dòng)作序列，以達(dá)到最大化長(zhǎng)期積累獎(jiǎng)勵(lì)的目標(biāo)，并且以是否需要繼續(xù)動(dòng)作來(lái)確定是否繼續(xù)做決策，契合暖通控制的應(yīng)用場(chǎng)景；

37、5、在進(jìn)行決策過(guò)程中，根據(jù)累積獎(jiǎng)勵(lì)函數(shù)值的大小，剔除較小獎(jiǎng)勵(lì)值的動(dòng)作序列并更新k值，可減輕系統(tǒng)計(jì)算負(fù)擔(dān)；如使系統(tǒng)可以選擇較大的k值來(lái)通過(guò)更多的序列動(dòng)作確保最終選擇的正確性，并通過(guò)特定的條件不斷簡(jiǎn)化序列來(lái)抵消使用較大k值所帶來(lái)的計(jì)算負(fù)擔(dān)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：徐葉琛,吳永尚,張玄遠(yuǎn),徐霄宇,陳圣超,季星佑,喬方圓
技術(shù)所有人：寧波草船科技有限公司
我是此專利的發(fā)明人

上一篇：一種預(yù)應(yīng)力梁的制作方法
上一篇：一種多功能全自動(dòng)打捆機(jī)的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、唐老師：1.高效節(jié)能裝備 2.流動(dòng)穩(wěn)定性 3.汽車(chē)流場(chǎng)分析和淀粉糖工藝技術(shù)。
2、孫老師：1.振動(dòng)信號(hào)時(shí)頻分析理論與測(cè)試系統(tǒng)設(shè)計(jì) 2.汽車(chē)檢測(cè)系統(tǒng)設(shè)計(jì) 3.汽車(chē)電子控制系統(tǒng)設(shè)計(jì)
3、王老師：電子信息處理、先進(jìn)檢測(cè)方法和智能化儀表
4、周老師：1.智能電網(wǎng) 2.新能源利用 3.泛在電力物聯(lián)網(wǎng)
5、趙老師：檢測(cè)與控制技術(shù)、機(jī)器人技術(shù)、機(jī)電一體化技術(shù)
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

基于強(qiáng)化學(xué)習(xí)和注意力機(jī)制的暖通空調(diào)節(jié)能減排方法及系統(tǒng)與流程