国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      基于強(qiáng)化學(xué)習(xí)和注意力機(jī)制的暖通空調(diào)節(jié)能減排方法及系統(tǒng)與流程

      文檔序號(hào):39969046發(fā)布日期:2024-11-15 14:15閱讀:33來(lái)源:國(guó)知局
      基于強(qiáng)化學(xué)習(xí)和注意力機(jī)制的暖通空調(diào)節(jié)能減排方法及系統(tǒng)與流程

      本發(fā)明屬于暖通控制,尤其是涉及一種基于強(qiáng)化學(xué)習(xí)和注意力機(jī)制的暖通空調(diào)節(jié)能減排方法及系統(tǒng)。


      背景技術(shù):

      1、大型工業(yè)暖通空調(diào)能耗高,覆蓋區(qū)域廣,一年總能源賬單普遍在上百萬(wàn)至千萬(wàn)量級(jí)。

      2、傳統(tǒng)的暖通空調(diào)控制系統(tǒng)多采用pid(比例-積分-微分)控制器,它是一種簡(jiǎn)單、成熟的控制方法,廣泛應(yīng)用于工業(yè)過(guò)程控制中,然而也存在著具諸多局限,如單一因素計(jì)算控制,依賴經(jīng)驗(yàn)的粗放式調(diào)試,靜態(tài)規(guī)則設(shè)定,震蕩調(diào)試控制等。隨著人工智能技術(shù)的發(fā)展,特別是機(jī)器學(xué)習(xí)算法的應(yīng)用,暖通空調(diào)控制領(lǐng)域出現(xiàn)了許多創(chuàng)新方法,如,任春盛、烏日汗提出的“人工智能在暖通空調(diào)中的最新應(yīng)用與展望”,美的提出的“綠色數(shù)智未來(lái)”都提及利用機(jī)器學(xué)習(xí)算法來(lái)實(shí)現(xiàn)暖通空調(diào)的節(jié)能減排控制。

      3、但是,在暖通空調(diào)控制中,環(huán)境條件是在不斷變化的,如室內(nèi)外溫濕度、占用率等,一般的機(jī)器學(xué)習(xí)算法難以適應(yīng)不斷變化的環(huán)境條件,從而導(dǎo)致控制效果不佳。而且,在暖通空調(diào)控制領(lǐng)域,我們是希望通過(guò)自動(dòng)控制能夠優(yōu)化長(zhǎng)期的能效和舒適度,一般的機(jī)器學(xué)習(xí)算法只能滿足短期的控制效果,無(wú)法滿足暖通空調(diào)控制的長(zhǎng)期優(yōu)化目標(biāo)需求。為此,有研究提出將強(qiáng)化學(xué)習(xí)應(yīng)用于暖通空調(diào)控制中,如“基于q-learning的空調(diào)系統(tǒng)冷卻側(cè)強(qiáng)化學(xué)習(xí)算法”,該研究具體提出了基于強(qiáng)化學(xué)習(xí)的無(wú)模型優(yōu)化方法,將其用于空調(diào)冷卻水系統(tǒng)的優(yōu)化,其中狀態(tài)變量是濕球溫度和系統(tǒng)冷負(fù)荷,動(dòng)作變量是風(fēng)機(jī)和水泵的頻率,優(yōu)化目標(biāo)是系統(tǒng)效率cop。但是該方法僅關(guān)注了系統(tǒng)效率cop,沒(méi)有考慮到人體舒適性,在暖通空調(diào)控制中實(shí)用性并不強(qiáng)。而且長(zhǎng)期優(yōu)化的成功在很大程度上取決于獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì),前述方案中,存在獎(jiǎng)勵(lì)函數(shù)設(shè)置不合理的問(wèn)題,導(dǎo)致無(wú)法體現(xiàn)強(qiáng)化學(xué)習(xí)在暖通空調(diào)控制中的優(yōu)勢(shì)。


      技術(shù)實(shí)現(xiàn)思路

      1、本發(fā)明的目的是針對(duì)上述問(wèn)題,提出一種基于強(qiáng)化學(xué)習(xí)和注意力機(jī)制的暖通空調(diào)節(jié)能減排方法及系統(tǒng),使用強(qiáng)化學(xué)習(xí)來(lái)對(duì)暖通空調(diào)進(jìn)行控制,實(shí)現(xiàn)確保人體舒適的情況下達(dá)到節(jié)能減排的目的。

      2、一種基于強(qiáng)化學(xué)習(xí)和注意力機(jī)制的暖通空調(diào)節(jié)能減排方法,包括:

      3、訓(xùn)練階段

      4、構(gòu)建以transformer網(wǎng)絡(luò)為主體的強(qiáng)化學(xué)習(xí)模型;

      5、根據(jù)歷史數(shù)據(jù)構(gòu)建s-a序列組合,s表示暖通空調(diào)環(huán)境反饋的狀態(tài),a表示對(duì)暖通空調(diào)的控制動(dòng)作;

      6、使用s-a序列組合,利用交叉損失函數(shù)訓(xùn)練強(qiáng)化學(xué)習(xí)模型;

      7、推理階段

      8、b1.訓(xùn)練后的強(qiáng)化學(xué)習(xí)模型根據(jù)當(dāng)前狀態(tài)預(yù)測(cè)多個(gè)控制組合;

      9、b2.使用獎(jiǎng)勵(lì)函數(shù)選擇前k個(gè)最高獎(jiǎng)勵(lì)的控制動(dòng)作組合;

      10、b3.對(duì)所選的每個(gè)控制動(dòng)作組合,預(yù)測(cè)執(zhí)行該動(dòng)作后的新?tīng)顟B(tài);

      11、b4.對(duì)每個(gè)新?tīng)顟B(tài)預(yù)測(cè)新的控制動(dòng)作組合,選擇累積獎(jiǎng)勵(lì)最高的k個(gè)控制動(dòng)作組合;

      12、b5.重復(fù)b3-b4,直到找到最優(yōu)的動(dòng)作序列;

      13、b6.將累積獎(jiǎng)勵(lì)最高的動(dòng)作序列作為最終決策。

      14、在上述的基于強(qiáng)化學(xué)習(xí)和注意力機(jī)制的暖通空調(diào)節(jié)能減排方法中,當(dāng)根據(jù)狀態(tài)預(yù)測(cè)的控制動(dòng)作組合中包含無(wú)動(dòng)作的控制動(dòng)作組合時(shí),認(rèn)為已找到最優(yōu)的動(dòng)作序列;

      15、或者,當(dāng)根據(jù)狀態(tài)預(yù)測(cè)的控制動(dòng)作組合中,最高累積獎(jiǎng)勵(lì)的控制動(dòng)作組合為無(wú)動(dòng)作時(shí),認(rèn)為已找到最優(yōu)的動(dòng)作序列;

      16、或者,達(dá)到?jīng)Q策的預(yù)定步數(shù)后認(rèn)為已找到最優(yōu)的動(dòng)作序列。

      17、在上述的基于強(qiáng)化學(xué)習(xí)和注意力機(jī)制的暖通空調(diào)節(jié)能減排方法中,推理階段,在最終決策的最后一個(gè)動(dòng)作執(zhí)行完畢之前,重新執(zhí)行步驟b1-b5做出下一階段的最終決策;

      18、在執(zhí)行決策的過(guò)程中,實(shí)時(shí)接收真實(shí)的狀態(tài)信息,當(dāng)真實(shí)狀態(tài)信息與預(yù)測(cè)的狀態(tài)相差超過(guò)設(shè)定狀態(tài)閾值時(shí),重新啟動(dòng)推理執(zhí)行步驟b1-b5;

      19、步驟b1中,強(qiáng)化學(xué)習(xí)模型根據(jù)觀測(cè)到的狀態(tài)st預(yù)測(cè)得到動(dòng)作概率高于設(shè)定閾值的一個(gè)或多個(gè)控制動(dòng)作組合at1、……atn。

      20、在上述的基于強(qiáng)化學(xué)習(xí)和注意力機(jī)制的暖通空調(diào)節(jié)能減排方法中,所述的歷史數(shù)據(jù)為連續(xù)的s-a序列組合,包含了從狀態(tài)到動(dòng)作再到新?tīng)顟B(tài)的狀態(tài)轉(zhuǎn)移信息,以使強(qiáng)化學(xué)習(xí)模型在訓(xùn)練過(guò)程中學(xué)習(xí)根據(jù)狀態(tài)預(yù)測(cè)動(dòng)作的能力,同時(shí)學(xué)習(xí)根據(jù)舊狀態(tài)和執(zhí)行動(dòng)作預(yù)測(cè)新動(dòng)作的能力;

      21、步驟b3中,強(qiáng)化學(xué)習(xí)模型預(yù)測(cè)執(zhí)行該動(dòng)作后的新?tīng)顟B(tài)st+1。

      22、在上述的基于強(qiáng)化學(xué)習(xí)和注意力機(jī)制的暖通空調(diào)節(jié)能減排方法中,所述的狀態(tài)s包括室內(nèi)平均溫度、室內(nèi)平均濕度、送風(fēng)溫度、送風(fēng)濕度、送風(fēng)機(jī)電流頻率;

      23、所述的控制動(dòng)作a包括表冷器閥門(mén)開(kāi)度、加熱器閥門(mén)開(kāi)度、加濕器閥門(mén)開(kāi)度。

      24、在上述的基于強(qiáng)化學(xué)習(xí)和注意力機(jī)制的暖通空調(diào)節(jié)能減排方法中,獎(jiǎng)勵(lì)函數(shù)包括溫濕度懲罰、能耗懲罰和溫濕度標(biāo)準(zhǔn)差懲罰;

      25、且所述的能耗懲罰包括,表冷器閥門(mén)、加熱器閥門(mén)、加濕器閥門(mén)關(guān)閉時(shí)不懲罰,閥門(mén)開(kāi)度從零至一百能耗懲罰線性增加。

      26、在上述的基于強(qiáng)化學(xué)習(xí)和注意力機(jī)制的暖通空調(diào)節(jié)能減排方法中,所述的k為2或3或4或5或6或7或8或9或10。

      27、在上述的基于強(qiáng)化學(xué)習(xí)和注意力機(jī)制的暖通空調(diào)節(jié)能減排方法中,步驟b4中,累積獎(jiǎng)勵(lì)最高的k個(gè)控制動(dòng)作組合與在前的控制動(dòng)作組合構(gòu)成從當(dāng)前狀態(tài)開(kāi)始至當(dāng)前步的k個(gè)動(dòng)作序列;

      28、訓(xùn)練階段:使用獎(jiǎng)勵(lì)函數(shù)離線計(jì)算s-a序列中每一行訓(xùn)練數(shù)據(jù)對(duì)應(yīng)的獎(jiǎng)勵(lì)值,以構(gòu)建s-a-r序列組合,使用s-a-r序列組合,利用交叉損失函數(shù)訓(xùn)練強(qiáng)化學(xué)習(xí)模型。

      29、在上述的基于強(qiáng)化學(xué)習(xí)和注意力機(jī)制的暖通空調(diào)節(jié)能減排方法中,k>2,且步驟s5之前還包括,獲取k個(gè)動(dòng)作序列的累積獎(jiǎng)勵(lì)并排序,當(dāng)排序靠后的動(dòng)作序列較排序第一的動(dòng)作序列累積獎(jiǎng)勵(lì)差值大于設(shè)定差值時(shí),刪除這些動(dòng)作序列,且使k取k-n,n表示刪除的動(dòng)作序列條數(shù),直到k≤2。

      30、一種基于強(qiáng)化學(xué)習(xí)和注意力機(jī)制的暖通空調(diào)節(jié)能減排系統(tǒng),通過(guò)執(zhí)行上述方法進(jìn)行暖通空調(diào)節(jié)能減排控制。

      31、本發(fā)明的優(yōu)點(diǎn)在于:

      32、1、本方案利用強(qiáng)化學(xué)習(xí)進(jìn)行暖通空調(diào)節(jié)能減排的控制,能夠?qū)崿F(xiàn)更精確更細(xì)致的暖通控制,并且利用強(qiáng)化學(xué)習(xí)的環(huán)境學(xué)習(xí)能力使控制系統(tǒng)能夠根據(jù)實(shí)時(shí)反饋?zhàn)詣?dòng)調(diào)整控制策略以適應(yīng)系統(tǒng)變化和外部條件的不確定性,從而不斷提高系統(tǒng)貼合現(xiàn)實(shí)的控制能力;

      33、2、本方案為強(qiáng)化學(xué)習(xí)所設(shè)計(jì)的獎(jiǎng)勵(lì)函數(shù)不僅涉及到了能耗和溫濕度,而且考慮了溫濕度標(biāo)準(zhǔn)差,通過(guò)控制溫濕度波動(dòng)幅度盡可能小來(lái)避免閥門(mén)大開(kāi)大關(guān),以提高系統(tǒng)的穩(wěn)定性,減少噪音和振動(dòng)并延長(zhǎng)設(shè)備使用壽命,以及從減少系統(tǒng)短時(shí)間內(nèi)需消耗大量能量來(lái)達(dá)到設(shè)定溫濕度水平的角度來(lái)降低能源的浪費(fèi);

      34、同時(shí),考慮了包括表冷器、加熱器、加濕器的閥門(mén)開(kāi)度的能耗懲罰,能夠使閥門(mén)開(kāi)度盡可能小,并關(guān)閉不必要的閥門(mén),避免表冷/加熱閥門(mén)同開(kāi)導(dǎo)致冷熱抵消,造成能源浪費(fèi);

      35、3、本方案將transfromer網(wǎng)絡(luò)用于暖通空調(diào)節(jié)能減排控制的強(qiáng)化學(xué)習(xí),利用transfromer的快速學(xué)習(xí)能力,使用歷史2年的數(shù)據(jù)來(lái)訓(xùn)練網(wǎng)絡(luò)構(gòu)建一個(gè)對(duì)不同狀態(tài)變量有不同權(quán)重的強(qiáng)化學(xué)習(xí)模型,使模型學(xué)習(xí)到更準(zhǔn)確的動(dòng)作預(yù)測(cè),使其在實(shí)際應(yīng)用中,所給出的預(yù)測(cè)結(jié)果將獲得更高的獎(jiǎng)勵(lì);

      36、4、本方案推理階段使用獎(jiǎng)勵(lì)函數(shù)在每一步中選擇前k個(gè)最高獎(jiǎng)勵(lì)的控制動(dòng)作組合,使模型學(xué)習(xí)在一系列狀態(tài)中選擇最優(yōu)的動(dòng)作序列,以達(dá)到最大化長(zhǎng)期積累獎(jiǎng)勵(lì)的目標(biāo),并且以是否需要繼續(xù)動(dòng)作來(lái)確定是否繼續(xù)做決策,契合暖通控制的應(yīng)用場(chǎng)景;

      37、5、在進(jìn)行決策過(guò)程中,根據(jù)累積獎(jiǎng)勵(lì)函數(shù)值的大小,剔除較小獎(jiǎng)勵(lì)值的動(dòng)作序列并更新k值,可減輕系統(tǒng)計(jì)算負(fù)擔(dān);如使系統(tǒng)可以選擇較大的k值來(lái)通過(guò)更多的序列動(dòng)作確保最終選擇的正確性,并通過(guò)特定的條件不斷簡(jiǎn)化序列來(lái)抵消使用較大k值所帶來(lái)的計(jì)算負(fù)擔(dān)。

      當(dāng)前第1頁(yè)1 2 
      網(wǎng)友詢問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1