本發(fā)明涉及溫度監(jiān)控。更具體地,本發(fā)明涉及一種烘涂機(jī)烘箱監(jiān)控系統(tǒng)及方法。
背景技術(shù):
1、千層蛋糕涂烘機(jī)包括注漿機(jī)、注漿機(jī)傳動(dòng)部分、加熱系統(tǒng)以及控制系統(tǒng)等;其中注漿機(jī)采用大齒輪傳動(dòng),對(duì)蛋糕漿氣泡損壞較少,且注漿機(jī)傳動(dòng)部分采用無縫鋼軌,令每層蛋糕更均勻;加熱系統(tǒng)采用遠(yuǎn)紅外發(fā)熱管,以使烘烤更均勻;控制系統(tǒng)對(duì)傳動(dòng)、速度、溫度進(jìn)行控制,以保證的蛋糕的質(zhì)量。
2、其中,影響蛋糕的質(zhì)量的關(guān)鍵因素之一為溫度,現(xiàn)有的千層蛋糕涂烘機(jī)的控制系統(tǒng)通常采用一個(gè)閉環(huán)反饋調(diào)節(jié)系統(tǒng),如plc控制系統(tǒng),即由溫度傳感器對(duì)烘箱溫度進(jìn)行檢測(cè),并將溫度轉(zhuǎn)換為電信號(hào)輸送給plc,plc根據(jù)需要設(shè)定不同的控制策略,如比例控制、比例-積分-微分(pid)控制等,以確定如何基于溫度輸入信號(hào)調(diào)整輸出信號(hào)以達(dá)到所需的溫度目標(biāo),plc內(nèi)部使用特定的控制算法對(duì)溫度進(jìn)行計(jì)算和調(diào)整,根據(jù)測(cè)量到的溫度信號(hào)計(jì)算出相應(yīng)的控制輸出信號(hào),并將其發(fā)送給加熱系統(tǒng),plc控制加熱系統(tǒng)的工作狀態(tài)和功率;plc對(duì)溫度進(jìn)行監(jiān)測(cè)和反饋控制,通過與溫度傳感器的實(shí)時(shí)通信,持續(xù)監(jiān)測(cè)溫度值,并根據(jù)測(cè)量結(jié)果進(jìn)行調(diào)整,以實(shí)現(xiàn)精確的溫度控制。
3、一般來說,對(duì)于環(huán)境溫度的控制通常采用比例-積分-微分(pid)控制,即通過比例(p)、積分(i)和微分(d)三種控制作用的組合,對(duì)系統(tǒng)的溫度進(jìn)行調(diào)整。
4、但是,pid算法的參數(shù)調(diào)整困難,需要依賴于經(jīng)驗(yàn)和反復(fù)試驗(yàn),才能找到最優(yōu)的參數(shù)組合,這一過程往往耗時(shí)且繁瑣。另外,靜態(tài)的pid參數(shù)難以適應(yīng)變化的溫度環(huán)境,魯棒性較差。
5、因此,如何快速、精準(zhǔn)地進(jìn)行千層蛋糕涂烘機(jī)環(huán)境的溫度的控制是尤為重要的。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的在于提出一種烘涂機(jī)烘箱監(jiān)控系統(tǒng)及方法,用以解決現(xiàn)有的溫度控制魯棒性較差且調(diào)整過程繁瑣的問題;為此,本發(fā)明在如下的兩個(gè)方面中提供方案。
2、在第一方面中,本發(fā)明提供了一種烘涂機(jī)烘箱監(jiān)控方法,包括:
3、獲取上一時(shí)刻的烘箱內(nèi)溫度;
4、根據(jù)所述烘箱內(nèi)溫度,采用預(yù)先獲取的當(dāng)前烘箱內(nèi)環(huán)境的最佳策略,獲取當(dāng)前烘箱內(nèi)的pid控制參數(shù);
5、根據(jù)當(dāng)前烘箱內(nèi)的pid控制參數(shù),計(jì)算出相應(yīng)的控制輸出信號(hào),并將控制輸出新信號(hào)發(fā)送給加熱系統(tǒng),plc控制器控制加熱系統(tǒng)的工作狀態(tài)和功率,以實(shí)現(xiàn)烘箱的溫度監(jiān)控。
6、上述方案中能夠通過對(duì)烘涂機(jī)烘箱內(nèi)的溫度進(jìn)行監(jiān)控,并通過預(yù)先獲取的最佳策略自動(dòng)調(diào)整當(dāng)前烘箱內(nèi)的溫度,以實(shí)現(xiàn)烘箱的溫度監(jiān)控。
7、在一個(gè)實(shí)施例中,所述最佳策略的獲取過程為:
8、確定蒙特卡洛法中的狀態(tài)空間、動(dòng)作空間和動(dòng)作策略函數(shù);所述狀態(tài)空間為提取的獲取歷史烘箱內(nèi)的pid控制曲線的特征值;所述動(dòng)作空間為p±λ、i±λ、d±λ,λ為動(dòng)作調(diào)整步長(zhǎng),p、i、d分別為控制系統(tǒng)中的比例、積分和微分;所述動(dòng)作策略函數(shù)分別與當(dāng)前權(quán)重、當(dāng)前狀態(tài)的行為值函數(shù)正相關(guān);所述行為值函數(shù)為多個(gè)完整狀態(tài)序列中當(dāng)前狀態(tài)的值函數(shù)的平均值;所述當(dāng)前權(quán)重τk(sn,a)為:τk-1(sn,a)表示狀態(tài)動(dòng)作對(duì)<sn,a>所在的第k-1個(gè)完整狀態(tài)序列的權(quán)重,sn為第n次狀態(tài),k≥2,a為狀態(tài)sn對(duì)應(yīng)的動(dòng)作;
9、選取動(dòng)作策略函數(shù)最大時(shí)對(duì)應(yīng)的動(dòng)作時(shí)序作為最佳策略。
10、上述方案中,通過獲取烘箱內(nèi)的環(huán)境的控制曲線,來表征改進(jìn)型強(qiáng)化學(xué)習(xí)模型的狀態(tài)空間,并在后續(xù)構(gòu)建策略函數(shù)時(shí),通過對(duì)歷史烘箱內(nèi)的數(shù)據(jù)進(jìn)行分析,能夠得到多個(gè)完整狀態(tài)序列,并基于多個(gè)完整狀態(tài)序列的值函數(shù)以及更新的權(quán)重,構(gòu)建策略函數(shù),并得到最佳策略函數(shù),相比于現(xiàn)有技術(shù)來說,引入權(quán)重,能夠考慮到多個(gè)完整狀態(tài)序列中的動(dòng)作序列的全局變化的情況,進(jìn)而獲取全局的最佳策略,有利于提高后續(xù)烘箱的溫度獲取的精準(zhǔn)性。
11、在一個(gè)實(shí)施例中,動(dòng)作策略函數(shù)為:
12、
13、其中,τk(sn,a)為第k個(gè)完整狀態(tài)序列的當(dāng)前權(quán)重,為狀態(tài)動(dòng)作對(duì)<sn,a>所在的k個(gè)完整狀態(tài)序列的行為值函數(shù),λ、μ為比例系數(shù),用于調(diào)控權(quán)重和值函數(shù)的重要比例,其中k大于等于2,argmax()為求自變量最大的函數(shù),*為乘號(hào)。
14、上述方案中,引入行為值函數(shù)以及第k次迭代停止后的權(quán)重這一參數(shù),能夠兼顧到不同完整狀態(tài)序列對(duì)應(yīng)的狀態(tài)、動(dòng)作的變化情況,為獲取最佳策略提供了數(shù)據(jù)依據(jù)。
15、在一個(gè)實(shí)施例中,所述完整狀態(tài)序列的獲取過程為:
16、基于初始狀態(tài)和終止?fàn)顟B(tài),多次模擬實(shí)際的環(huán)境互動(dòng),得到多次完整狀態(tài)序列;其中環(huán)境互動(dòng)為:以初始狀態(tài)出發(fā),隨機(jī)選取動(dòng)作空間中的任一動(dòng)作,個(gè)體與環(huán)境交互直到終止?fàn)顟B(tài),得到一個(gè)完整狀態(tài)序列;每個(gè)完整的狀態(tài)序列對(duì)應(yīng)一組動(dòng)作序列和終止?fàn)顟B(tài)對(duì)應(yīng)的值函數(shù);其中,設(shè)定初始狀態(tài)為歷史烘箱內(nèi)實(shí)際溫度所對(duì)應(yīng)的狀態(tài),終止?fàn)顟B(tài)為歷史烘箱內(nèi)環(huán)境達(dá)到的目標(biāo)溫度對(duì)應(yīng)的狀態(tài)。
17、上述方案中,將一個(gè)完整狀態(tài)序列作為烘箱內(nèi)溫度從初始狀態(tài)調(diào)控至結(jié)束狀態(tài)的路徑,由于動(dòng)作空間有多種動(dòng)作,因此,從初始狀態(tài)到結(jié)束狀態(tài)的過程中,其存在多種動(dòng)作的組合,也即存在多種路徑,一種路徑對(duì)應(yīng)一組動(dòng)作,且上述中的一個(gè)完整狀態(tài)序列的值函數(shù)是在每個(gè)完整狀態(tài)序列結(jié)束后更新得到的值函數(shù),無需反饋一次動(dòng)作就更新值函數(shù),提高了獲取值函數(shù)的效率。
18、在一個(gè)實(shí)施例中,在一個(gè)完整的狀態(tài)序列中,值函數(shù)的更新規(guī)則如下:
19、設(shè)置初始值函數(shù),并進(jìn)行初始化;
20、根據(jù)設(shè)置的獎(jiǎng)賞值函數(shù),得到智能體每選取一次動(dòng)作時(shí)對(duì)應(yīng)的獎(jiǎng)賞值,直至獎(jiǎng)賞值的累加和最大,得到完整的狀態(tài)序列,并更新初始值函數(shù);具體更新為:
21、q(sn,a)=r(sn,a)+γq(sn+1,a′);
22、其中,γ為折扣因子,用于衰減未來獎(jiǎng)賞的重要性,q(sn,a)為狀態(tài)動(dòng)作對(duì)<sn,a>的值函數(shù),r(sn,a)為狀態(tài)動(dòng)作對(duì)<sn,a>的獎(jiǎng)賞值函數(shù),其中獎(jiǎng)賞值函數(shù)為當(dāng)前狀態(tài)與下一狀態(tài)的差值與當(dāng)前狀態(tài)的比值,q(sn+1,a′)為狀態(tài)動(dòng)作對(duì)<sn+1,a′>的值函數(shù),a′為狀態(tài)sn+1對(duì)應(yīng)的動(dòng)作,sn為第n次狀態(tài),sn+1為第n+1次狀態(tài)。
23、在一個(gè)實(shí)施例中,所述狀態(tài)空間為s=[s1,s2,…,sn,sn+1,…,sn],在烘箱內(nèi)的溫度控制系統(tǒng)中,智能體從烘箱內(nèi)獲取的特征值z(mì)n,其中zn為狀態(tài)sn對(duì)應(yīng)的控制曲線的特征值,在狀態(tài)sn時(shí)執(zhí)行動(dòng)作a,得到狀態(tài)sn+1,對(duì)應(yīng)的控制曲線的特征值為zn+1;n為狀態(tài)的總次數(shù)。
24、在一個(gè)實(shí)施例中,所述控制曲線的特征值為:z=t*exp(h+β);
25、其中,t為pid控制的輸出從初始值變化到設(shè)定值所需的調(diào)節(jié)時(shí)間,h為超調(diào)量,是指調(diào)控過程中輸出溫度與目標(biāo)值的差異的最大值與調(diào)控目標(biāo)值的比值;hmax為輸出溫度的最大值,hmin為輸出溫度的最小值,hgoal為調(diào)控的目標(biāo)值,β為震蕩頻率,是指輸出在達(dá)到穩(wěn)定狀態(tài)之前震蕩的頻率,b是指輸出達(dá)到穩(wěn)定狀態(tài)之前振蕩的次數(shù),*為乘號(hào)。
26、由于在使用pid算法進(jìn)行溫控時(shí),不同的控制比例將得到不同的控制曲線,且控制曲線可以直觀地反映使用當(dāng)前pid參數(shù)時(shí)烘箱內(nèi)的溫度變化的過程。因此對(duì)控制曲線進(jìn)行分析,提取控制曲線的特征值有利于判斷當(dāng)前pid參數(shù)是否適合。
27、在第二方面中,本發(fā)明還提供了一種烘涂機(jī)烘箱監(jiān)控系統(tǒng),包括:
28、處理器;
29、存儲(chǔ)器,其存儲(chǔ)有烘涂機(jī)烘箱監(jiān)控的計(jì)算機(jī)指令,當(dāng)所述計(jì)算機(jī)指令由所述處理器運(yùn)行時(shí),使得系統(tǒng)執(zhí)行上述第一方面中的烘涂機(jī)烘箱監(jiān)控方法。
30、本發(fā)明的有益效果為:
31、本發(fā)明的方案通過借助環(huán)境強(qiáng)化學(xué)習(xí)模型,可以自適應(yīng)地尋找控制系統(tǒng)內(nèi)合適的pid參數(shù),并對(duì)烘箱溫度進(jìn)行控制,提高了溫度監(jiān)控的精準(zhǔn)度。